Apuntes de Series Temporales David Rodrı́guez 17 de Noviembre de 2009 1. Modelos de Series Temporales Modelo AR(1) El modelo AutoRegresivo AR(1) es un proceso aleatorio de la forma Xt = ϕXt−1 + σϵt , ϵt ∼ N (0, 1) Se trata de un caso particular del modelo AR(p) con un solo retraso (p = 1). Afirmamos sin demostración que la condición que se debe pedir para que la serie temporal sea estacionaria es |ϕ| < 1. (aunque se ve claramente a partir de la solución explı́cita para el AR(1) considerado como una ecuación de diferencias de primer orden que derivamos la semana anterior: Si |ϕ| fuera mayor que 1, el término que depende de las condiciones iniciales en la solución, ϕt X0 , crecerı́a sin lı́mite con t). En caso de que ϕ = 1 tenemos un browniano aritmético, que como ya vimos, no es estacionario (el proceso con ϕ = 1 tiene media cero y varianza que crece lienealemnte con el tiempo como σ 2 t). Suponiendo |ϕ| < 1 y por tanto, Xt estacionario calculamos :0 E[Xt ] = ϕE[Xt−1 ] + σE[ϵ t ] = ϕE[Xt ] donde hemos usado en particular que la media es independiente de t. Siendo ϕ ̸= 1, la única posibilidad de que se cumpla la igualdad es E[Xt ] = 0 Para la varianza se procede de forma similar. Como la media del proceso es 0, la varianza se puede calcular directamente como E[Xt2 ]. Calculamos pues Xt2 directamente, utilizando la ecuación que define el proceso temporal 2 Xt2 = (ϕXt−1 + σϵt )2 = ϕ2 Xt−1 + σ 2 ϵ2t + 2σϕXt−1 ϵt y aplicamos el operador que permite el cálculo del valor esperado (E[·], operador lineal) (a) 2 V ar(Xt ) = E[Xt2 ] = ϕ2 E[Xt−1 ] + 2σϕE[Xt−1 ϵt ] + σ 2 E[ϵ2t ] (b) = ϕ2 V ar(Xt ) + 2σϕE[Xt−1 ]E[ϵt ] + σ 2 E[ϵ2t ] (c) = ϕ2 V ar(Xt ) + σ 2 1 En (a) se ha aplicado linealidad dela esperanza, en (b) la independencia entre Xt−1 y ϵt , y en (c) se han sustituido los valores conocidos para el ruido blanco gaussiano E[ϵt ] = 0 y E[ϵ2t ] = 1. Ahora podemos despejar la varianza obteniendo V ar(Xt ) = σ2 1 − ϕ2 Por último, calculamos la función de covarianzas γ. En este caso tenemos Cov(Xs , Xt ) = E[(Xs − E[Xs ])(Xt − E[Xt ])] = E[Xs Xt ] ∀s, t por ser 0 la media. Se nos ocurre pues multiplicar ambos lados de la serie por Xt+τ , con τ > 0 y tomar esperanzas γ(τ ) = E[Xt Xt+τ ] = E[ϕXt−1 Xt+τ + σϵt Xt+τ ] = ϕE[Xt−1 Xt+τ ] + σE[ϵt Xt+τ ] = ... Problema... Si τ es positivo hay dependencia entre las variables ϵt y Xt+τ y no puedo separar esperanzas en σE[ϵt Xt+τ ]. Necesitarı́a tener ϵt y Xt−τ (que sı́ son independientes) para que el valor esperado del producto de estas cantidades se pueda calcular como producto de valores esperados. Esto no supone un problema ya que γ(t + τ, t) = γ(t̃, t̃ − τ ), y al ser la serie estacionaria γ es independiente de t. Vamos a probar de nuevo... γ(τ ) = E[Xt Xt−τ ] = E[ϕXt−1 Xt−τ + σϵt Xt−τ ] = ϕE[Xt−1 Xt−τ ] + σE[ϵt Xt−τ ] = ϕE[Xt−1 Xt−τ ] + σ E[ϵ t ]E[Xt−τ ] = ϕγ(τ − 1) = . . . = ϕτ γ(0) Dado que ϵt y Xt−τ con τ > 0 son independientes, el valor esperado de su producto factoriza como producto de valores esperados E[ϵt Xt−τ ] = E[ϵt ]E[Xt−τ ]. Sólo queda observar que γ(τ ) = γ(−τ ) y que γ(0) = V ar(Xt ) para concluir γ(τ ) = σ2 ϕ|τ | 1 − ϕ2 ρ(τ ) = γ(τ )/γ(0) = ϕ|τ | La evolución de la autocorrelación podemos representarla mediante un diagrama de autocorrelaciones, como el que aparece en la figura 1. Podemos ponerla en forma de decaimiento exponiencial para calcular el tiempo de vida medio de la serie. 2 1.2 1 φ 0.8 ρ(τ) φ2 0.6 φ3 φ4 0.4 φ5 6 φ φ7 φ8 0.2 φ9 φ10 φ11 φ12 φ13 φ14 φ15 0 0 2 4 6 8 10 12 14 τ Figura 1: Diagrama de autocorrelación para la serie Xt = 0,85Xt−1 + σϵt . ϕ|τ | = e|τ | log ϕ ≡ e−τ /τm =⇒ τm = − 1 log ϕ Observar que si se tuviera |ϕ| = 1 el tiempo de vida serı́a infinito ya que la serie no converge. Modelo AR(1) generalizado Ahora consideramos Xt = ϕ0 + ϕ1 Xt−1 + σϵt , ϵt ∼ N (0, 1) Usando, como antes, que el proceso es estacionario (E[Xt ] = E[Xt−1 ]) obtenemos E[Xt ] = ϕ0 + ϕ1 E[Xt−1 ] → (1 − ϕ1 )E[Xt ] = ϕ0 → E[Xt ] = ϕ0 1 − ϕ1 Para la varianza usamos el hecho de que Xt −E[Xt ] = (ϕ0 +ϕ1 Xt−1 +σϵt )−(ϕ0 +ϕ1 E[Xt−1 ]) = ϕ1 (Xt−1 −E[Xt−1 ])+σϵt con lo que la variable Xt − E[Xt ] sigue el proceso anterior y se tiene V ar(Xt ) = E[(Xt − E[Xt ])2 ] = 3 σ2 1 − ϕ1 Otros Modelos En el cuadro 1 se describen algunos modelos más complicados. En todos los casos ϵt ∼ N (0, 1). AR(2) Auto Xt = ϕ0 + ϕ1 Xt−1 ϕ2 Xt−2 + σϵt Xt = θ0 + θ1 ϵt−1 + θ2 ϵt−2 + σϵt Xt = ϕ0 + ϕ1 Xt−1 + AR(1) Xt = Autoregressive ut = θ1 ϵt−1 + θ2 ϵt−2 + σϵt √ ϕ0 + ϕ1 Xt−1 + ht ϵt √ ht ϵ t Conditional ht = κ + α1 u2t−1 + α2 u2t−2 Regressive 2 retrasos MA(2) Moving Average 2 retrasos ARMA(1,2) AR(1) MA(2) AR(1) + ARCH(2) ut ≡ innovación, ht ≡ volatilidad Heteroskedasticity 2 retrasos ARMA(1,1) + GARCH(1,2) √ ARMA(1,1) Xt = Generalized ut = ϕ0 + ϕ1 Xt−1 θ1 ϵt−1 + √ ht ϵ t ht ϵ t ARCH(1,2) ht = κ + α1 u2t−1 + β1 ht−1 + β2 ht−2 AR(1) + Buen modelo para el IBEX35 GARCH(1,1) Cuadro 1: Otros modelos 2. Estimación de Modelos Hasta ahora, me han dado un modelo, por ejemplo AR(1), y he extraı́do propiedades de él. Ahora cambiamos el enfoque. Lo que se nos da ahora es una conjunto de datos empı́ricos de la serie temporal. Por ejemplo, X1 , X2 , . . . , XT que siguen AR(1) y me interesa estimar los parámetros de la serie σ̂, ϕˆ0 , ϕˆ1 . Vamos a ver varios modos posibles para estimar estos parámetros 4 Método de Momentos El método de momentos consiste en la estimación de parámetros del modelo igualando momentos muestrales con momentos teóricos, y resolviendo las ecuaciones resultantes para las variables que se quieran estimar. Para obtener estimadores no sesgados (que converjan al valor real cuando crece el tamaño de la muestra) necesito modelos ergódicos, como es el caso. Ejemplos: E[Xt ] ≈ ⟨X⟩ = T 1∑ Xt T t=1 ⟨ ⟩ V ar(Xt ) ≈ (Xt − ⟨Xt ⟩)2 = 1 ∑ (Xt − ⟨Xt ⟩)2 T − 1 t=1 T T 1∑ σ̂ (Xt − ⟨Xt ⟩)2 = 2 T t=1 1 − ϕˆ1 T ⟨ ⟩ 1∑ ρ(1) = γ(1) = ϕ1 ≈ (Xt − ⟨Xt ⟩)2 = (Xt − ⟨Xt ⟩)(Xt−1 − ⟨Xt−1 ⟩) T t=2 T →∞ ≈ Nótese que en la última ecuación se ha utilizado 1/T en lugar de 1/(T − 1) en el estimador para la autocovarianza. En general la diferencia para valores grandes de T es despreciable, y este estimador tiene la ventaja de que origina una matriz de autocovarianzas definida positiva. Además, merece la pena señalar que aunque el modelo sea ergódico (es decir, aunque el promedio sobre la distribución estacionaria del proceso se pueda estimar a partir de un promedio en el tiempo), las estimaciones de la autocovarianza γ(τ ) a partir de la muestra empı́rica sólo serán buenas si τ ≪ T . Una última observación explica que aparezcan bandas de confianza en los correlogramas, como los que aparecen en la figura 2. Representan la incertidumbre por tener un número finito de observaciones. Se obtienen considerando la propia estimación de la autocorrelación como una variable aleatoria, que para un número grande de muestras tenderá a una distribución normal (Teorema del Lı́mite Central). Una vez observado esto, se fija un grado (porcentaje de confianza) y se calculan el tamaño de la franja para que la probabilidad de caer en ella sea la elegida. Método de Mı́nimos Cuadrados Dada una muestra {(xn , yn )}N 1 , quiero obtener una recta y = ax+b de modo que minimize N ∑ (yi − axi − b)2 i=1 Las soluciones a este problema son â = d Cov(x, y) d V ar(x) b̂ = ⟨y⟩ − â⟨x⟩ 5 Figura 2: Función de autocorrelación muestral de n=200 observaciones de un proceso MA(1). Tomado de “Introduction to Time Series and Forecasting”, de Brockwell & Davis. La motivación de aplicar este método se ve cláramente en la forma del modelo. Los datos de muestra que se nos proporcionan tendrán un cierto error σϵn , ϵn ∼ N (0, 1). Pero este es justo el modelo AR(1), tomando ϕ0 = b y ϕ1 = a. Es por ello que el modelo se llama Autoregresivo, por que se aproxima por regresión sobre la propia serie. Método de Máxima Verosimilitud En general se utiliza el Método de Máxima Verosimilitud. La función de verosimilitud se define, fijadas las muestras X1 , . . . , XT , como la pdf de (X1 , . . . , XT ) como función de los parámetros ϕ0 , ϕ1 , σ (nótese que los parámetros dependen del modelo, en este caso AR(1)). L(ϕ0 , ϕ1 , σ; {Xt }Tt=1 ) = p(X1 , . . . , XT ; ϕ0 , ϕ1 , σ) Por la forma del modelo AR(1), podemos hacer una hipótesis de independencia condicionada, y se tiene L(ϕ0 , ϕ1 , σ; {Xt }Tt=1 ) T ∏ = p(Xt |Xt−1 ; ϕ0 , ϕ1 , σ) t=2 Los estimadores de máxima verosimilitud son aquellos que maximizan la función de verosimilitud, es decir, (ϕ∗0 , ϕ∗1 , σ ∗ ) = argmax L(ϕ0 , ϕ1 , σ; {Xt }Tt=1 ) ϕ0 ,ϕ1 ,σ Sin embargo, estos productos son difı́ciles de tratar computacionalmente ya que sus valores se disparan. No obstante, si tomamos logaritmos, los productos se van a transformar en sumas, más manejables. Además, el logaritmo es una transformación monótona creciente y que por tanto conserva el máximo con 6 lo que no influye en nuestro cálculo. La función transformada que se busca optimizar recibe el nombre de Log-Verosimilitud. LL(ϕ0 , ϕ1 , σ) = log(L(ϕ0 , ϕ1 , σ; {Xt }Tt=1 ) = T ∑ ( ) log p(Xt |Xt−1 ; ϕ0 , ϕ1 , σ) t=2 Se puede verificar que la maximización de la verosimilitud en un modelo lineal como el AR(1) haciendo la hipótesis de que las innovaciones son gaussianas conduce a la misma estimación para los parámetros del modelo que mı́nimos cuadrados. 7