Series Temporales Alba Martı́n Lázaro 1/12/09 1. Solución al ejercicio propuesto OBJETIVO Dada una serie temporal {Xt }Tt=0 , cuyos valores conocemos. Suponemos el modelo que ha generado estos datos empı́ricos es un proceso AR(1). Xt = φ0 + φ1 Xt−1 + σt , t es ruido blanco ¿Cómo se encuentran los valores de parámetros φ0 , φ1 , σ que proporcionan un mejor ajuste a los datos? No existe un único método para encontrarlos. Consideraremos Mı́nimos cuadrados (minimización del error cuadrático medio, ECM) Mı́nimización del promedio de la desviación absoluta (MAD = Mean absolute deviation) Máxima verosimilitud. Respuesta 1: Por mı́nimos cuadrados. Mi modelo: Xt = φ0 + φ1 Xt−1 | {z } parte determinista (predecible) t RUIDO BLANCO E[t t0 ] = δtt0 1 + σt |{z} parte estocástica (innovaciones) E[t Xt−τ ] = 0; τ > 0 PREDICCIÓN ÓPTIMA del MODELO SUPONIENDO que CONOZCO It−1 (INFORMACIÓN HASTA (t-1)) X̂t = E[Xt |It−1 ] Nota 1: It−1 = {Xτ , τ }t−1 τ =−∞ ´ Nota 2: Xt = valor real (muestra emp{irica); X̂t = valor predicho por el modelo En el caso de un proceso AR(1), la única información de It−1 relevante para determinar el valor de Xt es Xt−1 El predictor lineal óptimo serı́a en este caso: AR(1) X̂t ≡ E[Xt |Xt−1 ] = φ0 + φ1 Xt−1 ECM = 1 T PT τ =1 (Xt − X̂t )2 |{z} PREDICTOR en función de It−1 Ejemplo: AR(1) ECM = ∂ECM ∂φ0 1 T =0 PT − (φ0 + φ1 Xt−1 ))2 ) = 0 −→ φˆ0 , φˆ1 t=1 (Xt ∂ECM ∂φ1 Respuesta 2 .Máxima verosimilitud. Para este método es necesario especificar la distribución del ruido. Supongamos que el ruido es gaussiano t ∼ N (0, 1) [HIP. 3] En este caso, la función de verosimilitud (probabilidad de haber observado los datos empı́ricos de la serie temporal, suponiendo conocido el modelo) 2 se puede escribir como: L(φ0 , φ1 , σ; {Xt }Tt=0 ) = P (X1 , X2 , . . . , Xt |X0 ; φ0 , φ1 , σ) = T Y P (Xt |It−1 ) t=1 Dado que t ∼ N (0, 1) −→ 1 −2 P (t ) = √ exp t 2 2π ¿Cómo se calcula P (Xt |Xt−1 )? Siendo Xt = φ0 + φ1 Xt−1 + σt entonces t = 1 (Xt − (φ0 + φ1 Xt−1 )). σ Si conozco Xt−1 entonces Xt es la única fuente de aleatoriedad: La distribución de densidad de probabilidad de Xt condicionada al valor conocido para Xt−1 es 1 (Xt − (φ0 + φ1 Xt−1 ))2 P (Xt |Xt−1 ) = √ exp − 2σ 2 2πσ ACLARACIÓN: probabilidad condicional 6= probabilidad incondicional Xt−1 F IJO Xt = φ0 + φ1 Xt−1 + σt −→ Xt ∼ N (φ0 + φ1 Xt−1 , σ) (distribución de densidad de probabilidad condicionada al valor de Xt−1 ) Xt−1 ALEAT ORIO φ0 σ √ Xt = φ0 + φ1 Xt−1 + σt −→ Xt ∼ N 1−φ1 , 2 1−φ1 (distribución de densidad de probabilidad incondicional) E(Xt ) = φ0 + φ1 E(Xt ) → E(Xt ) = φ P (Xt ) = r 1 2πσ 2 (1−φ2 1) exp[− 0 (Xt − (1−φ 1) 2σ 2 (1−φ2 1) )2 φ0 (1−φ1 ) V ar(Xt ) = σ2 1−φ21 ] (probabilidad incondicional) FUNCIÓN DE VEROSIMILITUD para AR(1) 3 La función de verosimilitud factoriza L(φ0 , φ1 , σ) = P (X1 , X2 , . . . , Xt |X0 ; φ0 , φ1 , σ) = T Y P (Xt |Xt−1 ) t=1 T Y 1 T /2 1 = ( ) exp[− 2 (Xt − (φ0 + φ1 Xt−1 ))2 ] 2 2πσ 2σ t=1 = ( T 1 T /2 1 X (Xt − (φ0 + φ1 Xt−1 ))2 ](1.1) ) exp[− 2πσ 2 2σ 2 t=1 LOG-VEROSIMILITUD LL = logL = T X logP (Xt |It−1 ) t=1 Para un AR(1) T T 1 X T 2 [Xt − (φ0 + φ1 Xt−1 )]2 LL(φ0 , φ1 , σ) = − log2π − logσ − 2 2 2 2σ t=1 MAXIMIZAR LA VEROSIMILITUD = MAXIMIZAR LA LOG-VEROSIMILITUD (ya que el valor de x que maximiza f (x) es el mismo que el que maximiza log f (x)). IMPORTANTE: Los valores de los parámetros que se obtienen como resultado de MAXIMIZAR LA LOG-VEROSIMILITUD son iguales a los que resultan de MINIMIZAR EL ECM cuando se cumplen las hipótesis (2) y (3). Es decir, cuando el ruido es: (hip. 2) RUIDO BLANCO (hip. 3) GAUSSIANO La hipótesis 2 es más importante porque gracias a ella la verosimilitud factoriza como producto de densidades de probabilidad unidimensionales (ver expresión (1.1)). 4 La hipótesis (3) es importante porque gracias a ella la función de densidad −2 de probabilidad es: P (t ) = √12π exp 2 t Sin en lugar de suponer un modelo gaussiano, suponemos que el ruido blanco está distribuido como una distribución de Laplace : t ∼ p(t ) = exp−|t | 2 MODELO: Xt = φ0 + φ1 Xt−1 + σt −|| d exp2 −∞ R∞ = R∞ 0 dexp − ∞ = −exp = 1 − 0 T X T 1 LL(φ0 , φ1 , σ) = − T2 logσ − 2σ |Xt − (φ0 + φ1 Xt−1 )|] [ T t=1 | {z } desviacion absoluta media M AD ≡ |{z} MÁXIMA VEROSIMILITUD (1)RU IDO BLAN CO ECM = 1 T PT t=1 MINIMIZAR MAD dist.∼e−|| |Xt − (φ0 + φ1 Xt−1 )|2 Puede ser preferible suponer que la distribuciı́on del ruido es Laplace en lugar de gaussiana porque el modelo resultante es más robusto frente a puntos anómalos (outliers). Dado que en el ECM los errores están elevados al cuadrado, los outliers, puntos para los que la magnitud del error es elevada, tienen una contribución que podrı́a ser excesa en el ECM (efecto de palanca). Sin embargo, el método de minimizar la desviación absoluta media tiene el inconveniente de que la derivada del valor absoluto presenta una discontinuidad en el origen. Por el contrario, el ECM es derivable en todos los 5 puntos. Dado que la mayorı́a de métodos numéricos de optimización utilizan derivadas, ECM es más estándar. Generalizando se puede considerar una familia de métodos de ajuste basados en minimizar 1 T PT t=1 |Xt − (φ0 + φ1 Xt )|β con β ≥ 0. Minimación MAD corresponde a β = 1. Mı́nimos cuadrados corresponde a β = 2. ¿Cómo se obtiene σ en el método de mı́nimos cuadrados? Se calculan los valores de φˆ0 y φˆ1 que minimizan el ECM computando estadı́sticos a partir de la muestra: < Xt >≡ φˆ1 = PT φˆ0 = 1 T 1 T PT t=1 Xt (promedio) t=2 (Xt −<Xt >)(Xt−1 −<Xt >) PT 2 t=1 (Xt −<Xt >) PT t=1 P Xt − φˆ1 T1 Tt=1 Xt−1 A partir de estos valores, se calcula X̂t = φˆ0 + φˆ1 Xt−1 => (Xt − X̂t ) ∼ N (0, σ̂) Finalmente: σ̂ 2 = 1 T PT t=1 (Xt − X̂t )2 6 2. Ecuaciones en diferencias de primer orden. Consideremos la ecuación de diferencias de primer orden Xt = φXt−1 + σt Supuniendo que conocemos X0 , la solución de esta ecuación es: Xt = φ t X0 + t−1 X φτ t−τ τ =0 La condición para que el proceso sea estacionario es |φ| < 1. SinPembargo, si τ tomamos el valor esperado de la solución obtenida Xt = φt X0 + t−1 τ =0 φ t−τ , observaremos que E[Xt |X0 ] = E[φt X0 + = φt X0 + t−1 X φτ t−τ | X0 ] τ =0 t−1 X τ φ E[t−τ | X0 ] = φt X0 . τ =0 El término dependiente de las condiciones iniciales φt X0 no es nulo, pero tiende a cero cuando t → ∞ si y sólo si |φ| < 1. Por tanto, en la simulación del proceso habrá inicialmente un régimen transitorio en el que las propiedades estadı́stcas dependan de las condiciones iniciales. Tras un intervalo de tiempo suficientemente largo t > τm , si |φ| < 1, el término que depende de las condiciones iniciales se habrá hecho suficientemente pequeño y se puede considerar que la simulación ha alcanzado un régimen estacionario, en el que las propidades estadı́sticas de la simulación (en concreto, la media y la varianza) no dependen del tiempo. Para calcular τm , determinamos el instante a partir del cual |φ|t < 1/e −1 |φ|t = exp−t/ log|φ| t |φ|t = exp− τm 1 τm = − log|φ| 7 NOTA: Con |phi| = 1 el tiempo que dura el régimen transitorio es infinito. Para φ = 1 Xt = Xt−1 + σt , el proceso es un BROWNIANO ARITMÉTICO (que como ya sabemos, es un proceso no estacionario) 3. Series temporales en espacio de estados: Consideremos el proceso AR(2) Definiciones: Xt = φ1 Xt−1 + φ2 Xt−2 + σt 8 Xt Xt−1 = ~t ≡ X Xt Xt−1 ~ t−1 ≡ X Xt−1 t · + Xt−2 0 φ1 φ2 1 0 ~ ; F~ ≡ Xt−1 Xt−2 φ1 φ2 1 0 ; ~t ≡ t 0 ~ t = F~~ · X~t−1 + ~t X ¿Cuál es la solución? ~0 → X ~ t = F~~ t · X ~ 0 + Pt−1 F~~ τ · ~t−τ X τ =0 Recordar: Xt = φXt−1 + t Solución: Xt = φt X0 + Pt−1 τ =0 φτ t−τ Para realizar un análisis de la evolución temporal de la solución análogo al que hicimos con el AR(1), es conveniente diagonalizar (encontrar au~ tovalores y autovectores) de la matriz F~ mediante una transformación de semejanza: ~ ~~ ~~ ~ ~~ ~~ ~~ ~~−1 F~ = S~−1 · Λ ·S →Λ =S ·F ·S ~~ Λ = λ1 0 0 λ2 ~ ~~ donde λ1 y λ2 son los autovalores de F~ y S, la matriz que diagonaliza a ~~ ~~ F , está formada por los autovectores de F colocados por columnas. 9 Pt−1 ~~ ~~τ ~~−1 ~~ ~~ ~ ~~ ~~ t ~~−1 ~~ ~~ S · Xt = S ·F ·S | {z· S} ·X0 + τ =0 (S · F · S ) · S · ~τ ~ ~I Pt−1 ~~ τ ~~ ~ ~~ ~ ~ ·X Y~t ≡ S t ; Yt = Λt · Y0 + τ =0 Λ · t−τ ~~ ~~ ~~2 ~~−1 ~~ · F~~ · S~~−1 => Λ~~2 = S Λ =S ·F ·S Demostración: ~~ ~~ ~~−1 ~~ 2 ~~ ~~2 ~~−1 ~~ ~~ ~~ ~~−1 ~~ ~~ ~~ ~~ ~~−1 ~~ ~~ ~~−1 ·F ·S )=Λ S · F · S = S · F · F · S = S · F · I· F · S = (S · F · S ) · (S | {z } | {z } ~ ~ Λ ~ ~ Λ CONDICIONES DE ESTACIONARIDAD para un proceso AR(2) |λ2 | ≤ |λ1 | < 1 ~ ¿Cómo determino τm en función de los autovalores de F~ ?: t ~~t λ1 0 Λ = 0 λt2 El factor limitante es el autovalor mayor en valor absoluto (es decri, el autovalor más cercano a 1 en valor absoluto), en este caso λ1 . 1 τm ≡ − log|λ 1| AR(3) Xt = φ1 Xt−1 + φ2 Xt−2 + φ3 Xt−3 + t Xt φ1 φ2 φ3 Xt−1 t Xt−1 = 1 0 0 · Xt−2 + 0 Xt−2 0 1 0 Xt−3 0 | {z } ~ ~ F La condición para que el proceso AR(3) sea estacionario es que los autoval~ ores de F~ , λ1 , λ2 , λ3 sean menores que 1 en valor absoluto. 10 En general, para un AR(p): Xt = φ1 Xt−1 + φ2 Xt−2 + . . . φp Xt−p + σt Xt φ1 φ2 Xt−1 1 0 = ... Xt−p+1 0 0 | . . . φp−1 φp Xt−1 ... 0 0 Xt−2 · ... ... ... 1 0 Xt−p {z } t 0 + ... 0 ~ ~ F Condición para que AR(p) sea un proceso estacionario es que los p auto~ valores de F~ cumplan |λp | ≤ . . . ≤ |λ2 | ≤ |λ1 | < 1 1 τm = − log|λ 1| λ1 , λ2 , . . . , λp pueden ser números complejos. En caso de que aparezcan autovalores complejos, siempre aparecen como pares conjugados λn = a+bi, λ∗n = a − bi. 11