Ecuaciones de diferencias. Modelos en espacios de estados

Anuncio
Series Temporales
Alba Martı́n Lázaro
1/12/09
1.
Solución al ejercicio propuesto
OBJETIVO
Dada una serie temporal {Xt }Tt=0 , cuyos valores conocemos. Suponemos el
modelo que ha generado estos datos empı́ricos es un proceso AR(1).
Xt = φ0 + φ1 Xt−1 + σt ,
t es ruido blanco
¿Cómo se encuentran los valores de parámetros φ0 , φ1 , σ que proporcionan
un mejor ajuste a los datos?
No existe un único método para encontrarlos.
Consideraremos
Mı́nimos cuadrados (minimización del error cuadrático medio, ECM)
Mı́nimización del promedio de la desviación absoluta (MAD = Mean
absolute deviation)
Máxima verosimilitud.
Respuesta 1: Por mı́nimos cuadrados.
Mi modelo: Xt =
φ0 + φ1 Xt−1
|
{z
}
parte determinista (predecible)
t RUIDO BLANCO
E[t t0 ] = δtt0
1
+
σt
|{z}
parte estocástica (innovaciones)
E[t Xt−τ ] = 0; τ > 0
PREDICCIÓN ÓPTIMA del MODELO SUPONIENDO que CONOZCO
It−1 (INFORMACIÓN HASTA (t-1))
X̂t = E[Xt |It−1 ]
Nota 1: It−1 = {Xτ , τ }t−1
τ =−∞
´
Nota 2: Xt = valor real (muestra emp{irica);
X̂t = valor predicho por el modelo
En el caso de un proceso AR(1), la única información de It−1 relevante
para determinar el valor de Xt es Xt−1
El predictor lineal óptimo serı́a en este caso:
AR(1) X̂t ≡ E[Xt |Xt−1 ] = φ0 + φ1 Xt−1
ECM =
1
T
PT
τ =1
(Xt −
X̂t
)2
|{z}
PREDICTOR en función de It−1
Ejemplo: AR(1)
ECM =
∂ECM
∂φ0
1
T
=0
PT
− (φ0 + φ1 Xt−1 ))2
)
= 0 −→ φˆ0 , φˆ1
t=1 (Xt
∂ECM
∂φ1
Respuesta 2 .Máxima verosimilitud.
Para este método es necesario especificar la distribución del ruido. Supongamos que el ruido es gaussiano t ∼ N (0, 1) [HIP. 3]
En este caso, la función de verosimilitud (probabilidad de haber observado los datos empı́ricos de la serie temporal, suponiendo conocido el modelo)
2
se puede escribir como:
L(φ0 , φ1 , σ; {Xt }Tt=0 )
= P (X1 , X2 , . . . , Xt |X0 ; φ0 , φ1 , σ) =
T
Y
P (Xt |It−1 )
t=1
Dado que
t ∼ N (0, 1)
−→
1
−2
P (t ) = √ exp t
2
2π
¿Cómo se calcula P (Xt |Xt−1 )?
Siendo
Xt = φ0 + φ1 Xt−1 + σt
entonces
t =
1
(Xt − (φ0 + φ1 Xt−1 )).
σ
Si conozco Xt−1 entonces Xt es la única fuente de aleatoriedad: La distribución de densidad de probabilidad de Xt condicionada al valor conocido para
Xt−1 es
1
(Xt − (φ0 + φ1 Xt−1 ))2
P (Xt |Xt−1 ) = √
exp −
2σ 2
2πσ
ACLARACIÓN: probabilidad condicional 6= probabilidad incondicional
Xt−1 F IJO
Xt = φ0 + φ1 Xt−1 + σt −→ Xt ∼ N (φ0 + φ1 Xt−1 , σ)
(distribución de densidad de probabilidad condicionada al valor de Xt−1 )
Xt−1 ALEAT ORIO
φ0
σ
√
Xt = φ0 + φ1 Xt−1 + σt
−→
Xt ∼ N 1−φ1 ,
2
1−φ1
(distribución de densidad de probabilidad incondicional)
E(Xt ) = φ0 + φ1 E(Xt ) → E(Xt ) =
φ
P (Xt ) =
r 1
2πσ 2
(1−φ2
1)
exp[−
0
(Xt − (1−φ
1)
2σ 2
(1−φ2
1)
)2
φ0
(1−φ1 )
V ar(Xt ) =
σ2
1−φ21
] (probabilidad incondicional)
FUNCIÓN DE VEROSIMILITUD para AR(1)
3
La función de verosimilitud factoriza
L(φ0 , φ1 , σ) = P (X1 , X2 , . . . , Xt |X0 ; φ0 , φ1 , σ) =
T
Y
P (Xt |Xt−1 )
t=1
T
Y
1 T /2
1
=
(
) exp[− 2 (Xt − (φ0 + φ1 Xt−1 ))2 ]
2
2πσ
2σ
t=1
= (
T
1 T /2
1 X
(Xt − (φ0 + φ1 Xt−1 ))2 ](1.1)
)
exp[−
2πσ 2
2σ 2 t=1
LOG-VEROSIMILITUD
LL = logL =
T
X
logP (Xt |It−1 )
t=1
Para un AR(1)
T
T
1 X
T
2
[Xt − (φ0 + φ1 Xt−1 )]2
LL(φ0 , φ1 , σ) = − log2π − logσ − 2
2
2
2σ t=1
MAXIMIZAR LA VEROSIMILITUD = MAXIMIZAR LA LOG-VEROSIMILITUD
(ya que el valor de x que maximiza f (x) es el mismo que el que maximiza
log f (x)).
IMPORTANTE: Los valores de los parámetros que se obtienen como resultado de MAXIMIZAR LA LOG-VEROSIMILITUD son iguales a los que
resultan de MINIMIZAR EL ECM cuando se cumplen las hipótesis (2) y (3).
Es decir, cuando el ruido es:
(hip. 2) RUIDO BLANCO
(hip. 3) GAUSSIANO
La hipótesis 2 es más importante porque gracias a ella la verosimilitud factoriza como producto de densidades de probabilidad unidimensionales (ver
expresión (1.1)).
4
La hipótesis (3) es importante porque gracias a ella la función de densidad
−2
de probabilidad es: P (t ) = √12π exp 2 t
Sin en lugar de suponer un modelo gaussiano, suponemos que el ruido
blanco está distribuido como una distribución de Laplace :
t ∼ p(t ) =
exp−|t |
2
MODELO: Xt = φ0 + φ1 Xt−1 + σt
−||
d exp2
−∞
R∞
=
R∞
0
dexp
−
∞
= −exp = 1
− 0
T
X
T 1
LL(φ0 , φ1 , σ) = − T2 logσ − 2σ
|Xt − (φ0 + φ1 Xt−1 )|]
[
T t=1
|
{z
}
desviacion absoluta media M AD
≡
|{z}
MÁXIMA VEROSIMILITUD
(1)RU IDO BLAN CO
ECM =
1
T
PT
t=1
MINIMIZAR MAD
dist.∼e−||
|Xt − (φ0 + φ1 Xt−1 )|2
Puede ser preferible suponer que la distribuciı́on del ruido es Laplace
en lugar de gaussiana porque el modelo resultante es más robusto frente a
puntos anómalos (outliers). Dado que en el ECM los errores están elevados
al cuadrado, los outliers, puntos para los que la magnitud del error es elevada, tienen una contribución que podrı́a ser excesa en el ECM (efecto de
palanca). Sin embargo, el método de minimizar la desviación absoluta media
tiene el inconveniente de que la derivada del valor absoluto presenta una discontinuidad en el origen. Por el contrario, el ECM es derivable en todos los
5
puntos. Dado que la mayorı́a de métodos numéricos de optimización utilizan
derivadas, ECM es más estándar.
Generalizando se puede considerar una familia de métodos de ajuste basados en minimizar
1
T
PT
t=1
|Xt − (φ0 + φ1 Xt )|β
con β ≥ 0. Minimación MAD corresponde a β = 1.
Mı́nimos cuadrados corresponde a β = 2.
¿Cómo se obtiene σ en el método de mı́nimos cuadrados? Se calculan los
valores de φˆ0 y φˆ1 que minimizan el ECM computando estadı́sticos a partir
de la muestra:
< Xt >≡
φˆ1 =
PT
φˆ0 =
1
T
1
T
PT
t=1
Xt (promedio)
t=2 (Xt −<Xt >)(Xt−1 −<Xt >)
PT
2
t=1 (Xt −<Xt >)
PT
t=1
P
Xt − φˆ1 T1 Tt=1 Xt−1
A partir de estos valores, se calcula
X̂t = φˆ0 + φˆ1 Xt−1 => (Xt − X̂t ) ∼ N (0, σ̂)
Finalmente: σ̂ 2 =
1
T
PT
t=1 (Xt
− X̂t )2
6
2.
Ecuaciones en diferencias de primer orden.
Consideremos la ecuación de diferencias de primer orden
Xt = φXt−1 + σt
Supuniendo que conocemos X0 , la solución de esta ecuación es:
Xt = φ t X0 +
t−1
X
φτ t−τ
τ =0
La condición para que el proceso sea estacionario es |φ| < 1. SinPembargo, si
τ
tomamos el valor esperado de la solución obtenida Xt = φt X0 + t−1
τ =0 φ t−τ ,
observaremos que
E[Xt |X0 ] = E[φt X0 +
= φt X0 +
t−1
X
φτ t−τ | X0 ]
τ =0
t−1
X
τ
φ E[t−τ | X0 ] = φt X0 .
τ =0
El término dependiente de las condiciones iniciales φt X0 no es nulo, pero
tiende a cero cuando t → ∞ si y sólo si |φ| < 1.
Por tanto, en la simulación del proceso habrá inicialmente un régimen transitorio en el que las propiedades estadı́stcas dependan de las condiciones iniciales. Tras un intervalo de tiempo suficientemente largo t > τm , si |φ| < 1,
el término que depende de las condiciones iniciales se habrá hecho suficientemente pequeño y se puede considerar que la simulación ha alcanzado un
régimen estacionario, en el que las propidades estadı́sticas de la simulación
(en concreto, la media y la varianza) no dependen del tiempo. Para calcular
τm , determinamos el instante a partir del cual |φ|t < 1/e
−1
|φ|t = exp−t/ log|φ|
t
|φ|t = exp− τm
1
τm = −
log|φ|
7
NOTA:
Con |phi| = 1 el tiempo que dura el régimen transitorio es infinito.
Para φ = 1 Xt = Xt−1 + σt , el proceso es un BROWNIANO ARITMÉTICO
(que como ya sabemos, es un proceso no estacionario)
3.
Series temporales en espacio de estados:
Consideremos el proceso AR(2)
Definiciones:
Xt = φ1 Xt−1 + φ2 Xt−2 + σt
8
Xt
Xt−1
=
~t ≡
X
Xt
Xt−1
~ t−1 ≡
X
Xt−1
t
·
+
Xt−2
0
φ1 φ2
1
0
~
; F~ ≡
Xt−1
Xt−2
φ1 φ2
1
0
; ~t ≡
t
0
~ t = F~~ · X~t−1 + ~t
X
¿Cuál es la solución?
~0 → X
~ t = F~~ t · X
~ 0 + Pt−1 F~~ τ · ~t−τ
X
τ =0
Recordar:
Xt = φXt−1 + t Solución: Xt = φt X0 +
Pt−1
τ =0
φτ t−τ
Para realizar un análisis de la evolución temporal de la solución análogo
al que hicimos con el AR(1), es conveniente diagonalizar (encontrar au~
tovalores y autovectores) de la matriz F~ mediante una transformación de
semejanza:
~ ~~ ~~
~
~~
~~ ~~ ~~−1
F~ = S~−1 · Λ
·S →Λ
=S
·F ·S
~~
Λ
=
λ1 0
0 λ2
~
~~
donde λ1 y λ2 son los autovalores de F~ y S,
la matriz que diagonaliza a
~~
~~
F , está formada por los autovectores de F colocados por columnas.
9
Pt−1 ~~ ~~τ ~~−1 ~~
~~ ~
~~ ~~ t ~~−1 ~~ ~~
S
· Xt = S
·F ·S
| {z· S} ·X0 + τ =0 (S · F · S ) · S · ~τ
~
~I
Pt−1 ~~ τ
~~ ~
~~ ~
~ ·X
Y~t ≡ S
t ; Yt = Λt · Y0 +
τ =0 Λ · t−τ
~~
~~ ~~2 ~~−1
~~ · F~~ · S~~−1 => Λ~~2 = S
Λ
=S
·F ·S
Demostración:
~~ ~~ ~~−1
~~ 2
~~ ~~2 ~~−1 ~~ ~~ ~~ ~~−1 ~~ ~~ ~~ ~~ ~~−1
~~ ~~ ~~−1
·F ·S )=Λ
S
· F · S = S · F · F · S = S · F · I· F · S = (S
· F · S ) · (S
|
{z
} |
{z
}
~
~
Λ
~
~
Λ
CONDICIONES DE ESTACIONARIDAD para un proceso AR(2)
|λ2 | ≤ |λ1 | < 1
~
¿Cómo determino τm en función de los autovalores de F~ ?:
t
~~t
λ1 0
Λ =
0 λt2
El factor limitante es el autovalor mayor en valor absoluto (es decri, el autovalor más cercano a 1 en valor absoluto), en este caso λ1 .
1
τm ≡ − log|λ
1|
AR(3)
Xt = φ1 Xt−1 + φ2 Xt−2 + φ3 Xt−3 + t

 
 
 

Xt
φ1 φ2 φ3
Xt−1
t
 Xt−1  =  1
0
0  ·  Xt−2  +  0 
Xt−2
0
1
0
Xt−3
0
|
{z
}
~
~
F
La condición para que el proceso AR(3) sea estacionario es que los autoval~
ores de F~ , λ1 , λ2 , λ3 sean menores que 1 en valor absoluto.
10
En general, para un AR(p):
Xt = φ1 Xt−1 + φ2 Xt−2 + . . . φp Xt−p + σt

 
Xt
φ1 φ2
 Xt−1   1 0

=
 ...
 
Xt−p+1
0 0
|
 
. . . φp−1 φp
Xt−1


...
0
0   Xt−2
· ...
...
...
1
0
Xt−p
{z
}



t
  0 
+

  ... 
0
~
~
F
Condición para que AR(p) sea un proceso estacionario es que los p auto~
valores de F~ cumplan |λp | ≤ . . . ≤ |λ2 | ≤ |λ1 | < 1
1
τm = − log|λ
1|
λ1 , λ2 , . . . , λp pueden ser números complejos. En caso de que aparezcan autovalores complejos, siempre aparecen como pares conjugados λn = a+bi, λ∗n =
a − bi.
11
Descargar