Error Cuadrático Medio de Predicción para Modelos Estructurales

Anuncio
ESTADISTICA ESPAÑOLA,
V©I. 34, Núm. 129, 1992, págs. 117 a 135
Error Cuadrático Medio de P redicción para
M odelos Estructurales de Series Temporales
M. PILAR GONZALEZ
Departamento de Econometría y Estadística
e Instituto de Economía Pública
Universidad del País Vasco
RESUMEN
En este artículo se comparan, mediante un estudio de Monte Carlo,
el comportamiento en muestras pequeñas de dos estimadores alternativos del error cuadrático medio (ECM) de predicción con parámetros estimados para modelos estructurales de series temporales, uno
que incluye un término que trata de recoger el error proveniente de la
estimación de los parámetros, y otro que no incluye dicho término.
Para el modelo estructural más sencillo, el modelo de paseo aleatorio
más ruido, se comparan ambos estimadores con el verdadero ECM
de predicción con parámetros estimados para diferentes tamaños de
muestra, valores de los parámetros y horizontes de predicción.
Palabras clave: Filtro de Kalman, Modelos Estructurales, Error Cuadrático Medio de Predicción, Estimación Máximo-verosímil.
Clasificación AMS: 62M 10.
1.
INTRC^DUCCION
Los modelos estructurales de series temporales se formulan en términos de
componentes no observados tales como tendencia, estacionalidad, ciclo e irregular, que son de gran interés para los economistas porque cuentan con una
interpretación directa. La formulación general del modelo es:
Yr=Nt+Yr+Wr+£r
(1.1)
1 18
ESrADiSr^CA ESPAÑ4LA
donde yr es la serie abservada ^r, Yr ^ ^r Y^r representan ia tendencia, estacionalidad, el ciclo y el componente irregular respectivamente. Cada uno de estos
comp©nentes se especifica a priori de forma estocástica permitiéndoseles evolucionar a lo largo del tiempo mediante la introducción de variables aleatorias. Dependiendo de cuáles sean ias principales caracteristicas de la serie que se desean
recvger en el rnodelo, estos componentes no observab^es se cOmbinan de diferentes
maneras dando iugar a los distintos modelos estructurales (ver Harvey 1990).
Esta clase de rnodelos se puede representar fácilm®nte en el espacio de tos
estadas, lo que posibílita la utilización de potentes algoritmos basados en el fiitro
de Kalman para la estimación máxirno-verosímil de los parámetros, la extracción
de señales y!a predicción (Harvey 19$3). Por la tanto, baja el supuesto de que
los parámetros del madelo son conocidos podemos obtener el predictor óptímo
de fas futuras observaciones yT+s, s= 1, 2,... junto con el error cuadrático medio
(ECN1) de predición aplicando repetidamente las ecuaciones de prediccíón del
filtro de Kalman (ver Anderson & Moore 1979).
Ei problema se plantea porque coma ya señala Pierce ( 1975) rara vez conocermos los parámetros del modela y, en la práctica, para ilevar a cabo predicciones basadas en cualquier modelo hemos de estimar en primer lugar los parámetros de manera eficíente. Nuestros predictores son, por io tanto, únicamente
estimaciones de los predictores óptimos lo que conlleva un aumento en el ECM
de predicción. Estas cuestiones han despertado el interós en Ios últimos años
sobre la distribución del error de predicción con parámetros estimados.
En la sección 2 de este artículo se plantean dos estimadores prácticos para el
ECM de predicción con parámetros estimadas, uno que incluye términas que
tratan de recoger la variabilidad debida a!a estimación de los parámetros y otro
que no los inciuye. Restringiéndanos al caso del modelo estructural más sencillo,
el paseo aleatorio con ruido, en la sección 3 comparamos el comportamiento en
muestras pequeñas de ambos estimadores propuestos mediante un estudio de
Monte Carlo.
2.
ERROR CUADRATICO MED!(J DE PREDICCION CON PARAMETROS
EST^MADOS
Supongamos que la serie observada yt, t= 1, 2,,.. T, sígue un modelo estructural
invariante en el tiempo del tipo (1.1 } que se puede representar en el espacio de
las estados como:
Yt = Z'ar + ^t
(2.1j
ar - ^ at-1 + n t
ERROR CUADRATICO MEDIO DE PRED^CCION PARA MODELOS ESTRUCTURALES DE SERIES TEMPORA^ES
11^
donde yr es la serie observada, at(kx 1) es el denominado vector estado, y
,Et, r^t(kX1} son términos de error que no están correlacionados entre si ni con el
vector estado as, s_< t, y
^^^^-NC°(^E Q))
En los modelos estructurales de series temporales, el vector estado a,^ está
formado par ios elementos que determinan los componentes no observables de
la serie, como µ^, ^r, etc. Tanto z', de orden (1 xk), como C de orden (kxk), son
matrices conocidas que no dependen de los parámetros del rnodelo y cuya
estructura es distinta para cada Modelo Estructural que estemos considerando
en particular.
Vamos a denotar por yr (nx1) al vector de parámetros del modelo (2.1), que
incluye únicamente aÉ y los parámetros contenidos en Q.
En el modelo gaussiano (2.1 }, la predicción óptima (en el sentido de ECM
m í nimo} de las obsenraciones futuras yT+s, s= 1, 2, .. . viene dada por:
YT+s/T^^^ = Z'aT+slT(W)
donde
{2.2)
ar+^r(W )= E[ar+sl Yr^ Yr-^ ^•••, Y^ ]
Esta predicción yr+^{y,) se puede interpretar como la media de la distribución
de yT+s condicionada a las observaciones hasta e incluyendo yT. Si no suponemos
normalidad en el modelo (2.1) el predictor (2.2} ya no sería la esperanza condicionada ni sería óptimo. Sin embargo, seguirá siendo el predictor lineal de ECM
mínimo.
E! ECM de prediccián asociado, es decir, la varianza del error de predicción
es:
ECMCYr+^r{v^)] = Z'Pr+^r{^) z + QZ
(2.3}
donde Pr+^rr{^) = E{[ar+s - ar+^r-r{^)][ar+s ar+^r{w)]'3
Está formula nos proporciona el ECM de predicción condicionado a los parámetros del modeio. Por lo tanto, bajo el supuesto de que el vector de parámetros
y^ es conocido, la fórmula (2.3) es correcta. Tanto el predictor ( 2.2) como su ECM
asociado (2.3) se pueden obtener aplicando repetidamen#e las ecuaciones del
filtro de Kalman al modelo (2.1), con toda la información en ia serie yt, t= 1,
2,...,T.
Si trabajamos bajo el supuesto más realista de que desconocemos los parámetros del modelo y hemos de estimarlos a partir de la muestra disponible, el
E_STAf.^151ft:A ESPAtVC7fvA
12U
criterio de actuación suele ser el siguiente. En primer lugar estimamos los parámetros de forma eficiente por máxima verosimilitud (1) y posteriormente se sustituyen en (2.2) los valores desconocidos y^ por sus estimaciones máximos
verosimiles, ^. De esta forma el predictor de yT+s con parámetros estimados es:
Yr+srri V ) ^ Z'a r+^rr{ ^ )
(2,4)
Aunque el predictor yT+^{ yr) era óptimo cuando conocíamos !os parámetros del
modelo, esto no implica que yT+^{yr} sea el predictor óptimo para un modelo con
parámetros estimados. Sin embargo, yT+^{yr) es e! pr^dictor más usado en la
práctica y, por lo tanto, nos interesa estudiar sus propiedades.
E! error de predicción cometido se puede descomponer ahora en dos partes:
.YT+s ^ YT+sJT{^) ' U' T+s ^ YT+slTC^)1 + U' T+s/T^V^) ^ YT+slT{W )J
(2.5)
donde el primer sumando recoge e! error que proviene de la parte de perturbación
aleatoria de! modelo y e! segundo, el error debido a la estimación de fos parámetros.
Como los dos sumandos de (2.5) son independientes porque hemos supuesto
que !os términos de perturbación ^t y nr son normales independientes, e! ECM
de predicción con parámetros estimados se puede escribir como:
ECMoLVr+srr{W)J = ECYr+s - Yr^srrt^)l2 + ECVr+sir(v^) ^ Yr+sir{í^j^)J2
(2.6)
donde el primer sumando viene dado por (2.3), es decir, e! ECM de predicción
con parámetros conocidos y e! segundo representa lo que añadimos al ECM de
prediccián para recoger la variabilidad muestral de !as estimaciones de los
parámetros.
Es interesante señalar que el ECM de las estimaciones de los parámetros es
de orden 1/T por io que e! aumento en el ECM de predicción es de ese orden
mientras que el ECM de prediccíón de! «verdadero» modelo es de orden 1.
Aunque e! ECM del predictor yT+s,7-(y^) viene dado por (2.6), en la práctica e!
estimador usual del ECM de predicción que se utiliza se basa simplemente en
sustituir e! verdadero valor de los parámetros desconocidos por sus estimaciones
máximo-verosimiles en la fórr^ula ( 2.3}^Pero este estimador del ECM del predictor yT+^{y^}, denotado por ECM[yT+^{^)J, presenta dos problemas fundamentales en muestras finitas. En primer lugar, no tiene en cuenta e! error que proviene
de la estimación de los parámetros y, en segundo lugar, puede presentar sesgos
(1) Véase HARVEY, A. C. y S. PETERS (1984) para una discusión sobre los distintos
métodos de estimación máximo-verosímil de los paráme#ros desconocidos de los modelos
estruc#urales.
ERRC3R CUADRATICO MEDIO DE PREDICC^I4N PARA MC.^DEI_.OS ESTRUCT ^SRAt ES UE SER ^ ES TEMF'OR.F1l ES
1^1
como estímador de la correspondiente cantidad poblacional ECM[yT.^^-(y^)] debido a que las estimaciones de las parámetros en muestras finitas pueden estar
seriamente sesgadas.
Por otra parte, la fórmula (2.6^ no nos proporciona un estimador adecuado para
el ECM de predicción ya que presenta las dificultades de ser complicada de
calcular porque el segundo sumando habria que obtenerlo por medio de simulaciones. Bloomfield (1972), Yamamoto (1976) y^8ailiie (1980) entre otros, han
estudiado este término para modelos autorregresivos y han derivado expresiones
asintóticas basadas en la distribución asintática de los parámetros estimados. AI
aplicar estos resultados asintóticos a!os estudios con muestras finitas que generalmente se realizan en la práctica, se han de tener en cuenta que las estimaciones de los paráme#ros en muestras finitas pueden estar seriamente sesgadas
y que estos sesgos se trasladarán a la distribución condicianada de las predicciones dados los valores observados de la variable endógena utilizados para
iniciar las predicciones. Además cuando predecimos estamos condicionando a
ciertos valores de la variable endógena, la distribución de las estimaciones de
las parámetros estará también condicionada y esto afectará a la distribución de
los errores de predicción. En este sentido, se han desarrollado en la literatura
estudios sobre la distribución del error de predicción con parámetros estimados
condicionada a los datos observados. Los trabajos de Phillips (1979) y Fuller y
Hasza (1981) se centran en modelos autorregresivos y el de Ansley y Kohn
(1986} en modelos en el espacio de los estados.
^
Vamos a proponer un estimador alternativo para el ECM del predictor yT+^{^^ ),
derivando una expresión analítica para el segundo sumando del segundo miembro de ( 2.6) condicionada a 1os datos observados.
Podemos observar que, sustituyendo las expresiones (2.2) y(2.4), este segundo sumando de (2.6) se puede escribir como:
^T+slT^4^Í - .yT+s^l^{^)^2 ^
(2-7)
= Z^F^^ar+^rr{^) - ar+.^r{ 4^)]^ar+^r{^^) ! ar+^{4^))'}z
lo que significa que la parte del error de predicción que proviene de la estimación
de los parámetros es una combinación lineal del error de predicción del vector
estado que proviene de ia estimacián de los parámetros. Por lo #anta, para derivar
una expresión analítica para (2.7) podemos aplicar la aproximación propuesta
por Ansley y Kohn (1986).
Ansley y Kohn (1986) derivan una aproximación al ECM de predicción del
vector estado con parámetros estimados condicionado a ia muestra, que propor-
122
ESTApISTICA ESPAÑOLA
ciona una corrección de orden 1l T a Pr+^{y^) que es la expresión usual, bajo las
siguientes condiciones de regularidad:
i)
Para T grande, T^^2( yr- yr) -- N(o, Vt^r))
ii)
La diferencia
aT+^){^^ ~ ^T+^^) ' ^T+s^Ti^} (^-^) ♦ ^p(1^^
síendo yr un punto intermedio entre yr y el verdadero valor yr, y donde
A r+^r( 4^ ^ _
aa r^srr{ ^ )
a^
y el término Op(1IT^ se puede despreciar, para tamaños muestrales grandes,
camparado con AT^^(y^) ( y^-y^).
iii)
La esperanza condicionada:
ET(V^rw} (V^-4^}'^Ar+^{^) ^ = V(V^}lT + oP(1IT)
donde --^
V es la matriz de covarianzas de {os estimadores ^r evaluada en el
T
verdadero valor de los parámetros yr.
iv)
z, C, Q tienen segundas derivadas continuas con respecto a yr.
La aproximación a! ECM de predicción es de la forma:
Pr+^r{W }+ ^ IAr+^r(W} V(w) a'r+^r(v^)l
T
Hay señalar que Ansley y Kohn no condicionan el ECM de predicción a todos
los datos sino sólo al determinante principal dei término aT+^(w)-aT+^(yr), que
es el que recoge el error que proviene de la variabilidad muestral de ias estimaciones de los parámetros.
Apiicando lá corrección anterior a los Modelos Estructurales de Series Temporales, obtenemos la siguiente aproximación a! ECM de predicción con parámetros
estimados:
ECM *^YT+s/T{W}^ -- Z'PT+s/T{^} Z+ a^ + ^^Z'AT+s^r{4^} V(^) A'T+^rl{4^}Zj
T
(Z.8)
EI último sumando de (2.8) nos da la corrección de orden 1/T que trata de
recoger !a variabilidad debida a la estimación de los parámetros. De la expresión
(2.8) podemos obtener las siguientes conclusiones: i) 1a contribución al ECM de
predicción de la estimación dei error debido a ios parámetros desaparece cuando
T tiende a infinito, resuitado que no es sorprendente ya que los parámetros han
E:RROR CU4DRATICO MEDiO DE PREDICCIOPJ F^ARA MODELOS ESTRUCTI)RAIE:S DF 5ERIES T^MF'ORAIES
1Z3
sido estirnados consistentemente; ii) la eficiencia en prediccián se puede aurnentar, es decir, reducir el ECM de predicción, si mejoramos ia eficiencia del estimador yr. Por ejemplo, si disponemos de informacián a priori sobre restricciones en
algunos elementos de y^ y podemos obtener un estimador m^ximo-verosímii
res#ringido.
Un estimador dei ECM de predicción con parametros estimados se puede
obtener sustituyendo en (2.8} los verdaderos valores de los parámetros por sus
estimaciones máximo verosimiles yr. EI estimador de ECM* [yT+^ ( yr}] depende
sólo de la muestra yr y es fácil de calcular.
3.
COMPARACION DE ERRORES CUADRATICOS MEDI^S
DE PREDICCION
En la secci^in 2 hemos presentado dos estimadores posibles dei ECM de
predicción con parámetros estimados:
n
EC'^'U' T+s^lTC^^1 = 2'PT+sfItW ^2 + Q2
ECM * CYT+^r{ ^ }l = Z' ^°T+srr( ^ )Z + a2 + ^^- [z'A r+^{ yr > V( ^W) A' r+ sr1{ V^^ >z^
Mediante un estudio de Monte Car{a vamos a analizar su comportamiento
como estimadores del verdadero error cuadrático medio de predicción con parámetros estimados, ECMoCYr♦^r{W)l,
tomando como marco de trabajo el modela
^
estructural más sencillo, el modelo de paseo aleatorio con ruido.
3.^.
Modelo de Paseo Aleatorio con ruido
Supongamos que nuestro conjunto de observaciones yr, t= 1, 2, ..., T sigue
un modeio de paseo aleatorio con ruido:
Yr=Nr+^r
(3.1)
I^t - t^r-^ + ^1r
donde
^r
^1 r
U^ a
^ IV o g ^2
n
Este modelo, está escrito directamente en el espacio de los estados cón
Z^=c=1,yG?=añ
124
FSTAD(STfCA ESF'A(VOt_A
Si conocemas los parámetros del modelo la predicción óptima de las futuras
observaciones la pademos obtener aplicando (2.2) a nuestro modelo:
donde
YT+srr{^) = mr+srr{^Y) = mT{^)
.s-1,2,...
mT^^) _ ^N T+sI YT+ YT-1 + • • • + Y1 ^
s=1,2,...
(3.2)
Por la tanto, para el modefo que nos ocupa la predicción óptima para la serie
observada es la misma que para el vector estado.
EI ECM de predicción correspondiente sería, aplicando (2.3):
ECMCY r+ slr{ ^)l = Pr+ sn{ y, >+ ^? = 1°'r( r}r ) + s 6 ñ+ Q 2
(3.3)
Si los parámetros del modelo son desconocidos, la predicción de las futuras
observaciones yT+s, denominada yTf^{y,), la podemos obtener sustituyendo en
(3.2) los verdaderos valores de los parámetros por sus estimaciones máximo-verosímiles.
EI ECM del predictor yT+^{w) lo podemos estimar a partir de ( 3.3), sustituyendo
el vector de parámetros desconocidos ( Qñ, 6É ) por sus estimaciones máximo
verosímiles, o bien derivando la expresión (2.8) correspondiente al modelo (3.1).
Antes de aplicar la aproximación (2.8) para obtener el ECM de predicción con
parámetros estimados, vamos a comprobar que las condiciones de regularidad
señaladas por Ansley y Kohn se cumplen para nuestro modelo:
i) Supongamas que estimarnos y^ maximizando la aproximación a la función
de verosimilitud en el dominio de la frecuencia siguiente:
.
T-1
L(,^,y) ^
.
T-1
^{^
^ glogc ^e'^) - n ^ - ;^
1^^
(3.4)
^^ p g^ej ^
donde ^,^ = 2nj/T^`, j= 1, ..., T^`-1, y T"k = T-d, siendo d el orden de diferenciación
necesario para que la serie (^ -L}dyt sea estacionaria. Además I(^,j) es la ordenada
correspondiente de! periodograma y g(e^^) es la función generatriz espectral que
para el modelo (3.1) es de 1a forma g(e^^`) = 6^ + 2(1-cos^,^) a^.
Bajo ciertas condiciones de regularidad, Hannan (197^) prueba que ^ es un
estimador consistente que sigue una distribución asintótica normal con matriz de
ERRUR CI_lADFZATICO MEDIC^ C)E PF^FDCCCION PAR,A ti1C.)UELO;S E7TRl1C:Tl^RAlES D^ SER^E^S Tf"ti1f'C)Ft^LE.S
^^^:^
covarianzas V(y^)/T dada por la inversa de la matriz de información. EI elernento
ih-ésimo de la matriZ de información se puede aproximar por (Harvey 1990):
a9(e^^) dg(e^)
1
1/ 2 ^ ^^ 2
aWn
a4^^
9'(e^ )
por lo que para el modelo (3.1 } la rnatriz de covarianzas de los estimadares se
puede escribir como:
1/ 2 ^g( e'^
^) -2
1/ 2 ^
2(1 - cos^,^)
^^2
9^t e^ )
2(1 - cos^,^)
4(1 - 2cos^.^)2
1/ 2^
^^ 2
1/ 2^
^^ 2
9^( e^ )
9( e^ )
(3.5)
Esta teoría asintótica no es válida cuando el modelo (3.1 } no es estrictamente
invertible. La forma reducida de un paseo aleatorio con ruido es un IMA (1, 1)
con parámetro MA -1 _< e_< o. EI modelo no es invertible cuando e=-1, valor
que corresponde a^ñ = 0. Por lo tanto, el supuesto i) sólo se cumple si 6ñ > 0.
ii)
La diferencia
^^ r+^r{ 4^ ) - rr^ r+^-r{^) = Mr+^r{ ^ ) ( 4^- ^^ ) + Op(1 / %^
donde ^v es un punto intermedio entre y^ y el verdadero valor yr y
Mr+^w) _ amr+^^)
ay^
Este supuesto se cumple si mr+^-(r^) tiene derivadas continuas de segundo
orden con respecto a yr, ya que yr es un estimadar consistente de y^.
iii) EI tercer supuesto se cumple si (y^-y^) es aproximadamente independiente
de Mr+^-( ^^ ) .
Podríamos evitar la dificultad de probar este supuesto considerando que tenemos una muestra semiinfinita o que la muestra utilizada en la estimación de los
parámetros es independiente de los valares de la variable endógena con las que
iniciamos la predicción. Los trabajos de Fuller y Hasza (1980), Reinsel (1980),
entre otros, indican que para muestras de tamaño moderado, el supuesto de tener
procesos independientes es una hipótesis de trabajo razonable.
12f
ESTApISTiCA ESPANOLA
No vamos a probar rigurosamente este supues#o, pero vamos a dar una
veriFcación heurística del m'rsmo para el modelo de paseo aleatorio con ruido.
Para muestras grandes, e! predictor óptimo de yT+s puede ser estimado por (ver
Harvey 1990):
T--1
yi+s✓T{^^ ^ mT^^V^ ^ ^^^Í ^ l1 - ^^ÍY YT-Í
j^-0
donde, ba^o ei supuesto de que el tamaño muestral T es suficientemente grande
como para que Pt alcance el estado estacionario, es decir, Pt = P^_ ^= P
^( 4^ ) = F,(
P(W) + Qñ
+ ^.2 + Q2
W>
^
P(yr) _ [-añ + (4c^ña?
F
Cl^ )1^^ ^ 2
Como se puede comprobar fácilmente 4 <[1-^.(^)] < 1, lo que implica que al
aumentar j el término [1-^,(y^)}^ decrece exponenciaimente con límite inferior cero.
Por lo tanto, para T grande, como (yr-yr) depende de todas !as observaciones de
la misma manera, podemos incluir que ( y>,-yr) es aproximadamente independiente
de MT+^{y,}.
iv)
z, C, Q #ienen segundas derivadas continuas con respecto a yr.
Por I© tanto, podemos aproximar e1 ECM de predicción con parámetros estimados apiicando la expresión (2.8) a nuestro modelo:
ECM *[.YT+^rr{4^)^ = Pr+^r{W )+ Q? + ^ IMr+^r(4^) V(^)1V1'r+^n{^)^
T
3.2.
t3.6)
Resultados obtenidos
Los estimadores prácticos dei ECM de predicción con parámetros estimados
se obtienen sustituyendo en (3.3) y(3.6) los valores de fos parámetros por sus
es#irnaciones máximo, verosimiles. Estos estimadores dependen del tamaño
muestral, T, y del verdadero valor de los parámetros de! modelo (añ,c^?). Nos
interesan fundamentalmente los resultados que obtengamos para muestras pequeñas y moderadas, por Io que hemos considerado los tamaños muestrales,
T= 25, 5^, 100 , y 200. Como valores de 1os parámetros del modeio se han
elegido, Q^ = 0.01, 0.05, 0.1, 0.5, 1, 5, 10, 50, 100 y v? = 1.
ERROR CUADRATICO MEDIO DE PREDICCION PARA AAODEIOS ESTRUCTURALES DE SERIES TEMPORALES
^ 27
Para cada tamaño muestral T y para cada par de valores (a^,a?) se generan
artificialmente N= 1.000 muestras de yt que siguen el modelo (3.1). Una vez
generadas las variables aleatorias pseudonormales, r^t y>E^, ia serie de observaciones yt se obtienen a partir det modelo (3.1), utilizando como valor inicial de1
vector estado m^ = 0. Para cada tamaño muestral T, se han generado series de
observaciones yt de tamaño T+ 100. Las 100 primeras observaciorties se rechazan para evitar que nuestros datos dependan de los valores iniciales tornados
para generar la secie. Las T observaciones siguientes se utiíizan para estimar los
parámetros del modelo.
Para cada tamaño muestral T y para cada par de valores ( Q^, c^^ ) se han
calculado los siguientes estad ísticos:
1)
N
sQ^
+
Q2
+
^
ECMo^.Yr+srrE4^}^ - P^(^) +
^ [mr+^rtW ) - mr^^r{^)j^
N
2)
la
1
ECM(yr+^r(^)] = P^t^) + S^ñ + ^
N
N
3)
[Pr( 4^ ) + sQ2n+ QÉ ] ^^
ECM[yr+ ^r( ^ }] = ^ ^ ECA^II.Yr+ ^r{ 4r )] ^^ _ ^ ^
N ;a ^
N ^_ ^
4)
*
N
V M' T+ s/T{ 4^ )];
ECM [yT+ s/T{ W)] - P7{ yr )+ s Q ^+ Q? + ^ ^ ^MT+ s^rT( ^)-^--^
N ^^
T
5}
^ *
,^ ^ 1 N
^
^^ ^2
^
"
^ [Pr(^) + san + aF + MT+^{V^) V(T.#^) ^r+^r(V^)];
ECM [yr+^r{^)l
N fa ^
La cantidad (2) se caicu{a analíticamente asi camo la primera parte de (1) y
(4), mientras que el segundo sumando de (1) y (4) así como (3), y(5) se obtienen
mediante simulación. Existen distintas alternativas para calcular el ECM del
predictor yr+^{y,), como la utiiizada por Spitzer y Baillie (1983), que generan más
observaciones de la serie yr, y evalúan el ECM de predicción con parárnetros
estimados directamente por simulación. ^Sin embargo, ten^endo en cuenta que
queremos comparar los estimadores ECM[yT+^,T{ y^)j y ECM'k[yT+s^-( y^)] con un
valor del verdadero ECM de predicción con parámetros estimados que no esté
sujeto a grandes variabilidades muestrales, la ventaja de usar la descomposición
(2.6) es que nos permite hallar una parte importante del ECí1/I de predicción
analíticamente y, por lo tanto, es de esperar que nos proporcione estimaciones
más precisas.
Los parámetros del modelo ( a^,a?) se estiman por Máxima Verosimilitud en el
dominio de la frecuencia, maximizanda la función ( 3.4). Estrictamente hablando,
128
ESTADISTICA ESPAÑOLA
la expresián (3.4) sólo es igual a la función de verosimilitud si la serie estacionaria
cumple la condición de circularidad. Camo esta condícián es poco realista en
nuestro contexto de trabajo, es mejor considerar la función (3.4} como una
aproximación a la función de verosimilitud exacta. Esta función de verosimilitud
exacta se puede obtener en el dominio del tiempo mediante la descomposición
de los errores de predicción, que se obtienen junto con sus varianzas aplicando
las recursiones del filtr© de Kalman. En el caso de los modelos no estacionarios
como son, en general, los modelos estructurales de series temporales, es preciso
tener cuidado con las condiciones iniciales que se utilizan para el filtro de Kalman.
Para calcular las cantidades (1)-(5) es necesario obtener tanto la estimación
de m^{^r) como su error cuadrático medio P^(yr) evaluados para el verdadero
valor de los parámetros y para los parámetros estimados. Ambas cantidades se
obtienen mediante las recursiones de predicción y actualización del filtro de
Kalman inicializadas can mo = 0 y el prior difuso Po = k, donde k es un número
arbitrariamen#e grande. En el programa que ha realizada e! cálculo de estos
estadísticos no se impone la condición de que PT alcance el estado estacionario,
pero para el rnodelo (3.1) este estado se alcanza incluso para muestras de
tamaño T = 25.
A la hora de obtener los estadísticos (4) y(5) es preciso calcular el vector de
derivadas M+
, amT^^ . Estas derivadas del vector estado se
r ^r{ ^ } = amT+^
aQn2
aQ^2
han calculado analíticarnente y el conjunto de recursiones se corren de forma
paralela al filtro de Kalman, siendo ínícializadas como sigue:
amo _ arno _ aPo i aPo _ p
aQn a^? aQ^ a^?
Los estadísticos (1)-(5) han sido calculados para tres horizontes de predicción
s= 1, 3, 12. Para el modelo (3.1) que estamos considerando el predictor de yT+s,
s= 1, 2,... viene dado par (3.2} que es !a estimación de! vector estado en el
momento T: m^. Por lo tanto, como la corrección de orden 1/T al ECM de
predicción con parámetros estimados que hemos propuesto depende sólo de la
estimación del vec#ar estado en el momento T y de la matriz de covarianzas de
las estimadores, que son las mismas para todo s, sólo es necesaría calcularla
una vez para cada terna ^T,vñ,Q?) o(T,^ñ,^?).
Todos los cálcuios han sido realizados en un ordenador Hewlett-Packard serie
500. EI programa de Fortran utilizado ha sido escrito en doble precisión. La
estimación de los parámetros se Ileva a cabo maximizando 1a función de verosimilitud (3.4) mediante el algoritmo de scoring que presenta las ventajas de utilizar
sólo las primeras derivadas de ^la función de verosimilitud (como hemos visto la
ERROR CUAORATICO MEDIO DE PREDICCION PARA MODELOS ESTRUCTURALES DE SERI^ES TEMPORAi`ES
^Z^
matriz de información depende únicamente de ellas}, y de proporcionar directamente la matriz de covarianzas para los estimadores (3.5}. Los criterios de
convergencia utilizados para terminar las iteraciones han sido los habituales: i)
la diferencia entre parámetros sea menor de 10^4; ii) la diferencia entre los valores
de ia función sea menor que 10-$. En este trabajo se ha elegido la función de
verosimilitud (3.4}, en lugar de los mátodos en el dominio del tiempo, porque la
experiencia de cálculo de estimadores máximo-verosímiles para muestras pequeñas y moderadas, menores de 200, nos señala que los mátodos de estimación
en el dominio de la frecuencia son mucho más rápidos que en el dominio del
tiempo, y que el algoritmo de scoring proporciona muy buenos resultados en 1a
mayoría de los casos.
^os resultados obtenidos en las simulaciones para el modelo (3.1) se encuentran reflejados en los cuadros 1 y 2.
En primer lugar, hemos tratado de estudiar la importancia cuantitativa de los
problemas que plantea utilizar directamente un estimador de ECM[yT+^{^r)] para
calcular el ECM de predicción con parámetros estimados.
Por un lado, un estimador de ECM[yT+^{y,)] no tiene en cuenta que los
parámetros del modelo han sido estimados y que el error que proviene de ia
estimación de los parámetros producirá un incremento en el ECM de predicción
de manera que:
ECMo[YT+^r{W)] ^ ECMCYT+^r{V^)l
En la primera columna del Cuadro 1, se presentan para cada tamaño rnuestral
T, para cada valor del parámetro Qñ y para el horizonte de predicción s= 1, los
resultados de calcular la razón:
_ ^^^/% U' T+s/7{ ^ )^
R^ ^ EC^
CYT+^r{ ^w )]
con la que tratamos de medir los efectos de la variabilidad muestral de las
estirnaciones de los parámetros en el error cuadrático medio de predicción. Por
ejemplo, para ^? = 0.1 y T= 25, ECMo[yT+S,T{yJ)] es un 10 por 100 mayor que el
ECM[yT+s^(y^)]. Podemos observar que los efectos más serios se producen para
valores pequeños de a^, es decir, cuando nos encontramos cerca de la zona de
no invertibilidad. Esta razón disminuye, en general, conforme aumenta el parámetro Qñ, estabilizándose en torno al 4 ó 5 por 100, y decae rápidamente con el
tamaño muestral T.
130
ESTADISTICA ESPA^LA
^
CUADR01
^
ECM[yT♦^{yr)] como estimador del ECM de prediccián con parámetros
estirnados
T= 50
T= 25
T= 200
T= 100
R^
R2
R^
R2
R^
R2
R1
R2
Q? = 4^01
1.11
1.13
1.07
1.09
1.03
1.05
1.02
1.03
o^= 0.05
1.09
1.06
1.06
1.02
1.02
1.01
1.01
1.01
Qz
^-- p.1
1.10
1.06
1.04
1.05
1.02
1.04
1.0 ^
1. 02
,^2^-- p_5
1.05
0.97 ^
1.02
1.01
1.01
1.02
1.00
1.00
Q2
n-- 1.00
1.03
0.96
1.03
0.98
1.01
1.00
1.01
1.01
Q^ = 5.00
1.05
1.03
1.01
1.02
1.01
1.01
1.01
1. 00
Q^_^ o.ao
1.04
0.96
1.02
1.01
1.01
1.01
1.00
0.99
Q^= 50.00
1. 06
0. 93
1.03
0.98
1.01
0. 99
1.01
1. 00
Q^ = 100.0
1.04
0.99
1.02
1.01
1.01
1.00
1.00
1.00
n
Por otro lado, nos interesa c^omprobar ia calidad de ECM[yT+^(^)] como
estimador de su correspondiente cantidad poblacional ECM[yT+^-(y^)]. La columna R2 del Cuadro 1 trata de recoger los sesgos en la estimación de ECM[yT+^{y,}j
debidos a los sesgos en la estimación de ^os parámetros a través de la razón:
n
_ ECM CYT+^r{W )1
^2 ECM CYT+$rr( ^ )l
^
Se puede observar que para valores de Q^ pequeños, ECM[yT+^-{^r)j está sistemáticamente sesgado hacia arriba, hasta un 13 por 100 para T= 25 y un 9 por
100 para T= 50. Estos sesgos en la estimación de ECM[yT+,^{y ^ )] van disrninuyendo conforme aumenta añ y nos alejamos de la zona de no invertibilidad del
modelo, hasta cambiar de signo y, asi, para valores grandes de Q^, el estimador
n
ECM[yT♦^{ y,)] está sesgado hacia abajo, por ejemplo para Q^ = 50, es un 93 por
100 de ECM[yT+^{^r)]. Estos sesgos desaparecen rápidamente con el tamaño
muestral.
Los resultados obtenidos en la zona de no invertibilídad del modelo (valores
pequeños de 6ñ) pueden estar influenciados por el método de estimación elegido.
Los distintos métodos de estimación máximo-verosímil tienen las mismas propiedades asíntóticas, aunque pueden tener propiedades en muestras pequeñas
ERROR CUADRATICO MEDIO DE PREDICCION PARA AAODEIOS ESTRUCTURAIES DE SERiES TEMPORALES
131
diferentes. Harvey y Peters { 1984) realizan un pequeño ejercicio de simulación
en el que abtienen que las mayores diferencias entre fos estimadores en el
dominio del tiempo y el dorninio de la frecuencia aparecen cuando !os parámetros
de varianza están práximos a cero, aunque no hay evidencia clara de la dirección
del sesgo de ambos estimadores en esta zona práxima a la no invertibilidad.
^
^n el Cuadro 2 comparamos el camportamiento de ECM^yr♦ ^(yr)] y
ECM*(yr+^{ y^}] como estimadores de ECMo[yr+^{yr)] a través de !as razones:
n
__ ECM CYr+^(W )]
R3 ECMo CYT+^r{ 4^?]
^
_ ECM LYr+^{ ^ )l
ECMo IYr+^r( v^ )I
R4
Con el fin de comprobar la validez de la aproximación asintetica elegida, se
presentan también los resultados obtenidos para el estadístico ECM*[yT+^{y^ )]
mediante el cálculo de la razón:
*
_ ECM ^yr+^r( ^Y )]
R5
ECM0 U' T+s✓T{ ^ )]
n
En general el estimador ECM [yT+,^y^)] subestima el verdadero ECM de predicción con parámetros estimados. Esta subestimación aumenta de forma considerable conforme crece el horizonte de predicción s. Por ejemplo, para 6^ = 50,
n
^
el ECM[yT+^{ yr)] es el 88 pc+r 100 del verdadero ECM de prediccien para s= 1,
pasa a ser el 73 por 100 para s= 3 y se reduce al 67 par 100 para s= 12.
Podemos concluir que los efectos de la estimación de los parámetros en el ECM
de predicción son importan#es y deben ser tenidos en cuenta, sobre todo en
muestras pequeñas, T= 25, 50, como era de esperar. Por^lo tanto, ^arece
conveniente utilizar el estimador alternativo que proponemos ECM'"`[yT+^(y^)] que
corrige esta subestimación en la dirección adecuada aunque no siernpre en la
proporcien suficiente para solucionar totalmente el probfema. Por ejempio, para
62
n = 50 y s= 1 e! E^M^'"`[yT♦ S^( y^)] es el 92 por 100 del verdadero ECM. Además
podemos observar, que como era de esperar, la proporción en que el estimador
alternativo corrige la subestimación del verdadero ECM de predicción es menor
conforme el horizonte de predicción es más largo.
Las únicas excepciones al comportamiento anteriormente señalado se producen cuando nos encontramos con valores de o^ñ muy pequeños, cercanos a la
zona de no invertibilidad. En este caso habíamas observado en el Cuadro 1 que
tanto los efectos de la variabilidad muestral en las estimaciones de los parámetros como los sesgas en los e^tirnadores de las mi^mos apuntan en la misma
dirección y hacen que tanto ECM[yT+sn-{ y^)] como ECM'k[yT+sn{^,)] sobreestimen
el verdadero ECM de prediccien en cantidades que aunque no son muy importantes para s = 1, aumentan rápidamente con el h©rizonte de predicción.
132
ESTAOISTICA ESPAÑOLA
CUADRI^ 2
Comparación de Errores Cuadráticos Medios de Prediccián
con parámetros estimados
s=3
s=1
s=12
T
R^
R{
R^
R3
R4
RS
R^
R^
R5
Q2 - a.o^
^!
25
50
100
200
1.02
1.01
1.02
1.02
1.05
1.03
1.03
1.02
0.93
0.95
0.98
0.99
1.19
1.09
1.06
1.03
1.21
1.11
1.06
1.04
0.97
0.95
0.98
0.99
1.86
1.43
1.21
1.11
1.88
1.45
1.22
1.12
0.93
0.95
0.98
0.99
a^= 0 . 05
25
50
100
200
0.97
0.97
0.99
1. 00
1.00
0.98
1.00
1. 01
0.95
0.97
0.99
1.00
1.12
1.04
1.03
1.02
1.15
1.05
1.04
1.02
0.95
0.97
0.99
1.00
1.60
1.26
1.14
1. 06
1.62
1.27
1.14
1.06
0.96
0.98
0.99
1.00
QZ _- 0.1
^
25
50
100
2 00
0.97
1.01
1.02
1. 01
1.00
1.03
1.03
1. 02
0.95
0.99
0.99
1. 00
1.10
1.07
1.05
1. 0 3
1.13
1.09
1.06
1. 0 3
0.96
0.99
0.99
1. 00
1.45
1.21
1.11
1. 06
1.47
1.22
1.12
1. 06
0.97
0.99
1.00
1. 00
Q2 _- 0.5
^
25
50
100
200
0.92
0.98
1.00
1. 00
0.96
1.00
1.02
1. 00
0.99
1.00
1.00
1.00
1.00
1.02
1.03
1. 00
1.03
1.04
1.03
1.01
1.00
1.00
1,00
1.00
1.10
1.08
1.05
1. 01
1.11
1.08
1.05
1. 01
1.00
1.00
1.00
1. 00
Q2 __ ^ 0
^
25
50
100
200
0.93
0.95
0.98
1.01
0.96
0.97
1.00
1.01
0.99
1.00
1.00
1.00
0.94
0.97
0.99
1.01
0.95
0.99
1.00
1.01
1.00
1.00
1.00
1.00
0.94
0.99
1.00
1.01
0.95
1.00
1.00
1.01
1.00
1.00
1.00
1.00
^? = 5.0
^
25
50
100
200
0.98
1.00
1.00
1.00
1.02
1.02
1.01
1.00
1.00
1.00
1.00
1.00
0.89
0.96
0.99
0.99
0.91
0.96
0.99
1.00
1.00
1.00
1.00
1.00
0.84
0.93
0.98
0.99
0.84
0.93
0.98
0.99
1.00
1.00
1.00
1.00
Q2 _ ^ 0 0
n -
25
50
100
200
0.93
0.99
1.00
0.98
0.96
1.01
1.02
0.99
0.99
1.00
1.00
1.00
0.82
0.91
0.96
0.97
0.83
0.92
0.96
0.97
1.00
1.00
1.00
1.00
0.76
0.87
0.94
0.96
0.77
0.87
0.94
0.96
1.00
1.00
1.00
1.00
Q^
^-- 50.0
25
50
100
200
0.88
0.96
0.98
1.00
0.92
0.98
0.99
1.00
0.99
1.00
1.00
1.00
0.73
0.84
0.89
0.94
0.75
0.84
0.90
0.94
1.00
1.00
1.00
1.00
0.67
0.79
0.86
0.92
0.68
0.79
0.86
0.92
1.00
1.00
1.00
1.00
v2^-- 100.0
25
50
100
200
0.95
0.98
0.99
0.99
0.98
1.00
1.00
1.00
1.00
1.00
1.00
1.00
0.79
0.86
0.90
0.93
0.80
0.87
0.90
0.93
1.00
1.00
1.00
1.00
0.72
0.81
0.87
0.91
0.73
0.81
0.87
0.91
1.00
1.00
1.00
1.00
ERROR CUADRATICO MEDtO DE PREDICCION PARA MODELOS ESTRUCTURALES DE SERIES TEMPORALES
133
Si observamos los resultados obtenidos para ECM*[yT+^{y,)] vemos que funciona muy bien para todo tamaño muestral y para todos los valores de c^^, por lo
que parece que la aproximación asintótica es adecuada. Sin embargo,
ECM*[yT+^(y^)] no es un estimador factible del verdadero ECM de predicción con
parámetros estimados.
4.
CoNCLUSIONES
En este trabajo se ha estudiado la distribución del error de predicción bajo el
supuesto de que los parámetros son desconocidos y hay que estimarlos previamente. Para ello, se han propuesto dos estimadores alternativos del ECM de
predicción con parámetros estimados, uno que tiene en cuenta explícitamente en
cu^enta el error de predicción que provien^e de la estirnación de los parámetros,
ECM*`[yT+^{^^ )], y otro que no lo tiene, ECM[yT+^{^r)].
^
EI ECM de predicción alternativo que hemos derivado, ECM*[yT+^{yr)], es una
aproximación al ECM de predicción con parámetros estimados condicionado a
lo^ datos, ^ proporciona una corrección de orden 1 I T al estimador usual
ECM[yT+^{y,)], que trata de recoger el error generado por la variabilidad muestral
en la estimación de los parámetros.
Esta aproximación ha sido obtenida dentro del marco de los madelos en el
espacio de los estados. Teniendo en cuenta que ésta es una clase de mode{os
lineales muy general que incluye entre otros a los modelos estructurales de series
temporales y los modelos ARIMA, podemos aplicar la fórmula ECM*[yT+^{y^)]
para estimar el ECM de predicción con parámetros estimados dentro del campo
de los modelos estructurales que son el objetivo fundamental de nuestro estudio.
Tomando corno base el modelo estructural más sencillo, el modelo de paso
aleatorio con ruido, he Ilevado a cabo un sencillo estudio de simulación para obtener
algunas indicaciones sobre el camportamiento de los dos estimadores propuestos:
i)
ii)
Los efectos de la variabilidad muestral de las estimaciones de los parámetros en el ECM de predicción con parámetros estimados, son bastante
importantes.
^
EI estimador ECI^I^`[yT+s^{yr)] subestima, en general, el verdadero ECM de
predicción con parámetros estimados. Los efec#os son mayores para
tamaños muestrales pequeños, para valores de c^ñ próximos a la zona de
no invertibilidad y para horizontes de predicción largos. EI estimador
alternativo c^ue se ha propuesto corrige esta subestimación en la dirección
deseada aunque no siempre en la proporción suficiente para solucionar
totalmente el problema.
13d
ESTADISTiCA ESPAlJ^OLA
Si estudiamos el comportamiento de ECM*[yT+^(^^ )] para distintos valores
de T, Qñ y s, podemos concluir que la aproximación asintótica utilizada es
apropiada; el problema es que no se trata de un estimador factible.
En principio, pademos aplicar la aproximación al ECM de predicción con
parámetros es#imadios dada por ECM*[yT#^{yr)J, a modelos estructurales de
series temporales m^s complejos, a condición de comprobar que las condiciones
de regularidad necesarias se cumplen para cada modelo.
REFERENCIAS
AN^3ERSaN, B. D. O. y MooRE, J. B. (1979). Optimai Filtering, Englewoad Cliffs:
Prentice Hall.
ANSLEY, C. F. y KoHN, R. (1986). Prediction mean squared error for state space
models with estima#ed parameters, Biometrika, 76, 467-473.
BAILLIE, R. T. (1980}. Predictions for ARMAX models, Journal of Econometrics,
12, 365-314.
BLOOMFIIELD, P. (1972}. On the error of prediction of a time series, Biometrika, 59,
501-507.
FULLER, r/1/. A. y HASZA, D. P. (1980). Predictors for the first-order autoregressive
process, Journal of Econometrics, 13, 139-157.
FULLER, W. A. y HASZA, D. P. (1981). Properties of predictors f©r the autorregresive
time series, Journal of the American Statistical Association, 76, 155-161.
HANNAN, E. J. (1970). Multiple Tirne Series, New York: John vviley.
HARVEY, A. C. (1983). The formulation of Structural Time Series Models in discrete
and continuous time, Questioo, 7, 563-575.
HARVEY, A. C. (1990). Forecasting, Structural Time Series Models and the Kalman
Filter, Cambridge Academic Press.
HARVEY, A. C. y PETERS, S. (1984). Estimation procedures for Structural Time
Series Models, LSE Econometrics Programme, Discussion Paper núm. A44.
PHILLIPS, P. C. B. (1979), The sampling distribution of forecasts from a first order
autoregresion, Journal af Econometrics, 9, 241-261.
PiERCE, D. A. (1975). Forecasting in dynamic models with stochastic regressors,
Journal of Econometrics, 3, 349-374.
^
ERROR CUADRATICO MEO10 DE PREDICCIOW PARA MODEI.OS ESTRUCTURALES DE SERIES TEMF'ORALES
1^^
RE^rvsE^, G. { 1980), Asymptotic properties of prediction errors for the muftivariate
autoregressive rnode{ using estimated parameters, Journal of the Roya/ Statistical Society, Series B, 42, núm. 3, 328-333.
SPITZER, J. J. y^AILLIE, R. T. (1983). Sma{f sample properties of predictions from
the regression model with autoregressive errors, Journal of fhe American Statistica/ Association, 78, 258-263.
YannAMC^TO, T. (1976), Asymptotic mean squared error prediction for an autoregresive model with estimated coeff cients, Applied Statistics, 25, 123-127.
SUMMARY
FORECASTING MEAN SQUARED ERROR FOR STRUCTURAL TIME
SERIES MODELS
A simulation study is carried out to examine the behaviour in small
samples of various estimators of the forecasting mean squared error
(MSE) with estirnated parameters. The attention is focused on the
class of Structural Time Series Models.
Two practical estimates of the forecating MSE, one of which includes
terms reflecting parameter estimation and one which exludes these terms,
are compared to the mean squared error of forecast for the simplest
structural model, the random walk plus noise model, considering different
values of the parameters of the mode! and different sample sizes.
Key wt^rds: Kalman Filter, Structural Models, Forecasting Mean Squared error, maximum likelihood estimation.
AMS Classification: 62M 10.
Descargar