El problema de las condiciones iniciales en los algoritmos de

Anuncio
ESTADISTICA ESPAÑOLA
Vol. 35, Núm. 132, 1993, págs. 141 a 167
EI problema de las condiciones íniciales
en los algoritmos de estimación recursiva
de modelos lineales
SONIA SOTOCA LOPEZ (*)
Departamento de Economía Cuantitativa
Facultad de CC. Económicas y Empresariales
Universidad Complutense de Madrid
RESUMEN
En este artículo se proponen dos soluciones para independizar los
resultados del método de estimación recursiva estándar de la influencia de condiciones iniciales arbitrarias. La primera solución consiste
en utilizar un algoritmo recursivo corregido que descuenta el efecto de
condiciones iniciales elegidas arbitrariamente sobre la estimación final
de los parámetros de un modelo de regresión. La segunda solución
se basa en el us^o de !os filtros basados en la propagación de la matriz
de información en lugar de la matriz de covarianzas. Estos algoritmos
disponen, por su propia naturaleza, de condiciones iniciales exactas y
son robustos numéricamente.
Palabras clave: condiciones iniciales, estimación recursiva, estimador
cresta, matriz de ínformación, estabilidad numérica.
Clasificación AMS: 62J05, 62J07.
(*) Quiero agradecer especialmente a Miguel Jerez por sus interesantes comentarios y
sugerencias. También deseo agradecer los comentarios recibidos de Rafael Flores, Mercedes GraciaDíez, Alfonso Novales, Teodosio Pérez, Gregorio R. Serrano y Daniel Peña. Los comentarios y
sugerencias recibidas de dos evaluadores anónimos han ayudado a mejorar sustancialrnente la
primera versión de este trabajo.
7
, "1 . j
.
INTRODUCCION
Como es bien sabido, el algoritmo de estimación por mínimos cuadrados
recursivos (MCR) es un casa particular del filtro de Kalman (ver, por ejemplo,
Jazwinsky, 1970) y, por consiguiente, un aspecto crucial para su uso es la
elección de condiciones iniciales.
En el contexto de los métodos de estimación recursiva, resulta frecuente utilizar
condiciones iniciales arbitrarias o, a lo sumo, diseñadas de acuerdo con una regla
heurística [ver Young (1984), pág. 27]. Este tipo de criterios ad-hoc puede dar
buenos resultados cuando se dispone de muestras grandes y/o en situaciones
de estimación bien condicionadas. Sin embargo, la práctica econométrica nos
enfrenta a menudo con problemas de estimación mal condicionados (debidos,
por ejemplo, a la presencia de multicolinealidad aproximada) que deben resolverse a partir de muestras muy limitadas. En estos casos, el uso de condiciones
iniciales arbitrarias puede dar lugar a la degradación numérica del proceso
recursivo, haciendo que las es#irnaciones finales del procedimiento no coincidan
con los resultados del método de mínimos cuadrados ordinarios (MCO).
En este ar#ículo se proponen dos soluciones para independizar fos resultados
del criterio MCR de la influencia de condiciones iniciales elegidas ad-hoc: a)
utilizar un algoritmo de estimación MCR corregido (MCRC} y b) utilizar un algoritma de estimación MCR basado en el filtro de la matriz de información [ver
Anderson y Maore (1979}]. EI criterio MCRC descuenta el efecto de condiciones
iniciales elegidas arbitrariamente sobre la estimación final de los parámetros de
un modelo. Este criterio se inicializa también con arbitrariedad, pero cuando se
dispone de cero grados de libertad se Ileva a cabo un paso intermedio de filtrado,
de forrna que los resultados de este filtro intermedio se convierten en las nuevas
condiciones iniciales del algoritmo MCR habitual. EI algoritmo de la matriz de
información puede inicializarse usando condiciones iniciales exactas, proporciona
resultados finales analíticamente idénticos a los del estimador por MCO y su
comportamiento numérico es sumamente estable, incluso en situaciones como
las anteriormente mencionadas.
Es importante señalar que éstas son dos soluciones alternativas. En general,
será preferible el criterio basado en la matriz de información cuando sólo se
requiera la estimación final de los mismos. Por el contrario, cuando sea interesante estudiar la evolución temporal de las estimaciones, es más conveniente
utilizar el método MCRC.
La estructura del artículo es la siguiente:
En el apartada 2, se describe el algoritmo de estimación MCR estándar, basado
en el filtro de Kalman y se demuestra que este método genera estimaciones
comparables a las de una regresión cresta (ridge regression). También, se
L
i^Ít(,.1Cj0. f: ^Ji`1 ^ ^ f
^^1 ) i I` I^^^iI( ,i( 1Í^I ^ `^ I^`JI^ .Jf^^ E:">
^Í`r
^^J^'S r7''^ ( 7'_Jf^i Í"^^, i:, ^)^
^ ^ ^^r"^, I! 1^v ^1^
^ i ^1.,.„:
^
y ^;
t,
1
^ ^^,J
describen las formas de cálculo habituales de las condiciones iniciales del criterio
MCR y se propone un método heurístico para su estimación. Aunque este método
también es arbitrario, evita la degradación numérica del algoritmo recursivo, en
algunos casos. Por último, se Ileva a cabo un análisis de la divergencia existente
entre las estimaciones finales obtenidas con MCR y con MCO.
En el apartado 3, se describen las dos soluciones propuestas al problema de
inicialización del criterio MCR. En primer lugar, se describe el algoritmo de
mínimos cuadrados recursivos corregidos (MCRC), que independiza los resultados del método MCR del efecto de condiciones iniciales. La segunda solución
surge al particularizar el filtro de información para el modelo de regresión líneal
con parámetros constantes, lo que permite obtener fas ecuaciones de un estimador recursivo alternativo (MCRI). Se demuestra que este método puede inicializarse a partir de condiciones iniciales exactas y se argumenta su robustez
numérica.
En el apartado 4 se aplican las tres estrategias de estimación recursiva consideradas a datos simulados. En los ejemplos, se consideran distintos tamaños
muestrales y distintas situaciones de condicionarniento. Por último, en el apartado 5, se resumen las conclusiones más importantes del trabajo.
2.
ESTIMACION RECURSIVA MEDIANTE EL FILTRO DE KALMAN
Sea el modelo de regresión lineal (MRL):
yt=Xi^+
(t - 1,2,...,n)
donde yt es la observación t-ésima de la variable dependiente, xt es un vector
(kx1) que contiene la observación t-ésima de las variabies explicativas, R es un
vector (kx 1) de parámetros desconocidos y^ t es una perturbación aleatoria que
se distribuye idéntica e indepedientemente con esperanza nufa y varianza constante 6?.
Es sabido que la estimación de [1) puede Ilevarse a cabo utilizando MCO con
toda fa muestra o bien recursivamente, aplicando el filtro de Kalman a las dos
ecuaciones siguientes:
Yc = xt ^c + ^c
[2]
^t=^3t-
[3]
en donde (3t representa el vector de parámetros correspondiente a una muestra
de tamaño t y[3^ refleja la hipótesis de parámetros constantes. Desde el punto
de vista de fa formulación en espacio de los estados, [2] es la ecuación de
^ ? r^ ; .
_
rk(
^+ ^
observación del modelo y[3j es la ecuación de estada. Por tanto, desde este
enfoque, !a variable endógena del MRL puede interpretarse como una señal
observable del vector de estado que es, a su vez, el vector de parámetros que
se desea estimar.
Las ecuaciones del estimador por mínimos cuadrados recursivos (MCRK) de
[1], surgen al particularizar el filtro de Kalman para el madelo dado por [2] y[3]
[ver Yaung (1984)]:
^t ^ ^t - ^ + kt E Yc - xi Rt - ^ )
C4]
kt = Vt ._ ^ xt ( xt VI _^ x t+ 1)-'
C5]
Vt =( Ik - kt x; ) Vt _^
C6]
La ecuación [4] indica que la estimación del vector de parámetros se actuaiiza
mediante una función lineal del error de predicción de yt comet'rdo al estimar ^3
con la información disponible hasta el instante t-1. EI factor de ponderación kt,
se conoce coma ganancia del filtro y su expresión figura en [5].
La matriz Vt, propagada a través de [6], es proporcional a!a matriz de covarianzas de los parámetros estimados con la información disponible hasta el
instante t, que denotamos por Pt. Es decir:
Vt = 1 Pt =( X^ Xt )-'
[7]
6?
en dande Xt es una matriz (txk} que recoge, por columnas, la información
muestral de cada variable explicativa hasta el instante t y se supone que
V^' = 0. Si dicha candición inicial no es nula, la relación entre ambas matríces
pasa a ser (ver Apéndice A}:
t
_ ^ ^^ 1 ^ ^ X^ xT ^_1
2.1.
Forrnas de cáiculo de las condiciones iniciales del criterio MCRK
Evidentemente, es necesario inicializar el algoritmo dado por [4]-[^] con unas
^
condiciones iniciales (^30, Vo}. Existen distintas formas de determinar las mismas:
a)
Condiciones iniciales arbitrarias (MCRKa).
b^
Método heurístico de cálculo de las condicianes iniciales (MCRKb).
c}
Condiciones iniciales estimadas por MCU (MCRKc}.
r'F^C.)E3l E M^ C)E LA^, (;(:7^^J^.)I(,Il')f^^JF.`^ li`Ji(.,I^L E^ E f^ ^ t.,^^^ At í^`;(:..^F^11^n^^r 7c., [^)E f:^^^^,^1i^^"F'•t .It^>f^^^ kE (, I)F;^,I^^/A
a)
Í4^)
Condiciones iniciales arbitrarias (MCRKa).
El criterio utilizado habitualmente [ver, entre otros, Young (1984}, pág. 27 y
Harvey (1989), pág. 107), consiste en fijar:
^
Qo= O
[8l
Vo ^ tl k
[^]
donde i es un escalar positivo y arbitrariamente grande.
Las condiciones iniciales [8]-[9], expresan un elevado grado de incertidumbre
acerca de la magnitud y el signo de los parámetros a estimar. Este criterio
^
responde a la idea de que, si no se dispone de información a priori, ^3o es una
variable aleatoria, afectada por una incertidumbre infinita. Obsérvese que las
condiciones [8]-[9) convergen a los dos primeras momentos de esta distribución
cuando i--^ ^. Puesto que el algoritmo MCRKa no puede propagarse comenzando con un valor infinito de T, en la práctica se utiliza un valor finito y arbitrariamente grande.
^
La expresión [4] puede escribirse en función de las condiciones iniciales [3o Y
Vo, de la forma (ver Apéndice A):
^
_
^
_ ^
t
Rt - ^ v0 1 + ^ xi xT )-1 ^ v01 ^0 + ^ xi Yi ^
[ 10]
y teniendo en cuenta [8] y[9], la expresión [10] se reduce a:
^
^t/MCRK
^
_
- ^ ^I k + ^ xi xT ) 1 ^ ^ xi Yi
)
[11]
r
en donde ^= 1/i es un escalar positivo y arbitrariamemente pequeño y[3t/MCRK
denota la estimación obtenida con el criterio MCRKa después de haber procesado t observaciones. La expresión [11] muestra que el estimador MCRKa puede
interpretarse como un estimador cresta (1) [ver Gruber (1990)]. Como es bien
sabido, este estimador es sesgado, aunque su varianza puede ser menor que la
del MCG si se elige adecuadamente la constante ^ que se añade a los elementos
de la diagonal principal de X t Xt. Sin embargo, el problema es que existen infinitos
valores de ^ que cumplen dicha propiedad y no resulta obvio cuál de ellos debe
seleccionarse.
(1) En este trabajo se utiliza «regresión cresta» para traducir la expresión inglesa ridge regression, debido a que es común su uso en la literatura especializada en casteflano. Una alternativa
probablemente más correcta sería hablar de «regresión riscal» como propone el Prof. Azorín.
^^.^F.?
f ^,ra
^^^,r,^^^^^^^ a
Hoel y Kennard (1970) sugieren probar con distintos valores de ^ a partir de
uno que mejore al MCO (es decir, con un error cuadrático medio más pequeño
que la estimación por MCU). Si a partir de un cierto rango de valores, el estimador
cresta no cambia mucho, entonces elegir el valor superior de dicho rango.
Schmidt (1976) propone elegir el valor de ^ que minimice el error cuadrático
medio del estimador cresta. Ei problema de este método es que el valor de ^ que
cumple esta condición no es computable, ya que depende del verdadero valor
del vector desconocido ^3.
Young { 1984) sugiere que un valor de ^ del orden de 1 Q^ es suficiente para
que el estimador MCRKa converga al MCO al final de la muestra. No obstante,
aunque es evidente que [11 ] converge a la expresión MCO cuando ^--^ o, éste
también es un criterio arbitrario. EI estimador cresta es consistente (ver Apéndice
B) y por tanto, para muestras grandes, un valor de ^ del orden que sugiere Young
puede ser suficiente. Sin embargo, para muestras pequeñas, ^ puede no ser una
cantidad despreciable con respecto a X^ Xt, dependiendo de cuál sea el arden
de magnitud de las variables explicativas.
Por otra parte, fa selección del factor ^ sin tener en cuenta la métrica def
problema de estimación, puede dar lugar a la acumulación de errores numéricos
en la propagación de Vt a través de [6]. Esto ocurre, sobre todo, si se escoge un
valar de t demasíado grande. En cambio, si t es excesivamente pequeño, las
condiciones iniciales no recogerían suficientemente la incertidumbre existente a
priori, haciendo que las estimaciones finales de los parámetros sean parecídas
a sus valores iniciales. Es decir, el efecto sería similar a implantar la restricción
de que cada parámetro sea «casi» igual a su condición inicial.
b)
Méfodo heurístico de cá^culo de las condiciones iniciales (MCRKbj
Proponemos un método heurístico más sencillo para elegir ^, consistente en
comparar la métrica de las matrices X t Xt y^Ik. ba escala de X t Xt puede medirse
por su traza o por una norma de dicha matriz. En ambos casos, se puede fijar
una tolerancia ^ tan pequeña como se quiera, de forma que:
< ^.
^
tr(XtXt)
[12]
o bien:
_
_ ^_
_
IlxtXtll2
< r:
[ 13]
^^ ^ E^FZ^.^^ii E^:r^A ^^E^^ ^ n^ ^,^ ^^,r^^C^i^^
IC)^,lE^ `^ IPJIC;IAC E `^i t^ rJ l C1`^ Al (. ^t ?^f ?^^' ^:`-, iJE E^
^ i^^^a^ :^^^_^r. ^^E^ ^^ ^ ^^^^^^^^r^^^^^
14 ^^l
^ + a2z
^ + ... + a^
SlendO (I XTt X tll 2=^ a^,
kk )'^ y a„ ( i= 1, ..., k) los elementos de
la diagonal principal de X t Xt.
Fijado ^, puede encontrarse el valor de t que hace que el estimador MCRK de
[i tienda al estimador MCO con toda la muestra. De esta forma, si el valor de T
es demasiado grande, lo cual podría dar lugar a la degradación numérica del
algoritmo, puede fijarse un valor de z más pequeño y buscar un factor de escala
adecuado para las variables independientes del modelo. EI inconveniente de este
método es que exige procesar toda la muestra para medir el tamaño de la matriz
X t Xt o, en su caso, para escalar adecuadamente los datos de las variables
explicativas, con lo que se desvirtúa el interés por la recursividad del algoritmo
MCRK. No obstante, aunque este método no resuelve el problema de la arbitrariedad de las condiciones iniciales, permite acotar los valores del factor z que
evitan la inestabilidad numérica del algoritmo.
Otra posible solución consistiría en utilizar alguna normalización de la matriz
X t Xt como por ejemplo, estandarizar los órdenes de magnitud de sus elementos.
Esta normalización reduciría el orden de magnitud de los datos y, por consiguiente, los posibles errores numéricos.
c)
Condiciones iniciales estimadas por MCO (MCRKc)
Otra posibilidad ya conocida en la literatura para conseguir condiciones iniciales del algoritmo recursivo, consiste en utilizar parte de la información muestral
disponible para su estimación. En concreto, se usan las k primeras observaciones
para inicializar el filtro:
^
NO ^( X k X k^-1 X k Yk
[ ^ 4^
Es decir, se obtiene una pr^mera estimación del vector ^3 aplicando MCO con
un grado de libertad y se actualiza la estimación de Pste vector de parámetros
para t= k+1, ..., n. La desventaja de este método consiste en que, de nuevo, se
desvirtúa la recursividad del procedimiento MCRK y no se obtiene una estimación
recursiva de los parámetros para las primeras k observaciones.
2.2.
Análisis de la divergencia entre las estimaciones finales obtenidas
con MCRKa y MCO
A partir de [11 ] y la expresión del estimador MCO es fácil ver que, una vez
procesada una muestra de tamaño t, la diferencia resultante en las estimaciones
,
"-^^^?A_P^^t' )^ A
obtenidas con los algoritmos McRKa y MCC^, depende exclusivamente de! tamaña de una matriz W^, definida como:
W^ = (^i^+ XtXc)^^ -- (XrXt)^'
[16]
Lema 1
^a traza de la matriz Wt, es una funcián creciente del tamaño del escalar T.
Demostración
Sea la factorización de la matriz X t X
[ 17]
Xi Xt = M ^ Z MT
donde S2 es una matriz diagonal que contiene los autovalores de X t X t y M es
una rnatriz ortogonal que contiene por columnas los autovectores de X; X t. Esta
factorización siempre existe al ser Xi X t una matriz definida positiva.
Puesto que las rnatrices ( X t X t)^' y(^I + X i X t)^' tienen los mismos autovectores (ver Schmidt, 1976), es fácil demostrar que Wt puede factorizarse de la
forma:
= M[(^I+SZ)-^-SZ^']MT = Mdiag
C ^^ ^ ^,; ^+- ^ ,
] MT
^ , 8,
donde ^,; es el autovalor i-ésimo de la matriz X t X t y el escalar [-- ^,,/^; (^; +^)] el
autovalor i-ésirno de la matriz diferencia Wt, siendo ésta definida negativa [la
matriz Wt es definida negativa si y sólo sí ( X i Xt )-(^I + X t X^ ) es definida
negativa].
A partir de [18], la traza de Wt es:
^
<0
tr ( Wt ) - _ ^
^' ^^(^r+^)
[1 g]
y derivando [19] con respecto al escalar ^, se obtiene:
^^tr ( Wt ) _ _ ^
1 _
^ - ^ ( ^,^ -^- ^ )^
r^^
[20]
^^,^^^F1^ E nna i^E^^ ^ a^^> ^ ^,^ 7r^r^i^^^^ ir^ir^^F ^-, ^r^^^ ;aA^_^^ ^^> E^,
( )^j
^a,l
^.i^;^^r^f ^^^ : ^
f f ^...aTl^4^ ^
^(. ^^.)^i
14y
El signo negativo de la derivada en [20] indica que, a medida que disminuye
el valor de ^(o bien, a medida que aumenta el valor del escalar t), aumenta el
tamaño de la matriz Wt. ^
Lema
Si algún autovalor de X i X t converge hacia cero, entonces tr(Wt) ---^ -^.
Demostración
Directamente de la expresión [19]. ^
Las implicaciones de estos dos lemas son inmediatas. EI Lema 1 establece
que la diferencia entre los resultados de las estimaciones MCRKa y MCO es una
función directa def tamaño del factor T. Por consiguiente, si no se dispone de
suficientes datos, la diferencia entre ambas estimaciones puede ser sustancial.
Por otra parte, según el Lema 2, el mal condicionamiento de la matriz X t X t afecta
directa y positivamente a la magnitud de la matriz Wt. Es decir, en las situaciones
en que exista un cierto grado de multicolinealidad, el estimador MCRKa puede
dar resultados muy diferentes a los de MCO.
3.
SOLUCIONES AL PROBLEMA DE CONDICIONES INICIALES EN EL
CRITERIO MCRKa
En este apartado se plantean dos métodos que permiten resolver el problema
de degradación de los resultados de MCRKa en presencia de colinealidad o
cuando la muestra es pequeña.
3.1.
Estimación mediante mínimos cuadrados recursivos corregidos
(MCRC)
Como se ha visto en el apartado 2, el algoritmo MCRKa inicializado arbitrariamente genera estimaciones comparables a una regresión cresta. En este sentido,
no está garantizada la convergencia del estimador MCRKa a su expresión MCO,
una vez procesada toda la muestra.
La idea que se propone para resolver este problema es la siguiente. Las
condiciones iniciales del tipo [8] y[9] pueden interpretarse como el resultado de
aplicar MCO a una muestra ficticia que forma el conjunto de información denotado
^^ f - G"^ ., ' ,^ r i
por I^^. Las observaciones que generan las estimaciones de ^3° y V° dadas por [8]
y [9], son ias siguientes:
Y° ^ 0
X ° --
1
yt
[21 ]
donde y° es un vectar (kx 1) que contiene las observaciones muestrales formadas
por el vector (y___k, y_^^+^ j, ..., y_^)T y x° es una matriz ( kxk) que contiene por
columnas la información muestral ficticia de las k variables explicativas del
modelo. Es decir, si denotamos por x° la columna j-ésima de X°, el vector xoT
.
estara armado por los elementos (x_k^, x__^k+^^^, ..., x_^^).
Dada la información representada por [21] es fácil ver que la estimación MCO
del vector [3 del MRL será:
NO =( X°T X° )i ^ X°T y° = O
V° _
^ XOT X° )
- TI
[22]
[23]
Por tanto, si las condiciones iniciales dadas en [8] y[9] provienen de procesar
el conjunto de inforrnación I°, la idea sería eliminar el efecto que esas observaciones ficticias tienen sobre las estimaciones MCRKa cuando se han procesado
k observaciones reales.
En resumen, para independizar el criterio MCRKa de la influencia de las
condiciones iniciales [81 y[9], pueden Ilevarse a cabo los siguientes pasos:
1)
Inicializar el algoritmo MCRKa con condiciones iniciales arbitrarias del tipo
[8] y[9] hasta el instante t=k (es decir, hasta disponer de cero grados de
libertad):
`dt = 1,2,...,k
2)
k t= Vt _^ xt ( x^ Vt _^ x^ + 1}^^
[24]
[^t = ^t--^ + kt ( Yt - xi Qc-^ )
[25]
Vt ={ I-- k t xt ) Vt__^ ( i-- k t x^ )T + k t k t
[26]
Eliminar el efecto del conjunto de información I° sobre la estimación [3k.
Para ello, se pueden utilizar las siguientes ecuaciones de corrección (2)
[ver Young ( 1984), p. 60]:
(2) Estas ecuaciones eiiminan de ia estimación final de los parámetros el efecto de una o varias
observaciones. Por ejemplo, podrían usarse para descontar el efecto de posibles observaciones
atípicas y/o influyentes. La aplicación de este filtro en nuestro contexto supone considerar como
influyentes las observaciones que generarian condiciones iniciales arbitrarias. Puede encontrarse una
demostración de las ecuaciones [27]-[29] en el Apéndice C.
f l
f'fl^ lfil f ti^^<', Ut L^`.
!)^J[i^^ ^r^f^t ., ^('^f( JAl E
^, r ^',, ^, ^ ^, ^ ^ ^^' ; ,
f!s = k+1, k+2, . .., k+k
kk = Vk Xk_s ( Xk_s Vk Xk_s
- 1^-1
r^^
_ "
T
k-^k + kk ^ yk-s ! xk-s h'k ^
kk Xk S ) Vk
3)
[28]
[29]
Utilizar las estimaciones ^k y Vk^ como condiciones iniciales del algoritmo recursivo [24]-[26], b't = k+1, k+2, ..., n.
Por tanto, esta estrategia supone I{evar a cabo un paso intermedio de filtrado
en el instante t=k. EI filtro dado por las ecuaciones [27]-[29], descuenta el efecto
de cada una de las observaciones ficticias generadas por las condiciones iniciales
[8]-[9], sobre la estimación de los parámetros obtenida hasta ese momento. Los
resultados de ese filtro intermedio se convierten en las nuevas condiciones
iniciales del algoritmo MCRKa habitual. La originalidad y ventaja de este procedimiento consiste en poder calcular recursivamente unas condiciones iniciales
que coinciden con la estimación MCO de [i resultante al procesar las primeras k
observaciones de la muestra.
Lema 3
Es fácil demostrar que después de propagar las ecuaciones [27], [28] y[29],
el estimador corregido ^k coincide con su expresión MCO para una rnuestra de
tamaño k.
Demostración
Escribiendo la ecuación [29] de la forma:
Uk Vk ^- I- kk xk-s
[30]
y como yk_S = 0 para s = k+1, k+2, ..,, k+k, la expresión [28] pasa a ser:
F^k
^ Vk Vk 1 ^k
[31 ]
Como se demuestra en el Apéndice A, la matriz Vt en el instante t=k tiene la
siguiente retación con su condición inicial:
k
Vk =( Vp ^+ ^ Xi XT )^^
[32]
C: `i r I i t} M`':; T i Í„^ ^ ~s ^^^^ ^ i {) l. r,`
1^)^;`^
y el correspondiente estimador de ^3 usando las primeras k observaciones:
k
M
^k = ^ vp-1 + ^ xi XT ^ _ 1 ^ ^0 ^ RO -}- ^ xi yi ^
^
1
^
[33]
1
en donde las condiciones iniciales son de la forma:
Vó1 = t^f
^
^o=o
[34]
Sustituyendo [33] en [31] y teniendo en cuenta [34], se obtiene:
k
^k - Vk ^
[35]
Xi yi
Por otro lado, sustituyendo [27] en [29] y aplicando el lema de inversión de
matrices a la expresión resultante se obtiene:
-1
*
1
T
Vk -^ Uk - Xk-s Xk-s ^
-1
T
T
1
k
-^ VO +^ Xi xi - xk-s Xk-s ^
^^ i
b' s= k+ 1, k+2, ..., k+k
[36]
Por tanto:
+ ^ xi XT - xk-s xk-s )-1 , ( ^ Xi yi ^
b` s= k+1, k+2,..., k+k
[37]
y teniendo en cuenta [21 ], una vez propagadas las ecuaciones de corrección se
obtiene:
^k - ^^ xixT ^ -1 ^^ xiyiÍ
^,
[38]
^=^
que coincide con la expresión del estimador MCO cuando se han procesado fas
k primeras observaciones. ^
La demostración anterior pone de manifiesto que la efección del escalar T en
el paso (1 } def algoritmo puede ser arbitraria. Es decir, sea cual sea el valor
elegido, en el paso (2) se descuenta el efecto de dicho escalar sobre la estimación de (3 usando k observaciones, asegurando que al final de ta muestra el
f^ l F'kC^)f3l EMA C.)f l_A5 C^.C)P^^C^)I(^..I(;)(^^1F^`^^ fNl(^.:I^,l._E^ `^ E^ l (^) 5 Al (;C^^!T^"^^"t.^^i`^, (^ ^ E
f^^;T^+h^/IA^^^^ICaPJ F?^-^:^:i ^4^^4^^aA
estimador obtenido coincide con el MCO. Por supuesto, lo más sencillo sería
hacerlo igual a uno (3).
3.2.
Estimación recursiva mediante el filtro de la matriz de informac^ón
(MCRI)
EI filtro de información se obtiene aplicando el lema de inversión de matrices
a las ecuaciones del filtro de Kalman [ver Anderson y Moore (1979), p. 138]. Por
tanto, ambos filtros son algebraicamente equivalentes. Las ventajas del filtro de
información con respecto al criterio MCRKa son dos:
1)
Permite instrumentar exactamente las condiciones iníciales que se aproximan en el filtro de Kalman mediante Vo = tl.
2)
Las matrices del filtro se propagan de forma estable a partir de las condiciones iniciales.
EI filtro de información propaga la inversa de Vt y un vector de estado ( at )
que es combinación lineal de los elementos del vector de estado original ( Rt ).
Las condiciones iniciales de este algoritmo son siempre:
[39]
V^' - 0
-o
y las ecuaciones del filtro de información particularizadas para el modelo dado
por [2]-[3], son las siguientes:
Vt"^ = Vt-i + xt xt
[41 ]
^
a*t _
C^2]
+ xt Yt
donde el vector de estimaciones de los parámetros originales del modelo se
recupera mediante la relación:
^
,^
^
a t= Ut- ^t
n
n ..
^ ^t = Uc a t
C^3]
(3) En la aplicación hecha con datos simulados (ver Apartado 4) se ha preferido utilizar un valor
de t= 106 porque es el que sugiere como adecuado, en general, Young (1984, p.27).
,^
.) I ^^^i.li:,.i i ii .l1 ,
1F
LA^^^^I
Escribiendo las ecuaciones [41 ] y[42] en función de las condiciones iniciales [39]
y [40J, se obtiene:
vt--1
^
^ vó 1+ ^ X' xT
[44]
,,
t
á t= á ó+^ x^ Y^
,,
[45]
y sustituyendo [39], [40], [44] y[45] en [43], resulta:
Rt MCRI ^ Í^ x^ xT )!' c^ x^ y^ )
^
^
^
dt = ñ, k+ ^,...,
n
[46]
^
en donde Rt McR, denota la estimación de ^i obtenida con el criterio MCRI, cuando
se han procesado t observaciones. La expresión [46] coincide exactamente con
la del estimador MCO para una muestra de tamaño t. Esto prueba la independencia del fiitro de información de las condiciones iniciales. La robusted nurnérica
del filtro surge al propagar la matriz de información como una suma de matrices
definidas positivas [ver (44}]. Además, el estimador MCRI es analíticamente
idéntico a la expresión MCO.
La desventaja de este método con respecto a MCRKa y MCRC es que para
recuperar la evolución de los parámetros originales, es necesario utilizar la
relación [43] que supone invertir la matriz de información cada vez que se añade
un nuevo dato.
Por último, cuando la matriz de regresión está mal condicionada pueden
utilizarse los Ilamados algoritmos de la raíz cuadrada de la matriz de covarianzas
o de la raíz cuadrada de la matriz de infarmación. Estos métodos se basan en
propagar una factorización de la matriz de covarianzas o de la matriz de información en lugar de las propias matrices. Las principales ventajas de los algoritmos de la raíz cuadrada son básicamente dos: 1) el cálculo de la matriz de
covarianzas o de la matriz de información a partir de su factorización nunca puede
Ilevar a una matriz no definida positiva y 2) la raíz cuadrada de una matriz de
covarianzas siempre está mejor condicionada que la propia matriz. La única
desventaja de estos métodos está en la mayor carga computacional que supone
su instrumentación en la práctica, aunque esto también dependerá de las dimensiones del problerna en concreto. Un estudio detallado de los algoritmos de la
raíz cuadrada puede verse en Bierman (1977) y Anderson y Moore (1979).
i l f'F^()fii E MF^ [)t l A; ^ ^ ^: 1fJUlí _ ^t j^df ,^, IPJI( .IAI E- `a E ^^ , t )^; :{l ,': ,f.'.+' "^"^ ^^
4.
.,^t
E °^T I"^-^t;r, ^rt 1^^ ^.,E ^ ^ Ef'^ ','. ;,
1 ^^^)
RESULTADOS EMPIRICOS CON DATOS SIMULADOS
En este apartado se ilustran los resultados teóricos de los apartadas anteriores,
utilizando datos simulados. En concreto, se han aplicado los criterios de estimación
MCRKa, MCRI y MCRC a dos modelos: el primero bien eondicionado (rnodelo I) y
el segundo mal condicionado (modelo II), para distintos tamaños muestrales.
En la Tabla 1 se presentan los resultados de la estimación del modelo 1
mediante MCRKa, MCRI y MCRC. Los valores entre paréntesis son las desviaciones tipicas de las distribuciones empíricas. En la segunda calurnna de la
Tabla, se ofrece el número de condición de la matriz X t X t para los distintos
tamaños muestrales considerados. Este número es, en todos los casos, del orden
de magnitud de la unidad, lo que indica el buen condicionamiento del modelo.
A la vista de los resultados, puede concluirse que, con cualquiera de los t^es
procedimientos recursivos utilizados, a medida que aumenta el tamaño muestral, el
valor medio de las estimaciones finales se acerca cada vez más a su correspondiente valor teórico. Sin embargo, independientemente del tamaño muestral, el error
cometido (4) al estimar cualquier parámetro con MCRKa es siempre mayor que el
correspondiente a MCRI y MCRC. Además se observa que, para todas las muestras
consideradas, los resultados obtenidos con MCRI convergen numéricamente a los
obtenidos con MCRC. Es decir, el algoritmo MCRC realmente corrige el efecta de
condiciones iniciales arbitrarias [T = 106, como sugiere Young, (1984)] sobre el valor
final de las estimaciones, haciendo que éstas convergan a la MCO.
En la Tabla 2 se presentan los resultados de la simulación del modelo II. En
este caso, el número de condición de la matriz X t X t es del orden de 104. Este
modelo se ha generado incluyendo un término cons#ante y dos variables exógenas que evolucionan de acuerdo con la siguiente relación:
XZt = ZX3t + Ft dt = ^, ^ , .. .,11
donde ^t y x3t son procesos ruido blanco independientes entre si y el ratio
señal/ruido de esa relación es de 5.03.
En primer lugar, se observa que 1os algoritmos MCRKa, MCRI y MCRC estiman
adecuadamente el término c©nstante. Sin embargo, el error cometido en la
estimación de los parámetros asociados a las variables correlacionadas es siempre superior con M^RKa que con los otros dos procedimientos recursivos, tendiendo a cero más despacio que al utilizar MCRI y/o MCRC. AI comparar los
resultados de los criterios MCRI y MCRC, se aprecia, de nuevo, la convergencia
numérica de las estimaciones finales obtenidas con ambos procedimientos.
(4) Error en términos de la desviación entre el promedio de las estimaciones y el verdadero valor
del parámetro.
i w^,^)!S1lC C, E `>L'in^J+^.1^ ^^
^^
U^
^^
^^
^
<^i
lf^ ^
Q) ^
^•rO ^
^f
C7^
N
©
^
^
rCj
^- ^
© ^,.
^? ^-O©
N Q
O ^
C^r? p
O^j
^O
Cr?
O
ca a^
C° ^
ca
óc^
ao ^
^°'
^t ^
voo
^
c^©
ao Ó
tió
óc^
O ó
^á
óc^
ti.i
c^c^
v
^..^
^..^
^
^
p
0
^.i
^
N
.^.
^
^
^,.
O
N
C
O
t^
w
,.-..
,-,
,-^
Ñ
^-
CO ©
^ r-
C^
Ó
,.r-
C^ ©
._..
f
^
^
d- O
C^ G^
..^
N
^ CD
^ C'^
Ó C>
._.
^(M
d' O
C^ Ó
._,^
CD
^
.-,
<^
.. °i
-^-
,-..
CO
.^
0
m
^ c^.
M
^, ^
^ U
< ci
^^
lf') ^
1` ^
O^ ^
d`
Ñ r``
^
0 ^
N^
^
© 0
M^
^-^ ^
Mp ~`
O
o ^
M^
O
^ 0
GO GO
OiD N
^ M
p O
^ rn
a^o o
^ O
c.^o Ñ
cic^
^
óó
^
c^c^
^
©c^
^
óc^
^
.--.
.-
<r.^.
(.N
O N
^t rc^ó
._..
O')
<^i
.^
^ Ó
CO
^r ró©
..^
a^o ó
.-^
1^-
^
v o
oò
...,
^ ó
,--^
.^
M
^ CD
^t o
c^ó
t.,
~
O p
o0 ^
^ ^
oó
c^^
^ó
oó
^ó
ó^
N©
o^
Ñ
CT
M
^ o
oc^
..^
^f 3
^
N`^
o
©^
v
^
0
=v
^
O
^
a
^
^
^
a^
^,
<^
M^
•-a
c^o
^../
<^
a0 ^t7
^-o
0ó
V
^^
r^o
oc^
\../
04 C^
^ f`
f^
^ ó
óc^
.^
^ á
c^c^
^...
Ñ ó
c^c^
.....
N
Ó M
^.no
ó0
\^'
^ M
coo
0ó
`^I
N N
O)
^c i ó
óó
^...
o
d-, ó
0ó
...^
o
^
=
^
^
m
N
^,
^
^
j
^U
_
^
^
^
^
^
C
.^
^
o
.^
-^+_•
^
^v
c
o
c
^Ó
v^
^
N
^
^^
^
.o
^
^
^ ^
^
'>
X ó ^
^
T
V
` ^^ ,O
^ ^ •V
(`^O
E^E
C
^
^ ^ ^
^
^ ^ .^
^ o ,^
.^ ^; ó^^
•^ co .^
^ Ñ
^U
^ ^
,^
^ ^
^
ó. ^ ° ó ^a
^
^
.-^
cN
^
r=
^
O
^
ch
°
°
ó
ó
ó
^
U
M
z
z
^ ^ ^ ^ ^
^ ^ o ,^ 0
cn ^^ ^^ =
c^a co ^ ^ i.L
^ = Y
v co
^- •z ^ fY
^ U U
ó ^ Z Z ^ ^
z « ^ ^ « * ^
E l F:,^1^..7E31 E: r^1^ [)E: l As ^;^')N(.:)ic :IC)NE ^^ ^ rdl(,^^^1 E^; E N I ^'^^ a
<^
^
Cfl
^
^--
^ C j
^ l ^
^
Ñ
M
^
O^
O Ó
N
^ O
© O
^ O
© O
^- p
LY ^
r„
00 CD
^
c^ ó
00
M
^7 f-
Q^
M
co ó
r^ o
óó
...^
o©
o 0
^.n o
c^ó
..^
oó
0 0
u^ o
óó
.^
0ó
0 0
^n o
c^ó
...^
0ó
0 0
^.n o
óó
^.
oc^
0 0
^n o
óó
....
r^ ^
c^ ^
cn ^
r- ^
rn^
^. N
O 0
^ ^
O Q
M ©
O ^
M Ó
O 0
N Ó
O ^
.^--r
00 ^--
^t
O d^
r- o
^
^
OO Ñ
CO ^
^©
0 0
.....
0 0
....
0 0
`.
0 0
.^-
<^i
0ó
° ó
^n
ó ^
ó
oc^
^n ó
°
c^ ó
.._.
oó
°
^r^ ó
c^ c^
.^
0ó
^n ó
°
c^ ó
....
0ó
^n ó
o
ó ó
`..'
<^i
r-ci^
° ó
0ó
`^ci
° ó
0ó
`^á
° ó
0ó
°cv
° ó
o^;
CO^
`^ ó
oó
r- ^
o
ó
o á^
o
_ ó
M
Ó Ó
O Ó
^ Ó
N O
M ^
c^ó
^
ór^
......
óó
^
c^ó
.^
óc^
^..^
ó ó
^n o
c^o
^
ó ó
^n o
óc^
^
ó ©
^n o
óó
^
ó á
^n o
óó
^
ó ó
^n o
óó
^
O
_
^
<i
^^
Y ó
<^i
<^i
^-^•
N
M
.-^
O
r^ o
óó
^.
^^-
r^. o
c^ó
....
<cYi
^^
v^
^
00
.--
..-^..
^
^-•.
O ^--
M
OO
M
^
Ñ
U
Lf ')
^
t^-
O^
a0
z
M
M
r-
CD
07
N
N
N
Ñ
N
°
^n
°
ó
^y
o
°
o
L
z
Ó
r- o
óó
^..,
^
<a.
U O
r^. rn
^
j
r- o
óó
.^
<c^,.
r^^
R6?4r+^)^; f^,f E `^TIr^1r+(
^t
d O
U^
, ;(
M
,^>r^^ F^^^ r ^^F^;^^,^^^^^t•
1..5 7
E L ^h(.áHt._f.MA DE LA^ ^1C^NOIC^I(^NES INICIALES E^N l.C^)S ALC,(,^)RITM(^}^-, i^E:^ E.ST^M^C;IC)N REC.UR^^^IVA
TAB LA 4
ECM resultantes de la estimación del parámetro ^iz
del modelo I con los criterios MCRKa, MCRI y MCRC
^
ECM( ^i2 >
N
30
50
100
200
500
MCRKa
MCRi
MCRC
0.439
0.386
0.184
0,087
0.019
0.065
0.049
o.os5
0.011
0.011
0.004
0.004
0.002
0.049
0.002
TAB LA 5
EC M resultantes de la estimación del parámetro R3
del modeto I con los criterios MCRKa, MCRI y MCRC
^
ECM( ^3^ )
N
30
50
100
200
500
MCRC
MCRKa
MCRi
0.046
0.041
0.018
0.010
0.003
0.029
0.029
0.024
0.024
0.013
0.006
0.002
0.014
0.006
0.002
TABLA 6
EC M resultantes de la estimación del parámetro R2
del modelo 11 con los criterios MCRKa, M C RI y MC RC
^
ECM( ^32 )
N
30
50
100
200
500
MCRKa
MCRI
MCRC
0.568
0.534
0.463
0.350
0.184
0.269
0.185
0.040
0.022
0.008
0.004
0.003
0.002
a.oo1
0.000
^^^
1k1(if.`;T C i
AP^' ij, ^^
TABLA 7
ECM resultantes de la estimación del parámetro (33
del modelo II con los criterios MCRKa, MCRI y MCRC
^
ECM( ^3^ ^
N
.
30
50
^oo
Zoo
500
5.
MCRKa
MCRI
0.087
0.088
0.079
0.062
0.067
0.044
0.009
0.046
0.058
o.oa4
0.031
0.002
0.005
0.002
MCRC
0.010
CONCLUSIONES
Las principales conclusiones del trabajo son las siguientes:
En un procedimiento recursivo, la estimación final de los parámetros puede
depender mucho de las condiciones iniciaies. Sin embargo, en la mayoría
de las aplicaciones económicas, apenas se cuen#a con información acerca
de los valores de los parámetros, por lo que las condiciones iniciales suelen
ser arbitrarias. Par esta razón, conviene utilizar algoritmos para los que se
disponga de condiciones iniciales exactas, como es el caso del criterio MCRI
o bien, algoritrnos que elirninen de alguna forma la influencia de condiciones
iniciales arbitrarias sobre la estimación final de los parámetros, como es el
caso del método MCRC.
La estimación recursiva es particularmente sensible a errores de redondeo
que se acumulan en el proceso recursivo y pueden Ilegar a invalidar los
resultados. Por ello, la estabilidad numérica debe ser un aspecta crucial a
la hora de elegir un algoritmo de estimación recursiva. EI algoritmo MCRI
es robusto numéricamente, mientras que el método MCRKa tiene problemas numéricas en situaciones que se presentan habitualmente en la práctica econométrica.
Se ha demostrado que el estimador MCRKa puede interpretarse como un
estimador cresta, mientras que el estimador MCRI coincide analíticamente
c©n el MCO. Por tanto, bajo las hipótesis habituales, el estimador MCRKa
es sesgado aunque consistente mientras que el MCRI es insesgado.
Se ha demostrado también que la divergencia entre las estimaciones finales
obtenidas con MCRKa y MCRI, depende exclusivamente de la magnitud de
una matriz denotada como Wt. EI tamaño de Wt (medido por su traza) es
2taE^l 4 M^ f^E L A`^ i,C ^N()I^ ,I^ )P^E ^ il^Jl(.IF{I F^ E hJ t^^^^, ,^,1 ^,`^iF;^,l r".^^ .^^, t;F E^,? i"J!^1^
'r
,P^ ^.^f ^ i^k1__^
A
tanto mayor cuanto peor condicionada esté la matriz X^ X, y cuanto mayor
sea el escalar que se añade a la diagonal principal de la misrna en las
condiciones iniciales estándar del método MCRKa.
Los resultados con datos simulados muestran que, incluso para muestras
suficientemente grandes y problemas bien condicionados, pueden producirse sesgos importantes en la estimación MCRKa. Sin embargo, independientemente del tamaño muestral disponible, el estimador MCRI proporciona
siempre estimaciones finales de los parámetros que coinciden exactamente
con los resultados obtenidos con MCO. Por otra parte, el estimador MCRC
genera estimaciones finales que convergen numéricamente a los obtenidos
con MCRI/MCO.
Si existe una gran incertidumbre inicial acerca del valor de los parámetros
y sólo se desea la estimación finai de los mismos, la mejor alternativa para
estimarlos recursivamente será MCRI. La razón es que este criterio presenta
importantes ventajas frente al algoritmo MCRKa: 1) independencia de condiciones iniciales, 2) su robusted numérica y 3) la convergencia exacta de
sus resultados finales a los obtenidos con MCO para toda la muestra.
Cuanda tenga interés estudiar la senda de evolución de los parámetros
estimados, así como su matriz de covarianzas en cada instante, puede ser
más conveniente utilizar el criterio MCRC. Este criterio tiene la ventaja, con
respecto al MCRI, de que no requiere invertir la matriz de información en
cada punto muestral para obtener el correspondiente vector de parámetros
asociados.
Por último, los métodos MCRKa y MCR1 pueden combinarse. Asi, es posible
utilizar el criterio MCRI para obtener condiciones iniciales estimadas por
MCO con un grado de libertad y después, actualizar las estimaciones de los
parámetros con MCRKa.
BIBLIOGRAFIA
ANDERSON, B. D. O. y MooRE, J. B. (1979). «Optimal filtering». Prentice-Hall, Inc.,
Englewood Cliffs, N.J.
ANDERSON, J. E. (1981). «Ridge estimation of house value deterrninants». Journal
of Urban Economics, n.° 9, 286-297.
BIERMAN, G. J. (1977). «Factorization methods for discrete sequential estimation».
Mathematics in Science and Engineering, 128, Academic Press, Inc., Califarnia.
164
E.^TAC)I;,11C;A E ^K'Fi^^(il A
BocK, M. E. (1975). «Minimax estimators of the mean of a rnultivariate distribution». Annals of Statistics, n.° 3, 209-218.
COOLEY, T. F., ROSENBERG, B. y WALL, K. D. (1977). «A note on optimal smoothing
for time varying coeffcient problems». Annals of Economic and Social measurerner^t, 6, n.° 4, 453-456.
GARBADE, K. (1977). «Two methods for examining the stability of regression
coefficients». Journal of the American Statistical Association, 72, n.° 357,
54-63.
GRUBER, M. H. J. (1990). «Regression estimators. A comparative study». Academic Press, INC., New York.
HARVEY, A. C. (1989). «Forecasting, structural tíme seríes models and the Kaiman
fiiter». University Press, Cambridge.
HOERL, A. E. j/ KENNARD, R. W. (1970). c<Ridge regression: biased estimation of
nonorthogonal problems». Technametrics, 12, 55-67.
.IAZW(NSKY, A. H. (1970}. «Stochastic Processes and Filtering Theory». Academic
Press, New York.
LJUNG, S. y LJUNG, L. (1985). «Error propagation properties of recursive least-squares adaptation algorithms». Automatica, 21, 157-167.
MARQUARDT, D. W. y SNEE, R. D. (1975). «Ridge regression in practice». American
Statistician, n .° 29, 3-20.
SCHMIDT, P. (1976). «Econometrics». Marcel Dekker, Inc., New York.
YouNG, P. (1984). «Recursive estimation and time-series analysis. An introduction». Springer-Verlag, Heidelberg.
APENDICE A
La expresión [10] puede demostrarse por inducción. En el instante t=1, la
ecuación [4] puede escribirse como:
[A.1 ]
^1 =( i-- k^ xi ) Ro + k1 Y1
Teniendo en cuenta que k1 = V^ x1 y ( I- k^ x^ )= V^ V^ 1, la expresíón [A.1 ]
queda como:
Í^1
= U1 VO 1 ^0 +
^✓ 1 x1 Y1 = V1 ( Vó ^ ^a +
x1Y1
)
[A.2]
^
_
F^l F^'f^C^)HIE-MA C.^E L_A5 C..'^)NC)IC^IC^)NES INIC^IAI_E^S E^N L(JS Al_GC^>F^ITM^.)S GE E.SI^IMAC::IUh^ kEC:UF^SIVA
_
__
__
__
__ . _
_-.
____
__
_ __ _ _
-- _
_
.
^,
_
Sustituyendo [5] en [6] y particularizando en el instante t=1, se obtiene:
[A.3]
V1 = Vp - Vp x1 ( X^ Vp X1 -^- 1)^1 X^ Vp
y aplicando el lema de inversión de matrices a la expresión [A.3]:
[A.^]
X1 X^ )-1
V1 =- ( V^ 1-f-
Por tanto, [A.2] se convierte en:
P^ _ ( V^ ^ + x ^ Xi )-^ ( Vó ^ ^o+ Xi Y ^)
^A-5^
En el i nstante t=2 , la ecuación [4] será :
^
g
(32 =( I - kz x 2 ) P^ + k2 y2 = Vz V^' ( V^ V^ '
^ + V^ x^ y^ )+ V2 x2 y2
[A.6]
= V s ( Vó' ^o + X1 Y^ + X2 Y2 )
donde:
V2 =( V^ 1+ x2 x2 )-1 =( V^ 1+ x1 x^ + x2 x2 )-1
[A.7]
y por tanto, [A.6] queda como:
1^2 =( V^ ^+ x^ x^ + x2 X2 )-^ ( Vó ^^o + Xi Y^ + Xz Yz )
Luego, por inducción, después de haber procesado t observaciones, se obtendrá
que:
.
^
_
_
Rt = ( V01 + ^ xi xi )^1 ( V01 ^0 + ^ xi Yi )
Otra forma de demostrar [10] consiste en utilizar ei resultado de que las
ecuaciones del algoritmo MCRKa son algebraicamente equivalentes a las del
MCRI. De este último filtro sabemos que ^= Vt ^t y sustituyendo [41 ] y[42] en
la expresión anterior, se obtiene:
^
^
Rt
=( VÓ 1+ ^ xi xT )-1 ( áó +^ xi Yi )
^
^
^.^
o bien:
^
Rt
^
^
-( VO 1+ ^ xi xT )-1 ( V0 1 RO +^ xi Yi ) ■
,-:^
^_i
.
^
.
^
k :; I C,t.j^^^' ^t.,A k ^^F:^í^Nl)t ^.
^ ^^
APENDICE B
^
La consistencia del estimador cresia (^^ ) se demuestra expresándolo en
^
función del estirnador MCO ( RMCO )
Rc =^^^ k+ i(^ ñ^-1 ^(T x RMCO
y tomando límites en probabilidad a ambos lados de la anterior ecuación, se
obtiene:
^
plim^i^ = plim
plim ^ XT X
N
^XTX+yIk
^
p^Im^^ MCO - ^
donde se ha tenido en cuenta que:
^
PiimaMCO = R
plim ^_k = 0
N
ññ_
plirn ___
_ _ ^x
T
N
suponiendo que ^xX sea una matriz no singular. ^
APENDICE C
^
Sea Rk la estimación por MCO del vector de parámetros ^i:
^
_
Rk =^ Xk Xk ^ 1 Xk Yk
[C.1]
Denotando por ^3k a fa estirnación por MCO de R cuando se elimina la observación
k-s de la muestra, se tiene:
_^ x k x k- xk-s Xk-s ^-1 ^ X k Yk - xk-s Yk-s )
[C.2]
Aplicando el lema de inversión de inversión de matrices a la expresión [C.2] y
Ilamando Vk =( X k X k)-^, se obtiene que:
Vk -f- Vk xk-s ^ ^- xk-s Uk xk-s ^-1 xk-s vk ][ X k Yk - xk-s Yk-s ]
^ L:: T ^^^."^t,!^.i^^:,^r^. E^{ (^,+_ ^f^^,!^.^^
^'4^^ )E^1 f^ MA f^E I A^^ ^:;^^Ni^)I(;I(^)r•^f ^^ IP^^^t^:^^t E^^:^^ E ^^^ ^;)^; ^l ^.^,^ ^^:^a^'^^.^r ^^, t:^E
1^7
o bien:
^
-+-
Vk Xk_s ^ ^- xk-s Uk Xk-s )' 1( xk s Nk ^ yk-s )
Llamando kk = Vk Xk_S ( Xk s Vk xk-s - 1)-^, la expresión anterior puede escribirse como:
"
T
"
k - ^k + kk ^ Yk-s - xk-s ^k ^
y aplicando, de nuevo, el lema de inversión de matrices, la matriz de cavarianzas
de ^k tiene la expresión:
Vk ^ Uk +
Vk xk-s
^^ Xk-s Vk xk-s ) 1 xk-s Vk -^ I - kk xk-s ^ Vk ^
S U M MARY
THE PROBLEM OF INITIAL CONDITIONS IN THE RECURSIVE
ESTIMATION OF LINEAL MODELS
This article proposes two solutions to allow the final recursive estimates of a regression model to be independent from arbitrary initial
conditions. The first solution uses a recursive algorithm which discounts the effect arbitrary initial conditions on the final parameter
estimates. The second solution uses filters based on propagating the
information matrix rather than the covariance matrix. By his own nature, this algorithm has exact initial conditions and is numerically robust.
Key words: Initial conditions, recursive estimation, ridge estimator,
information matrix, numerical stability.
AMS Classification: 62J05, 62J07.
Descargar