I.- TEST PARA LA NULA DE ESTACIONARIEDAD: LA

Anuncio
I.-
TEST PARA LA NULA DE ESTACIONARIEDAD: LA
APORTACIÓN DE HADRI
I.A.- Introducción
Los estudios de Hadri (1999) en esta área son, con toda seguridad, unos de los más
interesantes de cuantos pueden destacarse. La característica diferencial de este autor es el
contraste de la hipótesis nula de estacionariedad frente a la alternativa de raíz unitaria, en lo que
vendría a ser la extensión del test KPSS de Kwiatowski et al. (1992) de series temporales al
caso de los modelos de datos de panel.
No resulta difícil intuir que, para todos los contrastes de No estacionariedad de un
modelo de datos de panel como los presentados hasta aquí, su concepción y forma de aplicación
asegura que la hipótesis nula será aceptada a menos que exista una fuerte evidencia en contra.
Esta escasa potencia de los tests de raíces unitarias se ha observado de forma muy evidente en el
contexto de las series temporales en el que, salvo que la elección del proceso generador de datos
se cuide en extremo, prácticamente todas las series económicas pueden ser calificadas como no
estacionarias1.
Generalmente, los test para la nula de estacionariedad son especialmente útiles cuando
se combinan con los resultados de los tests de No estacionariedad. Los trabajos presentados por
Amano y van Norden (1992) muestran una mejora considerable en las conclusiones obtenidas
con el uso conjunto de las dos aproximaciones resultando, de este matrimonio2, un incremento
de potencia en el contraste respecto a cualquiera de las dos alternativas metodológicas
1
Trabajando desde una perspectiva bayesiana, De Jong y Whiteman (1991) encontraron que sólo dos de
las series del conjunto de Nelson y Ploser presentaban una tendencia estocástica frente a 13 de 14
encontradas usando los tests tradicionales de tipo DF.
2
El término inglés para referirse al uso combinado de ambos tipos de contraste es precisamente
“wedding contrast”.
consideradas por separado3.
(Tabla 1)
Aplicación simultánea de contrastes de estacionariedad y no
estacionariedad (ejemplo para el test DF y KPSS)
DF/KPSS
Rechazo H0
No RechazoH0
Rechazo H0
No concluyente
yt∼I(0)
No Rechazo H0
yt∼I(1)
No concluyente
Una ventaja adicional de los tests de estacionariedad propuestos por Hadri es que no
necesitan, para ser operativos, la derivación con experimentos de Monte Carlo de los momentos
de las distribuciones asintóticas como en Levin y Lin (1993) o Im et al. (1995); al contrario, los
momentos de las distribuciones asintóticas para los tests sugeridos por Hadri pueden ser
calculados de forma exacta.
I.B.- Estrategia de contraste
Como ya sabemos del caso de series temporales, el modelo ADF no puede ser usado
para el contraste de estacionariedad por lo que, como en el caso de las series temporales,
resultará necesaria una estrategia diferente. La idea es formular una parametrización que
permita la adecuada representación del caso estacionarias y no estacionario y permita la
formulación sencilla de un test de contraste. Esto se consigue remplazando el interés del
contraste desde media del parámetro a las propiedades de la matriz de varianzas y covarianzas
de la perturbación aleatoria.
En líneas generales, el modelo propuesto por Hadri partirá de la descomposición de
cada serie temporal en la suma de una tendencia determinista, un paseo aleatorio y una
perturbación aleatoria estacionaria. La hipótesis nula de estacionariedad sobre una tendencia
corresponderá a la hipótesis de que la varianza de la perturbación del paseo aleatorio sea nula.
3
Las aportaciones de Charemza y Syczewska (1998) y Carrión et al. (1998a) deben ser también
consideradas para aproximarse con más garantías de éxito al uso combinado de los dos tipos de
contrastes. También resulta pertinente citar los trabajos sobre la aplicación de contrastes de
estacionariedad con cambio estructural de Lee (1996), Lee et al. (1997), Lumsdaine y Papell (1997) y
Carrión et al. (1998b) y (1998c) así como las aportaciones a la aplicación de estos contrastes para el
análisis de la estacionariedad estacional de Canova-Hansen (1995) y Hylleberg (1995).
Bajo la hipótesis adicional de normalidad para el paseo aleatorio y la parte ruido blanco del
error, el estadístico LM a una cola para la estacionariedad en nivel y sobre una tendencia será el
test invariante insesgado óptimo local (LBUI)4 como se mostró en el contexto general de series
temporales en Nabeya y Tanaka (1989).
El test sugerido pertenece a la clase de test propuestos por King y Hillier (1985) para la
matriz de varianzas y covarianzas de la perturbación aleatoria de un modelo de regresión lineal.
Esta clase de test ha resultado muy útil en el contexto de las series temporales. Saikkonen y
Luukonen (1993), Tanaka (1990) y Kwaitkowski et al. (1992) lo han utilizado para el contraste
de estacionariedad mientras que Harris e Inder (1994) y Shin (1994) lo han aplicado para testar
relaciones de cointegración y McCoskey y Kao (1998) lo han aplicado al análisis residual de
cointegración en datos de panel. Recientemente, Larsson, Lyhagen y Löthgren (1998) han
propuesto un test de cointegración de máxima verosimilitud para datos de panel que permite la
especificación simultánea de más de un vector de cointegración.
Recordemos brevemente las características del test LM para estudiar después su
extensión al caso de un modelo con datos de Panel. El test LM utiliza como función básica de
partida el cuadrado de la pendiente de la función log – verosímil [S (θ 0 )]2 evaluada en el punto
correspondiente al valor hipotético θ0. Dado que el estimador máximo verosímil θˆ es aquel que
maximiza [ ln L(θ ) ], la función:
S (θ ) =
∂ ln L(θ )
∂θ
tomara lógicamente el valor cero para θ = θˆ , de modo que, en la medida en que S (θ 0 ) se
aparte de cero, la hipótesis H0 deberá entenderse más contraria a la evidencia empírica (menos
verosímil) y debe ser rechazada. El cuadrado de la expresión se toma para evitar el efecto del
signo sobre el resultado. Dada esta función básica, el test LM incorpora una corrección
inversamente proporcional a la curvatura de la función log – verosímil para garantizar la
igualdad entre dos valores iguales de S (θ 0 ) generados a partir de dos conjuntos de datos
diferentes.
4 Conservaremos en el desarrollo la abreviatura en ingles, más conocida, (LBUI)
unbiased invariant”).
(“locally best
La utilidad de esta corrección se aprecia claramente si tomamos prestada en este texto la
representación gráfica de Buse (1982). Como puede observarse en el diagrama, el valor de la
pendiente en θ0 para dos funciones log – verosímiles puede ser el mismo, sin que en ambos
casos la razón de verosimilitud (RV) sea igual, debido a la distinta concavidad de las funciones
log - verosímiles.
(Ilustracion 1)
Aproximación gráfica al Test LM
ln L(θ )
S (θ 0 )
1
2
ln L(θ 0 )
ln L1 (θ )
(RV )1
1
2
(RV ) 2
ln L2 (θ )
θ
θ0
El factor de corrección para la curvatura será la denominada matriz de información I(θ0)
cuya expresión evaluada en θ0 es5:
  ∂ ln L(θ 0 )  
I (θ 0 ) = E  − 
 
  ∂θ ∂θ ´'  
por lo que:
LM =
5
[S (θ 0 )]2
I (θ 0 )
Nótese que esta es la segunda derivada de la función lnL(θ) con respecto a θ (la segunda derivada de
cualquier función recoge siempre su concavidad o convexidad) y obsérvese que, bajo determinadas
condiciones de regularidad, su inversa coincide con la matriz de varianzas y covarianzas del estimador
insesgado óptimo del parámetro θ (cota de Cramer-Rao).
Lógicamente, dependiendo de las características del modelo, así como de las
restricciones de partida y las hipótesis a contrastar en cada caso, esta expresión original adopta
infinitas formas aunque siempre respondiendo a la idea original.
Pasando a la especificación concreta para datos de panel propuesta por Hadri,
inicialmente se considerarán los dos modelos siguientes, con y sin tendencia determinista, para
la secuencia yit:
y it = rit + ε it
Modelo (1)
y it = rit + β i t + ε it
Modelo (2)
i=1........N
t=1.......T
en el que rit se considera un paseo aleatorio sin deriva:
rit = rit −1 + u it
y donde uit y εit son normales mutuamente independientes y se distribuyen iid a través de
i y t con media nula y varianza constante e igual a σ2u y σ2ε . El valor ri0 se considerará fijo y
actuará como término independiente heterogéneo. En el caso del segundo modelo, además de
los efectos fijos, se contempla la aparición de una tendencia temporal determinista para cada
individuo.
La hipótesis nula de estacionariedad de la secuencia yit puede formularse, como en el
caso de series temporales, como H0:σ2u=0, ya que eso significa la igualdad para todos los
valores de rit o lo que es igual rit=ri0 para todo t, de modo que el componente I(1) habría
desaparecido. Así, bajo la hipótesis nula, yit sería estacionaria alrededor de un nivel (modelo 1) ó
sobre una tendencia (modelo 2).
Sustituyendo recursivamente rit en yit tenemos, para el segundo modelo:
t
y it = ri 0 + β i t +
∑u
t =1
it +ε it
= ri 0 + β i t + eit
donde resulta sencillo comprobar que la expresión eit =
∑
t
t =1
u it +ε it tiene media nula y
la siguiente forma de autocovarianza temporal:
[
]
E eit e js = min(t , s)σ u2 + σ ε2
i = j, t = s
= min(t, s)σ u2
i = j, t ≠ s
=0
=0
i ≠ j, t = s
i ≠ j, t ≠ s
El modelo inicial, incluyendo tendencia determinista, puede escribirse matricialmente
para cada observación i como:
Modelo sin tendencia
Modelo con tendencia
y i = X i β i + ei
y i = X i β i + ei
 y i1   1
  
 ..   1
 ..  =  ..
  
 y  1
 iT  
 ei1 
 y i1   1 
 
  

 ..   1   ri 0   .. 
 ..  =  ..  ⋅  β  +  .. 
    i  

e 
 y  1
 iT 
 iT   
1
 ei1 
 

2   ri 0   .. 
⋅  +
..   β i   .. 
 

e 
T 
 iT 
o incluso para todas las observaciones como:
Y = Xβ + e
 y1   X 1
y   0
 2=
 ...   ...
  
 yN   0
... 0   β 1   e1 
... 0   β 2   e2 
⋅
+
... ...   ...   ... 
    
... X N   β N  e N 
0
X2
...
0
con:
y ' i = ( y i1 , y i 2 ,........., y iT ) ; e' i = (ei1 , ei 2 ,..........., eiT )
de modo que la matriz de varianzas y covarianzas queda:
[ ]
(
)
E ee ' = I N ⊗ σ u2 AT + σ ε2 I T =
 σ 2


= σ ε2 I N ⊗   u 2  AT + I T 
 σ ε 

donde IT es la matriz identidad y AT es una matriz TxT cuyo elemento i,j - ésimo es igual
al mínimo de i ó j:
1
1
AT = 
...

1
1
2
...
2
1
2 
...

T
...
...
...
...
Como ya se ha apuntado en la introducción la representación del modelo se ajusta así al
contexto general desarrollado por Nabeya y Tanaka (1988) que puede ser usado para obtener el
test invariante insesgado óptimo local (LBUI) que, en este caso, toma la forma:
H 0 : λ = 0 ; H1 : λ > 0
apoyándose en el estadístico LM de una cola:
σ u2
λ= 2
σε
Si consideramos εˆit como los residuos de la estimación de los modelos iniciales para yit ,
el estadístico LM (y LBUI) es entonces6:
N
LM =
T
∑∑ S
i =1 t =1
2
ε
2
it
σˆ
donde Sit es, como ya se conoce del caso de series temporales, la suma parcial de
residuos:
t
S it = ∑ εˆij
j =1
6
La demostración se encuentra precisamente en Nabeya y Tanaka (1988).
y σˆ ε2 es una estimación consistente de σ ε2 . La forma propuesta por el autor para su
aproximación muestral es:
σˆ ε2 =
1
NT
N
T
∑∑ εˆ
i =1 t =1
2
it
aunque la evidencia empírica en muestras pequeñas sugiere considerar los grados de
libertad en el denominador de la anterior expresión.
Analizadas las propiedades asintóticas del contraste por Hadri, éste derivó la expresión
exacta de los contrastes propuestos ya que, como se dijo en la introducción, no es necesario
recurrir a resultados experimentales. Considerando en primer lugar el modelo más simple sin
tendencia determinista y normalizando apropiadamente el numerador de la expresión al que
llamaremos7 ηµ:
ηµ =
1
N
N
1
∑
2
i =1 T
T
∧
∑ S it2 ⇒ LM µ =
t =1
ηµ
σˆ ε2
tenemos que:
Zµ =
 ∧

N  LM µ − ξ µ 

 → N (0,1)
ςµ
siendo ξµ =1/6 y ζµ2=1/45 y reemplazando estos valores en la expresión anterior,
podemos ahora contrastar la hipótesis nula de estacionariedad frente a la alternativa de raíz
unitaria.
Para el modelo con tendencia determinista, a fin de contrastar la hipótesis nula de
estacionariedad alrededor de una tendencia frente a la de no estacionariedad, y de forma análoga
al caso anterior, podemos definir ητ:
7
Se conserva en este texto la notación empleada en la exposición del contraste KPSS de series
temporales en el documento de trabajo sobre estacionriedad que se adjunta como anexo a esa Tesis.
ητ =
1
N
N
1
∑
2
i =1 T
∧
T
∑ S it2 ⇒ LM τ =
t =1
ητ
σˆ ε2
y:
Zτ =
 ∧

N  LM τ − ξ τ 

 → N (0,1)
ςτ
donde ahora, ξτ =1/15 y ζτ2=11/6300.
Estos resultados asintóticos han sido obtenidos recurriendo a una aproximación
secuencial al limite en la cual T→∞ seguido de N→∞, lo cual explica la diferente
estandarización utilizada en la dimensión temporal 1/T2 frente a la transversal 1/N. Siguiendo
los trabajos en torno a la teoría asintótica para un panel de datos de Phillips y Moon (1998), los
resultados obtenidos utilizando esta aproximación secuencial implican también convergencia
conjunta asumiendo un ratio de convergencia N/T→∞ y las condiciones de regularidad en
sentido estricto de Phillips y Perron (1998). Respecto a la consistencia de los tests
estandarizados finales esta puede comprobarse recurriendo a Kiatkowski et al.(1992).
I.C.- Tratamiento de la heterogeneidad en la perturbación
aleatoria
A la hora de construir los anteriores tests se han considerado una serie de restricciones
respecto a la distribución de la perturbación aleatoria en los procesos generadores de datos. La
más importante es la que impone que εit se distribuya normal, idéntica e independientemente
tanto en la dimensión temporal t como en la transversal i .
Con la idea de mejorar el contraste haciéndolo más flexible, debe plantearse la
relajación de alguna de estas hipótesis, examinándose los efectos sobre los contrastes definidos
anteriormente y proponiendo las modificaciones necesarias en cada caso.
La primera observación simple que puede hacerse, es que atendiendo a las expresiones
∧
de cálculo de los estadísticos estimados
∧
LM µ y LM τ , cabe permitir heterocedasticidad
entre los distintos N individuos en la perturbación aleatoria, sin más que sustituir el cálculo de la
varianza σ2e global por una secuencia de N términos σ2i, considerando exclusivamente en cada
caso la serie temporal respectiva de cada elemento8:
∧
1
LM =
N

T 2
 1
N 
∑ Sit
2
 T t =1

σˆε2
i =1 



∑









1
⇒
N

T 2
 1
N 
∑ Sit
2
 T t =1

σˆi2
i =1 



∑









Pero además, debemos considerar la presencia de problemas de autocorrelación residual
ya que, en la práctica, será frecuente encontrar series que exhiban una elevada dependencia
temporal, haciendo poco realista la hipótesis iid bajo la nula de estacionariedad Para permitir
formas generales de dependencia temporal, se asumirá que εit satisfacen al menos las “mixing
conditions” de regularidad de Phillips – Perron, ya mencionadas en otros apartados, que
aseguran una mínima aproximación al límite conjunto.
Los estadísticos de referencia a utilizar en este caso son los mismos Zµ y Zτ expuestos
previamente, aunque, en este caso, habrá que definir ahora un estimador consistente de la
varianza a largo plazo de σ2i a fin de recoger el patrón de correlación residual, para lo que
recurriremos, como es habitual, a una expresión del tipo:
T −1
 s
σˆ i (ξ T ) = γˆ 0 + 2∑ κ 
ˆ
s =1  ξ T

γˆ s

donde κ(·) es una función ponderada denominada “kernel”, ξˆT es un parámetro de
“amplitud de banda” o parámetro de truncamiento y γˆ r es el coeficiente de autocorrelación de
orden “r”
T
γˆ r =
∑ εˆ
t =r
jt
εˆ jt − r
T
Lamentablemente, la selección del procedimiento de ponderación, al igual que la
determinación de la amplitud de la ventana de ponderaciones, incide en el resultado del
contraste. En el contexto de la aproximación no paramétrica para la nula de no estacionariedad
8
Si observamos la expresión del test LM modificado podremos comprobar como σ2i = 2πfi(0), donde fi(0)
es la densidad espectral de εit en la frecuencia cero. Por este motivo es por lo que su estimación se
denomina estimación de la densidad espectral.
en series temporales, Phillips (1987) y Phillips y Perron (1988), usaron el “kernel” de Bartlett
(BT), procedimiento que fue asumido también por Kwiatkowski et al. y Tanaka (1990):
1− | x | para | x |≤ 1
κ BT ( x) = 
 0 en otro caso
El κBT asegura la no negatividad de la varianza, mientras que para su consistencia es
necesario que el parámetro de truncamiento l tienda a infinito a medida que el número de
observaciones T lo haga. El ratio l=o(T1/2) resulta generalmente satisfactorio tanto bajo la
hipótesis nula como bajo la alternativa (Kwiatkowski et al. (1992)).9 Otros “kernels”
ampliamente utilizados en múltiples desarrollos y que podrían incorporarse a este procedimiento
son:
Truncado (TR)
 1 para x ≤ 1
κ TR ( x) = 
0 en otro caso
Parzen (PR)
1 − 6 x 2 + 6 x 3 para 0 ≤ x ≤ 1 2

κ PR ( x) =  2(1 − x )2 para 1 2 ≤ x ≤ 1

0 en otro caso

Tuckey – Hanning (TH)
 (1 − cos (πx ))
para x ≤ 1

κ TH ( x) = 
2

0 en otro caso
Espectral – Cuadrática (QS)
9
En definitiva, “l” puede fijarse de modo que l=int[(x(T/100)1/4] donde x={0,4,12}
κ (x ) =
25
2
12π 2 ( x )
 6π ( x )
sin 
 5  − cos  6π ( x ) 
 5 
 6π ( x ) 


 5 
Estos “kernel” se denominan no-paramétricos y su aplicación ha sido criticada en varios
contextos por requerir la selección arbitraria y a priori de la “amplitud de la ventana10” l. La
nueva generación de métodos no-paramétricos de este tipo, han sido desarrollados con un
procedimiento “automático” (dependiente de los datos y no solo de la dimensión de la muestra)
de selección de el parámetro de truncamiento l que, en cierto sentido, resulta óptimo.
En Hadri (1999), el autor plantea la utilización de dos “kernels” no paramétricos
denominados AM92 (de Andrews y Monahan (1992)) y NW94 (de Newey y West (1994)).
El AM92 comienza con un preblanqueo de las series con un modelo AR de orden fijo,
generalmente un AR(1). Una vez pre - blanqueadas las series se ajusta una estructura ARMA
de orden fijo con el que evaluar la amplitud de la ventana del procedimiento “kernel”
seleccionado (Andrews recomienda el espectral cuadrático).
El NW94 es similar al AM92, si bien prescinde del modelo paramétrico utilizado por
Andrews (1991) y Andrews y Monahan (1992) sugiriendo el uso de un método no paramétrico
denominado kernel truncado.
10
El nombre de “amplitud de ventana” procede, como puede suponerse, de la interpretación de la
expresión del cálculo de la varianza a largo plazo como la estimación alisada del espectro de frecuencia
cero, ya que la varianza a largo plazo equivale a su vez, bajo las condiciones impuestas, a 2πf(0), donde
f(ω) es el espectro de εt.
Descargar