I.- TEST PARA LA NULA DE ESTACIONARIEDAD: LA APORTACIÓN DE HADRI I.A.- Introducción Los estudios de Hadri (1999) en esta área son, con toda seguridad, unos de los más interesantes de cuantos pueden destacarse. La característica diferencial de este autor es el contraste de la hipótesis nula de estacionariedad frente a la alternativa de raíz unitaria, en lo que vendría a ser la extensión del test KPSS de Kwiatowski et al. (1992) de series temporales al caso de los modelos de datos de panel. No resulta difícil intuir que, para todos los contrastes de No estacionariedad de un modelo de datos de panel como los presentados hasta aquí, su concepción y forma de aplicación asegura que la hipótesis nula será aceptada a menos que exista una fuerte evidencia en contra. Esta escasa potencia de los tests de raíces unitarias se ha observado de forma muy evidente en el contexto de las series temporales en el que, salvo que la elección del proceso generador de datos se cuide en extremo, prácticamente todas las series económicas pueden ser calificadas como no estacionarias1. Generalmente, los test para la nula de estacionariedad son especialmente útiles cuando se combinan con los resultados de los tests de No estacionariedad. Los trabajos presentados por Amano y van Norden (1992) muestran una mejora considerable en las conclusiones obtenidas con el uso conjunto de las dos aproximaciones resultando, de este matrimonio2, un incremento de potencia en el contraste respecto a cualquiera de las dos alternativas metodológicas 1 Trabajando desde una perspectiva bayesiana, De Jong y Whiteman (1991) encontraron que sólo dos de las series del conjunto de Nelson y Ploser presentaban una tendencia estocástica frente a 13 de 14 encontradas usando los tests tradicionales de tipo DF. 2 El término inglés para referirse al uso combinado de ambos tipos de contraste es precisamente “wedding contrast”. consideradas por separado3. (Tabla 1) Aplicación simultánea de contrastes de estacionariedad y no estacionariedad (ejemplo para el test DF y KPSS) DF/KPSS Rechazo H0 No RechazoH0 Rechazo H0 No concluyente yt∼I(0) No Rechazo H0 yt∼I(1) No concluyente Una ventaja adicional de los tests de estacionariedad propuestos por Hadri es que no necesitan, para ser operativos, la derivación con experimentos de Monte Carlo de los momentos de las distribuciones asintóticas como en Levin y Lin (1993) o Im et al. (1995); al contrario, los momentos de las distribuciones asintóticas para los tests sugeridos por Hadri pueden ser calculados de forma exacta. I.B.- Estrategia de contraste Como ya sabemos del caso de series temporales, el modelo ADF no puede ser usado para el contraste de estacionariedad por lo que, como en el caso de las series temporales, resultará necesaria una estrategia diferente. La idea es formular una parametrización que permita la adecuada representación del caso estacionarias y no estacionario y permita la formulación sencilla de un test de contraste. Esto se consigue remplazando el interés del contraste desde media del parámetro a las propiedades de la matriz de varianzas y covarianzas de la perturbación aleatoria. En líneas generales, el modelo propuesto por Hadri partirá de la descomposición de cada serie temporal en la suma de una tendencia determinista, un paseo aleatorio y una perturbación aleatoria estacionaria. La hipótesis nula de estacionariedad sobre una tendencia corresponderá a la hipótesis de que la varianza de la perturbación del paseo aleatorio sea nula. 3 Las aportaciones de Charemza y Syczewska (1998) y Carrión et al. (1998a) deben ser también consideradas para aproximarse con más garantías de éxito al uso combinado de los dos tipos de contrastes. También resulta pertinente citar los trabajos sobre la aplicación de contrastes de estacionariedad con cambio estructural de Lee (1996), Lee et al. (1997), Lumsdaine y Papell (1997) y Carrión et al. (1998b) y (1998c) así como las aportaciones a la aplicación de estos contrastes para el análisis de la estacionariedad estacional de Canova-Hansen (1995) y Hylleberg (1995). Bajo la hipótesis adicional de normalidad para el paseo aleatorio y la parte ruido blanco del error, el estadístico LM a una cola para la estacionariedad en nivel y sobre una tendencia será el test invariante insesgado óptimo local (LBUI)4 como se mostró en el contexto general de series temporales en Nabeya y Tanaka (1989). El test sugerido pertenece a la clase de test propuestos por King y Hillier (1985) para la matriz de varianzas y covarianzas de la perturbación aleatoria de un modelo de regresión lineal. Esta clase de test ha resultado muy útil en el contexto de las series temporales. Saikkonen y Luukonen (1993), Tanaka (1990) y Kwaitkowski et al. (1992) lo han utilizado para el contraste de estacionariedad mientras que Harris e Inder (1994) y Shin (1994) lo han aplicado para testar relaciones de cointegración y McCoskey y Kao (1998) lo han aplicado al análisis residual de cointegración en datos de panel. Recientemente, Larsson, Lyhagen y Löthgren (1998) han propuesto un test de cointegración de máxima verosimilitud para datos de panel que permite la especificación simultánea de más de un vector de cointegración. Recordemos brevemente las características del test LM para estudiar después su extensión al caso de un modelo con datos de Panel. El test LM utiliza como función básica de partida el cuadrado de la pendiente de la función log – verosímil [S (θ 0 )]2 evaluada en el punto correspondiente al valor hipotético θ0. Dado que el estimador máximo verosímil θˆ es aquel que maximiza [ ln L(θ ) ], la función: S (θ ) = ∂ ln L(θ ) ∂θ tomara lógicamente el valor cero para θ = θˆ , de modo que, en la medida en que S (θ 0 ) se aparte de cero, la hipótesis H0 deberá entenderse más contraria a la evidencia empírica (menos verosímil) y debe ser rechazada. El cuadrado de la expresión se toma para evitar el efecto del signo sobre el resultado. Dada esta función básica, el test LM incorpora una corrección inversamente proporcional a la curvatura de la función log – verosímil para garantizar la igualdad entre dos valores iguales de S (θ 0 ) generados a partir de dos conjuntos de datos diferentes. 4 Conservaremos en el desarrollo la abreviatura en ingles, más conocida, (LBUI) unbiased invariant”). (“locally best La utilidad de esta corrección se aprecia claramente si tomamos prestada en este texto la representación gráfica de Buse (1982). Como puede observarse en el diagrama, el valor de la pendiente en θ0 para dos funciones log – verosímiles puede ser el mismo, sin que en ambos casos la razón de verosimilitud (RV) sea igual, debido a la distinta concavidad de las funciones log - verosímiles. (Ilustracion 1) Aproximación gráfica al Test LM ln L(θ ) S (θ 0 ) 1 2 ln L(θ 0 ) ln L1 (θ ) (RV )1 1 2 (RV ) 2 ln L2 (θ ) θ θ0 El factor de corrección para la curvatura será la denominada matriz de información I(θ0) cuya expresión evaluada en θ0 es5: ∂ ln L(θ 0 ) I (θ 0 ) = E − ∂θ ∂θ ´' por lo que: LM = 5 [S (θ 0 )]2 I (θ 0 ) Nótese que esta es la segunda derivada de la función lnL(θ) con respecto a θ (la segunda derivada de cualquier función recoge siempre su concavidad o convexidad) y obsérvese que, bajo determinadas condiciones de regularidad, su inversa coincide con la matriz de varianzas y covarianzas del estimador insesgado óptimo del parámetro θ (cota de Cramer-Rao). Lógicamente, dependiendo de las características del modelo, así como de las restricciones de partida y las hipótesis a contrastar en cada caso, esta expresión original adopta infinitas formas aunque siempre respondiendo a la idea original. Pasando a la especificación concreta para datos de panel propuesta por Hadri, inicialmente se considerarán los dos modelos siguientes, con y sin tendencia determinista, para la secuencia yit: y it = rit + ε it Modelo (1) y it = rit + β i t + ε it Modelo (2) i=1........N t=1.......T en el que rit se considera un paseo aleatorio sin deriva: rit = rit −1 + u it y donde uit y εit son normales mutuamente independientes y se distribuyen iid a través de i y t con media nula y varianza constante e igual a σ2u y σ2ε . El valor ri0 se considerará fijo y actuará como término independiente heterogéneo. En el caso del segundo modelo, además de los efectos fijos, se contempla la aparición de una tendencia temporal determinista para cada individuo. La hipótesis nula de estacionariedad de la secuencia yit puede formularse, como en el caso de series temporales, como H0:σ2u=0, ya que eso significa la igualdad para todos los valores de rit o lo que es igual rit=ri0 para todo t, de modo que el componente I(1) habría desaparecido. Así, bajo la hipótesis nula, yit sería estacionaria alrededor de un nivel (modelo 1) ó sobre una tendencia (modelo 2). Sustituyendo recursivamente rit en yit tenemos, para el segundo modelo: t y it = ri 0 + β i t + ∑u t =1 it +ε it = ri 0 + β i t + eit donde resulta sencillo comprobar que la expresión eit = ∑ t t =1 u it +ε it tiene media nula y la siguiente forma de autocovarianza temporal: [ ] E eit e js = min(t , s)σ u2 + σ ε2 i = j, t = s = min(t, s)σ u2 i = j, t ≠ s =0 =0 i ≠ j, t = s i ≠ j, t ≠ s El modelo inicial, incluyendo tendencia determinista, puede escribirse matricialmente para cada observación i como: Modelo sin tendencia Modelo con tendencia y i = X i β i + ei y i = X i β i + ei y i1 1 .. 1 .. = .. y 1 iT ei1 y i1 1 .. 1 ri 0 .. .. = .. ⋅ β + .. i e y 1 iT iT 1 ei1 2 ri 0 .. ⋅ + .. β i .. e T iT o incluso para todas las observaciones como: Y = Xβ + e y1 X 1 y 0 2= ... ... yN 0 ... 0 β 1 e1 ... 0 β 2 e2 ⋅ + ... ... ... ... ... X N β N e N 0 X2 ... 0 con: y ' i = ( y i1 , y i 2 ,........., y iT ) ; e' i = (ei1 , ei 2 ,..........., eiT ) de modo que la matriz de varianzas y covarianzas queda: [ ] ( ) E ee ' = I N ⊗ σ u2 AT + σ ε2 I T = σ 2 = σ ε2 I N ⊗ u 2 AT + I T σ ε donde IT es la matriz identidad y AT es una matriz TxT cuyo elemento i,j - ésimo es igual al mínimo de i ó j: 1 1 AT = ... 1 1 2 ... 2 1 2 ... T ... ... ... ... Como ya se ha apuntado en la introducción la representación del modelo se ajusta así al contexto general desarrollado por Nabeya y Tanaka (1988) que puede ser usado para obtener el test invariante insesgado óptimo local (LBUI) que, en este caso, toma la forma: H 0 : λ = 0 ; H1 : λ > 0 apoyándose en el estadístico LM de una cola: σ u2 λ= 2 σε Si consideramos εˆit como los residuos de la estimación de los modelos iniciales para yit , el estadístico LM (y LBUI) es entonces6: N LM = T ∑∑ S i =1 t =1 2 ε 2 it σˆ donde Sit es, como ya se conoce del caso de series temporales, la suma parcial de residuos: t S it = ∑ εˆij j =1 6 La demostración se encuentra precisamente en Nabeya y Tanaka (1988). y σˆ ε2 es una estimación consistente de σ ε2 . La forma propuesta por el autor para su aproximación muestral es: σˆ ε2 = 1 NT N T ∑∑ εˆ i =1 t =1 2 it aunque la evidencia empírica en muestras pequeñas sugiere considerar los grados de libertad en el denominador de la anterior expresión. Analizadas las propiedades asintóticas del contraste por Hadri, éste derivó la expresión exacta de los contrastes propuestos ya que, como se dijo en la introducción, no es necesario recurrir a resultados experimentales. Considerando en primer lugar el modelo más simple sin tendencia determinista y normalizando apropiadamente el numerador de la expresión al que llamaremos7 ηµ: ηµ = 1 N N 1 ∑ 2 i =1 T T ∧ ∑ S it2 ⇒ LM µ = t =1 ηµ σˆ ε2 tenemos que: Zµ = ∧ N LM µ − ξ µ → N (0,1) ςµ siendo ξµ =1/6 y ζµ2=1/45 y reemplazando estos valores en la expresión anterior, podemos ahora contrastar la hipótesis nula de estacionariedad frente a la alternativa de raíz unitaria. Para el modelo con tendencia determinista, a fin de contrastar la hipótesis nula de estacionariedad alrededor de una tendencia frente a la de no estacionariedad, y de forma análoga al caso anterior, podemos definir ητ: 7 Se conserva en este texto la notación empleada en la exposición del contraste KPSS de series temporales en el documento de trabajo sobre estacionriedad que se adjunta como anexo a esa Tesis. ητ = 1 N N 1 ∑ 2 i =1 T ∧ T ∑ S it2 ⇒ LM τ = t =1 ητ σˆ ε2 y: Zτ = ∧ N LM τ − ξ τ → N (0,1) ςτ donde ahora, ξτ =1/15 y ζτ2=11/6300. Estos resultados asintóticos han sido obtenidos recurriendo a una aproximación secuencial al limite en la cual T→∞ seguido de N→∞, lo cual explica la diferente estandarización utilizada en la dimensión temporal 1/T2 frente a la transversal 1/N. Siguiendo los trabajos en torno a la teoría asintótica para un panel de datos de Phillips y Moon (1998), los resultados obtenidos utilizando esta aproximación secuencial implican también convergencia conjunta asumiendo un ratio de convergencia N/T→∞ y las condiciones de regularidad en sentido estricto de Phillips y Perron (1998). Respecto a la consistencia de los tests estandarizados finales esta puede comprobarse recurriendo a Kiatkowski et al.(1992). I.C.- Tratamiento de la heterogeneidad en la perturbación aleatoria A la hora de construir los anteriores tests se han considerado una serie de restricciones respecto a la distribución de la perturbación aleatoria en los procesos generadores de datos. La más importante es la que impone que εit se distribuya normal, idéntica e independientemente tanto en la dimensión temporal t como en la transversal i . Con la idea de mejorar el contraste haciéndolo más flexible, debe plantearse la relajación de alguna de estas hipótesis, examinándose los efectos sobre los contrastes definidos anteriormente y proponiendo las modificaciones necesarias en cada caso. La primera observación simple que puede hacerse, es que atendiendo a las expresiones ∧ de cálculo de los estadísticos estimados ∧ LM µ y LM τ , cabe permitir heterocedasticidad entre los distintos N individuos en la perturbación aleatoria, sin más que sustituir el cálculo de la varianza σ2e global por una secuencia de N términos σ2i, considerando exclusivamente en cada caso la serie temporal respectiva de cada elemento8: ∧ 1 LM = N T 2 1 N ∑ Sit 2 T t =1 σˆε2 i =1 ∑ 1 ⇒ N T 2 1 N ∑ Sit 2 T t =1 σˆi2 i =1 ∑ Pero además, debemos considerar la presencia de problemas de autocorrelación residual ya que, en la práctica, será frecuente encontrar series que exhiban una elevada dependencia temporal, haciendo poco realista la hipótesis iid bajo la nula de estacionariedad Para permitir formas generales de dependencia temporal, se asumirá que εit satisfacen al menos las “mixing conditions” de regularidad de Phillips – Perron, ya mencionadas en otros apartados, que aseguran una mínima aproximación al límite conjunto. Los estadísticos de referencia a utilizar en este caso son los mismos Zµ y Zτ expuestos previamente, aunque, en este caso, habrá que definir ahora un estimador consistente de la varianza a largo plazo de σ2i a fin de recoger el patrón de correlación residual, para lo que recurriremos, como es habitual, a una expresión del tipo: T −1 s σˆ i (ξ T ) = γˆ 0 + 2∑ κ ˆ s =1 ξ T γˆ s donde κ(·) es una función ponderada denominada “kernel”, ξˆT es un parámetro de “amplitud de banda” o parámetro de truncamiento y γˆ r es el coeficiente de autocorrelación de orden “r” T γˆ r = ∑ εˆ t =r jt εˆ jt − r T Lamentablemente, la selección del procedimiento de ponderación, al igual que la determinación de la amplitud de la ventana de ponderaciones, incide en el resultado del contraste. En el contexto de la aproximación no paramétrica para la nula de no estacionariedad 8 Si observamos la expresión del test LM modificado podremos comprobar como σ2i = 2πfi(0), donde fi(0) es la densidad espectral de εit en la frecuencia cero. Por este motivo es por lo que su estimación se denomina estimación de la densidad espectral. en series temporales, Phillips (1987) y Phillips y Perron (1988), usaron el “kernel” de Bartlett (BT), procedimiento que fue asumido también por Kwiatkowski et al. y Tanaka (1990): 1− | x | para | x |≤ 1 κ BT ( x) = 0 en otro caso El κBT asegura la no negatividad de la varianza, mientras que para su consistencia es necesario que el parámetro de truncamiento l tienda a infinito a medida que el número de observaciones T lo haga. El ratio l=o(T1/2) resulta generalmente satisfactorio tanto bajo la hipótesis nula como bajo la alternativa (Kwiatkowski et al. (1992)).9 Otros “kernels” ampliamente utilizados en múltiples desarrollos y que podrían incorporarse a este procedimiento son: Truncado (TR) 1 para x ≤ 1 κ TR ( x) = 0 en otro caso Parzen (PR) 1 − 6 x 2 + 6 x 3 para 0 ≤ x ≤ 1 2 κ PR ( x) = 2(1 − x )2 para 1 2 ≤ x ≤ 1 0 en otro caso Tuckey – Hanning (TH) (1 − cos (πx )) para x ≤ 1 κ TH ( x) = 2 0 en otro caso Espectral – Cuadrática (QS) 9 En definitiva, “l” puede fijarse de modo que l=int[(x(T/100)1/4] donde x={0,4,12} κ (x ) = 25 2 12π 2 ( x ) 6π ( x ) sin 5 − cos 6π ( x ) 5 6π ( x ) 5 Estos “kernel” se denominan no-paramétricos y su aplicación ha sido criticada en varios contextos por requerir la selección arbitraria y a priori de la “amplitud de la ventana10” l. La nueva generación de métodos no-paramétricos de este tipo, han sido desarrollados con un procedimiento “automático” (dependiente de los datos y no solo de la dimensión de la muestra) de selección de el parámetro de truncamiento l que, en cierto sentido, resulta óptimo. En Hadri (1999), el autor plantea la utilización de dos “kernels” no paramétricos denominados AM92 (de Andrews y Monahan (1992)) y NW94 (de Newey y West (1994)). El AM92 comienza con un preblanqueo de las series con un modelo AR de orden fijo, generalmente un AR(1). Una vez pre - blanqueadas las series se ajusta una estructura ARMA de orden fijo con el que evaluar la amplitud de la ventana del procedimiento “kernel” seleccionado (Andrews recomienda el espectral cuadrático). El NW94 es similar al AM92, si bien prescinde del modelo paramétrico utilizado por Andrews (1991) y Andrews y Monahan (1992) sugiriendo el uso de un método no paramétrico denominado kernel truncado. 10 El nombre de “amplitud de ventana” procede, como puede suponerse, de la interpretación de la expresión del cálculo de la varianza a largo plazo como la estimación alisada del espectro de frecuencia cero, ya que la varianza a largo plazo equivale a su vez, bajo las condiciones impuestas, a 2πf(0), donde f(ω) es el espectro de εt.