I.- COMPORTAMIENTO COMPARADO DE LOS TESTS DE ANÁLISIS DE ESTACIONARIEDAD EN MUESTRAS PEQUEÑAS Cada uno de los apartados previos nos ha permitido aproximarnos con detalle a las principales propuestas básicas, representadas por Levin y Lin, Im et al. y Maddala y Wu así como la aportación de Hadri en el análisis de la nula de estacionariedad. En cada uno de los epígrafes correspondientes se han especificado las propiedades asintóticas de los diferentes contrastes indicándose las diversas situaciones en las que cada uno de ellos es conceptualmente aplicable. En el apartado que se desarrolla a continuación, se exponen las conclusiones sobre el comportamiento en muestras finitas de cada uno de los anteriores contrastes, extraídas de un amplio conjunto de trabajos empíricos, con especial atención a las relativas a la potencia de los tests, así como algunos indicios sobre la calidad relativa de cada uno de ellos sobre el resto. Comenzando por los contrastes de Levin y Lin sin la consideración de efectos individuales específicos, sus propios autores encontraron las siguientes evidencias mediante la realización de experimentos de Monte Carlo: • En primer lugar, pudo observarse que, en ausencia de efectos fijos, el estadístico t presenta una distribución normal cuando la dimensión transversal es suficientemente elevada (por ejemplo, alrededor de 200 individuos), independientemente de la dimensión temporal del panel. • De modo análogo, la longitud de la dimensión temporal resulta poco determinante cuando el número de individuos es escaso (por ejemplo 5 o 10 individuos); si bien la razón t no puede considerarse normalmente distribuida en este caso, no parece ser muy sensible al número de observaciones temporales. Este hecho podría estar relacionado con la superconsistencia del estimador, siendo el caso que la razón t converge enseguida a su distribución asintótica. • Respecto a la potencia del contraste t para detectar la raíz unitaria frente a la alternativa de cuasi - raíz unitaria (α=0.9), esta se incrementa mucho más rápidamente al incluir nuevas observaciones temporales que transversales, independientemente de la presencia de término independiente o tendencia determinista. • En cualquier caso, la potencia relativa de los contrastes de Levin y Lin frente a procedimientos puramente temporales parece demostrada: cuando la dimensión temporal es moderada (25-100 períodos) el análisis de un número de individuos, aún reducido, en la sección transversal genera una importante ganancia de potencia del test de raíces unitarias. Por ejemplo, en el caso del modelo con término independiente y tendencia, la potencia del test es de alrededor del 20% para series temporales de 100 observaciones aisladas y, sin embargo, de hasta el 70% si se analizan dos series conjuntamente. Para el caso de 25 observaciones, esos mismo porcentajes pasan del 10% para una serie individual al 90% para el contraste conjunto de 10 individuos. En el caso en que se considere la presencia de efectos fijos, y tal y como se adivinaba por los resultados asintóticos, las conclusiones son similares, aunque debe vigilarse el diseño del panel en cuanto a las dimensiones N y T: • Efectivamente, el estadístico t converge a una distribución normal cuando la dimensión temporal es elevada en comparación con la transversal, pero cuando la razón N T crece, los términos de sesgos crecen rápidamente y el estadístico diverge a menos infinito. Gracias a las correcciones exactas para los sesgos ofrecidas por Levin y Lin, los estadísticos estandarizados sugeridos parecen adaptarse bien a una normal estándar, independientemente del tamaño de la razón N T , si bien cuando la dimensión temporal es muy pequeña (por ejemplo menos de 25 observaciones), esta distribución no ofrece valores excesivamente bien ajustados para el contraste. En ese caso, usando las fórmulas exactas para las varianzas σ7T y σ8T y la covarianza σ78T, puede calcularse un estadístico estándar t más apropiado incluso para muestras temporales muy reducidas. • La mejora de potencia derivada del uso de estos contrastes frente a las alternativas de series temporales sigue siendo, como en el caso de un diseño sin efectos fijos, muy notable: el 12% de potencia observada para series individuales de 50 observaciones pasa a un 84% para paneles de 10 individuos con 50 observaciones. • Dada ahora la restricción asintótica N T →0, la mejora relativa de potencia es escasa cuando la dimensión temporal es limitada: sólo del 31% frente a la alternativa en un panel con 5 períodos y 300 individuos. El resultado es lógico si recordamos que la inclusión del término independiente acentuaba el sesgo a la baja en la estimación del parámetro autorregresivo, haciendo por tanto más exigente la detección de la raíz unitaria y, consecuentemente, más difícil su distinción frente a una y una raíz muy próxima a la unidad. de 0,9. • Aún así, debe recordarse, como ya se apuntó anteriormente, que la restricción N T →0 es algo más fuerte que la impuesta por Levin y Levin en el mismo contexto ya que, para estos autores el test LM promedio debidamente estandarizado se muestra igualmente válido para T y N infinitos, con N/T→k; es decir, basta con que k sea una constante positiva y no necesariamente cero. Desde el punto de vista de las propiedades del test en muestras pequeñas, esta restricción debería traducirse en una mejora relativa frente a los tests de Levin y Lin, para paneles con un número de observaciones N relativamente superior a T. Para el caso de una situación con presencia de autocorrelación serial heterogénea, es decir, centrándonos en el contraste más evolucionado propuesto por Levin y Lin, de nuevo las conclusiones son similares: • En primer lugar, la distribución normal ofrece nuevamente una excelente aproximación de la distribución empírica de los contrastes t en presencia de raíces unitarias, incluso en paneles de dimensiones relativamente pequeñas (unos 10 individuos a lo largo de 25 períodos). • En segundo lugar, las ventajas en términos de incremento de potencia son muy interesantes. En presencia de efectos fijos, la ganancia por el uso de paneles de dimensiones moderadas (N=10 y T=50 ó N=25 y T=25) es sustancial si se compara con el uso individual del test DF incluso en series relativamente largas (T≤100) A fin de analizar ahora las propiedades de los tests propuestos por Im et al. en muestras finitas, podemos revisar las conclusiones de tres conjuntos de experimentos de Monte Carlo realizados por los propios autores en diversos artículos. En primer lugar consideraron el modelo simple: y it = (1 − α i ) µ i + α i y it −1 + ε it al que, en segundo término, incorporaron la presencia de correlación serial positiva AR(1) en la perturbación εit. Finalmente, en tercer lugar, consideraron la presencia de una tendencia temporal en la estimación del modelo ADF. En cada uno de estos tres contextos, los autores compararon el funcionamiento del test LMNT propuesto para cada caso con el test de Levin y Lin1 (LL) y con una tercera alternativa no basada en procedimientos máximo verosímiles, sino en el promedio simple de los tests t clásicos de raíces unitarias aplicados al contraste γi=0 sobre cada regresión de forma particular: t NT = 1 N T ∑t iT i =1 para la que, también, supuesta la existencia de momentos de segundo orden y bajo la hipótesis nula, puede demostrarse la normalidad asintótica, de modo que para N→∞: Γt = N [t NT − E (t T | γ i = 0 )] Var (t T | γ i = 0 ) ⇒ N (0,1) En el caso de presencia de autocorrelación serial en las perturbaciones se considera la versión modificada del anterior contraste: Ψt = N t NT ( p, β ) − N −1 N −1 ∑ N i =1 ∑ N i =1 E [t iT ( p i ,0) | γ i = 0] Var [t iT ( p i ,0) | γ i = 0] donde, como en el caso LM desarrollado previamente tNT (p,β) es la media aritmética: t NT = 1 1 N N ∑t iT ( pi , β i ) i =1 Que puede ser observado en el apartado correspondiente de esta Tesis dedicado a estos autores. siendo tiT(pi,βi) el test individual para el contraste γi=0 en el modelo ADF. Los resultados comparados pueden resumirse en los siguientes puntos básicos: • En líneas generales, en el caso del modelo simple, sin autocorrelación ni tendencias temporales, los tres tests considerados parecen exhibir comportamientos similares. Para un número de observaciones temporales reducido (T=5), los tests ΓLM y Γt funcionan correctamente2: presentan el tamaño correcto y su potencia crece de forma monótona con N y T. Para reducidos tamaños temporales, el test Γt parece ser ligeramente más potente que el test LL, y también más que el test ΓLM en tamaños de T elevados (T>25). Por otro lado, parece detectarse para T=25 una cierta tendencia al sobre rechazo de la hipótesis nula para el test LL cuando se permite el crecimiento de N. (Ilustracion 1) Potencia comparada test IPS - LL Potencia para T=5 T est L M Potencia para T=10 T est L M T est " t " 1 1 0,9 0,9 0,8 0,8 0,7 0,7 0,6 0,6 0,5 0,5 0,4 0,4 0,3 0,3 0,2 0,2 0,1 0,1 0 T est " t " 0 N=5 N=1 0 N=2 5 N=5 0 N=1 0 0 N=5 Potencia para T=25 T est L M T est " t " N=1 0 N=2 5 N=5 0 N=1 0 0 Potencia para T=50 T est L M T est L L T est " t " T est L L 1 1 0,9 0,8 0,8 0,7 0,6 0,6 0,5 0,4 0,4 0,3 0,2 0,2 0,1 0 0 N=5 2 N=1 0 N=2 5 N=5 0 N=1 0 0 N=5 N=1 0 N=2 5 N=5 0 N=1 0 0 Con T=5 no puede considerarse el test LL porque estos autores no ofrecen los factores de corrección necesaria. • En el caso de los modelos con autocorrelación serial y a pesar de la equivalencia asintótica ya comentada más arriba entre ΓLM ó Γt y sus versiones adaptadas ΨLM , Ψt se encontró que éstas últimas, que incluyen explícitamente los órdenes ADF para el cómputo de los factores de ajuste de la media y la varianza, funcionan mucho mejor en muestras pequeñas. • De forma evidente, y como ya sucediera en el caso de las series temporales, resulta fundamental la correcta elección de los retardos en la regresión ADF en presencia de autocorrelación serial. • El problema es especialmente importante en el caso en que se subestimen los retardos, caso en el que el tamaño del test puede incluso verse reducido a cero. • La dirección de la distorsión en el tamaño del test depende sobre todo del signo de la autocorrelación presente en εit. Un fallo en la detección de los retardos en el caso de la autocorrelación positiva se traduce en una dificultad para el rechazo de la hipótesis nula mientras que, en el caso de existir autocorrelación negativa, el test tiende al sobre rechazo de la misma. Es decir, la distribución del test t ADF(0) queda volcada a la derecha en presencia de autocorrelación positiva no detectada y a la izquierda en el caso de autocorrelación negativa no detectada. • Supuesta la correcta elección de los retardos en el proceso generador de datos, y volviendo al tema de la potencia, los autores encontraron que los tests ΓLM y Γt presentan una mayor potencia que los tests LL, destacando especialmente el test Γt en muestras pequeñas. • En general, los experimentos demuestran que sobreparametrizar es menos perjudicial para la correcta aplicación de los tests que lo contrario aunque, como es lógico, se esta conduzca a una cierta perdida de potencia. Esta pérdida de potencia es menos notable en el caso de los tests ΓLM y Γt que en el caso de los tests LL. • En el caso del modelo menos restringido, en el que se considere la inclusión de una tendencia temporal, resulta una vez más determinante la correcta elección del retardo ADF, más aun si cabe que en el caso del modelo sin tendencia. • En general, en presencia de autocorrelación serial, puede decirse que los tests ΓLM y Γt permiten obtener mejores resultados que el test LL y, a su vez, que el test Γt parece más potente que el test ΓLM . No obstante, incluso el test t tiene un pobre comportamiento cuando el tamaño temporal es escaso (T≤10). • También en términos generales, se comprueba que la potencia del test Γt se ve más favorablemente afectada por incrementos en la dimensión temporal T que en la transversal N. Vistos los anteriores resultados, debemos hacer una llamada de atención respecto a la comparación en la que se apoyan las anterior conclusiones, y es que este contraste de potencia relativa entre los desarrollos de Im et al. y Levin y Lin no es estrictamente un ejercicio válido, ya que los tests que se comparan no presentan la misma hipótesis alternativa. La homogeneidad en la formulación de la hipótesis nula en los tests de Levin y Lin permiten utilizar regresiones de panel lo que, obviamente, conducirá a peores resultados en el caso en la heterogeneidad permita la combinación de resultados de tests obtenidos de distintos individuos. Maddala y Wu también realizaron algunas simulaciones parea establecer las propiedades de su test de Fisher en muestras pequeñas, así como sus cualidades relativas frente a las alternativas de Levin y Lin e Im et al. Los resultados obtenidos indican que los tests de Levin y Lin funcionan comparativamente peor que el resto de alternativas aunque, de nuevo, debemos observar que los tests de estos autores y los propuestos por Im et al. y Maddala no son directamente comparables. Si lo son, sin embargo, estos dos últimos y, en ese sentido, el test de Fisher parece superior al resto, en cuanto que presenta menores distorsiones de tamaño y una potencia comparable. (Ilustracion 2) Tamaño y Potencia de los tests Levin y Lin, Im et al. y Fisher (Simulación para un PGD ADF (1) sin tendencia, N=25 y diferentes valores de T)3 Tamaño Potencia T =100 T =100 Levin & Lin T =50 T =50 Fisher Im et al. T =25 0,000 T =25 0,050 0,100 0,150 0,200 0,0000 0,5000 1,0000 1,5000 Por otro lado, los resultados muestran un peligro que ya señalaran Im et al.: el riesgo de seleccionar incorrectamente los retardos del modelo ADF en los contrastes propuestos por Levin y Lin4 Pero además, la simulación que dio lugar a los anteriores resultados deparó resultados interesantes cuando se consideró para el análisis una mezcla de procesos estacionarios con no estacionarios. Los resultados parecen no dejar lugar a dudas: el test de Fisher, pese a su simplicidad, resulta más potente que los contrastes propuestos por Im et al. ó Levin y Lin. Esta mejora relativa es más patente a medida que el número de procesos no estacionarios se incrementa sobre el total de individuos de la muestra. Como puede en el siguiente gráfico, si se considera sobre una muestra de 50 individuos la presencia de un cierto número de procesos estacionarios, la potencia relativa del test de Fisher se incrementa sobre las otras dos alternativas y, en especial, sobre la de Levin y Lin: 3 Los detalles de esta simulación pueden encontrarse en Maddala y Wu (1999). 4 En el caso en que los retardos se sobredimensionen, las distorsiones de tamaño se reducen pero a cambio se nota un cierto descenso de potencia. (Ilustracion 3) Potencia de los tests Levin y Lin, Im et al. y Fisher (Simulación para N=25, T=50 y un número “k” variable de procesos estacionarios sobre el total del 50 individuos) Im et al. 1,0000 Fisher Levin & Lin 0,8000 0,6000 0,4000 0,2000 0,0000 k=1 k=2 k=4 k=8 k=10 k=12 De todos modos, y pese a la ventaja relativa del test de Fisher, las conclusiones obtenidas teniendo en cuenta las diferentes simulaciones obtenidas, matizan, en términos generales, la supremacía del mismo: • En ausencia de correlación transversal, el test Im et al. es levemente más potente que el test de Fisher (o al menos presenta una mayor potencia para un tamaño similar). Ambos son, en cualquier caso, más potentes que los propuestos por Levin y Lin. • Ninguno de los tests parece idóneo para tratar los problemas de la correlación transversal. No obstante, los experimentos de Monte Carlo parecen mostrar que este problema es menos severo con el test de Fisher que con las otras alternativas, especialmente en el caso en que se dispone de un número de observaciones temporales T grande y N presenta un tamaño moderado. Respecto a los trabajos de Hadri (1998 y 1999), no existen estudios que comparen su funcionamiento en muestras finitas frente a otras alternativas, aunque sí algunos experimentos de Monte Carlo que permiten observar sus propiedades y evidentes características diferenciales en muestras pequeñas. En primer lugar es interesante recordar que la distribución de los estadísticos Zµ y Zτ, no depende, bajo la hipótesis nula σu=0, de los parámetros ri0 y βi en tanto que los residuos sobre los que se construye el test no son función de ri0 y βi . Por otro lado, tampoco la distribución se ve afectada por del factor de escala σε al cancelándose de la expresión final por aparecer en los mimos términos tanto en el numerador como en el denominador de la misma. De este modo, el tamaño y la potencia de los tests dependen sólo de T y N y, eso sí, de los métodos usados para el cálculo de la varianza a largo plazo. Esto no sucede, sin embargo, en el caso en que se considere autocorrelación serial en la perturbación aleatoria inicialmente considerada estacionaria. En ese caso, el parámetro autorregresivo ρ considerado para esa perturbación se convierte en un parámetro molesto que debe ser tenido en cuenta en la medida en que mide la distancia entre la hipótesis nula y la alternativa. En particular, bajo la hipótesis nula de no estacionariedad σU=0, yit se convierte en un paseo aleatorio en la medida en que ρ=1. Así, puede esperarse a priori un problema de sobre – rechazo para todo ρ>0 , con mayor o menor incidencia en la medida en que ρ se acerque a la unidad. Para el caso más simple, sin autocorrelación, los experimentos realizados por el propio autor del test determinaron que el tamaño empírico del test Zµ se aproxima suficientemente al teórico para muestras con T>25: los resultados son, sin embrago, estadísticamente inadmisibles para menos de 25 observaciones temporales. Una vez que se dispone de este mínimo de períodos, parece irrelevante el tamaño de individuos considerados N, siempre y cuando supere un tamaño mínimo de alrededor de 25. El tamaño del test mejora a medida que N y T crece aunque no siempre siguiendo un patrón monótono. En el caso de considerar una tendencia temporal, los resultados para Zτ empeoran notablemente, al igual que sucediera en las alternativas de no estacionariedad revisadas más arriba. En este caso, no parecen admisibles muestras con menos de 100 períodos temporales y un número de observaciones no inferior a las 125 – 150. Además, aun en el caso de contar con un panel de dimensiones elevadas, el test sufre una distorsión persistente y mayor que la observada en el caso de Zµ. En presencia de autocorrelación serial5 los resultados son, como ya se ha apuntado dos párrafos más arriba, dependientes de la cuantía y signo de ρ asumido para el patrón de autocorrelación. La distorsión de tamaño aumenta cuando el valor absoluto de ρ se incrementa y tiende a ser mayor para valores para valores negativos. Además, contrariamente a lo que cabría esperar conforme a la experiencia de tests similares en series temporales, el contraste tiende al rechazo para valores negativos y a la aceptación para valores positivos. 5 En este caso, el experimento al que hago mención utiliza un proceso AR(1) en los errores.