I.- COMPORTAMIENTO COMPARADO DE LOS TESTS DE

Anuncio
I.-
COMPORTAMIENTO COMPARADO DE LOS TESTS
DE
ANÁLISIS
DE
ESTACIONARIEDAD
EN
MUESTRAS PEQUEÑAS
Cada uno de los apartados previos nos ha permitido aproximarnos con detalle a las
principales propuestas básicas, representadas por Levin y Lin, Im et al. y Maddala y Wu así
como la aportación de Hadri en el análisis de la nula de estacionariedad. En cada uno de los
epígrafes correspondientes se han especificado las propiedades asintóticas de los diferentes
contrastes indicándose las diversas situaciones en las que cada uno de ellos es conceptualmente
aplicable.
En el apartado que se desarrolla a continuación, se exponen las conclusiones sobre el
comportamiento en muestras finitas de cada uno de los anteriores contrastes, extraídas de un
amplio conjunto de trabajos empíricos, con especial atención a las relativas a la potencia de los
tests, así como algunos indicios sobre la calidad relativa de cada uno de ellos sobre el resto.
Comenzando por los contrastes de Levin y Lin sin la consideración de efectos
individuales específicos, sus propios autores encontraron las siguientes evidencias mediante la
realización de experimentos de Monte Carlo:
•
En primer lugar, pudo observarse que, en ausencia de efectos fijos, el estadístico t
presenta una distribución normal cuando la dimensión transversal es suficientemente
elevada (por ejemplo, alrededor de 200 individuos), independientemente de la
dimensión temporal del panel.
•
De modo análogo, la longitud de la dimensión temporal resulta poco determinante
cuando el número de individuos es escaso (por ejemplo 5 o 10 individuos); si bien la
razón t no puede considerarse normalmente distribuida en este caso, no parece ser muy
sensible al número de observaciones temporales. Este hecho podría estar relacionado
con la superconsistencia del estimador, siendo el caso que la razón t converge enseguida
a su distribución asintótica.
•
Respecto a la potencia del contraste t para detectar la raíz unitaria frente a la alternativa
de cuasi - raíz unitaria (α=0.9), esta se incrementa mucho más rápidamente al incluir
nuevas observaciones temporales que transversales, independientemente de la presencia
de término independiente o tendencia determinista.
•
En cualquier caso, la potencia relativa de los contrastes de Levin y Lin frente a
procedimientos puramente temporales parece demostrada: cuando la dimensión
temporal es moderada (25-100 períodos) el análisis de un número de individuos, aún
reducido, en la sección transversal genera una importante ganancia de potencia del test
de raíces unitarias. Por ejemplo, en el caso del modelo con término independiente y
tendencia, la potencia del test es de alrededor del 20% para series temporales de 100
observaciones aisladas y, sin embargo, de hasta el 70% si se analizan dos series
conjuntamente. Para el caso de 25 observaciones, esos mismo porcentajes pasan del
10% para una serie individual al 90% para el contraste conjunto de 10 individuos.
En el caso en que se considere la presencia de efectos fijos, y tal y como se adivinaba
por los resultados asintóticos, las conclusiones son similares, aunque debe vigilarse el diseño del
panel en cuanto a las dimensiones N y T:
•
Efectivamente, el estadístico t converge a una distribución normal cuando la dimensión
temporal es elevada en comparación con la transversal, pero cuando la razón
N T
crece, los términos de sesgos crecen rápidamente y el estadístico diverge a menos
infinito. Gracias a las correcciones exactas para los sesgos ofrecidas por Levin y Lin,
los estadísticos estandarizados sugeridos parecen adaptarse bien a una normal estándar,
independientemente del tamaño de la razón
N T , si bien cuando la dimensión
temporal es muy pequeña (por ejemplo menos de 25 observaciones), esta distribución
no ofrece valores excesivamente bien ajustados para el contraste. En ese caso, usando
las fórmulas exactas para las varianzas σ7T y σ8T y la covarianza σ78T, puede calcularse
un estadístico estándar t más apropiado incluso para muestras temporales muy
reducidas.
•
La mejora de potencia derivada del uso de estos contrastes frente a las alternativas de
series temporales sigue siendo, como en el caso de un diseño sin efectos fijos, muy
notable: el 12% de potencia observada para series individuales de 50 observaciones
pasa a un 84% para paneles de 10 individuos con 50 observaciones.
•
Dada ahora la restricción asintótica
N T →0, la mejora relativa de potencia es escasa
cuando la dimensión temporal es limitada: sólo del 31% frente a la alternativa en un
panel con 5 períodos y 300 individuos. El resultado es lógico si recordamos que la
inclusión del término independiente acentuaba el sesgo a la baja en la estimación del
parámetro autorregresivo, haciendo por tanto más exigente la detección de la raíz
unitaria y, consecuentemente, más difícil su distinción frente a una y una raíz muy
próxima a la unidad. de 0,9.
•
Aún así, debe recordarse, como ya se apuntó anteriormente, que la restricción
N T →0 es algo más fuerte que la impuesta por Levin y Levin en el mismo contexto
ya que, para estos autores el test LM promedio debidamente estandarizado se muestra
igualmente válido para T y N infinitos, con N/T→k; es decir, basta con que k sea una
constante positiva y no necesariamente cero. Desde el punto de vista de las propiedades
del test en muestras pequeñas, esta restricción debería traducirse en una mejora relativa
frente a los tests de Levin y Lin, para paneles con un número de observaciones N
relativamente superior a T.
Para el caso de una situación con presencia de autocorrelación serial heterogénea, es
decir, centrándonos en el contraste más evolucionado propuesto por Levin y Lin, de nuevo las
conclusiones son similares:
•
En primer lugar, la distribución normal ofrece nuevamente una excelente aproximación
de la distribución empírica de los contrastes t en presencia de raíces unitarias, incluso en
paneles de dimensiones relativamente pequeñas (unos 10 individuos a lo largo de 25
períodos).
•
En segundo lugar, las ventajas en términos de incremento de potencia son muy
interesantes. En presencia de efectos fijos, la ganancia por el uso de paneles de
dimensiones moderadas (N=10 y T=50 ó N=25 y T=25) es sustancial si se compara con
el uso individual del test DF incluso en series relativamente largas (T≤100)
A fin de analizar ahora las propiedades de los tests propuestos por Im et al. en muestras
finitas, podemos revisar las conclusiones de tres conjuntos de experimentos de Monte Carlo
realizados por los propios autores en diversos artículos. En primer lugar consideraron el modelo
simple:
y it = (1 − α i ) µ i + α i y it −1 + ε it
al que, en segundo término, incorporaron la presencia de correlación serial positiva
AR(1) en la perturbación εit. Finalmente, en tercer lugar, consideraron la presencia de una
tendencia temporal en la estimación del modelo ADF.
En cada uno de estos tres contextos, los autores compararon el funcionamiento del test
LMNT propuesto para cada caso con el test de Levin y Lin1 (LL) y con una tercera alternativa no
basada en procedimientos máximo verosímiles, sino en el promedio simple de los tests t clásicos
de raíces unitarias aplicados al contraste γi=0 sobre cada regresión de forma particular:
t NT =
1
N
T
∑t
iT
i =1
para la que, también, supuesta la existencia de momentos de segundo orden y bajo la
hipótesis nula, puede demostrarse la normalidad asintótica, de modo que para N→∞:
Γt =
N [t NT − E (t T | γ i = 0 )]
Var (t T | γ i = 0 )
⇒ N (0,1)
En el caso de presencia de autocorrelación serial en las perturbaciones se considera la
versión modificada del anterior contraste:
Ψt =
N t NT ( p, β ) − N −1

N −1
∑
N
i =1
∑
N
i =1
E [t iT ( p i ,0) | γ i = 0]

Var [t iT ( p i ,0) | γ i = 0]
donde, como en el caso LM desarrollado previamente tNT (p,β) es la media aritmética:
t NT =
1
1
N
N
∑t
iT
( pi , β i )
i =1
Que puede ser observado en el apartado correspondiente de esta Tesis dedicado a estos autores.
siendo tiT(pi,βi) el test individual para el contraste γi=0 en el modelo ADF.
Los resultados comparados pueden resumirse en los siguientes puntos básicos:
•
En líneas generales, en el caso del modelo simple, sin autocorrelación ni tendencias
temporales, los tres tests considerados parecen exhibir comportamientos similares. Para
un número de observaciones temporales reducido (T=5), los tests ΓLM y Γt funcionan
correctamente2: presentan el tamaño correcto y su potencia crece de forma monótona
con N y T. Para reducidos tamaños temporales, el test Γt parece ser ligeramente más
potente que el test LL, y también más que el test ΓLM en tamaños de T elevados (T>25).
Por otro lado, parece detectarse para T=25 una cierta tendencia al sobre rechazo de la
hipótesis nula para el test LL cuando se permite el crecimiento de N.
(Ilustracion 1)
Potencia comparada test IPS - LL
Potencia para T=5
T est L M
Potencia para T=10
T est L M
T est " t "
1
1
0,9
0,9
0,8
0,8
0,7
0,7
0,6
0,6
0,5
0,5
0,4
0,4
0,3
0,3
0,2
0,2
0,1
0,1
0
T est " t "
0
N=5
N=1 0
N=2 5
N=5 0
N=1 0 0
N=5
Potencia para T=25
T est L M
T est " t "
N=1 0
N=2 5
N=5 0
N=1 0 0
Potencia para T=50
T est L M
T est L L
T est " t "
T est L L
1
1
0,9
0,8
0,8
0,7
0,6
0,6
0,5
0,4
0,4
0,3
0,2
0,2
0,1
0
0
N=5
2
N=1 0
N=2 5
N=5 0
N=1 0 0
N=5
N=1 0
N=2 5
N=5 0
N=1 0 0
Con T=5 no puede considerarse el test LL porque estos autores no ofrecen los factores de corrección
necesaria.
•
En el caso de los modelos con autocorrelación serial y a pesar de la equivalencia
asintótica ya comentada más arriba entre ΓLM ó Γt y sus versiones adaptadas ΨLM , Ψt se
encontró que éstas últimas, que incluyen explícitamente los órdenes ADF para el
cómputo de los factores de ajuste de la media y la varianza, funcionan mucho mejor en
muestras pequeñas.
•
De forma evidente, y como ya sucediera en el caso de las series temporales, resulta
fundamental la correcta elección de los retardos en la regresión ADF en presencia de
autocorrelación serial.
•
El problema es especialmente importante en el caso en que se subestimen los retardos,
caso en el que el tamaño del test puede incluso verse reducido a cero.
•
La dirección de la distorsión en el tamaño del test depende sobre todo del signo de la
autocorrelación presente en εit. Un fallo en la detección de los retardos en el caso de la
autocorrelación positiva se traduce en una dificultad para el rechazo de la hipótesis nula
mientras que, en el caso de existir autocorrelación negativa, el test tiende al sobre
rechazo de la misma. Es decir, la distribución del test t ADF(0) queda volcada a la
derecha en presencia de autocorrelación positiva no detectada y a la izquierda en el caso
de autocorrelación negativa no detectada.
•
Supuesta la correcta elección de los retardos en el proceso generador de datos, y
volviendo al tema de la potencia, los autores encontraron que los tests ΓLM y Γt
presentan una mayor potencia que los tests LL, destacando especialmente el test Γt en
muestras pequeñas.
•
En general, los experimentos demuestran que sobreparametrizar es menos perjudicial
para la correcta aplicación de los tests que lo contrario aunque, como es lógico, se esta
conduzca a una cierta perdida de potencia. Esta pérdida de potencia es menos notable en
el caso de los tests ΓLM y Γt que en el caso de los tests LL.
•
En el caso del modelo menos restringido, en el que se considere la inclusión de una
tendencia temporal, resulta una vez más determinante la correcta elección del retardo
ADF, más aun si cabe que en el caso del modelo sin tendencia.
•
En general, en presencia de autocorrelación serial, puede decirse que los tests ΓLM y Γt
permiten obtener mejores resultados que el test LL y, a su vez, que el test Γt parece más
potente que el test ΓLM . No obstante, incluso el test t tiene un pobre comportamiento
cuando el tamaño temporal es escaso (T≤10).
•
También en términos generales, se comprueba que la potencia del test Γt se ve más
favorablemente afectada por incrementos en la dimensión temporal T que en la
transversal N.
Vistos los anteriores resultados, debemos hacer una llamada de atención respecto a la
comparación en la que se apoyan las anterior conclusiones, y es que este contraste de potencia
relativa entre los desarrollos de Im et al. y Levin y Lin no es estrictamente un ejercicio válido,
ya que los tests que se comparan no presentan la misma hipótesis alternativa. La homogeneidad
en la formulación de la hipótesis nula en los tests de Levin y Lin permiten utilizar regresiones
de panel lo que, obviamente, conducirá a peores resultados en el caso en la heterogeneidad
permita la combinación de resultados de tests obtenidos de distintos individuos.
Maddala y Wu también realizaron algunas simulaciones parea establecer las
propiedades de su test de Fisher en muestras pequeñas, así como sus cualidades relativas frente
a las alternativas de Levin y Lin e Im et al. Los resultados obtenidos indican que los tests de
Levin y Lin funcionan comparativamente peor que el resto de alternativas aunque, de nuevo,
debemos observar que los tests de estos autores y los propuestos por Im et al. y Maddala no son
directamente comparables.
Si lo son, sin embargo, estos dos últimos y, en ese sentido, el test de Fisher parece
superior al resto, en cuanto que presenta menores distorsiones de tamaño y una potencia
comparable.
(Ilustracion 2)
Tamaño y Potencia de los tests Levin y Lin, Im et al. y Fisher
(Simulación para un PGD ADF (1) sin tendencia, N=25 y diferentes valores de T)3
Tamaño
Potencia
T =100
T =100
Levin & Lin
T =50
T =50
Fisher
Im et al.
T =25
0,000
T =25
0,050
0,100
0,150
0,200
0,0000
0,5000
1,0000
1,5000
Por otro lado, los resultados muestran un peligro que ya señalaran Im et al.: el riesgo de
seleccionar incorrectamente los retardos del modelo ADF en los contrastes propuestos por
Levin y Lin4
Pero además, la simulación que dio lugar a los anteriores resultados deparó resultados
interesantes cuando se consideró para el análisis una mezcla de procesos estacionarios con no
estacionarios. Los resultados parecen no dejar lugar a dudas: el test de Fisher, pese a su
simplicidad, resulta más potente que los contrastes propuestos por Im et al. ó Levin y Lin. Esta
mejora relativa es más patente a medida que el número de procesos no estacionarios se
incrementa sobre el total de individuos de la muestra.
Como puede en el siguiente gráfico, si se considera sobre una muestra de 50 individuos
la presencia de un cierto número de procesos estacionarios, la potencia relativa del test de Fisher
se incrementa sobre las otras dos alternativas y, en especial, sobre la de Levin y Lin:
3
Los detalles de esta simulación pueden encontrarse en Maddala y Wu (1999).
4
En el caso en que los retardos se sobredimensionen, las distorsiones de tamaño se reducen pero a
cambio se nota un cierto descenso de potencia.
(Ilustracion 3)
Potencia de los tests Levin y Lin, Im et al. y Fisher
(Simulación para N=25, T=50 y un número “k” variable de
procesos estacionarios sobre el total del 50 individuos)
Im et al.
1,0000
Fisher
Levin & Lin
0,8000
0,6000
0,4000
0,2000
0,0000
k=1
k=2
k=4
k=8
k=10
k=12
De todos modos, y pese a la ventaja relativa del test de Fisher, las conclusiones
obtenidas teniendo en cuenta las diferentes simulaciones obtenidas, matizan, en términos
generales, la supremacía del mismo:
•
En ausencia de correlación transversal, el test Im et al. es levemente más potente que el
test de Fisher (o al menos presenta una mayor potencia para un tamaño similar).
Ambos son, en cualquier caso, más potentes que los propuestos por Levin y Lin.
•
Ninguno de los tests parece idóneo para tratar los problemas de la correlación
transversal. No obstante, los experimentos de Monte Carlo parecen mostrar que este
problema es menos severo con el test de Fisher que con las otras alternativas,
especialmente en el caso en que se dispone de un número de observaciones temporales
T grande y N presenta un tamaño moderado.
Respecto a los trabajos de Hadri (1998 y 1999), no existen estudios que comparen su
funcionamiento en muestras finitas frente a otras alternativas, aunque sí algunos experimentos
de Monte Carlo que permiten observar sus propiedades y evidentes características diferenciales
en muestras pequeñas.
En primer lugar es interesante recordar que la distribución de los estadísticos Zµ y Zτ, no
depende, bajo la hipótesis nula σu=0, de los parámetros ri0 y βi en tanto que los residuos sobre
los que se construye el test no son función de ri0 y βi . Por otro lado, tampoco la distribución se
ve afectada por del factor de escala σε al cancelándose de la expresión final por aparecer en los
mimos términos tanto en el numerador como en el denominador de la misma. De este modo, el
tamaño y la potencia de los tests dependen sólo de T y N y, eso sí, de los métodos usados para el
cálculo de la varianza a largo plazo.
Esto no sucede, sin embargo, en el caso en que se considere autocorrelación serial en la
perturbación aleatoria inicialmente considerada estacionaria. En ese caso, el parámetro
autorregresivo ρ considerado para esa perturbación se convierte en un parámetro molesto que
debe ser tenido en cuenta en la medida en que mide la distancia entre la hipótesis nula y la
alternativa. En particular, bajo la hipótesis nula de no estacionariedad σU=0, yit se convierte en
un paseo aleatorio en la medida en que ρ=1. Así, puede esperarse a priori un problema de sobre
– rechazo para todo ρ>0 , con mayor o menor incidencia en la medida en que ρ se acerque a la
unidad.
Para el caso más simple, sin autocorrelación, los experimentos realizados por el propio
autor del test determinaron que el tamaño empírico del test Zµ se aproxima suficientemente al
teórico para muestras con T>25: los resultados son, sin embrago, estadísticamente inadmisibles
para menos de 25 observaciones temporales. Una vez que se dispone de este mínimo de
períodos, parece irrelevante el tamaño de individuos considerados N, siempre y cuando supere
un tamaño mínimo de alrededor de 25. El tamaño del test mejora a medida que N y T crece
aunque no siempre siguiendo un patrón monótono.
En el caso de considerar una tendencia temporal, los resultados para Zτ empeoran
notablemente, al igual que sucediera en las alternativas de no estacionariedad revisadas más
arriba. En este caso, no parecen admisibles muestras con menos de 100 períodos temporales y
un número de observaciones no inferior a las 125 – 150. Además, aun en el caso de contar con
un panel de dimensiones elevadas, el test sufre una distorsión persistente y mayor que la
observada en el caso de Zµ.
En presencia de autocorrelación serial5 los resultados son, como ya se ha apuntado dos
párrafos más arriba, dependientes de la cuantía y signo de ρ asumido para el patrón de
autocorrelación. La distorsión de tamaño aumenta cuando el valor absoluto de ρ se incrementa y
tiende a ser mayor para valores para valores negativos. Además, contrariamente a lo que cabría
esperar conforme a la experiencia de tests similares en series temporales, el contraste tiende al
rechazo para valores negativos y a la aceptación para valores positivos.
5
En este caso, el experimento al que hago mención utiliza un proceso AR(1) en los errores.
Descargar