i.- métodos fundamentales para la estimación de modelos de datos

Anuncio
I.-
MÉTODOS
FUNDAMENTALES
PARA
LA
ESTIMACIÓN DE MODELOS DE DATOS DE PANEL
DINÁMICOS
I.A.- Introducción
Como primer apartado introductorio de esta Tesis me ha aparecido conveniente exponer
resumidamente los métodos tradicionales y problemas con que se enfrenta la estimación de
parámetros en los modelos de datos de panel dinámicos, haciendo especial énfasis en aquellos
aspectos que serán importantes de cara a la comprensión de cuantas ideas se expongan más
adelante. La razón para la inclusión de este apartado es precisamente esta última, ya que el
terreno de los datos de panel dinámicos contiene notables diferencias respecto al caso estático,
diferencias que conviene conocer de antemano para situar correctamente los problemas técnicos
con que el análisis de la estacionariedad se ha topado y las soluciones aportadas por cada autor.
Los datos de panel dinámicos constituyen hoy en día un terreno econométrico de basta
extensión pero ampliamente explorado; los desarrollos en los últimos años han sido muchos y
han permitido sistematizar los procesos de estimación e inferencia. La imposibilidad de tratar
todos los aspectos relacionados con estos métodos me impedirá ser exhaustivo por lo que la
exposición se centrará en las líneas básicas, centrales y de interés de cara a una mejor
comprensión de los problemas derivados de la presencia de raíces unitarias en un modelo de
panel dinámico. En especial, se dedicará mayor detalle a la técnica de estimación del Método
Generalizado de Momentos, aproximación que, a mi modo de ver, puede considerarse como la
más completa de las disponibles hasta a fecha.
I.B.- Un apunte sobre la heterogeneidad de los paneles de datos
Desde los trabajos iniciales de Balestra y Nerlove (1966), los modelos dinámicos han
jugado un importante papel en el análisis empírico con datos de panel en economía. Dada la
escasa dimensión temporal exhibida por la mayor parte de paneles tradicionalmente disponibles,
el énfasis se ha puesto en modelos con dinámica homogénea, dejándose relativamente al
margen, hasta hace bien poco, al análisis de paneles dinámicos heterogéneos.
Sin embargo, desde hace una década, han ido apareciendo un buen número de conjuntos
de datos de panel con amplia cobertura de empresas, regiones y países y un número
relativamente largo de observaciones temporales. La disponibilidad de estos seudo - paneles1 ha
elevado el interés por analizar la conveniencia de esa homogeneidad en la dinámica supuesta en
el análisis tradicional de datos de panel, al tiempo que ha permitido centrar los esfuerzos de
análisis en la dimensión temporal de los paneles y su tratamiento.
La extensión natural del modelo dinámico de series temporales a un conjunto de datos
de panel presenta inicialmente importantes limitaciones. Dado que en el análisis de datos de
panel convencional, se asume generalmente que el tamaño de la dimensión temporal T es fijo (y
reducido) mientras que el número de observaciones transversales tiende a infinito, uno debe
agrupar datos de diferentes unidades para estimar sus parámetros, un procedimiento que impone
necesariamente que la estructura subyacente sea la misma para todos los individuos. Esta
restricción puede resultar claramente irreal . Una primera forma de relajar esta limitación es
considerar “efectos individuales”, lo que en la práctica se traduce en incluir términos
independientes específicos en la ecuación de regresión. Los cambios en el término
independiente de un vector autorregresivo estacionario significan cambios en las medias de las
variables, de modo que permitir efectos fijos viene a ser lo mismo que admitir heterogeneidad
en los niveles de las variables consideradas. Una segunda forma de añadir heterogeneidad a los
procesos subyacentes es permitir que la varianza de la perturbación aleatoria del modelo
dinámico varíe de unas unidades a otras. Los cambios en las varianzas de los términos
“innovacionales” de un vector autorregresivo estacionario significan cambios en las varianzas
de las variables, por lo que permitir la heterocedasticidad transversal, es permitir heterogeneidad
en la dinámica de las variables incluidas (ya no sólo en sus niveles).
La consideración de la heterogeneidad en un modelo de datos de panel es especialmente
incómoda en el momento en el que la dinamicidad se incorpora de forma explícita a los
modelos. Entre otras causas, la presencia de dinámicas heterogéneas (idiosincrásicas) en los
distintos individuos de un panel contribuye, como se verá más adelante, a la obtención de
contrastes de estacionariedad y/o cointegración con inadecuadas propiedades asintóticas. Por
otro lado, resulta evidente que la renuncia completa a cualquier indicio de heterogeneidad, nos
llevaría a plantearnos el porqué de la agregación de individuos para la construcción de un panel.
1
Generalmente el calificativo de "seudo paneles" se aplica a aquellos conjuntos de datos de panel en los
que no se respeta, con el paso del tiempo, la configuración de la muestra original transversal.
Seguramente el único lugar habitable se encuentre en el punto de equilibrio en el que se
combine una dosis de homogeneidad suficiente que permita aprovechar las ventajosas
propiedades de los contrastes en el caso de un panel de datos, con un nivel de heterogeneidad
transversal suficiente como para enriquecer el mero análisis temporal.
I.C.- Estimación intragrupo de modelos dinámicos de datos de
panel
Las regresiones dinámicas de datos de panel presentan dos fuentes de persistencia a lo
largo del tiempo: la autocorrelación debida a la presencia de la endógena retardada entre los
regresores y la debida a los efectos individuales que resumen la heterogeneidad entre
individuos.
La especificación más sencilla con la que representar un modelo dinámico de datos de
panel es la siguiente2:
yit = µ i + αyit −1 + ε it
donde µi representa la heterogeneidad individual.
En el análisis convencional dinámico de datos de panel micro, en el que se cuenta con
observaciones de un número elevado de empresas, sectores o individuos a lo largo de un breve
espacio temporal3 son bien conocidos los problemas derivados de la utilización de
procedimientos clásicos para paneles estáticos como el estimador intragrupos (IG)4:
inconsistencia y sesgo asintótico.
Efectivamente, Nickell (1981) derivó la expresión exacta de ese sesgo para el caso
general de el modelo autorregresivo de orden uno sin exógenas representado más arriba
2
Introducciones básicas a este modelo pueden encontrarse en Hsiao (1986), Baltagi (1995), Matyas y
Sevestre (1996) y Arellano y Bover (1990).
3
Hasta el punto de asumirse para el análisis asintótico que el tamaño de la dimensión transversal "N"
tiende a infinito mientras que la dimensión transversal "T" permanece fija.
4
Genéricamente cualquier estimador conocido como de Efectos Fijos, es decir cualquier procedimiento
de estimación que proponga una transformación del modelo original que elimine la presencia de µi, bien
sean diferencias, desviaciones con respecto a las medias grupales, o desviaciones ortogonales, todas
ellas definiciones observacionalmente equivalentes del estimador intragrupos.
confirmando los resultados experimentales de Monte Carlo obtenidos previamente por Nerlove
(1967) para el caso de un modelo sin exógenas, y por Maddala (1971) para el caso de un modelo
completo. El sesgo, en el caso en que utilizásemos sólo una sección transversal para la
estimación por MCO5 en desviaciones a la media, es una compleja función del tamaño muestral
T y el verdadero valor del parámetro autorregresivo α:6
plim (αˆ − α ) =
N →∞

− (1 + α ) 
1 (1 − α T ) 
2α
1 (1 − α T )  
t −1
T −t
t −1
T −t
+
+
1 − α − α

1 − α − α
1 −
T − 1 
T 1 − α  (T − 1)(1 − α ) 
T 1 − α  
−1
Esta expresión permite observar, en primer lugar, que para todo α>0 el sesgo es
negativo, en segundo lugar, que ese sesgo depende (y por tanto varía) con el corte transversal t
elegido, siendo menor para los cortes situados en los extremos del intervalo muestral que para
aquellos situados en el medio de la muestra.
En el caso en que utilizásemos la muestra completa para la estimación por MCO del
modelo en diferencias con respecto a la media, la expresión de este sesgo toma la forma:
 1 (1 − α T )  
2α
− (1 + α )  1 (1 − α T ) 
plim (αˆ − α ) =
1 −

1 −
1 −
T − 1  T 1 − α  (T − 1)(1 − α )  T 1 − α  
N →∞
−1
expresión que, para valores extremos de T, puede simplificarse de forma notable:
plim (αˆ − α ) ≅
N →∞
−(1 + α )
para valores de T razonablemente elevados
T −1
plim (αˆ − α ) ≅
N →∞
plim (αˆ − α ) ≅
N →∞
−(1 + α )
para T=2
2
−(2 + α )(1 + α )
para T=3
2
La única ventaja del procedimiento de estimación intragrupo es que el sesgo no depende
del componente de heterogeneidad transversal µi mientras que, en el caso de la estimación del
modelo por MCO en niveles, el sesgo sería:
5
Se entiende que el modelo se estima exclusivamente para un corte “t” en diferencias con respecto a la
media, pero que las medias muestrales se calculan utilizando el total de observaciones “T” disponibles.
6
En realidad, Nickell ofrece dos expresiones equivalentes, ésta es sólo una de ellas.
plim (αˆ − α ) ≅
N →∞
λ
λ (1 − α ) + (1 + α )
donde λ = σ µ2 σ 2 , haciendo evidente que la estimación depende de σ µ2 (la dispersión
de los efectos µi en la población).
Gracias a estas expresiones puede observarse con sencillez cómo, en la mayor parte de
los paneles micro ampliamente utilizados en la realidad, el tratamiento de la heterogeneidad
inobservable por la vía tradicional provocará un sesgo muy importante que impedirá cualquier
tipo de inferencia sobre el parámetro autorregresivo α. Por ejemplo, para el caso en que α=0.25
y T=10 (y nótese que T=10 es un tamaño aceptable en un panel micro), el sesgo alcanzaría un
valor en torno a 0.21, esto es, más de un 80% del verdadero valor del parámetro.
(Tabla 1)
Sesgos asintóticos del estimador Intragrupos en un modelo
autorregresivo7
T/α
α
0.05
0.50
0.95
3
-0.52
-0.75
-0.97
4
-0.35
-0.54
-0.73
11
-0.11
-0.16
-0.26
16
-0.07
-0.11
-0.17
Por último, si se considera además la presencia de variables exógenas Xijt:
~
~
yt = α~
yt −1 + X t b + ε t
los resultados señalan que el sesgo en valor absoluto en la estimación del parámetro
autorregresivo α será todavía mayor que en el caso en que las variables Xijt se omitan. Así
mismo, la estimación del parámetro o vector de parámetros b será también sesgada, siendo ese
sesgo tanto más amplio cuanto mayor sea la relación entre las variables exógenas Xijt y el
retardo de la endógena yt-1.
7
Tabla tomada del artículo de Arellano y Bover (1990).
Recientemente, analizando las propiedades del estimador tradicional de efectos fijos en
el contexto de un modelo dinámico simple, Kiviet (1995 y 1999), consciente de que las
propiedades asintóticas de primer orden no conducían a una inferencia correcta en muestras
pequeñas, examinó contextos asintóticos de orden superior con la esperanza de que pudieran
aproximar mejor las propiedades en muestras pequeñas conduciendo a una mejora en los
ejercicios de inferencia. Kiviet consideró un modelo dinámico simple sin autocorrelación
residual y con exogeneidad estricta en los regresores y derivó el tamaño del sesgo para el
estimador de efectos fijos. Una vez que se sustrae de este estimador de efectos fijos otro
estimador consistente del sesgo, resulta un nuevo estimador corregido que parece funcionar
relativamente bien si se compara con algunas de las alternativas más tradicionales, como el
Método Generalizado de Momentos, que será resumido más adelante.
Por otro lado, otros estudios también recientes, como los de Judson y Owen (1999),
invitan a seguir utilizando el estimador de efectos fijos en paneles en los que la dimensión
temporal no sea muy pequeña con relación a la transversal, argumentando que el sesgo, en este
caso, no habría de ser considerable. Los experimentos de Monte Carlo en este sentido sugieren
que, incluso con un número aproximado de 30 observaciones temporales, el sesgo del estimador
de efectos fijos no superaría, en el peor de los casos (es decir, en presencia de un parámetro
autorregresivo elevado) el 20% del verdadero valor del parámetro. Los experimentos de estos
dos autores sirvieron para recomendar, como mejor alternativa, la modificación de Kiviet
seguido del estimador de Método Generalizado de Momentos y, por último, el estimador simple
de Anderson – Hsiao.
I.D.- Alternativas de estimación de modelos dinámicos con datos de
panel
I.D.(i).-
Enfoque simple de máxima verosimilitud
Los problemas descritos anteriormente, muy similares a los problemas clásicos de
parámetros incidentales encontrados por Neyman y Scott (1948) y revisados en otros contextos
econométricos por Lancaster (1998), han sido afrontados desde distintos puntos de vista
aparentemente distintos pero que, en realidad, pueden conectarse con cierta sencillez.
Una primera alternativa consiste en tratar los parámetros relativos a los efectos fijos µi
como variables aleatorias cuyas distribuciones pertenezcan a una familia de parámetros de
dimensión finita. Dependiendo de las distintas especificaciones de la distribución conjunta de
los parámetros µi e yi0 (observaciones iniciales del proceso autorregresivo), se podrían plantear
distintas funciones de verosimilitud para las que los correspondientes estimadores máximo
verosímiles (MV) se muestran consistentes8 en términos generales.
Este procedimiento de estimación por máxima verosimilitud normal presenta, como
principal problema, el requerir fuertes requisitos en torno a las distribuciones de los efectos fijos
µi y, sobre todo, de las condiciones iniciales yi0. Concretamente, las propiedades de los
estimadores resultantes son muy sensibles a estas condiciones iniciales, condiciones
establecidas sin que, como señalan Arellano y Bover (1990), normalmente el inicio del período
muestral coincida con el inicio del proceso dinámico, ni usualmente pueda disponerse de
información a priori sobre el punto de partida. Por otro lado, como segundo inconveniente, la
aplicación del método requiere frecuentemente cálculos complejos.
I.D.(ii).-
Enfoque de variables instrumentales: estimador simple de
Anderson – Hsiao
Un método alternativo para evitar los problemas de sesgo en la estimación de modelos
dinámicos consiste en utilizar una aproximación de variables instrumentales. Uno de los
estimadores más utilizados y que con mayor sencillez ilustran el procedimiento de variables
instrumentales en este contexto es el denominado estimador AH (Anderson - Hsiao). Para
exponer su morfología supongamos un panel de datos con T=3 que permita reducir el sistema
dinámico a 2 ecuaciones en niveles:
y i 2 = µ i + αy i1 + ε i 2
y i 3 = µ i + αy i 2 + ε i 3
A partir de esta especificación en niveles se plantea, para eludir la presencia de la
heterogeneidad transversal, la forma en diferencias para la que, en este caso, el sistema quedaría
reducido ahora a una sola ecuación:
8
Anderson y Hsiao (1981 y 1982), Bhargava y Sargan (1983).
∆y i 3 = α∆y i 2 + ∆ε i 3
Como queda dicho, el problema básico de cara a la estimación del parámetro
autorregresivo α por MCO en esta ecuación, es la existencia de correlación entre ∆yi2 y ∆εi3 . La
estimación de variables instrumentales, exigirá encontrar un instrumento incorrelacionado con
∆εi3 y, sin embargo, correlacionado con la variable a la que deberá sustituir (∆yi2). El
instrumento seleccionado, en este caso, será el valor del nivel yi1, ya que, guardando relación
por construcción con ∆yi2= yi2 - yi1, no estará sin embargo correlacionado con ∆εi3.9 En este caso
(para T=3) el modelo estaría exactamente identificado al contar con una variable instrumental
(una condición de ortogonalidad) para la estimación de un solo parámetro.
N
α̂ AH =
∑y
i1
[yi3 − y i2 ]
i1
[y i 2 − y i1 ]
i =1
N
∑y
i =1
Este estimador es, en realidad, observacionalmente equivalente al estimador de máxima
verosimilitud que considerase la función de densidad condicional de las observaciones tomando
como condición inicial para el proceso, la primera observación disponible (yi1). Es decir, dado
T=3, la densidad conjunta de yi1, yi2 e yi3 puede escribirse en términos condicionales como:
f [ y i1 , y i 2 , y i 3 ] = f c [ y i 2 , y i 3 | y i1 ] f m [ y i1 ]
de modo que, sin imponer restricciones en fm, el estimador de máxima verosimilitud de
α puede apoyarse en fc. Así, suponiendo que:
E [µ i | y i1 ] = λy i1
V [µ i | y i1 ] = σ µ2
[ ]
E ε it2 = σ t2
E [ε i 2 | ε i 3 ] = 0
con λ = σ µ2 σ 2 tenemos:
 π 2 
 yi2 
ω 22
 y  | y i1 ~ N  π  y i1 , ω
  3 
 i3 
 32
9
ω 23  

ω 33  
Asumiendo la ausencia de autocorrelación en la perturbación aleatoria.
siendo:
π2 =α +λ
π 3 = α (α + λ ) + λ
ω 22 = σ µ2 + σ 22
ω 33 = (1 + α )σ µ2 + σ 32 + α 2σ 22
ω 33 = (1 + α )σ µ2 + ασ 22
El modelo así definido está exactamente identificado ofreciendo una única solución para
α en términos de π2 y π3, que, como se ha dicho, coincide con la expresión del estimador de
variables instrumentales:
N
πˆ − πˆ 2
αˆ = 3
=
πˆ 2 − 1
∑y
i1
[y i3 − y i 2 ]
i1
[y i 2 − y i1 ]
i =1
N
∑y
i =1
Esta aproximación resulta mucho más útil que la correspondiente al método de máxima
verosimilitud utilizando distribuciones condicionales, ya que esta última no sólo requeriría
restricciones en los coeficientes πt sino también en las varianzas y covarianzas ωts lo que haría
de ello un procedimiento poco atractivo.
En general, sin embargo, la utilización de un enfoque de variables instrumentales
implicará una pérdida de eficiencia respecto al caso de máxima verosimilitud. Una reciente
ilustración de los términos de este intercambio puede encontrarse en Wansbeek y Bekker
(1996). Los autores consideraron un modelo dinámico simple sin regresores exógenos y con
perturbaciones y efectos fijos independientes y normalmente distribuidos. Sobre la base de este
modelo derivaron la expresión para el estimador de variables instrumentales óptimo, es decir,
aquel que presentaba una varianza asintótica mínima. Los resultado revelaron las importantes
diferencias en eficiencia entre el enfoque de variables instrumentales y el de máxima
verosimilitud: los autores encontraron que, para regiones del parámetro autorregresivo que son
verosímiles en la práctica, el estimador máximo verosímil es superior. Bien es cierto que la
diferencia en eficiencia puede ser reducida siempre que se consideren restricciones no lineales
de momentos similares a las propuestas por Ahn y Schmidt (1995), trabajo que será comentado
nuevamente en los epígrafes siguientes.
I.D.(iii).-
Método generalizado de momentos
A principios de los 8010, y como generalización del método de variables instrumentales,
se propone el método generalizado de momentos (MGM ó GMM en ingles). A mi modo de ver,
los autores que deben considerarse como referencias fundamentales en este contexto son
Arellano y Bond (1991), al proponer inicialmente el procedimiento del Método Generalizado de
Momentos como alternativa generalmente más eficiente a la aproximación simple de Anderson
– Hsiao.
La idea consiste en afrontar la estimación combinando diversos instrumentos en torno a
un único vector numérico de coeficientes, que logre que correlaciones muestrales mínimas entre
el término de error y cada uno de los instrumentos. Para la selección de instrumentos, MGM
utiliza la información que las teorías económicas o el proceso generador de datos subyacente
determinan sobre las condiciones los momentos poblacionales. Así, partiendo de determinadas
asunciones sobre el proceso generador de datos del modelo dinámico de datos de panel, pueden
encontrarse condiciones relativas a los momentos poblacionales sobre los que construir un
estimador MGM eficiente que sea además consistente y asintóticamente normal. Dependiendo
de las definición de las condiciones relativas a los momentos, son factibles varias formas del
estimador MGM (Arellano y Bond (1991), Chamberlain (1992), Arellano y Bover (1995), Ahn
y Schmidt (1995 y 1997), Blundell y Bond (1998)).
La estimación por variables instrumentales ofrece una interpretación intuitiva y sencilla
del Método Generalizado de Momentos. Efectivamente, el estimador GMM vendría a ser un
caso especial de estimación por variables instrumentales en el que el sistema de ecuaciones e
instrumentos estuviese sobre - identificado. En ese caso, dado que para la estimación de un
parámetro contaríamos con más de una restricción de momentos (condiciones de
ortogonalidad), el estimador GMM puede entenderse como una combinación lineal de todos los
estimadores obtenidos con cada una de esas condiciones, debidamente ponderados por la
precisión de cada una de ellos.
Supongamos el anterior sistema utilizado como ejemplo para ilustrar el estimador AH.
Conforme al argumento utilizado en aquel caso pero para T>3, la selección de instrumentos
puede ampliarse sin más que asociar, para cada valor de t, las ecuaciones en diferencias y los
correspondientes instrumentos (Arellano y Bover (1990)) obteniéndose la expresión genérica:
10
Hansen (1982)
N
α̂ =
T
∑∑ y
i =1 t =3
N T
∑∑ y
i =1 t = 3
i (t − 2)
i (t − 2)
[y
[y
it
− y i (t −1)
i ( t −1)
]
− yi (t −2)
]
En la tabla inferior puede observarse la correspondencia entre ecuaciones e
instrumentos para un caso genérico:
(Tabla 2)
Instrumentos para un modelo en 1as diferencias
Ecuaciones
Instrumentos
∆y i 3 = α∆y i 2 + ∆ε i 3
yi1
∆y i 4 = α∆y i 3 + ∆ε i 4
yi1, yi2
·
·
·
·
∆y iT = α∆y i (T −1) + ∆ε iT
yi1, yi2...... yi(T-2)
Definidos así instrumentos y ecuaciones, pueden plantearse conjuntamente las diversas
condiciones de ortogonalidad asociadas a cada uno de los instrumentos disponibles mediante la
expresión matricial:
 y i1
0
E [Z t ' ε t ] = 0 → 
 M

 0
0
y i1 , y i 2
M
0


L
0


O
0

L y i1 , y i 2 ,... y i (T − 2) 
L
0
|
 ∆ε i 3 
 ∆ε 
 i4  = 0
 M 


∆ε iT 
derivándose la correspondiente expresión del estimador óptimo de α. Para ello, debe
considerarse que, si εit es una perturbación “ruido blanco”, sus diferencias ∆εit presentarán la
matriz de varianzas y covarianzas simétrica σ2H siguiente:
 2 −1 0
− 1 2 − 1

E [ε it ε it '] = σ 2 H = σ 2  0 − 1 2

M
M
M
0 0 0

L 0
L 0
L 0

O M
L 2
con lo que la expresión generalizada del estimador sería entonces:
α̂ AH =
∑ y'
t
∑ y'
t
t ( −1)
t ( −1)
Zt 

Zt 

−1
∑ Z ' HZ  ∑ Z ' y
t
t
−
t
t
t
−1
∑ Z ' HZ  ∑ Z ' y
t
t
t
t
−
t
t
t ( −1)
Para afrontar la selección de instrumentos y la posterior construcción del estimador
MGM no es imprescindible, como en el ejemplo expuesto más arriba, plantear el modelo en
diferencias. Una transformación alternativa muy útil es la propuesta por Arellano (1988) que
considera las variables expresadas en desviaciones ortogonales, esto es, cada valor de la variable
menos todos sus adelantos11 . Puede demostrarse que la estimación MCO aplicada sobre los
datos en desviaciones ortogonales utilizando los mismos instrumentos que en el caso anterior,
conduce al mismo resultado que la estimación MCG del modelo en primeras diferencias
expuesta más arriba. Sólo en el caso en que algunos de los instrumentos sean suprimidos, los
estimadores no serán equivalentes. Siendo indiferente una u otra transformación según lo visto,
las desviaciones ortogonales son más recomendables, ya que pueden servir para suavizar los
efectos de algunos problemas adicionales en la estimación. Así, por ejemplo, es bien conocido
que el sesgo sobre el parámetro estimado derivado de un eventual error de medida en las
variables, queda amplificado por cualquier transformación del modelo12, pero de forma más
grave si se utilizan diferencias en lugar de desviaciones ortogonales.
En términos generales puede afirmarse que el MGM resulta sorprendentemente flexible
para eludir con relativa sencillez las eventualidades que aparecen frecuentemente en cualquier
ejercicio de especificación. Sin embargo, como contrapartida, debe indicarse que la fortaleza
relativa del método descansa críticamente en la adecuada selección de instrumentos, selección
que deberá realizarse atendiendo escrupulosamente a las propiedades observadas de las
variables con las que tratamos. Esta selección no podrá realizarse de forma automática sino que,
muy al contrario, requerirá la plena implicación del investigador, que, de modo crucial, deberá
definir detalladamente el modelo teórico considerado, incluyendo la posible existencia de
errores de medida, autocorrelación residual, heterogeneidad inobservable, variabilidad
exclusivamente temporal, etc.... Sólo en ese caso, será posible una adecuada selección de
instrumentos para cada parámetro a estimar; debe tenerse en cuenta que, en un panel con 10
observaciones temporales y 5 variables exógenas estrictas, existen 500 condiciones ó momentos
11
12
Incluyendo además una corrección para garantizar la homogeneidad en varianza.
Para ello basta que la autocorrelación exhibida por las variables explicativas sea superior a la
mostrada por la perturbación aleatoria, algo, por otro lado, razonablemente probable.
que podrían incorporarse a la estimación MGM y que con T=15 y K=10, el número de
condiciones alcanza las 1040
13
. Por todo esto, el propio Manuel Arellano prefiere utilizar
siempre la expresión de Método de Variables Instrumentales y no meramente de Estimador de
variables instrumentales.
De entre los autores que más han contribuido a mejorar este método, debemos
mencionar expresamente a Ahn y Schmidt (1995). Ambos dedicaron algunos de sus trabajos a
perfeccionar el método base de estimación propuesto por Arellano y Bond, derivando, por
ejemplo, restricciones no lineales de momentos antes no explotadas por Arellano y Bond
(1991). Además, en Ahn y Schmidt (1997), los autores ofrecieron una completa relación de los
conjuntos de condiciones ortogonales correspondientes a una amplia variedad de asunciones
relativas a las perturbaciones y a las condiciones iniciales del modelo dinámico. Aunque
muchos de los momentos son no lineales en los parámetros, Ahn y Schmidt (1997) propusieron
un estimador MGM linealizado asintóticamente igual de eficiente que el de Arellano y Bond;
además, ofrecieron algunos test simples para contrastar la validez de esas restricciones no
lineales.
Por otro lado, Ziliak (1997), estudió en que medida era conveniente, de cara a la
eficiencia asintótica del estimador, la selección indiscriminada de cuantos instrumentos fueran
posibles en cada contexto. Tauchen (1986) ya había recomendado utilizar un número sub –
óptimo de momentos para el caso de series temporales, reduciendo así el sesgo en la estimación
por empleo de muestras pequeñas, a cambio de una leve pérdida de eficiencia. Andersen y
Sorensen (1996), habían encontrado, en esta misma línea, que el MGM tiende a funcionar
igualmente mal tanto con defecto como con exceso de instrumentos. Este problema (el del
exceso de instrumentos), puede ser más pronunciado en el caso de un panel de datos, de modo
que Ziliak (1997) realizó una serie de experimentos de Monte Carlo para modelos dinámicos
comprobando que el hallazgo de Tauchen también era válido en este contexto: el sesgo a la baja
en la estimación podía llegar muy severo a medida que el número de momentos se expande
excesivamente, haciendo inútiles las ganancias de eficiencia. Continuando los estudios de
Ziliak, los autores Ahn, Schmidt y Wooldridge (1999), Ahn y Schmidt (1999a) e Im et al.
(1995) analizaron algunos procedimientos para localizar condiciones redundantes de cara a
encontrar versiones modificadas del MGM con propiedades razonables en muestras pequeñas.
También Crepon, Kramarz y Trognon (1997), concentraron sus trabajos en la selección
de momentos. Según sus conclusiones, a la hora de abordar la estimación de un modelo
13
Condiciones para Schmidt et al. (1992) igual a T(T-1)K/K/2
dinámico de panel los parámetros pueden dividirse en dos clases: los parámetros de interés (en
especial el parámetro autorregresivo) y los parámetros molestos (como los términos de segundo
orden de un modelo de componentes de error). Según los autores antes mencionados, la
sustitución de estos parámetros molestos por aproximaciones empíricas no significa una pérdida
de eficiencia cuando sólo se estiman los parámetros de interés. De hecho, Sevestre y Trognon,
en el capítulo 6 de Matyas y Sevestre (1996), argumentaban que si sólo interesa la estimación
del parámetro autorregresivo, el número de restricciones ortogonales puede reducirse sin
pérdida de eficiencia en lo que a ese parámetro se refiere (otra cosa será la eficiencia que se
logre en la estimación de los parámetros molestos).
Otros documentos recientes (Alonso-Borrego y Arellano (1999) ó Wansbeek y Knaap
(1997)) insistirían en supervisar el comportamiento en muestras pequeñas del estimador MGM
y sus ventajas relativas respecto a la estimación por MCO en dos etapas, Máxima Verosimilitud
y Máxima Verosimilitud con información limitada.
I.D.(iv).-
Método Generalizado de Momentos en presencia de variables
exógenas
La presencia de variables predeterminadas xit en el modelo dinámico anterior condiciona
el proceso de estimación de los parámetros del modelo. Vamos a utilizar, en la breve exposición
que seguirá, la aproximación por variables instrumentales descrita en el apartado anterior
desarrollada con mucho mayor detalle y profundidad en Arellano y Honoré (1999). La
definición de los parámetros α y β en un modelo sencillo del tipo:
y it = αy it −1 + βx it + µ i + ε it
requerirá ahora incluir supuestos acerca de la exogeneidad de xit. Así, el aspecto más
importante a la hora de abordar la estimación de modelos de panel con variables adicionales al
propio retardo de la endógena, es la exogeneidad estricta o el carácter predeterminado de estas
variables. Vamos a separar, por tanto, cada uno de los dos casos en la exposición que sigue a
continuación.
Variable xit exógena estricta
Si partimos del supuesto de exogeneidad estricta para xit, podremos utilizar los niveles
de xit como instrumentos para la estimación de los parámetros del modelo en primeras
diferencias a la manera expuesta anteriormente. Así, en el modelo de ajuste parcial14 con
variables exógenas:
y it = αy it −1 + β 0 xit + β 1 xit −1 + µ i + ε it
en el que el control de la heterogeneidad inobservable hubiera aconsejado la
transformación en diferencias:
∆y it = α∆y it −1 + β 0 ∆xit + β 1 ∆xit −1 + ∆ε it
la estimación podría plantearse con la siguiente selección de instrumentos:
(Tabla 3)
Instrumentos para un modelo de ajuste parcial en diferencias con
xit exógena estricta
Parámetros
Instrumentos
parámetro α de la variable ∆yit-1
niveles de yit suficientemente retardados
parámetros β0 y β1 de ∆xit y ∆xit-1
niveles de xit
así pues, para T=3, la única ecuación disponible estaría sobradamente identificada:
Ecuación
∆y i 3 = α∆y i 2 + β 0 ∆xi 3 + β 1 ∆x i 2 + ∆ε i 3
Instrumentos
yi1, xi1, xi2, xi3
Debe notarse como, al igual que en el caso más simple expuesto en el apartado anterior,
la utilización como instrumento de yi1 exige necesariamente suponer ausencia de
autocorrelación en la perturbación aleatoria ya que, en otro caso, no cabría suponer
E[yi1,∆εi3]=0. Sin embargo, esta suposición resulta irrelevante si considerásemos a xit como
14
Este modelo se denomina de “ajuste parcial” en el sentido de que un “shock” en xit afecta a valores
contemporáneos de yit , pero también, de forma cada vez más tenue, a sus valores futuros yt+1, yt+2.....
merced a la presencia del término retardado “αyit-1”; es decir, la variable yit se acomoda poco a poco
(ajuste parcial) a las variaciones de xit.
variables exógenas en sentido estricto, ya que esto garantizaría la identificabilidad de la
ecuación, aún debiendo prescindir del instrumento yi1 en el ejemplo anterior15. Efectivamente, la
ecuación seguiría siendo exactamente identificada (3 instrumentos para la estimación de 3
parámetros) ilustrándose el potencial de la exogeneidad estricta para la identificación en el
modelo de datos de panel de ajuste parcial del efecto dinámico de xit en yit . 16
Esta estrategia, consistente en definitiva en aprovechar las restricciones en la matriz de
varianzas y covarianzas ampliando el conjunto de instrumentos no sería, claro está, la única
posibilidad disponible para la estimación. Efectivamente cabría la posibilidad de explotar
exhaustivamente esas restricciones en las covarianzas residuales con un procedimiento máximo
verosímil como los desarrollados por Bhargava y Sargan (1983) o utilizando contrastes χ2 y
estimadores MCG para sistemas triangulares como en Arellano 1989ª y 1990. Sin embargo, la
desventaja del método MV para incorporar en la estimación las restricciones en varianzas y
covarianzas es que sus resultados son muy sensibles a la normalidad de las perturbaciones
consideradas, algo que no ocurre con el método MGM. (Arellano y Bover, 1990).
Variable xit predeterminada
Si, a diferencia del caso anterior, suponemos una variable xit predeterminada (es decir,
incorrelacionada con εit pero no con sus retardos), la cuestión se vuelve sustancialmente
diferente. Esta hipótesis es aparentemente más realista, al suponer que los shocks pasados en εit
ó yit determinan en alguna medida los valores actuales de xit. Si esto sucede, los niveles de xit sin
retardar no pueden utilizarse como instrumentos para la estimación de los parámetros. Por
ejemplo, en el caso anterior con T=3, la variable xi3 no puede utilizarse como instrumento al
aparecer correlacionada con εi2 y por tanto con la perturbación del modelo en diferencias
∆εi3=εi3-εi2. Así, para determinar los parámetros del modelo, no podemos renunciar a yi1 como
instrumento, lo que obliga a suponer la ausencia de autocorrelación serial en εit.17
15
En este caso, el estimador MGM se convertiría en el estimador MC3E propuesto por Chamberlain
(1982).
16
Uno de los ejemplos más elaborados e ilustrativos en este sentido es el modelo de adicción racional al
consumo de tabaco en los Estados Unidos de Becker, Grossman y Murphy (1994).
17
En cualquier caso, dado que los estimadores MGM que utilizan retardos como instrumentos bajo el
supuesto
de
perturbaciones
ruido
blanco
serían
inconsistentes
si
los
errores
estuvieran
autocorrelacionados, es importante incorporar siempre a la estimación un contraste de especificación en
este sentido.
Obviamente, el ejemplo anterior no implica que la ausencia total de autocorrelación del
modelo con variables predeterminadas sea una condición necesaria para su identificación, pero
sí que deben establecerse a priori cuáles son las pautas de comportamiento de esta perturbación.
Así, por ejemplo, con T=4, el modelo estaría identificado aún existiendo autocorrelación serial
en la perturbación, siempre y cuando esa autocorrelación se anulase a partir del primer retardo
E[ ∆εit∆εit-s ]=0 ∀ s>2 (coherente con un proceso MA(1) en la perturbación) ya que sólo así
podría utilizarse el valor de yi1 como instrumento para la estimación del parámetro de ∆yi3.
Con todo lo anterior, el estimador MGM que resulta para la estimación de los
parámetros α y β del modelo y it = αy it −1 + βx it + µ i + ε it sería un estimador en dos etapas que
utilizaría los residuos de una estimación previa MGM en una etapa. Este modelo acomodaría
perfectamente errores autorregresivos o de media móvil con la única restricción de que el orden
de un eventual proceso MA(q) no fuese en ningún caso inferior a T-3. En este caso extremo el
conjunto de variables instrumentales resultaría insuficiente, debiéndose acudir entonces
nuevamente al presupuesto adicional de exógena estricta para xit.
Variable xit no correlacionada con los efectos fijos µi
En los dos casos anteriores hemos presupuesto que xit presentaba relación con los
efectos fijos inobservables µi, lo cual justificaba la formulación en diferencias del modelo
considerado. No obstante, es interesante notar que, aún en el caso en que xit no presentase
correlación con µi, el retardo de la variable endógena yit-1 estará correlacionado por
construcción18 con el término uit=µi+εit , lo que impedirá la aproximación tradicional por
regresión y la estimación de los parámetros utilizando un solo corte transversal.
La única diferencia en este caso con respecto a los procedimientos de estimación
expuestos para xit predeterminada o exógena, es que ahora la ausencia de correlación entre xit y
µi permite utilizar los niveles de xit como instrumentos en la ecuación en niveles. Por otra parte,
al plantear la ecuación en niveles ya no es necesario que xit sea exógena en sentido estricto ya
que, aún siendo predeterminada, la ausencia de correlación entre xit y εit está garantizada.
18
Dado que yit-1 es función de µi-1=µi .
I.D.(v).-
Problemas de estimación por MGM en presencia de no
estacionariedad
El modelo dinámico presentado desde distintos puntos de vista en apartados posteriores
se corresponde al caso genérico más irrestricto de todos los posibles. El proceso de estimación
final de los parámetros de este tipo de modelos sufre importantes alteraciones si, a los supuestos
básicos, se añaden interesantes consideraciones adicionales como la inexistencia de correlación
entre efectos fijos y errores, la homocedasticidad temporal de la perturbación aleatoria o la
estacionariedad de las condiciones iniciales para yit.
Algunas de estas consideraciones adicionales, que parecerían ajenas al tema principal de
la no estacionariedad que nos ocupa, pueden presentarse sin embargo íntimamente ligadas a este
problema.
Efectivamente, el modelo genérico del tipo:
y it = αy it −1 + µ i + ε it
puede siempre rescribirse como:
y it = µ i* + ω it
ω it = αω it −1 + ε it
donde el término µ i* = µ i /(1 − α ) representaría una condición inicial específica para cada
individuo (i) definiendo niveles heterogéneos en el valor medio del proceso. Si admitimos ahora
la posibilidad de que α=1, tenemos dos alternativas de formalización del anterior modelo. La
primera es considerar un paseo aleatorio con heterogeneidad en las condiciones iniciales:
y it = µ i* + ω it
ω it = ω it −1 + ε it
mientras que la segunda supone un paseo aleatorio con deriva µi de la forma:
y it = y it −1 + µ i + ε it
De cualquier modo, en ambos casos el paseo aleatorio implica la no estacionariedad del
proceso: ya no existe un nivel alrededor del cual fluctúe el proceso sino que el mismo es la
suma de los sucesivos “shocks”. En el caso del modelo con deriva, esta deriva se transforma en
una tendencia lineal de carácter heterogéneo que se añade a la secuencia de “shocks” de modo
que el término µi no tiene ya la interpretación de media del proceso. En el modelo sin deriva, el
papel de µi sólo juega el papel de condición inicial, es decir, de punto de partida del proceso. En
el caso de los micropaneles el modelo sin deriva se ha encontrado empíricamente más relevante
que el modelo con deriva ya que este último supone características difícilmente observables en
los datos, al implicar:
∆y it = µ i + ε it
lo cual vendría a significar una improbable autocorrelación de primer orden superior a
la unidad.
En cualquier caso, la implicación más importante de esta situación radicaría en que, en
el caso en que α=1, el modelo sin deriva no permitiría la estimación del parámetro
autorregresivo del modo tradicional expuesto para el estimador MCG. Efectivamente, en ese
caso, los niveles retardados de yit no pueden funcionar como instrumentos al no estar
correlacionados con ∆yit-1 (ya que en un paseo aleatorio sin deriva el término ∆yit-1 es tan sólo
una innovación), un problema descrito como debilidad instrumental por Nelson y Startz (1990)
y Staiger y Stock (1997).
En este sentido, son interesantes los recientes desarrollos de Blundell y Bond (1998) en
los que se examina la importancia de la condición inicial a la hora de generar estimaciones
eficientes de los paneles dinámicos cuando T es pequeño. Partiendo de un modelo dinámico
simple, consiguieron caracterizar el problema de debilidad instrumental comentado
anteriormente en un único parámetro τ de la forma:
τ=
(σ ⋅ c)
2
ε
2
σ µ2 + σ ε2 ⋅ c
que, a medida que se acerca a cero, indica peor funcionamiento del estimador de
variables instrumentales y en el que:
c=
1−α
1+α
Puede observarse cómo en el caso en que α=1 este parámetro τ toma el valor cero,
indicando así la falta de adecuación del estimador de variables instrumentales.
Sin embargo, suponiendo el modelo con deriva, el parámetro autorregresivo podría
estimarse, gracias a la correlación transversal inducida precisamente por la presencia del
término µi. Al hilo del anterior razonamiento, Blundell y Bond (1998) sugieren una interesante
posibilidad de análisis de la estacionariedad conforme al planteamiento de variables
instrumentales que se ha desarrollado en anteriores apartados. La idea consiste en añadir al
modelo tradicional y it = αy it −1 + µ i + ε it una condición extra de estacionariedad en media. Esta
asunción, formalizada como:
E [ y it | µ i ] = cte.
permitiría, por sustitución recursiva, escribir la relación entre yit y µi como:
y it =
(
)
µi
+ ε it + αε it −1 + α 2 ε it − 2 + .....
1−α
lo cual vendría a suponer que los cambios en yit fuesen independientes en media de los
efectos individuales µi :
E [ y it − y it −1 | µ i ] = 0
(t = 2,.....T )
La utilidad de esta restricción de estacionariedad radica en la posibilidad de utilizar los
las diferencias (∆yit-1) como variables instrumentales en la ecuación en niveles, aún en presencia
de una raíz unitaria.
De hecho, en presencia de variables que exhiben una alta persistencia, o en supuestos de
raíces unitarias, puede resultar una buena estrategia combinar la estimación en niveles (usando
retardos como variables instrumentales) con la estimación en diferencias (usando retardos
como variables instrumentales), algo que puede hacerse de modo técnicamente sencillo con
versiones recientes del programa Dynamic Panel Data (DPD) desarrollado por Arellano y Bond.
Esta combinación resulta de una notable eficiencia relativa respecto al enfoque simple lo cual
viene a demostrar que las restricciones en niveles sugeridas por Arellano y Bond (1995) siguen
aportando información incluso cuando los instrumentos en diferencias exhiben cierta debilidad.
Esta conclusión, ha sido recientemente corroborada por Blundell, Bond y Windmeijer (2000) y
por nuevos experimentos de Monte Carlo de Hahn (1999).
Por otro lado, y también con relación a los efectos de la no estacionariedad en los
procedimientos habituales, Jiménez-Martín (1998), realizaron experimentos de Monte Carlo
para estudiar el funcionamiento de los tests Holtz-Eaking (1988) de detección de heterogeneidad
individual en modelos dinámicos no equilibrados de escasa dimensión temporal. Sus hallazgos
señalan que los tests se comportan moderadamente bien en presencia de procesos
autorregresivos moderados pero, sin embargo, para coeficientes próximos a la unidad, la
presencia de un regresor adicional afecta seriamente a la potencia y tamaño de los tests.
I.E.- Datos de panel dinámicos en modelos de series temporales con
componente de error
Hasta el momento hemos asumido que nuestro interés en torno a la especificación
dinámica de un modelo de panel era la correcta determinación, libre de sesgo, de los parámetros
del modelo. Sin embargo, no debe olvidarse que otra posible motivación para el uso de datos de
panel puede consistir, precisamente, en el análisis de las propiedades temporales de una serie de
datos observada.
En este caso, la pregunta lógica sería, ¿qué ventajas adicionales nos proporciona en
análisis con datos de panel?. Una primera respuesta es que, bajo determinados supuestos, la
combinación de corte temporal y transversal nos permitirá distinguir la dinámica genuina de la
debida a la heterogeneidad inobservable. Efectivamente, el problema radica en que la dinámica
observada en una variable yit puede emanar con la misma intensidad y las mismas características
de dos procesos generadores de datos que, sin embargo, son de orígenes bien distintos: en un
caso la dinámica se debería exclusivamente a la presencia de heterogeneidad µi (Modelo (1)) y
en el otro a una cierta dinámica en la perturbación εit (Modelo (2)).
(Tabla 4)
Dinámica genuina Vs. heterogeneidad inobservable
PGD
Modelo (1)
Modelo (2)
y it = µ i + ε it
y it = ε it
con
con
µ i ~ iid (0, σ µ2 )
ε it = αε it −1 + v it
ε ti ~ iid (0, σ 2 )
v it ~ iid (0, σ 2 )
Dinámica observada
Corr ( y it , y it −1 ) =
σ µ2
σ µ2
+ σ ε2
=
λ
λ +1
Corr ( y it , y it −1 ) = α
Imaginemos ahora el caso de un tercer modelo en que ambos efectos estuviesen
combinados ¿cómo distinguir en el proceso de estimación la inercia real?. La experiencia
demuestra, por ejemplo, que el análisis de la dinámica salarial con grandes paneles micro de
hogares, el elevado coeficiente autorregresivo resultante de la estimación invita a pensar en una
intensa autocorrelación ocurriendo, sin embargo, que la eliminación del efecto de la
heterogeneidad inobservable reduce ese coeficiente a un valor en torno a 0,2 ó 0,3.
Una primera forma de modelizar la dinámica es a través de procesos de media móvil en
las perturbaciones. Estos procesos, más simples que los autorregresivos, limitan la
autocorrelación a un número fijo de períodos y además introducen restricciones exclusivamente
lineales en la matriz de varianzas y covarianzas de la variable analizada:
σ 2 + σ µ2

 θ
E [ y t y t '] = 
M

0

θ
σ
2
+ σ µ2
M
0


L
0


O
θ

2
2
L σ + σ µ 
L
0
Los procesos autorregresivos, sin embargo, implican restricciones no lineales en la
matriz de covarianzas, si bien permiten la formulación de condiciones de ortogonalidad por
variables instrumentales que son lineales en los coeficientes autorregresivos. Por este motivo,
suele aconsejarse que, si lo que interesa es la estimación de los coeficientes autorregresivos, la
estructura AR en el componente de error puede resultar más útil mientras que, en el caso de
preocuparnos por la composición de la varianza, la estructura MA permitirá la aproximación de
la matriz de varianzas de forma más simple.
Un hecho deseable de la especificación con una estructura AR(1), es que el modelo así
definido puede considerarse como un caso especial de los modelos de regresión por variables
instrumentales comentados más arriba. Efectivamente, el modelo
ε it = αε it −1 + v it
y it = µ i + ε it con 
v it ~ iid (0, σ 2 )
puede rescribirse como:
y it = αy it −1 + µ i* + v it
sin más que sustituir y it − µ i = ε it en el modelo AR(1) para εit, lo que es, claro está, un
caso especial del modelo con variables predeterminadas analizado previamente. Así pues,
volviendo al esquema previamente utilizado, si consideramos la ecuación en desviaciones que
eliminen la presencia de los efectos heterogéneos µi, podremos estimar el parámetro
autorregresivo considerando como instrumentos los niveles de yit convenientemente retardados.
El modelo así considerado resulta atractivo en cuanto que aborda la identificación de α,
que mide la persistencia dada una cierta heterogeneidad inobservable, basándose en asunciones
mínimas. Efectivamente, las condiciones de ortogonalidad utilizadas para la estimación del tipo:
E [ y it − 2 v it ] = E [ y it − 2 (∆y it − α∆y t −1 )] = 0
no presuponen la correlación entre los efectos fijos y el término de error, ni tampoco la
posibilidad de heterocedasticidad condicional.
Llegado este punto, resulta pertinente llamar la atención entre la importante diferencia
conceptual existente entre la dinamicidad de un modelo de ajuste parcial y la de un modelo
estático con autocorrelación residual. Como se observa en el gráfico siguiente, generado a partir
de un procedimiento aleatorio, la denominación de modelo de ajuste parcial con que se conoce
el modelo genuinamente dinámico, proviene de que, ante un impacto en una variable exógena xit
(serie representada en barras), la variable yit se ajusta gradualmente en el período t y siguientes
(serie continua). Por el contrario, en un modelo estático con autocorrelación residual, que
admite una representación dinámica similar al anterior, el efecto de un impacto en t para xit se
deja sentir en yit sólo en el período t . Dicho de otro modo, no existe realmente inercia en la
variable yit .
(Ilustracion 1)
Comportamiento del “Modelo dinámico” Vs. “Modelo estático con
autocorrelación residual” ante variaciones en las variables
exógenas xit
Modelo dinámico y it = 0.8 y it −1 + 0.5 x it + ε it
ε it = 0.8ε it −1 + v it
v it ~ iid (0, σ 2 )
Modelo estático + AR(1): y it = 0.5 x it + ε it con 
Con (εit(Mod 1)=vit (Mod 2))
Variable "x"
Dinámica
Estática+AR(1)
10
8
6
4
2
49
46
43
40
37
34
31
28
25
22
19
16
13
10
7
4
1
0
Descargar