I.- MÉTODOS FUNDAMENTALES PARA LA ESTIMACIÓN DE MODELOS DE DATOS DE PANEL DINÁMICOS I.A.- Introducción Como primer apartado introductorio de esta Tesis me ha aparecido conveniente exponer resumidamente los métodos tradicionales y problemas con que se enfrenta la estimación de parámetros en los modelos de datos de panel dinámicos, haciendo especial énfasis en aquellos aspectos que serán importantes de cara a la comprensión de cuantas ideas se expongan más adelante. La razón para la inclusión de este apartado es precisamente esta última, ya que el terreno de los datos de panel dinámicos contiene notables diferencias respecto al caso estático, diferencias que conviene conocer de antemano para situar correctamente los problemas técnicos con que el análisis de la estacionariedad se ha topado y las soluciones aportadas por cada autor. Los datos de panel dinámicos constituyen hoy en día un terreno econométrico de basta extensión pero ampliamente explorado; los desarrollos en los últimos años han sido muchos y han permitido sistematizar los procesos de estimación e inferencia. La imposibilidad de tratar todos los aspectos relacionados con estos métodos me impedirá ser exhaustivo por lo que la exposición se centrará en las líneas básicas, centrales y de interés de cara a una mejor comprensión de los problemas derivados de la presencia de raíces unitarias en un modelo de panel dinámico. En especial, se dedicará mayor detalle a la técnica de estimación del Método Generalizado de Momentos, aproximación que, a mi modo de ver, puede considerarse como la más completa de las disponibles hasta a fecha. I.B.- Un apunte sobre la heterogeneidad de los paneles de datos Desde los trabajos iniciales de Balestra y Nerlove (1966), los modelos dinámicos han jugado un importante papel en el análisis empírico con datos de panel en economía. Dada la escasa dimensión temporal exhibida por la mayor parte de paneles tradicionalmente disponibles, el énfasis se ha puesto en modelos con dinámica homogénea, dejándose relativamente al margen, hasta hace bien poco, al análisis de paneles dinámicos heterogéneos. Sin embargo, desde hace una década, han ido apareciendo un buen número de conjuntos de datos de panel con amplia cobertura de empresas, regiones y países y un número relativamente largo de observaciones temporales. La disponibilidad de estos seudo - paneles1 ha elevado el interés por analizar la conveniencia de esa homogeneidad en la dinámica supuesta en el análisis tradicional de datos de panel, al tiempo que ha permitido centrar los esfuerzos de análisis en la dimensión temporal de los paneles y su tratamiento. La extensión natural del modelo dinámico de series temporales a un conjunto de datos de panel presenta inicialmente importantes limitaciones. Dado que en el análisis de datos de panel convencional, se asume generalmente que el tamaño de la dimensión temporal T es fijo (y reducido) mientras que el número de observaciones transversales tiende a infinito, uno debe agrupar datos de diferentes unidades para estimar sus parámetros, un procedimiento que impone necesariamente que la estructura subyacente sea la misma para todos los individuos. Esta restricción puede resultar claramente irreal . Una primera forma de relajar esta limitación es considerar “efectos individuales”, lo que en la práctica se traduce en incluir términos independientes específicos en la ecuación de regresión. Los cambios en el término independiente de un vector autorregresivo estacionario significan cambios en las medias de las variables, de modo que permitir efectos fijos viene a ser lo mismo que admitir heterogeneidad en los niveles de las variables consideradas. Una segunda forma de añadir heterogeneidad a los procesos subyacentes es permitir que la varianza de la perturbación aleatoria del modelo dinámico varíe de unas unidades a otras. Los cambios en las varianzas de los términos “innovacionales” de un vector autorregresivo estacionario significan cambios en las varianzas de las variables, por lo que permitir la heterocedasticidad transversal, es permitir heterogeneidad en la dinámica de las variables incluidas (ya no sólo en sus niveles). La consideración de la heterogeneidad en un modelo de datos de panel es especialmente incómoda en el momento en el que la dinamicidad se incorpora de forma explícita a los modelos. Entre otras causas, la presencia de dinámicas heterogéneas (idiosincrásicas) en los distintos individuos de un panel contribuye, como se verá más adelante, a la obtención de contrastes de estacionariedad y/o cointegración con inadecuadas propiedades asintóticas. Por otro lado, resulta evidente que la renuncia completa a cualquier indicio de heterogeneidad, nos llevaría a plantearnos el porqué de la agregación de individuos para la construcción de un panel. 1 Generalmente el calificativo de "seudo paneles" se aplica a aquellos conjuntos de datos de panel en los que no se respeta, con el paso del tiempo, la configuración de la muestra original transversal. Seguramente el único lugar habitable se encuentre en el punto de equilibrio en el que se combine una dosis de homogeneidad suficiente que permita aprovechar las ventajosas propiedades de los contrastes en el caso de un panel de datos, con un nivel de heterogeneidad transversal suficiente como para enriquecer el mero análisis temporal. I.C.- Estimación intragrupo de modelos dinámicos de datos de panel Las regresiones dinámicas de datos de panel presentan dos fuentes de persistencia a lo largo del tiempo: la autocorrelación debida a la presencia de la endógena retardada entre los regresores y la debida a los efectos individuales que resumen la heterogeneidad entre individuos. La especificación más sencilla con la que representar un modelo dinámico de datos de panel es la siguiente2: yit = µ i + αyit −1 + ε it donde µi representa la heterogeneidad individual. En el análisis convencional dinámico de datos de panel micro, en el que se cuenta con observaciones de un número elevado de empresas, sectores o individuos a lo largo de un breve espacio temporal3 son bien conocidos los problemas derivados de la utilización de procedimientos clásicos para paneles estáticos como el estimador intragrupos (IG)4: inconsistencia y sesgo asintótico. Efectivamente, Nickell (1981) derivó la expresión exacta de ese sesgo para el caso general de el modelo autorregresivo de orden uno sin exógenas representado más arriba 2 Introducciones básicas a este modelo pueden encontrarse en Hsiao (1986), Baltagi (1995), Matyas y Sevestre (1996) y Arellano y Bover (1990). 3 Hasta el punto de asumirse para el análisis asintótico que el tamaño de la dimensión transversal "N" tiende a infinito mientras que la dimensión transversal "T" permanece fija. 4 Genéricamente cualquier estimador conocido como de Efectos Fijos, es decir cualquier procedimiento de estimación que proponga una transformación del modelo original que elimine la presencia de µi, bien sean diferencias, desviaciones con respecto a las medias grupales, o desviaciones ortogonales, todas ellas definiciones observacionalmente equivalentes del estimador intragrupos. confirmando los resultados experimentales de Monte Carlo obtenidos previamente por Nerlove (1967) para el caso de un modelo sin exógenas, y por Maddala (1971) para el caso de un modelo completo. El sesgo, en el caso en que utilizásemos sólo una sección transversal para la estimación por MCO5 en desviaciones a la media, es una compleja función del tamaño muestral T y el verdadero valor del parámetro autorregresivo α:6 plim (αˆ − α ) = N →∞ − (1 + α ) 1 (1 − α T ) 2α 1 (1 − α T ) t −1 T −t t −1 T −t + + 1 − α − α 1 − α − α 1 − T − 1 T 1 − α (T − 1)(1 − α ) T 1 − α −1 Esta expresión permite observar, en primer lugar, que para todo α>0 el sesgo es negativo, en segundo lugar, que ese sesgo depende (y por tanto varía) con el corte transversal t elegido, siendo menor para los cortes situados en los extremos del intervalo muestral que para aquellos situados en el medio de la muestra. En el caso en que utilizásemos la muestra completa para la estimación por MCO del modelo en diferencias con respecto a la media, la expresión de este sesgo toma la forma: 1 (1 − α T ) 2α − (1 + α ) 1 (1 − α T ) plim (αˆ − α ) = 1 − 1 − 1 − T − 1 T 1 − α (T − 1)(1 − α ) T 1 − α N →∞ −1 expresión que, para valores extremos de T, puede simplificarse de forma notable: plim (αˆ − α ) ≅ N →∞ −(1 + α ) para valores de T razonablemente elevados T −1 plim (αˆ − α ) ≅ N →∞ plim (αˆ − α ) ≅ N →∞ −(1 + α ) para T=2 2 −(2 + α )(1 + α ) para T=3 2 La única ventaja del procedimiento de estimación intragrupo es que el sesgo no depende del componente de heterogeneidad transversal µi mientras que, en el caso de la estimación del modelo por MCO en niveles, el sesgo sería: 5 Se entiende que el modelo se estima exclusivamente para un corte “t” en diferencias con respecto a la media, pero que las medias muestrales se calculan utilizando el total de observaciones “T” disponibles. 6 En realidad, Nickell ofrece dos expresiones equivalentes, ésta es sólo una de ellas. plim (αˆ − α ) ≅ N →∞ λ λ (1 − α ) + (1 + α ) donde λ = σ µ2 σ 2 , haciendo evidente que la estimación depende de σ µ2 (la dispersión de los efectos µi en la población). Gracias a estas expresiones puede observarse con sencillez cómo, en la mayor parte de los paneles micro ampliamente utilizados en la realidad, el tratamiento de la heterogeneidad inobservable por la vía tradicional provocará un sesgo muy importante que impedirá cualquier tipo de inferencia sobre el parámetro autorregresivo α. Por ejemplo, para el caso en que α=0.25 y T=10 (y nótese que T=10 es un tamaño aceptable en un panel micro), el sesgo alcanzaría un valor en torno a 0.21, esto es, más de un 80% del verdadero valor del parámetro. (Tabla 1) Sesgos asintóticos del estimador Intragrupos en un modelo autorregresivo7 T/α α 0.05 0.50 0.95 3 -0.52 -0.75 -0.97 4 -0.35 -0.54 -0.73 11 -0.11 -0.16 -0.26 16 -0.07 -0.11 -0.17 Por último, si se considera además la presencia de variables exógenas Xijt: ~ ~ yt = α~ yt −1 + X t b + ε t los resultados señalan que el sesgo en valor absoluto en la estimación del parámetro autorregresivo α será todavía mayor que en el caso en que las variables Xijt se omitan. Así mismo, la estimación del parámetro o vector de parámetros b será también sesgada, siendo ese sesgo tanto más amplio cuanto mayor sea la relación entre las variables exógenas Xijt y el retardo de la endógena yt-1. 7 Tabla tomada del artículo de Arellano y Bover (1990). Recientemente, analizando las propiedades del estimador tradicional de efectos fijos en el contexto de un modelo dinámico simple, Kiviet (1995 y 1999), consciente de que las propiedades asintóticas de primer orden no conducían a una inferencia correcta en muestras pequeñas, examinó contextos asintóticos de orden superior con la esperanza de que pudieran aproximar mejor las propiedades en muestras pequeñas conduciendo a una mejora en los ejercicios de inferencia. Kiviet consideró un modelo dinámico simple sin autocorrelación residual y con exogeneidad estricta en los regresores y derivó el tamaño del sesgo para el estimador de efectos fijos. Una vez que se sustrae de este estimador de efectos fijos otro estimador consistente del sesgo, resulta un nuevo estimador corregido que parece funcionar relativamente bien si se compara con algunas de las alternativas más tradicionales, como el Método Generalizado de Momentos, que será resumido más adelante. Por otro lado, otros estudios también recientes, como los de Judson y Owen (1999), invitan a seguir utilizando el estimador de efectos fijos en paneles en los que la dimensión temporal no sea muy pequeña con relación a la transversal, argumentando que el sesgo, en este caso, no habría de ser considerable. Los experimentos de Monte Carlo en este sentido sugieren que, incluso con un número aproximado de 30 observaciones temporales, el sesgo del estimador de efectos fijos no superaría, en el peor de los casos (es decir, en presencia de un parámetro autorregresivo elevado) el 20% del verdadero valor del parámetro. Los experimentos de estos dos autores sirvieron para recomendar, como mejor alternativa, la modificación de Kiviet seguido del estimador de Método Generalizado de Momentos y, por último, el estimador simple de Anderson – Hsiao. I.D.- Alternativas de estimación de modelos dinámicos con datos de panel I.D.(i).- Enfoque simple de máxima verosimilitud Los problemas descritos anteriormente, muy similares a los problemas clásicos de parámetros incidentales encontrados por Neyman y Scott (1948) y revisados en otros contextos econométricos por Lancaster (1998), han sido afrontados desde distintos puntos de vista aparentemente distintos pero que, en realidad, pueden conectarse con cierta sencillez. Una primera alternativa consiste en tratar los parámetros relativos a los efectos fijos µi como variables aleatorias cuyas distribuciones pertenezcan a una familia de parámetros de dimensión finita. Dependiendo de las distintas especificaciones de la distribución conjunta de los parámetros µi e yi0 (observaciones iniciales del proceso autorregresivo), se podrían plantear distintas funciones de verosimilitud para las que los correspondientes estimadores máximo verosímiles (MV) se muestran consistentes8 en términos generales. Este procedimiento de estimación por máxima verosimilitud normal presenta, como principal problema, el requerir fuertes requisitos en torno a las distribuciones de los efectos fijos µi y, sobre todo, de las condiciones iniciales yi0. Concretamente, las propiedades de los estimadores resultantes son muy sensibles a estas condiciones iniciales, condiciones establecidas sin que, como señalan Arellano y Bover (1990), normalmente el inicio del período muestral coincida con el inicio del proceso dinámico, ni usualmente pueda disponerse de información a priori sobre el punto de partida. Por otro lado, como segundo inconveniente, la aplicación del método requiere frecuentemente cálculos complejos. I.D.(ii).- Enfoque de variables instrumentales: estimador simple de Anderson – Hsiao Un método alternativo para evitar los problemas de sesgo en la estimación de modelos dinámicos consiste en utilizar una aproximación de variables instrumentales. Uno de los estimadores más utilizados y que con mayor sencillez ilustran el procedimiento de variables instrumentales en este contexto es el denominado estimador AH (Anderson - Hsiao). Para exponer su morfología supongamos un panel de datos con T=3 que permita reducir el sistema dinámico a 2 ecuaciones en niveles: y i 2 = µ i + αy i1 + ε i 2 y i 3 = µ i + αy i 2 + ε i 3 A partir de esta especificación en niveles se plantea, para eludir la presencia de la heterogeneidad transversal, la forma en diferencias para la que, en este caso, el sistema quedaría reducido ahora a una sola ecuación: 8 Anderson y Hsiao (1981 y 1982), Bhargava y Sargan (1983). ∆y i 3 = α∆y i 2 + ∆ε i 3 Como queda dicho, el problema básico de cara a la estimación del parámetro autorregresivo α por MCO en esta ecuación, es la existencia de correlación entre ∆yi2 y ∆εi3 . La estimación de variables instrumentales, exigirá encontrar un instrumento incorrelacionado con ∆εi3 y, sin embargo, correlacionado con la variable a la que deberá sustituir (∆yi2). El instrumento seleccionado, en este caso, será el valor del nivel yi1, ya que, guardando relación por construcción con ∆yi2= yi2 - yi1, no estará sin embargo correlacionado con ∆εi3.9 En este caso (para T=3) el modelo estaría exactamente identificado al contar con una variable instrumental (una condición de ortogonalidad) para la estimación de un solo parámetro. N α̂ AH = ∑y i1 [yi3 − y i2 ] i1 [y i 2 − y i1 ] i =1 N ∑y i =1 Este estimador es, en realidad, observacionalmente equivalente al estimador de máxima verosimilitud que considerase la función de densidad condicional de las observaciones tomando como condición inicial para el proceso, la primera observación disponible (yi1). Es decir, dado T=3, la densidad conjunta de yi1, yi2 e yi3 puede escribirse en términos condicionales como: f [ y i1 , y i 2 , y i 3 ] = f c [ y i 2 , y i 3 | y i1 ] f m [ y i1 ] de modo que, sin imponer restricciones en fm, el estimador de máxima verosimilitud de α puede apoyarse en fc. Así, suponiendo que: E [µ i | y i1 ] = λy i1 V [µ i | y i1 ] = σ µ2 [ ] E ε it2 = σ t2 E [ε i 2 | ε i 3 ] = 0 con λ = σ µ2 σ 2 tenemos: π 2 yi2 ω 22 y | y i1 ~ N π y i1 , ω 3 i3 32 9 ω 23 ω 33 Asumiendo la ausencia de autocorrelación en la perturbación aleatoria. siendo: π2 =α +λ π 3 = α (α + λ ) + λ ω 22 = σ µ2 + σ 22 ω 33 = (1 + α )σ µ2 + σ 32 + α 2σ 22 ω 33 = (1 + α )σ µ2 + ασ 22 El modelo así definido está exactamente identificado ofreciendo una única solución para α en términos de π2 y π3, que, como se ha dicho, coincide con la expresión del estimador de variables instrumentales: N πˆ − πˆ 2 αˆ = 3 = πˆ 2 − 1 ∑y i1 [y i3 − y i 2 ] i1 [y i 2 − y i1 ] i =1 N ∑y i =1 Esta aproximación resulta mucho más útil que la correspondiente al método de máxima verosimilitud utilizando distribuciones condicionales, ya que esta última no sólo requeriría restricciones en los coeficientes πt sino también en las varianzas y covarianzas ωts lo que haría de ello un procedimiento poco atractivo. En general, sin embargo, la utilización de un enfoque de variables instrumentales implicará una pérdida de eficiencia respecto al caso de máxima verosimilitud. Una reciente ilustración de los términos de este intercambio puede encontrarse en Wansbeek y Bekker (1996). Los autores consideraron un modelo dinámico simple sin regresores exógenos y con perturbaciones y efectos fijos independientes y normalmente distribuidos. Sobre la base de este modelo derivaron la expresión para el estimador de variables instrumentales óptimo, es decir, aquel que presentaba una varianza asintótica mínima. Los resultado revelaron las importantes diferencias en eficiencia entre el enfoque de variables instrumentales y el de máxima verosimilitud: los autores encontraron que, para regiones del parámetro autorregresivo que son verosímiles en la práctica, el estimador máximo verosímil es superior. Bien es cierto que la diferencia en eficiencia puede ser reducida siempre que se consideren restricciones no lineales de momentos similares a las propuestas por Ahn y Schmidt (1995), trabajo que será comentado nuevamente en los epígrafes siguientes. I.D.(iii).- Método generalizado de momentos A principios de los 8010, y como generalización del método de variables instrumentales, se propone el método generalizado de momentos (MGM ó GMM en ingles). A mi modo de ver, los autores que deben considerarse como referencias fundamentales en este contexto son Arellano y Bond (1991), al proponer inicialmente el procedimiento del Método Generalizado de Momentos como alternativa generalmente más eficiente a la aproximación simple de Anderson – Hsiao. La idea consiste en afrontar la estimación combinando diversos instrumentos en torno a un único vector numérico de coeficientes, que logre que correlaciones muestrales mínimas entre el término de error y cada uno de los instrumentos. Para la selección de instrumentos, MGM utiliza la información que las teorías económicas o el proceso generador de datos subyacente determinan sobre las condiciones los momentos poblacionales. Así, partiendo de determinadas asunciones sobre el proceso generador de datos del modelo dinámico de datos de panel, pueden encontrarse condiciones relativas a los momentos poblacionales sobre los que construir un estimador MGM eficiente que sea además consistente y asintóticamente normal. Dependiendo de las definición de las condiciones relativas a los momentos, son factibles varias formas del estimador MGM (Arellano y Bond (1991), Chamberlain (1992), Arellano y Bover (1995), Ahn y Schmidt (1995 y 1997), Blundell y Bond (1998)). La estimación por variables instrumentales ofrece una interpretación intuitiva y sencilla del Método Generalizado de Momentos. Efectivamente, el estimador GMM vendría a ser un caso especial de estimación por variables instrumentales en el que el sistema de ecuaciones e instrumentos estuviese sobre - identificado. En ese caso, dado que para la estimación de un parámetro contaríamos con más de una restricción de momentos (condiciones de ortogonalidad), el estimador GMM puede entenderse como una combinación lineal de todos los estimadores obtenidos con cada una de esas condiciones, debidamente ponderados por la precisión de cada una de ellos. Supongamos el anterior sistema utilizado como ejemplo para ilustrar el estimador AH. Conforme al argumento utilizado en aquel caso pero para T>3, la selección de instrumentos puede ampliarse sin más que asociar, para cada valor de t, las ecuaciones en diferencias y los correspondientes instrumentos (Arellano y Bover (1990)) obteniéndose la expresión genérica: 10 Hansen (1982) N α̂ = T ∑∑ y i =1 t =3 N T ∑∑ y i =1 t = 3 i (t − 2) i (t − 2) [y [y it − y i (t −1) i ( t −1) ] − yi (t −2) ] En la tabla inferior puede observarse la correspondencia entre ecuaciones e instrumentos para un caso genérico: (Tabla 2) Instrumentos para un modelo en 1as diferencias Ecuaciones Instrumentos ∆y i 3 = α∆y i 2 + ∆ε i 3 yi1 ∆y i 4 = α∆y i 3 + ∆ε i 4 yi1, yi2 · · · · ∆y iT = α∆y i (T −1) + ∆ε iT yi1, yi2...... yi(T-2) Definidos así instrumentos y ecuaciones, pueden plantearse conjuntamente las diversas condiciones de ortogonalidad asociadas a cada uno de los instrumentos disponibles mediante la expresión matricial: y i1 0 E [Z t ' ε t ] = 0 → M 0 0 y i1 , y i 2 M 0 L 0 O 0 L y i1 , y i 2 ,... y i (T − 2) L 0 | ∆ε i 3 ∆ε i4 = 0 M ∆ε iT derivándose la correspondiente expresión del estimador óptimo de α. Para ello, debe considerarse que, si εit es una perturbación “ruido blanco”, sus diferencias ∆εit presentarán la matriz de varianzas y covarianzas simétrica σ2H siguiente: 2 −1 0 − 1 2 − 1 E [ε it ε it '] = σ 2 H = σ 2 0 − 1 2 M M M 0 0 0 L 0 L 0 L 0 O M L 2 con lo que la expresión generalizada del estimador sería entonces: α̂ AH = ∑ y' t ∑ y' t t ( −1) t ( −1) Zt Zt −1 ∑ Z ' HZ ∑ Z ' y t t − t t t −1 ∑ Z ' HZ ∑ Z ' y t t t t − t t t ( −1) Para afrontar la selección de instrumentos y la posterior construcción del estimador MGM no es imprescindible, como en el ejemplo expuesto más arriba, plantear el modelo en diferencias. Una transformación alternativa muy útil es la propuesta por Arellano (1988) que considera las variables expresadas en desviaciones ortogonales, esto es, cada valor de la variable menos todos sus adelantos11 . Puede demostrarse que la estimación MCO aplicada sobre los datos en desviaciones ortogonales utilizando los mismos instrumentos que en el caso anterior, conduce al mismo resultado que la estimación MCG del modelo en primeras diferencias expuesta más arriba. Sólo en el caso en que algunos de los instrumentos sean suprimidos, los estimadores no serán equivalentes. Siendo indiferente una u otra transformación según lo visto, las desviaciones ortogonales son más recomendables, ya que pueden servir para suavizar los efectos de algunos problemas adicionales en la estimación. Así, por ejemplo, es bien conocido que el sesgo sobre el parámetro estimado derivado de un eventual error de medida en las variables, queda amplificado por cualquier transformación del modelo12, pero de forma más grave si se utilizan diferencias en lugar de desviaciones ortogonales. En términos generales puede afirmarse que el MGM resulta sorprendentemente flexible para eludir con relativa sencillez las eventualidades que aparecen frecuentemente en cualquier ejercicio de especificación. Sin embargo, como contrapartida, debe indicarse que la fortaleza relativa del método descansa críticamente en la adecuada selección de instrumentos, selección que deberá realizarse atendiendo escrupulosamente a las propiedades observadas de las variables con las que tratamos. Esta selección no podrá realizarse de forma automática sino que, muy al contrario, requerirá la plena implicación del investigador, que, de modo crucial, deberá definir detalladamente el modelo teórico considerado, incluyendo la posible existencia de errores de medida, autocorrelación residual, heterogeneidad inobservable, variabilidad exclusivamente temporal, etc.... Sólo en ese caso, será posible una adecuada selección de instrumentos para cada parámetro a estimar; debe tenerse en cuenta que, en un panel con 10 observaciones temporales y 5 variables exógenas estrictas, existen 500 condiciones ó momentos 11 12 Incluyendo además una corrección para garantizar la homogeneidad en varianza. Para ello basta que la autocorrelación exhibida por las variables explicativas sea superior a la mostrada por la perturbación aleatoria, algo, por otro lado, razonablemente probable. que podrían incorporarse a la estimación MGM y que con T=15 y K=10, el número de condiciones alcanza las 1040 13 . Por todo esto, el propio Manuel Arellano prefiere utilizar siempre la expresión de Método de Variables Instrumentales y no meramente de Estimador de variables instrumentales. De entre los autores que más han contribuido a mejorar este método, debemos mencionar expresamente a Ahn y Schmidt (1995). Ambos dedicaron algunos de sus trabajos a perfeccionar el método base de estimación propuesto por Arellano y Bond, derivando, por ejemplo, restricciones no lineales de momentos antes no explotadas por Arellano y Bond (1991). Además, en Ahn y Schmidt (1997), los autores ofrecieron una completa relación de los conjuntos de condiciones ortogonales correspondientes a una amplia variedad de asunciones relativas a las perturbaciones y a las condiciones iniciales del modelo dinámico. Aunque muchos de los momentos son no lineales en los parámetros, Ahn y Schmidt (1997) propusieron un estimador MGM linealizado asintóticamente igual de eficiente que el de Arellano y Bond; además, ofrecieron algunos test simples para contrastar la validez de esas restricciones no lineales. Por otro lado, Ziliak (1997), estudió en que medida era conveniente, de cara a la eficiencia asintótica del estimador, la selección indiscriminada de cuantos instrumentos fueran posibles en cada contexto. Tauchen (1986) ya había recomendado utilizar un número sub – óptimo de momentos para el caso de series temporales, reduciendo así el sesgo en la estimación por empleo de muestras pequeñas, a cambio de una leve pérdida de eficiencia. Andersen y Sorensen (1996), habían encontrado, en esta misma línea, que el MGM tiende a funcionar igualmente mal tanto con defecto como con exceso de instrumentos. Este problema (el del exceso de instrumentos), puede ser más pronunciado en el caso de un panel de datos, de modo que Ziliak (1997) realizó una serie de experimentos de Monte Carlo para modelos dinámicos comprobando que el hallazgo de Tauchen también era válido en este contexto: el sesgo a la baja en la estimación podía llegar muy severo a medida que el número de momentos se expande excesivamente, haciendo inútiles las ganancias de eficiencia. Continuando los estudios de Ziliak, los autores Ahn, Schmidt y Wooldridge (1999), Ahn y Schmidt (1999a) e Im et al. (1995) analizaron algunos procedimientos para localizar condiciones redundantes de cara a encontrar versiones modificadas del MGM con propiedades razonables en muestras pequeñas. También Crepon, Kramarz y Trognon (1997), concentraron sus trabajos en la selección de momentos. Según sus conclusiones, a la hora de abordar la estimación de un modelo 13 Condiciones para Schmidt et al. (1992) igual a T(T-1)K/K/2 dinámico de panel los parámetros pueden dividirse en dos clases: los parámetros de interés (en especial el parámetro autorregresivo) y los parámetros molestos (como los términos de segundo orden de un modelo de componentes de error). Según los autores antes mencionados, la sustitución de estos parámetros molestos por aproximaciones empíricas no significa una pérdida de eficiencia cuando sólo se estiman los parámetros de interés. De hecho, Sevestre y Trognon, en el capítulo 6 de Matyas y Sevestre (1996), argumentaban que si sólo interesa la estimación del parámetro autorregresivo, el número de restricciones ortogonales puede reducirse sin pérdida de eficiencia en lo que a ese parámetro se refiere (otra cosa será la eficiencia que se logre en la estimación de los parámetros molestos). Otros documentos recientes (Alonso-Borrego y Arellano (1999) ó Wansbeek y Knaap (1997)) insistirían en supervisar el comportamiento en muestras pequeñas del estimador MGM y sus ventajas relativas respecto a la estimación por MCO en dos etapas, Máxima Verosimilitud y Máxima Verosimilitud con información limitada. I.D.(iv).- Método Generalizado de Momentos en presencia de variables exógenas La presencia de variables predeterminadas xit en el modelo dinámico anterior condiciona el proceso de estimación de los parámetros del modelo. Vamos a utilizar, en la breve exposición que seguirá, la aproximación por variables instrumentales descrita en el apartado anterior desarrollada con mucho mayor detalle y profundidad en Arellano y Honoré (1999). La definición de los parámetros α y β en un modelo sencillo del tipo: y it = αy it −1 + βx it + µ i + ε it requerirá ahora incluir supuestos acerca de la exogeneidad de xit. Así, el aspecto más importante a la hora de abordar la estimación de modelos de panel con variables adicionales al propio retardo de la endógena, es la exogeneidad estricta o el carácter predeterminado de estas variables. Vamos a separar, por tanto, cada uno de los dos casos en la exposición que sigue a continuación. Variable xit exógena estricta Si partimos del supuesto de exogeneidad estricta para xit, podremos utilizar los niveles de xit como instrumentos para la estimación de los parámetros del modelo en primeras diferencias a la manera expuesta anteriormente. Así, en el modelo de ajuste parcial14 con variables exógenas: y it = αy it −1 + β 0 xit + β 1 xit −1 + µ i + ε it en el que el control de la heterogeneidad inobservable hubiera aconsejado la transformación en diferencias: ∆y it = α∆y it −1 + β 0 ∆xit + β 1 ∆xit −1 + ∆ε it la estimación podría plantearse con la siguiente selección de instrumentos: (Tabla 3) Instrumentos para un modelo de ajuste parcial en diferencias con xit exógena estricta Parámetros Instrumentos parámetro α de la variable ∆yit-1 niveles de yit suficientemente retardados parámetros β0 y β1 de ∆xit y ∆xit-1 niveles de xit así pues, para T=3, la única ecuación disponible estaría sobradamente identificada: Ecuación ∆y i 3 = α∆y i 2 + β 0 ∆xi 3 + β 1 ∆x i 2 + ∆ε i 3 Instrumentos yi1, xi1, xi2, xi3 Debe notarse como, al igual que en el caso más simple expuesto en el apartado anterior, la utilización como instrumento de yi1 exige necesariamente suponer ausencia de autocorrelación en la perturbación aleatoria ya que, en otro caso, no cabría suponer E[yi1,∆εi3]=0. Sin embargo, esta suposición resulta irrelevante si considerásemos a xit como 14 Este modelo se denomina de “ajuste parcial” en el sentido de que un “shock” en xit afecta a valores contemporáneos de yit , pero también, de forma cada vez más tenue, a sus valores futuros yt+1, yt+2..... merced a la presencia del término retardado “αyit-1”; es decir, la variable yit se acomoda poco a poco (ajuste parcial) a las variaciones de xit. variables exógenas en sentido estricto, ya que esto garantizaría la identificabilidad de la ecuación, aún debiendo prescindir del instrumento yi1 en el ejemplo anterior15. Efectivamente, la ecuación seguiría siendo exactamente identificada (3 instrumentos para la estimación de 3 parámetros) ilustrándose el potencial de la exogeneidad estricta para la identificación en el modelo de datos de panel de ajuste parcial del efecto dinámico de xit en yit . 16 Esta estrategia, consistente en definitiva en aprovechar las restricciones en la matriz de varianzas y covarianzas ampliando el conjunto de instrumentos no sería, claro está, la única posibilidad disponible para la estimación. Efectivamente cabría la posibilidad de explotar exhaustivamente esas restricciones en las covarianzas residuales con un procedimiento máximo verosímil como los desarrollados por Bhargava y Sargan (1983) o utilizando contrastes χ2 y estimadores MCG para sistemas triangulares como en Arellano 1989ª y 1990. Sin embargo, la desventaja del método MV para incorporar en la estimación las restricciones en varianzas y covarianzas es que sus resultados son muy sensibles a la normalidad de las perturbaciones consideradas, algo que no ocurre con el método MGM. (Arellano y Bover, 1990). Variable xit predeterminada Si, a diferencia del caso anterior, suponemos una variable xit predeterminada (es decir, incorrelacionada con εit pero no con sus retardos), la cuestión se vuelve sustancialmente diferente. Esta hipótesis es aparentemente más realista, al suponer que los shocks pasados en εit ó yit determinan en alguna medida los valores actuales de xit. Si esto sucede, los niveles de xit sin retardar no pueden utilizarse como instrumentos para la estimación de los parámetros. Por ejemplo, en el caso anterior con T=3, la variable xi3 no puede utilizarse como instrumento al aparecer correlacionada con εi2 y por tanto con la perturbación del modelo en diferencias ∆εi3=εi3-εi2. Así, para determinar los parámetros del modelo, no podemos renunciar a yi1 como instrumento, lo que obliga a suponer la ausencia de autocorrelación serial en εit.17 15 En este caso, el estimador MGM se convertiría en el estimador MC3E propuesto por Chamberlain (1982). 16 Uno de los ejemplos más elaborados e ilustrativos en este sentido es el modelo de adicción racional al consumo de tabaco en los Estados Unidos de Becker, Grossman y Murphy (1994). 17 En cualquier caso, dado que los estimadores MGM que utilizan retardos como instrumentos bajo el supuesto de perturbaciones ruido blanco serían inconsistentes si los errores estuvieran autocorrelacionados, es importante incorporar siempre a la estimación un contraste de especificación en este sentido. Obviamente, el ejemplo anterior no implica que la ausencia total de autocorrelación del modelo con variables predeterminadas sea una condición necesaria para su identificación, pero sí que deben establecerse a priori cuáles son las pautas de comportamiento de esta perturbación. Así, por ejemplo, con T=4, el modelo estaría identificado aún existiendo autocorrelación serial en la perturbación, siempre y cuando esa autocorrelación se anulase a partir del primer retardo E[ ∆εit∆εit-s ]=0 ∀ s>2 (coherente con un proceso MA(1) en la perturbación) ya que sólo así podría utilizarse el valor de yi1 como instrumento para la estimación del parámetro de ∆yi3. Con todo lo anterior, el estimador MGM que resulta para la estimación de los parámetros α y β del modelo y it = αy it −1 + βx it + µ i + ε it sería un estimador en dos etapas que utilizaría los residuos de una estimación previa MGM en una etapa. Este modelo acomodaría perfectamente errores autorregresivos o de media móvil con la única restricción de que el orden de un eventual proceso MA(q) no fuese en ningún caso inferior a T-3. En este caso extremo el conjunto de variables instrumentales resultaría insuficiente, debiéndose acudir entonces nuevamente al presupuesto adicional de exógena estricta para xit. Variable xit no correlacionada con los efectos fijos µi En los dos casos anteriores hemos presupuesto que xit presentaba relación con los efectos fijos inobservables µi, lo cual justificaba la formulación en diferencias del modelo considerado. No obstante, es interesante notar que, aún en el caso en que xit no presentase correlación con µi, el retardo de la variable endógena yit-1 estará correlacionado por construcción18 con el término uit=µi+εit , lo que impedirá la aproximación tradicional por regresión y la estimación de los parámetros utilizando un solo corte transversal. La única diferencia en este caso con respecto a los procedimientos de estimación expuestos para xit predeterminada o exógena, es que ahora la ausencia de correlación entre xit y µi permite utilizar los niveles de xit como instrumentos en la ecuación en niveles. Por otra parte, al plantear la ecuación en niveles ya no es necesario que xit sea exógena en sentido estricto ya que, aún siendo predeterminada, la ausencia de correlación entre xit y εit está garantizada. 18 Dado que yit-1 es función de µi-1=µi . I.D.(v).- Problemas de estimación por MGM en presencia de no estacionariedad El modelo dinámico presentado desde distintos puntos de vista en apartados posteriores se corresponde al caso genérico más irrestricto de todos los posibles. El proceso de estimación final de los parámetros de este tipo de modelos sufre importantes alteraciones si, a los supuestos básicos, se añaden interesantes consideraciones adicionales como la inexistencia de correlación entre efectos fijos y errores, la homocedasticidad temporal de la perturbación aleatoria o la estacionariedad de las condiciones iniciales para yit. Algunas de estas consideraciones adicionales, que parecerían ajenas al tema principal de la no estacionariedad que nos ocupa, pueden presentarse sin embargo íntimamente ligadas a este problema. Efectivamente, el modelo genérico del tipo: y it = αy it −1 + µ i + ε it puede siempre rescribirse como: y it = µ i* + ω it ω it = αω it −1 + ε it donde el término µ i* = µ i /(1 − α ) representaría una condición inicial específica para cada individuo (i) definiendo niveles heterogéneos en el valor medio del proceso. Si admitimos ahora la posibilidad de que α=1, tenemos dos alternativas de formalización del anterior modelo. La primera es considerar un paseo aleatorio con heterogeneidad en las condiciones iniciales: y it = µ i* + ω it ω it = ω it −1 + ε it mientras que la segunda supone un paseo aleatorio con deriva µi de la forma: y it = y it −1 + µ i + ε it De cualquier modo, en ambos casos el paseo aleatorio implica la no estacionariedad del proceso: ya no existe un nivel alrededor del cual fluctúe el proceso sino que el mismo es la suma de los sucesivos “shocks”. En el caso del modelo con deriva, esta deriva se transforma en una tendencia lineal de carácter heterogéneo que se añade a la secuencia de “shocks” de modo que el término µi no tiene ya la interpretación de media del proceso. En el modelo sin deriva, el papel de µi sólo juega el papel de condición inicial, es decir, de punto de partida del proceso. En el caso de los micropaneles el modelo sin deriva se ha encontrado empíricamente más relevante que el modelo con deriva ya que este último supone características difícilmente observables en los datos, al implicar: ∆y it = µ i + ε it lo cual vendría a significar una improbable autocorrelación de primer orden superior a la unidad. En cualquier caso, la implicación más importante de esta situación radicaría en que, en el caso en que α=1, el modelo sin deriva no permitiría la estimación del parámetro autorregresivo del modo tradicional expuesto para el estimador MCG. Efectivamente, en ese caso, los niveles retardados de yit no pueden funcionar como instrumentos al no estar correlacionados con ∆yit-1 (ya que en un paseo aleatorio sin deriva el término ∆yit-1 es tan sólo una innovación), un problema descrito como debilidad instrumental por Nelson y Startz (1990) y Staiger y Stock (1997). En este sentido, son interesantes los recientes desarrollos de Blundell y Bond (1998) en los que se examina la importancia de la condición inicial a la hora de generar estimaciones eficientes de los paneles dinámicos cuando T es pequeño. Partiendo de un modelo dinámico simple, consiguieron caracterizar el problema de debilidad instrumental comentado anteriormente en un único parámetro τ de la forma: τ= (σ ⋅ c) 2 ε 2 σ µ2 + σ ε2 ⋅ c que, a medida que se acerca a cero, indica peor funcionamiento del estimador de variables instrumentales y en el que: c= 1−α 1+α Puede observarse cómo en el caso en que α=1 este parámetro τ toma el valor cero, indicando así la falta de adecuación del estimador de variables instrumentales. Sin embargo, suponiendo el modelo con deriva, el parámetro autorregresivo podría estimarse, gracias a la correlación transversal inducida precisamente por la presencia del término µi. Al hilo del anterior razonamiento, Blundell y Bond (1998) sugieren una interesante posibilidad de análisis de la estacionariedad conforme al planteamiento de variables instrumentales que se ha desarrollado en anteriores apartados. La idea consiste en añadir al modelo tradicional y it = αy it −1 + µ i + ε it una condición extra de estacionariedad en media. Esta asunción, formalizada como: E [ y it | µ i ] = cte. permitiría, por sustitución recursiva, escribir la relación entre yit y µi como: y it = ( ) µi + ε it + αε it −1 + α 2 ε it − 2 + ..... 1−α lo cual vendría a suponer que los cambios en yit fuesen independientes en media de los efectos individuales µi : E [ y it − y it −1 | µ i ] = 0 (t = 2,.....T ) La utilidad de esta restricción de estacionariedad radica en la posibilidad de utilizar los las diferencias (∆yit-1) como variables instrumentales en la ecuación en niveles, aún en presencia de una raíz unitaria. De hecho, en presencia de variables que exhiben una alta persistencia, o en supuestos de raíces unitarias, puede resultar una buena estrategia combinar la estimación en niveles (usando retardos como variables instrumentales) con la estimación en diferencias (usando retardos como variables instrumentales), algo que puede hacerse de modo técnicamente sencillo con versiones recientes del programa Dynamic Panel Data (DPD) desarrollado por Arellano y Bond. Esta combinación resulta de una notable eficiencia relativa respecto al enfoque simple lo cual viene a demostrar que las restricciones en niveles sugeridas por Arellano y Bond (1995) siguen aportando información incluso cuando los instrumentos en diferencias exhiben cierta debilidad. Esta conclusión, ha sido recientemente corroborada por Blundell, Bond y Windmeijer (2000) y por nuevos experimentos de Monte Carlo de Hahn (1999). Por otro lado, y también con relación a los efectos de la no estacionariedad en los procedimientos habituales, Jiménez-Martín (1998), realizaron experimentos de Monte Carlo para estudiar el funcionamiento de los tests Holtz-Eaking (1988) de detección de heterogeneidad individual en modelos dinámicos no equilibrados de escasa dimensión temporal. Sus hallazgos señalan que los tests se comportan moderadamente bien en presencia de procesos autorregresivos moderados pero, sin embargo, para coeficientes próximos a la unidad, la presencia de un regresor adicional afecta seriamente a la potencia y tamaño de los tests. I.E.- Datos de panel dinámicos en modelos de series temporales con componente de error Hasta el momento hemos asumido que nuestro interés en torno a la especificación dinámica de un modelo de panel era la correcta determinación, libre de sesgo, de los parámetros del modelo. Sin embargo, no debe olvidarse que otra posible motivación para el uso de datos de panel puede consistir, precisamente, en el análisis de las propiedades temporales de una serie de datos observada. En este caso, la pregunta lógica sería, ¿qué ventajas adicionales nos proporciona en análisis con datos de panel?. Una primera respuesta es que, bajo determinados supuestos, la combinación de corte temporal y transversal nos permitirá distinguir la dinámica genuina de la debida a la heterogeneidad inobservable. Efectivamente, el problema radica en que la dinámica observada en una variable yit puede emanar con la misma intensidad y las mismas características de dos procesos generadores de datos que, sin embargo, son de orígenes bien distintos: en un caso la dinámica se debería exclusivamente a la presencia de heterogeneidad µi (Modelo (1)) y en el otro a una cierta dinámica en la perturbación εit (Modelo (2)). (Tabla 4) Dinámica genuina Vs. heterogeneidad inobservable PGD Modelo (1) Modelo (2) y it = µ i + ε it y it = ε it con con µ i ~ iid (0, σ µ2 ) ε it = αε it −1 + v it ε ti ~ iid (0, σ 2 ) v it ~ iid (0, σ 2 ) Dinámica observada Corr ( y it , y it −1 ) = σ µ2 σ µ2 + σ ε2 = λ λ +1 Corr ( y it , y it −1 ) = α Imaginemos ahora el caso de un tercer modelo en que ambos efectos estuviesen combinados ¿cómo distinguir en el proceso de estimación la inercia real?. La experiencia demuestra, por ejemplo, que el análisis de la dinámica salarial con grandes paneles micro de hogares, el elevado coeficiente autorregresivo resultante de la estimación invita a pensar en una intensa autocorrelación ocurriendo, sin embargo, que la eliminación del efecto de la heterogeneidad inobservable reduce ese coeficiente a un valor en torno a 0,2 ó 0,3. Una primera forma de modelizar la dinámica es a través de procesos de media móvil en las perturbaciones. Estos procesos, más simples que los autorregresivos, limitan la autocorrelación a un número fijo de períodos y además introducen restricciones exclusivamente lineales en la matriz de varianzas y covarianzas de la variable analizada: σ 2 + σ µ2 θ E [ y t y t '] = M 0 θ σ 2 + σ µ2 M 0 L 0 O θ 2 2 L σ + σ µ L 0 Los procesos autorregresivos, sin embargo, implican restricciones no lineales en la matriz de covarianzas, si bien permiten la formulación de condiciones de ortogonalidad por variables instrumentales que son lineales en los coeficientes autorregresivos. Por este motivo, suele aconsejarse que, si lo que interesa es la estimación de los coeficientes autorregresivos, la estructura AR en el componente de error puede resultar más útil mientras que, en el caso de preocuparnos por la composición de la varianza, la estructura MA permitirá la aproximación de la matriz de varianzas de forma más simple. Un hecho deseable de la especificación con una estructura AR(1), es que el modelo así definido puede considerarse como un caso especial de los modelos de regresión por variables instrumentales comentados más arriba. Efectivamente, el modelo ε it = αε it −1 + v it y it = µ i + ε it con v it ~ iid (0, σ 2 ) puede rescribirse como: y it = αy it −1 + µ i* + v it sin más que sustituir y it − µ i = ε it en el modelo AR(1) para εit, lo que es, claro está, un caso especial del modelo con variables predeterminadas analizado previamente. Así pues, volviendo al esquema previamente utilizado, si consideramos la ecuación en desviaciones que eliminen la presencia de los efectos heterogéneos µi, podremos estimar el parámetro autorregresivo considerando como instrumentos los niveles de yit convenientemente retardados. El modelo así considerado resulta atractivo en cuanto que aborda la identificación de α, que mide la persistencia dada una cierta heterogeneidad inobservable, basándose en asunciones mínimas. Efectivamente, las condiciones de ortogonalidad utilizadas para la estimación del tipo: E [ y it − 2 v it ] = E [ y it − 2 (∆y it − α∆y t −1 )] = 0 no presuponen la correlación entre los efectos fijos y el término de error, ni tampoco la posibilidad de heterocedasticidad condicional. Llegado este punto, resulta pertinente llamar la atención entre la importante diferencia conceptual existente entre la dinamicidad de un modelo de ajuste parcial y la de un modelo estático con autocorrelación residual. Como se observa en el gráfico siguiente, generado a partir de un procedimiento aleatorio, la denominación de modelo de ajuste parcial con que se conoce el modelo genuinamente dinámico, proviene de que, ante un impacto en una variable exógena xit (serie representada en barras), la variable yit se ajusta gradualmente en el período t y siguientes (serie continua). Por el contrario, en un modelo estático con autocorrelación residual, que admite una representación dinámica similar al anterior, el efecto de un impacto en t para xit se deja sentir en yit sólo en el período t . Dicho de otro modo, no existe realmente inercia en la variable yit . (Ilustracion 1) Comportamiento del “Modelo dinámico” Vs. “Modelo estático con autocorrelación residual” ante variaciones en las variables exógenas xit Modelo dinámico y it = 0.8 y it −1 + 0.5 x it + ε it ε it = 0.8ε it −1 + v it v it ~ iid (0, σ 2 ) Modelo estático + AR(1): y it = 0.5 x it + ε it con Con (εit(Mod 1)=vit (Mod 2)) Variable "x" Dinámica Estática+AR(1) 10 8 6 4 2 49 46 43 40 37 34 31 28 25 22 19 16 13 10 7 4 1 0