BREVE APUNTE SOBRE LA ESTIMACIÓN DE MODELOS MULTIECUACIONALES Ramón Mahía Abril 2006 I.- Sobre la variedad de Métodos de Estimación en el contexto multiecuacional Los modelos multiecuacionales se caracterizan por presentar un sistema interconectado de variables y ecuaciones, es decir, un sistema en el que la simultaneidad entre endógenas aparece en mayor o menor medida. Precisamente esa mayor o menor simultaneidad en las relaciones entre endógenas es un factor decisivo para determinar las propiedades de los distintos métodos de estimación. Esto no significa que sea la única variable a considerar (afectará también la identificabilidad del modelo o el deseo de una estimación asintóticamente eficiente), pero sí resulta el primero de los factores ANALÍTICAMENTE claves para una primera aproximación al método de estimación correcto. En ese sentido, la primera de las clasificaciones de los distintos estimadores disponibles responde en gran medida al criterio de la simultaneidad; cada uno de los grandes grupos de métodos se configura para ser aplicado a modelos con mayor o menor simultaneidad. - Métodos de Estimación de Enfoque Directo: Cada ecuación se estima de forma separada y sin atender en ninguna medida a la información del resto del modelo. Por ni la presencia de otras endógenas y/o exógenas ni, por supuesto, la configuración concreta del resto de ecuaciones, son relevantes en los resultados obtenidos en cada ecuación. (MCO) - Métodos de Estimación con Información Limitada: Cada ecuación se estima también de forma aislada pero, al menos, se requiere información sobre la presencia de otras variables en el modelo (qué endógenas y qué exógenas aparecen en el modelo); sigue sin ser imprescindible, eso si, la especificación concreta de cada ecuación. Así pues, algunos cambios en el modelo, por ejemplo la inclusión de nuevas exógenas o endógenas, podrían afectar a los resultados de la estimación obtenidos en cada ecuación. (MCI, MC2E) - Información Completa: No se estiman los parámetros de cada ecuación por separado, sino que se aborda la estimación conjunta de todo el modelo. Es imprescindible, por tanto, conocer la especificación detallada, concreta, de cada una de las ecuaciones del modelo. Del mismo modo, cualquier cambio, por pequeño que sea, en las variables o especificación de cada ecuación requerirá una nueva estimación de todos los parámetros del modelo. Visto lo anterior, parece evidente que, desde el punto de vista analítico, la forma en la que el analista adecua el método de estimación al tipo de modelo 1 especificado, teniendo por tanto en cuenta esa mayor o menor presencia de simultaneidad, influye en las propiedades de los estimadores obtenidos. Al contrario de lo que pudiera parecer, la utilización de métodos de enfoque directo no es siempre una simplificación poco recomendable: - Analíticamente: 1. Cada situación requiere la correcta selección del método de estimación adecuado. La utilización de métodos de información limitada o completa en modelos no simultáneos puede generar estimaciones con indeseables propiedades analíticas. Por ejemplo, la utilización de MC2E en ausencia de simultaneidad genera estimaciones ineficientes. 2. Como se verá más adelante, ningún método de información limitada o información completa genera, para muestras pequeñas, estimaciones insesgadas (cosa distinta será para muestras grandes) por lo que, en presencia de muestras pequeñas, el hipotético beneficio derivado de su aplicación podría no compensar (1) ni el esfuerzo necesario para su desarrollo ni (2) la pérdida de eficiencia respecto al, eficiente en estos casos, MCO. - Operativamente 1. La utilización de MCO en cada ecuación por separado resulta un test muy valioso para evaluar, al menos preliminarmente, y aún de de forma aislada, la especificación de cada ecuación. 2. Los métodos de estimación con información limitada, y especialmente los métodos con información completa exigen completar al 100% la tarea de especificación del modelo antes de abordar su estimación. Esta cuestión complica la programación y desarrollo de tareas en cualquier proyecto de análisis econométrico ya que, en realidad, los procesos de especificación, estimación y contraste no se realizan de forma lineal, sino que suelen abordarse como un “todo”, con frecuentes “vueltas atrás” y replanteamientos en cada una de los etapas. 3. Los métodos de estimación con información completa o limitada son complejos de desarrollar (generalmente implican métodos de estimación no lineal) exigiendo amplios recursos para la obtención de la estimación. 4. Por otro lado, estos métodos exigen importantes recursos adicionales de mantenimiento y uso (cualquier cambio en una parte exige la actualización y revisión del modelo en su conjunto). 5. La utilización de métodos de estimación simultánea favorece el contagio de todo el modelo ante problemas de especificación aislados en una ecuación. Por todo lo anterior, puede entenderse que, en la práctica, los modelos multiecuacionales se estiman en muchas ocasiones con métodos de enfoque 2 directo aunque en puridad analítica puedan ser recomendables métodos de información limitada o completa. La rapidez, la sencillez y flexibilidad de actualización, mantenimiento y uso de modelos estimados con enfoques directos compensan en ocasiones unas imprecisiones analíticas que, frecuentemente, y para muestras pequeñas, no son muy significativas. II.- Mínimos Cuadrados Ordinarios La aplicación de MCO en un sistema de ecuaciones sin simultaneidad genera (en ausencia de otros problemas de especificación individual de cada ecuación) estimaciones insesgadas, consistentes y eficientes en tanto que su utilización en modelos con simultaneidad (y, por tanto, con riesgo de regresores estocásticos correlacionados con las perturbaciones aleatorias) no garantiza la insesgadez (riesgo de estimaciones sesgadas) ni la consistencia (el sesgo no sólo se presenta en muestras pequeñas sino que se mantiene para muestras grandes). Así pues, y más allá de los matices prácticos anteriormente señalados que parecen apoyar las “ventajas relativas” de la utilización de estimadores directos, lo cierto es que el estimador MCO sólo es analíticamente recomendable para modelos sin simultaneidad o recursivos (también llamados triangulares1). Efectivamente, en este tipo de modelos las endógenas que actúan como explicativas en las ecuaciones no estarán relacionadas con las perturbaciones de las mismas lo cual impide que se generen problemas de sesgo en la estimación. (Se recomienda estudiar el ejemplo mencionado a pie de página2) III.- Mínimos Cuadrados Indirectos En presencia de simultaneidad, una primera estrategia para resolver los indeseables efectos derivados de la aplicación directa de MCO (sesgo e inconsistencia) es la utilización de la estrategia de estimación conocida como MCI. La utilización de MCI se realiza en dos pasos: 1. Se determina la forma reducida de cada ecuación, y se estiman con MCO los parámetros de la forma reducida (parámetros “π”) para cada ecuación en lugar de estimar los parámetros de su forma estructural. (parámetros “β” y “γ”). 2. Una vez estimados estos parámetros “π”, se determinan los parámetros “β” y “γ” de la forma estructural a partir de la solución al sistema de ecuaciones que determina la relación aritmética entre unos y otros. B * 1 B * La denominación de triangulares hace referencia a la forma necesariamente “triangular” de la matriz de coeficientes “gamma” de este tipo de modelos. 2 Gujarati, N. (2003). Pg. 737 1 3 El método de estimación supone, efectivamente, un enfoque de información limitada. Para la estimación de cada ecuación no resulta necesario conocer el detalle de la especificación del resto de las ecuaciones, si bien se requiere disponer de la “lista” de variables endógenas y exógenas del modelo en su conjunto (de otro modo resuelta imposible determinar la forma reducida de cada ecuación y su identificabilidad). Ventajas: 1. En la forma reducida de las ecuaciones todos los regresores (variables del lado derecho) son exógenas, es decir, no existen regresores estocásticos (o al menos, no existen regresores estocásticos provocados por la simultaneidad del modelo)3. 2. Por tanto, la estimación con MCO de los parámetros “π” sería analíticamente adecuada. En concreto, las estimaciones MCO de estos parámetros de la forma reducida serían siempre consistentes. Además, y aunque no entraremos en detalle, puede garantizarse la insesgadez y la eficiencia asintótica de estas estimaciones en buena parte de las situaciones analíticas más comunes.4 3. Al abordarse por separado la estimación de cada ecuación se evitan los inconvenientes ya comentados derivados de la aplicación de métodos simultáneos. Limitaciones: 1. Una primera de orden general se refiere al tamaño muestral y al número de regresores exógenos. Debe observarse que la aplicación de MCI requiere la estimación de las ecuaciones en la forma reducida lo cual sólo es posible si el número de datos excede el de exógenas (n>k). Esto no siempre sucede, en especial si los modelo son grandes (muchas ecuaciones) y, por tanto, implican un número considerable de variables exógenas que, con relativa facilidad, suele superar el tamaño muestral. 2. Conviene no perder de vista el objetivo final de la estimación que, evidentemente, consiste en obtener los parámetros de la forma estructural, no los de la forma reducida. Así pues, la aplicación de este método para la estimación de los parámetros de cada ecuación implica que las ecuaciones deben ser exactamente identificables ya que, de otro modo, no puede obtenerse una solución única para los 3 No debe obviarse que, más allá de la cuestión de la simultaneidad del modelo multiecuacional, una determinada ecuación puede tener un problema de regresores estocásticos que nada tengan que ver con el modelo multiecuacional. Por ejemplo, en una regresión puede aparecer como explicativa la endógena retardada (que en términos del modelo multiecuacional se consideraría exógena) o una exógena puede presentar claros problemas de sesgo de medida … en estos dos casos, el modelo podría presentar problemas derivados de la aparición de regresores estocásticos que nada tendrían que ver con la presencia o ausencia de simultaneidad en el modelo. 4 En concreto, puede demostrarse que para que estas dos propiedades se cumplan resulta necesario evitar endógenas desplazadas en la especificación y garantizar, así mismo, una clara distribución normal de las perturbaciones aleatorias. 4 parámetros “β” y “γ” a partir de las estimaciones de los parámetros “π”. 3. Los parámetros “β” y “γ” se obtienen como funciones continuas de los parámetros estimados “π”. Si bien los parámetros “π” estimados por MCO presentan buenas propiedades, no se garantiza que los parámetros de la forma estructural, generalmente funciones no lineales de los primeros, “hereden” esas buenas propiedades. En concreto, se demuestra que estos parámetros heredan las propiedades asintóticas (consistencia y eficiencia asintótica) pero no las de las muestras pequeñas (eficiencia en muestras pequeñas o insesgadez). Así pues, cuando se trabaja con muestras pequeñas (lo cual resulta relativamente habitual), debe saberse que las estimaciones con MCI seguirán siendo sesgadas e ineficientes. 4. Al utilizar MCI no dispondremos, al menos fácilmente5, de la desviación típica estimada de los parámetros, una información que, como sabemos, resulta imprescindible para poner en marcha cualquier contraste de hipótesis relativa a estos parámetros. Evidentemente, podemos estimar la varianza de los parámetros “π”, pero no así la de los parámetros estructurales “β” y “γ” ya que, en realidad, no estimamos la ecuación estructural sino la reducida y, por lo tanto, no contamos con una estimación de los residuos asociados a la perturbación aleatoria estructural “U”. Sin esos residuos y la correspondiente varianza estimada de la perturbación aleatoria no podemos computar las varianzas de los parámetros. IV.- Mínimos Cuadrados en dos Etapas (MC2E) En presencia de simultaneidad, una segunda estrategia para resolver los indeseables efectos derivados de la aplicación directa de MCO (sesgo e inconsistencia) es la utilización de la estrategia de estimación conocida como MC2E. El procedimiento consiste en utilizar MCO sobre la forma estructural pero, antes de ello, reemplazar los valores reales originales de las variables explicativas de cada ecuación (es decir, las endógenas que aparecen en el lado derecho de cada ecuación) por sus valores MCO estimados en la forma reducida (de otro modo, no podríamos plantear la estimación de la forma reducida). Para ilustrar el procedimiento operativo de MC2E, supongamos el siguiente modelo simultáneo con 2 ecuaciones: Y1i 11 X 1i 12 X 2i 12Y2i U1i Y2i 21 X 1i 23 X 3i 21Y1i U 2i Para la primera ecuación, antes de proceder a la estimación directa con MCO, reemplazamos los valores originales de la variable Y2i (un regresor estocástico 5 Gujarati (Econometría, 2003, 4º Edición, pg. 743) señala que no resulta sencillo estimar estas desviaciones típicas a partir de las desviaciones obtenidas para los parámetros de la forma reducida y sólo cabe una determinación aproximada para muestras grandes. 5 potencialmente relacionado con U1i) por una estimación obtenida aplicando MCO sobre su forma reducida, es decir: Y2i 21 X 1i 22 X 2i 23 X 3i V2i Yˆ ˆ X ˆ X ˆ X 2i 21 1i 22 2i 23 3i Y2i ˆ 21 X 1i ˆ 22 X 2i ˆ 23 X 3i Vˆ2i Así, pues, la ecuación a estimar sería ahora: Y1i 11 X1i 12 X 2i 12 Yˆ2i Vˆ2i U1i o lo que es igual, Y1i 11 X 1i 12 X 2i 12Yˆ2i U1i 12Vˆ2i Como puede observarse, estamos nuevamente ante una estimación con información limitada ya que, nuevamente, no necesitamos conocer la especificación concreta de cada ecuación pero sí la lista de regresores (X) y endógenas (Y) del modelo. Ventajas: 1. De nuevo, como ya ocurriera con MCI, se aborda la estimación aislada de cada ecuación lo que, operativamente, supone una ventaja y evita el contagio a todo el modelo de los errores presentes en una ecuación. 2. La utilización de los valores estimados de las explicativas evita la presencia de regresores estocásticos relacionados con la perturbación aleatoria; las variables explicativas originales son aleatorias pero sus valores estimados procedentes de la forma reducida no lo son6. 6 Esto es, en realidad, mentira. Es cierto que el valores estimado de las explicativas no depende de la perturbación aleatoria “V” sino exclusivamente de regresores deterministas “X”. Sin embargo, debe observarse que esas estimaciones son, efectivamente, combinaciones lineales de las exógenas “X” pero también de los parámetros estimados para “π”. Los parámetros reales poblacionales “π” no son variables aleatorias pero sus estimaciones sí lo son. Así pues, en realidad la estimación de las endógenas a partir de la forma reducida es también aleatoria y probablemente correlacionada con la nueva perturbación aleatoria transformada de la ecuación estructural. Sin embargo, puede demostrarse que esa relación es ya indirecta y si existe, muy leve y, por tanto, con escasos efectos (o nulos para muestras grandes) sobre las estimaciones MCO de la nueva forma estructural. 6 3. Así pues, en principio cabe pensar que la utilización de estimadores MC2E en presencia de simultaneidad produce estimaciones consistentes (es decir, evita el problema de los regresores estocásticos). No obstante, como ya ocurriera con MCI, la insesgadez y la eficiencia sólo se lograrán para muestras grandes, sin que pueda garantizarse para estimaciones con conjuntos de datos reducidos. 4. Sin embargo, además de compartir con MCI estas buenas propiedades asintóticas, la estimación MC2E presenta ventajas adicionales: a. Resulta más sencillo de aplicar dado que no tenemos que resolver el sistema de ecuaciones de la segunda etapa de MCI; el método sólo requiere dos sencillas estimaciones sucesivas por MCO. b. No requiere que la ecuación sea exactamente identificable; puede utilizarse también por tanto para ecuaciones superidentificables. c. Es más robusto que el método MCI ante problemas de especificación o multicolinealidad en las ecuaciones. d. Aunque en muestras pequeñas las ventajas de ambos estimadores se desvanecen, se ha demostrado que, en estos casos, el comportamiento de MC2E es relativamente mejor que el de MCI. e. En contraste con MCI, la aplicación de MC2E sí permite disponer de una estimación de las varianzas de los parámetros. Efectivamente, en la segunda etapa realizamos una estimación de los parámetros estructurales “β” y “γ” y, por tanto, disponemos de unos residuos7 derivados de esta estimación que nos permiten calcular las desviaciones típicas de los parámetros estimados. Limitaciones: 1. Como ya ocurriera con MCI, el procedimiento de MC2E exige la estimación de la forma reducida de cada ecuación lo cual sólo es posible si n>k. 7 En realidad, y continuando con el ejemplo utilizado previamente, debe observarse que, para la primera ecuación, contamos con una estimación de la perturbación “transformada” U * 1i U1i 12Vˆ2i que no corresponde exactamente a la perturbación original “U 1i”. Un procedimiento que permite aproximar el residuo correspondiente a la perturbación original consiste en recalcular los residuos de cada ecuación utilizando los parámetros estimados en MC2E pero aplicados sobre los datos reales de Y i, no sobre sus estimaciones de la forma reducida (es decir, usar las estimaciones de la forma reducida para el cómputo de los parámetros, pero no para el cálculo de los residuos). 7 V.- UN breve apunte sobre Mínimos Cuadrados en tres Etapas (MC3E) Como ya se ha dicho anteriormente, en los modelos multiecuacionales puede existir relación entre perturbaciones aleatorias correspondientes a distintas ecuaciones; de hecho, la presencia de simultaneidad entre las ecuaciones del modelo se manifiesta, necesariamente, en la existencia de relaciones entre perturbaciones. Así, por ejemplo, considere el modelo utilizado previamente en un ejemplo: Y1i 11 X 1i 12 X 2i 12Y2i U1i Y2i 21 X 1i 23 X 3i 21Y1i U 2i En este modelo, resulta clara la siguiente cadena causal: Cov(Y1i ,U1i ) 0 y Cov(Y2i , Y1i ) 0 Cov(Y2i ,U1i ) 0 y dado que: Cov(Y2i ,U 2i ) 0 entonces: Cov(U1i ,U 2i ) 0 Efectivamente, tal y como se indicó en la introducción y formulación de los modelos multiecuacionales, dado que la simultaneidad es una característica casi esencial de un sistema multiecuacional, debe considerarse analíticamente la posible existencia de relaciones entre perturbaciones aleatorias de distintas ecuaciones. Esa relación, en todo caso, debía ser contemporánea y constante para “i”; hablábamos así de “homocedasticidad interecuacional”. Precisamente denominábamos Σ a la matriz que contenía, en su diagonal principal, las varianzas homocedásticas de la perturbación de cada ecuación y, fuera de la diagonal principal, las covarianzas contemporáneas y constantes entre perturbaciones de distintas ecuaciones. 11 21 ' CovU i E U iU i 12 22 1g gg Aunque tanto MCI como MC2E consideran la existencia de simultaneidad en los modelos multiecuacionales y tratan de evitar los potenciales efectos negativos de una estimación MCO directa, lo cierto es que ninguno de los dos métodos considera de forma explícita, en el cálculo de los parámetros, la relación entre las perturbaciones aleatorias de las distintas ecuaciones. La característica diferencial del método de estimación MC3E es, precisamente, la 8 de integrar explícitamente el cálculo de esa relación en el proceso de estimación de los parámetros. La aplicación específica del método exige, como es lógico, disponer de una estimación previa de Σ, una estimación que se deriva de la estimación previa del modelo mediante MC2E. Así pues, las dos primeras etapas del método MC3E son, en realidad, coincidentes con MC2E. Una vez estimadas las ecuaciones de forma individual con MC2E, se utilizan los residuos de cada ecuación para estimar varianzas y covarianzas de la matriz Σ. En el último de los pasos, y una vez que disponemos de esa matriz Σ, la idea consiste en aplicar MCG sobre el modelo en su forma estructural. Para ello, y dado que debe abordarse la estimación conjunta de todos los parámetros del modelo, se “rediseñan” las matrices de datos, tanto en lo que se refiere al “lado izquierdo” del modelo (los valores de las endógenas de todas las ecuaciones) como en lo que se refiere al lado derecho (valores de las exógenas y de las endógenas explicativas de cada ecuación). Este “rediseño” de las matrices del modelo trata, insistimos, de poder estimar los parámetros de forma simultánea, introduciendo en ese cálculo, la información contenida en la matriz de relaciones entre perturbaciones Σ. Dado que el objeto de este documento no es otro que situar de forma muy general las características diferenciales del método MC3E, no se detalla la forma en que han de “apilarse” las matrices originales, pero puede encontrarse una referencia detallada al procedimiento en el libro “Modelos Econométricos” de Antonio Pulido (Ed. Pirámide), en cualquiera de sus versiones. Ventajas: 1. La estimación con MC3E no supone claras diferencias en términos de sesgo y consistencia si bien mejora la eficiencia asintótica de los estimadores respecto a MC2E siempre y cuando persistan relaciones significativas entre las perturbaciones aleatorias. Limitaciones: 1. La primera y más evidente es que el procedimiento es algo más engorroso que el necesario para la aplicación de MCI y MC2E, es decir, como ya se dijera en la introducción, consume muchos más recursos que la aplicación de los otros métodos 2. El segundo inconveniente reside en la estimación conjunta de todos los parámetros. Esta estimación conjunta requiere que la especificación esté perfectamente determinada para todas las ecuaciones del modelo. 3. Por otro lado, si bien la matriz Σ sirve como vínculo entre ecuaciones para representar la simultaneidad de una forma bien elaborada, también sirve de vía de contagio e los errores presentes en cada ecuación. Es decir, los errores de especificación o de medición de datos no sólo afectan a la ecuación en la que se localizan sino que, en cierta medida, también al resto de parámetros del modelo. Por ese motivo, este tipo de método de estimación simultáneo resulta especialmente indicado para modelos con escaso 9 riesgo de especificación (ya contrastados por experiencias previas) y con datos confiables. 4. Además, puede comprobarse analíticamente que la estimación mediante MC3E, en concreto la necesidad de invertir la matriz Σ , requiere que el número de datos exceda al de ecuaciones (n>g) por lo que no puede utilizarse en modelos con numerosas ecuaciones. ;por otro lado, antes de llevar a cabo la última etapa de MC3E, la estimación previa MC2E exige que (n>k). En definitiva, y supuesta la limitación habitual de las muestras (“n” moderado o pequeño), el método sólo puede aplicarse en modelos “pequeños”, es decir, con pocas ecuaciones (g) y pocas exógenas (k). 10