Predicciones MCC Alejandro Francetich Predicciones MCC Introducción El propósito de este trabajo es presentar algunas notas sobre predicciones en econometría clásica, de carácter preliminar y complementario (no sustitutivo) al tratamiento que el tema recibe en la bibliografía. Junto con algunas definiciones y comentarios, se hará hincapié en la demostración de algunas propiedades importantes. Necesidad de la predicción Los modelos econométricos tienen un importante uso en proveer evidencia empírica acerca de las teorías económicas que subyacen a su especificación. Por otro lado, tienen también cierto poder explicativo sobre los fenómenos que se analizan además de su utilidad como guía de acción a través de la inferencia. Finalmente, es notable su aplicación a la predicción de valores de una variable determinada1 (agregados macroeconómicos, por ejemplo); esto último implica la posibilidad de generar recomendaciones de política económica, cuando (alguno de) los regresores son variables de control –no se analizará aquí la importancia de la predicción como requisito epistemológico para la cientificidad de una disciplina. Criterio de Predicción El criterio que se sigue para obtener predicciones a partir de un modelo es el de minimizar el error cuadrático medio (ECM). Como el modelo del que se dispone es función de una muestra determinada es una variable aleatoria; así, recibe el nombre de Predictor, y el valor determinado que toma a partir de la muestra con la que se trabaja es la Predicción2. Por lo tanto, se desea obtener el predictor que minimice el error cuadrático medio, que se define como: [ E y f − yˆ f ] 2 donde yf es el verdadera variable aleatoria, el valor futuro de la variable de interés (f proviene de forecast), e yˆf es la variable generada por la estimación3. La estimación de la variable aleatoria se basa en un conjunto de información muestral, que contiene datos hasta el momento T (llamado OT). Luego, {[ Min E y f − yˆ f ]} 2 S .A : ΩT 1 Se hará caso omiso de la crítica de Keynes a la estimación de modelos, para quien sólo tienen uso como instrumento de pensamiento. 2 De manera análoga a la distinción entre estimador y estimación. 3 Nótese que, a diferencia de la definición del error cuadrático medio utilizada en los cursos de estadística, aquí no se trata de la diferencia entre una variable aleatoria y un parámetro sino entre En este problema de optimización, la restricción no interviene directamente, sino que actúa a través de la esperanza de la variable aleatoria, que se trata de una esperanza condicional. La condición de primer orden es: [ ] ∂ECM = −2 E y f − yˆ f = 0 ∂yˆ f que puede expresarse como: y yˆ E f = E f Ω Ω T T Esta condición implica que el Predictor, para minimizar el error cuadrático medio, deberá ser tal que sea insesgado4; sin embargo, en este contexto, como se puede apreciar, insesgado no se refiere as la igualdad con respecto al parámetro, sino a la coincidencia del momento absoluto de primer orden entre ambas variables aleatorias (nota al pie 2) –que tienen, sin embargo, distintos momentos de segundo orden. Se recordará que, bajo los supuestos de Gauss-Markov, el método MCC genera estimadores tales que cumplen con la condición requerida5. Se define así el predictor MCC: yˆ f = xTf bˆ donde se tiene el vector de los valores futuros de las variables explicativas y el vector de estimadores MCC. Nótese aquí que este procedimiento implica suponer que los valores futuros de los regresores del modelo es un dato, lo que significa que pueden ser impuestos en algún sentido: subyace aquí la controversial idea de la experimentación rigurosa (de ´´laboratorio´´) y control con fenómenos económicos. Se ve así: [ ] [ ] [] [ ] E yˆ f = E xTf bˆ = xTf E bˆ = xTf b = E y f (todas las esperanzas son condicionales). Por otra parte, se asume que los coeficientes hallados para el período muestral son válidos para momentos futuros, lo que implica asumir constancia estructural. Otra expresión para el predictor MCC, utilizada en la deducción de su varianza y otras propiedades, es la siguiente: yˆ f = xTf ( X T X ) −1 X T y f dos variables aleatorias, una expresión desconocida y la estimación de la misma variable. Esto tendrá consecuencias sobre la condición de primer orden, que serán debidamente señaladas. 4 Como la función ECM es estrictamente convexa para todo su dominio, la condición de primer orden es aquí una condición suficiente. Esta nueva expresión es útil para demostrar que el predictor MCC es de mínima varianza de entre los estimadores lineales insesgados6. Propiedades del Predictor MCC En esta sección se exponen algunas de las propiedades del predictor MCC. • • • El predictor MCC es insesgado (como ha sido demostrado) Bajo los supuestos de Gauss-Markov, el predictor sigue una distribución normal La varianza del predictor es: [ ][ ] Var( y f ) = E xTf (bˆ − b) (bˆ − b)T x f = xTf Σbˆbˆ xx = σ u2 xTf ( X T X )−1 x f • El predictor MCC es óptimo: Sea otro predictor lineal insesgado: [ ] y = Xb + u ~y = xT ( X T X ) −1 X T + aT y = xT bˆ + aT Xb + a T u f f f f donde a es un vector no nulo y (para la insesgadez) aTX es el vector nulo. Su varianza es: [ ] Var ( ~y f ) = xTf Σ bˆbˆ x f + a T Σ uu a = σ u2 x Tf ( X T X ) −1 x f + a T a f Var ( yˆ f ) dado que: n a a = ∑ ai f 0 T 2 1 Luego, el predictor MCC es BLUP (Best Linnear Unbiased Predictor). Predicciones Individuales y Medias Para ciertos problemas puede ser necesaria la predicción de un valor puntual; para otros problemas, la predicción del valor promedio o esperado de la variable de interés. En ambos casos, dado que se trabaja con variables aleatorias (y que el futuro es incierto), las predicciones son falibles. Por ello, para analizar su confiabilidad, se define el error de predicción, una variable aleatoria cuya expresión depende de cual de los dos casos mencionados se esté tratando, pero representa la discrepancia entre el predictor y la variable futura. 5 Este resultado es plenamente esperable, ya que las propiedades MCC bajo G-M garantizan que el primer término del ECM sea nulo y el segundo sumando sea menor que el de un amplio grupo de otros estimadores (los lineales insesgados). 6 Esta propiedad, que se demostrará rigurosamente, debería resultar intuitiva sabiendo que es heredada del estimador MCC. Para el caso de Predicciones Individuales, se define como: e f = yˆ f − y f cuya distribución, bajo los supuestos de Gauss-Markov, es: [ r e f ≈ N o ; σ e2 = σ u2 1 + x Tf ( X T X ) −1 x f { ]} Para la Predicción Media, en cambio, se tiene 7: y ~ e f = E( f x Tf ) − yˆ f r ~ e f ≈ N 0; σ ~e2 = σ u2 xTf ( X T X ) −1 x f { [ ]} Cabe señalar aquí dos cosas; en primer lugar, dado que el valor determinado del error de predicción es por definición desconocido hasta t=f, el propósito de estas propiedades es otro: determinar de qué factores depende la precisión de las predicciones realizadas. Por otro lado, la diferencia entre las varianzas de los errores de predicción es la varianza del término de perturbación estocástica del modelo. Esto se debe a que, en la predicción media ese término desaparece al tomar esperanza. Se demuestra así una idea intuitiva, que: σ e~2 ≤ σ e2 Intervalos de confianza para las predicciones A partir de los respectivos errores de predicción y sus momentos, se construyen los intervalos. En este procedimiento se utiliza la estimación de la varianza del modelo. Estandarizando al error de predicción (Normal standard) y dividiéndolo (luego de la estandarización) por el cociente entre la varianza estimada y verdadera del error de predicción se obtienen los estadísticos t: ef ≈ tn − ( k + 1) σˆ e e ~ f ≈ t n − ( K +1) σˆ ~ e donde k es el nro. de regresores del modelo original, n el nro. de elementos en la muestra, y la estimación de los errores de predicción se obtiene reemplazando la varianza del modelo por su estimación insesgada MCC en la correspondiente fórmula. De forma análoga a la construcción de cualquier intervalo de confianza, se construyen los intervalos para las predicciones individuales y medias. La expresión de ellos es la siguiente: [ ] P yˆ f − tα / 2σˆ e ≤ y f ≤ yˆ f + tα / 2σˆ e = 1 − α y C yˆ f − tα / 2σˆ ~e ≤ E f T ≤ yˆ f + tα / 2σˆ ~e = 1 − α xf Para concluir, se señalará en primer lugar que el intervalo para la predicción individual, dado que se trata ésta de una variable aleatoria, recibe una interpretación probabilística, mientras que en el segundo caso se trata de un momento, un parámetro, por lo que el intervalo recibe la interpretación usual. En segundo lugar, la precisión de las predicciones depende de la precisión de las estimaciones del modelo, un factor controlable en alguna medida, así como de la aleatoriedad del modelo, y del peso relativo de parte sistemática explicativa en el comportamiento de la variable regresando (para entender esto basta con observar las fórmulas de las varianzas). En tercer lugar, no existe ningún factor inobservable en las anteriores expresiones, por lo que los intervalos son perfectamente calculables). Por último, y como fue mostrado anteriormente, el intervalo en el segundo caso es menos amplio que en el primero. Notas de Cierre Es necesario aclarar, antes de abandonar el tema, que se ha demostrado que el predictor MCC cumple con la condición de mínimo error cuadrático medio bajo los supuestos de G-M; pero ello no implica que el predictor MCC surja del proceso de minimización. Esto sí implica que no se niega la existencia de otros posibles buenos o mejores predictores de entre el grupo de los no lineales y consistentes, por ejemplo (ver nota al pie 5). Además, incluso el predictor MCC dejará de cumplir esta condición frente a ciertas violaciones en los supuestos de G-M, como el caso de autocorrelación. 7 La deducción de la distribución de los errores de predicción requiere sólo recordar que la transformación lineal y afín de una V.A: normal es otra normal, así como la definición de varianza en notación matricial. Finalmente, el desarrollo en estas notas ha seguido, como la mayor parte de la bibliografía, el enfoque de series de tiempo. Es en este enfoque donde la medición del error de predicción es innecesaria (e imposible hasta t = f), sólo basta conocer su distribución para poder estimar su varianza y construir los intervalos. Sin embargo, el método de predicción es también utilizable para modelos de corte transversal. En estos modelos, el cálculo de predicción es idéntico, aunque cambia notablemente la interpretación: se predicen valores de variables en subconjuntos contemporáneos al muestreo pero de distinta ubicación espacial. Es decir, se utiliza el modelo estimado en una región, por ejemplo, para sacar conclusiones acerca de la situación en otras regiones. Aquí, el supuesto equivalente es el de la constacia espacial de estructura (la relación obtenida para un sector se mantiene para otros sectores). Referencias: • • • • • Alfonso Novales Cinca, ´´Econometría´´, segunda edición. Walter Enders, ´´Applied Econometric Time Series´´ Marcia Shafgans, ´´Handout 4: Hypothesis Testing´´, para el curso Principles of Econometrics de la LSE Jan Kmenta, ´´Elementos de Econometría´´, Cap.6 Notas de clase