ANÁLISIS DE ERRORES DE ESTIMACIÓN. VARIANZA DEL ERROR DE ESTIMACIÓN Guión de exposición en clase ANÁLISIS DE ERRORES DE ESTIMACIÓN / PREVISIÓN Dos ideas centrales: Un modelo que no es capaz de reproducir la realidad analizada en la muestra de análisis no servirá como herramienta para entender el funcionamiento de esa realidad y mucho menos para realizar simulaciones/predicciones para elementos extramuestrales. El análisis de errores no sólo es imprescindible como estándar de validación de un modelo sino además es una pieza clave en la evaluación de un modelo en tanto que ayuda a evaluar la calidad de la especificación y sirve de base para localizar vías de mejora. 1.- Análisis Gráfico (es central, aunque pueda parecer que es menos importante que el análisis numérico) - Gráfico de la secuencia de residuos: o o o - Gráfico temporal (exclusivo en modelos temporales, útil en menor medida en modelos transversales al no disponerse de un orden natural en las observaciones): o - Zonas de sobreestimación, subestimación Detección de atípicos (bandas de confianza al 95%) Puntuales Zonales Regulares con patrones que ayuden a entender errores de especificación (por ejemplo, un modelo de previsión de consumo energético que se equivocara sistemáticamente todos los domingos) Patrones de heterocedasticidad (ordenando previamente las observaciones conforme a alguna de las variables exógenas) Detección de patrones temporales / transversales (ordenados) Autocorrelación (señal de un modelo sub-especificado) Cambio estructural Gráfico SCAT Residuo frente a Y estimada, un regresor X, una variable omitida o o o OJO: No puede hacerse del residuo frente a la Y real porque podría haber correlación mientras que no la hay entre el residuo y la estimación Podría sugerir formas funcionales incorrectas respecto a la variable exógena Podría sugerir problemas de heterocedasticidad - Histograma: o Permite verificar la normalidad del residuo 2.- Análisis Numéricos o Distintos tipos de medidas: o o o Error cuadrático medio, mínimo y máximo Porcentaje medio de error absoluto Depende del modo de medición de la endógena: Para variables en niveles: Error cuadrático medio Porcentaje medio de error absoluto Para variables en porcentaje o ratio: Error absoluto promedio (si utilizamos errores en porcentaje para variables en porcentajes o ratios, dado que estos porcentajes o ratios pueden tomar valores muy pequeños, incluso cero, podemos encontrarnos con que al dividir los errores entre esos valores obtenemos ratios casi infinitos) Para variables en logaritmos: Ojo con el cálculo del error en niveles a partir de un modelo estimado en logaritmos (pg. 208 Wooldridge) 3.- Cálculo de errores en Eviews: Utilizar función “Forecast”: o Raíz del Error Cuadrático Medio o Error absoluto promedio o Porcentaje Medio de Error Absoluto (PMEA): OJO: ya está en %, no en tantos por uno, es decir, un 0,24 en E-Views significa un 0,24% o U-Theil: Expresiones: (esto no es U2 sino sólo U) Valores: U: Cero es el valor de máxima igualdad, 1 es el valor de máxima desigualdad UM=Cero es el valor de máxima igualdad de medias, la desigualdad fluctúa entre -1 y 1 US=Cero es el valor de máxima igualdad de medias, la desigualdad fluctúa entre -1 y 1 UC=Cero es el valor de máxima igualdad de medias, 1 es el valor de desigualdad máxima (coeficiente de correlación igual a -1 entre real y etsimada). Para un coeficente real/estimada nulo, Uc toma el valor de 0,7. Se cumple que U2=U2M+ U2S+ U2C, de modo que pueden calcularse los % de cada “fuente” de error: son los que muestra el E-Views Interpretación: Los valores deben evaluarse en términos relativos, comparando los valores y/o su mejora para distintos modelos o distintas especificaciones de un mismo modelo OJO: Este tipo de cálculos tienen más sentido, en términos relativos, para observar el error en tramos de muestra NO SI SE REALIZAN PARA LA MUESTRA COMPLETA, dado que el método MCO garantiza medias iguales para la muestra completa. Ejemplo: realizar ejemplo analizando los errores del modelo SALARIO1, EDAD: Realizar estimación, evaluar el error (bajo), y observar cómo, al igual que ocurre en cualquier modelo estimados para la muestra completa, la fuente de la desigualdad es la covarianza Ordenar el modelo por edades y realizar un “forecast” para los 25 individuos más mayores (75-100). Observar cómo el error crece y cómo para estos individuos se produce error en sesgo (media). Retomar el gráfico “residual, fitted” y observar que efectivamente, la no linealidad genera una sobreestimación del salario real Estimar el modelo con la edad al cuadrado (edad2) y comparar los errores con el originial. Comparar esta estimación no lineal “cuadrática” con la estimación “logarítmica” para tratar de decidir cuál de las dos aproximaciones no lineales resulta más convincente en términos de errores. VARIANZA DEL ERROR DE ESTIMACIÓN / PREVISIÓN Cuando damos un pronóstico, normalmente no se ofrece un solo valor puntual, sino un intervalo en que creemos variará la predicción. Por tanto, junto al valor pronosticado debemos ser capaces de ofrecer también el error asociado a ese pronóstico; una vez que dispongamos de ese error, podremos computar el intervalo partiendo de una determinada función de distribución del mismo. Antes de continuar, es necesario distinguir dos tipos de previsiones: a. Previsión para la media de Y (conjunto de individuos, empresas, años,….) condicionada a unos determinados valores de las exógenas b. Previsión puntual de Y (un individuo concreto, una empresa, un año específico,…) condicionada a unos determinados valores de las exógenas El valor de la previsión se obtiene siempre, en uno y otro caso, del mismo modo, sustituyendo las exógenas previstas en la expresión de la ecuación, pero el error de previsión no es el mismo en cada una de las dos situaciones. La razón es intuitivamente fácil de comprender. Cuando realizamos una previsión, tenemos varias fuentes de error: 1. El error debido a la estimación de los parámetros en una porción (muestra) de la población (conectado con V(b)) 2. El error debido a los factores inobservables, explícitamente reconocidos en el modelo (U) 3. El error debido a los valores previstos para las exógenas Dejando a un lado el tercero de los aspectos, la diferencia entre una previsión media y puntual es clara. En ambos casos, el error debido a la imprecisión por la estimación de los parámetros en una muestra es inevitable (usamos en cualquier caso la misma estimación para realizar la previsión), pero en el caso de la previsión de la media de Y, podemos asumir que, en media, el valor del los errores no observados (U) será nulo para el conjunto de individuos, años, empresas, etc, considerados. Sin embargo, si realizamos una predicción puntual, el error puntual (U) puede ser NO nulo, por lo que en este segundo caso, aparece una segunda fuente de error conectada con la varianza del error no observable a priori. Aunque no entraremos en la derivación de las expresiones de cálculo, podemos observar y comparar ambas expresiones (error puntual y medio) para entender lo anterior: Expresiones para el cálculo de la varianza del error para un modelo con una única variable exógena: - Varianza del error medio: - Varianza del error puntual: 1.- Respecto a su interpretación, debemos notar que la varianza del error, en uno y otro caso, depende de: - La precisión en la estimación de los parámetros, que a su vez viene definida por: o o o - El nivel de error global del modelo, representado por SIGMA El tamaño muestral (n): a mayor tamaño muestral, menor dispersión en el pronóstico La dispersión de la/s exógena/s: para una mayor dispersión de las exógenas (información contenida en ellas), más precisión en la estimación de los parámetros. El alejamiento del valor previsto para la X respecto al valor medio: la recta de regresión sirve tanto mejor para estimar 2.- Adicionalmente, debemos observar que en el caso del error puntual, este se incrementa, respecto al error medio en una cuantía 2, es decir, en función de la dispersión del error, dado que no podemos asumir que, puntualmente, el error (U) será nulo (esto sólo puede asumirse en media). Este error adicional no depende del tamaño de la población: es decir, mientras que en el caso de la previsión media, el término 2 queda multiplicado por un factor 1/n que, para muestras grandes, implica una aportación de error pequeña, para el caso de la predicción puntual se añade, neto, un nuevo término término 2. 3.- Por último, cuando se incluye más de una exógena, no hablamos ya de valor previsto para “la X” sino de “vector de valores de las exógenas” y, de mismo, modo, aparece no sólo la Varianza de “la X” sino la matriz completa de información de varianzas y covarianzas. La expresión del error de cálculo (conocida como Predictor) es ahora (para una predicción puntual y media) : 3.- Respecto a su uso, puede demostrarse que el error de predicción estandarizado sigue en ambos casos una distribución “tn-k” cuando se sustituye el valor de Sigma por su estimador: de modo que podemos realizar intervalos de confianza con sencillez usando sumando al valor previsto el término +/- tα/2 DT(ep). Esto nos permite añadir a la previsión, no sólo valores extremos (intervalos) sino también un nivel de confianza para ese intervalo. 5.- ¿Cómo se calcula este error?. - El cálculo es evidente, debe recordarse únicamente que para sigma SI debe usarse el estimador insesgado de la varianza de la perturbación aleatoria. Ver Wooldridge (pg. 203) para un método alternativo basado en la desviación típica del término independiente de un modelo transformado. Ejemplos numéricos: - - Utilizar un ejemplo sencillo fuera de E-Views para la expresión “univariante”. No es necesario ejemplificar el cálculo manual para modelos multivariables. Basta con retomar cualquier ejemplo de E-Views y mostrar que, además de la previsión, guarda la DT (SE) de la previsión, es decir, la DT (SE) del error de predicción que puede usarse con normalidad para establecer intervalos de confianza. Si se ejemplifica el cálculo en Excel, recordar que la función de distribución t inversa devuelve el valor a dos colas (no a una) para un determinado nivel de significación (por tanto, si se desea el intervalo al 95% debe escribirse un épsilon de 0,05, y no de, 0,025). Aun queda algo más que decir sobre las fuentes de error, en concreto, el asunto de los errores en la predicción de las exógenas: no conocemos a futuro los valores de las exógenas. - - En ocasiones (las menos) sí conocemos el valor de las exógenas porque NOSOSTROS decidimos ese valor: por ejemplo un modelo de ventas en función de nuestro MKT-MIX En general algunas de las exógenas no podemos controlarlas por lo que debemos ser conscientes de que el error de predicción calculado ESTÁ CONDICIONADO AL VALOR PREVISTO DE LAS EXÓGENAS - Esto pone de manifiesto la necesidad de establecer “alternativas”, escenarios, a la hora de hacer predicción: insistir en la idea de que los modelos econométricos estructurales no hacen PREDICCIÓN, sino SIMULACIÓN a futuro (simulación implica generar escenarios y probabilidades). Mostrar quizá ejemplos de modelos de simulación reales o alguna transparencia de mi curso en Paris Dauphine sobre “Simulation Models” respecto a cómo se realizan estos modelos.