ANÁLISIS DE ERRORES DE ESTIMACIÓN. VARIANZA DEL

Anuncio
ANÁLISIS DE ERRORES DE ESTIMACIÓN. VARIANZA DEL ERROR DE
ESTIMACIÓN
Guión de exposición en clase
ANÁLISIS DE ERRORES DE ESTIMACIÓN / PREVISIÓN
Dos ideas centrales:

Un modelo que no es capaz de reproducir la realidad analizada en la muestra de
análisis no servirá como herramienta para entender el funcionamiento de esa realidad
y mucho menos para realizar simulaciones/predicciones para elementos
extramuestrales.

El análisis de errores no sólo es imprescindible como estándar de validación de un
modelo sino además es una pieza clave en la evaluación de un modelo en tanto que
ayuda a evaluar la calidad de la especificación y sirve de base para localizar vías de
mejora.
1.- Análisis Gráfico (es central, aunque pueda parecer que es menos importante que el análisis
numérico)
-
Gráfico de la secuencia de residuos:
o
o
o
-
Gráfico temporal (exclusivo en modelos temporales, útil en menor medida en modelos
transversales al no disponerse de un orden natural en las observaciones):
o
-
Zonas de sobreestimación, subestimación
Detección de atípicos (bandas de confianza al 95%)
 Puntuales
 Zonales
 Regulares con patrones que ayuden a entender errores de
especificación (por ejemplo, un modelo de previsión de consumo
energético que se equivocara sistemáticamente todos los domingos)
Patrones de heterocedasticidad (ordenando previamente las observaciones
conforme a alguna de las variables exógenas)
Detección de patrones temporales / transversales (ordenados)
 Autocorrelación (señal de un modelo sub-especificado)
 Cambio estructural
Gráfico SCAT Residuo frente a Y estimada, un regresor X, una variable omitida
o
o
o
OJO: No puede hacerse del residuo frente a la Y real porque podría haber
correlación mientras que no la hay entre el residuo y la estimación
Podría sugerir formas funcionales incorrectas respecto a la variable exógena
Podría sugerir problemas de heterocedasticidad
-
Histograma:
o
Permite verificar la normalidad del residuo
2.- Análisis Numéricos
o
Distintos tipos de medidas:


o
o
o
Error cuadrático medio, mínimo y máximo
Porcentaje medio de error absoluto
Depende del modo de medición de la endógena:
 Para variables en niveles:
 Error cuadrático medio
 Porcentaje medio de error absoluto
Para variables en porcentaje o ratio:
 Error absoluto promedio (si utilizamos errores en porcentaje para
variables en porcentajes o ratios, dado que estos porcentajes o ratios
pueden tomar valores muy pequeños, incluso cero, podemos
encontrarnos con que al dividir los errores entre esos valores
obtenemos ratios casi infinitos)
Para variables en logaritmos:
 Ojo con el cálculo del error en niveles a partir de un modelo estimado
en logaritmos (pg. 208 Wooldridge)
3.- Cálculo de errores en Eviews:

Utilizar función “Forecast”:
o Raíz del Error Cuadrático Medio
o Error absoluto promedio
o Porcentaje Medio de Error Absoluto (PMEA): OJO: ya está en %, no en
tantos por uno, es decir, un 0,24 en E-Views significa un 0,24%
o U-Theil:
 Expresiones:

(esto no es U2 sino sólo U)




Valores:
 U: Cero es el valor de máxima igualdad, 1 es el valor
de máxima desigualdad
 UM=Cero es el valor de máxima igualdad de medias, la
desigualdad fluctúa entre -1 y 1
 US=Cero es el valor de máxima igualdad de medias, la
desigualdad fluctúa entre -1 y 1



UC=Cero es el valor de máxima igualdad de medias, 1
es el valor de desigualdad máxima (coeficiente de
correlación igual a -1 entre real y etsimada). Para un
coeficente real/estimada nulo, Uc toma el valor de
0,7.
Se cumple que U2=U2M+ U2S+ U2C, de modo que pueden
calcularse los % de cada “fuente” de error: son los que
muestra el E-Views
Interpretación:
 Los valores deben evaluarse en términos relativos,
comparando los valores y/o su mejora para distintos
modelos o distintas especificaciones de un mismo
modelo
 OJO: Este tipo de cálculos tienen más sentido, en
términos relativos, para observar el error en tramos
de muestra NO SI SE REALIZAN PARA LA MUESTRA
COMPLETA, dado que el método MCO garantiza
medias iguales para la muestra completa.
Ejemplo: realizar ejemplo analizando los errores del modelo SALARIO1, EDAD:




Realizar estimación, evaluar el error (bajo), y observar cómo, al igual que
ocurre en cualquier modelo estimados para la muestra completa, la fuente de
la desigualdad es la covarianza
Ordenar el modelo por edades y realizar un “forecast” para los 25 individuos
más mayores (75-100). Observar cómo el error crece y cómo para estos
individuos se produce error en sesgo (media). Retomar el gráfico “residual,
fitted” y observar que efectivamente, la no linealidad genera una sobreestimación del salario real
Estimar el modelo con la edad al cuadrado (edad2) y comparar los errores con
el originial.
Comparar esta estimación no lineal “cuadrática” con la estimación
“logarítmica” para tratar de decidir cuál de las dos aproximaciones no lineales
resulta más convincente en términos de errores.
VARIANZA DEL ERROR DE ESTIMACIÓN / PREVISIÓN
Cuando damos un pronóstico, normalmente no se ofrece un solo valor puntual, sino un
intervalo en que creemos variará la predicción. Por tanto, junto al valor pronosticado debemos
ser capaces de ofrecer también el error asociado a ese pronóstico; una vez que dispongamos
de ese error, podremos computar el intervalo partiendo de una determinada función de
distribución del mismo.
Antes de continuar, es necesario distinguir dos tipos de previsiones:
a. Previsión para la media de Y (conjunto de individuos, empresas, años,….)
condicionada a unos determinados valores de las exógenas
b. Previsión puntual de Y (un individuo concreto, una empresa, un año específico,…)
condicionada a unos determinados valores de las exógenas
El valor de la previsión se obtiene siempre, en uno y otro caso, del mismo modo,
sustituyendo las exógenas previstas en la expresión de la ecuación, pero el error de previsión
no es el mismo en cada una de las dos situaciones. La razón es intuitivamente fácil de
comprender. Cuando realizamos una previsión, tenemos varias fuentes de error:
1. El error debido a la estimación de los parámetros en una porción (muestra) de la
población (conectado con V(b))
2. El error debido a los factores inobservables, explícitamente reconocidos en el modelo
(U)
3. El error debido a los valores previstos para las exógenas
Dejando a un lado el tercero de los aspectos, la diferencia entre una previsión media y
puntual es clara. En ambos casos, el error debido a la imprecisión por la estimación de los
parámetros en una muestra es inevitable (usamos en cualquier caso la misma estimación para
realizar la previsión), pero en el caso de la previsión de la media de Y, podemos asumir que, en
media, el valor del los errores no observados (U) será nulo para el conjunto de individuos,
años, empresas, etc, considerados. Sin embargo, si realizamos una predicción puntual, el error
puntual (U) puede ser NO nulo, por lo que en este segundo caso, aparece una segunda fuente
de error conectada con la varianza del error no observable a priori.
Aunque no entraremos en la derivación de las expresiones de cálculo, podemos
observar y comparar ambas expresiones (error puntual y medio) para entender lo anterior:
Expresiones para el cálculo de la varianza del error para un modelo con una única
variable exógena:
-
Varianza del error medio:
-
Varianza del error puntual:
1.- Respecto a su interpretación, debemos notar que la varianza del error, en uno y otro caso,
depende de:
-
La precisión en la estimación de los parámetros, que a su vez viene definida por:
o
o
o
-
El nivel de error global del modelo, representado por SIGMA
El tamaño muestral (n): a mayor tamaño muestral, menor dispersión en el
pronóstico
La dispersión de la/s exógena/s: para una mayor dispersión de las exógenas
(información contenida en ellas), más precisión en la estimación de los
parámetros.
El alejamiento del valor previsto para la X respecto al valor medio: la recta de
regresión sirve tanto mejor para estimar
2.- Adicionalmente, debemos observar que en el caso del error puntual, este se incrementa,
respecto al error medio en una cuantía 2, es decir, en función de la dispersión del error, dado
que no podemos asumir que, puntualmente, el error (U) será nulo (esto sólo puede asumirse
en media). Este error adicional no depende del tamaño de la población: es decir, mientras que
en el caso de la previsión media, el término 2 queda multiplicado por un factor 1/n que, para
muestras grandes, implica una aportación de error pequeña, para el caso de la predicción
puntual se añade, neto, un nuevo término término 2.
3.- Por último, cuando se incluye más de una exógena, no hablamos ya de valor previsto para
“la X” sino de “vector de valores de las exógenas” y, de mismo, modo, aparece no sólo la
Varianza de “la X” sino la matriz completa de información de varianzas y covarianzas. La
expresión del error de cálculo (conocida como Predictor) es ahora (para una predicción
puntual y media) :
3.- Respecto a su uso, puede demostrarse que el error de predicción estandarizado sigue en
ambos casos una distribución “tn-k” cuando se sustituye el valor de Sigma por su estimador:
de modo que podemos realizar intervalos de confianza con sencillez usando sumando al valor
previsto el término +/- tα/2 DT(ep). Esto nos permite añadir a la previsión, no sólo valores
extremos (intervalos) sino también un nivel de confianza para ese intervalo.
5.- ¿Cómo se calcula este error?.
-
El cálculo es evidente, debe recordarse únicamente que para sigma SI debe usarse
el estimador insesgado de la varianza de la perturbación aleatoria.
Ver Wooldridge (pg. 203) para un método alternativo basado en la desviación
típica del término independiente de un modelo transformado.
Ejemplos numéricos:
-
-
Utilizar un ejemplo sencillo fuera de E-Views para la expresión “univariante”.
No es necesario ejemplificar el cálculo manual para modelos multivariables. Basta
con retomar cualquier ejemplo de E-Views y mostrar que, además de la previsión,
guarda la DT (SE) de la previsión, es decir, la DT (SE) del error de predicción que
puede usarse con normalidad para establecer intervalos de confianza.
Si se ejemplifica el cálculo en Excel, recordar que la función de distribución t
inversa devuelve el valor a dos colas (no a una) para un determinado nivel de
significación (por tanto, si se desea el intervalo al 95% debe escribirse un épsilon
de 0,05, y no de, 0,025).
Aun queda algo más que decir sobre las fuentes de error, en concreto, el asunto de los
errores en la predicción de las exógenas: no conocemos a futuro los valores de las exógenas.
-
-
En ocasiones (las menos) sí conocemos el valor de las exógenas porque
NOSOSTROS decidimos ese valor: por ejemplo un modelo de ventas en función de
nuestro MKT-MIX
En general algunas de las exógenas no podemos controlarlas por lo que debemos
ser conscientes de que el error de predicción calculado ESTÁ CONDICIONADO AL
VALOR PREVISTO DE LAS EXÓGENAS
-
Esto pone de manifiesto la necesidad de establecer “alternativas”, escenarios, a la
hora de hacer predicción: insistir en la idea de que los modelos econométricos
estructurales no hacen PREDICCIÓN, sino SIMULACIÓN a futuro (simulación implica
generar escenarios y probabilidades). Mostrar quizá ejemplos de modelos de
simulación reales o alguna transparencia de mi curso en Paris Dauphine sobre
“Simulation Models” respecto a cómo se realizan estos modelos.
Descargar