Predicciones MCC 02

Anuncio
Predicciones MCC
Alejandro Francetich
Predicciones MCC
Introducción
El propósito de este trabajo es presentar algunas notas sobre predicciones en
econometría clásica, de carácter preliminar y complementario (no sustitutivo) al
tratamiento que el tema recibe en la bibliografía. Junto con algunas definiciones y
comentarios, se hará hincapié en la demostración de algunas propiedades
importantes.
Necesidad de la predicción
Los modelos econométricos tienen un importante uso en proveer evidencia
empírica acerca de las teorías económicas que subyacen a su especificación. Por
otro lado, tienen también cierto poder explicativo sobre los fenómenos que se
analizan además de su utilidad como guía de acción a través de la inferencia.
Finalmente, es notable su aplicación a la predicción de valores de una variable
determinada1 (agregados macroeconómicos, por ejemplo); esto último implica la
posibilidad de generar recomendaciones de política económica, cuando (alguno de)
los regresores son variables de control –no se analizará aquí la importancia de la
predicción como requisito epistemológico para la cientificidad de una disciplina.
Criterio de Predicción
El criterio que se sigue para obtener predicciones a partir de un modelo es el
de minimizar el error cuadrático medio (ECM). Como el modelo del que se dispone
es función de una muestra determinada es una variable aleatoria; así, recibe el
nombre de Predictor, y el valor determinado que toma a partir de la muestra con la
que se trabaja es la Predicción2. Por lo tanto, se desea obtener el predictor que
minimice el error cuadrático medio, que se define como:
[
E y f − yˆ f
]
2
donde yf es el verdadera variable aleatoria, el valor futuro de la variable de interés (f
proviene de forecast), e yˆf es la variable generada por la estimación3. La
estimación de la variable aleatoria se basa en un conjunto de información muestral,
que contiene datos hasta el momento T (llamado OT). Luego,
{[
Min E y f − yˆ f
]}
2
S .A : ΩT
1
Se hará caso omiso de la crítica de Keynes a la estimación de modelos, para quien sólo tienen uso
como instrumento de pensamiento.
2
De manera análoga a la distinción entre estimador y estimación.
3
Nótese que, a diferencia de la definición del error cuadrático medio utilizada en los cursos de
estadística, aquí no se trata de la diferencia entre una variable aleatoria y un parámetro sino entre
En este problema de optimización, la restricción no interviene directamente,
sino que actúa a través de la esperanza de la variable aleatoria, que se trata de una
esperanza condicional. La condición de primer orden es:
[
]
∂ECM
= −2 E y f − yˆ f = 0
∂yˆ f
que puede expresarse como:
y

 yˆ

E f
= E f


Ω
Ω
T
T 


Esta condición implica que el Predictor, para minimizar el error cuadrático
medio, deberá ser tal que sea insesgado4; sin embargo, en este contexto, como se
puede apreciar, insesgado no se refiere as la igualdad con respecto al parámetro,
sino a la coincidencia del momento absoluto de primer orden entre ambas variables
aleatorias (nota al pie 2) –que tienen, sin embargo, distintos momentos de segundo
orden. Se recordará que, bajo los supuestos de Gauss-Markov, el método MCC
genera estimadores tales que cumplen con la condición requerida5. Se define así el
predictor MCC:
yˆ f = xTf bˆ
donde se tiene el vector de los valores futuros de las variables explicativas y el
vector de estimadores MCC. Nótese aquí que este procedimiento implica suponer
que los valores futuros de los regresores del modelo es un dato, lo que significa que
pueden ser impuestos en algún sentido: subyace aquí la controversial idea de la
experimentación rigurosa (de ´´laboratorio´´) y control con fenómenos económicos.
Se ve así:
[ ]
[ ]
[]
[ ]
E yˆ f = E xTf bˆ = xTf E bˆ = xTf b = E y f
(todas las esperanzas son condicionales). Por otra parte, se asume que los
coeficientes hallados para el período muestral son válidos para momentos futuros, lo
que implica asumir constancia estructural.
Otra expresión para el predictor MCC, utilizada en la deducción de su
varianza y otras propiedades, es la siguiente:
yˆ f = xTf ( X T X ) −1 X T y f
dos variables aleatorias, una expresión desconocida y la estimación de la misma variable. Esto
tendrá consecuencias sobre la condición de primer orden, que serán debidamente señaladas.
4
Como la función ECM es estrictamente convexa para todo su dominio, la condición de primer orden
es aquí una condición suficiente.
Esta nueva expresión es útil para demostrar que el predictor MCC es de
mínima varianza de entre los estimadores lineales insesgados6.
Propiedades del Predictor MCC
En esta sección se exponen algunas de las propiedades del predictor MCC.
•
•
•
El predictor MCC es insesgado (como ha sido demostrado)
Bajo los supuestos de Gauss-Markov, el predictor sigue una distribución
normal
La varianza del predictor es:
[
][
]
Var( y f ) = E xTf (bˆ − b) (bˆ − b)T x f = xTf Σbˆbˆ xx = σ u2 xTf ( X T X )−1 x f
•
El predictor MCC es óptimo:
Sea otro predictor lineal insesgado:
[
]
y = Xb + u
~y = xT ( X T X ) −1 X T + aT y = xT bˆ + aT Xb + a T u
f
f
f
f
donde a es un vector no nulo y (para la insesgadez) aTX es el vector nulo. Su
varianza es:
[
]
Var ( ~y f ) = xTf Σ bˆbˆ x f + a T Σ uu a = σ u2 x Tf ( X T X ) −1 x f + a T a f Var ( yˆ f )
dado que:
n
a a = ∑ ai f 0
T
2
1
Luego, el predictor MCC es BLUP (Best Linnear Unbiased Predictor).
Predicciones Individuales y Medias
Para ciertos problemas puede ser necesaria la predicción de un valor puntual;
para otros problemas, la predicción del valor promedio o esperado de la variable de
interés. En ambos casos, dado que se trabaja con variables aleatorias (y que el
futuro es incierto), las predicciones son falibles. Por ello, para analizar su
confiabilidad, se define el error de predicción, una variable aleatoria cuya expresión
depende de cual de los dos casos mencionados se esté tratando, pero representa la
discrepancia entre el predictor y la variable futura.
5
Este resultado es plenamente esperable, ya que las propiedades MCC bajo G-M garantizan que el
primer término del ECM sea nulo y el segundo sumando sea menor que el de un amplio grupo de
otros estimadores (los lineales insesgados).
6
Esta propiedad, que se demostrará rigurosamente, debería resultar intuitiva sabiendo que es
heredada del estimador MCC.
Para el caso de Predicciones Individuales, se define como:
e f = yˆ f − y f
cuya distribución, bajo los supuestos de Gauss-Markov, es:
[
r
e f ≈ N o ; σ e2 = σ u2 1 + x Tf ( X T X ) −1 x f
{
]}
Para la Predicción Media, en cambio, se tiene 7:
y
~
e f = E( f
x Tf
) − yˆ f
r
~
e f ≈ N 0; σ ~e2 = σ u2 xTf ( X T X ) −1 x f
{
[
]}
Cabe señalar aquí dos cosas; en primer lugar, dado que el valor determinado
del error de predicción es por definición desconocido hasta t=f, el propósito de estas
propiedades es otro: determinar de qué factores depende la precisión de las
predicciones realizadas. Por otro lado, la diferencia entre las varianzas de los
errores de predicción es la varianza del término de perturbación estocástica del
modelo. Esto se debe a que, en la predicción media ese término desaparece al
tomar esperanza. Se demuestra así una idea intuitiva, que:
σ e~2 ≤ σ e2
Intervalos de confianza para las predicciones
A partir de los respectivos errores de predicción y sus momentos, se
construyen los intervalos. En este procedimiento se utiliza la estimación de la
varianza del modelo. Estandarizando al error de predicción (Normal standard) y
dividiéndolo (luego de la estandarización) por el cociente entre la varianza estimada
y verdadera del error de predicción se obtienen los estadísticos t:
 ef 
  ≈ tn − ( k + 1)
 σˆ 
 e
e 
~
 f  ≈ t n − ( K +1)
 σˆ ~ 
 e
donde k es el nro. de regresores del modelo original, n el nro. de elementos en la
muestra, y la estimación de los errores de predicción se obtiene reemplazando la
varianza del modelo por su estimación insesgada MCC en la correspondiente
fórmula.
De forma análoga a la construcción de cualquier intervalo de confianza, se
construyen los intervalos para las predicciones individuales y medias. La expresión
de ellos es la siguiente:
[
]
P yˆ f − tα / 2σˆ e ≤ y f ≤ yˆ f + tα / 2σˆ e = 1 − α


y

C  yˆ f − tα / 2σˆ ~e ≤ E f T  ≤ yˆ f + tα / 2σˆ ~e  = 1 − α
 xf 


Para concluir, se señalará en primer lugar que el intervalo para la predicción
individual, dado que se trata ésta de una variable aleatoria, recibe una interpretación
probabilística, mientras que en el segundo caso se trata de un momento, un
parámetro, por lo que el intervalo recibe la interpretación usual. En segundo lugar, la
precisión de las predicciones depende de la precisión de las estimaciones del
modelo, un factor controlable en alguna medida, así como de la aleatoriedad del
modelo, y del peso relativo de parte sistemática explicativa en el comportamiento de
la variable regresando (para entender esto basta con observar las fórmulas de las
varianzas). En tercer lugar, no existe ningún factor inobservable en las anteriores
expresiones, por lo que los intervalos son perfectamente calculables). Por último, y
como fue mostrado anteriormente, el intervalo en el segundo caso es menos amplio
que en el primero.
Notas de Cierre
Es necesario aclarar, antes de abandonar el tema, que se ha demostrado que
el predictor MCC cumple con la condición de mínimo error cuadrático medio bajo los
supuestos de G-M; pero ello no implica que el predictor MCC surja del proceso de
minimización. Esto sí implica que no se niega la existencia de otros posibles buenos
o mejores predictores de entre el grupo de los no lineales y consistentes, por
ejemplo (ver nota al pie 5). Además, incluso el predictor MCC dejará de cumplir esta
condición frente a ciertas violaciones en los supuestos de G-M, como el caso de
autocorrelación.
7
La deducción de la distribución de los errores de predicción requiere sólo recordar que la
transformación lineal y afín de una V.A: normal es otra normal, así como la definición de varianza en
notación matricial.
Finalmente, el desarrollo en estas notas ha seguido, como la mayor parte de
la bibliografía, el enfoque de series de tiempo. Es en este enfoque donde la
medición del error de predicción es innecesaria (e imposible hasta t = f), sólo basta
conocer su distribución para poder estimar su varianza y construir los intervalos. Sin
embargo, el método de predicción es también utilizable para modelos de corte
transversal. En estos modelos, el cálculo de predicción es idéntico, aunque cambia
notablemente la interpretación: se predicen valores de variables en subconjuntos
contemporáneos al muestreo pero de distinta ubicación espacial. Es decir, se utiliza
el modelo estimado en una región, por ejemplo, para sacar conclusiones acerca de
la situación en otras regiones. Aquí, el supuesto equivalente es el de la constacia
espacial de estructura (la relación obtenida para un sector se mantiene para otros
sectores).
Referencias:
•
•
•
•
•
Alfonso Novales Cinca, ´´Econometría´´, segunda edición.
Walter Enders, ´´Applied Econometric Time Series´´
Marcia Shafgans, ´´Handout 4: Hypothesis Testing´´, para el curso Principles of
Econometrics de la LSE
Jan Kmenta, ´´Elementos de Econometría´´, Cap.6
Notas de clase
Descargar