Mínimos Cuadrados Generalizados

Anuncio
Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández
MINIMOS CUADRADOS GENERALIZADOS
I
INTRODUCCION
En estos apuntes discutiremos en más detalle el modelo de regresión
múltiple en la presencia de errores no esféricos. Esto es, aquellos que violan
los supuestos de heterocedasticidad o autocorrelación.
Supondremos el modelo lineal general:
Y = Xβ
β+u
E(uX) = 0
(1)
E(uu′X)= σ2 Ω
donde Ω es una matriz positiva definida1.
Recordemos que los errores son heterocedásticos cuando tienen
distintas varianzas. Este fenómeno se da usualmente cuando trabajamos con
datos de corte transversal. Por ejemplo, consideremos la rentabilidad
promedio de un conjunto de empresas en un momento del tiempo. La escala
de la variable dependiente y el valor explicativo del modelo tiende a variar
entre las distintas observaciones, aún si controlamos por factores tales como el
tamaño de la firma. En efecto, la varianza de la rentabilidad podría depender
del grado de diversificación de la producción y de factores típicos de cada
industria, los cuales varían entre empresas de similar tamaño.
En la ausencia de autocorrelación, la matriz varianza-covarianza de los
errores tomaría la forma:
 σ12

 0
E(uu ' | X ) = σ 2 Ω = 
 ...
 0

0
σ 22
...
0
0 

0 

... ... 
... σ 2n 
...
...
La autocorrelación se encuentra usualmente en datos de series de
tiempo. Se dice que éstos tienen ‘memoria’ porque la variación de la regresión
no es independiente de un período a otro. Por ejemplo, en el caso de los
1
Condicionamos en los valores de las X’s porque éstas puedan ser variables aleatorias.
Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández
2
precios ajustados estacionalmente, la observación en t depende típicamente de
lo observado en el pasado. Las series de tiempo son generalmente
homocedásticas, de modo que la matriz varianza-covarianza de los errores
toma la forma:
ρ1
 1

1
 ρ1
E(uu ' | X ) = σ 2 Ω = σ 2 
...
...

 ρ n −1 ρ n −2
... ρ n −1 

... ρ n − 2 
... ... 

...
1 
En general, los valores de las correlaciones entre los errores declinan a
medida que nos movemos fuera de la diagonal. Esto es, a medida que las
observaciones están más espaciadas en el tiempo.
II
PROPIEDADES DE MICO EN MUESTRAS FINITAS
Sabemos que:
βˆ = ( X ' X ) −1 X ' Y = β + ( X ' X ) −1 X' u
(2)
Por lo tanto,
E(βˆ | X ) = β + ( X ' X ) −1 X ' E( u | X ) = β
(3)
Es decir, dado que E(uX) = 0, el estimador de mínimos cuadrados
ordinarios (MICO) es insesgado (condicional en X).
Por otra parte, la varianza de MICO viene dada por:
Var (βˆ | X) = E{(βˆ − β)(βˆ − β)' | X}
= E{( X ' X ) −1 X ' uu' X ( X' X ) −1 | X}
= E{( X ' X ) −1 X ' uu' X( X' X ) −1 | X}
= σ 2 ( X' X) −1 X' Ω X( X' X) −1
(4)
Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández
3
De ello, es claro que Var (βˆ | X) ≠ σ 2 ( X' X) −1 .
Si, además, u|X ∼ N(0, σ2 Ω ), entonces:
βˆ | X ~ N (β, σ 2 ( X' X) −1 X' Ω X( X' X) −1 )
(5)
Esto es, el estimador MICO sigue distribuyéndose normal, pero pierde
su propiedad de estimador MELI.
Es importante señalar que el estimador de σ2:
σˆ 2 =
(Y − Xβˆ )' (Y − Xβˆ )
n−k
(6)
es sesgado. Esto es, E( σ̂ 2 )≠σ2.
De lo anterior, los intervalos de confianza para β construidos en base a
σˆ 2 ( X' X) −1 serán sesgados. Primero, porque el estimador (6) es sesgado, y
segundo, porque Var (βˆ | X) = σ 2 (X' X) −1 X' Ω X( X' X) −1 .
III
MINIMOS CUADRADOS GENERALIZADOS
3.1
Conceptos Preliminares
Sabemos que la matriz Ω es simétrica. Por lo tanto, admite una
descomposición espectral:
Ω = C Λ C′
(7)
donde las columnas de C son los vectores propios de Ω , y los valores propios
de Ω están ordenados en la matriz diagonal Λ .
Dado que la matriz Ω es, además, positiva definida, todos sus valores
propios son positivos. Por lo tanto, Λ 1/2 existe y viene dada por:
Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández
Λ 1/ 2



=



λ1
0
...
0
λ2
...
...
0
...
0
...
...
4
0 

0 
... 
λ n 
Defínase la matriz P′ = C Λ−1/2. Con lo cual, Ω −1 = P′P. El modelo de
regresión transformado viene dado por:
⇔
P Y = PX β + P u
Y*=X*β
β + ε*
(8)
donde Y*=PY, X*=PX, u*=Pu.
Si la matriz Ω es conocida, entonces X* e Y* son observables.
• ¿Por qué esta transformación, en particular?
Notemos que E(u*u*′| X) = P E(uu′|X) P′
= σ2 P Ω P′
= σ2 Λ−1/2C′C Λ C′C Λ−1/2
= σ2 In
porque, dado que la matriz Ω es simétrica, C′C=I.
De lo anterior, los errores del modelo transformado satisfacen los
supuestos del modelo lineal clásico. Sabemos que, bajo dichos supuestos, el
estimador MICO es el más eficiente. Por lo tanto, el estimador de mínimos
cuadrados ordinarios aplicado al modelo transformado también lo es:
βˆ MCG = ( X * ' X * ) −1 X * ' Y *
= ( X' P' PX) −1 X' P' PY = ( X' Ω −1 X) −1 X' Ω −1 Y
(9)
Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández
5
Claramente, E( β
β̂ MCG |X*)=β
β . Ello, porque E(u*|X*)=0 ⇔ E(Pu|PX)=0
⇔E(u|X)=0, dado que P es una matriz de constantes conocidas. Además, por
el teorema de Gauss-Markov, la varianza de β
β̂ MCG es mínima dentro de la
clase de estimadores insesgados y lineales en Y*:
Var (βˆ MCG | X * ) = σ 2 ( X * ' X * ) −1 = σ 2 ( X ' Ω −1X ) −1
(10)
Si, además, asumimos que u|X ∼ N(0, σ2 Ω ), entonces β
β̂ MCG será MEI
(Mejor Estimador Insesgado), porque coincidirá con el estimador de máxima
verosimilitud de β .
3.2
Test de Hipótesis
Los test de restricciones lineales individuales se llevan a cabo con un
test t, como es habitual. En el caso general, en el cual se quiere contrastar un
conjunto de J restricciones lineales, se utiliza un test F:
H0: RJxk β kx1 = qJx1
1
F(J, n − k ) = (Rβˆ nr − q )' (σˆ 2 R ( X * ' X * ) −1 R ' ) −1 (Rβˆ nr − q )
J
(11)
=
donde
( uˆ *r ' uˆ *r
− uˆ *nr ' uˆ *nr ) / J
2
σˆ
uˆ *nr = Y * − X *βˆ nr
βˆ nr = ( X * ' X * ) −1 X * ' Y *
uˆ *nr ' uˆ *nr ( Y − Xβˆ nr )' Ω −1 ( Y − Xβˆ nr )
σˆ =
=
n−k
n−k
2
uˆ *r = Y * − X *βˆ r
βˆ r = βˆ nr − (X' Ω −1 X) −1 R ' (R ( X' Ω −1 X)R ' ) −1 (Rβˆ nr − q)
ü En resumen, todos los resultados del modelo lineal clásico para los datos
transformados se aplican, incluyendo los test de hipótesis.
Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández
6
IMPORTANTE: El coeficiente de determinación múltiple o medida de
bondad de ajuste del modelo, R2, NO tiene una contrapartida en el contexto de
mínimos cuadrados generalizados. ¿Por qué? Porque el R2 calculado por la
computadora mide la bondad del ajuste del modelo que utiliza los datos
transformados, es decir, aquel en el cual la variable dependiente es Y*. Por lo
tanto, se ha sugerido utilizar:
( Y − Xβˆ MCG )' ( Y − Xβˆ MCG )
~
R2 = 1−
n
∑ ( Yi − Y ) 2
(12)
i =1
como medida de bondad de ajuste del modelo sin transformar. Sin embargo,
~
no hay garantía de que R 2 se ubique en el intervalo [0, 1]. Por lo tanto, no es
una medida útil para comparar modelos♦
IV ESTIMACION EN LA PRESENCIA DE HETEROCEDASTICIDAD
Si la varianza del error no es constante a lo largo de las observaciones,
estamos en la presencia de heterocedasticidad:
Var ( u i ) = σ i2
i=1, 2, ..., n
(13)
Bajo el supuesto de que los errores no están correlacionados, tenemos
que:
 σ12

 0
E(uu ' ) = σ 2 Ω = 
 ...
 0

0
σ 22
...
...
 ω1 0
0 


ω2
0 
2 0
≡
σ

 ... ...
... ... 

2
... σ n 
 0 ...
...
...
0 

... 0 
... ... 

... ωn 
...
Como mencionamos, la heterocedasticidad surge principalmente en las
series de corte transversal.
Como sabemos, en la presencia de heterocedasticidad, MICO es
insesgado, pero es ineficiente en relación a MCG.
Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández
7
Ejemplo
Consideremos el siguiente modelo (sin intercepto):
Yi = βXi + ui
Var ( u i | X i ) = σ 2 X i2
 X1 


 X2 
Con ello, X = 
... 


X
 n
 X 12

 0
E(uu ' ) = σ 2 Ω = σ 2 
 ...
 0

0 

0 

... ... 
... X 2n 
0
X 22
...
...
...
...
n
Var (βˆ MICO ) = σ 2 ( X ' X ) −1 X ' ΩX ( X ' X ) −1 = σ 2
∑ X 4i
i =1
 n 2
 ∑ X i 
 i =1 
2
σ2
Var (βˆ MCG ) = σ 2 ( X ' ΩX ) −1 =
n
Por lo tanto, la ineficiencia relativa de MICO viene dada por:
n
k≡
n∑
i =1
n
X 4i
 n 2
 ∑ X i 
 i =1 
2
=
∑ X 4i
n
i =1
n 2 
 ∑ X i n 
 i=1

2
>1
Para demostrar que k>1, defínase Z i = X 2i . Entonces
Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández
n
n
k=
∑ Z 2i n
i =1
n

 ∑ Z i n 
 i=1

Pero
8
2
=
∑ Z i2
n
i =1
Z2
1 n 2 1 n
Z i = ∑ ( Z i − Z ) 2 + Z 2 . Por lo tanto,
∑
n i=1
n i=1
n
k=
4.1
∑ (Z i − Z) 2
i =1
Z
2
+ 1 > 1♦
Detección de la Heterocedasticidad
Bajo la presencia de heterocedasticidad, los estimadores MICO siguen
siendo insesgados. Por lo tanto, los residuos MICO reproducirán la
heterocedasticidad de los errores poblacionales (aunque de manera imperfecta,
debido a la varianza muestral). Por ello, los tests para detectar la presencia de
heterocedasticidad se basan en los residuos de MICO.
Los tests más conocidos para detectar la heterocedasticidad son los
siguientes:
•
•
•
•
White
Breusch-Pagan-Godfrey
Glejser
Goldfeld-Quandt
Los tres primeros test aparecen descritos en los apuntes de repaso. Por
lo tanto, sólo nos referiremos brevemente al test de Goldfeld-Quandt.
• Goldfeld-Quandt: Este test asume que las observaciones pueden ser
divididas en dos grupos de manera tal que, bajo la hipótesis nula de
homocedasticidad, las varianzas deben ser iguales en ambos grupos. Bajo
la hipótesis alternativa, en tanto, las varianzas de los errores difieren
sistemáticamente.
Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández
9
Por ejemplo, supongamos que:
H0: σ 2i = σ 2 ∀i=1, ..., n
H1: σ i2 = σ 2 X 2i
donde Xi es i-avo regresor del modelo.
Los pasos a seguir para llevar a cabo el test de Goldfeld-Quandt son los
siguientes:
1) Ordene las observaciones de acuerdo a los valores de Xi, de manera
ascendente.
2) Omita c observaciones centrales, donde c es un número escogido a priori.
(En la práctica se aconseja escoger c≈1/3 de la muestra). Las observaciones
restantes se dividen en dos grupos, cada uno con (n−c)/2 observaciones.
3) Estime el modelo de regresión para cada grupo y obtenga la suma de
cuadrados residuales (SCR) correspondiente.
4) Bajo normalidad de los errores poblacionales, se tiene que:
SCR 2
n−c
( n − c) / 2 − k
n−c

λ=
~ F
− k,
−k
SCR 1
2
 2

( n − c) / 2 − k
(14)
donde el grupo 1 tiene la varianza más pequeña.
La regla de decisión es: rechace H0 (homocedasticidad) si λ supera el
n −c
n−c

valor crítico de la distribución F (1− ε)% 
− k,
− k  , donde ε es el
2
 2

nivel de significancia.
Ejemplo
Supongamos el siguiente modelo:
Ci=β1 + β2Ii + ui
i=1, 2, ..., n
Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández
10
donde Ci = consumo corriente, I= ingreso disponible para un conjunto de n
familias.
Supongamos que se sospecha de la existencia de heterocedasticidad en
los datos. En particular, se cree que σ 2i = σ 2 I i2 . El primer paso consistiría,
entonces, en ordenar las observaciones por nivel de ingreso, de menor a
mayor. Luego omitiríamos c observaciones centrales, de modo que tendríamos
dos grupos: uno de varianza pequeña y uno de varianza grande. Por ejemplo,
si el tamaño de la muestra es 51, eliminaríamos 17 observaciones centrales.
Luego estimaríamos la ecuación de consumo para cada grupo de 17
observaciones, y calcularíamos el estadígrafo λ, según la fórmula (14)♦
4.2
Estimación vía MCG cuando Ω es Conocida
Supongamos el caso general en que Var ( u i ) = σ i2 ≡ σ 2 ωi , lo cual se
puede resumir matricialmente como sigue:
 σ12

 0
E(uu ' | X ) = σ 2 Ω = 
 ...
 0

0
σ 22
...
...
 ω1
0 


0 
2 0
 ≡ σ  ...
... ... 

... σ 2n 
 0
...
...
0
ω2
...
...
0 

... 0 
... ... 

... ω n 
...
De modo que Ω es una matriz diagonal, cuyo i-avo elemento es ωi. De
ello, la matriz Ω−1 y P vienen dadas, respectivamente, por:
Ω −1
0
1 / ω1

1 / ω2
 0
=
...
...

...
 0
0 

...
0 
...
... 

... 1 / ωn 
...
1 / ω1
0

1 / ω2
 0
P=
...
...

 0
...

 Y1 / ω1 


 Y / ω2 
Con ello, Y* = PY =  2

...


Y / ω 
n 
 n


...
0 
...
... 

... 1 / ω n 
...
 x1 ' / ω1

 x ' / ω2
X* = PX =  2
...

x ' / ω
n
 n
0







Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández
 x1 ' 
 
x '
donde X =  2 
...
 
x n '
x i ' = (1 X i 2
11
... X ik )
Si estimamos el modelo transformado por MICO, obtendremos el
estimador de MCG:
βˆ MCG = ( X * ' X * ) −1 X * ' Y * = ( X ' Ω −1X ) −1 X ' Ω −1Y
n 1

=  ∑ x i x i ' 
 i =1 ωi

−1
n 1

 ∑ x i Yi 
 i =1 ωi

(15)
En este caso, la expresión (15) recibe el nombre de estimador de
mínimos cuadrados ponderados (MCP). Ello, porque las observaciones con
varianzas más pequeñas reciben una ponderación mayor y, por lo tanto, tienen
una mayor influencia en los estimadores obtenidos.
Ejemplo
Usualmente se plantea que la varianza del error es proporcional a uno
de los regresores o a su cuadrado. Por ejemplo, en estudios sobre las ganancias
de un conjunto de empresas, se asume comúnmente que la variable
determinante de la heterocedasticidad es el tamaño de la empresa.
Sea Xk el tamaño de la empresa. Entonces, si σ i2 = σ 2 X 2ik , el modelo
corregido por heterocedasticidad sería:
Yi
X
X
u
= β k + β1 i1 + β 2 i 2 + ... + i
X ik
X ik
X ik
X ik
Si en vez la varianza es proporcional a Xk, esto es, σ i2 = σ 2 X ik , la
ponderación utilizada para cada observación es 1 / X ik ♦
Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández
4.3
12
Estimación vía MCG cuando Ω es Desconocida
Cuando la matriz Ω contiene parámetros desconocidos, se debe recurrir
a algún método de estimación para obtener estimadores de dichos parámetros.
Uno de ello se conoce como MCG en dos etapas o MCG factibles. Otro
método alternativo, a ser cubierto más adelante, consiste en plantear la función
de verosimilitud de la muestra y maximizarla con respecto a los parámetros
desconocidos. Este se conoce como el método de máxima verosimilitud.
(Generalmente, ambos métodos serán equivalentes en muestras grandes).
Describiremos brevemente MCG en dos etapas para el caso concreto de
la heterocedasticidad. Recordemos primero que el estimador MCG viene dado
por:
n 1

ˆβ

x
x
'
∑
MCG = 
i
i
 σ2

 i=1 i

−1
n 1

∑

x
Y
i
i
 σ2

 i=1 i

(16)
Por lo tanto, requerimos de un estimador de σ 2i , i=1, 2,..., n. ¿Cómo
proceder? Notemos que en la presencia de heterocedasticidad MICO sigue
siendo insesgado. Por lo tanto, podemos construir en una primera etapa un
estimador de σ 2i , en base a los residuos de MICO2:
û i2 ≈ σ 2i
(17)
donde û i = Yi − x i ' βˆ MICO .
En una segunda etapa, obtenemos el estimador de MCG factibles
(MCGF):
βˆ MCGF
2
n 1

=  ∑ 2 x i x i ' 
 i=1 û i

−1
n 1

 ∑ x i Yi 
 û 2

 i=1 i

(18)
En muestras grandes, û i ≈ u i . Por lo tanto, E( û i ) ≈ E( u i ) = σ i .
2
2
2
2
2
Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández
V
13
ESTIMACION EN LA PRESENCIA DE AUTOCORRELACION
Como señalamos en la introducción, es usual que las series de tiempo
presenten autocorrelación. En particular, las series económicas presentan
típicamente cierto grado de inercia, que lleva a que la observación
contemporánea esté correlacionada con las observaciones pasadas. Por
ejemplo, en el caso chileno, la tasa de inflación presente está relacionada con
las tasas de inflación de períodos pasados, a través del proceso de indexación.
La autocorrelación también se puede deber a un sesgo de especificación.
Por ejemplo, si se excluye accidentalmente una de las variables pertenecientes
al modelo, las perturbaciones del modelo presentarán un patrón sistemático.
Lo mismo sucederá si se plantea una forma funcional incorrecta. Por ejemplo,
se establece que la variable dependiente, Y, es una función lineal en X,
Yi=β1+β2Xi+ui, cuando en realidad es una función cuadrática en X,
Yi=β1+β2Xi+β3Xi2+ui.
Otra potencial causal de la autocorrelación es la manipulación de los
datos. En efecto, promediar, interpolar y/o extrapolar la información puede
originar un patrón sistemático en las perturbaciones.
Ejemplo
Supongamos que Xt es una variable aleatoria con esperanza 0 y varianza
σ , ∀ t=1, 2, ..., T, tal que Cov(Xt, Xs)=0, ∀ t≠s. Sea Zt una serie ajustada
estacionalmente, tal que:
2
Zt =
11
∑ ωs X t −s
s= 0
donde ωs es una ponderación mensual. De lo anterior, Cov (Zt, Zt−s) viene dada
por:
Cov (ω0 X t + ω1X t −1 + ... + ωs X t −s + ... + ω11X t −11 , ω0 X t −s + ... + ω11X t −s−11 )
=ω0 ωs σ2
para s=0, 1, ..., 11
=0
para s>11
Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández
14
Como vemos, la serie original no está correlacionada, pero sí lo está la
serie ajustada estacionalmente. En efecto, el ajuste produce una
autocorrelación de 12 períodos de duración♦
5.1
Procesos Autorregresivos y de Promedio Móvil para el Error
En series de tiempo, usualmente se asume que los errores son
homocedásticos, pero correlacionados entre observaciones. Es usual,
asimismo, suponer que la distribución de ut es estacionaria (en un sentido
débil). Ello implica que:
• El valor esperado y la varianza de ut son constantes a través del tiempo
(en este caso iguales a cero y σ2, respectivamente).
• La covarianza (o autocovarianza) entre las observaciones t y s es una
función de |t−s|, el valor absoluto de la distancia temporal entre las
observaciones. Esto es,
(19)
Cov(ut, us) = Cov(ut+s, ut)≡γs
con γ0≡σ2.
La correlación entre ut y ut−s (o autocorrelación) se define como ρs:
Corr ( u t , u t −s ) =
Cov ( u t , u t −s )
γ
γ
= s = s ≡ ρs
Var ( u t )Var ( u t −s )
γ 02 γ 0
(20)
Por lo tanto, la matriz varianza-covarianza toma la forma:
ρ1
 1

1
 ρ1
E(uu ' | X ) = γ 0  ρ 2
ρ1

...
 ...
ρ
 T −1 ρ T −2
ρ2
ρ1
1
...
ρ T −3
.... ρ T−1 

... ρ T −2 
... ρ T −3 

...
... 
...
1 
(21)
Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández
15
Distintos procesos para el error conducirán a distintos patrones de la
matriz (21). Uno de los procesos más analizados en la práctica es el proceso
autorregresivo de orden 1, AR(1):
ut = ρut−1 + εt
(22)
En general, un proceso autorregresivo de orden p, AR(p), viene dado
por:
ut = ρ1ut−1 + ρ2ut−2 +...+ρput−1 + εt
(23)
Los procesos autorregresivos tienen la característica de que la
correlación entre las observaciones cae en el tiempo, pero ésta se desvanece
sólo en términos asintóticos, esto es, cuando la distancia temporal entre las
observaciones tiende a infinito. Por ejemplo, tal como demostraremos más
adelante, para un AR(1), ρs=ρs, la cual tiende a cero sólo cuando s→∞,
siempre y cuando |ρ|<1. Por ello, se dice que los procesos autorregresivos
tienen ‘buena’ memoria.
En contraste, los procesos de promedio móvil, tiene escasa memoria.
En efecto, para un proceso MA(q):
ut = εt + θ1εt−1 + θ2εt−2+...+θqεt−q
(24)
se tiene que:
σ 2ε (θ s + θ s+1θ1 + θ s+ 2 θ 2 + ... + θ q θ q −s ) s = 1, 2,..., q

γs = 

0
s>q

donde θ0≡1. Esto es, E(utut−s) = E(ut+sut) =0, ∀ s>q.
Para el caso particular de un proceso MA(1), ut = εt + θ εt−1, se tiene:
γ 0 = Var ( u t ) = σ 2ε (1 + θ 2 ) , γ1 = Cov( u t , u t −1 ) = θσ 2ε , γs=0 para s>1.
Lo anterior asume que εt es ‘ruido blanco’: E(εt)=0, E(ε 2t ) = σ 2ε , ∀t,
E(εtεs)=0, ∀ t≠s.
Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández
5.1.1
16
Errores que siguen un AR(1)
Esta formulación es comúnmente utilizada en la literatura empírica
porque ha demostrado ser una aproximación razonable de procesos
subyacentes probablemente más complejos:
ut = ρut−1 + εt
εt, ruido blanco
Notemos que la ecuación anterior también es válida en t−1:
ut−1 = ρut−2 +εt−1
Por lo tanto,
ut = ρut−1 + εt=ρ (ρut−2 + εt−1)+εt= εt +ρεt−1 + ρ2ut−2
Si reemplazamos sucesivamente cada rezago de ut, llegamos a que:
ut = εt +ρεt−1 + ρ2εt−2 +.... +ρsut−s
(25)
donde s→∞. Si |ρ|<1, entonces ρs→0.
Es decir, un proceso AR(1) puede ser representado como un MA(∞).
Esto implica que ut incorpora toda la historia de los ε’s, donde los valores más
recientes de ε reciben una mayor ponderación:
∞
u t = ∑ ρ jε t − j
j=0
Dado que los sucesivos valores de ε no están correlacionados, la
varianza de ut se puede obtener como la suma ponderada de la varianza de
cada elemento:
Var (u t ) ≡
dado que |ρ|<1.
σ 2u
=
σ ε2 (1 +
ρ + ρ + ....) =
2
4
σ ε2
1 − ρ2
≡ γ0
(26)
Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández
17
Se puede llegar al mismo resultado haciendo uso de la condición de
estacionariedad de los ε’s:
Var(ut) = ρ2 Var(ut−1) + 2Cov(εt, ut−1) + Var(εt)
lo cual se reduce a:
σ 2u
=ρ
2
σ 2u
+
σ ε2
⇔
σ 2u
=
σ ε2
1 − ρ2
dado que Var(ut) = Var(ut−1), por estacionariedad, y Cov(εt, ut−1)=0.
Sabemos de la fórmula (25) que ut = εt +ρεt−1 + ρ2εt−2 +.... +ρsut−s.. Por
lo tanto, podemos obtener fácilmente Cov(ut, ut−s):
Cov (ut, ut−s) = Cov(εt, ut−s)+ ρCov(εt−1, ut−s) +....+ρs Cov(ut−s, ut−s)
= ρ Var(ut−s) =
s
ρ s σ ε2
1− ρ
2
≡γs
s=1, 2, ...
(27)
dado que Cov(εt, us)=0, ∀ t>s. De lo anterior, las correlaciones vienen dadas
por:
Corr(ut, ut−s) = ρs
(28)
Con |ρ|<1, las correlaciones se desvanecen con el paso del tiempo.
Dependiendo del signo de ρ, éstas declinarán en progresión geométrica (0<ρ
<1), o bien alternarán signos (−1<ρ<0).
De todo lo anterior, tenemos que la matriz varianza-covarianza de los
errores bajo un AR(1) vendrá dada por:
Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández
 1

 ρ
σ ε2  2
E (uu ' | X) =
ρ
1 − ρ2 
 ...
 T −1
ρ
5.2
ρ
ρ2
1
ρ
ρ
...
...
ρ T−2
ρ T −3
1
18
.... ρ T −1 

... ρ T − 2 

... ρ T −3 
...
... 

...
1 
(29)
Detección de la Autocorrelación
Los tests más importantes son los siguientes:
• Durbin-Watson, h-Durbin para AR(1)
• Breusch-Godfrey: AR(p), MA(p)
• Box-Pierce (equivalente a Breusch-Godfrey en muestras grandes,
cuando las X’s no contienen rezagos de Y).
Los tres primeros tests están descritos en los apuntes de repaso. Por lo
tanto, sólo nos referiremos al test de Box-Pierce.
• Box-Pierce: La hipótesis nula es ausencia de autocorrelación y la hipótesis
alternativa es AR(p) o MA(p). El estadígrafo de Box-Pierce viene dado
por:
L
Q = T ∑ ρˆ 2j
j=1
(30)
T
∑ û t û t − j
donde ρˆ j =
t = j+1
T
∑
t =1
es el j-avo coeficiente de autocorrelación muestral.
û 2t
Q se distribuye en muestras grandes χ2(L). Un refinamiento del test
anterior fue propuesto por Ljung y Box:
Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández
Q* =
19
T(T + 2) L 2
∑ ρˆ j
T − j j=1
(31)
El estadígrafo Q* ha mostrado tener un poder más alto frente a la
alternativa.
5.3
Estimación Eficiente cuando Ω es Desconocida
Si los parámetros de Ω son conocidos, el estimador de MCG,
βˆ MCG = ( X ' Ω −1X ) −1 X ' Ω −1Y ,
con
varianza
muestral
dada
por
Var (βˆ MCG ) = σ 2 ( X ' Ω −1X ) −1 , puede ser computada directamente de la
fórmula. Por ejemplo, para el caso en que los errores poblaciones siguen un
AR(1) se tiene que:
Ω −1
−ρ
0
 1

2
−ρ
− ρ 1+ ρ
− ρ 1 + ρ2
1  0

=
...
...
1 − ρ 2  ...
 0
0
0

0
0
 0
 1 − ρ2

 −ρ
P= 0

 ...

 0
0
0 ...
1
0 ...
− ρ 1 ...
... ... ...
0
0 ...
0
0
...
...
0
−ρ
0
0
...
...
...
...
...
0
... ...
...
... − ρ 1 + ρ 2
0
...
0 
0 0

0 0
... ... 

− ρ 1 
0
−ρ
0 

0 
0 

... 
− ρ

1 
0
tal que Ω−1 = P′P.
Por lo tanto, el modelo transformado viene dado por:
 1 − ρ2 Y 
1 


Y − ρY1 
Y * = PY =  2
,
...


 Y − ρY 
 T
T −1 
 1 − ρ2 x ' 
1 


x '−ρ x1 ' 
X * = PX =  2

...


 x ' −ρ x ' 
 T
T −1 
(32)
Apuntes de Teoría Econométrica I. Profesor: Viviana Fernández
 x1 ' 
 
x '
donde X =  2 
...
 
x n '
x i ' = (1 X i 2
20
... X ik ).
El error transformado tiene varianza: Var(ut−ρut−1)=Var(εt)= σ 2ε , y
Cov(εt, εs)=0, ∀ t≠s.
5.3
Estimación cuando Ω es Desconocida: MCGF
Asumiendo nuevamente que los errores siguen un AR(1), podemos
obtener un estimador de ρ a partir de los residuos de MICO. Ello, porque los
estimadores MICO serán insesgados, siempre y cuando NO haya rezagos de la
variable dependiente entre los regresores, X. (De lo contrario, el error estaría
correlacionado con los errores). Bajo dicho escenario, un estimador que será
una buena aproximación de ρ en muestras grandes será:
T
ρˆ =
∑ û t û t −1
t =2
T
(33)
∑ û 2t
t =1
Entonces, en una primera etapa, estimamos nuestro modelo por MICO y
obtenemos ρ̂ con la fórmula (33). En una segunda etapa, corregimos el
modelo de acuerdo a la fórmula (32), reemplazando ρ por ρ̂ .
Un método alternativo es el de Cochrane-Orcutt (ver apuntes de
repaso), el cual omite la primera observación. En muestras grandes, omitir una
observación no tiene relevancia, en términos de eficiencia, pero sí puede
tenerlo cuando la muestra es pequeña.
Descargar