Subido por rickies67

ECONOMETRIA ParteI Sep2707

Anuncio
CURSO DE ECONOMETRÍA
ITAM
Dr. Víctor M. Guerrero
Departamento de Estadística - ITAM
[email protected]
Octubre de 2007
1
1. ECONOMETRÍA, MODELOS Y DATOS (Intriligator)
- Definición de Econometría. Rama de la Economía que se ocupa de la estimació n
empírica (o sea, basada en los datos) de las relaciones económicas.
- Ingredientes principales de la Econometría : 1) teoría y 2) hechos.
Teoría
Hechos
Modelo
Datos
Especificación
Teoría Estadística
Preparación de datos
Modelo
Econométrico
Datos
refinados
Técnicas
Econométricas
Estimación del modelo econométrico con los datos refinados,
mediante las técnicas econométricas
Usos del modelo
Análisis
estructural
Pronóstico
Evaluación de
planes y políticas
2
- Objetivos de la Econometría.
Los principales son:
1. Análisis estructural. Es el objetivo de carácter científico, mediante el cual se trata de
entender el mundo real con la validación de relaciones económicas. Este objetivo a su
vez influye en ocasiones sobre la teoría.
2. Pronóstico. El objetivo aquí es predecir los valores de las variables que se desea,
fuera de la muestra de datos observada. Los pronósticos no son un fin en sí mismos,
sino que constituyen la base para tomar decisiones.
3. Evaluación de planes y políticas. Este constituye el uso del modelo para decidir entre
diversos planes o políticas en consideración. Una manera de realizar esta actividad es
mediante la simulación de lo que ocurriría con cada una de las alternativas, según el
modelo.
Los tres principales usos de la Econometría están íntimamente ligados entre sí, de
tal forma que la estructura determinada en un análisis estructural se utiliza después para
pronosticar, o bien, la evaluación de políticas con el modelo constituye en realidad un
pronóstico de tipo condicional. Sin embargo, es importante reconocer que un modelo
econométrico útil para pronosticar puede no servir para realizar análisis estructural y
esperar que cualquier modelo sea útil para todo es un abuso de la Econometría.
- Modelos econométricos.
Modelo: Representación simplificada de un fenómeno real (todo modelo es erróneo)
3
MODELO MATEMÁTICO
Inicio
Mundo
Real
Abstracción
(Detección de características
relevantes)
Desarrollo
(Traducción a
Matemáticas)
Contrastación
con la realidad
Aplicaciones
Realidad
Axiomática
Teoría
Matemática
Concreción
(Interpretación de
resultados)
Modelo para el Ingreso Nacional (en una economía cerrada) (Johnston, Cap. 1)
•
Identidad: Y ≡ C + I + G
Y = PNB, C = Consumo, I = Inversión, G = Gasto del gobierno
(los flujos de C, I y G se suponen medidos en términos reales)
•
Teoría: 1) C = f ((1 − t )Y, r ) con τ = tasa impositiva,
(1 − t )Y = Ingreso disponible libre de impuestos
y r = tasa de interés.
2) I = f (? Y, r ) con ? Y el cambio en PNB.
La teoría puede indicar las variab les explicativas, las ecuaciones y quizás, también
los signos de las derivadas parciales.
4
Por ejemplo, en 1) se esperaría que
∂f ((1 − t )Y, r )
∈ (0, 1) y
∂ (1 − t )Y
∂f ((1 − t )Y, r )
<0
∂r
o sea que la propensión marginal al consumo del ingreso disponible debe ser una
fracción positiva menor que la unidad, y un incremento en r traerá consigo un efecto
depresivo sobre el consumo (ya que eleva la tasa de rendimiento del ahorro e
incrementa el costo de financiamiento de bienes duraderos, entre otras cosas).
Por su lado, debido a 2) se debería tener
∂f (? Y, r )
>0
∂? Y
y
∂f (? Y, r )
<0
∂r
en donde se supone que I está influenciado al alza por las expectativas de ganancias, que
de manera un tanto burda se aproximan mediante ? Y ; de nuevo, se espera que la tasa
de interés afecte negativamente, a la inversión en este caso.
La Econometría sirve como complemento para determinar:
i) La forma funcional. Por ejemplo, si se omite la variable r, podría tenerse
C = a + ß(1 − t)Y
C = a [(1 − t )Y]ß
C = a − ß[(1 − t )Y]
−1
ii) El tipo de datos más apropiados y su escala de medición. Por ejemplo, ¿cuál es la
variable que mejor representa el ingreso?, ¿debe ser ajustada por estacionalidad?, ¿qué
tasa de interés debe emplearse?
iii) El tipo de estructura de retrasos (la dinámica del sistema), variables alternativas, etc.
5
Conviene además conocer la distinción entre dos tipos de datos que permiten
realizar análisis econométrico:
a) Los de corte transversal son aquellos que se observan en un solo momento, se
generan especialmente a través de encuestas y no tienen un orden de observación
asignado.
b) Los datos de series de tiempo se caracterizan por tener explícitamente un orden
cronológico de observación que no permite intercambiar lugares para los datos y son
obtenidos de manera rutinaria, particularmente por agencias gubernamentales.
6
2. MODELO DE REGRESIÓN LINEAL SIMPLE
- Introducción.
Se considerarán modelos formados por una sola ecuación, del tipo
Y = f(X)
donde Y representa la variab le dependiente (por ser explicada) y X es la variable
independiente (o explicativa). La especificación del modelo (es decir, su forma
funcional) será lineal. De esta forma se habla del modelo de regresión lineal simple, que
explica el comportamiento (o variabilidad) de Y simplemente a través de X, por medio
de la relación
Y = α + βX (lineal en los parámetros)
El primer paso en una investigación econométrica de la relación entre Y y X
consiste en obtener una muestra de n parejas de datos sobre estas variables. Los datos
muestrales se denotan entonces por Yi , X i , para i = 1, 2,..., n, o sea
i
Yi
Xi
1
Y1
X1
...
...
...
n
Yn
Xn
Además, se debe hacer explícita la incertidumbre de que el modelo de regresión
lineal simple explique por completo la variabilidad de Y, para ello se introduce una
perturbación estocástica (error aleatorio) que le da mayor flexibilidad al modelo, y así se
llega a la representación
Yi = α + β X i + u i , para i = 1,..., n
donde u i denota el término de error.
7
Por ejemplo, si se investiga la relación entre el gasto en bienes de consumo y el
ingreso familiar disponible, en una muestra de corte transversal (sólo se observan las
variables en un cierto momento), aquí Y es el gasto, X el ingreso y n es el número de
familias. Debe ser claro que aun dentro de grupos familiares del mismo tamaño y
composición, habrá variación en el gasto, aunque el ingreso disponible sea el mismo.
Esto se puede deber a otras variables no incluidas en el modelo (como la edad del
jefe de familia, los gustos familiares, la tendencia a crecer o decrecer del ingreso, etc.)
estas variables omitidas son tenidas en cuenta por el error u.
Asimismo, u sirve para incorporar el hecho de que la variable Y puede estar medida
con error, de forma tal que Z es la verdadera, pero Y es la observada, o sea
Z = α + βX + v
error en la ecuación
Y=Z+w
error de medición
⇒ Y = α + βX + u
con u = v + w
incluso podría tenerse v = 0, en cuyo caso u = w.
Ya que u es una variable aleatoria, el modelo se complementa con supuestos acerca
de su comportamiento probabilístico, para ello se hace referencia a su valor esperado, a
su varianza y a su covarianza.
De hecho, se supone que
E( u i ) = 0, Var ( u i ) = σ 2u y Cov( u i , u j ) = E( u i u j ) = 0 para j ≠ i = 1,..., n
y conviene considerar que la distribución del error es Normal; en ese caso se tiene que
u 1,..., u n constituye una muestra aleatoria (m.a.) porque se tiene un conjunto de n
variables aleatorias independientes e idénticamente distribuidas (i.i.d.), provenientes de
la distribución N (0, σ 2 ) , lo c ual se representa gráficamente como sigue
8
α + βX n
Yn
f(u)
α + βX 2
Y (Gasto)
Y2
α + β X1
Y1
un
u2
u1
α + βX
0
X1
X2
Xn
X (Ingreso)
Un supuesto adicional en el modelo es el de linealidad en las variables, la cual puede
ser tan solo aproximada y con eso es suficiente.
Y
Y
X
X
Y
Y
X
X
9
- Estimación por Mínimos Cuadrados.
Para cada selección de valores de los parámetros, se obtiene un conjunto de valores
estimados de las Y' s , o sea, para αˆ y βˆ se tiene
Ŷi = αˆ + βˆ X i con i = 1, ..., n
A la diferencia entre lo observado y lo estimado se le llama residuo o sea
ei = Yi − Ŷi = Yi − αˆ − βˆ X i = (α − αˆ ) + (β − βˆ )X i + u i
de manera que ei ≠ u i , excepto si α̂ = α y β̂ = β . La idea del método de Mínimos
Cuadrados Ordinarios (MCO) consiste en seleccionar a = αˆ y b = βˆ para minimizar
n
∑ e i2 , que es la suma de residuos al cuadrado, también llamada Suma de Cuadrados
i =1
Residual, con
2
∑ e i = ∑ (Yi − αˆ − βˆ X i ) .
2
Para ello se obtienen las derivadas parciales, evaluadas en â = a y ß̂ = b , o sea
∂
∂
2
= 0 = ∑ ei2
∑ei
a, b
a, b
∂αˆ
∂βˆ
que conducen a
∑ Yi = na + b ∑ X i

2
∑ X i Yi = a ∑ X i + b ∑ X i 
Ecuaciones normales.
De la primera ecuación se sigue que
a = Y − bX
10
mientras que, del sistema completo, se obtiene
∑ Yi
n ∑ X i Yi − ∑ X i ∑ Yi
∑ X i ∑ X i Yi
b=
=
∑ Xi
n
n ∑ X i2 − (∑ X i )2
∑ X i ∑ Xi2
n
así que, para calcular a y b, se requieren las siguientes cantidades
n , ∑ X i , ∑ Yi , ∑ X i Yi y ∑ X i2
Ejemplo. Para ilustrar los cálculos numéricos, considérese el siguiente conjunto de n =
5 datos
Entonces ∑ X i = 20 y
b=
i
Xi
Yi
X i Yi
X 2i
1
2
4
8
4
2
3
7
21
9
3
1
3
3
1
4
5
9
45
25
5
9
17
153
81
Suma
20
40
230
120
∑Y
i
5( 230 ) − 20 ( 40 )
5(120 ) − ( 20 ) 2
= 40 , de forma que X = 4 y Y = 8 , además
=
1150 − 800 350
=
= 1.75
600 − 400 200
y
a = 8-1.75(4)=1
o sea que la regresión estimada de Y sobre X es
Ŷ = 1 + 1.75X
11
A partir de esta ecuación se pueden obtener los valores estimados por el modelo,
correspondientes a las observaciones de X, es decir
Ŷ1 = 1 + 1.75X 1 = 1 + 1. 75(2) = 4. 5
Ŷ2 = 1 + 1.75X 2 =1+1.75(3) = 6.25
Ŷ3 = ...
...
= 2.75
Ŷ4 = ...
...
= 9.75
Ŷ5 = ...
...
= 16.75
De esta forma, los residuos vienen a ser
e 1 = Y1 − Ŷ1 = 4 − 4.5 = −0.5, e 2 = 7 − 6.25 = 0.75, e 3 = 0.25, e 4 = −0.75 y e 5 = 0.25
Propiedades de la recta de regresión con las estimaciones de MCO, a y b.
1.- La recta pasa por el punto de medias (X, Y ) y esto hace que la suma de residuos sea
cero, o sea
∑ ei = 0 .
Demostración. ∑ e i = ∑ (Yi − a − bX i ) = ∑ Yi − na − b ∑ X i = n (Y − a − b X ) = 0
porque a = Y − bX
2.- Los residuos tienen covarianza muestral cero con los valores muestrales X y con los
valores estimados Ŷ , o sea
Côv( X, e) =
1
∑ ( X i − X)( e i − e ) = 0 y Cô v( Ŷ, e) = 0 .
n −1
12
Demostración.
Côv( X, e) =
1
∑ (X i − X )(e i − e )
n −1
=
1
∑ (X i − X )e i
n −1
=
1
1
X∑ei
∑ Xi e i −
n −1
n −1
=
1
∑ X ie i
n −1
=
1
∑ X i (Yi − a − bX i )
n −1
=
1
( ∑ X i Yi − a ∑ X i − b∑ Xi2 )
n −1
=0
porque e = 0
por la 2ª. ecuación normal
Además,
C ôv( Ŷ, e) = C ôv(a + bX, e) = C ôv(a, e) + C ôv(bX, e) = 0 + bC ôv(X, e) = 0
3.- El coeficiente de la pendiente en la regresión también puede calcularse a partir de las
desviaciones de X y Y respecto a sus medias, o sea, si se define
xi = Xi − X
y y i = Yi − Y
entonces
b = ∑ x i y i / ∑ x i2
Demostración. Como
2
∑ (X i − X ) = ∑ (X i2 − 2X i X + X 2 )
= ∑ X 2i − 2 X ∑ X i + n X 2
= ∑ X 2i − n X 2
= ∑ X 2i − (∑ X i )2 / n
13
y
∑ (X i − X )(Yi − Y ) = ∑ (X i Yi − X i Y − XYi + X Y )
= ∑ X i Yi − Y ∑ X i − X ∑ Yi + n X Y
= ∑ X i Yi − n X Y
= ∑ X i Yi −(∑ X i )(∑ Yi ) / n
entonces
b=
n ∑ X i Yi − ∑ X i ∑ Yi
n ∑ X i2 − ( ∑ X i ) 2
=
n ∑ ( X i − X)( Yi − Y)
n ∑ ( Xi − X ) 2
=
∑ x i yi
∑ x 2i
4.- La suma de cuadrados asociada con la variación en Y, se puede expresar en términos
de la variación “ explicada” por la regresión, más la variación “no explicada”.
Demostración. En principio, nótese que
ŷ i = Ŷi − Y = a + bXi − Y = Y − bX + bX i − Y = b(X i − X ) = bx i
entonces, como
y i = Yi − Y = (Ŷi + e i ) − Y = ŷ i + e i
se deduce que
2
2
2
2
2
2
∑ y i = ∑ ( ŷ i + e i ) = ∑ ŷ i + 2 ∑ ŷ i e i + ∑ e i = ∑ ŷ i + ∑ e i
porque Côv( ŷ, e) = 0
es decir
2
2
2
∑ y i = ∑ ŷ i + ∑ e i
SCT
Suma de Cuadrados Total
de Y respecto a su media
=
SCE
Suma de Cuadrados de Y
Explicada por Regresión
+
SCR
Suma de Cuadrados no
Explicada o Residual
14
Nótese que se tienen las siguientes expresiones d e cálculo
SCE = ∑ ŷ i2 = ∑ (bx i )2
= b 2 ∑ x i2
= (∑ x i y i )2 / ∑ x 2i
porque b =
∑ x i yi
2
∑ xi
Por otro lado, ya que la varianza del error verdadero, es desconocida, pero
s 2u = Var(u i ) = E(u 2i ) − [ E(u i )] 2 = E(u 2i )
es razonable estimar a s 2u como un promedio de los residuos al cuadrado, y lo que se
usa es
S2 = SCR / g.l. = ∑ e 2i / (n − 2 )
donde los grados de libertad (g.l.) son en este caso n-2, ya que se tuvo que estimar dos
parámetros (α y β ) para poder calcular los residuos. De hecho, más adelante se
demostrará que S 2 resulta ser un estimador insesgado de s 2u .
- Medidas de bondad de ajuste.
Es importante medir la bondad del ajuste logrado con la recta para estimar los datos
observados, esto se logra con el coeficiente de correlación y con el coeficiente de
determinación. El coeficiente de correlación muestral entre Y y X viene dado por
r=
Côv ( Y, X) ∑ x i y i /( n − 1)
=
σˆ x σˆ y
S XSY
con
SX = σˆ X = ∑ x 2i /( n − 1) y SY = σˆ Y = ∑ y 2i /( n − 1)
15
Otra manera de expresar el coeficiente de correlación es como sigue
∑ x i yi
r=
2
∑xi
 ∑x y
i i
=
 x2
 ∑ i
2
∑ yi
 ∑x2
i


2
 ∑ yi
S
=b X
SY
S
(o bien b = r Y )
SX
debe notarse que b y r tienen el mismo signo.
El coeficiente de determinación por su lado, se obtiene como r 2 , o sea
r2 =
=
(∑ x i yi )2
( ∑ x i2 )( ∑ y i2 )
SCE
SCT
= 1−
SCR
SCT
de tal manera que r 2 mide la proporción de SCT explicada por la regresión. Además,
de las últimas dos expresiones para r 2 se deduce que
0 ≤ r 2 ≤ 1 por lo cual − 1 ≤ r ≤ 1
Ejemplo. Con los datos mostrados previamente se generan los nuevos datos, exp resados
ahora en desviaciones respecto a la media
16
i
xi
yi
x i yi
x i2
y 2i
1
-2
-4
8
4
16
2
-1
-1
1
1
1
3
-3
-5
15
9
25
4
1
1
1
1
1
5
5
9
45
25
81
Suma
0
0
70
40
124
Así que
b=
∑ xi yi
∑ x i2
=
70
= 1 .75 , a = Y − bX = 8 − 1.75( 4) = 1
40
SCE = b ∑ x i y i = 1 .75 (70 ) = 122 .5 y SCR = SCT − SCE = 124 − 122 .5 = 1.5
de donde se obtiene
S2 = SCR /( n − 2 ) = 1.5 / 3 = 0.5
r2 =
SCE 122.5
=
= 0.988
SCT 124
Y
r = ± r 2 = 0.994 (con signo positivo porque b > 0).
17
Ejercicio para estudiantes: Realizar el ajuste de una recta de regresión a los siguientes
cuatro conjuntos de datos. ¿Qué se aprendió de ellos?
i
Y2
Y3
X1
Y1
X2
X3
1
10
8.04
10
9.14
10
7.46
2
8
6.95
8
8.14
8
6.77
3
13
7.58
13
8.74
13
12.74
4
9
8.81
9
8.77
9
7.11
5
11
8.33
11
9.26
11
7.81
6
14
9.96
14
8.10
14
8.84
7
6
7.24
6
6.13
6
6.08
8
4
4.26
4
3.10
4
5.39
9
12
10.84
12
9.13
12
8.15
10
7
4.82
7
7.26
7
6.42
11
5
5.68
5
4.74
5
5.73
Fuente: Anscombe, F.J. (1973) “Graphs in Statistical Analysis”,
Statistician 27, 17-21.
•
•
X4
Y4
8
6.58
8
5.76
8
7.71
8
8.84
8
8.47
8
7.04
8
5.25
19 12.50
8
5.56
8
7.91
8
6.89
The American
Notar que correlació n no implica causalidad (correlación espuria)
Distinguir correlación de análisis de regresión (cálculo vs. análisis)
-
Propiedades de los estimadores a, b y S 2 con las X’s fijas.
E( b) = β, Var ( b ) = σ 2u / ∑ x 2i
1
X 2 
E(a ) = α, Var (a ) = σ 2u  +
n
2
∑ xi 

( )
Cov( a , b ) = − σ 2u X / ∑ x i2 y E S 2 = σ 2
Demostración. Ya que
b=
∑ xi yi
∑ x i2
=
∑ x i (Yi − Y )
∑ x i2
=
∑ x i Yi
∑ x i2
−
Y∑ xi
∑ x 2i
=
∑ x i Yi
∑ x i2
= ∑ w i Yi
con w i = x i / ∑ x 2i . Se tiene que b es una combinación lineal de las Y’s, en donde las
ponderaciones son tales que:
18
i) ∑ w i = ∑ x i / ∑ x i2 = 0
ii) ∑ w i X i = ∑ x i X i / ∑ x 2i = ∑ x i ( x i + X) / ∑ x i2 = ( ∑ x i2 + X ∑ x i ) / ∑ x i2 = 1 ,
y
iii) ∑ w 2i = ∑ ( x i / ∑ x 2i ) 2 = ∑ x 2i /( ∑ x i2 ) 2 = 1 / ∑ x 2i
Entonces se obtiene
b = ∑ w i Yi = ∑ w i (α + βX i + u i ) = α∑ w i + β∑ w i X i + ∑ w i u i = β + ∑ w i u i
por lo cual
E ( b ) = E (β + ∑ w i u i ) = β + ∑ w i E ( u i ) = β
y
Var ( b) = Var (∑ w i u i )
= ∑ w i2 Var (u i ) + 2 ∑ ∑ w i w j Cov( u i , u j )
i< j
= ∑ w i2 σ 2u + 0
= σ 2u / ∑ x 2i
De igual manera, como
a = Y − b X = (α + β X + u ) − b X = α − (b − β )X + u
se sigue que
E( a) = E[α − ( b − β) X + u] = α − E[( b − β) X] + E(u ) = α
19
y
Var (a ) = E[(a − α ) 2 ]
= E{[ −( b − β) X + u ] 2 }
= E[( b − β) 2 X 2 − 2 (b − β) Xu + u 2 ]
= X 2 E[( b − β) 2 ] − 2 XE[( b − β) u ] + E( u 2 )
= X 2 Var ( b) + σ 2u / n
porque E[ u ( b − β )] = 0
= X 2 σ 2u / ∑ x 2i + σ 2u / n
1
X2
= σ 2u ( +
)
n ∑ x2
i
Además
Cov( a , b ) = E[(a − α)( b − β)]
= E{[ −( b − β) X + u ]( b − β )}
= E[ −( b − β) 2 X + u ( b − β)]
= − XVar ( b) + E[u ( b − β)]
= − Xσ 2u / ∑ x 2i + 0
= − σ 2u X / ∑ x 2i
Falta demostrar que
1
E[ u( b − β )] = E[( ∑ u i )( ∑ w i u i )]
n
=
1
E ( ∑ w i u 2i + 2 ∑ w i u i u j )
n
i< j
=
1
2
∑ w i E (u i ) + 2 ∑ w i E (u i u j )
n
i< j
=
1 2
σ u ∑ w i + 2 ∑ w i (0)
n
i< j
=0
20
Finalmente, como
ei = (α − a ) + (β − b)X i + u i
y
a − α = −(b − β)X + u
se tiene que
e i = ( b − β) X − u + (β − b) X i + u i
= (β − b )(X i − X ) + u i − u
= (u i − u ) + (β − b)x i
de donde
2
∑ e i2 = ∑ [(u i − u ) + (β − b )x i ]
[
= ∑ (u
= ∑ (u i − u ) 2 + 2(u i − u )(β − b )x i + (β − b )2 x i2
2
i
)
]
− 2 u i u + u 2 + 2(β − b )∑ (u i − u )x i + (β − b )2 ∑ x i2
= ∑ u i2 − 2 u ∑ u i + nu 2 + 2(β − b )(∑ u i x i − u ∑ x i ) + (β − b )2 ∑ x i2
= ∑ u 2i − nu 2 + 2(β − b )∑ u i x i + (β − b )2 ∑ x i2
Es por ello que
E( ∑ e 2i ) = E( ∑ u i2 ) − nE (u 2 ) + 2 E[( β − b ) ∑ u i x i ] + ∑ x 2i E[(β − b ) 2 ]
σ2
= ∑ E( u i2 ) − n u + 2E[( −∑ w i u i )( ∑ u i x i )] + ∑ x i2 Var( b)
n
= ∑ σ 2u − σ 2u − 2E( ∑ w i x i u i2 + ∑ w i x j u i u j ) + ∑ x i2 ( σ 2u / ∑ x i2 )
i≠ j
= nσ 2u − σ 2u − 2∑ w i x i E( u 2i ) − 2 ∑ w i x j E( u i u j ) + σ 2u
i≠ j
= nσ 2u − 2∑ w i x i σ 2u
= σ 2u (n − 2 ∑ w i x i )
= (n − 2)σ 2u
21
y, en consecuencia,
E(S2 ) = E[ ∑ e 2i /( n − 2 )] = σ 2u
Aun cuando los estimadores de MCO, a y b, sean aparentemente razonables, la
justificación plena de su empleo generalizado está dada por el siguiente teorema.
Teorema de Gauss-Markov. Dentro de la clase de estimadores lineales e
insesgados para α y β, los estimadores de MCO poseen la menor varianza, es decir son
los Mejores Estimadores Lineales e Insesgados (MELI).
Estimadores
lineales
Estimadores a y b
Estimadores
lineales
insesgados
Todos los posibles estimadores de α y β
- Inferencia estadística.
Hasta ahora no se ha requerido suponer normalidad de los errores, si este supuesto es
válido, entonces al ser a y b combinaciones lineales de los u’s, se tiene que
1
X2
a ∼ N (α, σ 2u ( +
)) , b ∼ N (β, σ 2u / ∑ x i2 )
2
n ∑x
2
y
i
∑ ei
σ 2u
=
( n − 2)S2
σ 2u
∼ χ(2n − 2)
con ∑ e i2 una variable aleatoria independiente de a y b.
De esta forma se obtiene que
22
b −β
σ u / ∑ x i2
∼ N(0, 1)
y
χ 2(g.l.)
N(0,1)
g.l.


b −β
t=
 σu / ∑ x 2
i

=
b −β
S / ∑ x i2


/


(n − 2)S2 /(n − 2)
σ 2u
∼ t (n − 2)
por lo cual, un intervalo del 100 (1-ε)% de confianza para β está dado por
b ± t ( n − 2), ε / 2S / ∑ x i2
y el estadístico de prueba para la hipótesis
H 0 : β = β 0 vs. H A : β ≠ β 0
resulta ser
b − β0
S/
2
∑ xi
∼ t (n − 2)
De manera similar puede realizarse inferencia sobre α a partir de que
a−α
1
X2
S
+
n ∑x2
i
∼ t (n − 2)
23
así que un intervalo del 100(1 -ε)% de confianza para α es
a ± t ( n − 2), ε / 2 S
1
X2
+
n ∑x2
i
Asimismo, para probar la hipótesis
H 0 : α = α 0 vs. H A : α ≠ α 0
se usa el estadístico
t=
a − α0
1
X2
+
S
n ∑ x2
i
∼ t (n − 2)
Por otro lado, también puede realizarse inferencia sobre σ 2u ya que
( n − 2 )S 2
σ 2u
∼ χ (2n − 2)
de tal forma que un intervalo de 95% de confianza para σ 2u viene dado por


( n − 2 )S 2 
 ( n − 2 )S 2
,
 2

 χ (n − 2),0.975 χ 2(n − 2),0.025 


- Estimación por Máxima Verosimilitud.
Es de subrayar que, del modelo planteado
Yi = a + ßX i + u i para i = 1,…, n, con las X’s fijas
se deduce que
E (Yi ) = α + β X i
Var (Yi ) = Var (u i ) = σ 2u
24
en consecuencia
Yi ∼ N(a + ßX i , s 2u ) porque u i ∼ N( 0, σ2u )
además, también se deduce que las variables Y1 ,...,Yn son independientes. Por lo tanto,
es factible usar el método de Máxima Verosimilitud (MV) para estimar a y ß .
Para ello se sabe que
f (Yi ) =
1
2πσ u
1  Y − α − βX i 

−  i

2
σu

e 
2
para i = 1,…, n
de donde se obtiene la función de verosimilitud
1 n  Yi − α −βX i
n
 − 2 i∑=1
σu
n
 1
 e
L(Y1 ,..., Yn ) = ∏ f (Yi ) = 

i =1
 2π σ u 



2
y la consiguiente función de log-verosimilitud
ln( L) = −n ln
(
)
2 πσ u −
n
2
∑ (Yi − α − β X i )
2
2 σ u i =1
1
Se observa entonces que, para encontrar los estimadores de MV de α y β se debe
n
minimizar la suma ∑ (Yi − α − βX i )2 respecto a α y β , que es precisamente lo que se
i =1
hace con el método de MCO.
Por lo tanto, los estimadores de MCO resultan ser también de MV, si se hace el
supuesto de normalidad de los errores y, por consiguiente, las propiedades de los
estimadores de MV (en particular suficiencia, consistencia e invarianc ia) son también
propiedades, en este caso, de los estimadores de MCO.
25
- Análisis de varianza.
Este tipo de análisis surge de la partición de la SCT en los componentes explicado y no
explicado. Los cálculos se presentan en un cuadro conocido como ANDEVA (o
ANOVA en inglés) como el siguiente
TABLA DE ANDEVA
Fuente de
Suma de Cuadrados
g.l.
Variación
Cuadrado
F
Medio
Regresión
(explicada por X)
SCE = ∑ ŷ i2
1
SCE/1
SCR/(n-2)
SCE / 1
SCR /( n − 2)
= b 2 ∑ x i2
Residual
SCR = ∑ e 2i
n-2
Total
SCT = ∑ y i2
n-1
Si H 0: β = 0 es cierta, entonces
b−0
σ u / ∑ x 2i
∼ N(0,1) de donde, al elevar al cuadrado se obtiene
b 2 ∑ x i2
σ 2u
∼ χ2(1)
así que
SCE
σ 2u
=
b 2 ∑ x 2i
σ 2u
∼ χ 2(1)
mientras que
SCR
σ 2u
=
∑ e 2i
σ 2u
∼ χ(2n − 2)
con SCE y SCR independientes. Por lo tanto, si la hipótesis H0: β = 0 es cierta,
26
 SCE / 1   SCR /( n − 2) 
 /
 = SCE / 1
∼ F(1, n − 2)
F=
2
 σ2  
 SCR /( n − 2 )
σ

u  
u

Así pues, una manera alternativa de probar la hipótes is H0: β = 0 es mediante el
cociente de cuadrados medios, que se compara con valores de la distribución F(1, n − 2) ,
lo cual equivale al uso del estadístico t, ya que
b 2 ∑ x 2i
SCE / 1
b2
b−0 2
2
=
) ∼ [ t ( n − 2) ]
=
=(
2
2
2
2
SCR /( n − 2 ) ∑ e /( n − 2) S / ∑ x
S / ∑ xi
i
i
por lo cual, H0 : β = 0 puede probarse indistintamente con los estadísticos t o F.
Sin embargo, el estadístico F es más general, como se verá en la regresión múltiple,
ya que sirve para probar si hay explicación de Y a través del modelo de regresión,
mientras que t sólo permite probar si X proporciona explicación para Y.
Ejemplo: Con los datos numéricos, se sabe que
a = 1, b = 1.75,
∑x
2
i
= 40 ,
∑e
2
i
= 1.5 y S2 = 0.5
Entonces
Vâ r (b ) = S2 / ∑ x 2i = 0.5 / 40 = 0.0125
⇒ êe(b) = 0.0125 = 0 .1118
1
X 2 
 1 16 
Vâr(a) = S2  +
= 0.5 +  = 0.3 ⇒
 n ∑x2 
 5 40 
i 

êe(a) = 0.3 = 0.5477
así que un intervalo del 95% de confianza para β es
1.75 ± t (3),0.025 (0 .1118 ) = 1.75 ± 3 .182 (0 .1118 ) = (1 .39 , 2.11)
27
y la hipótesis H0 : α = 0 vs. HA : α ≠ 0 se prueba con el estadístico
t=
1
a −0
=
= 1.826 < 3.182
êe( a) 0.5477
el cual indica que la ordenada al origen (o intercepto) no es significativamente distinta
de cero al nivel del 5%.
La correspondiente tabla de Análisis de Varianza resulta ser
Fuente de
Suma de
g.l. Cuadrado
Variación Cuadrados
F
Medio
X
122.5
1
122.5
Residual
1.5
3
0.5
Total
124
4
--
F = 245
Al comparar el estadístico calculado F = 122 .5 / 0 .5 = 245 .0 con F(1,3), 0.95 = 10 .1 se
concluye el rechazo de H0 : β = 0 al nivel de significancia del 5%.
- Pronóstico en el Modelo de Regresión Lineal Simple.
El pronóstico para un valor dado de X (que se denota por X 0 ) puede ser puntual o por
intervalo. El valor verdadero de Y, según el modelo, es
Y0 = α + β X 0 + u 0
mientras que el pronóstico resulta ser
Ŷ0 = a + bX 0
así que el error de predicción está dado por
28
e 0 = Y0 − Ŷ0 = u 0 − (a − α ) − ( b − β) X 0
el cual tiene E(e 0 ) = 0 y
Var(e0 ) = Var(u0 ) + Var(a) + X 20 Var(b) − 2Cov[u0 , (a − a)]
− 2Cov[ u 0 , (b − β) X 0 ] + 2Cov[(a − α), ( b − β) X 0 ]
1 X2
= σ 2u + σ 2u ( +
) + X 02 σ 2u / ∑ x i2 + 2 X 0 Cov(a , b )
n ∑x2
i
= σ 2u (1 +
X2
2X 0 X
1
X2
+
+ 0 −
)
n ∑ x2 ∑ x 2 ∑ x 2
i
i
i
= σ 2u [1 +
1 (X 0 − X )2
+
]
2
n
∑x
i
Las covarianzas de u 0 con (a-α) y con (b-β) son cero porque u 0 es independiente de
u1 ,..., u n y los estimadores a y b son combinaciones lineales de estos u’s.
Se aprecia entonces que la varianza más pequeña de e0 será cuando X 0 = X y,
conforme se aleje de X 0 de X , se incrementará la varianza en forma cuadrática.
Además, como e0 es función de a y b, que son combinaciones lineales de los u i' s , e0 ∼
N(0,Var ( e0 ) ) y, por consiguiente
e0
1 (X − X ) 2
σu 1 + + 0
2
n
∑ xi
∼ N(0,1)
y
Y0 − Ŷ0
1 (X − X ) 2
S 1+ + 0
2
n
∑x
∼ t ( n − 2)
i
Por lo tanto, un intervalo de 95% de probabilidad (predicción) para Y0 viene dado
por
a + bX0 ± t ( n − 2), 0.025S 1 +
1 (X 0 − X )2
+
2
n
∑ xi
29
Si en lugar de pronosticar un valor individual Y0 , se desea estimar la media
E (Y0 ) = α + β X 0 para una cierta X 0 , entonces el error de estimación es
E(Y0 ) − Ŷ0 = − (a − α ) − ( b − β) X 0
1 ( X − X) 2
que tiene media cero y varianza σ2u [ + 0
] , por lo cual un intervalo del 95%
2
n
∑x
i
de confianza para E(Y0 ) es
a + bX 0 ± t ( n −2), 0.025S
2
1 (X 0 − X )
+
2
n
∑ xi
Ejemplo. Para pronosticar con el modelo estimado según la ilustración numérica, se
tiene Ŷi = 1 + 1 .75X i , X = 4, S2 = 0.5 y ∑ x i2 = 40 . El pronóstico de Y para X0 =
10 tiene un intervalo de 95% de confianza dado por
1 − 1.75 (10 ) ± 3.182 0 .5 1 +
1 (10 − 4 ) 2
+
= 18.5 ± 3 .26 = (15 .24, 21.76 )
5
40
mientras que, para estimar E( Y X = 10) se obtiene el intervalo de 95% de confianza
1 + 1 .75(10 ) ± 3 .182 0 .5
1 (10 − 4) 2
+
= 18 .5 ± 2 .36 = (16 .14, 20 .86 ) .
5
40
30
3. ANÁLISIS DE LOS SUPUESTOS DEL MODELO
1.- Linealidad.
Este supuesto se hace sobre la forma funcional que relaciona a Y con X, que es de línea
recta. La linealidad en los parámetros no es un supuesto verificable, se requiere para
usar MCO, de otra forma se debería usar un método no -lineal, por ejemplo en el modelo
Y = α + βX γ + u
Por lo que toca a la forma funcional, una prueba estadística formal de linealidad
puede efectuarse si se cuenta con réplicas de Yi para una X i dada (ver Johnston, 1984
cap. 3). Si no existen réplicas, lo que se hace es proponer una familia general de formas
funcionales que incluya las más comunes, esto se logra mediante el uso de
transformaciones potencia o de polinomios en X.
La transformación potencia para una variable Z > 0 , está dada por
 Zλ si λ ≠ 0
T (Z ) = 
ln( Z) si λ = 0
Esta transformación tiene el defecto de no preservar el orden original en los datos y de
ser discontinua en λ = 0 ; por esta razón se prefiere usar la transformación potencia
modificada por Box y Cox, o sea
 Z λ − 1 si λ ≠ 0
(
λ) 
Z =
 λ
 ln( Z )
si λ = 0
y, a partir de ella, postular un modelo general de regresión lineal simple
Yi(λ1 ) = α 0 + β X (i λ 2 ) + u i para i = 1, ..., n
el cual brinda como casos especiales los siguientes:
31
1) Modelo lineal (λ1 = λ 2 = 1)
Yi − 1 = α 0 + β (Xi − 1) + u i
⇒ Yi = (1 + α 0 − β ) + β X i + u i
= α + β X i + u i con α = 1 + α 0 − β
2) Modelo log-log (λ 1 = λ 2 = 0 )
ln( Yi ) = α 0 + β ln( X i ) + u i
⇒ Yi = e α0 .e β ln( X i ) .e ui
= A 0 X iβ U i con A 0 = e α 0 y U i = e u i
3) Modelo semilog (λ1 = 0, λ 2 = 1)
ln( Yi ) = α 0 + β(X i − 1) + u i
= (a 0 − ß ) + ßX i + u i
⇒ Yi = e α +βX i U i
con α = α 0 − β y U i = e u i
4) Modelo recíproco (λ1 = 1, λ 2 = −1)
X −1 − 1
Yi − 1 = α 0 + β( i
) + ui
−1
⇒ Yi = (1 + α 0 + β ) + β( − X i− 1 ) + u i
= α − β(
1
) + ui
Xi
con α = 1 + α 0 + β
5) Modelo logarítmico recíproco (λ 1 = 0, λ 2 = −1)
ln( Yi ) = α 0 + β(
Xi−1 − 1
−1
= (a 0 + ß) − ß(
⇒ Yi = e α −β / X i U i
) + ui
1
) + ui
Xi
con α = α 0 + β y U i = e u i
32
La elección de la transformación más apropiada se basa en:
a) La teoría del fenómeno en estudio, la interpretación de los coeficientes y sus
propiedades, por ejemplo su elasticidad, la cual se define como
 dY  X 
Elasticidad = 
 
 dX  Y 
(en el caso del modelo log-log la elasticidad es la constante β).
b) Los datos, que pueden tener un comportamiento gráficamente similar al de las curvas
mostradas a continuación (ver Cap. 3 de Johnston, 1984, pp. 65-71).
Modelo log-log
Y
Y
β >1
0 < β <1
A0
−1 < β < 0
β = −1
A0
β < −1
0
1
X
0
1
X
Modelo semilog
Y
Y
eα
β>0
β<0
eα
0
X
0
X
Modelo recíproco
Y
Y
α
β>0
β<0
α
0
X
0 −β/ α
X
33
Modelo logarítmico - recíproco
Y
eα
0
X
2. Supuesto de varianza constante (Homoscedasticidad).
El supuesto de varianza constante indica que Var (u i ) = E( u 2i ) = σ 2u para i = 1,..., n. Si
este supuesto no es válid o, el modelo apropiado sería
Yi = α * +β * X i + u *i con u *i ∼ N (0, σ i2 ) indep endiente de u *j si i ≠ j
y el método de Máxima Verosimilitud para estimar α * y β * conduce a minimizar la
Suma de Cuadrados Residual
SCR* = ∑ [( Yi − αˆ * −βˆ * X i ) / σ i ]2 = ∑ w i e *i2 con w i = 1 / σ 2i
que, de hecho, da origen al Método de Mínimos Cuadrados Ponderados.
Como resultado de minimizar la SCR*, se obtienen los estimadores
a* = Y * − b * X *
y
b* = ∑ w i y *i x *i / ∑ w i x *i2
con
Y* = ∑ w i Yi / ∑ w i , X* = ∑ wX i / ∑ w i , y*i = Yi − Y * y x *i = X i − X *.
34
Nótese además que
(
)
2
SCR* = ∑ e *i / σ i = ∑ e i2
donde ei corresponde al residuo del modelo
Yi / σ i = α * / σ i + β * X i / σ i + u *i / σ i con u *i / σ i , i = 1,..., n, una m.a. de N(0,1)
de tal forma que los estimadores de mínimos cuadrados ponderados corresponden a los
de MCO en las variables transformadas Yi / σ i y X i / σ i .
Por consiguiente, el Teorema de Gauss-Markov garantiza que a* y b* tengan
varianza mínima, lo cual implica que a y b ya no serán eficientes en estas condiciones.
En resumen, si hay heteroscedasticidad, los MELI de α * y β * son a* y b* (no a y
b, aunque éstos sigan siendo insesgados y consistentes). Ello implica que la inferencia
se verá perjudicada al utilizar equivocadamente los valores de a y b, porque:
i)
los intervalos de confianza van a ser innecesariamente amplios y
ii)
las pruebas de significación serán menos potentes.
Detección. Ya que ei ≈ u i , entonces el supuesto de que Var(ui ) = s 2u se verifica si la
varianza de ei es aproximadamente constante, lo cual se puede apreciar en una gráfica
de e i vs. Ŷi en la que se trataría de detectar algún patrón sistemático, aunque también se
debe graficar a los residuos contra X y contra cualquier otra variable, que puede incluir
el orden (o el tiempo) de observación
ei
ei
Ŷ, X
Ŷ, X
35
ei
ei
Ŷ, X
Ŷ, X
ei
Ŷ , X
Pruebas de carácter más formal para heteroscedasticidad son las de Goldfeld y
Quandt y Park -Glejser (ver Pyndick y Rubinfeld, 1981 pp. 146-150). Sin embargo, la de
Goldfeld y Quandt sólo detecta varianza no-constante, pero no permite ver con claridad
a qué se debe el problema.
Por su lado, la prueba de Park-Glejser formaliza la idea de las gráficas, ya que
postula lo siguiente
Yi = α * + β * X i + u *i
Var (u *i ) = σ 2i = σ 2 X δi e vi con Var (v i ) = cte.
Así pues, al tomar logaritmos se tiene
ln( σ 2i ) = ln( σ 2 ) + δ ln( X i ) + v i
36
si además se usa e*i2 como aproximación σ i2 , se puede estimar el modelo
ln(e *i2 ) = ln( σ 2 ) + δ ln( X i ) + v i = γ + δ ln( Xi ) + v i
y realizar la prueba H 0 : δ = 0 . Si no se rechaza, se concluye que la varianza es constante,
pero si se rechaza, se tienen ya estimados los valores de δ y de γ, tales que
( ) ( )
ln σˆ 2i ~
− ln̂ e*i2 = γˆ + δˆ ln(X i )
de donde se sigue que
ˆ
ˆ ˆ
σˆ 2i ~− e γ Xiδ = σˆ 2 Xiδ
y el modelo con el que se debe trabajar es entonces
Yi
ˆ
X iδ / 2
=
α
ˆ
X δi / 2
+β
Xi
ˆ
X δi / 2
+
u*i
ˆ
X δi / 2
con Var (
u *i
ˆ
X δi / 2
)=
1
ˆ
X iδ
~ σ2
σi2 −
(constante)
así que α y β pueden ahora estimarse por MCO con las variables Yi / X δi / 2 y X1i− δ / 2
ˆ
ˆ
(nótese que ahora α ya no está asociada a una constante, sino a la variable X −i δ / 2 ).
ˆ
Una variante de esta prueba de heteroscedasticidad consiste en postular otra
especificación para el comportamiento de los residuos e*i , por ejemplo se podría
intentar usar
e*i2 = γ + δX i + v i
y, de nuevo, la hipótesis a probar será H0: δ = 0 .
37
3. No-correlación de los errores.
El supuesto de que Cov( u i , u j ) = E ( u i u j ) = 0 puede ser inválido cuando existe algún
orden en los datos que origine “acarreo” de efectos de un dato al siguiente. Por lo
común aparece cuando el orden es cronológico, es decir, cuando se trabaja con series de
tiempo (en tal caso se habla de correlación serial, aunque también se utiliza el término
de autocorrelación).
Para apreciar los efectos de la autocorrelación, supóngase el modelo con datos de
series de tiempo
Yt = α + β X t + u *t
u*t = ρu *t −1 + u t con u 1 ,..., u n una m.a. de N( 0, σ2u )
y, en particular, considérese el caso ρ = 1 . En las siguientes gráficas se considera
primero u t , de ahí se construye u*t y finalmente Yt .
ut
2
0
-2
t
u *t = u *t −1 + u t , u 0 = 0
2
0
-2
t
38
Y
X
et
0
t
Nótese en la gráfica anterior que la recta de MCO se ajusta a los valores observados
mejor que la recta real, lo cual indica un optimismo excesivo, lo que se reflejará en una
r 2 mayor de lo que debería ser, o equivalentemente, una varianza estimada menor que
la verdadera.
Los estimadores a y b seguirán siendo insesgados y consistentes, pero altamente
sensibles a las fluctuaciones muestrales (o sea, para distintas m.a.’s de las u’s, los
resultados serán radicalmente distintos) y además serán ineficientes, porque existen
otros estimadores que satisfacen el Teorema de Gauss-Markov. Por la subestimación de
la varianza del error, se subestima también la varianza de a y de b, y esto invalida las
inferencias.
Detección de autocorrelación.- Mediante gráficas se podría visualizar el patrón de
autocorrelación, tales gráficas son fundamentalmente de los residuos vs. el orden y
residuos vs. residuos retrasados.
39
Autocorrelación positiva
et
et
suave
0
t
e t −1
Autocorrelación negativa
et
et
cambios bruscos
t
e t −1
Existen también diversas pruebas para detectar autocorrelación, aunque la más
conocida es la de Durbin-Watson, ésta consiste en calcular el estadístico
n
2
∑ (e t − e t −1 )
d = t =2
n
2
∑ et
t =1
La distribución de este estadístic o es difícil de obtener, sin embargo Durbin y Watson
proporcionaron los puntos críticos necesarios para utilizar este estadístico en la práctica.
40
El procedimiento de prueba se entiende mejor si se observa que
n
n −1
t =2
n
t =1
n
∑ e 2t − 2 ∑ e t e t −1 + ∑ e 2t
d = t =2
2
∑ et
t =1
n
n
n
∑ e 2t + ∑ e 2t − 2 ∑ e t e t −1
~
− t =1
t =1
t =1
n
2
∑et
t =1
n
n
2 ∑ e 2t / n − 2 ∑ e t e t −1 / n
= t =1
t =1
n
2
∑ et / n
t =1
=
2 V̂ar ( e) − 2Côv (e , e −1 )
Vâr ( e)
= 2 (1 − ρˆ ) si e = 0
en donde la aproximación surge al considerar que
n
n
n −1
n
n
t =2
t =1
t =1
t =2
t =1
2
− ∑ e 2t ~
− ∑ e2t y ∑ e t e t −1 ~
− ∑ e t e t −1 .
∑e t ~
Por lo tanto, se puede ver que 0 ≤ d ≤ 4 , con d = 2 si ρˆ = 0 .
Nótese que el uso de d sólo es válido si e = 0 , lo cual se garantiza cuando existe el
término constante (ordenada al origen) en el modelo y se usa el método de MCO;
además tampoco debe usarse d cuando la variable dependiente está retrasada.
Cuando se desea probar H 0 : ρ = 0 vs. H A : ρ > 0 , se rechaza H 0 si d<2; y para
probar H0 : ρ = 0 vs. HA : ρ < 0 , se rechaza H 0 si 4-d < 2.
Es nec esario saber que la prueba no conduce a conclusiones en algunos casos y por
ello conviene ver la siguiente gráfica
41
Zona de indecisión
Rechace H 0
y opte por H A
dL
0
Autocorrelación
Positiva
Rechace H 0
y opte por H A
No se rechaza H 0
2
du
4 − dL
No autocorrelación
4 − du
4
Autocorrelación
Negativa
d
Si se detecta autocorrelación en el modelo, debe tenerse en cuenta que su causa
puede ser una forma funcional incorrecta o bien el que se haya omitido alguna variable
explicativa. Por ejemplo, si el modelo debería ser
Yt = α + β X 1t + γX 2 t + u t
pero se supuso incorrectamente que
Yt = α + βX1t + v t
resulta que, implícitamente, se tiene v t = γX 2t + u t lo cual se podría ver reflejado en
que los residuos mostrarían un patrón sistemático, posiblemente del tipo de
autocorrelación.
Corrección.- Si existe convencimiento de que se ha detectado autocorrelación de
primer orden, ésta puede corregirse de la manera siguiente. Como se tiene
Yt = α + βX t + u *t con u*t = ρu *t −1 + u t
entonces se obtiene la ecuación de diferencias generalizadas dada por
42
(
Yt − ρYt −1 = (α − ρα ) + β(X t − ρX t −1 ) + u *t − ρu *t −1
)
= α(1 − ρ) + β(X t − ρX t −1 ) + u t
y se aplica MCO a este modelo sin dificultad, porque u t satisface los supuestos, aunque
se requiere transformar los datos Y1 y X1 como sigue, para no reducir el tamaño de
muestra, Y1 1 − ρ 2 y X 1 1 − ρ 2 .
El problema práctico radica en conocer el valor de ρ, y lo que se debe hacer es
estimarlo de acuerdo con alguno de los siguientes métodos: estadístico d, de TheilNagar, Cochrane-Orcutt, Hildreth-Lu o AR(1) en los errores.
El método que se deriva del estadístico d surge de que d ~
− 2 (1 − ρˆ ) , de forma tal
~ 1−
que ρˆ −
d
, sin embargo ésta es una aproximación muy burda. El método de Theil2
Nagar sugiere la modificación siguiente
ρˆ = [n 2 (1 − d / 2 ) + k 2 ] /( n 2 − k 2 )
donde k es el número de coeficientes de la regresión que se estima.
Los métodos de Cochrane-Orcutt y Hildreth-Lu (Pindyck y Rubinfeld, 1981 pp.157159) buscan también estimar el coeficiente ρ, el primero mediante un proceso iterativo
en donde se pretende ir mejorando la estimación de ρ hasta llegar al valor ρ̂ que
minimice la SCR. Sin embargo, no hay garantía de que eso ocurra y además no se
estiman simultáneamente ρ y los demás parámetros del modelo.
El método de Hildreth-Lu en cambio, es un procedimiento de búsqueda del valor de
ρ que minimiza la SCR, dentro de una rejilla de valores típicamente elegidos como 0,
0.1 ,0.2,..., 0.9, 1. Para cada valor de ρ se plantea la ecuación transformada
Yt − ρ Yt −1 = α (1 − ρ ) + β(X t − ρ X t −1 ) + u t
43
o sea
Yt* = α(1 − ρ) + βX*t + u t
la cual se estima por MCO y se registra el valor de la correspondiente SCR, la ρ que
minimice esta suma de cuadrados es la que debe elegirse (la estimación de ρ junto con
los otros parámetros es simultánea). El método AR(1) en los errores usa la ecuación
Yt = α (1 − ρ ) + β X t − βρX t −1 + ρ Yt −1 + u t
y se estiman simultáneamente los parámetros α, β y ρ mediante un método no -lineal.
4.- Normalidad de los errores.
El supuesto de normalidad permite realizar inferencia estadística a partir de los datos
muestrales. Aun cuando la inferencia sobre los parámetros de la regresión (basada en
distribuciones t y F) no se ve seriamente invalidada por la no-normalidad, los
estimadores a y b pueden ser sensibles al efecto de distribuciones con asimetría o colas
pesadas y, por consiguiente, tomar valores que no co rrespondan a la realidad.
Detección. La manera más inmediata de detectar la no-normalidad en los residuos es a
través de un histograma de residuos (o diagrama de punto) en donde se pueda apreciar, a
simple vista, si la distribución es normal o no (de manera aproximada) por su simetría.
e
e
44
Pruebas más formales se basan en el uso de los estadísticos de asimetría y curtosis
de los residuos. Se sabe que, para n grande
n
n
6
b1 = [ ∑ ( e i − e ) 3 / n ] /[ ∑ (e i − e ) 2 / n ] 3 / 2 ≈ N  0, 
i =1
i =1
n
n
i =1
i =1

n
y
b 2 = [ ∑ (e i − e ) 4 / n ] /[ ∑ (e i − e ) 2 / n ] 2 ≈ N  3,

24 

n 
El uso combinado de estos estadísticos es usado en la prueba de Jarque y Bera para
construir el estadístico de normalidad
2
[
]
2
 b1 

 +  b 2 − 3  = n 4b + (b − 3)2 ∼ χ 2
1
2


( 2)
 6/ n 
24
 24 / n 


Corrección. Mediante el uso de transformaciones potencia (por ensayo y error, se
aprovecha el orden de la familia de transformaciones).
5. Supuesto de media cero del error.
Este supuesto se verifica cuando e = 0 , lo cual queda garantizado cuando existe la
ordenada al origen en el modelo y se usa MCO para estimar los parámetros. En caso de
que no exista ordenada al origen y e ≠ 0 se podría provocar un sesgo en la predicción de
valores.
6. No observaciones atípicas, ni cambios estructurales.
Este supuesto está implícito en el hecho de que el modelo que se postula es válido para
todas y cada una de las observaciones , o sea, par a i = 1,…, n.
45
Descargar