Subido por cristina regaira

Tema 2 1 Regresion Simple

Anuncio
Tema 2
Análisis de regresión lineal. Estimación
Econometría y predicción
Matilla, M., Pérez, P. y Sanz, B.
McGraw Hill
Introducción
¿Qué es la econometría?
“Conjunto de técnicas estadísticas que, con ayuda de
los datos, pueden ayudarnos a responder preguntas
económicas”
Las preguntas más interesantes se refieren a,
– Efectos “causales”
– Predicción
Econometría y predicción Matilla, M.,
Pérez, P. y Sanz, B. McGraw Hill
Tipos de datos
Se manejan tres tipos de datos,
– Datos transversales: datos de individuos (…)
recogidos en un único momento temporal
– Datos temporales: observaciones sobre una
variable(s) a lo largo del tiempo
– Datos panel (mixtos): son los que combinan
las dos dimensiones, transversal y temporal
Econometría y predicción Matilla, M.,
Pérez, P. y Sanz, B. McGraw Hill
Notación
– Datos transversales:
Yi =  0 + 1 X1i + 2 X2i + ... +  k X ki +  i
– Datos temporales:
Yt =  0 + 1 X1t + 2 X2t + ... +  k X kt +  t
– Datos panel (mixtos):
Yit =  0 + 1 X1it + 2 X2it + ... +  k X kit +  it
Econometría y predicción Matilla, M.,
Pérez, P. y Sanz, B. McGraw Hill
Modelo de regresión
Tratamos de cuantificar la relación entre una variable que nos
interesa analizar y otra(s) variables que pueden explicarla
La relación la tomamos de la teoría y suponiendo que es lineal:
Y =  0 + 1 X1 + 2 X2 + ... +  k X k + 
En este modelo se distinguen cuatro elementos:
Yi
Explicada
Endógena
Dependiente
Predicha
Regresando
Econometría y predicción
Xi
Explicativa
Exógena
Independiente
Predictora
Regresora
i
Error
Perturbación
Matilla, M., Pérez, P. y Sanz, B.
i
Parámetro(s)
McGraw Hill
Modelo de regresión simple
• El caso más sencillo es el modelo de regresión simple,
Yi =0+1Xi + i
Parte explicada
Parte no explicada
• El error i es la parte no explicada y sobre él haremos diversos
supuestos; en particular E(i|Xi) = 0 (*). Se sigue entonces:
E (Yi | X i ) =  0 + 1 X i
• La igualdad anterior es la función de regresión poblacional (FRP), y
coincide con la parte explicada del modelo
Econometría y predicción
Matilla, M., Pérez, P. y Sanz, B.
McGraw Hill
Modelo de regresión simple
• Si conociésemos 0 y 1 podríamos conocer E(Yi|X=xi)
• Como no los conocemos, hemos de estimarlos a partir de los datos
de una muestra (lo único de lo que disponemos en la práctica)
• Elegimos el método de mínimos cuadrados ordinarios (MCO),
porque bajo ciertos supuestos (T4), estos estimadores tienen
buenas propiedades estadísticas
• El método
consiste
en elegir como estimadores de 0 y 1 aquellos


valores 0 y 1 que minimicen la denominada SCR (Suma
Cuadrática Residual) definida como,
n
n
SCR =  ˆ = 
i =1
2
i
i =1
(
Yi − ˆ0 − ˆ1 X i
)
2
• n es el tamaño muestral
Econometría y predicción
Matilla, M., Pérez, P. y Sanz, B.
McGraw Hill
Estimación: MCO (regresión simple)
• Si la muestra es representativa, esperamos que los valores
estimados sean cercanos a los parámetros poblacionales.
• Para hallar dichos valores simplemente minimizamos SCR:
SCR n
=  (Yi − ˆ0 −ˆ1 X i ) = 0
ˆ0
i =1
n
o
ˆ = 0
i =1
SCR n
=  (Yi − ˆ0 −ˆ1 X i ) X i = 0
ˆ1
i =1
i
n
o
ˆ X
i =1
i
i
(1)
= 0 (2)
• Obtenemos sistema de ecuaciones normales. Desarrollando,
n
 Y = nˆ
i =1
i
0
n
Y X
i =1
Econometría y predicción
i
i
n
+ ˆ1  X i
i =1
n
n
i =1
i =1
= ˆ0  X i + ˆ1  X i2
Matilla, M., Pérez, P. y Sanz, B.
McGraw Hill
Estimación: MCO (regresión simple)
• Tras algo de álgebra se puede deducir,
N
βˆ 1 =
(X
i
− X )(Yi − Y )
=
i =1
N
(X
i
− X )2
cov( X , Y )
var( X )
, y βˆ 0 = Y − ˆ1 X
i =1
• Yˆi = ˆ0 + ˆ1 X i es la función de regresión muestral (FRM), y es la
estimación de E(Yi|Xi), o función de regresión poblacional (FRP)
• Los valores de Yi admiten una doble descomposición según usemos
la FRP o la FRM. Para cada i,
Econometría y predicción
(FRP)
Yi =  0 + 1 X i +  i
(FRM )
Yi = ˆ0 + ˆ1 X i + ˆi
Matilla, M., Pérez, P. y Sanz, B.
McGraw Hill
Descomposición de Yi
Y
Yh
0 +1Xi FRP
h
0 +1Xh
Xh
X
Descomposición de Yi
Y
 
0 +1Xi FRM
Yh
0 +1Xi FRP
h

h
 
0 +1Xh
0 +1Xh
Xh
X
Ahorro
Regresión de la media
Media
FRP: 0 +1Xi
+i
El gráfico relaciona el ahorro familiar
con la renta disponible. El ahorro
para cada nivel de renta X, muestra
una elevada variabilidad, recogida
por la función de densidad.
A pesar de dicha variabilidad, en
media, las familias con más renta,
ahorran más
−i
Renta disponible
Econometría y predicción Matilla, M.,
Pérez, P. y Sanz, B. McGraw Hill
Interpretación del modelo
• Estimado el modelo 𝑌෠𝑖 = 𝛽መ0 + 𝛽መ1 𝑋, la pendiente
𝛽መ1 indica la variación de Y cuando X = 1
• Este cambio es constante a lo largo toda la función
𝑑𝑦
dado que = 𝛽መ1
𝑑𝑥
• 𝛽መ0 no tiene tanto interés, es un mero parámetro
de ajuste
Econometría y predicción Matilla, M., Pérez, P. y Sanz, B. McGraw Hill
Interpretación del modelo
Por ejemplo en 𝑌෠𝑖 = −16.6 + 0.85𝑋, X=1 implica que Y = 0.85,
para cualquier valor de X
24
Ŷ= −16.6+0.85X
Pronósticos
22
.85
E (Y | X = 20) = −0.166 + 0.85·20 = 16.83
20
18
16.83
Y=1
16
1
X=1
14
16
Econometría y predicción
18
20
Matilla, M., Pérez, P. y Sanz, B.
22
24
26
28
McGraw Hill
Ejemplo: Salario y educación
• Se quiere estudiar el efecto de la formación del trabajador (sus
años de educación) sobre su salario. El diagrama de dispersión a
partir de una muestra de n datos, es:
90
80
70
Salario
60
50
40
30
20
10
Educ
Econometría y predicción
Matilla, M., Pérez, P. y Sanz, B.
McGraw Hill
Ejemplo: Salario y educación
• Hay una relación positiva entre ambas variables
• Tenemos una muestra de 173 observaciones de que se obtienen
los resultados intermedios necesarios para estimar la ecuación,
Media salario
Media educ
50,50289
51,07654
Cov(salario, educ)
517,0136
Var(educ)
1114,669
Var(salario)
280,0997
• De manera que,
cov( X , Y ) 517.0136
=
= 0.464,
var( X )
1114.669
ˆ = Y − ˆ X = 50.50289 − 0.464*51.07654 = 26.81
ˆ1 =
0
1
Yˆi = 26.81 + 0.464 X i
Econometría y predicción
Matilla, M., Pérez, P. y Sanz, B.
McGraw Hill
Ejemplo: Salario y educación
Ŷ=26.81+0.464X
90
1 = 0,464
80
70
Salario
60
50
40
30
26,81
20
10
Educación
• Y/X = 0.464: si educ = 1, salario = 0.464
• Es importante el hecho de que Y/X = 0.464, es constante (es
consecuencia de que la relación es lineal)
Econometría y predicción
Matilla, M., Pérez, P. y Sanz, B.
McGraw Hill
Resultados algebraicos
n
n
i =1
i =1
De (1)  ˆi = 0 y (2)  ˆi X i = 0 se deducen las siguientes propiedades:
1. La media de los errores estimados, es nula (1)
2. De Yi = ˆ0 + ˆ1 X i + ˆi e Y = ˆ0 + ˆ1 X i , restando, yi = ˆ1 xi + ˆi y de
yi = yˆi + ˆi y la anterior se deduce, yˆi = ˆ1 xi
3. Multiplicando por ˆi y sumando,
n
n
 yˆ ˆ = ˆ  x ˆ = 0
i =1
i i
1
i =1
1i i
4. De esta ecuación se deduce,
cov(Yˆi ,ˆi ) = 0 y cov(X1i ,ˆi ) = 0
Econometría y predicción
Matilla, M., Pérez, P. y Sanz, B.
McGraw Hill
Coeficiente de determinación, R2
• Mide la bondad del ajuste, es decir si la recta regresión es una
buena descripción de los datos
• De yi = yˆi + ˆi se deduce var(Yi ) = var(Yˆi ) + var(ˆi ) , ya que cov(Yˆi ,ˆi ) = 0
• R2 es la proporción de la varianza explicada [var(Ŷi)] respecto de la
varianza que queremos explicar [var(Yi)]:
R
2
(
)
var (Y ) − var ( ˆ )
var ( ˆ )
=
=
=1−
;( 0  R
var (Y )
var (Y )
var (Y )
var Yˆ
2
 1)
Si R2 = 1, las observaciones estarían sobre la recta de regresión.
Si R2 = 0, la regresión no explicaría nada
Econometría y predicción
Matilla, M., Pérez, P. y Sanz, B.
McGraw Hill
Coeficiente de determinación, R2
Se deduce que:
R2 =
=
( ) = (Yˆ − Y ) / n = (Yˆ − Y )
var Yˆ
2
2
(
Y
−
Y
)
/n

var (Y )
2
ˆ
y

y
2
=
2
ˆ x )2
(

 1i
y
2
=
2
(
Y
−
Y
)

ˆ12  xi2
2
y

O también:
R =
2
x
y
ˆ
2
1
2
i
2

=


x y
 x y
i i
2
i
2

xi yi  xi yi ˆ1  xi yi

2
 =r =
=
2
2
2
2
x
y
y

 i i
i
i 
Es decir en regresión simple, R2 es el coeficiente de correlación al
cuadrado, o el producto de 𝛽መ1 por el cociente 𝑐𝑜𝑣(𝑋, 𝑌)Τ𝑣𝑎𝑟(𝑌)
Econometría y predicción
Matilla, M., Pérez, P. y Sanz, B.
McGraw Hill
Ejemplo: Salario y educación
• Con los datos del ejemplo anterior,
Media salario
Media educ
50,50289
Cov(salar, educ)
51,07654
517,0136
Var(educ)
1114,669
Var(salario)
280,0997
• De manera que,
R =
2
ˆ1 cov( X , Y )
var(Y )
=
0.464*517.0136
= 0.856
280.0997
• Es decir, los años de educación explican un elevado porcentaje de
la variación del salario: el 85,6 %
• En las aplicaciones es habitual encontrar valores de R2 bastante
más bajos, pero eso no significa que el modelo sea inútil
Econometría y predicción
Matilla, M., Pérez, P. y Sanz, B.
McGraw Hill
Descargar