Tema 2 Análisis de regresión lineal. Estimación Econometría y predicción Matilla, M., Pérez, P. y Sanz, B. McGraw Hill Introducción ¿Qué es la econometría? “Conjunto de técnicas estadísticas que, con ayuda de los datos, pueden ayudarnos a responder preguntas económicas” Las preguntas más interesantes se refieren a, – Efectos “causales” – Predicción Econometría y predicción Matilla, M., Pérez, P. y Sanz, B. McGraw Hill Tipos de datos Se manejan tres tipos de datos, – Datos transversales: datos de individuos (…) recogidos en un único momento temporal – Datos temporales: observaciones sobre una variable(s) a lo largo del tiempo – Datos panel (mixtos): son los que combinan las dos dimensiones, transversal y temporal Econometría y predicción Matilla, M., Pérez, P. y Sanz, B. McGraw Hill Notación – Datos transversales: Yi = 0 + 1 X1i + 2 X2i + ... + k X ki + i – Datos temporales: Yt = 0 + 1 X1t + 2 X2t + ... + k X kt + t – Datos panel (mixtos): Yit = 0 + 1 X1it + 2 X2it + ... + k X kit + it Econometría y predicción Matilla, M., Pérez, P. y Sanz, B. McGraw Hill Modelo de regresión Tratamos de cuantificar la relación entre una variable que nos interesa analizar y otra(s) variables que pueden explicarla La relación la tomamos de la teoría y suponiendo que es lineal: Y = 0 + 1 X1 + 2 X2 + ... + k X k + En este modelo se distinguen cuatro elementos: Yi Explicada Endógena Dependiente Predicha Regresando Econometría y predicción Xi Explicativa Exógena Independiente Predictora Regresora i Error Perturbación Matilla, M., Pérez, P. y Sanz, B. i Parámetro(s) McGraw Hill Modelo de regresión simple • El caso más sencillo es el modelo de regresión simple, Yi =0+1Xi + i Parte explicada Parte no explicada • El error i es la parte no explicada y sobre él haremos diversos supuestos; en particular E(i|Xi) = 0 (*). Se sigue entonces: E (Yi | X i ) = 0 + 1 X i • La igualdad anterior es la función de regresión poblacional (FRP), y coincide con la parte explicada del modelo Econometría y predicción Matilla, M., Pérez, P. y Sanz, B. McGraw Hill Modelo de regresión simple • Si conociésemos 0 y 1 podríamos conocer E(Yi|X=xi) • Como no los conocemos, hemos de estimarlos a partir de los datos de una muestra (lo único de lo que disponemos en la práctica) • Elegimos el método de mínimos cuadrados ordinarios (MCO), porque bajo ciertos supuestos (T4), estos estimadores tienen buenas propiedades estadísticas • El método consiste en elegir como estimadores de 0 y 1 aquellos valores 0 y 1 que minimicen la denominada SCR (Suma Cuadrática Residual) definida como, n n SCR = ˆ = i =1 2 i i =1 ( Yi − ˆ0 − ˆ1 X i ) 2 • n es el tamaño muestral Econometría y predicción Matilla, M., Pérez, P. y Sanz, B. McGraw Hill Estimación: MCO (regresión simple) • Si la muestra es representativa, esperamos que los valores estimados sean cercanos a los parámetros poblacionales. • Para hallar dichos valores simplemente minimizamos SCR: SCR n = (Yi − ˆ0 −ˆ1 X i ) = 0 ˆ0 i =1 n o ˆ = 0 i =1 SCR n = (Yi − ˆ0 −ˆ1 X i ) X i = 0 ˆ1 i =1 i n o ˆ X i =1 i i (1) = 0 (2) • Obtenemos sistema de ecuaciones normales. Desarrollando, n Y = nˆ i =1 i 0 n Y X i =1 Econometría y predicción i i n + ˆ1 X i i =1 n n i =1 i =1 = ˆ0 X i + ˆ1 X i2 Matilla, M., Pérez, P. y Sanz, B. McGraw Hill Estimación: MCO (regresión simple) • Tras algo de álgebra se puede deducir, N βˆ 1 = (X i − X )(Yi − Y ) = i =1 N (X i − X )2 cov( X , Y ) var( X ) , y βˆ 0 = Y − ˆ1 X i =1 • Yˆi = ˆ0 + ˆ1 X i es la función de regresión muestral (FRM), y es la estimación de E(Yi|Xi), o función de regresión poblacional (FRP) • Los valores de Yi admiten una doble descomposición según usemos la FRP o la FRM. Para cada i, Econometría y predicción (FRP) Yi = 0 + 1 X i + i (FRM ) Yi = ˆ0 + ˆ1 X i + ˆi Matilla, M., Pérez, P. y Sanz, B. McGraw Hill Descomposición de Yi Y Yh 0 +1Xi FRP h 0 +1Xh Xh X Descomposición de Yi Y 0 +1Xi FRM Yh 0 +1Xi FRP h h 0 +1Xh 0 +1Xh Xh X Ahorro Regresión de la media Media FRP: 0 +1Xi +i El gráfico relaciona el ahorro familiar con la renta disponible. El ahorro para cada nivel de renta X, muestra una elevada variabilidad, recogida por la función de densidad. A pesar de dicha variabilidad, en media, las familias con más renta, ahorran más −i Renta disponible Econometría y predicción Matilla, M., Pérez, P. y Sanz, B. McGraw Hill Interpretación del modelo • Estimado el modelo 𝑌𝑖 = 𝛽መ0 + 𝛽መ1 𝑋, la pendiente 𝛽መ1 indica la variación de Y cuando X = 1 • Este cambio es constante a lo largo toda la función 𝑑𝑦 dado que = 𝛽መ1 𝑑𝑥 • 𝛽መ0 no tiene tanto interés, es un mero parámetro de ajuste Econometría y predicción Matilla, M., Pérez, P. y Sanz, B. McGraw Hill Interpretación del modelo Por ejemplo en 𝑌𝑖 = −16.6 + 0.85𝑋, X=1 implica que Y = 0.85, para cualquier valor de X 24 Ŷ= −16.6+0.85X Pronósticos 22 .85 E (Y | X = 20) = −0.166 + 0.85·20 = 16.83 20 18 16.83 Y=1 16 1 X=1 14 16 Econometría y predicción 18 20 Matilla, M., Pérez, P. y Sanz, B. 22 24 26 28 McGraw Hill Ejemplo: Salario y educación • Se quiere estudiar el efecto de la formación del trabajador (sus años de educación) sobre su salario. El diagrama de dispersión a partir de una muestra de n datos, es: 90 80 70 Salario 60 50 40 30 20 10 Educ Econometría y predicción Matilla, M., Pérez, P. y Sanz, B. McGraw Hill Ejemplo: Salario y educación • Hay una relación positiva entre ambas variables • Tenemos una muestra de 173 observaciones de que se obtienen los resultados intermedios necesarios para estimar la ecuación, Media salario Media educ 50,50289 51,07654 Cov(salario, educ) 517,0136 Var(educ) 1114,669 Var(salario) 280,0997 • De manera que, cov( X , Y ) 517.0136 = = 0.464, var( X ) 1114.669 ˆ = Y − ˆ X = 50.50289 − 0.464*51.07654 = 26.81 ˆ1 = 0 1 Yˆi = 26.81 + 0.464 X i Econometría y predicción Matilla, M., Pérez, P. y Sanz, B. McGraw Hill Ejemplo: Salario y educación Ŷ=26.81+0.464X 90 1 = 0,464 80 70 Salario 60 50 40 30 26,81 20 10 Educación • Y/X = 0.464: si educ = 1, salario = 0.464 • Es importante el hecho de que Y/X = 0.464, es constante (es consecuencia de que la relación es lineal) Econometría y predicción Matilla, M., Pérez, P. y Sanz, B. McGraw Hill Resultados algebraicos n n i =1 i =1 De (1) ˆi = 0 y (2) ˆi X i = 0 se deducen las siguientes propiedades: 1. La media de los errores estimados, es nula (1) 2. De Yi = ˆ0 + ˆ1 X i + ˆi e Y = ˆ0 + ˆ1 X i , restando, yi = ˆ1 xi + ˆi y de yi = yˆi + ˆi y la anterior se deduce, yˆi = ˆ1 xi 3. Multiplicando por ˆi y sumando, n n yˆ ˆ = ˆ x ˆ = 0 i =1 i i 1 i =1 1i i 4. De esta ecuación se deduce, cov(Yˆi ,ˆi ) = 0 y cov(X1i ,ˆi ) = 0 Econometría y predicción Matilla, M., Pérez, P. y Sanz, B. McGraw Hill Coeficiente de determinación, R2 • Mide la bondad del ajuste, es decir si la recta regresión es una buena descripción de los datos • De yi = yˆi + ˆi se deduce var(Yi ) = var(Yˆi ) + var(ˆi ) , ya que cov(Yˆi ,ˆi ) = 0 • R2 es la proporción de la varianza explicada [var(Ŷi)] respecto de la varianza que queremos explicar [var(Yi)]: R 2 ( ) var (Y ) − var ( ˆ ) var ( ˆ ) = = =1− ;( 0 R var (Y ) var (Y ) var (Y ) var Yˆ 2 1) Si R2 = 1, las observaciones estarían sobre la recta de regresión. Si R2 = 0, la regresión no explicaría nada Econometría y predicción Matilla, M., Pérez, P. y Sanz, B. McGraw Hill Coeficiente de determinación, R2 Se deduce que: R2 = = ( ) = (Yˆ − Y ) / n = (Yˆ − Y ) var Yˆ 2 2 ( Y − Y ) /n var (Y ) 2 ˆ y y 2 = 2 ˆ x )2 ( 1i y 2 = 2 ( Y − Y ) ˆ12 xi2 2 y O también: R = 2 x y ˆ 2 1 2 i 2 = x y x y i i 2 i 2 xi yi xi yi ˆ1 xi yi 2 =r = = 2 2 2 2 x y y i i i i Es decir en regresión simple, R2 es el coeficiente de correlación al cuadrado, o el producto de 𝛽መ1 por el cociente 𝑐𝑜𝑣(𝑋, 𝑌)Τ𝑣𝑎𝑟(𝑌) Econometría y predicción Matilla, M., Pérez, P. y Sanz, B. McGraw Hill Ejemplo: Salario y educación • Con los datos del ejemplo anterior, Media salario Media educ 50,50289 Cov(salar, educ) 51,07654 517,0136 Var(educ) 1114,669 Var(salario) 280,0997 • De manera que, R = 2 ˆ1 cov( X , Y ) var(Y ) = 0.464*517.0136 = 0.856 280.0997 • Es decir, los años de educación explican un elevado porcentaje de la variación del salario: el 85,6 % • En las aplicaciones es habitual encontrar valores de R2 bastante más bajos, pero eso no significa que el modelo sea inútil Econometría y predicción Matilla, M., Pérez, P. y Sanz, B. McGraw Hill