Econometría I Tema 3: Modelo de regresión múltiple: estimación Ejercicios 1. Considera el seguiente modelo: yi = β0 + β1 xi1 + β2 xi2 + ui Para estimar los parámetros de este modelo tenemos una muestra de 5 observaciones. y x1 2 -1 2 0 5 1 10 2 5 1 x2 2 2 0 -1 0 (a) Entra los datos a Gretl. Con la ayuda de un guión de instrucciones de Gretl, define las matrices apropiadas para estimar los parámetros β0 , β1 y β2 por MCO utilizando la expresión: β̂ = (X 0 X)−1 X 0 y. Incluye en el mismo guión las instrucciones para calcular también el vector de residuos MCO, û, la suma de cuadrados de los residuos, SRC, y el coeficientw de determinación, R2 , utilitzando las expresiones: û ≡ y − X β̂ SRC ≡ û0 û R2 = 1 − SRC ST C (b) Vuelve a estimar el modelo, utilitzando ahora la opción correspondiente del menú de Gretl. Guarda los residuos asociados a esta estimación, utilitzando la opción del menú corresponendiente. Comprueba que los valores obtenidos son los mismos que has obtenido en (a). (c) Escribe la expresión exacta que tendrías que utilizar para calcular û1 . Con la ayuda de una calculadora verifica que el valor coincide con el que has encontrado en los apartados (a) y (b). (d) Con la ayuda de una calculadora, verifica que 5 X ûi = 0. i=1 2. (Wooldridge) La siguiente expresión relaciona el precio medio de la vivienda en una zona, expresado en dolars (price) en función del nivel de contaminación medido por la presencia de óxido nitroso (nox) y del número de habitaciones que tienen en promedio las viviendas de la zona (rooms): M odelo(1) ln(pricei ) = β0 + β1 ln(noxi ) + β2 roomsi + ui 1 (a) ¿Cuáles serían los signos más probables de β1 y β2 ? Razona. (b) Queremos estimar este modelo con la muestra incluida en el fichero hprice2.xls, que incluye datos de 506 zonas diferentes de Boston. Escribe un guión de instrucciones de Gretl que, definiendo las matrices apropiadas, estime por M CO los 4 parámetros del modelo, calcule el vector de residuos MCO, û, la suma de los residuos al cuadrado, SRC, y el coeficiente de determinación, R2 . (c) Estima este modelo por MCO utilitzando directamente los menús de Gretl. (d) Presenta el modelo ajustado en forma analítica, incluyendo los coeficientes estimados y el coeficiente de determinación. (e) Según la estimación obtenida, ¿qué puedes decir sobre la diferencia de precio esperada entre dos viviendas de la misma zona si una tiene una habitación más que la otra? (f) Según la estimación obtenida, ¿qué puedes decir sobre la diferencia de precio esperada entre dos viviendas que tienen el mismo número de habitaciones, pero una pertenece a una zona que tiene un 1% más de contaminación que la otra? (g) ¿Bajo que condición podemos utilizar la estimación de β1 como medida del efecto que una variación de la contaminación tiene sobre la variación de los precios? ¿Crees que esta condición es probable que se cumpla? Comenta de forma rigurosa. 3. Continuando con la pregunta anterior, considera ahora que se propone estimar con los mismos datos el siguiente modelo: M odelo(2) ln(pricei ) = β0 + β1 ln(noxi ) + β2 roomsi + β3 crimei + β4 ln(disti ) + ui donde crime=número de actividades criminales per cápita en la zona y dist=distancia de la zona de viviendas a núcleos de ocupación. (a) ¿Cuáles crees que serán los signos más probables de β3 y β4 ? Razona brevemente. (b) Estima por MCO este modelo con los mismos datos (hprice2.xls). Comprueba que se verifica tu respuesta al apartado anterior. (c) Compara la bondad de ajuste del M odelo(1) con la del M odelo(2), utilizando el coeficiente de determinación. ¿Ha salido la comparación como esperabas? Argumenta brevemente. (d) Compara la bondad de ajuste del M odelo(1) con la del M odelo(2), utilizando el coeficiente de determinación ajustado. ¿Ha salido la comparación como esperabas? Argumenta brevemente. 4. Considera el siguiente modelo: yi = β0 + β1 xi1 + β2 xi2 + ui , 2 i = 1, ..., 8. y los siguientes datos: y x1 x2 10 1 0 25 3 -1 32 4 0 43 5 1 58 7 -1 62 8 0 67 10 -1 71 10 2 (a) Introduce los datos en Gretl. Estima por MCO los parámetros β0 , β1 y β2 , utilizando la opción correspondiente del menú de Gretl. (b) Escribe un guión de comandos de Gretl que calcule el estimador MCO de los parámetros β0 , β1 β2 aplicando la expresión: β̂ = (X 0 X)−1 X 0 y. Incluye en el mismo guión las instrucciones para calcular la estimación de la varianza de las perturbaciones y las desviaciones estándar estimadas de βˆ0 , βˆ1 y βˆ2 , utilizando las expresiones: σ̂ 2 = SRC n − (K + 1) y ee(βˆ0 ) = q σ̂ 2 (X 0 X)−1 11 ee(βˆ1 ) = q σ̂ 2 (X 0 X)−1 22 ee(βˆ2 ) = q σ̂ 2 (X 0 X)−1 33 Comprueba que coinciden con las que te ha dado Gretl utilizando menús en el apartado 4a. (c) Presenta la recta de regresión ajustada en forma analítica incluyendo la desviación estándar estimada del estimador correspondiente. 5. Volvamos a considerar los datos del fichero hprice2.xls, presentados en los ejercicios 2 y 3. Con estos datos queremos estimar de nuevo el M odelo(2): M odelo(2) ln(pricei ) = β0 + β1 ln(noxi ) + β2 roomsi + β3 crimei + β4 ln(disti ) + ui (a) Con la ayuda de los menús de Gretl, estima por M CO el M odelo(2) con la muestra dada. Presenta el output de la estimación como respuesta. (b) Escribe un guión de instrucciones de Gretl que, definiendo las matrices apropiadas, estime por M CO los 5 parámetros del modelo y calcule las desviaciones estándar estimadas. Comprueba que las estimaciones de los parámetros y las desviaciones estándar estimadas coinciden con las que has encontrado en el apartado 5a. 3 6. Considera los datos del fichero hprice2.xls y el M odelo(2) del ejercicio 5: M odelo(2) ln(pricei ) = β0 + β1 ln(noxi ) + β2 roomsi + β3 crimei + β4 ln(disti ) + ui Con estos datos y este modelo queremos verificar que la varianza de β̂2 , por ejemplo, se puede reescribir como: 2 var(β̂2 ) = σ 2 (X 0 X)−1 33 = σ 1 1 · ST C2 1 − R22 P donde ST C2 ≡ i (roomsi − rooms)2 y R22 es el coeficiente de determinación de la regresión auxiliar en la cual el regresor rooms actúa como una variable dependiente respecto de la recta de regresores. Es decir, R22 es el coeficiente de determinación de la regresión auxiliar: roomsi = α0 + α1 ln(noxi ) + α2 crimei + α3 ln(disti ) + vi . (a) Utilizando los cálculos que has hecho en el ejercicio 5, detalla los elementos de la matriz (X 0 X)−1 . (b) Utilizando una hoja de cálculo o un guión de instrucciones de Gretl calcula: ST C2 . (c) Fent l’estimació que creguis adient, troba R22 . (d) Amb tots els elements anteriors comprova que efectivament: (X 0 X)−1 33 = 1 1 . · ST C2 1 − R22 7. El siguiente modelo: yi = β0 + β1 xi1 + β2 xi2 + ui se quiere estimar con una muestra en la que cada observación del regresor x2 es exactamente igual al doble de la observación del regresor x1 . Es decir xi2 = 2 · xi1 . (a) Encuentra las ecuaciones normales (es decir las condiciones de primer orden asociadas a la derivación del estimador MCO) de los parámetros β0 , β1 y β2 . Dado que xi2 = 2 · xi1 , ¿qué puedes concluir (en relación a solucionar este sistema para β̂0 , β̂1 y β̂2 ) estudiando las ecuaciones normales que has encontrado? (b) Considera que para estimar por MCO los parámetros β0 , β1 y β2 quisiésemos utilizar directamente la expresión: β̂ = (X 0 X)−1 X 0 y ¿Qué problema tendríamos? (c) ¿Qué conclusión sacarías de lo que has observado en los apartados 7a y 7b? 4 8. (Wooldridge) Un problema que interesa a la sociedad es determinar los efectos que tiene sobre la salud del recién nacido fumar durante el embarazo. Una medida de la salud del recién nacido es su peso, ya que cuanto menos peso tiene al nacer, aumenta la probabilidad de contraer enfermedades. Se presenta el siguiente modelo: M odelo(1) bwghti = β0 + β1 cigsi + β2 f aminci + ui donde bwght es el peso al nacer en onzas (1 onza=0.028Kg), cigs mide el consumo de tabaco de la madre (número de cigarrillos al dia durante el embarazo) y f aminc es la renta familiar (miles de dólares/año). (a) Estima el modelo con los siguientes datos bwght.xls. (b) Presenta la recta de regresión ajustada de forma analítica incluyendo, debajo de cada coeficiente estimado, la desviación estandár estimada correspondiente entre parentesis. Incluye también el coeficiente de determinación. (c) Comenta los resultados. ¿Han salido los signos de β1 y β2 como esperabas? ¿la bondad de ajuste? (d) ¿Crees que las observaciones de cigs y de f aminc estan correlacionadas? Razona brevemente utilizando tu intuición. No calcules ningún estadístico. (e) Estima la regresión apropiada para calcular el factor inflador de la varianza asociada a la estimación de β2 (F IV2 ). (f) Aparte de utilizar el factor inflador de la varianza, ¿qué otro estadístico podrías hacer servir para analizar si esta correlación esta presente en la muestra utilizada? Calcula el valor de este estadístico. Encaja su valor con el que has comentado en el apartado 8d? (g) Utiliza la opción de Gretl correspondiente para calcular el factor inflador de la varianza asociado a la estimación de β1 (F IV1 ) y a la estimación de β2 (F IV2 ). Comenta. (h) Con los mismos datos estima el modelo: M odelo(2) bwghti = β0 + β1 cigsi + ui Compara la estimación de β1 obtenida utilizando el M odelo(2) con la obtenida utilizando el M odelo(1). ¿Se confirma o contradice la respuesta que has encontrado analizando la posible presencia de colinealidad? (i) ¿Te sorprende que el coeficiente de determinación asociado a la estimación del M odelo(2) sea más pequeña que la asociat al M odelo(1)? 9. Considera que con los mismos datos del ejercicio anterior queremos estimar ahora el siguiente modelo: M odelo(1)∗ bwghti = β0∗ + β1∗ cigsi + β2∗ f aminc∗i + ui donde f aminc∗ es la renta familiar medida en dólares. (a) ¿Cómo será el valor de las estimaciones de los parámetros del M odelo(1)∗ en relació a las del M odelo(1)? Justifica la resposta utilitzant àlgebra matricial per comparar l’estimació dels dos models. 5 (b) ¿Cómo será el coeficiente de determinación asociado a la estimación del M odelo(1)∗ en relación a la del M odelo(1)? Justifica la respuesta. (c) Estima el M odelo(1)∗ con los datos del fichero bwght.xls y verifica que el resultado obtenido es el que esperabas. Recuerda que has de definir la variable faminc*. 10. Estamos interesados en estudiar la relación entre los años de educación de una persona en relación a su entorno familiar. Se propone este modelo: educi = β0 + β1 sibsi + β2 meduci + β3 f educi + ui donde educi =años de educación de una persona i, sibsi =número de hermanos de la persona i, meduci =número de años de educación de la madre y f educi =número de años de educación del padre. (a) Con la ayuda de Gretl, estima este modelo utilizando los datos incluidos en el fichero educ.xls. (b) Presenta la recta de regresión ajustada de forma analítica incluyendo, debajo de cada coeficiente estimado, la desviación estandár estimada correspondiente entre paréntesis. Incluye también el coeficiente de determinación. (c) Comenta los resultados: ¿Han salido los signos de los coeficientes tal como esperabas? ¿La bondad de ajuste? (d) ¿Crees que la estimación puede estar afectada per la presencia de colinealidad? ¿Entre qué variables? (e) Utiliza la opción de Gretl correspondiente para calcular el factor inflador de la varianza asociado a cada regresor. ¿Crees que la presencia de colinealidad puede haber afectado las estimaciones? (f) Estima la regresión apropiada que te permita calcular el factor inflador de la varianza asociado al regresor sibs (F IV1 ). Comprueba que coincide con el que has calculado en el apartado anterior. 11. Un econometra relaciona el logaritmo natural de los salarios, lnS, con los años de educación, educ, y años de experiencia en el mercado laboral, ex, según el siguiente modelo de regresión: M odelo(1) lnSi = β0 + β1 · edi + β2 · exi + ui (a) Utilizando los datos del fichero mincer.gdt estima este modelo por M CO. Este fichero incluye datos de 3010 personas de los Estados Unidos circa el año 2000. Presenta como respuesta el output de la estimación y la recta ajustada, incluyendo debajo de cada estimación de los parámetros la desviación estándar estimada. Incluye también el coeficiente de determinación. Comenta el resultado de la estimación (¿han salido los signos de los coeficientes como esperabas? ¿La bondad de ajuste?). (b) ¿Qué podrías decir sobre la variación esperada de los salarios ante un año adicional de educación? 6 (c) ¿Qué podrías decir sobre la variación esperada de los salarios ante un año adicional de experiencia? (d) El econometra considera alternativamente un segundo modeli para analizar el comportamiento de los salarios: M odelo(2) lnSi = β0 + β1 · edi + β2 · exi + β3 · ex2i + ui Explica la diferencia entre el M odelo(1) y el M odelo(2). (e) Estima el M odelo(2) con las mismos datos que has estimado el M odelo(1). Presenta como respuesta el output de la estimación y la recta ajustada, incluye debajo de cada estimación de los parámetros la desviación estándar estimada. (f) Interpreta los resultados obtenidos en la estimación de este segundo modelo. ¿Cómo interpretas el signo de la estimación del parámetro β3 ? ¿Cómo canviaría la respuesta ahora a la pregunta 11c? (g) En términos de la bondad de ajuste, ¿qué modelo escogerías? 12. El fichero nerlove.gdt contiene datos del coste de producción de electricidad de 145 empresas de los Estados Unidos para 1950, analizados por el economista Marc Nerlove en su clásico estudio de 1963 sobre los rendimientos a escala en la producción de energia eléctrica en los Estados Unidos. Las variables incluidas en el fichero són: firm, que identifica la empresa y no hace falta utilizar; cost (C) coste total de producción; output el nivel de output de la empresa; labor, el coste de una unidad de trabajo; fuel, el coste de una unidad de fuel y capital, el coste de una unidad de capital. (a) Con la ayuda de Gretl estima el siguiente modelo para M QO utilizando los datos del fichero nerlove.gdt. ln(costi ) = β0 + β1 ln(outputi ) + β2 ln(labori ) + β3 ln(f ueli ) + β4 ln(capitali ) + ui El fichero ya esta en formato de datos Gretl y lo puedes abrir directamente con este programa. Recuerda que antes de estimar el model has de generar los logaritmos de coste, output, labor, fuel y capital. Presenta el resultado de la estimación en forma de recta ajustada, incluyendo las estimaciones de los parámetros, las desviaciones estándar estimadas entre paréntesis y el coeficiente de determinación. Incluye también el output de Gretl. (b) Comenta los resultados de la estimación (signos de los coeficientes y bondad de ajuste). (c) Haz un gráfico de los residuos M CO en función de ln(output). ¿Ves alguna indicación de que alguno de los supuestos de Gauss − M arkov no se cumplan? (d) Una medida de rendimientos a escala es la inversa de la derivada de ln(cost) −1 ln(cost) respecto ln(output), es decir RE = ∂∂ln(output) . Si RE > 1, hay rendimientos crecientes a escala y si RE = 1, hay rendimientos constantes a escala. Encuentra RE a partir de la estimación del modelo (1). ¿Qué tipo de rendimientos has encontrado? 7 (e) Considera que añadimos otro regresor al modelo inicial: ln(costi ) = β0 + β1 ln(outputi ) + β2 ln(labori ) + β3 ln(f ueli ) + + β4 ln(capitali ) + β5 (ln(outputi ))2 + ui Utilizando la misma muestra, estima este segundo modelo. Presenta el resultado de la estimación en forma de recta ajustada. Incluye el output de estimar este segundo modelo. (f) Haz un gráfico de los residuos M CO del modelo (2) en función de ln(output). ¿Ves alguna mejora respecto al modelo estimado en el apartado 12a? (g) Con la ayuda de Gretl, define RE a partir de la estimación de este segundo modelo. Fíjate que ahora no es un valor constante, si no que es una variable que esta en función de ln(output). Con la ayuda de Gretl haz un gráfico de RE en función de ln(output). ¿Qué conclusión puedes sacar sobre el tipo de rendimientos a escala en esta indústria? 8