MODELO DE REGRESIÓN MULTIPLE 31 . - Los datos de la siguiente tabla corresponden a un estudio sobre la contaminación acústica realizado en distintas zonas de la misma ciudad. La variable y mide la contaminación acústica en decibelios y las variables x1 y x2 la hora del dı́a y el tráfico de vehı́culos por minuto, respectivamente. Decibelios Hora Vehı́culos 0.9 14 1 1.6 15 2 4.7 16 5 2.8 13 2 5.6 17 6 2.4 18 4 1.0 19 3 1.5 20 4 Analizar un modelo de regresión múltiple para explicar el número de decibelios en función de las otras variables. 32 . - En el Ayuntamiento de Madrid se hizo un estudio hace varios años sobre la conveniencia de instalar mamparas de protección acústica en una zona de la M-30. Un técnico del Ayuntamiento piensa que si el ruido afecta mucho a los habitantes de la zona esto debe reflejarse en los precios de las viviendas. Su idea es que el precio de una casa, en miles de pesetas, en esa zona (y) depende del número de metros cuadrados (x1 ), del número de habitaciones (x2 ) y de la contaminación acústica, medida en decibelios, (x3 ). Para una muestra de 20 casas vendidas en los últimos tres meses, se estima el siguiente modelo: ŷi = 5970 + 22,35 x1i (2,55) + 2701,1 x2i (1820) − 67,6730 x3i (15,4) R2 = 0,9843, donde las desviaciones tı́picas (estimadas) de los estimadores de los coeficientes aparecen entre paréntesis. (a) Calcular el efecto que tendrı́a sobre el precio un descenso de 10 decibelios. (b) Contrastar con α = 0,05 la hipótesis nula de que el número de habitaciones no influye en el precio. (c) Con α = 0,05, ¿se puede afirmar que el efecto de la contaminación acústica es reducir el precio? (d) Contrastar con α = 0,05 la hipótesis nula de que las tres variables no influyen conjuntamente en el precio. (e) Estimar el precio medio de las casas (no incluidas en la muestra) que tienen 100 metros cuadrados, dos habitaciones y una contaminación acústica de 40 decibelios. (f) ¿Qué hipótesis hemos tenido que asumir sobre el modelo que estima el técnico? 33 . - Para un estudio sobre el consumo de aceite de oliva en el mundo se ha tomado una muestra de 30 paı́ses. En cada paı́s se estudia la cantidad de aceite de oliva que se consume por persona (y), la renta per capita (x1 ), el precio de la mantequilla (x2 ) y los precios del aceite de oliva (x3 ) y de girasol (x4 ). El modelo de regresión múltiple que se ha estimado es: log y = −0,05+ 0,09 (0.09) log x1 + 0,15 log x2 − 0,29 (0.1) (0.05) log x3 + 0,23 log x4 (0.08) R2 = 0,75 Los números entre paréntesis son las estimaciones de las desviaciones tı́picas de los estimadores de cada parámetro. (a) ¿Cómo afectarı́a al consumo de aceite de oliva que aumente su precio un 1 %? (b) Obtener un intervalo de confianza al 99 % para el coeficiente del precio del aceite de oliva. (c) Contrastar H0 : la renta no influye en la cantidad de aceite de oliva que se consume. (d) Contrastar H0 : el precio de la mantequilla no influye en la cantidad de aceite de oliva que se consume. (e) En base al modelo que hemos estimado, ¿podemos afirmar que un aumento en el precio del aceite de girasol implicará un mayor consumo de aceite de oliva? (f) Efectuar el contraste de la regresión. Nota: Tomar α = 0, 01 en todos los contrastes que haya que efectuar. 34 . - Se dispone de datos sobre la “duración de la estancia (en horas) en la UVI” de 17 pacientes, de su “ı́ndice de gravedad” y del “tamaño del hospital” (codificado con 0 si es grande y con 1 si es pequeño): duración 24 48 37 81 48 2 24 64 12 8 4 36 12 8 4 88 54 gravedad 22 80 55 140 90 10 40 120 30 25 10 77 32 14 15 200 120 tamaño 0 0 0 1 0 1 1 1 1 1 1 0 0 1 1 0 0 Se lleva a cabo un análisis de regresión lineal con el SPSS para tratar de explicar la duración de la estancia en función de las otras dos variables. 10 a) Plantear el modelo utilizado. b) ¿Es razonable asumir normalidad, linealidad y homocedasticidad? c) Aceptando la validez del modelo de regresión, ¿cuál es el aumento estimado en la duración de la estancia si el ı́ndice de gravedad aumenta 5 unidades? ¿Cuál es la duración media estimada de estancia en la UVI de hospitales pequeños para los enfermos con un ı́ndice de gravedad de 50? d) Con una confianza del 95 %, ¿se puede aceptar que el modelo es explicativo? ¿Influye el ı́ndice de gravedad en la duración de la estancia? ¿Influye el tamaño del hospital en la duración de la estancia? 35 . - Se desea hacer una regresión lineal que explique el contenido en sales minerales de la parte dominante del húmero en función de X1 =“Contenido en sales minerales de la parte dominante del radio” y de X2 =“Contenido en sales minerales de la parte no dominante del radio”. Se toman datos en 5 personas y se analizan con el SPSS (los resultados se ofrecen a continuación). ¿Son explicativas las variables X1 y X2 ? ¿Es explicativo el modelo en su conjunto? Dar respuestas razonadas y claras, al nivel de significación 0,05. A partir de las respuestas anteriores obtener conclusiones razonadas sobre cuál serı́a el procedimiento a seguir para quedarnos con un modelo de regresión adecuado. Modelo 1 Modelo 1 Modelo 1 Resumen del modelo R R cuadrado R cuadrado corregida .989 .977 .955 Regresión Residual Total Error tı́p. de la estimación 3.4990E-02 ANOVA Suma de Media cuadrados gl cuadrática .106 2 5.289E-02 2.449E-03 2 1.224E-03 .108 4 Coeficientes Coeficientes no estandarizados B Error tı́p. (Constante) .619 .136 Radio (parte dominante) .471 .326 Radio (parte no dominante) .956 .342 F 43.196 Coeficientes estandarizados Beta .345 .668 Sig. .023 t 4.544 1.444 2.798 Sig. .045 .286 .107 36 . - En un conjunto de 60 ciudades, se estudia la tasa de mortalidad (decesos anuales por cien mil habitantes) en función del tamaño medio de las viviendas, del tanto por ciento de los empleados en trabajos no manuales, y del tanto por ciento de las familias con ingresos bajos. Los resultados obtenidos son los siguientes: Modelo 1 Modelo 1 Regresión Residual Total (Constante) Tamaño casas % trab. no manuales % fam. ing. bajos ANOVA Suma de cuadrados gl 57083.775 3 171223.869 56 228307.644 59 Media cuadrática 19027.925 3057.569 Coeficientes Coeficientes no estandarizados B Error tı́p. 628.288 237.174 99.033 60.081 -1.780 1.731 4.936 1.799 F 6.223 Coeficientes estandarizados Beta .215 -0.132 .330 Sig. .001 t 2.649 1.648 -1.028 2.744 Sig. .010 .105 .308 .008 a. Indica el modelo usado en el análisis y las hipótesis asumidas. b. A la vista de los gráficos de la figura 1, ¿es razonable asumir estas hipótesis? Explicar detalladamente las conclusiones. 11 10 3 2 8 1 Regresi n Residuo tipificado 6 Frecuencia 4 2 0 -1 -2 -3 -2 0 Regresi n Residuo tipificado -1 0 1 2 3 Regresi n Valor pronosticado tipificado Figura 1: Gráficos del ejercicio 36 c. A nivel de significación 0,01, decidir si las variables consideradas son explicativas y si el modelo es conjuntamente explicativo. Indicar en qué se fundamenta cada respuesta. d. Dar una estimación puntual de la tasa de mortalidad de una ciudad en la que el tamaño medio de las viviendas fuera 3,2, el % de trabajadores no manuales fuera del 51 %, y el % de familias con ingresos bajos fuera del 11 %. Dar una estimación para la tasa de mortalidad media para los mismos valores de las variables regresoras. e. A nivel de significación 0,05, ¿podemos concluir que la variable (( % de familias con ingresos bajos)) influye positivamente en la tasa de mortalidad? 12