Pep 3 Estadística II 1. Un corredor de bienes raíces estudió la relación entre X= ingreso anual (en millones de pesos) de los compradores de residencias e Y= precio de venta de la residencia (en millones de pesos). Se obtuvieron datos de las solicitudes hipotecarias correspondientes a 24 profesionales de distintas empresas. El resumen de algunos resultados son: n 24 24 x i 1 24 y i 1 2 i i 942.5 347868.9 24 x i 1 2 i 39915.5 i 116392.8 24 x y i 1 i 24 y i 1 i 2830.6 a. Calcule el coeficiente de correlación de Pearson e interprete su valor. b. Estime el modelo de regresión lineal adecuado e interprete los coeficientes estimados. c. Construya la tabla ANOVA y realice la prueba de significancia del modelo con un nivel de significación del 5%. 2. En el artículo “Chemithermomechanical Pulp from Mixed High Density Hardwoods” (TAPPI, julio de 1988: 145-146) se describe un estudio en el que se obtuvo los siguientes datos para relacionar Y = área superficial específica (cm3/g) con X1 = % de NaOH utilizado como tratamiento químico previo y X2 = tiempo de tratamiento (min) para un lote de pulpa. X1 X2 Y 3 30 5.95 3 60 5.60 3 90 5.44 9 30 6.22 9 60 5.85 9 90 5.61 15 30 8.36 15 60 7.30 15 90 6.43 a) Estime el modelo de regresión lineal múltiple para estos datos, e interprete los coeficientes estimados. b) ¿Qué proporción de la variabilidad observada en el área superficial específica es explicada mediante la relación del modelo? c) ¿El modelo al parecer especifica una relación útil entre la variable dependiente y los predictores? Use un nivel de significación del 5%. d) ¿Es él % de NaOH significativo? ¿Es el tiempo de tratamiento significativo? Use un nivel de significación del 5%. e) Como el valor del coeficiente de determinación aumenta conforme se añaden más términos y la SCT siempre permanece constante, es por esta razón que se sugiere una media alternativa que tome en cuenta el número de términos que figuran en el modelo. Esta medida recibe el nombre de coeficiente de determinación ajustado y su valor es 𝑅𝐴2 = 1 − 𝑛−1 𝑆𝐶𝐸 ( ) . Determine este valor y compárelo con el coeficiente de determinación. 𝑛−𝑝 𝑆𝐶𝑇 f) Realice la validación de supuestos. 3. El siguiente conjunto de datos era tomado sobre grupos de trabajadoras de Inglaterra y Galés en el período de 1970-72. Cada grupo está formado por trabajadores de la misma profesión (médicos, trabajadores textiles, decoradores,...etc,) y en cada uno de los veinticinco grupos muestreados se han observado dos variables: el índice de estandarizado de consumo de cigarrillos (variable regresora x) y el índice de muertes por cáncer de pulmón (variable dependiente y). (Occupational mortality: the registar general’s decennial supplement for England and Wales, 1970-72, series Ds, n.1, London:HMSO,149). a) Estudiar el modelo de regresión lineal del índice de mortalidad frente al índice de fumadores interpretándolos parámetros estimados. b) Calcular la tabla ANOVA. Conclusiones. c) Realice las pruebas de significancia de los parámetros estimados. d) Determine el coeficiente de determinación e interprete su valor. e) Comprobar si se verifican las hipótesis del modelo. x 77 137 117 94 116 102 111 93 88 y 84 116 123 128 155 101 118 113 104 x 102 91 104 107 112 113 110 125 y 88 104 129 86 96 144 139 113 x 133 115 105 87 91 100 76 66 y 146 128 115 79 85 120 60 51 4. Con los datos del archivo Problema 5-2.xlsx estudiar la regresión de la variable respuesta “millas por galón” (inversa del consumo) respecto a las variables regresoras: precio, peso, desplazamiento, potencia (caballos de vapor) aceleración y número de cilindros. Utilizando el algoritmo de “regresión paso a paso” obtener las variables regresoras que deben entrar. b) Utilizando diferentes medidas indicar el mejor modelo de regresión de todos los posibles c) Trabajando con el mejor modelo de regresión lineal seleccionado en el apartado anterior ¿los estimadores contraídos proporcionan mejores resultados que los estimadores pormínimos cuadrados? d) Introduciendo algún término cuadrático ¿se puede mejorar el modelo de regresión? e) Estudiar el modelo de regresión lineal simple de la variable respuesta “millas por galón” respecto al “peso” pero teniendo en cuenta el origen del auto. 5. En el archivo Problema-5-14 se presentan datos de contaminación atmosférica en 41 ciudades de EEUU relativos a los años 1969-71. La variable de interés es Y =“contenido deSO2 en el aire en microgramos por metro cúbico” y se desea estudiar su relación con seis variables regresoras, dos relativas a ecología humana y cuatro al clima. Son las siguientes: a) X1=“temperatura media anual en grados Farenheit”. X2=“número de fábricas con más de 20 empleados” X3=“número de habitantes, en miles” X4=“Velocidad media del viento al año en millas por hora” X5=“precipitación media anual en litros por pulgada” X6=“número medio de días con lluvia al año” El objetivo del estudio es encontrar un modelo de regresión múltiple que explique adecuadamente el comportamiento de la variable Y, mediante el proceso de selección de variables: a) hacia adelante, mostrando todos los pasos del algoritmo. b) hacia atrás, mostrando todos los pasos del algoritmo. Del modelo resultante en a) y b), realice prueba de significancia del modelo, inferencia sobre los parámetros estimados, interpretación de los parámetros estimados, validación de los supuestos del modelo y determine la calidad de ajuste.