Estadı́stica II Curso 2010/2011 Licenciatura en Matemáticas Relación 3 de problemas 1. Supongamos que en el modelo de regresión simple se modifica la variable regresora de manera que cada valor xi se reeemplaza por cxi , donde c 6= 0. (a) Estudia cómo afecta este cambio a los valores de β̂0 , β̂1 , SR2 , R2 y el test t para contrastar H0 : β1 = 0. (b) Supongamos que cada valor Yi se reemplaza por dYi , donde d 6= 0. Repite el apartado (a) en esta nueva situación. 2. Dada una muestra de 10 observaciones, se ha ajustado un modelo de regresión simple por mı́nimos cuadrados, resultando Ybi = 1 + 3xi , R2 = 0,9, SR2 = 2. Calcula un intervalo de confianza para la pendiente de la recta con un nivel de confianza 0.95. ¿Podemos rechazar, con un nivel de significación de 0.05, la hipótesis nula de que la variable x no influye linealmente en la variable Y ? 3. En un experimento se sujeta una goma elástica a una varilla y se estira una longitud x con la mano. Posteriormente, se suelta la goma y se registra la distancia que recorre, y. Los valores obtenidos (en cm) para varias repeticiones del experimento son: 46 54 48 50 44 42 52 y 148 182 173 166 109 141 166 x Para estudiar la relación entre x e y se ajusta con R un modelo de regresión lineal simple yi = β0 + β1 xi + i . Los comandos utilizados y los resultados obtenidos son los siguientes (algunos valores se han sustituido por letras): > reg = lm(y~x) > summary(reg) Call: lm(formula = y ~ x) Coefficients: 1 Estimate Std. Error t value Pr(>|t|) (Intercept) x -63.571 74.332 -0.855 0.4315 4.554 1.543 2.951 0.0319 --Residual standard error: A on 5 degrees of freedom Multiple R-Squared: 0.6352, 8.706 on 1 and 5 DF, Adjusted R-squared: 0.5622 F-statistic: p-value: B > anova(reg) Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value x C 2322.32 2322.32 Residuals 5 1333.68 Pr(>F) 8.7065 0.03186 D --- (a) Calcula los valores A, B, C y D que se han omitido en la salida anterior. (b) Calcula un intervalo de confianza de nivel 0,95 para la distancia esperada que recorrerá la goma elástica si se estira 52 cm y luego se suelta. (c) ¿Se puede afirmar que la pendiente β1 es positiva a nivel α = 0,01? 4. Un estudio sobre el efecto de la temperatura en el rendimiento de un proceso quı́mico proporciona los siguientes resultados: Temperatura (x) -5 -4 -3 -2 -1 0 1 2 3 4 5 Rendimiento (y) 1 5 4 7 10 8 9 13 14 13 18 (a) Asumiendo el modelo Yi = β0 + β1 xi + i , calcula los estimadores mı́nimo cuadráticos de β0 y β1 . ¿Cuál es la recta de regresión estimada? (b) Calcula la tabla ANOVA y contrasta la hipótesis H0 : β1 = 0 con un nivel de significación α = 0,05 (c) Construye un intervalo de confianza de nivel 95 % para β1 (d) Construye intervalos de confianza de nivel 95 % para el valor esperado de la variable respuesta cuando x = −5, x = 0 y x = 3 (e) Construye un intervalo de predicción de nivel 0.95 para el valor Y0 del rendimiento de un nuevo proceso que se realice a temperatura x0 = 3. (f) Analiza los residuos para comprobar si las hipótesis usuales son o no correctas. 5. El fichero cerebro.RData contiene los pesos del cuerpo (en Kg) y del cerebro (en g) de 28 animales. Los logaritmos de ambas variables guardan una relación aproximadamente lineal, pero se identifican tres datos atı́picos que podrı́an distorsionar los resultados. Ajusta un 2 modelo adecuado para estos datos eliminando los tres datos atı́picos y compara los resultados con los que se obtienen sin eliminarlos. 6. Consideremos la siguiente reparametrización del modelo de regresión simple: Yi = α0 + α1 (xi − x̄) + i , i ≡ N (0, σ 2 ) independientes, i = 1, . . . , n. Calcula los estimadores de mı́nimos cuadrados de α0 y α1 , sus correspondientes varianzas y la covarianza entre ambos. 7. Se considera el siguiente modelo de regresión simple a través del origen: Yi = β1 xi + i , i ≡ N (0, σ 2 ) independientes, i = 1, . . . , n. (a) Calcula el estimador de mı́nimos cuadrados de β1 y deduce su distribución. (b) Sean ei , i = 1, . . . , n los residuos del modelo. Comprueba si se cumplen o no las siguientes P P propiedades: ni=1 ei = 0 y ni=1 ei xi = 0. (c) Si la varianza de los errores σ 2 es conocida, deduce la fórmula de un intervalo de confianza de nivel 1 − α para el parámetro β1 . (d) Determina un estimador insesgado de σ 2 . (e) Determina cuál es la nueva fórmula del intervalo de confianza de β1 si σ 2 no es conocida y se sustituye por el estimador del apartado anterior. 8. En el modelo del problema anterior supongamos que xi > 0 y que V (i ) = σ 2 x2i , es decir, no se cumple la hipótesis de homocedasticidad. Calcula en este caso la esperanza y la varianza del estimador de mı́nimos cuadrados βb1 . Consideremos ahora el estimador alternativo β̃1 que Pn 2 2 se obtiene al minimizar la expresión i=1 wi (yi − β1 xi ) , donde wi = 1/xi . Calcula una fórmula explı́cita para β̃1 y, a partir de ella, deduce su esperanza y su varianza. Compara los estimadores βb1 y β̃1 . ¿Cuál es mejor? (A β̃1 se le llama estimador de mı́nimos cuadrados ponderados). 9. Supongamos que los datos del fichero ejboot.RData proceden del modelo de regresión simple en el que las hipótesis habituales se cumplen. En lugar de utilizar los estimadores de mı́nimos cuadrados para estimar β0 y β1 consideramos los estimadores β̃0 y β̃1 que minimizan la mediana de los residuos al cuadrado (en lugar de la suma): med{(Y1 − β0 − β1 x1 )2 , . . . , (Yn − β0 − β1 xn )2 }. Estos estimadores se pueden calcular con R utilizando el comando lmsreg de la librerı́a MASS. (a) Calcula el valor de β̃0 y β̃1 para los datos del fichero ejboot.RData y compara el resultado 3 con los estimadores de mı́nimos cuadrados. (b) En el caso en que β0 = 0, β1 = 1 y σ = 1, genera B = 1000 muestras de tamaño 11 manteniendo fijos los valores que toma la variable regresora, y utiliza estas muestras para aproximar la distribución de β̃1 y, en particular, el valor de su varianza. Compara esta distribución con la del estimador de mı́nimos cuadrados. 4