LEC/LADE/LEC-DER/LADE-DER CURSO 2003/2004 EXAMEN DE ESTADÍSTICA II 11 de Junio de 2004 PROBLEMA 1: Un profesor quiere saber si la asistencia de los estudiantes a sus clases está relacionada con el horario en que las imparte. Además le interesa saber si hay diferencias en la asistencia dependiendo del sexo. En su curso tiene un total de 60 estudiantes, 30 hombres y 30 mujeres, y tiene clases los martes entre las 9 y las 11 y los jueves entre las 11 y la 1. Para realizar el análisis cuenta durante diez semanas el número de estudiantes presente en cada uno de los dos horarios. Llamamos y11k al número de mujeres presentes el martes de la semana k-esima, k = 1, . . . , 10, y y12k al número de hombres presentes el mismo martes. Sean y21k e y22k los números de mujeres y hombres presentes el jueves de la semana k-ésima. Las observaciones recogidas durante las diez semanas aparecen en la siguiente tabla: Asistencia en las clases Mujeres Martes, 9-11 18 19 16 16 15 14 12 11 10 9 P10 k=1 Jueves, 11-1 Hombres y11k = 140 P10 2 k=1 y11k = 2064 21 22 19 18 18 16 15 14 14 13 P10 k=1 y21k = 170 P10 2 k=1 y21k = 2976 17 18 15 15 15 13 13 11 9 9 P10 k=1 y12k = 135 P10 k=1 2 y12k = 1909 21 20 19 18 17 16 15 13 14 12 P10 k=1 y22k = 165 P10 k=1 2 y22k = 2805 El nuestro modelo para estos datos es yijk = µ + αi + β j + uijk , i = 1, 2, j = 1, 2; k = 1, . . . , 10. donde se asume que las perturbaciones, uijk , satisfacen los supuestos habituales y α1 +α2 = 0; β 1 + β 2 = 0. Se pide: 1. Estimar e interpretar α1 .(0.4 pto) 2. Construir la tabla de análisis de varianza correspondiente a este modelo. (0.8 pto) 3. Contrastar si la influencia del horario y el sexo son individualmente significativas sobre la asistencia media a clase. Utilizar α = 0.05 (0.5 pto) 4. En el supuesto de que el sexo no afecte a la asistencia media, construir la tabla ADEVA adecuada y obtener un intervalo de confianza al 95% para la diferencia entre la asistencia media de los martes y los jueves. (0.4 pto.) 5. Dados los siguientes gráficos en los que se representa el número de asistentes frente al tiempo (en semanas) y sin realizar ningún cálculo adicional discuta cuál de las hipótesis básicas no se cumple en este modelo. (0.4 pto.) 1 No mujeres asistentes a clase los martes No hombres asistentes a clase los martes No mujeres asistentes a clase los jueves No hombres asistentes a clase los jueves Solución: 1. Para estimar α1 calculamos la media y 1· de la asistencia los martes y la media total y ·· de los datos: y 1· y ·· α̂1 140 + 135 = 13.75 20 140 + 135 + 170 + 165 = = 15.25 40 = y 1· − y ·· = −1.5 = α̂1 es la diferencia estimada entre el nivel de la asistencia los martes y el nivel de la asistencia global µ. 2α̂1 es la diferencia estimada entre el nivel de la asistencia los martes y los jueves, es decir, en promedio vienen 3 estudiantes menos los martes que los jueves. Estas dos restricciones son necesarias para identificar los parametros del modelo. Sin esas restricciones no podriamos interpretar α̂1 de la manera previa. 2. Para construir la tabla ADEVA, necesitamos calcular sobre todo las sumas de cuadra- 2 dos: S.C.(T otal) = 2 X 10 2 X X i=1 j=1 k=1 S.C.(Hora) = JK S.C.(Sexo) = IK 2 yijk − ny 2·· = 2064 + 1909 + 2976 + 2805 − 40 · 15.252 = 451.5 2 X (y 2i· − y ·· )2 = 2 · 10 · 2 · 1.52 = 90 i=1 2 X j=1 (y 2·j − y ·· )2 = 2 · 10 · 2 · 0.252 = 2.5 S.C.(Res) = S.C.(T otal) − S.C.(Hora) − S.C.(Sexo) = 451.5 − 90 − 2.5 = 359 Tabla ADEVA: Fuente G.l. Hora 1 Sexo 1 Residual 37 Total 39 Sum. cuad. 90.0 2.5 359.0 451.5 Varianza 90.0 2.5 9.7 11.2875 F 9.2758 0.2577 p-valor 0.0043 0.6147 3. Para H0,α : α1 = 0, el F-valor 90/9.7 = 9.278 es mayor que el percentil F1,37;0.05 = 4.12, por lo tanto rechazamos la hipotesis nula que el dia no tiene efecto. Al otro lado, para H0,β : β 1 = 0, el F-valor 2.5/9.7 = 0.258 es menor que F1,37;0.05 = 4.12, por lo tanto no rechazamos la hipotesis nula que el sexo no tiene efecto. 4. En el modelo Yijk = µ + αi + uijk , un intervalo de confianza para la diferencia µ + α1 − (µ + α2 ) = 2α1 entre la asistencia media los martes y los jueves es ¸ · ŝr 3.084 3.084 I = (ȳ1. − ȳ2 .) ± tn−2;0.025 · √ = −3 − tn−2;0.025 · √ ; −3 − tn−2;0.025 · √ 10 10 10 [−3 − 1.91, −3 + 1.91] = [−4.91, −1.09] en donde hemos utilizado la varianza residual ŝ2r = (359 + 2.5)/38 = 9.513. 5. Si se responde con alguno de los siguientes argumentos la puntuación sera completa (0.4 puntos): a)Hay falta de independencia b)Las distribuciones de los residuos no son las mismas. c)La media de las perturbaciones no es cero. PROBLEMA 2: La oficina de estadística europea EUROSTAT solicita datos sobre las ventas anuales (X) y los beneficios anuales (Y ) durante el año 2003, a 151 empresas españolas seleccionadas al azar. Sin embargo, una de ellas (la no 151) se niega a dar el valor de sus beneficios, y proporciona tan solo sus ventas anuales, con un valor de 500000 euros. Para las empresas que aportan ambos datos, EUROSTAT calcula las siguientes medidas (en unidades de 100000 euros): X̄ = 6, Ȳ = 2, 150 X i=1 Xi 2 = 6000, 150 X Yi 2 = 800, i=1 150 X Xi Yi = 2100. i=1 1. Predecir los beneficios de la empresa no 151, a partir de sus ventas anuales. (0.75 pto.) 3 2. Sabiendo que la suma de los residuos al cuadrado es igual a 30, obtener un intervalo alrededor de la predicción anterior que contenga al valor de los beneficios de la empresa no 151, con un nivel de confianza del 95%. (0.5 pto.) 3. ¿Producen las ventas un efecto lineal significativo en los beneficios, al nivel α = 0.05? (0.75 pto.) 4. ¿Es significativamente distinto de cero el beneficio medio de las empresas con ventas X = 0, al nivel α = 0.05? (0.5pto.) Solución: Se ajusta el modelo Yi = β 0 + β 1 Xi + ui , i = 1, . . . , 150. Para ello, el estimador mínimo cuadrático de la pendiente se calcula mediante la fórmula P150 i=1 Xi Yi − X̄ Ȳ β̂ 1 = P150 = 0.5. 150 2 2 i=1 Xi − X̄ 150 Es decir, el beneficio medio anual de las empresas aumenta en 50000 euros por cada unidad extra vendida. El estimador mínimo cuadrático de la constante del modelo es β̂ 0 = Ȳ − β̂ 1 X̄ = −1 . El beneficio medio de las empresas con ventas X = 0 sería de -100000 euros. Finalmente, la predicción de los beneficios de la empresa no 151 es b151,2 = β̂ 0 + β̂ 1 X151 = 1.5. X Es decir, la predicción de los beneficios es de 150000 euros. 2. El intervalo viene dado por s µ ¶ 1 (X151 − X̄)2 2 Yb151 ∓ tn−2 (0.05/2) SR 1+ + , 2 n nSX 2 tomando n = 150, y donde SR se puede obtener, bien a partir del enunciado, dividiendo la suma de cuadrados de los residuos entre n − 2, bien aplicando la fórmula 2 SR = 2 2 n ), (SY2 − β̂ 1 SX n−2 2 , y luego o bien restando a la variabilidad total nSY2 , la variabilidad explicada β̂ 1 nSX dividiendo entre n − 2. 3. Se ha de resolver el contraste H0 : β 1 = 0 frente a H1 : β 1 6= 0. El estadístico de contraste es s 2 nSX T1 = β̂ 1 2 , SR para n = 150. También se puede realizar el contraste de la regresión, cuyo estadístico F es el cuadrado del estadístico T1 . Como tn−2 (0.025) = 1.96 y T1 > 1.96, entonces rechazamos H0 ; es decir, las ventas producen un efecto lineal significativo en los beneficios. 4 4. Es necesario contrastar H0 : β 0 = 0 frente a H1 : β 0 6= 0. El estadístico de contraste se obtiene mediante la fórmula T0 = r 2 SR n β̂ 0 ³ 1+ X̄ 2 2 SX ´. Dado que |T0 | > 1.96, se obtiene que el beneficio medio de las empresas con ventas X = 0 es significativamente distinto de cero. 5