LEC/LADE/LEC-DER/LADE-DER CURSO 2003/2004 EXAMEN DE ESTADÍSTICA II 11 de Junio de 2004

Anuncio
LEC/LADE/LEC-DER/LADE-DER
CURSO 2003/2004
EXAMEN DE ESTADÍSTICA II
11 de Junio de 2004
PROBLEMA 1:
Un profesor quiere saber si la asistencia de los estudiantes a sus clases está relacionada
con el horario en que las imparte. Además le interesa saber si hay diferencias en la asistencia
dependiendo del sexo. En su curso tiene un total de 60 estudiantes, 30 hombres y 30 mujeres,
y tiene clases los martes entre las 9 y las 11 y los jueves entre las 11 y la 1. Para realizar el
análisis cuenta durante diez semanas el número de estudiantes presente en cada uno de los
dos horarios. Llamamos y11k al número de mujeres presentes el martes de la semana k-esima,
k = 1, . . . , 10, y y12k al número de hombres presentes el mismo martes. Sean y21k e y22k los
números de mujeres y hombres presentes el jueves de la semana k-ésima. Las observaciones
recogidas durante las diez semanas aparecen en la siguiente tabla:
Asistencia en las clases
Mujeres
Martes, 9-11
18 19 16 16 15 14 12 11 10 9
P10
k=1
Jueves, 11-1
Hombres
y11k = 140
P10
2
k=1 y11k
= 2064
21 22 19 18 18 16 15 14 14 13
P10
k=1
y21k = 170
P10
2
k=1 y21k
= 2976
17 18 15 15 15 13 13 11 9 9
P10
k=1 y12k
= 135
P10
k=1
2
y12k
= 1909
21 20 19 18 17 16 15 13 14 12
P10
k=1 y22k
= 165
P10
k=1
2
y22k
= 2805
El nuestro modelo para estos datos es
yijk = µ + αi + β j + uijk , i = 1, 2, j = 1, 2; k = 1, . . . , 10.
donde se asume que las perturbaciones, uijk , satisfacen los supuestos habituales y α1 +α2 = 0;
β 1 + β 2 = 0.
Se pide:
1. Estimar e interpretar α1 .(0.4 pto)
2. Construir la tabla de análisis de varianza correspondiente a este modelo. (0.8 pto)
3. Contrastar si la influencia del horario y el sexo son individualmente significativas sobre
la asistencia media a clase. Utilizar α = 0.05 (0.5 pto)
4. En el supuesto de que el sexo no afecte a la asistencia media, construir la tabla ADEVA
adecuada y obtener un intervalo de confianza al 95% para la diferencia entre la asistencia
media de los martes y los jueves. (0.4 pto.)
5. Dados los siguientes gráficos en los que se representa el número de asistentes frente al
tiempo (en semanas) y sin realizar ningún cálculo adicional discuta cuál de las hipótesis
básicas no se cumple en este modelo. (0.4 pto.)
1
No mujeres asistentes a clase los martes
No hombres asistentes a clase los martes
No mujeres asistentes a clase los jueves
No hombres asistentes a clase los jueves
Solución:
1. Para estimar α1 calculamos la media y 1· de la asistencia los martes y la media total y ··
de los datos:
y 1·
y ··
α̂1
140 + 135
= 13.75
20
140 + 135 + 170 + 165
=
= 15.25
40
= y 1· − y ·· = −1.5
=
α̂1 es la diferencia estimada entre el nivel de la asistencia los martes y el nivel de la
asistencia global µ. 2α̂1 es la diferencia estimada entre el nivel de la asistencia los
martes y los jueves, es decir, en promedio vienen 3 estudiantes menos los martes que
los jueves.
Estas dos restricciones son necesarias para identificar los parametros del modelo. Sin
esas restricciones no podriamos interpretar α̂1 de la manera previa.
2. Para construir la tabla ADEVA, necesitamos calcular sobre todo las sumas de cuadra-
2
dos:
S.C.(T otal) =
2 X
10
2 X
X
i=1 j=1 k=1
S.C.(Hora) = JK
S.C.(Sexo) = IK
2
yijk
− ny 2·· = 2064 + 1909 + 2976 + 2805 − 40 · 15.252 = 451.5
2
X
(y 2i· − y ·· )2 = 2 · 10 · 2 · 1.52 = 90
i=1
2
X
j=1
(y 2·j − y ·· )2 = 2 · 10 · 2 · 0.252 = 2.5
S.C.(Res) = S.C.(T otal) − S.C.(Hora) − S.C.(Sexo) = 451.5 − 90 − 2.5 = 359
Tabla ADEVA:
Fuente
G.l.
Hora
1
Sexo
1
Residual 37
Total
39
Sum. cuad.
90.0
2.5
359.0
451.5
Varianza
90.0
2.5
9.7
11.2875
F
9.2758
0.2577
p-valor
0.0043
0.6147
3. Para H0,α : α1 = 0, el F-valor 90/9.7 = 9.278 es mayor que el percentil F1,37;0.05 = 4.12,
por lo tanto rechazamos la hipotesis nula que el dia no tiene efecto.
Al otro lado, para H0,β : β 1 = 0, el F-valor 2.5/9.7 = 0.258 es menor que F1,37;0.05 =
4.12, por lo tanto no rechazamos la hipotesis nula que el sexo no tiene efecto.
4. En el modelo Yijk = µ + αi + uijk , un intervalo de confianza para la diferencia µ +
α1 − (µ + α2 ) = 2α1 entre la asistencia media los martes y los jueves es
¸
·
ŝr
3.084
3.084
I = (ȳ1. − ȳ2 .) ± tn−2;0.025 · √ = −3 − tn−2;0.025 · √ ; −3 − tn−2;0.025 · √
10
10
10
[−3 − 1.91, −3 + 1.91] = [−4.91, −1.09]
en donde hemos utilizado la varianza residual ŝ2r = (359 + 2.5)/38 = 9.513.
5. Si se responde con alguno de los siguientes argumentos la puntuación sera completa
(0.4 puntos):
a)Hay falta de independencia
b)Las distribuciones de los residuos no son las mismas.
c)La media de las perturbaciones no es cero.
PROBLEMA 2:
La oficina de estadística europea EUROSTAT solicita datos sobre las ventas anuales (X)
y los beneficios anuales (Y ) durante el año 2003, a 151 empresas españolas seleccionadas
al azar. Sin embargo, una de ellas (la no 151) se niega a dar el valor de sus beneficios, y
proporciona tan solo sus ventas anuales, con un valor de 500000 euros. Para las empresas
que aportan ambos datos, EUROSTAT calcula las siguientes medidas (en unidades de 100000
euros):
X̄ = 6, Ȳ = 2,
150
X
i=1
Xi 2 = 6000,
150
X
Yi 2 = 800,
i=1
150
X
Xi Yi = 2100.
i=1
1. Predecir los beneficios de la empresa no 151, a partir de sus ventas anuales. (0.75 pto.)
3
2. Sabiendo que la suma de los residuos al cuadrado es igual a 30, obtener un intervalo
alrededor de la predicción anterior que contenga al valor de los beneficios de la empresa
no 151, con un nivel de confianza del 95%. (0.5 pto.)
3. ¿Producen las ventas un efecto lineal significativo en los beneficios, al nivel α = 0.05?
(0.75 pto.)
4. ¿Es significativamente distinto de cero el beneficio medio de las empresas con ventas
X = 0, al nivel α = 0.05? (0.5pto.)
Solución:
Se ajusta el modelo
Yi = β 0 + β 1 Xi + ui , i = 1, . . . , 150.
Para ello, el estimador mínimo cuadrático de la pendiente se calcula mediante la fórmula
P150
i=1 Xi Yi
− X̄ Ȳ
β̂ 1 = P150
= 0.5.
150
2
2
i=1 Xi
− X̄
150
Es decir, el beneficio medio anual de las empresas aumenta en 50000 euros por cada unidad
extra vendida. El estimador mínimo cuadrático de la constante del modelo es
β̂ 0 = Ȳ − β̂ 1 X̄ = −1 .
El beneficio medio de las empresas con ventas X = 0 sería de -100000 euros. Finalmente, la
predicción de los beneficios de la empresa no 151 es
b151,2 = β̂ 0 + β̂ 1 X151 = 1.5.
X
Es decir, la predicción de los beneficios es de 150000 euros.
2. El intervalo viene dado por
s
µ
¶
1
(X151 − X̄)2
2
Yb151 ∓ tn−2 (0.05/2) SR
1+ +
,
2
n
nSX
2
tomando n = 150, y donde SR
se puede obtener, bien a partir del enunciado, dividiendo
la suma de cuadrados de los residuos entre n − 2, bien aplicando la fórmula
2
SR
=
2 2
n
),
(SY2 − β̂ 1 SX
n−2
2
, y luego
o bien restando a la variabilidad total nSY2 , la variabilidad explicada β̂ 1 nSX
dividiendo entre n − 2.
3. Se ha de resolver el contraste H0 : β 1 = 0 frente a H1 : β 1 6= 0. El estadístico de
contraste es
s
2
nSX
T1 = β̂ 1
2 ,
SR
para n = 150. También se puede realizar el contraste de la regresión, cuyo estadístico
F es el cuadrado del estadístico T1 . Como tn−2 (0.025) = 1.96 y T1 > 1.96, entonces
rechazamos H0 ; es decir, las ventas producen un efecto lineal significativo en los beneficios.
4
4. Es necesario contrastar H0 : β 0 = 0 frente a H1 : β 0 6= 0. El estadístico de contraste se
obtiene mediante la fórmula
T0 = r
2
SR
n
β̂ 0
³
1+
X̄ 2
2
SX
´.
Dado que |T0 | > 1.96, se obtiene que el beneficio medio de las empresas con ventas
X = 0 es significativamente distinto de cero.
5
Descargar