Soluciones examen Enero 2012 - Departamento de Estadística

Anuncio
Estadı́stica II
Examen Final - Enero 2012
Responda a los siguientes ejercicios en los cuadernillos de la Universidad.
No olvide poner su nombre y el número del grupo de clase en cada hoja.
Indique claramente el inicio y final de cada ejercicio.
Ejercicios
1. (2 puntos) Se están estudiando las estadı́sticas de un deporte en el que se considera que un
jugador es excelente si consigue en promedio al menos 4 puntos por partido. Un determinado
jugador (A) ha conseguido un promedio de 5 puntos por partido en una serie de 100 partidos,
con una varianza muestral de 3.94.
a) (0.5 puntos) ¿Podemos considerar que A es un jugador excelente para un nivel de confianza
del 95 %?
b) (0.5 puntos) También se ha observado a un segundo jugador (B), cuyos datos han dado un
p-valor en el contraste anterior (para determinar si es un jugador excelente) igual a 0.002.
De acuerdo con esta evidencia, ¿cuál considerarı́a que es mejor de los dos jugadores? ¿Por
qué?
c) (0.5 puntos) Ha llevado a cabo en Statgraphics un contraste de hipótesis para los datos del
jugador A, con el resultado que se indica a continuación:
Pruebas de Hipótesis
Media muestral = 5,0
Desviación estándar muestral = 1,98479
Tamaño de muestra = 100
Intervalos de confianza del 99,0 % para la media: 5,0 +/- 0,521287 [4,47871;5,52129]
Hipótesis Nula: media = 4,5
Alternativa: no igual
Estadístico t calculado = 2,51916
Valor-P = 0,0133645
**********************************
Indique las hipótesis nula y alternativa del contraste. ¿Rechazarı́a la hipótesis nula para un
nivel de significación del 1 %? ¿Por qué?
d ) (0.5 puntos) Supongamos que tanto el valor promedio como la varianza de las puntuaciones
de A se hubiesen obtenido de una muestra de 5 partidos, en lugar de 100. ¿Podrı́a llevarse
a cabo una evaluación de A semejante al caso anterior? Indique cuál de las respuestas
siguientes es la correcta:
1) Sı́, y no serı́a necesaria ninguna hipótesis adicional.
2) Sı́, pero necesitarı́amos alguna hipótesis sobre la distribución de las puntuaciones en
un partido.
3) No.
Solución. Denotamos mediante Xi los puntos anotados por un jugador en su i-ésimo partido,
y definimos X̄ = (X1 + · · · + Xn )/n.
a) Nos piden llevar a cabo el contraste
H0 : µ ≤ 4
H1 : µ > 4,
donde µ representa la anotación media por partido de un jugador. Como n = 100, del Teorema Central del Lı́mite tenemos que el estadı́stico del contraste cumple aproximadamente
Z=
X̄ − µ0
√ ∼ N (0, 1),
S/ n
La región crı́tica vendrá dada por
RC = {z > z0.05 } = {z > 1.65}
p
Tenemos que z = (5 − 4)/ 3.94/100 = 5.038, por lo que rechazamos la hipótesis nula y
concluimos que el jugador A puede ser considerado como excelente.
b) La información de que disponemos para comparar a los dos jugadores son los p-valores de
los contrastes. Para el jugador A, este p-valor es
p-valor = P (Z > z) = P (Z > 5.038) = 2.35 10−7 0.001,
y como este valor es mucho menor que el correspondiente al jugador B, podemos concluir
que la anotación media de A tiene menor probabilidad de darse bajo la hipótesis nula que
la de B y por tanto parece ser mucho mejor que la anotación media de B.
c) El contraste que se ha llevado a cabo es
H0 : µ = 4.5
H1 : µ 6= 4.5,
Como el p-valor es 0.0134, rechazaremos la hipótesis nula para niveles de significación mayores que dicho p-valor. En particular, para un nivel de significación del 1 % no rechazaremos
la hipótesis nula, pero si lo haremos para un nivel de significación del 5 %.
d ) 2). Como n = 5, no podemos aplicar el Teorema Central del Lı́mite, y no podremos aplicar
el procedimiento anterior a menos que hagamos alguna hipótesis sobre la distribución de la
población, por ejemplo suponiendo que es Normal.
2. (2 puntos) Se ha observado que en épocas navideñas se vende más marisco fresco que en el resto
de año. Las pescaderı́as de un barrio de Madrid están interesadas en estudiar la media de las
ventas (en euros) de marisco en distintos periodos del año. Las 20 pescaderı́as del barrio han
recogido datos de ventas para dos dı́as concretos en dos perı́odos diferentes: periodo navideño,
20 de Diciembre, y periodo postnavideño, 17 de Abril (ambos son miércoles). La siguiente tabla
muestra un resumen de las ventas de marisco (en euros) de dichas tiendas en cada uno de los dos
periodos considerados separadamente, además de la diferencia de ventas entre ambos periodos:
Media de ventas
Cuasidesviación tı́pica
Diciembre
300 euros
44 euros
Abril
180 euros
29 euros
Diciembre−Abril
120 euros
44 euros
Conteste a las preguntas siguientes, indicando para cada apartado lo que asume en relación con
la población y la muestra:
a) (1 punto) Calcule sendos intervalos de confianza para el promedio de las ventas de marisco
en ambos periodos, con un nivel de confianza del 99 %.
b) (1 punto) Con un nivel de significación del 5 % realice el contraste de hipótesis de que
las ventas navideñas medias diarias suponen un incremento de más de 100 euros respecto
a las ventas postnavideñas. Debe enunciar las hipótesis nula y alternativa y llegar a una
conclusión.
Solución. Definimos las variables de interés como X
Y
venta de marisco el 17 de abril.
venta de marisco el 20 de diciembre,
Solo disponemos de información de las 20 pescaderı́as en el barrio, de modo que no podemos
asumir muestras grandes. Esto quiere decir que tendremos que asumir que la distribución de la
población es Normal. Supodremos también que las observaciones de X e Y para las 20 tiendas
corresponden a sendas muestras aleatorias simples. Las muestras de (X, Y ) son pareadas ya que
han sido tomadas sobre las mismas tiendas en dos épocas diferentes.
a) Los intervalos de confianza pedidos vienen dados por
sx
ICµX (99 %) = x̄ ± t19,0.005 √
20
= (271.85; 328.15)
sy
ICµY (99 %) = ȳ ± t19,0.005 √
20
= (161.45; 198.55)
44
= 300 ± 2.86 √
20
medido en euros;
29
= 180 ± 2.86 √
20
medido en euros.
b) Las hipótesis nula y alternativa del contraste a llevar a cabo serı́an:
H0 : µX − µY ≤ 100
H1 : µX − µY > 100,
o bien definiendo D = X − Y ,
H0 : µD ≤ 100
H1 : µD > 100.
El valor del estadı́stico del test es
t=
d¯ − d0
120 − 100
√
√ =
= 2.033.
sd / n
44/ 20
Como este estadı́stico sigue una distribución t de Student con n − 1 grados de libertad, la
región de rechazo está formada por las muestras tales que el valor t del estadı́stico es mayor
que el cuantil de la t de Student t19,0.05 = 1.73,
RC = {t > 1.73}.
Puesto que para nuestra muestra esta condición es cierta, concluimos que con un nivel de
significación del 5 % rechazamos la hipótesis nula, o lo que es lo mismo aceptamos que el
incremento medio de ventas de marisco el mes de diciembre respecto al de abril en este
barrio es mayor que 100 euros.
3. (3 puntos) El departamento comercial de una empresa dedicada a la venta de ropa por catálogo
ha realizado un estudio para determinar si existe relación entre el número de lı́neas telefónicas
abiertas para pedidos (“Lineas tfno”, L) y las ventas realizadas (“Ventas”, V ), en cientos de
euros. Para ello, se han recogido datos de dichas variables durante 20 dı́as, obteniéndose los
siguientes resultados:
P20
P20
P20 2
P20 2
i=1 li = 599,
i=1 vi = 2835,
i=1 li = 19195,
i=1 vi = 458657,
P20
P20 2
i=1 li vi = 92000,
i=1 ei = 16823.72
donde ei denota los residuos del modelo de regresión que explica la variable V en función de los
valores de L.
a) (0.5 puntos) Obtenga la tabla ANOVA para V .
b) (0.5 puntos) Contraste si la variable “Lineas tfno” no influye en los valores de la variable
“Ventas”, para un nivel de significación del 5 %.
c) (0.5 puntos) Obtenga el coeficiente de determinación e interprételo.
d ) (0.5 puntos) Determine las estimaciones de mı́nimos cuadrados de los parámetros de la
recta de regresión de la variable “Ventas” (V ) en función de la variable “Lineas tfno” (L).
e) (0.5 puntos) Estime las ventas correspondientes a un dı́a en el que se encuentran abiertas 12
lı́neas y proporcione un intervalo de confianza para dicha predicción al 95 % de confianza.
f ) (0.5 puntos) Se dispone además de datos sobre el número de catálogos enviados (“N catalogos”,
C). Se ajusta un modelo de regresión múltiple incorporando esta nueva variable y se obtiene
la siguiente salida en Statgraphics:
Regresión Múltiple - Ventas
Variable dependiente: Ventas
Variables independientes:
Lineas_tfno
N_catalogos
Parámetro
CONSTANTE
Lineas_tfno
N_catalogos
Estimación
-99,269
5,01165
0,00957155
Error
Estándar
69,8328
1,03056
0,00861747
Estadístico
T
-1,42152
4,86301
1,11071
Valor-P
0,1733
0,0001
0,2822
Indique las estimaciones de los parámetros del modelo de regresión lineal múltiple e interprete el coeficiente correspondiente a la variable “Lineas tfno” (L).
Solución.
a) De los datos de los que disponemos tenemos que SCR = 16823.72, y también podemos
obtener que
SCT = (n −
1)s2v
20
20
20
X
X
X
2
2
2
=
(vi − v̄) =
vi − 20 × v̄ =
vi2 −
i=1
i=1
i=1
20
X
!2
vi
/20
i=1
= 56795.75.
Con esta información la tabla ANOVA tiene la forma siguiente:
Fuente
Modelo
Residuos
Total
Suma de cuadrados
39972.03
16823.72
56795.75
G.L.
1
18
19
Cuadrado medio
39972.03
934.651
Razón-F
42.767
b) A partir de la información de la tabla ANOVA, y en particular del valor de la razón F,
llevamos a cabo un contraste de la significación del modelo con región crı́tica
RC0.05 = {F > F1,18;0.05 } = {F > 4.41}
El valor que hemos obtenido está en esta región crı́tica, por lo que rechazamos la hipótesis
nula y concluimos que variable lı́neas abiertas influye en las ventas.
c) El coeficiente de determinación viene dado por
R2 =
SCM
39972.03
=
= 0.704,
SCT
56795.75
por tanto podemos decir que con la variable número de lı́neas abiertas para pedidos explicamos el 70.4 % de la variabilidad de la variable ventas.
d ) Obtenemos primero algunos valores necesarios para la estimación:
¯l =
20
X
li /20 = 29.95,
i=1
20
X
s2l = (
cov(l, v) = (
i=1
20
X
v̄ =
20
X
vi /20 = 141.75
i=1
li2 − 20 × ¯l2 )/19 = 66.05,
20
X
s2v = (
vi2 − 20 × v̄ 2 )/19 = 2989.25
i=1
li vi − 20 × ¯lv̄)/19 = 373.25
i=1
Con estos valores obtenemos
cov(l, v)
= 5.651
s2l
= v̄ − β̂1 ¯l = −27.50,
β̂1 =
β̂0
por tanto, el modelo de regresión obtenido es v̂ = −27.50 + 5.651l. También tenemos que
la varianza residual es (ver tabla ANOVA)
s2R
=
20
X
e2i /(n − 2) = 934.651.
i=1
e) La estimación puntual pedida para l0 = 12 vendrá dada por
v̂0 = −27.50 + 5.651l0 = 40.31.
Para obtener el intervalo de confianza empleamos la fórmula correspondiente a una predicción,
s (l0 − ¯l)2
1
IC0.05 = v̂0 ± t18;0.025 s2R 1 + +
n (n − 1)s2l
s
1
(12 − 29.95)2
+
= (−33.12; 113.74).
= 40.31 ± 2.101 934.651 1 +
20
19 × 66.05
f ) El modelo de regresión múltiple es en este caso
v̂i = β̂0 + β̂1 li + β̂2 ci ,
y los valores de los parámetros son β̂0 = −99.269, β̂1 = 5.01165, β̂2 = 0.00957155, con lo
que el modelo resultante es
v̂i = −99.269 + 5.01165li + 0.00957155ci .
Si aumentamos las lı́neas abiertas en una las ventas medias aumentan en promedio en
501.165 euros, siempre que se mantenga constante el valor de la variable número de catálogos.
Cuestiones
1. (1 punto) Conteste razonadamente si las siguientes afirmaciones son verdaderas o falsas:
a) (0.5 puntos) Para afrontar la crisis, 15 paı́ses han decidido seguir una polı́tica de incentivos
a la inversión, mientras que otros 15 paı́ses han decidido seguir una polı́tica de austeridad.
Se pretende usar un contraste estadı́stico para evaluar si la tasa de crecimiento tras una
polı́tica es distinta que tras la otra polı́tica. El contraste más adecuado es un contraste
bilateral de muestras pareadas.
b) (0.5 puntos) Queremos estudiar si la diferencia de sueldos entre mujeres y hombres es
mayor en el sector de las telecomunicaciones que en el sector servicios. Para ello elegimos
100 empresas del sector de telecomunicaciones y 100 empresas del sector servicios. Para
cada empresa consultamos un indicador normalizado que nos da la diferencia de sueldo
entre mujeres y hombres. El contraste más adecuado es un contraste bilateral de muestras
independientes.
Solución.
a) FALSO. No se nos da ninguna información para pensar que los paı́ses incluidos en ambas
muestras puedan estar relacionados, por lo que parece más razonable tratar las muestras
como independientes.
b) VERDADERO. Al igual que en el caso anterior, no se nos da ninguna información para
pensar que las empresas incluidas en ambas muestras puedan estar relacionadas, por lo que
parece razonable tratar las muestras como independientes.
2. (1 punto) Conteste razonadamente si las siguientes afirmaciones son verdaderas o falsas, para
un modelo de regresión lineal simple y = β0 + β1 x + u:
a) (0.5 puntos) Si la varianza de los errores es 0, el coeficiente de determinación es también
igual a 0.
b) (0.5 puntos) Dado el modelo de regresión estimado ŷi = −3 + 0.5xi , por cada unidad
adicional de la variable X la variable Y disminuye en 3 unidades.
Solución.
a) FALSO. Si la varianza de los errores es 0, el coeficiente de determinación es igual a 1, ya
que si la varianza de los errores es cero entonces SCR = 0 y se cumple que
R2 =
SCT − SCR
SCT
=
= 1.
SCT
SCT
b) FALSO. Por cada unidad adicional de la variable X la variable Y aumenta en el valor de
β̂1 , esto es, en 0.5 unidades.
3. (1 punto) Conteste a las preguntas indicadas, a partir de la siguiente salida de Statgraphics:
Regresión Simple - Y vs. X
Variable dependiente: Y
Variable independiente: X
Lineal: Y = a + b*X
Coeficientes
Parámetro
Intercepto
Pendiente
Mínimos Cuadrados
Estimado
21,5885
-2,68469
Análisis de Varianza
Fuente
Suma de Cuadrados
Modelo
561,472
Residuo
383,553
Total (Corr.)
945,025
Estándar
Error
2,46742
0,838677
Gl
1
7
8
Estadístico
T
8,74945
-3,20111
Cuadrado Medio
561,472
54,7933
Valor-P
0,0001
0,0150
Razón-F
10,25
Valor-P
0,0150
Coeficiente de Correlación = -0,770801
R-cuadrada = 59,4134 porciento
R-cuadrado (ajustado para g.l.) = 53,6154 porciento
Error estándar del est. = 7,40225
Error absoluto medio = 4,99915
Estadístico Durbin-Watson = 2,71064 (P=0,8750)
Autocorrelación de residuos en retraso 1 = -0,366548
a) (0.5 puntos) Indique las estimaciones de los tres parámetros del modelo.
b) (0.5 puntos) ¿Es significativa la variable independiente para explicar la respuesta? Razónelo.
Solución.
a) El modelo estimado es el dado por ŷi = 21.5885 − 2.68469xi , con una varianza residual s2R
igual a 54.7933 (obtenida de la tabla ANOVA).
b) Para llevar a cabo este contraste nos fijamos en el p-valor de la pendiente de la recta de
regresión, igual a 0.0150 (encontramos este mismo p-valor asociado al cociente-F en la tabla
ANOVA). Concluimos que para cualquier nivel de significación superior a dicho p-valor
(α > 0.0150) rechazamos la hipótesis nula, y la variable independiente x es significativa
para explicar los valores de y.
Descargar