Estadı́stica II Examen Final - Enero 2012 Responda a los siguientes ejercicios en los cuadernillos de la Universidad. No olvide poner su nombre y el número del grupo de clase en cada hoja. Indique claramente el inicio y final de cada ejercicio. Ejercicios 1. (2 puntos) Se están estudiando las estadı́sticas de un deporte en el que se considera que un jugador es excelente si consigue en promedio al menos 4 puntos por partido. Un determinado jugador (A) ha conseguido un promedio de 5 puntos por partido en una serie de 100 partidos, con una varianza muestral de 3.94. a) (0.5 puntos) ¿Podemos considerar que A es un jugador excelente para un nivel de confianza del 95 %? b) (0.5 puntos) También se ha observado a un segundo jugador (B), cuyos datos han dado un p-valor en el contraste anterior (para determinar si es un jugador excelente) igual a 0.002. De acuerdo con esta evidencia, ¿cuál considerarı́a que es mejor de los dos jugadores? ¿Por qué? c) (0.5 puntos) Ha llevado a cabo en Statgraphics un contraste de hipótesis para los datos del jugador A, con el resultado que se indica a continuación: Pruebas de Hipótesis Media muestral = 5,0 Desviación estándar muestral = 1,98479 Tamaño de muestra = 100 Intervalos de confianza del 99,0 % para la media: 5,0 +/- 0,521287 [4,47871;5,52129] Hipótesis Nula: media = 4,5 Alternativa: no igual Estadístico t calculado = 2,51916 Valor-P = 0,0133645 ********************************** Indique las hipótesis nula y alternativa del contraste. ¿Rechazarı́a la hipótesis nula para un nivel de significación del 1 %? ¿Por qué? d ) (0.5 puntos) Supongamos que tanto el valor promedio como la varianza de las puntuaciones de A se hubiesen obtenido de una muestra de 5 partidos, en lugar de 100. ¿Podrı́a llevarse a cabo una evaluación de A semejante al caso anterior? Indique cuál de las respuestas siguientes es la correcta: 1) Sı́, y no serı́a necesaria ninguna hipótesis adicional. 2) Sı́, pero necesitarı́amos alguna hipótesis sobre la distribución de las puntuaciones en un partido. 3) No. Solución. Denotamos mediante Xi los puntos anotados por un jugador en su i-ésimo partido, y definimos X̄ = (X1 + · · · + Xn )/n. a) Nos piden llevar a cabo el contraste H0 : µ ≤ 4 H1 : µ > 4, donde µ representa la anotación media por partido de un jugador. Como n = 100, del Teorema Central del Lı́mite tenemos que el estadı́stico del contraste cumple aproximadamente Z= X̄ − µ0 √ ∼ N (0, 1), S/ n La región crı́tica vendrá dada por RC = {z > z0.05 } = {z > 1.65} p Tenemos que z = (5 − 4)/ 3.94/100 = 5.038, por lo que rechazamos la hipótesis nula y concluimos que el jugador A puede ser considerado como excelente. b) La información de que disponemos para comparar a los dos jugadores son los p-valores de los contrastes. Para el jugador A, este p-valor es p-valor = P (Z > z) = P (Z > 5.038) = 2.35 10−7 0.001, y como este valor es mucho menor que el correspondiente al jugador B, podemos concluir que la anotación media de A tiene menor probabilidad de darse bajo la hipótesis nula que la de B y por tanto parece ser mucho mejor que la anotación media de B. c) El contraste que se ha llevado a cabo es H0 : µ = 4.5 H1 : µ 6= 4.5, Como el p-valor es 0.0134, rechazaremos la hipótesis nula para niveles de significación mayores que dicho p-valor. En particular, para un nivel de significación del 1 % no rechazaremos la hipótesis nula, pero si lo haremos para un nivel de significación del 5 %. d ) 2). Como n = 5, no podemos aplicar el Teorema Central del Lı́mite, y no podremos aplicar el procedimiento anterior a menos que hagamos alguna hipótesis sobre la distribución de la población, por ejemplo suponiendo que es Normal. 2. (2 puntos) Se ha observado que en épocas navideñas se vende más marisco fresco que en el resto de año. Las pescaderı́as de un barrio de Madrid están interesadas en estudiar la media de las ventas (en euros) de marisco en distintos periodos del año. Las 20 pescaderı́as del barrio han recogido datos de ventas para dos dı́as concretos en dos perı́odos diferentes: periodo navideño, 20 de Diciembre, y periodo postnavideño, 17 de Abril (ambos son miércoles). La siguiente tabla muestra un resumen de las ventas de marisco (en euros) de dichas tiendas en cada uno de los dos periodos considerados separadamente, además de la diferencia de ventas entre ambos periodos: Media de ventas Cuasidesviación tı́pica Diciembre 300 euros 44 euros Abril 180 euros 29 euros Diciembre−Abril 120 euros 44 euros Conteste a las preguntas siguientes, indicando para cada apartado lo que asume en relación con la población y la muestra: a) (1 punto) Calcule sendos intervalos de confianza para el promedio de las ventas de marisco en ambos periodos, con un nivel de confianza del 99 %. b) (1 punto) Con un nivel de significación del 5 % realice el contraste de hipótesis de que las ventas navideñas medias diarias suponen un incremento de más de 100 euros respecto a las ventas postnavideñas. Debe enunciar las hipótesis nula y alternativa y llegar a una conclusión. Solución. Definimos las variables de interés como X Y venta de marisco el 17 de abril. venta de marisco el 20 de diciembre, Solo disponemos de información de las 20 pescaderı́as en el barrio, de modo que no podemos asumir muestras grandes. Esto quiere decir que tendremos que asumir que la distribución de la población es Normal. Supodremos también que las observaciones de X e Y para las 20 tiendas corresponden a sendas muestras aleatorias simples. Las muestras de (X, Y ) son pareadas ya que han sido tomadas sobre las mismas tiendas en dos épocas diferentes. a) Los intervalos de confianza pedidos vienen dados por sx ICµX (99 %) = x̄ ± t19,0.005 √ 20 = (271.85; 328.15) sy ICµY (99 %) = ȳ ± t19,0.005 √ 20 = (161.45; 198.55) 44 = 300 ± 2.86 √ 20 medido en euros; 29 = 180 ± 2.86 √ 20 medido en euros. b) Las hipótesis nula y alternativa del contraste a llevar a cabo serı́an: H0 : µX − µY ≤ 100 H1 : µX − µY > 100, o bien definiendo D = X − Y , H0 : µD ≤ 100 H1 : µD > 100. El valor del estadı́stico del test es t= d¯ − d0 120 − 100 √ √ = = 2.033. sd / n 44/ 20 Como este estadı́stico sigue una distribución t de Student con n − 1 grados de libertad, la región de rechazo está formada por las muestras tales que el valor t del estadı́stico es mayor que el cuantil de la t de Student t19,0.05 = 1.73, RC = {t > 1.73}. Puesto que para nuestra muestra esta condición es cierta, concluimos que con un nivel de significación del 5 % rechazamos la hipótesis nula, o lo que es lo mismo aceptamos que el incremento medio de ventas de marisco el mes de diciembre respecto al de abril en este barrio es mayor que 100 euros. 3. (3 puntos) El departamento comercial de una empresa dedicada a la venta de ropa por catálogo ha realizado un estudio para determinar si existe relación entre el número de lı́neas telefónicas abiertas para pedidos (“Lineas tfno”, L) y las ventas realizadas (“Ventas”, V ), en cientos de euros. Para ello, se han recogido datos de dichas variables durante 20 dı́as, obteniéndose los siguientes resultados: P20 P20 P20 2 P20 2 i=1 li = 599, i=1 vi = 2835, i=1 li = 19195, i=1 vi = 458657, P20 P20 2 i=1 li vi = 92000, i=1 ei = 16823.72 donde ei denota los residuos del modelo de regresión que explica la variable V en función de los valores de L. a) (0.5 puntos) Obtenga la tabla ANOVA para V . b) (0.5 puntos) Contraste si la variable “Lineas tfno” no influye en los valores de la variable “Ventas”, para un nivel de significación del 5 %. c) (0.5 puntos) Obtenga el coeficiente de determinación e interprételo. d ) (0.5 puntos) Determine las estimaciones de mı́nimos cuadrados de los parámetros de la recta de regresión de la variable “Ventas” (V ) en función de la variable “Lineas tfno” (L). e) (0.5 puntos) Estime las ventas correspondientes a un dı́a en el que se encuentran abiertas 12 lı́neas y proporcione un intervalo de confianza para dicha predicción al 95 % de confianza. f ) (0.5 puntos) Se dispone además de datos sobre el número de catálogos enviados (“N catalogos”, C). Se ajusta un modelo de regresión múltiple incorporando esta nueva variable y se obtiene la siguiente salida en Statgraphics: Regresión Múltiple - Ventas Variable dependiente: Ventas Variables independientes: Lineas_tfno N_catalogos Parámetro CONSTANTE Lineas_tfno N_catalogos Estimación -99,269 5,01165 0,00957155 Error Estándar 69,8328 1,03056 0,00861747 Estadístico T -1,42152 4,86301 1,11071 Valor-P 0,1733 0,0001 0,2822 Indique las estimaciones de los parámetros del modelo de regresión lineal múltiple e interprete el coeficiente correspondiente a la variable “Lineas tfno” (L). Solución. a) De los datos de los que disponemos tenemos que SCR = 16823.72, y también podemos obtener que SCT = (n − 1)s2v 20 20 20 X X X 2 2 2 = (vi − v̄) = vi − 20 × v̄ = vi2 − i=1 i=1 i=1 20 X !2 vi /20 i=1 = 56795.75. Con esta información la tabla ANOVA tiene la forma siguiente: Fuente Modelo Residuos Total Suma de cuadrados 39972.03 16823.72 56795.75 G.L. 1 18 19 Cuadrado medio 39972.03 934.651 Razón-F 42.767 b) A partir de la información de la tabla ANOVA, y en particular del valor de la razón F, llevamos a cabo un contraste de la significación del modelo con región crı́tica RC0.05 = {F > F1,18;0.05 } = {F > 4.41} El valor que hemos obtenido está en esta región crı́tica, por lo que rechazamos la hipótesis nula y concluimos que variable lı́neas abiertas influye en las ventas. c) El coeficiente de determinación viene dado por R2 = SCM 39972.03 = = 0.704, SCT 56795.75 por tanto podemos decir que con la variable número de lı́neas abiertas para pedidos explicamos el 70.4 % de la variabilidad de la variable ventas. d ) Obtenemos primero algunos valores necesarios para la estimación: ¯l = 20 X li /20 = 29.95, i=1 20 X s2l = ( cov(l, v) = ( i=1 20 X v̄ = 20 X vi /20 = 141.75 i=1 li2 − 20 × ¯l2 )/19 = 66.05, 20 X s2v = ( vi2 − 20 × v̄ 2 )/19 = 2989.25 i=1 li vi − 20 × ¯lv̄)/19 = 373.25 i=1 Con estos valores obtenemos cov(l, v) = 5.651 s2l = v̄ − β̂1 ¯l = −27.50, β̂1 = β̂0 por tanto, el modelo de regresión obtenido es v̂ = −27.50 + 5.651l. También tenemos que la varianza residual es (ver tabla ANOVA) s2R = 20 X e2i /(n − 2) = 934.651. i=1 e) La estimación puntual pedida para l0 = 12 vendrá dada por v̂0 = −27.50 + 5.651l0 = 40.31. Para obtener el intervalo de confianza empleamos la fórmula correspondiente a una predicción, s (l0 − ¯l)2 1 IC0.05 = v̂0 ± t18;0.025 s2R 1 + + n (n − 1)s2l s 1 (12 − 29.95)2 + = (−33.12; 113.74). = 40.31 ± 2.101 934.651 1 + 20 19 × 66.05 f ) El modelo de regresión múltiple es en este caso v̂i = β̂0 + β̂1 li + β̂2 ci , y los valores de los parámetros son β̂0 = −99.269, β̂1 = 5.01165, β̂2 = 0.00957155, con lo que el modelo resultante es v̂i = −99.269 + 5.01165li + 0.00957155ci . Si aumentamos las lı́neas abiertas en una las ventas medias aumentan en promedio en 501.165 euros, siempre que se mantenga constante el valor de la variable número de catálogos. Cuestiones 1. (1 punto) Conteste razonadamente si las siguientes afirmaciones son verdaderas o falsas: a) (0.5 puntos) Para afrontar la crisis, 15 paı́ses han decidido seguir una polı́tica de incentivos a la inversión, mientras que otros 15 paı́ses han decidido seguir una polı́tica de austeridad. Se pretende usar un contraste estadı́stico para evaluar si la tasa de crecimiento tras una polı́tica es distinta que tras la otra polı́tica. El contraste más adecuado es un contraste bilateral de muestras pareadas. b) (0.5 puntos) Queremos estudiar si la diferencia de sueldos entre mujeres y hombres es mayor en el sector de las telecomunicaciones que en el sector servicios. Para ello elegimos 100 empresas del sector de telecomunicaciones y 100 empresas del sector servicios. Para cada empresa consultamos un indicador normalizado que nos da la diferencia de sueldo entre mujeres y hombres. El contraste más adecuado es un contraste bilateral de muestras independientes. Solución. a) FALSO. No se nos da ninguna información para pensar que los paı́ses incluidos en ambas muestras puedan estar relacionados, por lo que parece más razonable tratar las muestras como independientes. b) VERDADERO. Al igual que en el caso anterior, no se nos da ninguna información para pensar que las empresas incluidas en ambas muestras puedan estar relacionadas, por lo que parece razonable tratar las muestras como independientes. 2. (1 punto) Conteste razonadamente si las siguientes afirmaciones son verdaderas o falsas, para un modelo de regresión lineal simple y = β0 + β1 x + u: a) (0.5 puntos) Si la varianza de los errores es 0, el coeficiente de determinación es también igual a 0. b) (0.5 puntos) Dado el modelo de regresión estimado ŷi = −3 + 0.5xi , por cada unidad adicional de la variable X la variable Y disminuye en 3 unidades. Solución. a) FALSO. Si la varianza de los errores es 0, el coeficiente de determinación es igual a 1, ya que si la varianza de los errores es cero entonces SCR = 0 y se cumple que R2 = SCT − SCR SCT = = 1. SCT SCT b) FALSO. Por cada unidad adicional de la variable X la variable Y aumenta en el valor de β̂1 , esto es, en 0.5 unidades. 3. (1 punto) Conteste a las preguntas indicadas, a partir de la siguiente salida de Statgraphics: Regresión Simple - Y vs. X Variable dependiente: Y Variable independiente: X Lineal: Y = a + b*X Coeficientes Parámetro Intercepto Pendiente Mínimos Cuadrados Estimado 21,5885 -2,68469 Análisis de Varianza Fuente Suma de Cuadrados Modelo 561,472 Residuo 383,553 Total (Corr.) 945,025 Estándar Error 2,46742 0,838677 Gl 1 7 8 Estadístico T 8,74945 -3,20111 Cuadrado Medio 561,472 54,7933 Valor-P 0,0001 0,0150 Razón-F 10,25 Valor-P 0,0150 Coeficiente de Correlación = -0,770801 R-cuadrada = 59,4134 porciento R-cuadrado (ajustado para g.l.) = 53,6154 porciento Error estándar del est. = 7,40225 Error absoluto medio = 4,99915 Estadístico Durbin-Watson = 2,71064 (P=0,8750) Autocorrelación de residuos en retraso 1 = -0,366548 a) (0.5 puntos) Indique las estimaciones de los tres parámetros del modelo. b) (0.5 puntos) ¿Es significativa la variable independiente para explicar la respuesta? Razónelo. Solución. a) El modelo estimado es el dado por ŷi = 21.5885 − 2.68469xi , con una varianza residual s2R igual a 54.7933 (obtenida de la tabla ANOVA). b) Para llevar a cabo este contraste nos fijamos en el p-valor de la pendiente de la recta de regresión, igual a 0.0150 (encontramos este mismo p-valor asociado al cociente-F en la tabla ANOVA). Concluimos que para cualquier nivel de significación superior a dicho p-valor (α > 0.0150) rechazamos la hipótesis nula, y la variable independiente x es significativa para explicar los valores de y.