Soluciones examen Enero 2012 - Departamento de Estadística

Estadı́stica II Examen Final - Enero 2012 Responda a los siguientes ejercicios en los cuadernillos de la Universidad. No olvide poner su nombre y el número del grupo de clase en cada hoja. Indique claramente el inicio y final de cada ejercicio. Ejercicios 1. (2 puntos) Se están estudiando las estadı́sticas de un deporte en el que se considera que un jugador es excelente si consigue en promedio al menos 4 puntos por partido. Un determinado jugador (A) ha conseguido un promedio de 5 puntos por partido en una serie de 100 partidos, con una varianza muestral de 3.94. a) (0.5 puntos) ¿Podemos considerar que A es un jugador excelente para un nivel de confianza del 95 %? b) (0.5 puntos) También se ha observado a un segundo jugador (B), cuyos datos han dado un p-valor en el contraste anterior (para determinar si es un jugador excelente) igual a 0.002. De acuerdo con esta evidencia, ¿cuál considerarı́a que es mejor de los dos jugadores? ¿Por qué? c) (0.5 puntos) Ha llevado a cabo en Statgraphics un contraste de hipótesis para los datos del jugador A, con el resultado que se indica a continuación: Pruebas de Hipótesis Media muestral = 5,0 Desviación estándar muestral = 1,98479 Tamaño de muestra = 100 Intervalos de confianza del 99,0 % para la media: 5,0 +/- 0,521287 [4,47871;5,52129] Hipótesis Nula: media = 4,5 Alternativa: no igual Estadístico t calculado = 2,51916 Valor-P = 0,0133645 ********************************** Indique las hipótesis nula y alternativa del contraste. ¿Rechazarı́a la hipótesis nula para un nivel de significación del 1 %? ¿Por qué? d ) (0.5 puntos) Supongamos que tanto el valor promedio como la varianza de las puntuaciones de A se hubiesen obtenido de una muestra de 5 partidos, en lugar de 100. ¿Podrı́a llevarse a cabo una evaluación de A semejante al caso anterior? Indique cuál de las respuestas siguientes es la correcta: 1) Sı́, y no serı́a necesaria ninguna hipótesis adicional. 2) Sı́, pero necesitarı́amos alguna hipótesis sobre la distribución de las puntuaciones en un partido. 3) No. Solución. Denotamos mediante Xi los puntos anotados por un jugador en su i-ésimo partido, y definimos X̄ = (X1 + · · · + Xn )/n. a) Nos piden llevar a cabo el contraste H0 : µ ≤ 4 H1 : µ > 4, donde µ representa la anotación media por partido de un jugador. Como n = 100, del Teorema Central del Lı́mite tenemos que el estadı́stico del contraste cumple aproximadamente Z= X̄ − µ0 √ ∼ N (0, 1), S/ n La región crı́tica vendrá dada por RC = {z > z0.05 } = {z > 1.65} p Tenemos que z = (5 − 4)/ 3.94/100 = 5.038, por lo que rechazamos la hipótesis nula y concluimos que el jugador A puede ser considerado como excelente. b) La información de que disponemos para comparar a los dos jugadores son los p-valores de los contrastes. Para el jugador A, este p-valor es p-valor = P (Z > z) = P (Z > 5.038) = 2.35 10−7 0.001, y como este valor es mucho menor que el correspondiente al jugador B, podemos concluir que la anotación media de A tiene menor probabilidad de darse bajo la hipótesis nula que la de B y por tanto parece ser mucho mejor que la anotación media de B. c) El contraste que se ha llevado a cabo es H0 : µ = 4.5 H1 : µ 6= 4.5, Como el p-valor es 0.0134, rechazaremos la hipótesis nula para niveles de significación mayores que dicho p-valor. En particular, para un nivel de significación del 1 % no rechazaremos la hipótesis nula, pero si lo haremos para un nivel de significación del 5 %. d ) 2). Como n = 5, no podemos aplicar el Teorema Central del Lı́mite, y no podremos aplicar el procedimiento anterior a menos que hagamos alguna hipótesis sobre la distribución de la población, por ejemplo suponiendo que es Normal. 2. (2 puntos) Se ha observado que en épocas navideñas se vende más marisco fresco que en el resto de año. Las pescaderı́as de un barrio de Madrid están interesadas en estudiar la media de las ventas (en euros) de marisco en distintos periodos del año. Las 20 pescaderı́as del barrio han recogido datos de ventas para dos dı́as concretos en dos perı́odos diferentes: periodo navideño, 20 de Diciembre, y periodo postnavideño, 17 de Abril (ambos son miércoles). La siguiente tabla muestra un resumen de las ventas de marisco (en euros) de dichas tiendas en cada uno de los dos periodos considerados separadamente, además de la diferencia de ventas entre ambos periodos: Media de ventas Cuasidesviación tı́pica Diciembre 300 euros 44 euros Abril 180 euros 29 euros Diciembre−Abril 120 euros 44 euros Conteste a las preguntas siguientes, indicando para cada apartado lo que asume en relación con la población y la muestra: a) (1 punto) Calcule sendos intervalos de confianza para el promedio de las ventas de marisco en ambos periodos, con un nivel de confianza del 99 %. b) (1 punto) Con un nivel de significación del 5 % realice el contraste de hipótesis de que las ventas navideñas medias diarias suponen un incremento de más de 100 euros respecto a las ventas postnavideñas. Debe enunciar las hipótesis nula y alternativa y llegar a una conclusión. Solución. Definimos las variables de interés como X Y venta de marisco el 17 de abril. venta de marisco el 20 de diciembre, Solo disponemos de información de las 20 pescaderı́as en el barrio, de modo que no podemos asumir muestras grandes. Esto quiere decir que tendremos que asumir que la distribución de la población es Normal. Supodremos también que las observaciones de X e Y para las 20 tiendas corresponden a sendas muestras aleatorias simples. Las muestras de (X, Y ) son pareadas ya que han sido tomadas sobre las mismas tiendas en dos épocas diferentes. a) Los intervalos de confianza pedidos vienen dados por sx ICµX (99 %) = x̄ ± t19,0.005 √ 20 = (271.85; 328.15) sy ICµY (99 %) = ȳ ± t19,0.005 √ 20 = (161.45; 198.55) 44 = 300 ± 2.86 √ 20 medido en euros; 29 = 180 ± 2.86 √ 20 medido en euros. b) Las hipótesis nula y alternativa del contraste a llevar a cabo serı́an: H0 : µX − µY ≤ 100 H1 : µX − µY > 100, o bien definiendo D = X − Y , H0 : µD ≤ 100 H1 : µD > 100. El valor del estadı́stico del test es t= d¯ − d0 120 − 100 √ √ = = 2.033. sd / n 44/ 20 Como este estadı́stico sigue una distribución t de Student con n − 1 grados de libertad, la región de rechazo está formada por las muestras tales que el valor t del estadı́stico es mayor que el cuantil de la t de Student t19,0.05 = 1.73, RC = {t > 1.73}. Puesto que para nuestra muestra esta condición es cierta, concluimos que con un nivel de significación del 5 % rechazamos la hipótesis nula, o lo que es lo mismo aceptamos que el incremento medio de ventas de marisco el mes de diciembre respecto al de abril en este barrio es mayor que 100 euros. 3. (3 puntos) El departamento comercial de una empresa dedicada a la venta de ropa por catálogo ha realizado un estudio para determinar si existe relación entre el número de lı́neas telefónicas abiertas para pedidos (“Lineas tfno”, L) y las ventas realizadas (“Ventas”, V ), en cientos de euros. Para ello, se han recogido datos de dichas variables durante 20 dı́as, obteniéndose los siguientes resultados: P20 P20 P20 2 P20 2 i=1 li = 599, i=1 vi = 2835, i=1 li = 19195, i=1 vi = 458657, P20 P20 2 i=1 li vi = 92000, i=1 ei = 16823.72 donde ei denota los residuos del modelo de regresión que explica la variable V en función de los valores de L. a) (0.5 puntos) Obtenga la tabla ANOVA para V . b) (0.5 puntos) Contraste si la variable “Lineas tfno” no influye en los valores de la variable “Ventas”, para un nivel de significación del 5 %. c) (0.5 puntos) Obtenga el coeficiente de determinación e interprételo. d ) (0.5 puntos) Determine las estimaciones de mı́nimos cuadrados de los parámetros de la recta de regresión de la variable “Ventas” (V ) en función de la variable “Lineas tfno” (L). e) (0.5 puntos) Estime las ventas correspondientes a un dı́a en el que se encuentran abiertas 12 lı́neas y proporcione un intervalo de confianza para dicha predicción al 95 % de confianza. f ) (0.5 puntos) Se dispone además de datos sobre el número de catálogos enviados (“N catalogos”, C). Se ajusta un modelo de regresión múltiple incorporando esta nueva variable y se obtiene la siguiente salida en Statgraphics: Regresión Múltiple - Ventas Variable dependiente: Ventas Variables independientes: Lineas_tfno N_catalogos Parámetro CONSTANTE Lineas_tfno N_catalogos Estimación -99,269 5,01165 0,00957155 Error Estándar 69,8328 1,03056 0,00861747 Estadístico T -1,42152 4,86301 1,11071 Valor-P 0,1733 0,0001 0,2822 Indique las estimaciones de los parámetros del modelo de regresión lineal múltiple e interprete el coeficiente correspondiente a la variable “Lineas tfno” (L). Solución. a) De los datos de los que disponemos tenemos que SCR = 16823.72, y también podemos obtener que SCT = (n − 1)s2v 20 20 20 X X X 2 2 2 = (vi − v̄) = vi − 20 × v̄ = vi2 − i=1 i=1 i=1 20 X !2 vi /20 i=1 = 56795.75. Con esta información la tabla ANOVA tiene la forma siguiente: Fuente Modelo Residuos Total Suma de cuadrados 39972.03 16823.72 56795.75 G.L. 1 18 19 Cuadrado medio 39972.03 934.651 Razón-F 42.767 b) A partir de la información de la tabla ANOVA, y en particular del valor de la razón F, llevamos a cabo un contraste de la significación del modelo con región crı́tica RC0.05 = {F > F1,18;0.05 } = {F > 4.41} El valor que hemos obtenido está en esta región crı́tica, por lo que rechazamos la hipótesis nula y concluimos que variable lı́neas abiertas influye en las ventas. c) El coeficiente de determinación viene dado por R2 = SCM 39972.03 = = 0.704, SCT 56795.75 por tanto podemos decir que con la variable número de lı́neas abiertas para pedidos explicamos el 70.4 % de la variabilidad de la variable ventas. d ) Obtenemos primero algunos valores necesarios para la estimación: ¯l = 20 X li /20 = 29.95, i=1 20 X s2l = ( cov(l, v) = ( i=1 20 X v̄ = 20 X vi /20 = 141.75 i=1 li2 − 20 × ¯l2 )/19 = 66.05, 20 X s2v = ( vi2 − 20 × v̄ 2 )/19 = 2989.25 i=1 li vi − 20 × ¯lv̄)/19 = 373.25 i=1 Con estos valores obtenemos cov(l, v) = 5.651 s2l = v̄ − β̂1 ¯l = −27.50, β̂1 = β̂0 por tanto, el modelo de regresión obtenido es v̂ = −27.50 + 5.651l. También tenemos que la varianza residual es (ver tabla ANOVA) s2R = 20 X e2i /(n − 2) = 934.651. i=1 e) La estimación puntual pedida para l0 = 12 vendrá dada por v̂0 = −27.50 + 5.651l0 = 40.31. Para obtener el intervalo de confianza empleamos la fórmula correspondiente a una predicción, s (l0 − ¯l)2 1 IC0.05 = v̂0 ± t18;0.025 s2R 1 + + n (n − 1)s2l s 1 (12 − 29.95)2 + = (−33.12; 113.74). = 40.31 ± 2.101 934.651 1 + 20 19 × 66.05 f ) El modelo de regresión múltiple es en este caso v̂i = β̂0 + β̂1 li + β̂2 ci , y los valores de los parámetros son β̂0 = −99.269, β̂1 = 5.01165, β̂2 = 0.00957155, con lo que el modelo resultante es v̂i = −99.269 + 5.01165li + 0.00957155ci . Si aumentamos las lı́neas abiertas en una las ventas medias aumentan en promedio en 501.165 euros, siempre que se mantenga constante el valor de la variable número de catálogos. Cuestiones 1. (1 punto) Conteste razonadamente si las siguientes afirmaciones son verdaderas o falsas: a) (0.5 puntos) Para afrontar la crisis, 15 paı́ses han decidido seguir una polı́tica de incentivos a la inversión, mientras que otros 15 paı́ses han decidido seguir una polı́tica de austeridad. Se pretende usar un contraste estadı́stico para evaluar si la tasa de crecimiento tras una polı́tica es distinta que tras la otra polı́tica. El contraste más adecuado es un contraste bilateral de muestras pareadas. b) (0.5 puntos) Queremos estudiar si la diferencia de sueldos entre mujeres y hombres es mayor en el sector de las telecomunicaciones que en el sector servicios. Para ello elegimos 100 empresas del sector de telecomunicaciones y 100 empresas del sector servicios. Para cada empresa consultamos un indicador normalizado que nos da la diferencia de sueldo entre mujeres y hombres. El contraste más adecuado es un contraste bilateral de muestras independientes. Solución. a) FALSO. No se nos da ninguna información para pensar que los paı́ses incluidos en ambas muestras puedan estar relacionados, por lo que parece más razonable tratar las muestras como independientes. b) VERDADERO. Al igual que en el caso anterior, no se nos da ninguna información para pensar que las empresas incluidas en ambas muestras puedan estar relacionadas, por lo que parece razonable tratar las muestras como independientes. 2. (1 punto) Conteste razonadamente si las siguientes afirmaciones son verdaderas o falsas, para un modelo de regresión lineal simple y = β0 + β1 x + u: a) (0.5 puntos) Si la varianza de los errores es 0, el coeficiente de determinación es también igual a 0. b) (0.5 puntos) Dado el modelo de regresión estimado ŷi = −3 + 0.5xi , por cada unidad adicional de la variable X la variable Y disminuye en 3 unidades. Solución. a) FALSO. Si la varianza de los errores es 0, el coeficiente de determinación es igual a 1, ya que si la varianza de los errores es cero entonces SCR = 0 y se cumple que R2 = SCT − SCR SCT = = 1. SCT SCT b) FALSO. Por cada unidad adicional de la variable X la variable Y aumenta en el valor de β̂1 , esto es, en 0.5 unidades. 3. (1 punto) Conteste a las preguntas indicadas, a partir de la siguiente salida de Statgraphics: Regresión Simple - Y vs. X Variable dependiente: Y Variable independiente: X Lineal: Y = a + b*X Coeficientes Parámetro Intercepto Pendiente Mínimos Cuadrados Estimado 21,5885 -2,68469 Análisis de Varianza Fuente Suma de Cuadrados Modelo 561,472 Residuo 383,553 Total (Corr.) 945,025 Estándar Error 2,46742 0,838677 Gl 1 7 8 Estadístico T 8,74945 -3,20111 Cuadrado Medio 561,472 54,7933 Valor-P 0,0001 0,0150 Razón-F 10,25 Valor-P 0,0150 Coeficiente de Correlación = -0,770801 R-cuadrada = 59,4134 porciento R-cuadrado (ajustado para g.l.) = 53,6154 porciento Error estándar del est. = 7,40225 Error absoluto medio = 4,99915 Estadístico Durbin-Watson = 2,71064 (P=0,8750) Autocorrelación de residuos en retraso 1 = -0,366548 a) (0.5 puntos) Indique las estimaciones de los tres parámetros del modelo. b) (0.5 puntos) ¿Es significativa la variable independiente para explicar la respuesta? Razónelo. Solución. a) El modelo estimado es el dado por ŷi = 21.5885 − 2.68469xi , con una varianza residual s2R igual a 54.7933 (obtenida de la tabla ANOVA). b) Para llevar a cabo este contraste nos fijamos en el p-valor de la pendiente de la recta de regresión, igual a 0.0150 (encontramos este mismo p-valor asociado al cociente-F en la tabla ANOVA). Concluimos que para cualquier nivel de significación superior a dicho p-valor (α > 0.0150) rechazamos la hipótesis nula, y la variable independiente x es significativa para explicar los valores de y.

Soluciones examen Enero 2012 - Departamento de Estadística

Documentos relacionados

Productos

Apoyo

Soluciones examen Enero 2012 - Departamento de Estadística

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib