R PRÁCTICA IV Intervalos de confianza y contrastes de hipótesis Sección IV.1 Intervalo de confianza de la media. 44. Cargar (abrir) el conjunto de Datos Pulso.rda. Se pide: a) Calcular el intervalo de confianza para el peso medio de todos los individuos con α = 0.05. b) Calcular el intervalo de confianza para el peso medio de las mujeres con α = 0.05. c) Estudios recientes afirman que la altura media de las mujeres de esta población es µ = 167 cm. A la vista de estos datos, ¿podemos aceptar dicha hipótesis? p-valor d) Calcular el intervalo de confianza para el Pulso1 medio de las mujeres que no fuman. intervalo e) Calcular el intervalo de confianza para la media del incremento del pulso (Pulso2-Pulso1) para los individuos que corrieron. intervalo 45. Se espera que la resistencia en kg/cm2 de cierto material suministrado por un proveedor se distribuya normalmente, con media 220 y desviación tı́pica 7.75. Se toma una muestra de 9 elementos y se obtiene: 203, 229, 215, 220, 223, 233, 208, 228, 209. Se pide: a) Contrastar la hipótesis µ = 220 y σ cualquiera. b) Contrastar la hipótesis σ = 7.75 y µ cualquiera. 20 p-valor p-valor IV.2. INTERVALOS DE CONFIANZAS Y CONTRASTE PARA PROPORCIONES. 46. El pH del suelo es una variable importante cuando se diseñan estructuras que estarán en contacto con el terreno. El propietario de un solar posible lugar de construcción afirma que el pH del suelo es 6.5. Se han tomado 9 muestras del suelo del terreno, obteniéndose los resultados que se recogen en el archivo de datos pH.txt. Suponiendo que la variable pH sigue una distribución normal, responde las siguientes cuestiones: Se pide: a) Hallar un intervalo de confianza para el pH medio con un nivel de significación del 10 %. b) ¿Se acepta como verdadera afirmación del propietario del solar con un riesgo de α = 0.05 ? Sección IV.2 Intervalos de confianzas y contraste para proporciones. IV.2.1. Significado del intervalo de confianza para p ¿Es p = 0.5 la probabilidad de obtener cara al lanzar una moneda?. Lanzamos la moneda 20 veces, y estimamos p con la proporción pb =pest de caras obtenidas (Simulando con R) n=20; p = .5;pest = rbinom(1,n,p)/n Realizamos el lanzamiento de las 20 monedas m = 50 veces n=20; p = .5;m=50;pest = rbinom(m,n,p)/n Fijamos el nivel de confianza 1 − α = 0.90 y calculamos los intervalos r pb(1 − pb) pb ± z1−α/2 n alpha = 0.10;zstar = qnorm(1-alpha/2);SE = sqrt(pest*(1-pest)/n) Representamos los m = 50 intervalos matplot(rbind(pest - zstar*SE, pest + zstar*SE),rbind(1:m,1:m),type=l”,lty=1)” Marcamos la lı́nea para p = 0.5. abline(v=p) 47. Cargar (abrir) el conjunto de Datos Pulso.rda. Se pide: a) Calcular el estimador puntual de la proporción p de individuos que fuman. b) Calcular el intervalo de confianza para la proporción pF de individuos que fuman con α = 0.05. c) Calcular el intervalo de confianza para la proporción pF |M de mujeres fumadoras con α = 0.05. Universidad de Cantabria. Alberto Luceño y Fco. Javier Glez Ortiz 21 CAPÍTULO IV. INTERVALOS DE CONFIANZA Y CONTRASTES DE HIPÓTESIS Figura IV.1: 50 intervalos de confianza dellanzamiento de 20 monedas d) Calcular el intervalo de confianza para la proporción pp2>100|C de individuos con el Pulso2 superando las 100 pulsaciones de entre los que corrieron, con α = 0.05. intervalo e) Calcular el intervalo de confianza para la proporción p de individuos con altura superior a 180 y peso superior a 85 kg con α = 0.05. Universidad de Cantabria. Alberto Luceño y Fco. Javier Glez Ortiz 22 IV.3. INTERVALO DE CONFIANZA Y CONTRASTES PARA LA DIFERENCIA DE DOS MEDIAS O DOS PROPORCIONES. intervalo 48. Calcular un intervalo de confianza para la proporción de piezas conformes p producidas en una fábrica, usando un nivel de confianza de 0,95. Supongamos que disponemos de una muestra en la que se han observado 79 piezas conformes de un total de 80 piezas analizadas. En primer lugar, vemos que x = 79, n = 80 y α = 0.05. (Comprobar que la solución aportada por R, coincide con la fórmula (7.7) p. 316 del libro de texto de A.Luceño- Fco J.Glez Ortiz) 49. Cierta medicina, en tabletas, ha sido comprobada eficaz en el alivio de una alergia en mas del 60 % de los pacientes. El fabricante ha desarrollado una version soluble del producto y desear comprobar si la medicina en esta forma es igual de eficaz. Se toma una muestra de 40 personas que tienen la alergia, el nuevo producto alivio a 32 de ellos. Hay suficiente evidencia para sugerir que la introducción de la version soluble ha alterado la eficacia de la medicina? Realiza el contraste relevante usando α = 0.01 ? Encuentra el nivel critico (p-valor). Sección IV.3 Intervalo de confianza y contrastes para la diferencia de dos medias o dos proporciones. 50. Una empresa tiene en su poder dos dispositivos para mejorar la eficiencia de los sistemas de calefacción en los hogares; uno de ellos funciona con energı́a eléctrica (sistema 1) y el otro con energı́a térmica (sistema 2). Se quiere estudiar si ambos dispositivos son igualmente efectivos, para lo cual se compara el consumo de energı́a en 90 hogares que tienen uno u otro sistema; los datos del estudio se recogen en el archivo energı́a.rda. Suponiendo que se ha llevado a cabo un test de igualdad de varianzas en el cual no se han encontrado evidencias que hagan pensar que dichas varianzas son distintas y para un nivel de confianza del 95 %, responde a las siguientes cuestiones: a) Intervalo de confianza para la diferencia de medias. 51. b) Valor del estadı́stico t de contraste. c) Valor del p-valor. d) Contrastar la igualdad de la variabilidad (varianzas) de ambos sistemas. Supongamos que en 8 fábricas similares se ha medido el número de horas×trabajador que se ha perdido durante un año. Posteriormente se ha implantado un programa de seguridad en todas estas fábricas y se ha vuelto a medir en cada una de ellas el número de horas×trabajador perdidas durante otro año. A partir de estos datos puede obtenerse un intervalo de confianza al nivel de confianza 0,95 para la diferencia entre el número medio de horas perdidas antes y después de implantar el programa de seguridad. Universidad de Cantabria. Alberto Luceño y Fco. Javier Glez Ortiz 23 CAPÍTULO IV. INTERVALOS DE CONFIANZA Y CONTRASTES DE HIPÓTESIS fábrica 1 2 3 4 5 6 7 8 Número de horas×trabajador antes después 88.80 76.29 67.71 51.74 80.67 60.65 84.79 72.08 81.58 66.60 72.21 53.71 89.50 75.61 82.18 67.13 intervalo 52. p-valor Cargar (abrir) el conjunto de Datos Pulso.rda. Se pide: a) Determinar si hay diferencia significativa entre la proporción de hombres y mujeres que fuman con un nivel de significación α = 0.05. b) p-valor Calcular un intervalo de confianza para la diferencia de medias del pulso1 y del pulso2 para la población de los que corrieron. c) Calcular un intervalo de confianza para la diferencia de medias del pulso1 entre hombres que fuman y no fuman. d) Contrastar si hay diferencia significativa en el incremento del pulso (increpulso) para hombres y mujeres que se sometieron a la prueba de correr. p-valor 53. La cantidad de defectos de un lote de n1 = 100 unidades del proveedor A es 8, mientras que en un lote de n2 = 150 unidades de B la cantidad de defectos es 15. Estudiar si hay evidencia suficiente de diferencias entre los proveedores al nivel 0.95. intervalo Universidad de Cantabria. Alberto Luceño y Fco. Javier Glez Ortiz p-valor 24 IV.4. CONTRASTE DE VARIANZAS. Sección IV.4 Contraste de varianzas. 54. Se han hecho cuatro determinaciones quı́micas en dos laboratorios A y B con los resultados A : 26, 24, 28, 27; B : 20, 34, 23, 22. Se pide: a) Comparar las varianzas de las dos muestras con nivel de significación 5 %, y determinar el p-valor. 55. El fichero parqueeolico.dat, contiene datos de la velocidad del viento, registrados durante 730 horas de forma simultánea, en dos localizaciones alternativas (Parque1 y Parque2). Se tratará de establecer la localización más aconsejable para la instalación de un parque de producción de energı́a eólica. a) Importar el fichero de datos a R teniendo en cuenta que el carácter decimal del fichero es una coma. b) La estructura de losdatos es de dos columnas. Resulta más manejable si es transformada en dos variables, una continua que contenga las mediciones de viento y otra factor que indique la localización. Esto se realiza desde el menú Datos -> Conjunto de datos activo-> Apilar variables del conjunto de datos activo ... En la ventana de diálogo se pide el nombre de la nueva base de datos que llamaremos eolico2, el nombre de la variable apilada, velocidad, y el nombre de la nueva variable factor, parque, cuyas clases se han denominado Parque1 y Parque2. c) Compara gráficamente la velocidad de los 2 parques. d) Contrastar la igualdad de la variabilidad (varianzas) de ambos parques. e) Contrastar la igualdad de la velocidad media del viento en ambos parques. Soluciones 44. 45. 46. 47. 48. 50. 52. 53. a) 63.67-68.13 b) 54.12-58.29 c) p-valor = 0.4273 d ) 70.36-78.83 e) 13.74-24.08 a) p-valor =0.5265 b) p-valor =0.06416552 a) 6.114-6.663 b) p-valor = 0.4732 a) 0.304 b) 0.2197-0.405 c) 0.1206-0.3902 d ) 0.186-0.480 e) 0.017-0.1065 (0.9325373 − 0.9977900 a) -1.450; 0.9796 b) t = -0.3848 c) p-valor = 0.7013 d ) p-valor = 0.5578 a) p-valor = 0.3152 b) 11.42-26.407 c) -2.645663 ; 8.770663 d ) p-valor = 0.0003391 confidence interval: (−0.0916; 0.0516) p-valor = 0.592 Universidad de Cantabria. Alberto Luceño y Fco. Javier Glez Ortiz 25