ESTADÍSTICA APLICADA Primer Curso del Grado en Bioquı́mica (2015-2016) Tema 4: INTERVALOS DE CONFIANZA 4.1. Consideremos los datos 168Perros.txt del problema 3.8. Supongamos que el logaritmo de la alanina aminotransferasa, log(ALT), sigue una distribución normal. Calcular un intervalo de confianza al 95 % para la media y la varianza de esta distribución. 4.2. Los loci de un marcador genético pueden ser más o menos polimórficos dependiendo del número de alelos y de sus frecuencias poblacionales. El nivel de polimorfismo de un marcador se puede medir mediante la proporción de individuos de la población que son heterocigóticos para ese marcador. En otras palabras, la probabilidad de que un individuo elegido al azar sea heterocigótico se utiliza como medida del grado de polimorfismo. Supongamos que un investigador encuentra un nuevo polimorfismo de ADN. Se toma una muestra de 50 individuos para medir la heterocigosidad para el marcador correspondiente en la población. Las frecuencias genotı́picas aparecen en la siguiente tabla: Genotipo Frecuencia absoluta 1/1 2 1/2 23 1/3 2 2/2 13 2/3 9 3/3 1 Determina un estimador puntual y un intervalo de confianza al 95 % para la proporción real p de individuos heterocigóticos. ¿Qué tamaño muestral n habrı́a que haber tomado si hubiéramos querido estimar p con un error menor que 0.1 al nivel de confianza del 95 %? 4.3. Con el fin de realizar un estudio en un grupo grande de pacientes con tensión baja, se tomaron las tensiones sanguı́neas de una muestra aleatoria de 10 pacientes hipotensos, obteniéndose las siguientes mediciones: 10 10,5 11 10,7 10,8 12 11,5 9,1 11,3 9,9. Suponiendo una distribución normal de las tensiones en la población de hipotensos observada, hallar los intervalos de confianza al nivel de confianza del 90 % a) para la media µ; b) para la varianza σ 2 de esta población. 4.4. Consideremos los datos del problema 1.4 sobre los niveles de SHBG en un grupo de mujeres con poco acné y en otro grupo de mujeres con acné severo . Supongamos que el nivel de SHBG en cada uno de los grupos sigue una distribución normal, es decir, X = “nivel de SHBG en mujeres con poco acné” ∼ N(µ1 , σ1 ) e Y = “nivel de SHBG en mujeres con acné severo” ∼ N(µ2 , σ2 ) . a) Calcular estimaciones de las medias µi y de las varianzas σi2 . b) Calcular un intervalo de confianza para el cociente de varianzas σ12 /σ22 al nivel de confianza 0,90. ¿Es razonable suponer que σ1 = σ2 ? c) A nivel de confianza 1 − α = 0, 95, calcular un intervalo de confianza para la diferencia de las medias, µ1 − µ2 , primero suponiendo que σ1 = σ2 y luego suponiendo que las varianzas puedan ser diferentes. En base al intervalo de confianza obtenido, determinar si hay diferencias entre los niveles de SHBG de ambos grupos. d) Representar los datos de los dos grupos por separado en sendos histogramas. ¿Es razonable la hipótesis de normalidad? 4.5. Los siguientes datos proporcionan la recuperación de bromuro adicionado a muestras con contenido vegetal, medido mediante un método cromatográfico gas-lı́quido. La cantidad de bromuro potásico añadido a cada hortaliza fue la misma. 1 Tomate Pepino 777 782 790 773 759 778 790 765 770 789 758 797 764 782 µg g−1 µg g−1 (Fuente: Roughan, J.A., Roughan, P.A. y Wilkins, J.P.G. 1983, Analyst, 108, 742.) a) Hallar un intervalo de confianza para la diferencia de medias, suponiendo que las varianzas en las dos poblaciones de hortalizas son iguales. ¿Que hipótesis se están utilizando implı́citamente para poder obtener el intervalo? b) Determinar si la hipótesis de igualdad de varianzas es razonable. c) Hallar un intervalo de confianza para la diferencia de medias, si las varianzas en las dos poblaciones de tomates y pepinos son posiblemente distintas. Comparar el intervalo con el obtenido en (a). 4.6. La beta-endorfina humana (BEH) es una hormona segregada por la glándula pituitaria bajo condiciones de estrés. Un investigador realizó un estudio para investigar si un programa de ejercicio regular podrı́a afectar a las concentraciones en reposo (sin estrés) de BEH en la sangre. Midió los niveles de BEH en sangre, en enero y de nuevo en mayo, de 10 participantes en un programa de ejercicio fı́sico. Los resultados fueron Participante 1 2 3 4 5 6 7 8 9 10 Enero 42 47 37 9 33 70 54 27 41 18 Mayo 22 29 9 9 26 36 38 32 33 14 Construir un intervalo de confianza al 95 % para la diferencia de medias poblacionales de niveles de BEH entre enero y mayo. ¿Existe evidencia de que los niveles de BEH son menores en mayo que en enero? 4.7. Según un ensayo fiable, el contenido de ATP (trifosfato de adenosina) de un cierto tipo de célula es 111 µmol/100 mL. Al diseñar un nuevo ensayo se obtuvieron los siguientes valores en análisis replicados: 117, 119, 111, 115, 120 µmol/100 mL (promedio = 116,4). ¿Se puede tener una confianza del 95 % de que ese resultado difiere del valor “conocido”? Especificar las hipótesis que se emplean en la solución del problema. (Fuente: Harris, D. C., 2006, Análisis quı́mico cuantitativo) 4.8. En un estudio acerca de la relación entre el colesterol y los infartos1 , en 28 pacientes infartados se midieron los niveles de colesterol (en mg/dL) dos, cuatro y catorce dı́as tras el ataque al corazón. Además, se midió el nivel de colesterol en un grupo de control de 30 personas que no habı́an sufrido infartos. Los datos están en el fichero cholestg.txt: Variable patient group day cholest Descripción Número de individuo 1= Infartado, 2 = control Número de dı́as desde el ataque al corazón Nivel de colesterol Resumimos la información muestral básica con R: 1 Fuente de los datos: Ryan, B. F., Joiner, B. L., and Ryan Jr, T. A. (1985). Minitab Handbook Second Edition. Duxbury Press. 2 Datos = read.table("cholestg.txt",header=TRUE) # Cargamos los datos Grupo = Datos$group # Datos con indicador de infartados (1), no infartados (2) Infarto = Grupo==1 # Indice de infartados # Separo la tabla de datos en dos tablas (infartados y sanos): DatosInfarto = Datos[Infarto,] DatosSanos = Datos[!Infarto,] Dia = DatosInfarto$day # Dias pasados tras el infarto InfartoDia2 = Dia==2 # Indice de medidas el dia 2 tras el infarto InfartoDia4 = Dia==4 # Indice de medidas el dia 4 tras el infarto ColesterolDia2 = DatosInfarto$cholest[InfartoDia2] # Colesterol dia 2 tras infarto ColesterolDia4 = DatosInfarto$cholest[InfartoDia4] # Colesterol dia 4 tras infarto ColesterolSanos = DatosSanos$cholest # Colesterol en individuos sanos mediaI2 = mean(ColesterolDia2) # Nivel medio de colesterol dia 2 tras infarto mediaI4 = mean(ColesterolDia4) # Nivel medio de colesterol dia 4 tras infarto mediaS = mean(ColesterolSanos) # Nivel medio de colesterol en no infartados s2I2 = var(ColesterolDia2) # Cuasivar de colesterol dia 2 tras infarto s2I4 = var(ColesterolDia4) # Cuasivar de colesterol dia 4 tras infarto s2S = var(ColesterolSanos) # Cuasivar de colesterol en no infartados Para los apartados a), b) y c), suponemos normalidad del nivel de colesterol en individuos sanos y en individuos infartados (para cualquiera de los dı́as analizados). a) Calcula un intervalo de confianza para los cocientes de las varianzas del colesterol el dı́a 4 en infartados y en individuos sanos. ¿Se puede suponer homocedasticidad? b) Calcula un intervalo de confianza para la diferencia de medias del colesterol el dı́a 4 en infartados y en individuos sanos. ¿Hay diferencias entre ambas poblaciones? c) Determina un intervalo de confianza para el nivel esperado y la varianza del nivel de colesterol en individuos sanos. d) ¿Te parece razonable la hipótesis de normalidad? Razona tu respuesta. e) Ahora queremos comparar los niveles de colesterol a 2 y 4 dı́as del infarto. Calcula un intervalo de confianza para la diferencia de niveles medios de colesterol entre ambos dı́as. Indica las suposiciones previas para resolver este apartado. 3