Intervalos de Confianza para dos muestras Álvaro José Flórez 1 Escuela de Ingeniería Industrial y Estadística Facultad de Ingenierías Febrero - Junio 2012 Comparación de dos poblaciones La comparación de dos poblaciones o o de dos tratamientos es una de las situaciones más comunes que hay que afrontar en estadística aplicada. El objetivo es la comparación de las respuestas de dos tratamientos o la comparación de una característica (µ y σ 2 ) en dos poblaciones diferentes. Supuestos para la comparación: • Se tienen dos muestras aleatorias independientes de dos poblaciones diferentes. Las muestras pueden ser de tamaños diferentes. • Las dos poblaciones tienen distribución normal. Comparación de dos poblaciones Se realizó un experimento para comparar el tiempo requerido por el cuerpo humano para absorber dos medicamentos A y B. Suponga que el tiempo necesario para que cada medicamento alcance un nivel específico en el torrente sanguíneo se distribuye normalmente. Se eligieron al azar a doce personas para ensayar cada fármaco registrándose el tiempo en minutos que tardó en alcanzar un nivel especifico en la sangre. Los resultados fueron: Medicamento A: x̄A = 26,8 Medicamento B: x̄B = 28,7 ¿Se puede afirmar que hay una diferencia entre los dos medicamentos? Intervalo de confianza para una diferencia de medias Si se toma aleatoriamente dos muestras aleatorias (x11 , . . . , xn11 ) y (x21 , . . . , xn21 ) independientes de dos poblaciones con distribución normal con medias µ1 y µ2 desconocidas y varianzas σ1 , σ2 conocidas, entonces la distribución de la diferencia de medias se puede modelar de la siguiente forma: Z= (x̄1 − x̄2 ) − (µ1 − µ2 ) q 2 ∼ Normal(0, 1) σ1 σ22 n1 + n2 Intervalo de confianza para una diferencia de medias Si se toma aleatoriamente dos muestras aleatorias (x11 , . . . , xn11 ) y (x21 , . . . , xn21 ) independientes de dos poblaciones con distribución normal con medias µ1 y µ2 desconocidas y varianzas σ1 , σ2 conocidas, entonces la distribución de la diferencia de medias se puede modelar de la siguiente forma: Z= (x̄1 − x̄2 ) − (µ1 − µ2 ) q 2 ∼ Normal(0, 1) σ1 σ22 n1 + n2 y Por medio de esta cantidad es posible construir un intervalo de confianza para la diferencia de medias de las dos poblaciones (µ1 − µ2 ) Intervalo de confianza para una diferencia de medias Si x̄1 y x̄2 son las medias de dos muestras aleatorias independientes de tamaño n1 y n2 tomadas de dos poblaciones normales con varianzas conocidas,σ12 y σ22 , entonces un intervalo de confianza (1 − α)100 % para µ1 − µ2 queda determinado como: s σ12 σ22 + x̄1 − x̄2 ± zα/2 n1 n2 La utilidad de estos intervalos de confianza es determinar si existen diferencias estadísticamente significativas entre las medias poblacionales, es decir, si las poblaciones en sus valores medios resultan ser iguales, con un nivel de confianza de (1 − α) Ejemplo Se realizó un experimento para comparar el tiempo requerido por el cuerpo humano para absorber dos medicamentos A y B. Suponga que el tiempo necesario para que cada medicamento alcance un nivel específico en el 2 torrente sanguíneo se distribuye normalmente con varianzas iguales a σA = 2 15,57 y σB = 17,12. Se eligieron al azar a doce personas para ensayar cada fármaco registrándose el tiempo en minutos que tardó en alcanzar un nivel especifico en la sangre. Los resultados fueron: Medicamento A: x̄A = 26,8 Medicamento B: x̄B = 28,7 ¿Se puede afirmar que hay una diferencia entre los dos medicamentos? Ejemplo Se realizó un experimento para comparar el tiempo requerido por el cuerpo humano para absorber dos medicamentos A y B. Suponga que el tiempo necesario para que cada medicamento alcance un nivel específico en el 2 torrente sanguíneo se distribuye normalmente con varianzas iguales a σA = 2 15,57 y σB = 17,12. Se eligieron al azar a doce personas para ensayar cada fármaco registrándose el tiempo en minutos que tardó en alcanzar un nivel especifico en la sangre. Los resultados fueron: El intervalo de confianza del 95 % de confianza es: (-5.13; 1.334) Lo que nos indica que con un nivel de confianza del 95 % la diferencia del tiempo que tarda en alcanzar un nivel especifico en la sangre los medicamentos A y B está entre -5.13 min y 1.334 min Intervalo de confianza para una diferencia de medias (varianzas desconocidas pero iguales) Si se toma aleatoriamente dos muestras aleatorias (x11 , . . . , xn11 ) y (x21 , . . . , xn21 ) independientes de dos poblaciones con distribución normal con medias µ1 y µ2 y varianzas σ1 = σ2 desconocidas, entonces la distribución de la diferencia de medias se puede modelar de la siguiente forma: T = (x̄1 − x̄2 ) − (µ1 − µ2 ) q ∼ t(n1 + n2 − 2) Sp n11 + n12 Donde: s Sp = (n1 − 1)S12 + (n2 − 1)S22 n1 + n2 − 2 Intervalo de confianza para una diferencia de medias (varianzas desconocidas pero iguales) Si x̄1 y x̄2 son las medias de dos muestras aleatorias independientes de tamaño n1 y n2 tomadas de dos poblaciones normales con varianzas desconocidas pero iguales,σ12 = σ22 , entonces un intervalo de confianza (1 − α)100 % para µ1 − µ2 queda determinado como: r 1 1 x̄1 − x̄2 ± tn1 +n2 −2,α/2 Sp + n 1 n2 Donde: s Sp = (n1 − 1)S12 + (n2 − 1)S22 n1 + n2 − 2 Ejemplo Un fabricante de neumaticos para automoviles desea determinar si dos tipos de caucho diferente (A y B) altera la calidad de su producto. Para ello se hace una prueba de desgaste para 121 neumaticos de cada tipo y se observó los siguientes resultados: Neumaticos tipo A: x̄A = 27465km y SA = 2500km Neumaticos tipo B: x̄B = 27572km y SB = 2600km Construir un intervalo de confianza del 99 % para la diferencia de medias. Intervalo de confianza para una diferencia de medias (varianzas desconocidas) Si se toma aleatoriamente dos muestras aleatorias (x11 , . . . , xn11 ) y (x21 , . . . , xn21 ) independientes de dos poblaciones con distribución normal con medias µ1 y µ2 y varianzas σ1 y σ2 desconocidas, entonces la distribución de la diferencia de medias se puede modelar de la siguiente forma: T = (x̄1 − x̄2 ) − (µ1 − µ2 ) q 2 ∼ t(v) S22 S1 + n1 n2 Donde: v≈ 2 S12 n1 + S22 n2 (S12 /n1 )2 n1 −1 + (S22 /n2 )2 n2 −1 Intervalo de confianza para una diferencia de medias (varianzas desconocidas) Si x̄1 y x̄2 son las medias de dos muestras aleatorias independientes de tamaño n1 y n2 tomadas de dos poblaciones normales con varianzas desconocidas,σ12 , σ22 , entonces un intervalo de confianza (1 − α)100 % para µ1 − µ2 queda determinado como: s S12 S22 x̄1 − x̄2 ± tv,α/2 + n1 n2 Donde: v≈ 2 S12 n1 + S22 n2 (S12 /n1 )2 n1 −1 + (S22 /n2 )2 n2 −1 Ejemplo Cierto metal se produce, por lo común, mediante un proceso estándar. Se desarrolla un nuevo proceso en el que añade una aleación a la producción de metal. Los fabricantes se encuentran interesados en estimar la verdadera diferencia entre las tensiones de ruptura de los metales producidos por los dos procesos. Para cada metal se seleccionan 12 especímenes y cada uno de estos se somete a una tensión hasta que se rompe. A continuación se presentan los resultados de las tensiones de ruptura en kilogramos por centímetro cuadrado: Proceso Estándar: 428,419,458,439,441,456,463,429,438,445,441,463 Proceso Nuevo: 462,448,435,465,429,472,453,459,427,468,452,447 Si se supone que el muestreo se llevó a cabo sobre dos distribuciones normales e independientes con varianzas iguales, obtener un intervalo de confianza del 90 % para la diferencia de medias, ¿Se estaría inclinado a concluir que existe una diferencia real entre las medias? Intervalo de confianza para diferencia de varianzas Si se toma aleatoriamente dos muestras aleatorias (x11 , . . . , xn11 ) y (x21 , . . . , xn21 ) independientes de dos poblaciones con distribución normal con varianzas σ1 , σ2 desconocidas, entonces la distribución de la razón de varianzas se puede modelar de la siguiente forma: F = σ22 /S22 ∼ Fn2 −1,n1 −1 σ12 /S12 Donde Fn2 −1,n1 −1 es una distribución F con n2 −1 grados de libertad en el numerador y n1 −1 en el denominador. A partir de esta cantidad se puede construir el intervalo de confianza para la razón de varianzas. Distribución F Una variable aleatoria X tiene una distribución F con m grados de libertad en el numerador y n grados de libertad en el denominador si su función de densidad está dada por: F(2,2) F(2,5) F(10,5) F(10,10) Γ((m + n)/2) f (X) = (m/n)m/2 Γ(m/2)Γ(n/2) xm/2−1 , (1 + (m/n)x)(m+n)/2 x > 0, n, m > 0 0 1 2 3 4 5 Intervalo de confianza para diferencia de varianzas Si S12 y S22 son varianzas muestrales de dos muestras aleatorias independientes de tamaño n1 y n2 tomadas de dos poblaciones normales con parámetros desconocidos, entonces un intervalo del (1 − α)100 % de confianza para σ12 /σ22 queda determinado como: revisar F(n1 −1,n2 −1,α/2) S12 σ12 S12 ≤ ≤ F (n −1,n −1,1−α/2) 1 2 S22 σ22 S22 Por definición de la distribución F: F(n,m,a) = 1/F(m,n,1−a) Ejemplo Cierto metal se produce, por lo común, mediante un proceso estándar. Se desarrolla un nuevo proceso en el que añade una aleación a la producción de metal. Los fabricantes se encuentran interesados en estimar la verdadera diferencia entre las tensiones de ruptura de los metales producidos por los dos procesos. Para cada metal se seleccionan 12 especímenes y cada uno de estos se somete a una tensión hasta que se rompe. A continuación se presentan los resultados de las tensiones de ruptura de los especímenes en kilogramos por centímetro cuadrado: Proceso Estándar: 428,419,458,439,441,456,463,429,438,445,441,463 Proceso Nuevo: 462,448,435,465,429,472,453,459,427,468,452,447 ¿Se puede considerar que la varianza de ambos procesos es la misma? Intervalo de confianza para diferencia de proporciones Si p̂1 y p̂2 son las proporciones de individuos que tienen cierta característica en dos muestras aleatorias independientes de tamaño n1 n2 respectivamente, entonces el intervalo del (1 − α)100 % de confianza para la diferencia de de proporciones p̂1 − p̂2 queda expresado como: s p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 ) + p̂1 − p̂2 ± zα/2 n1 n2 La utilidad de estos intervalos de confianza es determinar si existen diferencias estadísticamente significativas entre las proporciones poblacionales. Ejemplo Un banco realiza una encuesta para determinar la proporción de clientes satisfechos con un servicio. En la sucursal A con una muestra de 100 personas se ha obtenido 76 satisfechos mientras que en la B una muestra de 140 personas obtiene 112 personas satisfechas. A partir de un intervalo de confianza puedo determinar que la proporción de clientes satisfechos es diferente para las dos sucursales. Bibliografía Canavos, G. (1988). Probabilidad y Estadística: Aplicaciones y métodos. Mc Graw Hill, México, vol. 1 edition. Devore, J. L. (2008). Probabilidad y estadística para ingeniería y ciencias. Thomson Paraninfo, México, vol. 7 edition. Moore, D. S. (2005). Estadística aplicada básica. Antoni Bosch Editor, Barcelona, España, vol. 2 edition.