Intervalos de Confianza para dos muestras

Anuncio
Intervalos de Confianza para dos muestras
Álvaro José Flórez
1 Escuela
de Ingeniería Industrial y Estadística
Facultad de Ingenierías
Febrero - Junio 2012
Comparación de dos poblaciones
La comparación de dos poblaciones o o de dos tratamientos es una
de las situaciones más comunes que hay que afrontar en estadística
aplicada.
El objetivo es la comparación de las respuestas de dos tratamientos
o la comparación de una característica (µ y σ 2 ) en dos poblaciones
diferentes.
Supuestos para la comparación:
• Se tienen dos muestras aleatorias independientes de dos
poblaciones diferentes. Las muestras pueden ser de tamaños
diferentes.
• Las dos poblaciones tienen distribución normal.
Comparación de dos poblaciones
Se realizó un experimento para comparar el tiempo requerido por el cuerpo
humano para absorber dos medicamentos A y B. Suponga que el tiempo
necesario para que cada medicamento alcance un nivel específico en el
torrente sanguíneo se distribuye normalmente. Se eligieron al azar a doce
personas para ensayar cada fármaco registrándose el tiempo en minutos que
tardó en alcanzar un nivel especifico en la sangre. Los resultados fueron:
Medicamento A: x̄A = 26,8
Medicamento B: x̄B = 28,7
¿Se puede afirmar que hay una diferencia entre los dos
medicamentos?
Intervalo de confianza para una diferencia
de medias
Si se toma aleatoriamente dos muestras aleatorias (x11 , . . . , xn11 ) y
(x21 , . . . , xn21 ) independientes de dos poblaciones con distribución
normal con medias µ1 y µ2 desconocidas y varianzas σ1 , σ2
conocidas, entonces la distribución de la diferencia de medias se
puede modelar de la siguiente forma:
Z=
(x̄1 − x̄2 ) − (µ1 − µ2 )
q 2
∼ Normal(0, 1)
σ1
σ22
n1 + n2
Intervalo de confianza para una diferencia
de medias
Si se toma aleatoriamente dos muestras aleatorias (x11 , . . . , xn11 ) y
(x21 , . . . , xn21 ) independientes de dos poblaciones con distribución
normal con medias µ1 y µ2 desconocidas y varianzas σ1 , σ2
conocidas, entonces la distribución de la diferencia de medias se
puede modelar de la siguiente forma:
Z=
(x̄1 − x̄2 ) − (µ1 − µ2 )
q 2
∼ Normal(0, 1)
σ1
σ22
n1 + n2
y Por medio de esta cantidad es posible construir un intervalo de
confianza para la diferencia de medias de las dos poblaciones (µ1 −
µ2 )
Intervalo de confianza para una diferencia
de medias
Si x̄1 y x̄2 son las medias de dos muestras aleatorias independientes
de tamaño n1 y n2 tomadas de dos poblaciones normales con
varianzas conocidas,σ12 y σ22 , entonces un intervalo de confianza
(1 − α)100 % para µ1 − µ2 queda determinado como:
s
σ12 σ22
+
x̄1 − x̄2 ± zα/2
n1 n2
La utilidad de estos intervalos de confianza es determinar si
existen diferencias estadísticamente significativas entre las medias
poblacionales, es decir, si las poblaciones en sus valores medios
resultan ser iguales, con un nivel de confianza de (1 − α)
Ejemplo
Se realizó un experimento para comparar el tiempo requerido por el cuerpo
humano para absorber dos medicamentos A y B. Suponga que el tiempo
necesario para que cada medicamento alcance un nivel específico en el
2
torrente sanguíneo se distribuye normalmente con varianzas iguales a σA
=
2
15,57 y σB = 17,12. Se eligieron al azar a doce personas para ensayar cada
fármaco registrándose el tiempo en minutos que tardó en alcanzar un nivel
especifico en la sangre. Los resultados fueron:
Medicamento A: x̄A = 26,8
Medicamento B: x̄B = 28,7
¿Se puede afirmar que hay una diferencia entre los dos
medicamentos?
Ejemplo
Se realizó un experimento para comparar el tiempo requerido por el cuerpo
humano para absorber dos medicamentos A y B. Suponga que el tiempo
necesario para que cada medicamento alcance un nivel específico en el
2
torrente sanguíneo se distribuye normalmente con varianzas iguales a σA
=
2
15,57 y σB = 17,12. Se eligieron al azar a doce personas para ensayar cada
fármaco registrándose el tiempo en minutos que tardó en alcanzar un nivel
especifico en la sangre. Los resultados fueron:
El intervalo de confianza del 95 % de confianza es: (-5.13; 1.334)
Lo que nos indica que con un nivel de confianza del 95 % la diferencia
del tiempo que tarda en alcanzar un nivel especifico en la sangre los
medicamentos A y B está entre -5.13 min y 1.334 min
Intervalo de confianza para una diferencia
de medias (varianzas desconocidas pero
iguales)
Si se toma aleatoriamente dos muestras aleatorias (x11 , . . . , xn11 ) y
(x21 , . . . , xn21 ) independientes de dos poblaciones con distribución
normal con medias µ1 y µ2 y varianzas σ1 = σ2 desconocidas,
entonces la distribución de la diferencia de medias se puede modelar
de la siguiente forma:
T =
(x̄1 − x̄2 ) − (µ1 − µ2 )
q
∼ t(n1 + n2 − 2)
Sp n11 + n12
Donde:
s
Sp =
(n1 − 1)S12 + (n2 − 1)S22
n1 + n2 − 2
Intervalo de confianza para una diferencia
de medias (varianzas desconocidas pero
iguales)
Si x̄1 y x̄2 son las medias de dos muestras aleatorias independientes
de tamaño n1 y n2 tomadas de dos poblaciones normales con
varianzas desconocidas pero iguales,σ12 = σ22 , entonces un intervalo
de confianza (1 − α)100 % para µ1 − µ2 queda determinado como:
r
1
1
x̄1 − x̄2 ± tn1 +n2 −2,α/2 Sp
+
n 1 n2
Donde:
s
Sp =
(n1 − 1)S12 + (n2 − 1)S22
n1 + n2 − 2
Ejemplo
Un fabricante de neumaticos para automoviles desea determinar si
dos tipos de caucho diferente (A y B) altera la calidad de su producto.
Para ello se hace una prueba de desgaste para 121 neumaticos de
cada tipo y se observó los siguientes resultados:
Neumaticos tipo A: x̄A = 27465km y SA = 2500km
Neumaticos tipo B: x̄B = 27572km y SB = 2600km
Construir un intervalo de confianza del 99 % para la diferencia de
medias.
Intervalo de confianza para una diferencia
de medias (varianzas desconocidas)
Si se toma aleatoriamente dos muestras aleatorias (x11 , . . . , xn11 ) y
(x21 , . . . , xn21 ) independientes de dos poblaciones con distribución
normal con medias µ1 y µ2 y varianzas σ1 y σ2 desconocidas,
entonces la distribución de la diferencia de medias se puede modelar
de la siguiente forma:
T =
(x̄1 − x̄2 ) − (µ1 − µ2 )
q 2
∼ t(v)
S22
S1
+
n1
n2
Donde:
v≈
2
S12
n1
+
S22
n2
(S12 /n1 )2
n1 −1
+
(S22 /n2 )2
n2 −1
Intervalo de confianza para una diferencia
de medias (varianzas desconocidas)
Si x̄1 y x̄2 son las medias de dos muestras aleatorias independientes
de tamaño n1 y n2 tomadas de dos poblaciones normales con
varianzas desconocidas,σ12 , σ22 , entonces un intervalo de confianza
(1 − α)100 % para µ1 − µ2 queda determinado como:
s
S12 S22
x̄1 − x̄2 ± tv,α/2
+
n1
n2
Donde:
v≈
2
S12
n1
+
S22
n2
(S12 /n1 )2
n1 −1
+
(S22 /n2 )2
n2 −1
Ejemplo
Cierto metal se produce, por lo común, mediante un proceso estándar. Se
desarrolla un nuevo proceso en el que añade una aleación a la producción
de metal. Los fabricantes se encuentran interesados en estimar la verdadera
diferencia entre las tensiones de ruptura de los metales producidos por los
dos procesos. Para cada metal se seleccionan 12 especímenes y cada uno
de estos se somete a una tensión hasta que se rompe. A continuación
se presentan los resultados de las tensiones de ruptura en kilogramos por
centímetro cuadrado:
Proceso Estándar: 428,419,458,439,441,456,463,429,438,445,441,463
Proceso Nuevo: 462,448,435,465,429,472,453,459,427,468,452,447
Si se supone que el muestreo se llevó a cabo sobre dos distribuciones
normales e independientes con varianzas iguales, obtener un intervalo de
confianza del 90 % para la diferencia de medias, ¿Se estaría inclinado a
concluir que existe una diferencia real entre las medias?
Intervalo de confianza para diferencia de
varianzas
Si se toma aleatoriamente dos muestras aleatorias (x11 , . . . , xn11 ) y
(x21 , . . . , xn21 ) independientes de dos poblaciones con distribución
normal con varianzas σ1 , σ2 desconocidas, entonces la distribución
de la razón de varianzas se puede modelar de la siguiente forma:
F =
σ22 /S22
∼ Fn2 −1,n1 −1
σ12 /S12
Donde Fn2 −1,n1 −1 es una distribución F con n2 −1 grados de libertad
en el numerador y n1 −1 en el denominador. A partir de esta cantidad
se puede construir el intervalo de confianza para la razón de varianzas.
Distribución F
Una variable aleatoria X tiene una distribución F con m grados de
libertad en el numerador y n grados de libertad en el denominador
si su función de densidad está dada por:
F(2,2)
F(2,5)
F(10,5)
F(10,10)
Γ((m + n)/2)
f (X) =
(m/n)m/2
Γ(m/2)Γ(n/2)
xm/2−1
,
(1 + (m/n)x)(m+n)/2
x > 0, n, m > 0
0
1
2
3
4
5
Intervalo de confianza para diferencia de
varianzas
Si S12 y S22 son varianzas muestrales de dos muestras aleatorias
independientes de tamaño n1 y n2 tomadas de dos poblaciones
normales con parámetros desconocidos, entonces un intervalo del
(1 − α)100 % de confianza para σ12 /σ22 queda determinado como:
revisar
F(n1 −1,n2 −1,α/2)
S12
σ12
S12
≤
≤
F
(n
−1,n
−1,1−α/2)
1
2
S22
σ22
S22
Por definición de la distribución F: F(n,m,a) = 1/F(m,n,1−a)
Ejemplo
Cierto metal se produce, por lo común, mediante un proceso estándar. Se
desarrolla un nuevo proceso en el que añade una aleación a la producción
de metal. Los fabricantes se encuentran interesados en estimar la verdadera
diferencia entre las tensiones de ruptura de los metales producidos por los
dos procesos. Para cada metal se seleccionan 12 especímenes y cada uno
de estos se somete a una tensión hasta que se rompe. A continuación se
presentan los resultados de las tensiones de ruptura de los especímenes en
kilogramos por centímetro cuadrado:
Proceso Estándar: 428,419,458,439,441,456,463,429,438,445,441,463
Proceso Nuevo: 462,448,435,465,429,472,453,459,427,468,452,447
¿Se puede considerar que la varianza de ambos procesos es la
misma?
Intervalo de confianza para diferencia de
proporciones
Si p̂1 y p̂2 son las proporciones de individuos que tienen cierta
característica en dos muestras aleatorias independientes de tamaño
n1 n2 respectivamente, entonces el intervalo del (1 − α)100 %
de confianza para la diferencia de de proporciones p̂1 − p̂2 queda
expresado como:
s
p̂1 (1 − p̂1 ) p̂2 (1 − p̂2 )
+
p̂1 − p̂2 ± zα/2
n1
n2
La utilidad de estos intervalos de confianza es determinar si existen
diferencias estadísticamente significativas entre las proporciones
poblacionales.
Ejemplo
Un banco realiza una encuesta para determinar la proporción de
clientes satisfechos con un servicio. En la sucursal A con una muestra
de 100 personas se ha obtenido 76 satisfechos mientras que en la
B una muestra de 140 personas obtiene 112 personas satisfechas.
A partir de un intervalo de confianza puedo determinar que la
proporción de clientes satisfechos es diferente para las dos sucursales.
Bibliografía
Canavos, G. (1988). Probabilidad y Estadística: Aplicaciones y
métodos. Mc Graw Hill, México, vol. 1 edition.
Devore, J. L. (2008). Probabilidad y estadística para ingeniería y
ciencias. Thomson Paraninfo, México, vol. 7 edition.
Moore, D. S. (2005). Estadística aplicada básica. Antoni Bosch
Editor, Barcelona, España, vol. 2 edition.
Descargar