1.7.Estimación de la razón de varianzas de dos poblaciones

Anuncio
1.7.Estimación de la razón de varianzas de dos poblaciones
Ing. Hernán Trujillo Avila
1.7 Estimación de la razón de varianzas de dos poblaciones
El procedimiento estadístico usual para comparar dos varianzas de población  12 y  22
hace una inferencia acerca del cociente o razón  12 /  22 . Esto se hace porque la
distribución de muestreo del estimador de  12 /  22
es bien conocido cuando las
muestras se seleccionan de forma aleatoria e independiente de dos poblaciones
normales. Con estos supuestos, un intervalo de confianza para  12 /  22 se basa en la
estadística del pivote
 12 / 1
F 2
 2 / 2
donde 12 y  22 son variables aleatorias ji cuadrada con  1 = (n1 -1) y  2 = (n2-1) grados
de libertad, respectivamente. Si sustituimos
que  2 =
( n  1) s
2
2
 12 / 1
 12
=
 22 / 2 (n2  1) s 22
 22
s2 / 2
 12 12
s2 /  2


2
por  2 , (recuerda del tema 1.4
):
(n1  1) s12
F
( n  1) s 2
(n1  1)
(n2  1)
s12  22
*
s 22  12
A continuación se muestra una parte de las tablas de distribución F con  1 = (n1 -1)
grados de libertad del numerador y  2 = (n2-1) grados de libertad del denominador.
Una distribución F puede ser simétrica alrededor de su media, sesgada a la izquierda o
segada a la derecha; su forma exacta depende de los grados de libertad asociados a
s12 y s 22 , es decir (n1 -1) y (n2-1).
A fin de establecer límites de confianza superiores e inferiores para
 12 /  22 ,
debemos ser capaces de encontrar valores tabulados de F que correspondan a las
áreas de cola de la distribución. Los valores F de cola superior se pueden encontrar en
tablas para  = 0.10, 0.05, 0.025 y 0.01. Las columnas de la tablas, corresponden a
distintos grados de libertad de la varianza de muestra del numerador, s12 en la
estadística de pivote, en tanto que las filas corresponden a los grados de libertad del
numerador, s22 . Por ejemplo, para un intervalo de confianza del 90%( es decir /2 =
5% ó 0.05) , con  1 = 7 grados de libertad del numerador, y  2 = 9 grados de libertad
del denominador: F.05= 3.29
40
1.7.Estimación de la razón de varianzas de dos poblaciones
Ing. Hernán Trujillo Avila
Así pues  = 0.05 es el área de cola a la derecha de 3.29
Los valores de cola inferior de la distribución F no se dan en las tablas, sin embargo,
puede demostrarse (aunque no se hará aquí) que:
F1 (1,
2)
inferior

1
F ( v2,v1)
, por ejemplo, suponga que queremos encontrar un área  en la cola
para el mismo caso anterior
basado en  2 = 7 grados de libertad
del
numerador, y  1 = 9 grados de libertad del denominador( intercambiados).
Primero obtenemos el valor de cola superior F.05(9,7) = 3.68, es decir F ( 2 ,1 )
Ahora obtenemos F1 (1,
2)

1
F ( v2,v1)
;
F.95(7,9)=
1
F.05( 9, 7 )

1
 0.272
3.68
41
1.7.Estimación de la razón de varianzas de dos poblaciones
Ing. Hernán Trujillo Avila
Intervalo de confianza de 100% para el cociente de dos varianzas
de población.
s12
 12 s12
1
*

 * F / 2( 2 ,1)
s22 F / 2(1, 2 )  22 s22
donde F / 2(1, 2 ) es el valor de F que ubica un área /2 en la cola
superior de la distribución F con  1 = (n1 -1) grados de libertad de
numerador y  2 = (n2-1) grados de libertad del denominador.
F / 2( 2 , 1) es el valor de F que ubica un área /2 en la cola superior de
la distribución F con  2 = (n2-1) grados de libertad del numerador y.
 1 = (n1 -1) grados de libertad del denominador .
Supuestos: 1. Las dos poblaciones de las que se selecciona la muestra
tienen distribuciones de frecuencia aproximadamente normales.
2. Las muestras aleatorias se seleccionan de forma
independiente de las poblaciones
Al igual que en el caso de una sola muestra, es necesario suponer poblaciones normales
sea cual sea el tamaño de la muestra.
Ejemplo1: Una empresa ha estado experimentando con dos disposiciones físicas
distintas de su línea de ensamble. Se ha determinado que ambas disposiciones
producen aproximadamente el mismo número de unidades terminadas al día. A fin de
obtener una disposición que permita un mayor control del proceso, usted sugiere que
se adopte de manera permanente la disposición que exhiba la varianza más pequeña en
el número de unidades producidas al día. Dos muestras aleatorias independientes
producen los resultados que se muestran en la tabla. Establezca un intervalo de
confianza de 95% para  12 /  22 ,la razón de las varianzas del número de unidades
terminadas para las dos disposiciones de línea de ensamble. Con base en el resultado,
¿Cuál de las dos disposiciones recomendaría usted ?.
Línea de ensamble 1 Línea de ensamble 2
n1 = 21 días
n2=25 días
2
s1 = 1,432
s 22  3,761
Solución:
42
1.7.Estimación de la razón de varianzas de dos poblaciones
Ing. Hernán Trujillo Avila
Primero debemos suponer que las distribuciones de los números de unidades
terminadas son normales.
Para 1- = 95% , el valor de /2 = 0.025 y necesitamos obtener F .025(v1,v2) y
F.025(v2,v1)
donde v1 = (21-1) = 20 g.l. ; y v2 = (25-1)= 24 g.l.
Entonces, consultando la Tabla para F .025(20,24) = 2.33
en contraste F .025(24,20) = 2.41
Ahora, utilizando la fórmula:
s12
 12 s12
1
*

 * F / 2( 2 ,1)
s22 F / 2(1, 2 )  22 s22
 2 1432
1432 1
*
 12 
* 2.41
3761 2.33  2 3761
0.163
12
 0.918 ◄
22
“ Estimamos con 95% de confianza que la razón
 12
de las verdaderas varianzas de la
 22
población quedará entre 0.163 y 0.918. Puesto que todos los valores dentro del
intervalo 0.163, 0 .918 son menores que 1.0 podemos confiar en que la varianza en el
número de unidades terminadas en la línea 1(  12 ) es menor que la varianza
correspondiente para la línea 2(  22 ).”
Utilizando Mathematica
Se da de alta la instrucción tecleando <<Statistics`ConfidenceIntervals`. Después damos
Shift + Enter
Cuando los datos están sumarizados, es decir, el problema ya nos da los parámetros de la
muestra, en este caso, las varianzas. Se usa:
FRatioCI ratio, numdof , dendof
ratio = razón entre las dos varianzas.
numdof = grados de libertad del numerador.
dendof = grados de libertad del denominador.
FRatioCI 1432 3761, 20, 24
{0.163604, 0.916679} ◄
Nota: En este caso el software arroja por default la información para un CI del 95%
43
1.7.Estimación de la razón de varianzas de dos poblaciones
Ing. Hernán Trujillo Avila
Ejemplo 2. La tasa de decesos por cáncer en ciudades con agua Fluorurada y No
Fluorurada se muestran a continuación (una muestra de las 10 ciudades más grandes
de cada grupo). Establezca un intervalo de confianza del 95% para la razón de las
varianzas de los incrementos en las tasas de decesos en los dos grupos de ciudades.
Con base en el intervalo, ¿hay indicios de que se satisfaga el supuesto de varianzas
iguales necesario para comprobar el posible vínculo entre el contenido de Fluoruro del
agua potable y el cáncer
Fluorurada
Ciudad
Chicago
Filadelfia
Baltimore
Cleveland
Washington
Milwaukee
San Luis
San Francisco
Pittsburg
Buffalo
No Fluorurada
Incremento anual
en la tasa de
decesos por
cáncer
1.064
1.4118
2.1115
1.9401
3.8772
-0.4561
4.8359
1.8875
4.4964
1.4045
Ciudad
Los Angeles
Boston
Nueva Orleans
Seattle
Cincinnati
Atlanta
Kansas City
Columbus
Newark
Portland
Incremento anual
en la tasa de
decesos por
cáncer
0.8875
1.7358
1.0165
0.4923
4.0155
-1.1744
2.8132
1.7451
-0.5676
2.4471
Solución:
Utilizando cualquier herramienta disponible calculamos las varianzas, en este caso se
puede utilizar la calculadora para la desviación estándar y elevarla al cuadrado.
Así:
s12  2.7526
s 22  2.4293
v1 = (10-1) =9 g.l. ; y v2 = (10-1)= 9 g.l.
Para 1- = 95% , el valor de /2 = 0.025 y necesitamos obtener F .025(v1,v2) y
F.025(v2,v1) , entonces : F .025(9,9) =4.03 y F .025(9,9) =4.03 ( quedan igual por se las
muestras del mismo tamaño).
12 2.7526
2.7526 1
*


* 4.03
2.4293 4.03  22 2.4293
0.2811
12
 4.57 ◄
22
“Sí, ya que en el intervalo se encuentra el valor  12 /  22 =1, lo que significa que ambas
varianzas son iguales, y por lo tanto, no hay diferencia en las dos poblaciones, es decir,
44
1.7.Estimación de la razón de varianzas de dos poblaciones
Ing. Hernán Trujillo Avila
los decesos por cáncer existe un 95% de probabilidad de que no se deba al agua
fluorurada”.
Utilizando Mathematica
Cuando los datos no son sumarizados. Se da de alta la instrucción tecleando
<<Statistics`ConfidenceIntervals`. Después damos Shift + Enter
Nota: Cuando el IC es del 95% no es necesario que demos la instrucción, el software lo
calcula por default
45
1.7.Estimación de la razón de varianzas de dos poblaciones
Ing. Hernán Trujillo Avila
EJERCICIO 1.7
1. Refiérase al problema 4 de la tarea 1.5 del experimento con juntas de
armadura reparadas con resinas epóxicas. Reproducimos a continuación los
datos para mayor comodidad. Establezca un intervalo de confianza de 90% para
la razón de las varianzas de esfuerzo de corte de juntas de armadura
reparadas con resina epóxica para las dos especies de madera. Con base en
este intervalo, hay razón para inferir que las dos varianzas de esfuerzo
cortante difieren?.Explique.
Pino sureño
Tamaño de la muestra
Esfuerzo de corte medio (psi)
Desviación estándar
Pino ponderosa
100
1312
422
47
1352
271
Nota: En este caso, al utilizar la tabla de distribución F de Fisher, al no encontrar los valores
requeridos para los grados de libertad del numerador y los grados de libertad del denominador,
tomaremos el valor siguiente para
 1, y
el valor anterior para
2
R.(1.53,3.64),Sí.
2. Los ingenieros tienen un término para las acciones humanas autónomas de levantar,
bajar, empujar, tirar de, acarrear o sostener y liberar un objeto: Actividades de
manejo manual de materiales (MMHA). Investigadores han tratado de establecer
pautas de fuerza y capacidad para las MMHA. Los autores señalan que debe hacerse
una distinción clara entre fuerza y capacidad: “ La fuerza implica lo que una persona
puede hacer en un solo intento, mientras que la capacidad implica lo que una persona
46
1.7.Estimación de la razón de varianzas de dos poblaciones
Ing. Hernán Trujillo Avila
puede hacer en un período de tiempo prolongado. La fuerza de levantamiento por
ejemplo, determina la cantidad que puede levantarse a intervalos frecuentes”. La
siguiente tabla presenta una porción de las recomendaciones de un investigador
respecto a las capacidades de levantamiento de hombres y mujeres. Esta tabla
presenta las medias y desviaciones estándar del peso máximo( en kilogramos) de una
caja de 30 cm de anchura que puede levantarse sin riesgo desde el piso hasta la altura
de los nudillos con dos diferentes tasas de levantamiento.: 1 levantamiento por minuto
y 4 levantamientos por minuto.
Género
Levantamientos /
minuto
Media
Desv. estándar
Hombres
1
30.25
8.56
4
23.83
6.7
Mujeres
1
19.79
3.11
4
15.82
3.23
Trabajando a una velocidad de 1 levantamiento por minuto, los hombres levantaron un
peso máximo medio de 30.25 Kg con una desv. Estándar de 8.56 Kg, para las mujeres
fueron de 19.79Kg, y 3.11 kg respectivamente.
a. Suponiendo que la muestra consistió en 60 hombres y 60 mujeres, establezca
un intervalo de confianza de 90% para la razón de las varianzas de los pesos
máximos que hombres y mujeres pueden levantar sin peligro.
b. ¿Qué supuestos deben satisfacerse para asegurar la validez del intervalo del
inciso a.
R.(4.95,11.59)
TAREA 1.7
1. Se efectuó un estudio ínter laboratorios para determinar la variación en el
nivel medio de bifenilos policlorados (PCB) en sedimentos de ambientes
contaminados (Analytical Chemistry, noviembre de 1985). Se recolectaron
muestras de sedimentos de la bahía de New Bedford ( Massachussets) que se
47
1.7.Estimación de la razón de varianzas de dos poblaciones
Ing. Hernán Trujillo Avila
sabía estaban contaminados con PCB, y se prepararon soluciones alícuotas. En
una parte del estudio, la concentración de PCB en cada alícuota de una muestra
aleatoria de cinco alícuotas fue medida por un solo laboratorio empleando el
procedimiento Webb-McCall. El análisis arrojó una concentración media de PCB
de 56 mg/Kg y una desviación estándar de 0.45 mg/Kg. En otra muestra se
cinco alícuotas de sedimento se midió el nivel de PCB
empleando un
procedimiento distinto, llamado comparación Aroclor Estándar. En la tabla se
representan las estadísticas resumidas de la concentración de PCB en las dos
muestras.
Tamaño de muestra
Concentración media de PCB, mg/Kg
Desviación estándar
Webb-McCall Aroclor Estándar
5
56
.45
5
60
.89
a. Establezca un intervalo de confianza de 90% para el cociente de las varianzas
de los niveles de PCB medidos por las dos técnicas.
b. ¿Qué supuestos son necesarios para que la estimación del intervalo sea válida?
R.(0.040,1.63)
2. Ciertos científicos informaron en Enviromental Science & Technology (Octubre
de 1993) de un estudio sobre el transporte y transformación de PCDD, un
contaminante emitido por incineradores de desechos sólidos, vehículos de
motor, fábricas de acero y producción de metales. Se tomaron muestras de
aire durante varios días en dos lugares de suecia: Ròrvik (11 días) y Gothenburg
(3 días). Aquí se presentan los niveles de PCCD ( medidos en pg/m3) detectados
en cada espécimen . Utilice la estimación de intervalos para comparar la
variación en los niveles de PCCD en los dos lugares. Haga una inferencia a
partir del análisis.
Ròrvik
Gothemburg
2.38 3.03 1.44 .47 .50 .61 .90
.50
.22
.26 .31
.46
1.09 2.14
R. int. De confianza de 95%: (1.19,94.36)
48
Descargar