1.7.Estimación de la razón de varianzas de dos poblaciones Ing. Hernán Trujillo Avila 1.7 Estimación de la razón de varianzas de dos poblaciones El procedimiento estadístico usual para comparar dos varianzas de población 12 y 22 hace una inferencia acerca del cociente o razón 12 / 22 . Esto se hace porque la distribución de muestreo del estimador de 12 / 22 es bien conocido cuando las muestras se seleccionan de forma aleatoria e independiente de dos poblaciones normales. Con estos supuestos, un intervalo de confianza para 12 / 22 se basa en la estadística del pivote 12 / 1 F 2 2 / 2 donde 12 y 22 son variables aleatorias ji cuadrada con 1 = (n1 -1) y 2 = (n2-1) grados de libertad, respectivamente. Si sustituimos que 2 = ( n 1) s 2 2 12 / 1 12 = 22 / 2 (n2 1) s 22 22 s2 / 2 12 12 s2 / 2 2 por 2 , (recuerda del tema 1.4 ): (n1 1) s12 F ( n 1) s 2 (n1 1) (n2 1) s12 22 * s 22 12 A continuación se muestra una parte de las tablas de distribución F con 1 = (n1 -1) grados de libertad del numerador y 2 = (n2-1) grados de libertad del denominador. Una distribución F puede ser simétrica alrededor de su media, sesgada a la izquierda o segada a la derecha; su forma exacta depende de los grados de libertad asociados a s12 y s 22 , es decir (n1 -1) y (n2-1). A fin de establecer límites de confianza superiores e inferiores para 12 / 22 , debemos ser capaces de encontrar valores tabulados de F que correspondan a las áreas de cola de la distribución. Los valores F de cola superior se pueden encontrar en tablas para = 0.10, 0.05, 0.025 y 0.01. Las columnas de la tablas, corresponden a distintos grados de libertad de la varianza de muestra del numerador, s12 en la estadística de pivote, en tanto que las filas corresponden a los grados de libertad del numerador, s22 . Por ejemplo, para un intervalo de confianza del 90%( es decir /2 = 5% ó 0.05) , con 1 = 7 grados de libertad del numerador, y 2 = 9 grados de libertad del denominador: F.05= 3.29 40 1.7.Estimación de la razón de varianzas de dos poblaciones Ing. Hernán Trujillo Avila Así pues = 0.05 es el área de cola a la derecha de 3.29 Los valores de cola inferior de la distribución F no se dan en las tablas, sin embargo, puede demostrarse (aunque no se hará aquí) que: F1 (1, 2) inferior 1 F ( v2,v1) , por ejemplo, suponga que queremos encontrar un área en la cola para el mismo caso anterior basado en 2 = 7 grados de libertad del numerador, y 1 = 9 grados de libertad del denominador( intercambiados). Primero obtenemos el valor de cola superior F.05(9,7) = 3.68, es decir F ( 2 ,1 ) Ahora obtenemos F1 (1, 2) 1 F ( v2,v1) ; F.95(7,9)= 1 F.05( 9, 7 ) 1 0.272 3.68 41 1.7.Estimación de la razón de varianzas de dos poblaciones Ing. Hernán Trujillo Avila Intervalo de confianza de 100% para el cociente de dos varianzas de población. s12 12 s12 1 * * F / 2( 2 ,1) s22 F / 2(1, 2 ) 22 s22 donde F / 2(1, 2 ) es el valor de F que ubica un área /2 en la cola superior de la distribución F con 1 = (n1 -1) grados de libertad de numerador y 2 = (n2-1) grados de libertad del denominador. F / 2( 2 , 1) es el valor de F que ubica un área /2 en la cola superior de la distribución F con 2 = (n2-1) grados de libertad del numerador y. 1 = (n1 -1) grados de libertad del denominador . Supuestos: 1. Las dos poblaciones de las que se selecciona la muestra tienen distribuciones de frecuencia aproximadamente normales. 2. Las muestras aleatorias se seleccionan de forma independiente de las poblaciones Al igual que en el caso de una sola muestra, es necesario suponer poblaciones normales sea cual sea el tamaño de la muestra. Ejemplo1: Una empresa ha estado experimentando con dos disposiciones físicas distintas de su línea de ensamble. Se ha determinado que ambas disposiciones producen aproximadamente el mismo número de unidades terminadas al día. A fin de obtener una disposición que permita un mayor control del proceso, usted sugiere que se adopte de manera permanente la disposición que exhiba la varianza más pequeña en el número de unidades producidas al día. Dos muestras aleatorias independientes producen los resultados que se muestran en la tabla. Establezca un intervalo de confianza de 95% para 12 / 22 ,la razón de las varianzas del número de unidades terminadas para las dos disposiciones de línea de ensamble. Con base en el resultado, ¿Cuál de las dos disposiciones recomendaría usted ?. Línea de ensamble 1 Línea de ensamble 2 n1 = 21 días n2=25 días 2 s1 = 1,432 s 22 3,761 Solución: 42 1.7.Estimación de la razón de varianzas de dos poblaciones Ing. Hernán Trujillo Avila Primero debemos suponer que las distribuciones de los números de unidades terminadas son normales. Para 1- = 95% , el valor de /2 = 0.025 y necesitamos obtener F .025(v1,v2) y F.025(v2,v1) donde v1 = (21-1) = 20 g.l. ; y v2 = (25-1)= 24 g.l. Entonces, consultando la Tabla para F .025(20,24) = 2.33 en contraste F .025(24,20) = 2.41 Ahora, utilizando la fórmula: s12 12 s12 1 * * F / 2( 2 ,1) s22 F / 2(1, 2 ) 22 s22 2 1432 1432 1 * 12 * 2.41 3761 2.33 2 3761 0.163 12 0.918 ◄ 22 “ Estimamos con 95% de confianza que la razón 12 de las verdaderas varianzas de la 22 población quedará entre 0.163 y 0.918. Puesto que todos los valores dentro del intervalo 0.163, 0 .918 son menores que 1.0 podemos confiar en que la varianza en el número de unidades terminadas en la línea 1( 12 ) es menor que la varianza correspondiente para la línea 2( 22 ).” Utilizando Mathematica Se da de alta la instrucción tecleando <<Statistics`ConfidenceIntervals`. Después damos Shift + Enter Cuando los datos están sumarizados, es decir, el problema ya nos da los parámetros de la muestra, en este caso, las varianzas. Se usa: FRatioCI ratio, numdof , dendof ratio = razón entre las dos varianzas. numdof = grados de libertad del numerador. dendof = grados de libertad del denominador. FRatioCI 1432 3761, 20, 24 {0.163604, 0.916679} ◄ Nota: En este caso el software arroja por default la información para un CI del 95% 43 1.7.Estimación de la razón de varianzas de dos poblaciones Ing. Hernán Trujillo Avila Ejemplo 2. La tasa de decesos por cáncer en ciudades con agua Fluorurada y No Fluorurada se muestran a continuación (una muestra de las 10 ciudades más grandes de cada grupo). Establezca un intervalo de confianza del 95% para la razón de las varianzas de los incrementos en las tasas de decesos en los dos grupos de ciudades. Con base en el intervalo, ¿hay indicios de que se satisfaga el supuesto de varianzas iguales necesario para comprobar el posible vínculo entre el contenido de Fluoruro del agua potable y el cáncer Fluorurada Ciudad Chicago Filadelfia Baltimore Cleveland Washington Milwaukee San Luis San Francisco Pittsburg Buffalo No Fluorurada Incremento anual en la tasa de decesos por cáncer 1.064 1.4118 2.1115 1.9401 3.8772 -0.4561 4.8359 1.8875 4.4964 1.4045 Ciudad Los Angeles Boston Nueva Orleans Seattle Cincinnati Atlanta Kansas City Columbus Newark Portland Incremento anual en la tasa de decesos por cáncer 0.8875 1.7358 1.0165 0.4923 4.0155 -1.1744 2.8132 1.7451 -0.5676 2.4471 Solución: Utilizando cualquier herramienta disponible calculamos las varianzas, en este caso se puede utilizar la calculadora para la desviación estándar y elevarla al cuadrado. Así: s12 2.7526 s 22 2.4293 v1 = (10-1) =9 g.l. ; y v2 = (10-1)= 9 g.l. Para 1- = 95% , el valor de /2 = 0.025 y necesitamos obtener F .025(v1,v2) y F.025(v2,v1) , entonces : F .025(9,9) =4.03 y F .025(9,9) =4.03 ( quedan igual por se las muestras del mismo tamaño). 12 2.7526 2.7526 1 * * 4.03 2.4293 4.03 22 2.4293 0.2811 12 4.57 ◄ 22 “Sí, ya que en el intervalo se encuentra el valor 12 / 22 =1, lo que significa que ambas varianzas son iguales, y por lo tanto, no hay diferencia en las dos poblaciones, es decir, 44 1.7.Estimación de la razón de varianzas de dos poblaciones Ing. Hernán Trujillo Avila los decesos por cáncer existe un 95% de probabilidad de que no se deba al agua fluorurada”. Utilizando Mathematica Cuando los datos no son sumarizados. Se da de alta la instrucción tecleando <<Statistics`ConfidenceIntervals`. Después damos Shift + Enter Nota: Cuando el IC es del 95% no es necesario que demos la instrucción, el software lo calcula por default 45 1.7.Estimación de la razón de varianzas de dos poblaciones Ing. Hernán Trujillo Avila EJERCICIO 1.7 1. Refiérase al problema 4 de la tarea 1.5 del experimento con juntas de armadura reparadas con resinas epóxicas. Reproducimos a continuación los datos para mayor comodidad. Establezca un intervalo de confianza de 90% para la razón de las varianzas de esfuerzo de corte de juntas de armadura reparadas con resina epóxica para las dos especies de madera. Con base en este intervalo, hay razón para inferir que las dos varianzas de esfuerzo cortante difieren?.Explique. Pino sureño Tamaño de la muestra Esfuerzo de corte medio (psi) Desviación estándar Pino ponderosa 100 1312 422 47 1352 271 Nota: En este caso, al utilizar la tabla de distribución F de Fisher, al no encontrar los valores requeridos para los grados de libertad del numerador y los grados de libertad del denominador, tomaremos el valor siguiente para 1, y el valor anterior para 2 R.(1.53,3.64),Sí. 2. Los ingenieros tienen un término para las acciones humanas autónomas de levantar, bajar, empujar, tirar de, acarrear o sostener y liberar un objeto: Actividades de manejo manual de materiales (MMHA). Investigadores han tratado de establecer pautas de fuerza y capacidad para las MMHA. Los autores señalan que debe hacerse una distinción clara entre fuerza y capacidad: “ La fuerza implica lo que una persona puede hacer en un solo intento, mientras que la capacidad implica lo que una persona 46 1.7.Estimación de la razón de varianzas de dos poblaciones Ing. Hernán Trujillo Avila puede hacer en un período de tiempo prolongado. La fuerza de levantamiento por ejemplo, determina la cantidad que puede levantarse a intervalos frecuentes”. La siguiente tabla presenta una porción de las recomendaciones de un investigador respecto a las capacidades de levantamiento de hombres y mujeres. Esta tabla presenta las medias y desviaciones estándar del peso máximo( en kilogramos) de una caja de 30 cm de anchura que puede levantarse sin riesgo desde el piso hasta la altura de los nudillos con dos diferentes tasas de levantamiento.: 1 levantamiento por minuto y 4 levantamientos por minuto. Género Levantamientos / minuto Media Desv. estándar Hombres 1 30.25 8.56 4 23.83 6.7 Mujeres 1 19.79 3.11 4 15.82 3.23 Trabajando a una velocidad de 1 levantamiento por minuto, los hombres levantaron un peso máximo medio de 30.25 Kg con una desv. Estándar de 8.56 Kg, para las mujeres fueron de 19.79Kg, y 3.11 kg respectivamente. a. Suponiendo que la muestra consistió en 60 hombres y 60 mujeres, establezca un intervalo de confianza de 90% para la razón de las varianzas de los pesos máximos que hombres y mujeres pueden levantar sin peligro. b. ¿Qué supuestos deben satisfacerse para asegurar la validez del intervalo del inciso a. R.(4.95,11.59) TAREA 1.7 1. Se efectuó un estudio ínter laboratorios para determinar la variación en el nivel medio de bifenilos policlorados (PCB) en sedimentos de ambientes contaminados (Analytical Chemistry, noviembre de 1985). Se recolectaron muestras de sedimentos de la bahía de New Bedford ( Massachussets) que se 47 1.7.Estimación de la razón de varianzas de dos poblaciones Ing. Hernán Trujillo Avila sabía estaban contaminados con PCB, y se prepararon soluciones alícuotas. En una parte del estudio, la concentración de PCB en cada alícuota de una muestra aleatoria de cinco alícuotas fue medida por un solo laboratorio empleando el procedimiento Webb-McCall. El análisis arrojó una concentración media de PCB de 56 mg/Kg y una desviación estándar de 0.45 mg/Kg. En otra muestra se cinco alícuotas de sedimento se midió el nivel de PCB empleando un procedimiento distinto, llamado comparación Aroclor Estándar. En la tabla se representan las estadísticas resumidas de la concentración de PCB en las dos muestras. Tamaño de muestra Concentración media de PCB, mg/Kg Desviación estándar Webb-McCall Aroclor Estándar 5 56 .45 5 60 .89 a. Establezca un intervalo de confianza de 90% para el cociente de las varianzas de los niveles de PCB medidos por las dos técnicas. b. ¿Qué supuestos son necesarios para que la estimación del intervalo sea válida? R.(0.040,1.63) 2. Ciertos científicos informaron en Enviromental Science & Technology (Octubre de 1993) de un estudio sobre el transporte y transformación de PCDD, un contaminante emitido por incineradores de desechos sólidos, vehículos de motor, fábricas de acero y producción de metales. Se tomaron muestras de aire durante varios días en dos lugares de suecia: Ròrvik (11 días) y Gothenburg (3 días). Aquí se presentan los niveles de PCCD ( medidos en pg/m3) detectados en cada espécimen . Utilice la estimación de intervalos para comparar la variación en los niveles de PCCD en los dos lugares. Haga una inferencia a partir del análisis. Ròrvik Gothemburg 2.38 3.03 1.44 .47 .50 .61 .90 .50 .22 .26 .31 .46 1.09 2.14 R. int. De confianza de 95%: (1.19,94.36) 48