Ing. Hernán Trujillo Avila Estimación de la diferencia de medias de dos poblaciones ESTIMACION DE LA DIFERENCIA ENTRE LAS MEDIAS DE DOS POBLACIONES ( 1-2 ) : MUESTRAS INDEPENDIENTES Anteriormente aprendimos a estimar el valor de a partir de una sola población. Ahora veremos una técnica para utilizar la información de dos muestras en la estimación de la diferencia entre dos medias de población,(1-2),cuando las muestras se obtienen de forma independiente. Por ejemplo, podríamos querer comparar los salarios iniciales medios de graduados universitarios en ingeniería mecánica e ingeniería civil, o los costos de operación medios de automóviles con motores rotatorios y motores estándar, o los tiempos de falla medios de componentes electrónicos. La técnica que presentaremos es una extensión directa de la que se emplea para estimar una sola media de población. Suponga que escogemos muestras aleatorias independientes de tamaño n 1 y n2 de poblaciones con medias 1 y2, respectivamente. La intuición nos aconseja usar la diferencia entre las medias de las muestras, ( X 1 X 2 ) , para estimar ( 1-2 ). Intervalo de confianza de muestra grande (n1 y n2>30) para ( 1-2 ): Muestras Independientes ( 1-2 ) = X 1 X 2 z * 12 n1 22 n2 s12 s 22 X1 X 2 z* n1 n2 Nota: Utilizamos las varianzas de muestra, como aproximaciones a las varianzas de la población. Ejemplo: Queremos estimar la diferencia entre los salarios iniciales medios de graduados recientes en ingeniería mecánica e ingeniería civil de la Universidad de Florida(UF). Contamos con la siguiente información: A. Una muestra aleatoria de 59 salarios iniciales de graduados en ingeniería mecánica de la UF arrojó una media de muestra de $32,675 y una desviación estándar de $4,330. B. Una muestra aleatoria de 30 salarios iniciales de graduados en ingeniería civil de la UF arrojó una media de muestra de $27,460 y una desviación estándar de $4,286. Solución: Utilizaremos el subíndice 1 para referirnos a los graduados en ingeniería mecánica, y el 2, en ingeniería civil. También definiremos la siguiente notación: 1= Media de la población de salarios iniciales de todos los graduados recientes de la UF en ingeniería mecánica. 2 = Media de la población de salarios iniciales de todos los graduados recientes de la UF en ingeniería civil. De esta manera resumimos la siguiente tabla: Tamaño de la muestra Media de la muestra Desv.estándar de la muestra Ingenieros mecánicos n1=59 X1=32,675 s1=$4,430 Ingenieros civiles n2 =30 X2=27,460 s2=$4,286 Fuente: Carrer Resource Center, UF Z = 1.96 para 1- = 95% 1-2 = X 1 X 2 =(32,675 – 27,460 ) 1.96 (4,430)2 /59 (4,286)2 /30 (ya que tenemos s2 en vez de 2) 5,215 1,905 ó ($3,310 , $7,120) “El salario medio de los graduados de la UF en ingeniería mecánica fue entre $3,310 y $7,120 mayor al salario inicial medio de los graduados en ingeniería civil” MUESTRAS PEQUEÑAS Intervalo de confianza de muestra pequeña (n1 y n2≤30) para ( 1-2 ): Muestras Independientes y 12 = 22 ( 1 2 ) X 1 X 2 t / 2 * s 2p ( 1 1 ) n1 n2 donde s 2p y (n1 1) s12 (n2 1) s 22 n1 n2 2 t / 2 se basa en (n1 + n2 – 2) grados de libertad Supuestos: 1. Ambas poblaciones de las que se seleccionaron las muestras tienen distribuciones de frecuencia relativa aproximadamente normales. 2. Las varianzas 12 = 22 son iguales 3. Las variables aleatorias se escogieron de forma independiente de las dos poblaciones. 4. La cantidad muestreada es la misma ( n1 = n2 ). Observe que en este procedimiento se exige que las muestras se seleccionen de dos poblaciones normales con varianzas iguales ( es decir 12 = 22 = 2 ). Puesto que estamos suponiendo que las varianzas son iguales, construimos una estimación de 2 basada en la información contenida en ambas muestras. Esta estimación conjunta se denota por sp2 y se calcula como se muestra en el recuadro anterior. El lector se dará cuenta de que s p2 es una media ponderada de las dos varianzas de muestra, s 12 y s22, con pesos proporcionales a los tamaños de las respectivas muestras. 29 Ejemplo: En el “Journal of Testing and Evaluation” ( julio de 1981) se informó de los resultados de pruebas de laboratorio realizadas para investigar la estabilidad y permeabilidad de concreto de asfalto de grado abierto. En una parte del experimento se prepararon cuatro especimenes de concreto con un contenido de asfalto de 3% por peso total de la mezcla, y cuatro con 7%. Se determinó la permeabilidad al agua de cada espécimen y midiendo la pérdida del agua. Las mediciones de permeabilidad (registradas en pulgadas por hora) para los ocho especimenes de concreto se muestran en la siguiente tabla. Establezca un intervalo de confianza de 95% para la diferencia entre las permeabilidades medias del concreto elaborado con un contenido de asfalto de 3 y 7%. Interprete el intervalo. Mediciones de permeabilidad de concreto con 3 y 7% de Asfalto. Contenido De asfalto 3% 7% 1189 853 840 900 1020 733 980 785 Solución: n1 n2 4 . Calculamos las medias para cada población, definiendo como X 1 la media que sea mayor de las dos. También calculamos el valor de las varianzas, para lo cual puedes utilizar las funciones de tu calculadora. Los resultados a continuación: x1 3% asfalto 7% asfalto S1 2 1,007.25 20,636.92 x2 S2 817.75 2 5,420.92 Puesto que ambas muestras son pequeñas (n 1 = n 2 =4), el procedimiento requiere el supuesto de que las dos muestras de mediciones de permeabilidad se seleccionan de manera independiente y aleatoria de poblaciones normales con varianzas iguales.. El intervalo de varianza de muestra pequeña de 95% es ( x1 - x2 ) t .025 s 2p ( = (1,007.25- 817.75) 1 1 ) n1 n2 1 1 t 0.025 s 2p ( ) 4 4 De la tabla, con base en n 1 + n 2 -2 = 4+4-2=6 grados de libertad, t.025=2.447, y (n 1) s1 (n2 1) s 22 3(20,636.92) 3(5,420.92) Sp 1 n1 n2 2 6 2 2 s 2p 13,028.92, entonces. El intervalo seria: 30 (1,007.25-817.75) 2.447 1 1 13,028.92( ) 4 4 =189.5 197.50 ò (-8; 387) Interpretación del intervalo: “tenemos una certeza de 95% de que el intervalo (-8,387) contiene la verdadera diferencia entre las permeabilidades medias de los dos tipos de concreto. Puesto que el intervalo incluye a 0, no podemos concluir que las dos medidas son diferentes”(no hay diferencia). PROCEDIMIENTO PARA USAR SPSS Se introducen los datos de la manera listada poniendo en una sola columna los valores de las medias de las dos poblaciones. En otra columna le asignamos el número de población a que pertenece, donde pondremos 1 ó 2. Nos vamos al menú Statistics---Compare Means—Independent-Samples t test… Aparece el siguiente recuadro donde colocaremos las variables de la manera en que aparece. Después, en Define Groups, damos clik 31 En el recuadro que aparece, le damos el número de población asignado a cada grupo. Damos Continue. En la pestaña Options.., introducimos el nivel de confianza que estemos manejando Al dar clic en OK, aparecen los siguientes resultados: Observe en la ultima columna para el caso de varianzas iguales, el intervalo de confianza (-7.9956 a 386.99), que redondeando prácticamente es (-8 ,387) que es el que obtuvimos. 32 ESTIMACION DE LA DIFERENCIA ENTRE DOS MEDIAS EJERCICIO 1.5: 1) Se aplicó un examen de matemática a 50 niñas y 75 niños. Las niñas obtuvieron una calificación promedio de 76 y los niños de 82. Se sabe que las desviaciones estándar para las niñas y los niños son de 6 y 8 respectivamente. a. Determine un intervalo de confianza del 96% para determinar si existe diferencia entre las calificaciones. b. Determine la cota de error de estimación. 2) Utilizando un intervalo de confianza del 95% determinar si existe o no diferencia entre las dos muestras de hilo de nylon, dadas las siguientes observaciones. Muestra 1 Muestra 2 30, 28, 27, 28, 32 psi. 32, 33, 31, 30, 29 psi. 3) Algunos epidemiólogos han sugerido que el riesgo de enfermedad cardiaca de las coronaria se pude reducir incrementando el consumo de pescado. Un estudio, iniciado en 1960, vigiló la dieta y la salud de una muestra aleatoria de holandeses de mediana edad (New England Journal of Medicine, mayo de 1985). Los hombres se dividieron en grupos según los gramos de pescado que consumían al día. Veinte años después se registro el nivel de colesterol en la dieta (uno de los factores de riesgo para enfermedad de las coronarias) de cada uno. Los resultados de dos grupos de sujetos, el grupo con “ningún consumo de pescado” ( 0 gramos al día) y el grupo de “alto consumo de pescado”(más de 45 gramos al día), se resumen en la tabla. (El colesterol en la dieta se mide en miligramos por 1,000 calorías). Tamaño de la muestra Media Desviación estándar Ningún consumo de pescado 0 gramos / día 159 146 66 Alto consumo de pescado 45 gramos / día 79 158 75 a) Calcule un intervalo de confianza de 99% para la diferencia entre los niveles medios de colesterol en la dieta de ambos grupos. b) Con base en el intervalo determinado en el inciso a) ¿qué puede usted inferir acerca de la verdadera diferencia?. 33 ESTIMACION DE LA DIFERENCIA ENTRE DOS MEDIAS TAREA 1.5 1. Expertos israelíes en agricultura han desarrollado un nuevo método de irrigación llamado fertigación, en el que se agrega fertilizante al agua y la mezcla se deja gotear periódicamente sobre las raíces de las plantas. Se desperdicia muy poco agua( recurso muy escaso en Israel) y los nutrimentos llegan directamente al lugar donde se necesitan. A fin de probar este nuevo proceso, se seleccionaron 100 acres al azar y se registro un rendimiento histórico. Luego se aplicó el proceso de fertirrigación a la nueva cosecha y se registraron los nuevos rendimientos. Los resultados se resumen en la siguiente tabla: Tamaño de la muestra Rendimiento medio Desviación estándar Antes de Fertigar 100 40% 8% Después de Fertigar 100 75% 6% a) Estime la diferencia entre los verdaderos rendimientos medios antes y después de la fertigación. Utilice un intervalo de confianza del 90%. b) Interprete el intervalo de confianza del inciso a) R. 35±1.645 2. Se desea estimar mediante un intervalo de confianza del 95%, la diferencia de medias de cierto artículo producido por dos fábricas (1 y 2). Se extrae dos muestras independiente, una de cada población, de tamaño 20, encontrándose que la vida útil promedio es de 1.330 y 1.190 horas respectivamente. Suponga que las dos poblaciones son normales con desviaciones estándar respectivas de 120 y 60 horas. R.(-18.8,98.8) 3. En dos muestras independientes de 10 bolsas de arroz de un kilo de las molineras 1 y 2, se encontraron los siguientes porcentajes de granos quebrados por kilo: Molinera 1 1 6 5 6 7 4 7 6 4 3 6 Molinera 2 2 7 6 7 9 5 8 7 6 10 8 Suponga que los porcentajes de grano quebrados por kg en cada molinera se distribuyen normalmente con la misma varianza. Determinar un intervalo de confianza del 95% para la diferencia de dos medias de porcentajes de grano quebrados por kg. de arroz de las molineras 1 y 2. R. (056,3.24) 4. La metodología para realizar un análisis de esfuerzos en estructuras de madera recién diseñadas se conoce bien. Sin embargo hay pocos datos disponibles sobre los esfuerzos reales o permisibles al reparar estructuras dañadas. Por ello, los ingenieros de de diseño a menudo proponen un esquema de reparación (por ejemplo, encolado) sin conocer realmente su efectividad estructural. En un intento por llenar parcialmente este vacío, se realizó un análisis 34 de esfuerzos con juntas de armaduras reparadas con resinas epóxicas (Journal of Estructural Engineering, Febrero 1986). Se efectuaron pruebas con juntas de armaduras pegadas con resina epóxica y formadas por miembros de maderas de distintas especies, con objeto de determinar el esfuerzo cortante real en la línea de pegado registrado en libras por pulgada cuadrada (psi). En la siguiente tabla se presenta información resumida para muestras aleatorias independientes de juntas de armadura de pino sureño y pino ponderosa. Estime la diferencia entre las resistencias de corte medias de las juntas de armadura reparadas con resina epóxica para las dos especies de madera con un intervalo de confianza de 90%. Tamaño de la muestra Esfuerzo de corte medio (psi) Desviación estándar Pino sureño 100 1312 422 Pino ponderosa 47 1352 271 35