Unidad 2 / Escenario 3 Lectura Fundamental Intervalo de confianza para la diferencia de medias y proporciones Contenido 1 Introducción 2 Intervalo de confianza para la diferencia de dos medias poblacionales 3 Intervalo de confianza para la diferencia de dos proporciones poblacionales 4 Intervalo de confianza para el cociente varianzas Referencias Palabras Claves: estimación puntual, intervalo, nivel de confianza. 1. Introducción Recordando que existen dos tipos de estimación: puntual y por intervalos; la primera corresponde a un solo valor, por ejemplo, la media aritmética, una proporción, una razón, etc. La estimación por intervalo, es una regla para calcular dos valores por medio de datos muestrales, dentro de estos dos valores se encuentra el parámetro con cierto grado de confiabilidad. Como ejemplo, la media muestral x̄ es un estimador puntual de la media poblacional µ y la proporción muestral p̂ es un estimador puntual de la proporción poblacional p. No se esperar que el valor de estos estimadores sea exactamente igual que el valor del parámetro poblacional, pero al sumar y restar una cantidad llamada margen de error a estos estimadores, se obtienen una estimación por intervalo. En esa sección se mostrará cómo determinar un intervalo de confianza cuando se tienen dos poblaciones en donde lo que interesa es la diferencia entre dos medias poblacionales o entre dos proporciones poblacionales. Por ejemplo, es posible que se desee obtener una estimación por intervalo para la diferencia entre el promedio académico de una población de estudiantes de la sede norte y una población de estudiantes de la sede sur en una universidad o necesite realizar una prueba de hipótesis para determinar si hay alguna diferencia entre la proporción de estudiantes que no culminan sus estudios universitarios en la sede norte de una universidad y la proporción de estudiantes que no culminan sus estudios universitarios en la sede sur de la misma universidad. 2. Intervalo de confianza para la diferencia de dos medias poblacionales Si µ1 es la media de la población 1 y µ2 la media de la población 2, como se mencionó antes, lo que interesa es la diferencia entre estas dos medias, esto es, µ1 − µ2 . Para realizar inferencias acerca de esta diferencia, se toma una muestra aleatoria simple de tamaño n1 de la población 1 y una muestra aleatoria simple de tamaño n2 de la población 2. Se supondrá que las desviaciones estándar, σ1 y σ2 , se conocen antes de elegir las dos muestras. El intervalo de confianza de la diferencia entre las dos medias poblacionales está entre los dos valores x̄1 − x̄2 ± z α2 σx̄1 −x̄2 (1) Esto es, un estimador puntual (x̄1 − x̄2 ), más o menos, un margen de error (z α2 σx̄1 −x̄2 ) Donde: • x̄1 y x̄2 son las medias muestrales de las muestras de tamaño n1 y n2 , respectivamente. • x̄1 − x̄2 es el estimador puntual de la diferencia entre las dos medias poblacionales. POLITÉCNICO GRANCOLOMBIANO 1 • σx̄1 −x̄2 es el error estándar de x̄1 − x̄2 el cual está dado por: s σ12 σ12 σx̄1 −x̄2 = + n1 n2 • Recordando que (1 − α) es el nivel de confianza, se tiene que z( α2 ) es el valor de z que proporciona un área α 2 en la cola superior de la distribución de probabilidad normal estándar. En el siguiente ejemplo se ilustra el procedimiento para calcular el margen de error y obtener una estimación por intervalo (intervalo de confianza) para la diferencia entre las dos medias poblacionales cuando se conocen σ1 y σ2 . Ejemplo 1. Suponga que se desea investigar la diferencia entre las medias de los promedios académicos de los estudiantes de la sede norte y la sede sur de una universidad. Si la población 1 es la población de estudiantes de la sede norte y la población 2 es la población de estudiantes de la sede sur de la universidad, entonces se tiene: • µ1 :media de la población 1 (media de los promedios académicos de la sede norte). • µ2 :media de la población 2 (media de los promedios académicos de la sede sur). Se tomó una muestra aleatoria simple en la sede norte y en la sede sur de tamaño n1 = 50 y n2 = 42 estudiantes, respectivamente, y se determinó que la media muestral del promedio académico de la sede norte es x̄1 = 3, 2 y de la sede sur es x̄1 = 3, 7. De acuerdo con datos históricos académicos de la universidad, se sabe que la desviación estándar para la sede norte y la sede sur es σ1 = 0, 8 y σ2 = 0, 6, respectivamente. Si la investigación se realiza con 95 % de confianza, se tiene que el coeficiente de confianza es (1 − α) = 0, 95, con lo cual α = 0, 05 y α2 = 0, 025. Por tanto, en la tabla de la distribución normal estándar aparece que un área α2 = 0.025 en la cola superior corresponde a z α2 = 1, 96. Otra forma de calcular este valor de z α2 en hoja de cálculo es con la función “=INV.NORM.ESTAND(arg)”, usando como argumento (1 − α) + α2 , que para el presente ejemplo será 0,95+0,025=0,975, obteniendo de nuevo z α2 = 1, 96. Continuando con el desarrollo del ejemplo, usando la ecuación (1), se calcula el margen de error y se proporciona una estimación por intervalo de µ1 − µ2: s σ12 σ12 + n1 n2 r 0, 82 0, 62 + 50 42 x̄1 − x̄2 ± z α2 3, 2 − 3, 7 ± 1, 96 −0, 5 ± 0, 3 El margen de error es de 0.3 y la estimación por intervalo de 95 % de confianza de la diferencia entre las medias poblacionales va de −0, 5 − 0, 3 = −0, 8 a −0, 5 + 0, 3 = −0, 2. Esto quiere decir que el promedio académico en la sede norte es entre 0, 2 y 0, 8 menor que el de la sede sur. POLITÉCNICO GRANCOLOMBIANO 2 2.1. Ejercicios 1. Se tomaron dos muestras aleatorias simples independientes a dos poblaciones y se obtuvieron los siguientes resultados: Tabla 1: Medidas Muestra 1 n1 = 52 x̄ = 25, 2 σ1 = 4, 3 de las muestras. Muestra 1 n2 = 60 x̄2 = 19, 8 σ2 = 2, 9 Fuente: elaboración propia a. Calcule la estimación puntual de la diferencia entre las dos medias poblacionales. b. Determine un intervalo de confianza del 95 % para la diferencia entre las dos medias poblacionales. c. Determine un intervalo de confianza del 90 % para la diferencia entre las dos medias poblacionales. Respuestas. a. (5,4) b. (5, 4 ± 1, 4) c. (5, 4 ± 1, 2) 2. El auditor de un banco toma dos muestras, una de 41 cuentas de la ciudad de Barranquilla y otra de 35 cuentas de la ciudad de Bogotá, para estudiar el saldo al finalizar en el año 2016, encontrando lo siguiente: Tabla 2: Medidas de las muestras. Barranquilla Bogotá Saldo promedio (COP) 1.700.000 1.200.000 Número de cuentas 41 35 Desviación estándar (COP) 150.000 200.000 Fuente:Elaboración propia Respuesta. (500.000 ± 95.700) COP 3. Intervalo de confianza para la diferencia de dos proporciones poblacionales Si p1 es la proporción de la población 1 y p2 es la proporción de la población 2, ahora consideraremos la diferencia entre las proporciones poblacionales p1 − p2 . Al igual que las diferencias entre medias poblacionales, se seleccionan dos muestras aleatorias independientes, una de tamaño n1 de la población 1 y otra de tamaño n2 de la población 2. El siguiente ejemplo ilustra la forma como se calcula un margen de error y una estimación por intervalo (intervalo de confianza) para la diferencia entre dos proporciones poblacionales. POLITÉCNICO GRANCOLOMBIANO 3 Ejemplo Se desea comparar dos de las oficinas de abogados más prestigiosa de la ciudad, por lo que se toman muestras aleatorias de los casos en cada una de las dos oficinas con el fin de comparar el número de casos ganados en cada una de estas. Con esto, se podrá estimar la proporción de casos ganados en cada una de las oficinas. El interés se centra conocer la diferencia entre las proporciones siguientes: p1 : proporción de casos ganados en la oficina 1 (población 1), p2 : proporción de casos ganados en la oficina 2 (población 2), p̂1 proporción muestral en una muestra aleatoria simple de la población 1, p̂1 proporción muestral en una muestra aleatoria simple de la población 2, La diferencia entre las dos proporciones poblacionales es p1 − p2 y la estimación puntual de p1 − p2 será entonces p̂1 − p̂2 . Como se indicó antes, el intervalo de confianza está dada por una estimación puntual ± un margen de error. En el caso de las proporciones, el margen de error está dado por: s M argen − de − error = z α2 pˆ1 (1 − p̂1 ) pˆ2 (1 − p̂2 ) + n1 n2 (2) Con este margen de error, la forma general del intervalo de confianza para la diferencia entre dos proporciones poblacionales es: s pˆ1 − pˆ2 ± z α2 pˆ1 (1 − p̂1 ) pˆ2 (1 − p̂2 ) + n1 n2 (3) Donde z α2 se calcula de la misma forma como se explicó en la primera parte de esta lectura. Regresando al ejemplo de la oficina de abogados, se encuentra que de las muestras aleatorias realizadas a cada una de las dos poblaciones, se obtiene la siguiente información: Tabla 3: Medidas de las muestras. Oficina 1 Oficina 2 n1 = 340 n2 = 270 Número de casos ganados = 313 Número de casos ganados = 230 Fuente: elaboración propia Las proporciones muestrales de los casos ganados en cada una de las oficinas son, entonces: pˆ1 = 313 340 pˆ2 = 230 270 Por lo tanto, la estimación puntual de la diferencia entre las proporciones de casos ganados en las dos oficinas es pˆ1 − pˆ2 = 0, 92 − 0, 85 = 0, 07. Con lo que se puede estimar que la oficina 1 gana 0,07 o 7 % más casos que la oficina 2. Si se utiliza un intervalo de 90 % de confianza, se tiene que (1 − α) = 0, 9, α = 0, 1 y α2 = 0, 05; con lo que z α2 = z0,05 = 1, 645. Con lo anterior, la estimación por intervalo para la diferencia entre las dos proporciones poblacionales es POLITÉCNICO GRANCOLOMBIANO 4 s pˆ1 − pˆ2 ± z α2 pˆ1 (1 − p̂1 ) pˆ2 (1 − p̂2 ) + n1 n2 r 0.92 − 0.85 ± 1.645 0.92(1 − 0.92) 0.85(1 − 0.85) + 340 270 0.07 ± 0.043 El margen de error es 0,043 y el intervalo de 90 % de confianza es el intervalo que va de 0,026 a 0,112. 4. Intervalo de confianza para el cociente varianzas En algunas aplicaciones es interesante comparar las varianzas de las calidades de productos obtenidos en dos lı́neas de producción diferentes, o las varianzas de los tiempos de producción mediante dos técnicas de fabricación diferentes, entre otros. Para determinar un intervalo de confianza para el cociente de varianzas, se empleará la distribución F , de manera similar a como se empleó la distribución chi-cuadrado en el caso de una sola varianza. Se parte del hecho de que se tienen dos poblaciones normales e independientes con varianzas desconocidas σ12 y σ22 . Al tomar una muestra aleatoria de tamaño n1 que provienen de población 1 y una muestra aleatoria de tamaño n2 de la población 2, se pueden determinar sus varianzas muestrales s21 y s22 , respectivamente. La distribución s2 muestral de s12 es una distribución F con n1 grados de libertad en el numerador y n2 grados de libertad en el 2 denominador. En la Figura 1 se muestra una gráfica de la distribución F con 20 grados de libertad tanto en el numerador como en el denominador. El valor de la función correspondiente a un área α = 0, 05 en la cola superior de la distribución, usando la notación Fα, como aparece en la Figura 1, se tiene que para F0,05, con 20 grados de libertad en el numerador y 20 grados de libertad en el denominador, el valor de la función es F0.05 = 2, 12. Este valor de 2,12 se encuentra en la tabla que se muestra en la Figura 2 con los valores de los grados de libertad tanto del numerador como del denominador, además del valor de α. A través de Excel, la forma de determinar el valor de F es haciendo uso de la hoja de cálculo con la función = IN V.F (arg1; arg2; arg3), donde arg1 es el valor de (1−α), arg2 y arg3 son los grados de libertad del numerador y del denominador, respectivamente. Para nuestro ejemplo, introduciendo = IN V.F (0, 95; 20; 20), nos arrojará el valor de 2,12. σ2 Si deseamos determinar el intervalo de confianza, por ejemplo del 95 %, para el cociente de las dos varianzas σ122 en donde el tamaño de las muestras aleatorias tomadas de la población 1 y la población 2, con sus respectivas varianzas muestrales son: POLITÉCNICO GRANCOLOMBIANO 5 Tabla 4: Datos muestras Muestra 1 Muestra 2 n1 = 26 n2 = 21 s21 = 50 s22 = 24 Fuente: elaboración propia El intervalo de confianza para el cociente está dado por: s21 F(1− α2 ) s22 < s21 σ12 < 2 σ2 F α2 s22 Continuando con el ejemplo con un nivel de confianza del 95 %, se tienen que (1 − α) = 0, 95, con lo cual α = 0, 05 y α/2 = 0, 025. Los grados de libertad en el numerador son n1 − 1 = 25 y los grados de libertad en el denominador son n2 − 1 = 20. Con estos valores, y la tabla de la distribución F, se tiene que: Fα/2 = F0,025 = 0, 435 F(1−α/2) = 0, 975 = 2, 396 Vale la pena mencionar que los anteriores valores se deben buscar en una tabla de distribución F con más valores para grados de libertad y valores del área en la cola superior, recuerde que puede usarse también la función de hoja de cálculo Excel. 50 σ2 50 < 12 < (2, 396)(24) (0, 435)(24) σ2 0, 870 < σ12 < 4, 793 σ22 Ejercicio Determine un intervalo de confianza del 90 % para el cociente de las dos varianzas aleatorias de tamaño n1 = 31 y n2 = 24 obteniéndose, además, varianzas Respuesta.(0, 638 < σ12 σ22 s21 σ12 σ22 cuando se toman dos muestras = 40 y s22 = 32, respectivamente. < 2, 371) POLITÉCNICO GRANCOLOMBIANO 6 Referencias [1] Montgomery, Douglas C and Runger Probabilidad y estadı́stica aplicadas a la ingenierı́a 1996. [2] Walpole, Ronald E and Myers, Raymond H and Myers, Sharon L Probabilidad y estadı́stica para ingenieros 1999. [3] Anderson, D.R. and Sweeney, D.J. Estadı́stica Para Administración y Economı́a 2008. POLITÉCNICO GRANCOLOMBIANO 7 INFORMACIÓN TÉCNICA Módulo: Estadı́stica II Unidad 2: Intervalos de confianza para dos poblaciones y pruebas de hipótesis sobre una muestra Escenario 3: Intervalos de confianza para dos poblaciones Autor: Daniel Ernesto Santiago Garnica Asesor Pedagógico: Diana Marcela Salcedo Dı́az Diseñador Gráfico: Jully Amanda Guzman Corrector de estilo: Felipe Garán Asistente: Ginna Paola Quiroga Este material pertenece al Politécnico Grancolombiano. Por ende, es de uso exclusivo de las Instituciones adscritas a la Red Ilumno. Prohibida su reproducción total o parcial. POLITÉCNICO GRANCOLOMBIANO 8