Subido por ALEMANALEJANDRA37

ESCENARIO 3 - ESTADISTICA II

Anuncio
Unidad 2 / Escenario 3
Lectura Fundamental
Intervalo de confianza para la
diferencia de medias y proporciones
Contenido
1 Introducción
2 Intervalo de confianza para la diferencia de dos medias
poblacionales
3 Intervalo de confianza para la diferencia de dos proporciones poblacionales
4 Intervalo de confianza para el cociente varianzas
Referencias
Palabras Claves: estimación puntual, intervalo, nivel de confianza.
1. Introducción
Recordando que existen dos tipos de estimación: puntual y por intervalos; la primera corresponde a un solo valor,
por ejemplo, la media aritmética, una proporción, una razón, etc. La estimación por intervalo, es una regla para
calcular dos valores por medio de datos muestrales, dentro de estos dos valores se encuentra el parámetro con
cierto grado de confiabilidad.
Como ejemplo, la media muestral x̄ es un estimador puntual de la media poblacional µ y la proporción muestral
p̂ es un estimador puntual de la proporción poblacional p. No se esperar que el valor de estos estimadores sea
exactamente igual que el valor del parámetro poblacional, pero al sumar y restar una cantidad llamada margen
de error a estos estimadores, se obtienen una estimación por intervalo.
En esa sección se mostrará cómo determinar un intervalo de confianza cuando se tienen dos poblaciones en donde
lo que interesa es la diferencia entre dos medias poblacionales o entre dos proporciones poblacionales. Por ejemplo,
es posible que se desee obtener una estimación por intervalo para la diferencia entre el promedio académico de una
población de estudiantes de la sede norte y una población de estudiantes de la sede sur en una universidad o necesite
realizar una prueba de hipótesis para determinar si hay alguna diferencia entre la proporción de estudiantes que
no culminan sus estudios universitarios en la sede norte de una universidad y la proporción de estudiantes que no
culminan sus estudios universitarios en la sede sur de la misma universidad.
2. Intervalo de confianza para la diferencia de dos medias
poblacionales
Si µ1 es la media de la población 1 y µ2 la media de la población 2, como se mencionó antes, lo que interesa es
la diferencia entre estas dos medias, esto es, µ1 − µ2 . Para realizar inferencias acerca de esta diferencia, se toma
una muestra aleatoria simple de tamaño n1 de la población 1 y una muestra aleatoria simple de tamaño n2 de la
población 2. Se supondrá que las desviaciones estándar, σ1 y σ2 , se conocen antes de elegir las dos muestras.
El intervalo de confianza de la diferencia entre las dos medias poblacionales está entre los dos valores
x̄1 − x̄2 ± z α2 σx̄1 −x̄2
(1)
Esto es, un estimador puntual (x̄1 − x̄2 ), más o menos, un margen de error (z α2 σx̄1 −x̄2 )
Donde:
• x̄1 y x̄2 son las medias muestrales de las muestras de tamaño n1 y n2 , respectivamente.
• x̄1 − x̄2 es el estimador puntual de la diferencia entre las dos medias poblacionales.
POLITÉCNICO GRANCOLOMBIANO
1
• σx̄1 −x̄2 es el error estándar de x̄1 − x̄2 el cual está dado por:
s
σ12 σ12
σx̄1 −x̄2 =
+
n1 n2
• Recordando que (1 − α) es el nivel de confianza, se tiene que z( α2 ) es el valor de z que proporciona un área
α
2 en la cola superior de la distribución de probabilidad normal estándar.
En el siguiente ejemplo se ilustra el procedimiento para calcular el margen de error y obtener una estimación por
intervalo (intervalo de confianza) para la diferencia entre las dos medias poblacionales cuando se conocen σ1 y σ2 .
Ejemplo 1. Suponga que se desea investigar la diferencia entre las medias de los promedios académicos de los
estudiantes de la sede norte y la sede sur de una universidad. Si la población 1 es la población de estudiantes de
la sede norte y la población 2 es la población de estudiantes de la sede sur de la universidad, entonces se tiene:
• µ1 :media de la población 1 (media de los promedios académicos de la sede norte).
• µ2 :media de la población 2 (media de los promedios académicos de la sede sur).
Se tomó una muestra aleatoria simple en la sede norte y en la sede sur de tamaño n1 = 50 y n2 = 42 estudiantes,
respectivamente, y se determinó que la media muestral del promedio académico de la sede norte es x̄1 = 3, 2 y de
la sede sur es x̄1 = 3, 7. De acuerdo con datos históricos académicos de la universidad, se sabe que la desviación
estándar para la sede norte y la sede sur es σ1 = 0, 8 y σ2 = 0, 6, respectivamente.
Si la investigación se realiza con 95 % de confianza, se tiene que el coeficiente de confianza es (1 − α) = 0, 95,
con lo cual α = 0, 05 y α2 = 0, 025. Por tanto, en la tabla de la distribución normal estándar aparece que un
área α2 = 0.025 en la cola superior corresponde a z α2 = 1, 96. Otra forma de calcular este valor de z α2 en hoja de
cálculo es con la función “=INV.NORM.ESTAND(arg)”, usando como argumento (1 − α) + α2 , que para el presente
ejemplo será 0,95+0,025=0,975, obteniendo de nuevo z α2 = 1, 96.
Continuando con el desarrollo del ejemplo, usando la ecuación (1), se calcula el margen de error y se proporciona
una estimación por intervalo de µ1 − µ2:
s
σ12 σ12
+
n1 n2
r
0, 82 0, 62
+
50
42
x̄1 − x̄2 ± z α2
3, 2 − 3, 7 ± 1, 96
−0, 5 ± 0, 3
El margen de error es de 0.3 y la estimación por intervalo de 95 % de confianza de la diferencia entre las medias
poblacionales va de −0, 5 − 0, 3 = −0, 8 a −0, 5 + 0, 3 = −0, 2. Esto quiere decir que el promedio académico en la
sede norte es entre 0, 2 y 0, 8 menor que el de la sede sur.
POLITÉCNICO GRANCOLOMBIANO
2
2.1. Ejercicios
1. Se tomaron dos muestras aleatorias simples independientes a dos poblaciones y se obtuvieron los siguientes
resultados:
Tabla 1: Medidas
Muestra 1
n1 = 52
x̄ = 25, 2
σ1 = 4, 3
de las muestras.
Muestra 1
n2 = 60
x̄2 = 19, 8
σ2 = 2, 9
Fuente: elaboración propia
a. Calcule la estimación puntual de la diferencia entre las dos medias poblacionales.
b. Determine un intervalo de confianza del 95 % para la diferencia entre las dos medias poblacionales.
c. Determine un intervalo de confianza del 90 % para la diferencia entre las dos medias poblacionales.
Respuestas. a. (5,4) b. (5, 4 ± 1, 4) c. (5, 4 ± 1, 2)
2. El auditor de un banco toma dos muestras, una de 41 cuentas de la ciudad de Barranquilla y otra de 35
cuentas de la ciudad de Bogotá, para estudiar el saldo al finalizar en el año 2016, encontrando lo siguiente:
Tabla 2: Medidas de las muestras.
Barranquilla Bogotá
Saldo promedio (COP)
1.700.000
1.200.000
Número de cuentas
41
35
Desviación estándar (COP) 150.000
200.000
Fuente:Elaboración propia
Respuesta. (500.000 ± 95.700) COP
3. Intervalo de confianza para la diferencia de dos proporciones
poblacionales
Si p1 es la proporción de la población 1 y p2 es la proporción de la población 2, ahora consideraremos la diferencia
entre las proporciones poblacionales p1 − p2 . Al igual que las diferencias entre medias poblacionales, se seleccionan
dos muestras aleatorias independientes, una de tamaño n1 de la población 1 y otra de tamaño n2 de la población
2.
El siguiente ejemplo ilustra la forma como se calcula un margen de error y una estimación por intervalo (intervalo
de confianza) para la diferencia entre dos proporciones poblacionales.
POLITÉCNICO GRANCOLOMBIANO
3
Ejemplo
Se desea comparar dos de las oficinas de abogados más prestigiosa de la ciudad, por lo que se toman muestras
aleatorias de los casos en cada una de las dos oficinas con el fin de comparar el número de casos ganados en cada
una de estas. Con esto, se podrá estimar la proporción de casos ganados en cada una de las oficinas. El interés se
centra conocer la diferencia entre las proporciones siguientes:
p1 : proporción de casos ganados en la oficina 1 (población 1),
p2 : proporción de casos ganados en la oficina 2 (población 2),
p̂1 proporción muestral en una muestra aleatoria simple de la población 1,
p̂1 proporción muestral en una muestra aleatoria simple de la población 2,
La diferencia entre las dos proporciones poblacionales es p1 − p2 y la estimación puntual de p1 − p2 será entonces
p̂1 − p̂2 . Como se indicó antes, el intervalo de confianza está dada por una estimación puntual ± un margen de
error. En el caso de las proporciones, el margen de error está dado por:
s
M argen − de − error = z α2
pˆ1 (1 − p̂1 ) pˆ2 (1 − p̂2 )
+
n1
n2
(2)
Con este margen de error, la forma general del intervalo de confianza para la diferencia entre dos proporciones
poblacionales es:
s
pˆ1 − pˆ2 ± z α2
pˆ1 (1 − p̂1 ) pˆ2 (1 − p̂2 )
+
n1
n2
(3)
Donde z α2 se calcula de la misma forma como se explicó en la primera parte de esta lectura.
Regresando al ejemplo de la oficina de abogados, se encuentra que de las muestras aleatorias realizadas a cada
una de las dos poblaciones, se obtiene la siguiente información:
Tabla 3: Medidas de las muestras.
Oficina 1
Oficina 2
n1 = 340
n2 = 270
Número de casos ganados = 313 Número de casos ganados = 230
Fuente: elaboración propia
Las proporciones muestrales de los casos ganados en cada una de las oficinas son, entonces:
pˆ1 =
313
340
pˆ2 =
230
270
Por lo tanto, la estimación puntual de la diferencia entre las proporciones de casos ganados en las dos oficinas es
pˆ1 − pˆ2 = 0, 92 − 0, 85 = 0, 07. Con lo que se puede estimar que la oficina 1 gana 0,07 o 7 % más casos que la oficina
2.
Si se utiliza un intervalo de 90 % de confianza, se tiene que (1 − α) = 0, 9, α = 0, 1 y α2 = 0, 05; con lo que
z α2 = z0,05 = 1, 645. Con lo anterior, la estimación por intervalo para la diferencia entre las dos proporciones
poblacionales es
POLITÉCNICO GRANCOLOMBIANO
4
s
pˆ1 − pˆ2 ± z α2
pˆ1 (1 − p̂1 ) pˆ2 (1 − p̂2 )
+
n1
n2
r
0.92 − 0.85 ± 1.645
0.92(1 − 0.92) 0.85(1 − 0.85)
+
340
270
0.07 ± 0.043
El margen de error es 0,043 y el intervalo de 90 % de confianza es el intervalo que va de 0,026 a 0,112.
4. Intervalo de confianza para el cociente varianzas
En algunas aplicaciones es interesante comparar las varianzas de las calidades de productos obtenidos en dos
lı́neas de producción diferentes, o las varianzas de los tiempos de producción mediante dos técnicas de fabricación
diferentes, entre otros. Para determinar un intervalo de confianza para el cociente de varianzas, se empleará la
distribución F , de manera similar a como se empleó la distribución chi-cuadrado en el caso de una sola varianza.
Se parte del hecho de que se tienen dos poblaciones normales e independientes con varianzas desconocidas σ12 y σ22 .
Al tomar una muestra aleatoria de tamaño n1 que provienen de población 1 y una muestra aleatoria de tamaño
n2 de la población 2, se pueden determinar sus varianzas muestrales s21 y s22 , respectivamente. La distribución
s2
muestral de s12 es una distribución F con n1 grados de libertad en el numerador y n2 grados de libertad en el
2
denominador.
En la Figura 1 se muestra una gráfica de la distribución F con 20 grados de libertad tanto en el numerador como en el
denominador. El valor de la función correspondiente a un área α = 0, 05 en la cola superior de la distribución, usando
la notación Fα, como aparece en la Figura 1, se tiene que para F0,05, con 20 grados de libertad en el numerador y 20
grados de libertad en el denominador, el valor de la función es F0.05 = 2, 12. Este valor de 2,12 se encuentra en la
tabla que se muestra en la Figura 2 con los valores de los grados de libertad tanto del numerador como del
denominador, además del valor de α.
A través de Excel, la forma de determinar el valor de F es haciendo uso de la hoja de cálculo con la función
= IN V.F (arg1; arg2; arg3), donde arg1 es el valor de (1−α), arg2 y arg3 son los grados de libertad del numerador
y del denominador, respectivamente. Para nuestro ejemplo, introduciendo = IN V.F (0, 95; 20; 20), nos arrojará el
valor de 2,12.
σ2
Si deseamos determinar el intervalo de confianza, por ejemplo del 95 %, para el cociente de las dos varianzas σ122
en donde el tamaño de las muestras aleatorias tomadas de la población 1 y la población 2, con sus respectivas
varianzas muestrales son:
POLITÉCNICO GRANCOLOMBIANO
5
Tabla 4: Datos muestras
Muestra 1 Muestra 2
n1 = 26
n2 = 21
s21 = 50
s22 = 24
Fuente: elaboración propia
El intervalo de confianza para el cociente está dado por:
s21
F(1− α2 ) s22
<
s21
σ12
<
2
σ2
F α2 s22
Continuando con el ejemplo con un nivel de confianza del 95 %, se tienen que (1 − α) = 0, 95, con lo cual α = 0, 05
y α/2 = 0, 025. Los grados de libertad en el numerador son n1 − 1 = 25 y los grados de libertad en el denominador
son n2 − 1 = 20. Con estos valores, y la tabla de la distribución F, se tiene que:
Fα/2 = F0,025 = 0, 435
F(1−α/2) = 0, 975 = 2, 396
Vale la pena mencionar que los anteriores valores se deben buscar en una tabla de distribución F con más valores
para grados de libertad y valores del área en la cola superior, recuerde que puede usarse también la función de
hoja de cálculo Excel.
50
σ2
50
< 12 <
(2, 396)(24)
(0, 435)(24)
σ2
0, 870 <
σ12
< 4, 793
σ22
Ejercicio
Determine un intervalo de confianza del 90 % para el cociente de las dos varianzas
aleatorias de tamaño n1 = 31 y n2 = 24 obteniéndose, además, varianzas
Respuesta.(0, 638 <
σ12
σ22
s21
σ12
σ22
cuando se toman dos muestras
= 40 y s22 = 32, respectivamente.
< 2, 371)
POLITÉCNICO GRANCOLOMBIANO
6
Referencias
[1] Montgomery, Douglas C and Runger Probabilidad y estadı́stica aplicadas a la ingenierı́a 1996.
[2] Walpole, Ronald E and Myers, Raymond H and Myers, Sharon L Probabilidad y estadı́stica para ingenieros
1999.
[3] Anderson, D.R. and Sweeney, D.J. Estadı́stica Para Administración y Economı́a 2008.
POLITÉCNICO GRANCOLOMBIANO
7
INFORMACIÓN TÉCNICA
Módulo: Estadı́stica II
Unidad 2: Intervalos de confianza para dos poblaciones y
pruebas de hipótesis sobre una muestra
Escenario 3: Intervalos de confianza para dos poblaciones
Autor: Daniel Ernesto Santiago Garnica
Asesor Pedagógico: Diana Marcela Salcedo Dı́az
Diseñador Gráfico: Jully Amanda Guzman
Corrector de estilo: Felipe Garán
Asistente: Ginna Paola Quiroga
Este material pertenece al Politécnico Grancolombiano.
Por ende, es de uso exclusivo de las Instituciones
adscritas a la Red Ilumno. Prohibida su reproducción
total o parcial.
POLITÉCNICO GRANCOLOMBIANO
8
Descargar