Estimación de la media 7-4 poblacional: o- desconocida

Anuncio
7-4
Estimación a de la media poblacional: rr desconocida
Tamaño muestral utilizando la regla práctica del intervalo. Usted acaba de ser contratado por la división de marketing de General Motors para estimar la media de la cantidad de dinero que se gasta actualmente en la compra de automóviles nuevos en Estados
Unidos. Primero use la regla práctica del intervalo para hacer un estimado burdo de la
desviación estándar de las cantidades gastadas. Es razonable suponer que el rango típico
de cantidades va desde $12,000 hasta alrededor de $70,000. Luego use esa desviación
estándar estimada para determinar el tamaño muestra' que corresponde a un nivel de
confianza del 95% y a un margen de error de $100. ¿Es práctico el tamaño muestral? Si
no es así, ¿qué se debe cambiar para obtener un tamaño muestral práctico?
Tamaño muestral utilizando datos muestrales. Usted quiere estimar la media del pulso de adultos varones. Remítase al conjunto de datos 1 en el apéndice B y calcule el pulso
máximo y mínimo para varones, luego utilice estos valores con la regla práctica del intervalo para estimar o-. ¿Cuántos adultos varones debe usted seleccionar al azar y examinar si quiere tener un nivel de confianza del 95% de que la media muestral del pulso
está dentro de 2 latidos (por minuto) de la media poblacional bt. real? Si en vez de usar la
regla práctica del intervalo se emplea la desviación estándar de los pulsos de varones del
conjunto de datos 1 como un estimado de o-, ¿es muy diferente el tamaño muestral requerido? ¿Qué tamaño muestral parece estar más cerca del tamaño muestral correcto?
7-3 MÁS ALLÁ DE LO BÁSICO
Intervalo de confianza con factor de corrección por población finita. El error estándar de la media es u/V71, siempre y cuando el tamaño de la población sea infinito.
Si el tamaño de la población es finito y se denota como N, entonces el factor de corrección V (N — n)/ (N — 1) debe usarse siempre y cuando n > 0.05N. Este factor
de corrección multiplica el margen de error E dado en la fórmula 7-4, de manera que
el margen de error es como se indica abajo. Calcule el intervalo de confianza del 95%
para la media de 250 puntuaciones de CI, si una muestra de 35 de esas puntuaciones
produce una media de 110. Suponga que o- = 15.
E=
za/2
-N—n
71 N— 1
Tamaño muestral con factor de corrección por población finita. En la fórmula 7-4
para el margen de error E, suponemos que la población es infinita, que estamos realizando un muestreo con reemplazo, o que la población es muy grande. Si tenemos una
población relativamente pequeña y hacemos el muestreo sin reemplazo, debemos modificar E para incluir un factor de corrección por población finita, para que el margen
de error sea como el que se indica en el ejercicio 39, donde N es el tamaño de la población. En esta expresión del margen de error se despeja n para obtener
N0.2(zai2)2
ti
(N — i)E2
0.2(za/2)2
Repita el ejercicio 33, suponiendo que los estudiantes de estadística se seleccionan al
azar y sin reemplazo, de una población de N = 200 estudiantes de estadística.
Estimación de la media
7-4 poblacional: o- desconocida
Concepto clave En esta sección se presentan métodos para construir un estimado
del intervalo de confianza de una media poblacional cuando no se conoce la desviación estándar. (En la sección 7-3 se presentaron métodos para estimar /..z, cuando se
conoce u). Cuando se desconoce u, se utiliza la distribución 1 de Student (en vez de
la distribución normal), suponiendo que ciertos requisitos (los cuales se señalan abajo) se satisfacen. Como generalmente se desconoce u en circunstancias reales, los
métodos de esta sección son muy realistas y prácticos, y se utilizan con frecuencia.
349
350
Capítulo 7
Estimaciones y tamaños de muestra
Requisitos
La muestra es aleatoria simple.
La muestra proviene de una población distribuida normalmente o n > 30.
Como en la sección 7-3, el requisito de una población distribuida normalmente
no es estricto. Por lo regular, podemos considerar que la población está distribuida
normalmente después de usar los datos muestrales para confirmar que no existen
valores extremos y que el histograma tiene una forma que no es muy lejana a la de
una distribución normal. Además, al igual que en la sección 7-3, el requisito de que
el tamaño muestral sea n > 30 suele usarse como directriz, pero el tamaño muestral
mínimo realmente depende de cuánto se aleja la distribución de la población de
la distribución normal. [Si se sabe que una población se distribuye normalmente, la
distribución de medias muestrales x es exactamente una distribución normal con
media p. y desviación estándar o-IV77; si la población no está distribuida normalmente, muestras grandes (n > 30) producen medias muestrales con una distribución
que es aproximadamente normal, con media p. y desviación estándar a-/V72].
Al igual que en la sección 7-3, la media muestral x— es el mejor estimado puntual
(o estimado de un solo valor) de la media poblacional p.
La media muestral x es el mejor estimado puntual de la media
poblacional
He aquí el aspecto clave de esta sección: si o- no se conoce, pero los requisitos
anteriores se satisfacen, utilizamos la distribución t de Student (en vez de la distribución normal), que desarrolló William Gosset (1876-1937). Gosset fue un empleado de la cervecería Guinness Brewery que necesitaba una distribución que
pudiera utilizarse con muestras pequeñas. La cervecería irlandesa donde trabajaba
no permitía la publicación de resultados de investigaciones, entonces Gosset
publicó bajo el seudónimo de Student. (En aras de la investigación y para servir a
sus lectores, el autor visitó la cervecería Guinness Brewery y probó una muestra
del producto. ¡Qué comprometido!)
Puesto que no conocemos el valor de u, lo estimamos con el valor de la desviación estándar muestral s, pero esto introduce otra fuente de falta de confiabilidad,
en especial con las muestras pequeñas. Para mantener un intervalo de confianza en
algún nivel deseado, como el 95%, compensamos esta falta de confiabilidad adicional haciendo más ancho el intervalo de confianza: utilizamos valores críticos
ta/2 (de una distribución t de Student), los cuales son más grandes que los valores
críticos de zap de la distribución normal.
Distribución t de Student
Si una población tiene una distribución normal, entonces la distribución de
x
t= "\/1
para
todas
las muestras de tamaño n. La distribues una distribución t de Student
ción t de Student, conocida a menudo como distribución t, se utiliza para calcular
valores críticos denotados por ta/2•
Pronto analizaremos algunas de las propiedades importantes de la distribución t,
pero antes presentamos los componentes necesarios para la construcción de intervalos
Estimación a de la media poblacional: o- desconocida 7-4
351
de confianza. Comencemos con el valor crítico denotado por t a,2. Un valor de ta/2 se
puede encontrar en la tabla A-3 localizando el número apropiado de grados de libertad en la columna izquierda y avanzando por el renglón correspondiente hasta encontrar el número que aparece directamente abajo del área adecuada en la parte superior.
41 Definición
El número de grados de libertad para un conjunto de datos muestrales recolectados es el número de valores muestrales que pueden variar después de
haber impuesto ciertas restricciones a todos los valores de los datos.
Por ejemplo, si 10 estudiantes tienen puntuaciones de examen con una media de
80, podemos asignar con libertad valores a las primeras 9 puntuaciones, pero la
décima puntuación se calcula. La suma de las 10 puntuaciones debe ser 800, entonces la décima puntuación debe ser igual a 800 menos la suma de las primeras 9
puntuaciones. Puesto que esas primeras 9 puntuaciones pueden seleccionarse con
libertad para adoptar cualquier valor, decimos que existen 9 grados de libertad disponibles. Para las aplicaciones de esta sección, el número de grados de libertad es
simplemente el tamaño muestral menos 1.
grados de libertad = n — 1
Extractos de una
circular del Departamento del Transporte
Los siguientes extractos de una
circular del departamento de
transporte de Estados Unidos
atañen algunos de los requisitos de exactitud para el equipo
EJEMPLO Cálculo de un valor crítico Una muestra de tamaño n = 23 es
una muestra aleatoria simple seleccionada de una población distribuida normalmente. Calcule el valor crítico ta/2 correspondiente a un nivel de confianza del 95%.
SOLUCIÓN Puesto que n = 23, el número de grados de libertad está dado por
n — 1 = 22. Utilizando la tabla A-3, localizamos el renglón 22 con respecto a la
columna de la extrema izquierda. Al igual que en la sección 7-2, un nivel de
confianza del 95% corresponde a a = 0.05, de manera que encontramos los valores listados en la columna para una área de 0.05 en dos colas. El valor correspondiente al renglón para 22 grados de libertad y la columna para una área de
0.05 en dos colas es 2.074; entonces t a/2 = 2.074.
Ahora que sabemos cómo encontrar valores críticos denotados por ta/2,
podemos describir el margen de error E de este intervalo de confianza.
de navegación empleado en
aviones. Observe el uso del intervalo de confianza. "El total
de las contribuciones de error
del equipo a bordo, combinado
con los errores técnicos de vuelo correspondientes incluidos
en la lista, no debe exceder lo
siguiente, con un nivel de confianza del 95% (2-sigma), durante un periodo igual al ciclo
de actualización". "El sistema de vías y rutas aéreas de
Margen de error E para la estimación de lu (con u desconocida)
Fórmula 7-6
E=
Estados Unidos tiene anchuras
de protección de ruta que se
ta/2
utilizan en un sistema VOR
Pi
donde tap tiene n — 1 grados de libertad. La tabla A-3 lista valores de ta12.
con una exactitud de ±4.5 grados con base en una probabilidad del 95%".
ir Intervalo de confianza para la estimación de
l (con u desconocida)
— E < ,u < + E
donde
s
E = ta/2 _
Vn
ji
352
Capítulo 7
Estimaciones y tamaños de muestra
El siguiente procedimiento utiliza el margen de error anterior en la construcción
de estimados del intervalo de confianza de
Procedimiento para construir un intervalo de confianza para
(con fr desconocida)
Verifique que los requisitos se satisfacen. (Tenemos una muestra aleatoria
simple y la población parece estar distribuida normalmente o n > 30).
Utilizando n — 1 grados de libertad, remítase a la tabla A-3 y encuentre el valor crítico tan que corresponde al nivel de confianza deseado. (Para el nivel de
confianza, remítase al "área en dos colas").
Evalúe el margen de error E = tan • s /N/71•
Utilizando el valor del margen de error E calculado y el valor de la media
muestral x, calcule los valores de .7x. — E y .X + E. Sustituya estos valores en el
formato general para el intervalo de confianza:
— E < < + E
o
x±E
o
(x— — E, x— + E)
5. Redondee los límites del intervalo de confianza resultantes. Si utiliza el conjunto
original de datos, redondee a un decimal más del que se usa para el conjunto original de datos. Si utiliza un resumen de estadísticos (n, z, s), redondee los límites
del intervalo de confianza al mismo número de lugares decimales utilizados para
la media muesiral.
Gráfica de tallo
y hojas de las
edades
34 7 7 8
41 2 3 4 4 5 5 5689
53 3 4 4 5 6 7
6
EJEMPLO Construcción de un intervalo de confianza En el diagrama de tallo y hojas que aparece al margen, se incluyen las edades de solicitantes
que no lograron un ascenso (según datos de "Debating the Use of Statistical
Evidence in Allegations of Age Discrimination", de Barry y Boland, American
Statistician, vol. 58, núm. 2). Existe el tema más importante de si ciertos solicitantes fueron víctimas de discriminación por edad, pero por ahora nos enfocaremos en
el simple aspecto de utilizar esos valores como una muestra con el propósito de estimar la media de una población más grande. Suponga que la muestra es aleatoria
simple y utilice los datos muestrales con un nivel de confianza del 95% para calcular lo siguiente:
a. El margen de error E
li. El intervalo de confianza para p.
SOLUCIÓN
REQUISITO 3 Primero debemos verificar que los dos requisitos para esta
sección se satisfacen. Estamos suponiendo que la muestra es aleatoria simple.
Ahora revisamos el requisito de que "la población se distribuya normalmente o
n > 30". Puesto que n = 23, debemos verificar que la distribución sea aproximadamente normal. La forma de la gráfica de tallo y hojas sugiere una distribución normal. Además, una gráfica cuantilar normal confirma que los datos
7-4
Estimación a de la media poblacional: o- desconocida
353
muestrales provienen de una población con una distribución aproximadamente
normal. Por consiguiente. los requisitos se satisfacen y procedemos con los
métodos de esta sección. 1,/
El nivel de confianza de 0.95 implica que a = 0.05, de manera que t an =
2.074 (utilice la tabla A-3 con gl = n— 1 = 22, como se mostró en el ejemplo
anterior). Después de encontrar que los estadísticos muestrales son n= 23,
= 47.0 y s= 7.2, el margen de error E se calcula utilizando la fórmula 7-6
como sigue. Se utilizan decimales adicionales para minimizar los errores de
redondeo en el intervalo de confianza calculado en e] inciso b).
E = t„12 S = 2.074
7.2 = 3.1 1370404
V23
Con = 47.0 y E = 3.11370404, construimos el intervalo de confianza de
la siguiente manera:
x — E < ,u < x + E
47.0 — 3.11370404 < ,u < 47.0 + 3.11370404
(redondeado a un decimal más que los
43.9 <
< 50.1
datos originales)
INTERPRETACIÓN Este resultado también podría expresarse en la forma
de 47.0 ± 3.1 o (43.9, 50.1). Con base en los resultados muestrales dados, tenemos una confianza del 95% de que los límites de 43.9 años y 50.1 años
... realmente contienen el valor de la media poblacional
Ahora listamos las propiedades importantes de la distribución t que utilizamos
en esta sección.
Propiedades importantes de la distribución t de Student
La distribución t de Student es diferente para distintos tamaños de muestra.
(Véase la figura 7-5 para los casos n= 3 y n= 12).
La distribución t de Student tiene la misma forma de campana simétrica que la
distribución normal estándar, pero refleja una mayor variabilidad (con distribuciones más amplias) de lo que se espera con muestras pequeñas.
Distribución
normal
estándar
Distribución t
de Student
con n • 12
Distribución t
de Student
con n • 3
o
Figura 7-5
Distribuciones 1 de Student
para n = 3 y n = 12
La distribución t de Student
tiene la misma forma y simetría
general de la distribución normal
estándar, pero refleja una mayor
variabilidad de lo que se espera
con muestras pequeñas.
Estimaciones y tamaños de muestra
Capítulo 7
354
La distribución t de Student tiene una media de t = O (así como la distribución
normal estándar tiene una media de z = O).
La desviación estándar de la distribución t de Student varía con el tamaño
muestral, pero es mayor que 1 (a diferencia de la distribución normal estándar,
que tiene u = 1).
5. Conforme el tamaño muestral n se hace más grande, la distribución t de Student
se acerca más a la distribución normal estándar.
Elección de la distribución apropiada
En ocasiones es difícil decidir entre utilizar la distribución normal estándar z o
la distribución t.de Student. El diagrama de flujo de la figura 7-6 y la tabla 7-1
resumen los aspectos clave a considerarse cuando se construyen intervalos de
la media poblacional. En la figura 7-6 o en la tabla 7- 1 .
confianza para estimar
30) obtenida de una distribunote que si tenemos una muestra pequeña (n
ción que difiere drásticamente de una distribución normal, no podemos usar los
métodos descritos en este capítulo. Una alternativa es utilizar métodos no paramétricos (véase el capítulo 13); otra alternativa es usar el método de bootstrap
por computadora. En ambos enfoques no se hacen supuestos acerca de la población original. El método bootstrap se describe en el proyecto tecnológico al
final del capítulo.
<--
Sí
Sí
¿La población
está distribuida
normalmente?
Sí
Utilice la distribución
normal.
„,
¿Se conoce a?
No
¿La población
está distribuida
normalmente?
o
o
No
LEs n> 309
¿Es n > 30?
Utilice métodos no
paramétricos o
de bootstrap.
Figura 7-6 Elección entre z y t
o
Utilice la
distribución t.
Utilice métodos no
paramétricos o
de bootstrap.
7-4
Tabla 7 - 1
Estimación a de la media poblacional: u desconocida
355
Elección entre z y t
Método
Condiciones
Utilice la distribución normal (z).
(7' conocida
y población
distribuida normalmente
o
n- conocida
Utilice la distribución t.
y
a >
30
o- desconocida y población
distribuida normalmente
o
o <I desconocida y n > 30
Utilice un método no paramétrico
o de bootstrap.
Notas:
La población no está distribuida
normalmente y n -.5. 30
1. Criterios para decidir si la población está distribuida normalmente: La población no necesita ser exactamente normal, pero debe tener una apariencia un tanto
simétrica, con una moda y sin valores extremos.
2. Tamaño muestral n > 30: Éste es un lineamiento que se usa regularmente, pero
tamaños muestrales de 15 a 30 son adecuados si la población parece tener una
distribución normal y no existen valores extremos. Para algunas distribuciones
poblacionales que estén extremadamente alejadas de la normal, puede requerirse
que el tamaño muestral sea mayor de 50 o aun de 100.
Estimación de azúcar en las naranjas
En Florida, los miembros de
la industria de los cítricos usan
profusamente métodos estadísticos. Una aplicación específica
tiene que ver con la forma en
que se paga a los agricultores
por las naranjas que se usan
para elaborar jugo de naranja.
El siguiente ejemplo se enfoca en elegir la aproximación correcta utilizando
los métodos de esta sección y de la sección 7-3.
Cuando llega un camión cargado con naranjas, primero se
pesa la carga en la planta receptora. luego se elige al azar
r-
EJEMPLO Selección de distribuciones Suponiendo que usted planea
una muestra de una docena de
construir un intervalo de confianza para la media poblacional 11, utilice los datos
para determinar si el margen de error E debe calcularse utilizando un valor crítico
de ze12 (de la distribución normal), un valor crítico de t ap (de la distribución t) o
ninguno de estos (de manera que los métodos de la sección 7-3 y de esta sección
no son viables).
naranjas. La muestra se pesa,
= 150, x = 100, s = 15, y la población tiene una distribución sesgada.
n = 8, x = 100, s = 15, y la población tiene una distribución normal.
n = 8, .7v = 100, s = 15, y la población tiene una distribución muy sesgada.
n = 150, x = 100, cr = 15, y la distribución está sesgada. (Esta situación
n
casi nunca ocurre).
se exprime y se mide la cantidad de azúcar que contiene el
jugo. Con base en los resultados de la muestra, se estima la
cantidad total de azúcar contenida en toda la carga del camión. El pago por la carga de
naranjas se basa en la estimación de la cantidad de azúcar,
ya que las naranjas más dulces
e. n = 8, •X = 100, cr = 15, y la distribución está extremadamente sesgada.
(Esta situación casi nunca ocurre).
son más valiosas que las me-
SOLUCIÓN Remítase a la figura 7-6 o a la tabla 7-1 para determinar lo siguiente:
dades de jugo sean iguales.
Puesto que la desviación estándar poblacional u no se conoce y la muestra es
grande (n > 30), el margen de error se calcula usando to, en la fórmula 7-6.
Puesto que la desviación estándar poblacional u no se conoce y la población
está distribuida normalmente, el margen de error se calcula usando 1„/, en
la fórmula 7-6.
continúa
nos dulces, aunque las canti-
356
Capítulo 7
Estimaciones y tamaños de muestra
ed..
e.
Estimados para
mejorar el censo
En el censo del decenio no se
cuenta a todas las personas y es
posible que algunas de ellas se
cuenten más de una vez. Existen métodos estadísticos para
mejorar los conteos de población con ajustes en cada condado de cada estado. Algunos argumentan que la Constitución
especifica que el censo debe ser
una "enumeración real" que no
permite ajustes. Una norma de
la Suprema Corte prohíbe el
uso de conteos de población
ajustados por las repercusiones
que esto tendría en la asignación de escaños en el Congreso,
pero una disposición reciente
establecida por una Corte Federal de apelación ordenó que se
permitieran los conteos ajustados, incluso si no pueden utilizarse para ese propósito. Según
la Associated Press, "el Census
Bureau ha dejado abierta la posibilidad de utilizar datos ajustados
para financiamientos federales
en el futuro", de manera que el
uso de métodos estadísticos poderosos, con el tiempo, produciría una mejor asignación de
fondos federales y estatales.
2700
—
Puesto que la muestra es pequeña y la población no tiene una distribución
normal, el margen de error E no debe calcularse usando un valor crítico de
zo2 o ta 2. No se aplican los métodos de la sección 7-3 ni de esta sección.
Puesto que la desviación estándar poblacional u se conoce y la muestra es
grande (n > 30), el margen de error se calcula usando z a/2 en la fórmula 7-4.
Puesto que la población no está distribuida normalmente y la muestra es
pequeña (n 5- 30), el margen de error E no debe calcularse usando un valor
crítico de za/2 o ta/2. No se aplican los métodos de la sección 7-3 ni de esta
sección.
EJEMPLO Intervalo de confianza para pesos al nacer En un estudio
de los efectos sobre los bebés del consumo de cocaína durante el embarazo, se obtuvieron los siguientes datos de pesos al nacer: n = 190,x = 2700 g, s = 645 g (según datos de "Cognitive Outcomes of Preschool Children with Prenatal Cocaine
Exposure", de Singer et al., Journal of the American Medical Association, vol.
291, núm. 20). El diseño del estudio justifica el supuesto de que la muestra puede
tratarse como una muestra aleatoria simple. Utilice los datos muestrales para construir un estimado del intervalo de confianza del 95% de p, el peso medio al nacer
de todos los bebés hijos de madres que consumieron cocaína durante el embarazo.
SOLUCIÓN
REQUISITO 3 Primero debemos verificar que los requisitos se cumplan. Se
trata de una muestra aleatoria simple. Puesto que n = 190, se satisface el requisito de que "la población se distribuye normalmente o n> 30". Por lo tanto, los
requisitos se cumplen. (Éste es el paso 1 del procedimiento de cinco pasos que
se describió antes, y ahora podemos continuar con los pasos restantes). 3
Paso 2: El valor crítico es ta/2 = 1.972. En la tabla A-3 encontramos que el
valor crítico corresponde a n — 1 = 189 grados de libertad (columna
izquierda de la tabla A-3) y una área en dos colas de 0.05. (Puesto
que la tabla A-3 no incluye gl = 189, utilizamos el valor crítico más
cercano de 1.972. Si utilizamos un programa de cómputo encontraremos que un valor crítico más exacto es 1.973, de manera que la
aproximación que se hace aquí es bastante buena).
Paso 3: Calcule el margen de error E: El margen de error E = 2.97355 se
calcula utilizando la fórmula 7-6 como se indica a continuación, con
decimales adicionales para minimizar el error de redondeo en el intervalo de confianza calculado en el paso 4.
s•
E = ta/2 ,— = 1.972
V n
Paso 4:
645 = 92.276226
V190
Calcule el intervalo de confianza: Ahora podemos calcular el inter-
valo de confianza utilizando x— = 2700 g y E = 92.276226, como se
indica a continuación:
x — E <
92.276226 <
2607.7238 <
<x+E
< 2700 + 92.276226
< 2792.2762
Estimación a de la media poblacional: u desconocida 7-4
357
Paso 5: Redondee los límites del intervalo de confianza. Como la media
inuestral se redondea a un número entero, redondee los límites del intervalo de confianza para obtener este resultado: 2608 <1..t. < 2792.
Con base en los datos muestrales, tenemos una confianza
del 95% de que los límites de 2608 g y 2792 g realmente contienen el valor del
peso medio al nacer. Ahora podemos comparar este resultado con un intervalo
de confianza construido para los pesos al nacer de niños cuyas madres no con... sumieron cocaína. (Véase el ejercicio 17).
INTERPRETACIÓN
Cálculo del estimado puntual y de E a partir de un
intervalo de confianza
Más adelante en esta sección describiremos cómo pueden utilizarse las calculadoras
y los programas de cómputo para calcular un intervalo de confianza. Un uso común
requiere que usted ingrese un nivel de confianza y estadísticos muestrales, y la pantalla indica los límites del intervalo de confianza. La media muestrall es el valor intermedio de estos límites; el margen de error E es la mitad de la diferencia entre estos
límites (ya que el límite superior es x— + E y el límite inferior es .7 — E. y la distancia
que los separa es 2E).
Estimado puntual dem.:
x=
(límite de confianza superior) + (límite de confianza inferior)
2
Margen de error:
E=
(límite de confianza superior) — (límite de confianza inferior)
2
EJEMPLO Edades de polizones Al analizar las edades de todos los polizones del Queen Mary (según datos de Cunard Line), se obtiene la pantalla de
Minitab que se muestra abajo. Utilice el intervalo de confianza dado para calcular el estimado puntual 7v y el margen de error E. Trate los valores como datos
muestrales seleccionados al azar de una población grande.
Minitab
95.0% CI
(24.065, 27 . 218)
SOLUCIÓN En los siguientes cálculos, los resultados se redondean a un decimal, que es un espacio decimal adicional más del redondeo utilizado para la
lista original de edades.
X=
(límite de confianza superior) + (límite de confianza inferior)
2
27.218 + 24.065
2
E=
— = 25.6 años
(límite de confianza superior) — (límite de confianza inferior)
2
27.218 — 24.065
2
= 1.6 años
Estimación del tamaño de multitudes
Existen métodos complejos
para analizar el tamaño de una
multitud. Se pueden emplear
fotografías aéreas y medidas
de densidad demográfica con
una exactitud bastante razonable. Sin embargo, los reportes
de estimaciones del tamaño de
multitudes a menudo son simples conjeturas. Después de
que los Medias Rojas de Boston ganaron la Serie Mundial
por primera vez en 86 años,
las autoridades de la ciudad de
Boston estimaron que a la fiesta de celebración acudieron 3.2
millones de fanáticos. La policía de Boston dio un estimado
de alrededor de un millón, pero
aceptó que este cálculo se basaba en conjeturas de los comandantes de la policía. Un análisis
fotográfico produjo un estimado de alrededor de 150,000. El
profesor Farouk El-Baz de la
Universidad de Boston utilizó
imágenes del U.S. Geological
Survey para llegar a un estimado de casi 400,000. El físico
Bill Donnelly del MIT dijo que
"es un problema serio que la
gente sólo indique un número
cualquiera. Esto significa que
otros tantos asuntos no se están investigando de manera
cuidadosa".
358
Capítulo 7
Estimaciones y tamaños de muestra
Figura 7-7
Mujer
Hombre
Índices de masa corporal
(IMC) de hombres y mujeres
3
4
5
6
7
8
IMC (indice de masa corporal)
Uso de los intervalos de confianza para describir,
explorar o comparar datos
En algunos casos, podríamos utilizar un intervalo de confianza para lograr el objetivo final de estimar el valor de un parámetro poblacional. En otros casos, un intervalo de confianza podría ser una de varias herramientas para describir, explorar
o comparar conjuntos de datos. En la figura 7-7 se presentan gráficas de intervalos
de confianza para los índices de masa corporal (IMC) de una muestra de mujeres
y hombres (véase el conjunto de datos 1 del apéndice B). Puesto que los intervalos
de confianza se traslapan, no parece haber una diferencia significativa entre la media
del índice IMC de mujeres y hombres.
Uso de la tecnología
Los siguientes procedimientos se aplican a
intervalos de confianza para estimar una
media ji e incluyen los intervalos de confianza descritos en la sección 7-3, así como
los intervalos de confianza presentados en
esta sección. Antes de utilizar programas de
cómputo o una calculadora para generar un
intervalo de confianza, asegúrese de revisar
que los requisitos se satisfagan. Consulte los
requisitos listados casi al principio de esta
sección y de la sección 7-3.
Primero debe calcular el
STATDISK
tamaño muestral Ir, la media muestral y la
desviación estándar muestra' s. (Vea el procedimiento del STATDISK descrito en la
sección 3-3). Seleccione Analysis de la barra del menú principal, luego Confidence
Intervals y después Population Mean. Proceda a ingresar los elementos en el cuadro
de diálogo; luego, haga clic en el botón Evaluate. El intervalo de confianza aparecerá en
la pantalla.
Minitab Release 14 ahora le
=1311
permite utilizar ya sea el resumen de estadísticos n, .7r y s o una lista de los valores muestrales originales. Seleccione Stat y Basic
Statistics. Si no se conoce u, seleccione 1sample t e ingrese el resumen de estadísticos
o ingrese Cl en el recuadro ubicado en la
parte superior derecha. (Si se conoce u, seleccione 1-sample Z e ingrese el resumen de
estadísticos o ingrese Cl en el recuadro ubicado en la parte superior derecha. También
ingrese el valor de u en el cuadro "Standard
Deviation" o "Sigma"). Utilice el botón Options para ingresar el nivel de confianza.
EXCEL Utilice el programa complementario Data Desk XL que es un complemento
de este libro. Haga clic en DDXL y seleccione
Confidence Intervals. Dentro de las opciones para tipo de función, seleccione 1 Var t
Interval si se desconoce u. (Si se conoce u,
seleccione 1 Var z Interval). Haga clic en el
icono con forma de lápiz e ingrese el rango de
datos, como A 1 :Al2 si usted tiene 12 valores
listados en la columna A. Haga clic en OK.
En el cuadro de diálogo, seleccione el nivel de
confianza. (Si está utilizando 1 Var z lnterval,
también ingrese el valor de u). Haga clic en
Compute Interval y el intervalo de confianza
aparecerá en la pantalla.
No se recomienda el uso de la herramienta
de Excel para calcular intervalos de confían-
za, ya que supone que se conoce u, y usted
debe calcular primero el tamaño muestra! n
y la desviación estándar muestra' s (que
puede calcularse usando fx, Statistical, STDEV). En vez de generar el intervalo de
confianza completo con límites específicos,
esta herramienta calcula sólo el margen de
error E. Luego usted debe restar este resultado a ,Tt. y sumarlo a ,Tc para poder identificar
los límites reales del intervalo de confianza.
Para utilizar esta herramienta cuando se conoce o-. haga clic en fx, seleccione la categoría
de funciones Statistical y luego seleccione el
elemento de CONFIDENCE. En el cuadro
de diálogo, ingrese el valor de a (llamado
nivel de significando), la desviación estándar
y el tamaño muestral. El resultado será el
valor del margen de error E.
TI-83/84 PLUS La calculadora TI83/84 Plus sirve para generar intervalos de
confianza para valores muestrales originales
guardados en una lista, o bien, usted puede
utilizar un resumen de los estadísticos n, x y
s. Ingrese los datos en la lista L I o tenga disponible el resumen de los estadísticos, luego
presione la tecla STAT. Ahora seleccione
TEST y elija Tlnterval si no se conoce u
(elija Zinterval si se conoce u). Después de
efectuar los ingresos requeridos, la pantalla
de la calculadora incluirá el intervalo de
confianza en el formato ( - E. .7r + E).
7-4
Estimación a de la media poblacional: u desconocida
Advertencia: Como en las secciones 7-2 y 7-3. los intervalos de confianza
pueden usarse de manera informal para comparar diferentes conjuntos de datos,
pero el traslape de intervalos de confianza no debe usarse para obtener conclusiones formales ni finales acerca de la igualdad de medias. En capítulos posteriores se incluyen procedimientos para decidir si dos poblaciones tienen medias
iguales; esos métodos no tendrán las dificultades asociadas con las comparaciones
que se basan en el traslape de intervalos de confianza.
No utilice el traslape de intervalos de confianza como base para
obtener conclusiones formales acerca de la igualdad de medias.
7-4 DESTREZAS Y CONCEPTOS BÁSICOS
Conocimientos estadísticos y pensamiento crítico
¿Qué está mal? Una nota en USA Today señaló que "los consumidores gastarán un
promedio estimado de $483 en mercancía" por el reinicio de las clases. Se reportó que
el valor se basa en una encuesta de 8453 consumidores, y el margen de error es "± 1
punto porcentual". ¿Qué está incorrecto en esta información?
Intervalo de confianza. El Newport Chronicle publicó un reporte que afirmaba que, con
base en una muestra de hogares, la factura fiscal media es de $4626, con un margen de
error de $591. Exprese el intervalo de confianza en el formato de x — E < p. <7 + E.
Interpretación de un intervalo de confianza. Utilizando los niveles de presión sanguínea sistólica de 40 hombres que se listan en el conjunto de datos 1 del apéndice B,
obtenemos el siguiente intervalo de confianza del 99%: 114.4 < ,u < 123.4. Redacte
una aseveración que interprete correctamente ese intervalo de confianza.
Verificación de requisitos. Suponga que deseamos construir un estimado de un intervalo de confianza para las cantidades de precipitación que caen los lunes en Boston, y que planeamos utilizar las cantidades que aparecen en el conjunto de datos 10
del apéndice B. Al examinar esas cantidades vemos que, de los 52 lunes, 33 tienen
cantidades de 0. Con base en esa observación, ¿parece que las cantidades de precipitación que caen los lunes se distribuyen normalmente? Suponiendo que la muestra se
puede considerar aleatoria simple, ¿podemos utilizar los métodos de esta sección para construir un estimado de un intervalo de confianza para la media poblacional? ¿Por
qué?
Uso de la distribución correcta. En los ejercicios 5 a 12, realice una de las siguientes
acciones, según sea apropiado: a) calcule el valor crítico z a/2, b) calcule el valor crítico
ta/2, c) determine que no se aplica ni la distribución normal ni la distribución t.
95%; n = 12; se desconoce u; la población parece estar distribuida normalmente.
99%; n = 15; se desconoce u; la población parece estar distribuida normalmente.
99%; n = 4; se conoce u; la población parece estar muy sesgada.
95%; n = 50; se conoce u; la población parece estar muy sesgada.
90%; n = 200; se desconoce a; la población parece estar distribuida normalmente.
98%; n = 16; u = 5.0: la población parece estar muy sesgada.
98%; n = 18; u = 21.5; la población parece estar distribuida normalmente.
90%; n = 33; se desconoce u; la población parece estar distribuida normalmente.
359
360
Capítulo 7
Estimaciones y tamaños de muestra
Cálculo de intervalos de confianza. En los ejercicios 13 y 14, utilice el nivel de confianza
y los datos muestrales indicados para calcular a) el margen de error y b) el intervalo de
confianza para la media poblacional in. Suponga que la población tiene una distribución
normal.
Peso perdido por una dieta de Weight Watchers: 95% de confianza; n = 40, .7-v = 3.0 kg,
s = 4.9 kg.
Periodo de vida de una computadora de escritorio: 99% de confianza; n = 21, = 6.8
años, s = 2.4 años.
Interpretación de la pantalla de la calculadora. En los ejercicios 15 y 16 utilice los datos
y la imagen de la pantalla de la calculadora T1-83/84 Plus correspondiente para expresar
+ E. Además, escriba un enunel intervalo de confianza en el fOrmato de — E <
ciado que interprete el intervalo de confianza.
15. Puntuaciones de CI de estudiantes de estadística: 95% de confianza; n = 25, x = 118.0,
s = I0.7.
Minitab
Mean
N
25
118.000
StDev SE Mean
10.700
2.140
95% CI
(113.583, 122.417)
11-83/84 Plus
TInter„Ja1
x=4.5
Sx=1.9
n=27
Periodo de vida de teléfonos celulares: 99% de confianza; n = 27. = 4.6 años, s = 1.9
años. (Véase la pantalla de la calculadora TI-83/84 Plus que aparece al margen).
Construcción de intervalos de confianza. En los ejercicios 17 a 26, construya el intervalo de confianza.
Pesos al nacer. Una muestra aleatoria de los pesos al nacer de 186 bebés tiene una
media de 3103 g y una desviación estándar de 696 g (según datos de "Cognitive Outcomes of Preschool Children with Prenatal Cocaine Exposure", de Singer et al., Journal
of the American Medical Association, vol. 291. núm. 20). Estos bebés son hijos de
madres que no consumieron cocaína durante el embarazo. Construya un estimado del
intervalo de confianza del 95% del peso medio al nacer de todos estos bebés. Compare
el resultado con el intervalo de confianza obtenido en el ejemplo de esta sección sobre
los pesos al nacer de hijos de madres que consumieron cocaína durante el embarazo.
Al parecer, ¿el consumo de cocaína afecta el peso que tiene un bebé al nacer?
Temperatura media corporal. El conjunto de datos 2 del apéndice B incluye 106
temperaturas corporales, para las cuales .7r. = 98.20°F y s = 0.62°F. Utilizando los estadísticos de la muestra, construya un estimado del intervalo de confianza del 99%
para la temperatura media corporal de todos los seres humanos saludables. ¿Los límites del intervalo de confianza incluyen los 98.6°F? ¿Qué sugiere la muestra acerca del
uso de 98.6°F como la temperatura corporal media?
Temperaturas pronosticadas y reales. El conjunto de datos 8 del apéndice B incluye
una lista de temperaturas máximas reales y la lista correspondiente del pronóstico de
temperaturas máximas para tres días. Si la diferencia para cada día se obtiene restando
la temperatura máxima pronosticada para tres días de la temperatura máxima real, el resultado es una lista de 35 valores con una media de —1.3° y una desviación estándar de 4.7°.
Construya un estimado del intervalo de confianza del 99% para la inedia de la diferencia entre todas las temperaturas máximas reales y las temperaturas máximas
pronosticadas para tres días.
¿El intervalo de confianza incluye 0°? Si un meteorólogo afirma que el pronóstico de
temperaturas máximas para tres días tiende a ser muy alto puesto que la diferencia
media de la muestra es —1.3° ¿parece ser válida esa afirmación? ¿Por qué?
20. Ritmos cardiacos al trabajar con la pala. Ya que las muertes por problemas cardiacos parecen incrementarse después de las fuertes nevadas, se diseñó un experimento para comparar las demandas cardiacas al retirar nieve con una pala con las de aquellos que
utilizan un aparato eléctrico para retirarla. Diez sujetos retiraron la nieve del terreno
7-4
Estimación a de la media poblacional: u desconocida
usando ambos métodos y se registraron sus frecuencias cardiacas máximas (en latidos
por minuto) durante ambas actividades. Se obtuvieron los siguientes resultados (según
datos de "Cardiac Demands of Heavy Snow Shoveling", de Franklin et al., Journal of
me American Medical Association, vol. 273, núm. 11):
Frecuencias cardiacas máximas al retirar la nieve con pala: n = 10, = 175, s = 15
Frecuencias cardiacas máximas al usar un aparato eléctrico para retirar la nieve:
n = 10,..—z 124,s = 18
Calcule el estimado del intervalo de confianza del 95% de la media poblacional
para aquellas personas que retiran la nieve con la ayuda de una pala.
Calcule el estimado del intervalo de confianza del 95% de la media poblacional de
aquellas personas que usan el aparato eléctrico para retirar la nieve.
Si usted fuera un médico preocupado por las muertes debidas a problemas cardiacos
provocados por el paleo manual de nieve, ¿qué valor individual del intervalo de
confianza del inciso a) sería de mayor interés?
Compare los intervalos de confianza de los incisos a) y b) e interprete lo que encontró.
Control del plomo en el aire. A continuación se listan las cantidades de plomo medidas (en microgramos por metro cúbico o p,g/m3) en el aire. La Environmental Protection Agency estableció un estándar de calidad del aire para el plomo de 1.5 bt.g/m3.
Las medidas que se presentan abajo se registraron en el edificio 5 del World Trade
Center en diferentes días, inmediatamente después de la destrucción causada por los
ataques terroristas del 11 de septiembre de 2001. Después del colapso de los dos edificios del World Trade Center hubo una gran preocupación por la calidad del aire. Utilice los valores dados para construir un estimado del intervalo de confianza del 95%
para la cantidad media de plomo en el aire. ¿Hay algo en este conjunto de datos que
sugiera que el intervalo de confianza tal vez no sea muy bueno? Explique.
5.40
I.10 0.42 0.73 0.48 1.10
Construcción de un intervalo de confianza. La gráfica de tallo y hojas que se presenta
abajo incluye las edades de solicitantes que lograron un ascenso (según datos de "Debating the Use of Statistical Evidence in Allegations of Age Discrimination", de Barry y
Boland, American Statistician, vol. 58, núm. 2). Suponga que la muestra es aleatoria simple y construya un estimado del intervalo de confianza del 95% para la edad media de todas estas personas exitosas. Compare el resultado con el intervalo de confianza para las
edades de los individuos que no lograron el ascenso (véase el ejemplo en esta sección).
3
367889
4
2233444555566778899
5
1124
Calificación de crédito. Cuando los consumidores solicitan crédito, su crédito se califica con puntuaciones FICO (Fair, Isaac, and Company). A continuación se presentan
calificaciones de crédito de una muestra de solicitantes de préstamos para adquirir un
automóvil. Utilice los datos muestrales con el fin de construir un intervalo de confianza del 99% para la media de la calificación FICO de todos los solicitantes de crédito. Si
un banco requiere una calificación de crédito de al menos 620 puntos para un préstamo
destinado a adquirir un automóvil, al parecer, ¿casi todos los solicitantes tendrán calificaciones de crédito adecuadas?
661 595 548 730 791 678 672 491 492 583 762 624 769 729 734 706
El mamífero más pequeño del mundo. El mamífero más pequeño del inundo es el
murciélago abejorro, también conocido como murciélago nariz de cochino (o Craseonycteris thonglongyai). Estos murciélagos apenas alcanzan el tamaño de un abejorro grande. A continuación se presentan los pesos (en gramos) de una muestra de esos
361
362
Capítulo 7
Estimaciones y tamaños de muestra
murciélagos. Construya un estimado del intervalo de confianza del 95% de su peso
medio. ¿Difieren mucho los límites del intervalo de confianza de los límites de 1.56 y
1.87 que se obtienen al suponer que se sabe que a es 0.30 g?
1.7
1.6
1.5
2.0
2.3
1.6
1.6
1.8
1.5
1 .7
2.2
1.4
1.6
1.6
1.6
Estimación de contaminación de automóviles. En una muestra de siete automóviles,
se prueban las emisiones de óxido de nitrógeno de cada uno (en gramos por milla) y se
obtienen los siguientes resultados: 0.06, 0.11, 0.16, 0.15, 0.14, 0.08, 0.15 (según datos de
la Environmental Protection Agency). Suponiendo que esta muestra es representativa
de los automóviles en uso, construya un estimado del intervalo de confianza del 98%
para la cantidad media de emisiones de óxido de nitrógeno para todos los automóviles. Si
la Environmental Protection Agency exige que las emisiones de óxido de nitrógeno sean
menores que 0.165 g/mi, ¿podemos concluir con seguridad que se cubre este requisito?
Anchura de cráneos. Las anchuras máximas de muestras de cráneos egipcios masculinos del año 40(X) a.C. y del año 150 d.C. son (según datos de Ancient Races of the
Thebaid, de Thomson y Randall-Maciver):
4000 a.C.:
150 d.C.:
131
136
119
130
138
126
125
126
129
139
126
141
131
137
132
138
126
133
128
131
128
134
131
129
Los cambios en el tamaño de la cabeza con el paso del tiempo sugieren un mestizaje con
individuos de otras regiones. Utilice intervalos de confianza para determinar si el tamaño
de la cabeza parece haber cambiado del año 40(X) a.C. al 150 d.C. Explique su resultado.
Conjuntos de datos del apéndice
datos del apéndice B.
B.
En los ejercicios 27 y 28, utilice los conjuntos de
27. Pulso. Una doctora quiere desarrollar criterios para determinar si el pulso de un paciente es anormal y desea determinar si hay diferencias significativas entre hombres y
mujeres. Utilice los pulsos muestrales del conjunto de datos 1 del apéndice B.
Construya un estimado del intervalo de confianza del 95% del pulso medio de los
hombres.
Construya un estimado del intervalo de confianza del 95% del pulso medio de las
mujeres.
c. Compare los resultados anteriores. ¿Podemos concluir que las medias poblacionales
para hombres y para mujeres son diferentes? ¿Por qué?
28. Comparación de Coca-Cola regular y dietética. Remítase al conjunto de datos 12
del apéndice B y utilice los datos muestrales.
Construya un estimado del intervalo de confianza del 95% para el peso medio de la
bebida de cola en latas de Pepsi regular.
Construya un estimado del intervalo de confianza del 95% para el peso medio de la
bebida de cola en latas de Pepsi dietética.
c. Compare los resultados de los incisos a) y b) e interprételos. ¿Parece haber alguna
diferencia? Si es así. identifique una razón de esta diferencia.
7-4 MÁS ALLÁ DE LO BÁSICO
29. Efecto de un valor extremo. Pruebe el efecto de un valor extremo como sigue: utilice
los datos muestrales del ejercicio 22 para calcular un estimado del intervalo de confianza del 95% de la media poblacional, después de cambiar el primer valor de 54 años
por el de 540 años. Este valor no es realista, pero un error de este tipo puede ocurrir
fácilmente durante un proceso de captura de datos. ¿Se altera mucho el intervalo de
confianza cuando se cambia el valor de 54 años por el de 540 años? ¿Los límites del
intervalo de confianza son sensibles a los valores extremos? ¿Cómo debe usted manejar
los valores extremos cuando se encuentran en conjuntos de datos muestrales que se
usarán para la construcción de intervalos de confianza?
7-5
Estimación de la varianza poblacional Método alternativo. La figura 7-6 y la tabla 7-1 resumen la decisión tomada al elegir
entre las distribuciones normal y t. Un método alternativo que se incluye en algunos libros de texto (pero que casi nunca se incluye en revistas científicas) se basa en el siguiente criterio: sustituya la desviación estándar muestral s por o- siempre que n > 30, y luego
proceda como si se conociera o-. Suponga que para una muestra aleatoria simple, n 35,
.7r = 50.0 y s = 10.0, luego construya estimados del intervalo de confianza del 95% de j.t,
utilizando el método de esta sección y el método alternativo. Compare los resultados.
Factor de corrección por población finita. Si se selecciona una muestra aleatoria
simple de tamaño n sin reemplazo de una población finita de tamaño N, y el tamaño
muestral es mayor que el 5% del tamaño de la población (II > 0.05N), se pueden obtener mejores resultados utilizando el factor de corrección por población finita, el cual
implica multiplicar el margen de error E por V(N — n)/(N — 1). Para la muestra
de 100 pesos de dulces M&M del conjunto de datos 13 en el apéndice B, obtenemos
= 0.8565 g y s = 0.0518 g. Primero construya un estimado del intervalo de confianza del 95% de /2, suponiendo que la población es grande, y luego construya un
estimado del intervalo de confianza del 95% del peso medio de dulces M&M que se
encuentran en la bolsa llena de donde se tomó la muestra. La bolsa llena tiene 465
dulces M&M. Compare los resultados.
Uso de la distribución incorrecta. Suponga que se selecciona una muestra aleatoria
simple pequeña de una población distribuida normalmente, para la que o- es desconocida. La construcción de un intervalo de confianza debe utilizar la distribución t, pero
¿cómo se afecta el intervalo de confianza si se usa la distribución normal incorrectamente, en vez de la distribución t?
Intervalo de confianza para muestra de tamaño n = 1. Cuando una nave espacial
dirigida por la NASA llega a Marte, los astronautas encuentran a un solo adulto marciano que mide 12.0 pies de estatura. Es razonable suponer que las estaturas de todos
los marcianos se distribuyen normalmente.
Los métodos de este capítulo requieren información acerca de la variación de una
variable. Si sólo está disponible un valor muestral, ¿puede éste darnos alguna información acerca de la variación de la variable?
Al utilizar los métodos de esta sección, ¿qué pasa cuando usted trata de usar la
estatura individual en la construcción de un intervalo de confianza del 95%?
c. Con base en el artículo "An Efective Confidence Interval for the Mean with Samples
of Size One and Two", de Wall, Boen y Tweedie (American Statistician, vol. 55,
núm. 2), se calcula un intervalo de confianza del 95% para (utilizando métodos
que no se analizan en este libro) con una muestra de tamaño n = 1 seleccionada al
azar de una población distribuida normalmente. y se expresa como x 9.68Ixi. Utilice este resultado para construir un intervalo de confianza del 95% empleando el valor
muestral individual de 12.0 ft, y expréselo en la forma de — E < ,u. < x + E. Con
base en el resultado ¿es posible que algún otro marciano seleccionado al azar mida
50 ft de estatura?
Estimación de la varianza
7-5 poblacional
Concepto clave En esta sección presentamos métodos para 1. calcular un intervalo de confianza de una desviación estándar o una varianza poblacional y 2. determinar el tamaño muestral requerido para estimar una desviación estándar o una
varianza poblacional. En esta sección se presenta la distribución chi cuadrada, la
cual se utiliza para calcular un estimado de un intervalo de confianza de u o de o-2.
363
Descargar