3.3.4.1. Niveles de confianza

Anuncio
Estrategia didáctica 3.3.4.1. Niveles de confianza
A partir de esta estrategia estudiaremos las características de una muestra. Nuestro
propósito será hacer inferencias de una población a partir de una muestra tomada de
ella. Esto es lo que hacen las encuestadoras profesionales cuando se les pide un estudio:
toman una muestra de la población y según los resultados que se obtengan de ella se
infiere lo que ocurre en la población de interés. Por ejemplo, el 15 de agosto del 2007,
el periódico Reforma realizó una encuesta a 405 personas que viven en Cuautitlán
Izcalli mayores de 18 años en distintos puntos del municipio. Las entrevistas fueron en
su casa. Una de las preguntas que les hicieron fue “¿En el último año, considera que la
calidad de vida en el municipio ha a) mejorado; b) empeorado; c) sigue igual; d) no
sabe?” El 33 % respondió que ha mejorado, el 33% que ha empeorado y el 31% que
sigue igual. Como la muestra fue representativa y no sesgada, entonces los datos que la
muestra arroja nos permiten inferir que estor porcentajes representan adecuadamente la
opinión de los habitantes (la población) del municipio. ¿Porqué puede predecirse esto
cuando sólo se entrevistó a una parte de la población? ¿Cómo se seleccionaron a los
habitantes encuestados? ¿porqué la muestra fue de 405 personas?
El problema de la inferencia que se hizo en esta encuesta, es que el periódico Reforma
calculó la proporción muestral (el estadístico p) de los habitantes que dicen que la
situación en Cuautitlán Izcalli empeoró y luego infirió que los habitantes de ese
municipio proporcionalmente opinaban lo mismo (estimó la proporción poblacional o
parámetro π). Estudiaremos cómo puede hacerse esto y lo haremos para dos
estadísticos: la media y la proporción. Comenzaremos por estudiar la media muestral.
Recordemos que cuando tomamos una muestra y calculamos la media, ella varía
alrededor de la media poblacional (esto se vio cuando se tomaron 30 muestras de
tamaño 5). La media muestral sigue siendo una variable aunque se tomen muestras de
cualquier tamaño porque de cualquier manera x varía. Por ejemplo, seleccionemos
muestras de tamaño 30 y para cada una calculemos la media muestral.
Al tomar 10 muestras de tamaño 30, se obtuvieron las siguientes medias: 231.2, 236.80,
226.04, 235.4, 223.45, 239.5, 233.7, 239.1, 232.5 y 235.7. Observa que todas ellas se
aproximan a la media de salarios μ = 234.84. Algunas medias muestrales están “cerca”
y otras están “lejos”. Localicemos las 10 medias muestrales en la distribución de la
media para n = 10, y veamos lo que ocurre:
1
Se ha graficado la distribución muestral de la media para n = 30. También se dibujaron
los valores de las 10 medias calculadas, las cuales pueden verse como pequeños puntos
rojos. La media poblacional se ha dibujado con un círculo más grande para que se
identifique y se diferencie fácilmente de las medias muestrales. Observemos que hay 8
medias muestrales que se aproximan a la media poblacional μ, mientras que hay 2
valores que se alejan más de μ, las cuales son 223.45 y 226.05, pero se ha marcado en la
figura la primer media porque se aleja más que todas las 10. Llamaremos a estos valores
estimaciones de μ, porque se aproximan a este parámetro.
Podemos medir qué tan buena fue la estimación de μ. La manera más práctica es
midiendo la distancia que se aleja cada estimación de la media μ. Por ejemplo, la
estimación 231.2 se aleja 3.64 unidades de 234.84 que es μ. Podemos calcular cada
distancia entre la estimación y la media, pero en particular nos interesa la distancia más
grande que se dio con la estimación de 223.45. La distancia entre esta y μ fue
|223.45—234.85| = 11.4
(1)
2
Se usa el valor absoluto porque este mide distancias en el eje horizontal. Llamaremos a
esta distancia error de estimación. Para estimación se puede calcular un error de
estimación, pero 223.45 tiene el error máximo de estimación, por lo que le pondremos
atención especial. Notemos que las 10 estimaciones son valores de x . Llamaremos
entonces a x un estimador de μ porque cuando se calcula (en cuyo caso a este valor
calculado lo hemos llamado estimación), se aproxima a μ. Podemos generalizar la
ecuación (1) de la siguiente forma:
e x
(2)
Donde e es el error de estimación. Por ejemplo, si usamos la estimación de la media de
235.7, entonces el error de estimación será:
e = |235.7—234.85| = 0.85
Observemos que realmente, el error de estimación nos da la longitud del intervalo que
se tiene entre la estimación y la media μ.
Podemos afirmar que el valor de 223.45 es una mala estimación de μ, porque su error
de estimación fue grande. Pero, ¿Porqué ocurrió esto? Una razón se debe a que es
posible que los obreros seleccionados hayan sido los que tuvieron el peor salario y eso
hizo que disminuyera la media de los 30 salarios que resultó ser 223.45. Pero ¿cuál es la
probabilidad de que haya resultado este error de estimación?, es decir, ¿cuál es la
probabilidad de que haya ocurrido la distancia de 11.4 entre el valor de 223.45 y
234.84? Claramente tenemos que calcular la probabilidad de que haya ocurrido esto.
Como x es normal, entonces:
P(223.45 ≤ x ≤ 234.84) = Φ(0) - Φ(-2.79) = P(z < 0) - P(z < -2.79) = 0.5 – 0.0026 =
0.4974
z
223 .45  234 .84
 2.79
4.08
z
234 .84  234 .84
0
4.08
Lo que significa que 0.4974 es la probabilidad de que haya ocurrido ese error de
estimación, o dicho de otro modo, que se haya dado el error de estimación. Véase la
gráfica siguiente para que se comprenda la probabilidad calculada:
3
Donde el círculo señala μ = 234.84. Así pues, hemos calculado la probabilidad de que
ocurra el error máximo de estimación a la izquierda de la media μ. Pero es evidente que
este error también pudo suceder a la derecha de μ. Este caso pudo darse en el caso de
que cuando se tomara una muestra de 30 salarios, hayamos obtenido el valor de 246.24
(¿porqué?) y por lo tanto el error sería de 11.4 de nuevo. Calculemos ahora la
probabilidad de que se haya dado el error máximo de estimación a la derecha de μ:
P(234.84 ≤ x ≤ 246.24) = Φ(2.79) - Φ(0) = P(z < 2.79) - P(z < 0) = 0.9974 – 0.5 =
0.4974
z
246 .24  234 .84
 2.79
4.08
z
234 .84  234 .84
0
4.08
Lo cual dice que la probabilidad de que el error máximo de estimación se de a la
derecha de μ es también de 0.4974.
4
Ahora podemos preguntarnos ¿cuál es la probabilidad de que haya ocurrido el error
máximo de estimación total? Tendremos que sumar las dos probabilidades
anteriormente calculadas:
P(223.45 ≤ x ≤ 246.24) = P( -2.79 ≤ z ≤ 2.79) = 0.4974 + 0.4974 = 0.9948
Esta es la probabilidad de que se de el error de estimación. Observa la siguiente gráfica
donde se ilustra la probabilidad de que ocurra el error de estimación:
En los libros de Estadística a la probabilidad de que se cometa el error de
estimación se le llama nivel de confianza. Por lo tanto diremos que el error de
estimación tiene un nivel de confianza de 0.9948 0 en términos porcentuales del
99.48%.
Interpretamos el nivel de confianza de la siguiente manera. Cada vez que se seleccione
una muestra de tamaño 30 de la población de salarios de los obreros textiles, y se
calcule la media muestral (o estimación) x , la distancia máxima que se obtendrá entre
esta y la media μ será de 11.4 unidades con una probabilidad de 0.9948. Una manera
equivalente de decirlo es que 9948 de cada 10000 veces que se seleccione una muestra
de tamaño 30 de la población de salarios de los obreros textiles, y se calcule la media
5
muestral (o estimación) x , la distancia máxima que se obtendrá entre esta y la media μ
será de 11.4 unidades. Puede verse que este resultado nos dice con qué frecuencia
ocurrirá una estimación cuya distancia a μ sea como máximo 11.4. Y también con qué
frecuencia esta distancia será superada, es decir, en un 0.52%.
Revisemos de nuevo las tablas de probabilidad acumulada normal. Observa que hay una
tercer columna a la que hasta ahora no habíamos puesto atención. Esta columna está
encabezada por D(z). Esta columna mide la probabilidad de que z tome valores
simétricos centrados en la media. Si consultas el área que se cubre para el valor de z =
2.79, se tiene:
P( -2.79 ≤ z ≤ 2.79) = 0.9947
Que es el nivel de confianza que calculamos. Este resultado puede darnos varias
sugerencias. Pero nos ayudará a realizar mejores predicciones, que es lo que deseamos.
Pero primero invirtamos el problema. Por ejemplo, queremos que la probabilidad de
que ocurra el error máximo de estimación sea de 99.47% (0 0.9947) ¿cuánto debe valer
z para que se garantice esto? Evidentemente 2.79. Ahora, si queremos que la
probabilidad de que ocurra el error máximo de estimación sea de 99% (0 0.99), ¿cuánto
debe valer z (busca el valor más cercano)? En tablas hallarás el siguiente valor: 2.58.
Hagamos una tabla de valores del nivel de confianza y calculemos el valor de z que nos
garantiza que este nivel se de:
Nivel de
Valor de
confianza
z
99%
2.58
98%
2.33
97%
1.96
Los valores dados en la tabla son los más comunes y usados en estadística. Claro que se
pueden proponer otros valores para el nivel de confianza, pero con las tablas podemos
calcular el valor correspondiente de z.
Esta tabla nos ayudará a encontrar resultados que nos harán entender la encuesta del
periódico Reforma. Una desventaja que tiene la fórmula (2) para calcular el error de
estimación, es que se necesita conocer la media μ, lo cual, para dar un ejemplo práctico,
los que diseñaron la encuesta del Reforma no la conocían (Aunque ellos usaran otro
6
parámetro π, la proporción de los habitantes de Cuautitlán, pero el problema es el
mismo). Porque si la conocían ¿para qué hacer una encuesta?, porque entonces ya
conocerían las preferencias de la población y ya sería inútil toda encuesta. Pronto
corregiremos esta fórmula, pero por lo pronto, hay una relación interesante entre
algunas fórmulas que ya se han obtenido. Veamos las siguientes dos fórmulas:
e x
y
z
x  x
x
Como el TCL nos dice que μ x = μ, y si calculamos el error sin valor absoluto, podemos
afirmar que en la segunda ecuación el error aparece en el numerador de la ecuación de
estandarización. Hagamos la sustitución:
z
e
x

e

n
(3)
y si despejamos e de (3) se tendrá:
e
z
n
(4)
la ecuación (4) nos permite calcular el error de estimación cuando se conozca el tamaño
de la muestra n; la desviación estándar de la población σ y el valor de z que se propone
según el valor que se proponga para el nivel de confianza, es decir según la
probabilidad que estamos dispuestos a aceptar con que se cometa el error de estimación.
7
Este valor de z se puede seleccionar de la tabla arriba propuesta. Veamos un ejemplo
para que quede claro el uso de la fórmula (4)
Ejercicio: ¿Cuánto debe valer el error de estimación si se va a tomar una muestra de n =
25 de la población de los salarios de los obreros textiles, si se está dispuesto a aceptar
un nivel de confianza del 95%?
Sustituyendo
e
(1.96)(22.4)
 8.78
25
Esto significa que cuando se toma una muestra de 25 salarios y se calcula la estimación
de x , entonces 95 de cada 100 veces esta media muestral se alejará como máximo una
distancia de 8,78 unidades con respecto de μ.
En cierta forma, podemos darnos cuenta que se están haciendo predicciones acerca de
lo que ocurrirá cuando se realice un muestreo. Recordemos que esto es justamente lo
que se hace en las encuestas: realizar predicciones.
Hay todavía una segunda fórmula igualmente importante y que se deduce de (4).
Despejemos ahora n de (4)
 z 
n

 e 
2
(5)
8
Esta fórmula es también bastante interesante. Nos dice de qué tamaño debe
seleccionarse una muestra para que el error de estimación ocurra con una probabilidad
dada por el nivel de confianza. Para que se aclare daremos un ejemplo:
EJERCICIO: ¿De qué tamaño debe tomarse una muestra de los obreros textiles de
manera que el error de estimación sea de 5 dólares con un nivel de confianza de 98%?
Resolviendo
 2.33 22.4 
n
  108.9  109
5


2
Esto significa que 98 de cada 100 veces que se tome una muestra de 109 salarios, y se
calcule x , la estimación se alejará como máximo del parámetro en 5 unidades. Se ha
redondeado el resultado al entero superior más cercano, porque el tamaño de muestra
sólo puede tomar valores enteros.
EJERCICIOS
1. Localiza las 30 medias muestrales para n = 5, que calculaste en el boletín
anterior, en la distribución muestral. Calcula el error de estimación.
2. Interpreta el valor de 0.52% dado en el texto.
3. Despeja n de 4, para que obtengas la fórmula (5)
4. En la fórmula (5) calcula el tamaño de la muestra para los errores siguientes:
20, 15, 19, 6, 3. ¿Cómo varía el tamaño de la muestra al disminuir el error de
estimación ¿y cómo variaría si el error de estimación aumenta?
9
5. Para la fórmula (5) calcula el tamaño de muestra, para e = 5, pero variando
ahora el nivel de confianza de 99, 98 y 95%. Cómo varía el tamaño de
muestra cuando cambia el nivel de confianza?
6. ¿De qué tamaño se debe tomar una muestra, si deseamos determinar a un
nivel de confianza del 95%, los tiempos de traslado de los alumnos del CCH
de su casa a la escuela, con un error máximo de estimación de 5 minutos? Se
sabe que los tiempos son normales con una desviación estándar de 40
minutos.
7. Calcula el error máximo de estimación de los tiempos de traslado de los
alumnos del CCH de su casa a la escuela, si se toma una muestra de 200
alumnos, sabiendo que la desviación estándar de los tiempos es de 40
minutos a un nivel de confianza del 98%. Explica el significado del error.
8. Una de las características deseables de los estimadores es la eficiencia. En
clase se vio que la media es más eficiente que la mediana, sin embargo sólo
se dieron razones teóricas para ello. Para que verifiques empíricamente lo
anterior, usa la población A. Toma 30 muestras de tamaño 3 y calcula la
media y la mediana muestrales para cada una de ellas. Realiza un histograma
para las medias y otro para las medianas. Calcula la desviación estándar de
ambas medidas y compara los polígonos de frecuencias. ¿Qué concluyes?
9. Calcula el error máximo de estimación con una probabilidad del 90, 95, 96,
98 y 99%, cuando se toma una muestra de tamaño 40 de la población B.
¿Qué observas en la magnitud del error?
10. ¿De qué tamaño debes tomar una muestra de la población B, de manera que
el error de estimación máximo sea de 5 dólares con una probabilidad de 95,
98 y 99.5%?
11. De los tabulados del INEGI, se tienen las edades de los derechohabientes a
los servicios de salud. Si se toma una muestra aleatoria de 1500
derechohabientes del IMSS de la población y se calcula la edad media de la
muestra, ¿cuál es el error máximo de estimación con una probabilidad del
90%?
12. Calcula lo mismo para los derechohabientes del ISSSTE, tal y como lo
hiciste en el ejercicio anterior. Sólo que ahora usa una probabilidad del 96%.
13. Se ha tomado una muestra de 500 alumnos del CCH y se les ha preguntado
su calificación de Cálculo. Calcula el error máximo de estimación, con una
probabilidad de 98%, de la media de calificaciones de los alumnos del CCH
en Cálculo, si se sabe que  = 0.73. Interpreta el resultado.
10
14. ¿De qué tamaño se debe tomar una muestra de alumnos del CCH, si se desea
estimar la media de calificaciones de Cálculo de todos los alumnos de la
escuela, si se está dispuesto a asumir un error máximo de estimación de 0.3
puntos con una probabilidad del 92%? Considera  = 0.73.
15. Repite f) pero con una probabilidad del 90%.
16. Repite g) pero con un error de 0.5 puntos.
17. De los tabulados del INEGI, encontrarás el ingreso por trabajo de la
población según su salario mínimo. ¿De qué tamaño deberás tomar una
muestra de la población para estimar el salario mínimo medio de la
población con un nivel de confianza del 95% y un error máximo de
estimación de 0.5 salarios mínimos?
 Guardar con el nombre nombre-apellido.E3.3..4.1Niveles de confianzagrupo.doc
LECTURA
En su Autobiografía, el gran escritor inglés G. B. Shaw anotó: “En la escuela no aprendí
nada del programa . . . no tomaba en serio ninguna materia aparte del latín y griego, historia
inglesa y un poco de geometría nominal de la que no guardo recuerdo alguno. No se nos
dijo una sola palabra en cuanto al significado o utilidad de las matemáticas. Se nos pedía
simplemente que explicáramos cómo puede construirse un triángulo equilátero por medio
de la intersección de dos círculos; se nos solicitaba que hiciéramos sumas con a, b, y x en
lugar de hacerlo con peniques y chelines, cosa que me dejaba tan ignorante que terminaba
por suponer que a y b debían de ser huevos y queso y x nada, con el resultado de que dejé
de lado el álgebra por considerarla una tontería. Y no cambié de opinión hasta que, ya casi
a los treinta años de edad, Graham Wallas y Carl Pearson me convencieron de que en vez
de enseñarme matemáticas me habían tomado el pelo.”
11
Documentos relacionados
Descargar