Teoría de muestras Distribución de variables aleatorias en el muestreo 1. Distribución de medias muestrales Dada una variable estadística observada en una población, se puede calcular se media y su desviación típica F. Si tomamos una muestra aleatoria de la población y calculamos su media, ésta no tiene por qué coincidir con la media de la población . Si consideramos k muestras del mismo tamaño de una población y calculamos sus medias , la distribución de estas medias muestrales constituye una nueva variable aleatoria llamada distribución de medias muestrales. Los valores no son iguales a ,sin embargo, cuanto mayores sean las muestras, más se aproximarán sus medias a la media poblacional. 2. Teorema central del límite Dada una población de media : y desviación típica F, si se extraen muestras de tamaño n, la distribución de las medias de todas las muestras, denominada distribución de las medias muestrales, verifica lo siguiente: • Tiene la misma media, :, que la población. • Su desviación típica es . • Cuando n>30, se aproxima a una distribución normal si la población de partida no lo era. (Por supuesto es normal si la población de partida ya lo era cualquiera que sea el valor de n). Este teorema nos permitirá, conociendo la distribución de las medias muestrales de tamaño n, extraer conclusiones de la media de la población. Debemos observar también que cuando n aumenta, la desviación típica disminuye. Problema 1 El cociente intelectual de unos universitarios se distribuye normalmente con media 100 y desviación típica 11. a) Se elige una persona al azar. Halla la probabilidad de que si C.I esté entre 100 y 103. b) Se elige al azar una muestra de 25 personas. Halla la probabilidad de que la media de sus cocientes intelectuales está entre 100 y 103. Solución La población de partida es N(100, 11). a) b) Como la población de partida es normal, la distribución de la media muestral es normal independientemente del valor de la muestra n. Los parámetros de esta distribución son: : = 100 ; Por tanto, la distribución de la media muestral es N(100, 2,2) 1 Problema 2 En una urna hay 3 bolas con los números 1,2 y 3. a) Calcula la media y la desviación típica de esta población b) Forma todas las muestras posibles que podemos extraer con devolución de esta población de tamaño 2. c) Forma la distribución de las medias de las muestras, halla la media, la desviación típica y confirma el teorema central de límite. Solución a) Media poblacional := donde N es el número total de población. Desviación típica poblacional F= b) El número de muestras posibles con devolución de tamaño 2 son : (1, 1); (1, 2); (1, 3); (2, 1); (2, 2); (2, 3); (3, 1); (3, 2); (3, 3) c) Distribución de las medias de las muestras: 1; 1,5; 2; 1,5; 2; 2,5; 2; 2,5; 3 Media de esta distribución: Desviación típica de esta distribución Se confirma el teorema central del límite porque si la población tenía media : = 2 ,la distribución de las medias muestrales también tiene media 2 y si la desviación típica de la población era F = 0,8165, la desviación típica de la distribución de medias centrales es Problema 3 En una universidad se sabe que las tallas de los alumnos se distribuyen normalmente con media 172 cm y desviación típica 17,5 cm. Se toman muchas muestras de 35 estudiantes. a) ¿Cuál es la media y la desviación típica de la distribución de las medias muestrales?. b) Halla la probabilidad de que la media muestral sea inferior a 171 cm. c) Si se eligen 150 muestras de 35 alumnos, ¿en cuántas de ellas cabe esperar que la media muestral sea mayor que 170 cm y menor que 171,5 cm?. Solución a) Las tallas siguen una N(172, 17,2). La distribución de las mediales muestrales seguirá una normal de media y desviación típica ,esto es, N(172, 2,96) b) c) Por lo tanto 150. 0,1833 .27 muestras. 2 Es decir, cabe esperar que en 27 muestras de las 150 seleccionadas, la media muestral será mayor que 170 y menor que 171,5. Problema 4 Cierto mes, la granja A produjo 500000 huevos y la granja B, 600000. Los pesos de los huevos se ajustaron a sendas distribuciones normales con la misma desviación típica de 6 gramos pero distintas medias, 67 gramos para la A y 64 gramos para la B. ¿Cuál de las dos granjas produjo mayor cantidad de huevos de la clase XL (más de 73 gramos)?. Solución Las variables aleatorias que intervienen son: : peso de huevos de la granja A. : peso de huevos de la granja B. La probabilidad de que un huevo de la granja A sea XL es: La probabilidad de que un huevo de la granja B sea XL es: Por tanto, multiplicando la probabilidad de producir un huevo XL en cada granja por el número de huevos producidos en cada una, se tiene: Granja A: 500000 A 0’1587 = 79350 Granja B: 600000 A 0’0668 = 40080 Se producen más huevos XL en la granja A que en la B. Problema 5 Un fabricante produce tabletas de chocolate cuyo peso, en gramos, sigue una distribución normal de media 125 g y desviación típica 4 g. a) Si las tabletas se empaquetan en lotes de de 25, ¿cuál es la probabilidad de que el peso medio de las tabletas de un lote se encuentre entre 124 y 126 gramos?. b) Si los lotes fuesen de 64 tabletas, ¿cuál sería la probabilidad de que el peso medio de las tabletas del lote superase los 124 gramos?. Solución Sea X la variable que mide el peso de las tabletas de chocolate. a) Empaquetar en lotes de 25 tabletas equivale a muestras de tamaño Sabemos que la distribución de las medias muestrales . , por tanto de los lotes, sigue una normal . Por tanto: 3 b) Si los lotes son de 64 tabletas ahora y Por tanto: Problema 6 a) Los salarios de los trabajadores de un país puede suponerse que siguen una distribución normal de media 2000 i y desviación típica desconocida. Si la probabilidad de ganar más de 2100 i es de 0’33, ¿cuál es la desviación típica?. b) Los salarios, en euros, de los trabajadores en un segundo país también puede suponerse que siguen una distribución normal con la misma media y con varianza de 40000 i.¿Es más fácil ganar más de 2100 i en este segundo país que en el país del apartado anterior?. Solución a) Sea X la variable que mide el salario de los trabajadores del país. Sabemos que La desviación típica es, aproximadamente, 227’28 i. b) Sea Y la variable que mide el salario de los trabajadores del segundo país. Y Por tanto, no es más fácil ganar más de 2100 i en este segundo país. 4 3. Intervalo de confianza para las medias muestrales Tenemos una población que sigue una normal N( :, F ) y queremos estimar, mediante un intervalo, el parámetro :. Se toma una muestra de tamaño n y se calcula su media . Sabemos que la distribución de la variable aleatoria formadas por las medias de todas las muestras del mismo tamaño n es una normal N( :, ) presentará una distribución N(0,1) donde p(-z"/2 #Z#z"/2)=1 - " Tipificando la variable, como se vio anteriormente. Sustituyendo la expresión de Z, tenemos: p(-z"/2 # , p( - z"/2 . #z"/2) =1 - " , p(-z"/2 A + z"/2 . # - : # z"/2 A )=1 - " , )=1-" Por tanto el intervalo de confianza para el parámetro : de una población N( :, F ) a un nivel de confianza 1 - " es un intervalo centrado en y de radio ,esto es: IC = Si F es desconocida y n >30 se usa en su lugar , siendo la cuasivarianza Problema 7 Un psicólogo escolar ha estudiado que el tiempo de reacción de 1º de Primaria se distribuye normalmente con una desviación típica de 0,04 segundos. Con una muestra de 100 alumnos, la media de tiempo de reacción fue de 45 segundos. Halla un intervalo de confianza para la media de tiempos de reacción al nivel de confianza de: a) 90% b) 95% c) Interpretar los resultados Solución IC = a) Calculemos z"/2 para un nivel de confianza del 90%: Si el intervalo abarca un área de 0,9, fuera de él deberá haber un área de 0,1 ; el área de cada una de las “colas” es 0,05. Se trata de buscar el valor de k tal que p(Z$k)=0,05 , esto es, p(Z#k)=0,95 5 En las tablas encontramos: p(Z#1,64)=0,9495 p(Z#1,65)=0,9505 El valor promedio entre 1,64 y 1,65 es 1,645. Por tanto z"/2 =1,645 El intervalo de confianza será: El tiempo de reacción está entre 44,993 y 45,007 con una confianza del 90% o lo que es lo mismo, este intervalo cubre el valor de la media con una probabilidad de 0,9. b) Para calcular z"/2 para un nivel de confianza del 95% se procede de forma análoga obteniendo z"/2 =1,96 El intervalo de confianza será c) Cuanto mayor es el nivel de confianza, mayor es la amplitud del intervalo, con lo que aumenta el margen de error. 4. Tamaño de la muestra. Error de estimación Hasta ahora, conocido el tamaño de la muestra se calculaba el intervalo de confianza correspondiente. Se podría plantear la pregunta a la inversa:¿cuál debe ser el tamaño de la muestra para tener una confianza determinada. El error máximo vendrá determinado por la amplitud del intervalo de confianza, es decir: Problema 8 En un determinado barrio se seleccionó al azar una muestra de 100 personas cuya media de ingresos mensuales era de 600 i, con una desviación típica de 120 i. a) Si se toma un nivel de confianza del 95 %, ¿cuál es el intervalo de confianza para la media de los ingresos mensuales de toda la población?. b) Si se toma un nivel de confianza del 99 %, ¿cuál es el tamaño muestral necesario para estimar la media de ingresos mensuales con un error menor a 18 i ?. Solución a) Sabemos ya que a un nivel de confianza del 95% le corresponde z"/2 =1,96. El intervalo de confianza será IC= b) A un nivel de confianza de 99 % le corresponde z"/2 =2,575 6 El error es Por tanto se necesita una muestra de, al menos, 295 personas. Problema 9 Un fabricante de pilas alcalinas sabe que el tiempo de duración, en horas, de las pilas que fabrica sigue una distribución normal de media desconocida y varianza 3600. Con una muestra de su producción, elegida al azar, y un nivel de confianza del 95% ha obtenido para la media el intervalo de confianza (372,6 , 392,2). a) Calcula el valor que obtuvo para la media de la muestra y el tamaño muestral utilizado. b) ¿Cuál será el error de su estimación, si hubiese utilizado una muestra de tamaño 225 y un nivel de confianza del 86,9%?. Solución a) Un intervalo de confianza para la media tiene la forma A un nivel de confianza del 95% le corresponde un z"/2 =1,96. Igualando con el intervalo dado tenemos: Sumando las ecuaciones obtenemos 2 Sustituyendo el valor de =764,8 , =382,4 en, por ejemplo, la primera ecuación: El tamaño muestral utilizado es 144. b) Si el nivel de confianza es de un 86,9%, el intervalo abarca un área de 1- "=0,869; fuera de él deberá haber un área de 0,131 ; el área de cada una de las “colas” es 0,0655.Se trata de buscar el valor de k tal que p(Z$k)=0,0655 , esto es, p(Z#k)=0,9345En las tablas encontramos: p(Z#1,64)=0,9345 Por tanto z"/2 =1,51 y el error Problema 10 Las alturas, expresadas en cm, de los estudiantes de segundo de bachiller se distribuyen normalmente con una desviación típica de 20 cm. En un colectivo de 500 estudiante de segundo de bachiller se ha obtenido una media de 160 cm. a) Calcula, con una probabilidad del 98%, entre qué valores estará la media de la altura de la población total de estudiantes de segundo de bachiller, b) Interpreta el resultado del intervalo obtenido. 7 Solución a) Nos piden un intervalo de confianza para la media. Su forma es A una probabilidad del 98% le corresponde un z"/2 =2,33. El intervalo de confianza será b) En el 98% de las posibles muestras, la media de la altura de la población está entre 157,16 cm y 162,08 cm. 8