Universidad Simón Bolívar Prof. R. Rojas Distribución en el muestreo Cuando el tamaño de la muestra (n) es más pequeño que el tamaño de la población (N), dos o más muestras pueden ser extraídas de la misma población. Un cierto estadístico puede ser calculado para cada una de las muestras posibles extraídas de la población. Una distribución del estadístico obtenida de las muestras es llamada la distribución en el muestreo del estadístico. Por ejemplo, si la muestra es de tamaño 2 y la población de tamaño 3 (elementos A, B, C), es posible extraer 3 muestras ( AB, BC Y AC) de la población. Podemos calcular la media para cada muestra. Por lo tanto, tenemos 3 medias muéstrales para las 3 muestras. Las 3 medias muéstrales forman una distribución. La distribución de las medias es llamada la distribución de las medias muéstrales, o la distribución en el muestreo de la media. De la misma manera, la distribución de las proporciones (o porcentajes) obtenida de todas las muestras posibles del mismo tamaño, extraídas de una población, es llamada la distribución en el muestreo de la proporción. Distribuciones muestrales Se define la distribución muestral de un estadístico (distribución de muestreo) en una población, como la distribución de probabilidad de todos los posibles valores que un estadístico puede asumir para cierto tamaño de la muestra. Específicamente, se trabajará con las distribuciones muestrales para: medias, proporciones y varianzas. Distribución muestral de medias Es la distribución de probabilidad de todas las medias posibles de las muestras, para un tamaño n determinado. Esta distribución de probabilidad tiene asociados (parámetros) tales como la media 𝜇𝑥̅ y desviación estándar σx̅ . Para calcular, estos parámetros de la distribución muestral de medias se utilizan las siguientes relaciones: 𝜇𝑥̅ = 𝜇 σ σx̅ = √n 𝜎𝑥̅ = √𝑛 𝜎 N−n √ N−1 para poblaciones finitas para poblaciones infinitas A la expresión de la desviación estándar de la distribución muestral de medias, se le llama error típico o estándar de la media y nos indica la diferencia promedio entre los diversos valores de 𝑥̅ y 𝜇 . Como se observa, a medida que el tamaño de la muestra aumenta este error disminuye, las diversas medias muestrales se hacen más uniforme en su valor, y en consecuencia, cualquier media muestral es una buena estimación de la media poblacional 𝜇. Ejemplo: 2017 Universidad Simón Bolívar Prof. R. Rojas Una población consta de los siguientes valores: 12, 12, 14 y 16. Determine todas las posibles muestras de tamaño dos. Posibles muestras: (12,12), (12,14), (12,16), (14,16), (14,12), (16,12) De todas las posibles muestras de tamaño dos, se calculan su media correspondiente: 12, 13, 14, 13, 14, 15 para obtener una distribución de medias muestral. Demostrar que la media de la distribución muestral es igual a la media poblacional N=12, 12, 14, 16 𝜇 = 13,5 𝜇𝑥̅ = 13,5 = 𝜇 √(𝑥𝑖 − 𝑥̅ )2 5.5 σx̅ = = = 0.96 𝑛 6 Teorema del límite central: es un teorema a través del cual se asegura que la distribución de muestreo de la media se aproxima a la normal, al incrementarse el tamaño de la muestra. Este teorema permite usar estadística de muestra para hacer inferencias con respecto a los parámetros de la población, sin saber nada sobre la forma de la distribución de frecuencias de esa población más que lo que podamos obtener de la muestra. Para efectos prácticos el tamaño de la muestra debe ser n ≥ 30. Para el cálculo del valor de z, en una distribución muestral de medias, cuando se conoce la desviación estándar de la población, se utiliza: 𝑥̅ − 𝜇 𝑍= σx̅ Ejemplo (población infinita) Una empresa fabrica bombillos que tienen una duración que se distribuye aproximadamente normal, con media de 800h y desviación de 40 h. Encuentre la probabilidad de que una muestra aleatoria de 16 bombillos tenga una vida promedio de menos de 775 h. 𝑥̅ − 𝜇 775 − 800 ̅ ≤ 775) = 𝑃 ( 𝑃(X ≤ ) = 𝑃(Z ≤ −2.5) = 0,0062 𝜎/√𝑛 40/√16 La probabilidad de que la media de la muestra de 16 bombillos sea menor a 77h es de 0,0062. Ejemplo (población finita) Las estaturas de 1000 estudiantes están distribuidad aproximadamente en forma normal con una media de 174,5 cm y una desviación de 6,9 cm. Si se extrae 200 muestras aleatorias de tamaño 25, determine el número de las medias muestrales que caen entre 172,5 y 175,8 cm Como la población es finita, se calcula el denominador de Z de la siguiente manera: σx̅ = σ √n N−n √ N−1 = 6,9 √25 1000−25 √ 1000−1 = 1,36 2017 Universidad Simón Bolívar Prof. R. Rojas Posteriormente, se calcula la probabilidad: ̅ ≤ 175,8) = 𝑃 𝑃(172,5 ≤ X 172,5 − 174,5 𝑥̅ − 𝜇 175,8 − 174,5 ≤ ≤ = 1,36 1,36 σ √N − n √n N − 1 ( ) = 𝑃(−1,47 ≤ Z ≤ 0,95) = 0,7607 Luego, 0,7607 x 200= 152 medias muestrales. Distribución de una proporción muestral (p) Es la media de todos los valores posibles de las proporciones que se pueden generar mediante las diversas muestras aleatorias simples. Se puede demostrar que la media de las proporciones muestrales 𝑝̂ será igual a π (proporción de la población), donde se define una proporción muestral como el cociente: 𝑝̂ = 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑐𝑎𝑠𝑜𝑠 Para calcular, estos parámetros de la distribución muestral proprcional se utilizan las siguientes relaciones: 𝐸(𝑝̂ ) = 𝜋 π (1−π) σ𝑝̂ = √ n π (1−π) σ𝑝̂ = √ n para poblaciones infinitas N−n √ N−1 para poblaciones finitas En ambos casos π es la proporción en la población y n el tamaño de la muestra. Teorema del límite central: es un teorema a través del cual se asegura que la distribución muestral de la proporción se aproxima a la distribución normal, al incrementarse el tamaño de la muestra. Este teorema permite usar estadística de muestra para hacer inferencias con respecto a los parámetros de la población, sin saber nada sobre la forma de la distribución de frecuencias de esa población más que lo que podamos obtener de la muestra. Para efectos prácticos el tamaño de la muestra debe ser n ≥ 50, aunque algunos autores toman para 30 y tanto nπ como n(1-π) deben ser mayores a 5. Para el cálculo del valor de z, en una distribución muestral de medias, cuando se conoce la desviación estándar de la población, se utiliza: 𝑝−𝜋 𝑍= σ𝑝̂ Ejemplo Suponga que de un grupo de personas que desean ingresar a una compañía el 40% pueden aprobar un test inicial para obtener el trabajo. Si se toma una 2017 Universidad Simón Bolívar Prof. R. Rojas muestra de 20 solicitantes ¿Cuál sería la probabilidad de que 50% o más aprobaran el test? 𝑝−𝜋 𝑍= σ𝑝̂ 𝑝−𝜋 ≥ σ𝑝̂ 𝑃(p ≥ 0,5) = 𝑃 ( 0,5 − 0,4 √0,4 (1 − 0,4) ) 20 = 𝑃(Z ≥ 0,91) = 0,1806 La probabilidad de que el 50% o más aprobaran el test es de 18,06%. Distribución de la varianza muestral A la distribución de la varianza muestral S2 se le conoce con distribución Chi. Cuadrado 𝑥 2 . Es la varianza de todos los valores posibles de las muestras que se pueden generar mediante las diversas muestras aleatorias simples. Sus valores son mayores iguales a 0 y depende de los grados de libertad n-1 de la distribución 𝑥 2 . Los parámetros correspondientes son: (𝑛 − 1)𝑆 2 2 𝑥 = 𝜎2 Donde n es el tamaño de la muestra, S2 la varianza muestral y 𝜎 2 la varianza poblacional. Ejemplo: Encuentre la probabilidad de que en una muestra aleatoria de 25 observaciones de una población normal con varianza igual a 6, tenga una varianza muestral: a) Mayor que 9,1 b) Entre 3,462 y 10,745 a) La probabilidad sería: 𝑃(𝑆 2 ≥ 9,1) = 𝑃 (𝑥 2 ≥ (𝑛 − 1)9,1 (25 − 1)9,1 2 ) = 𝑃 (𝑥 ≥ ) = 𝑃(𝑥 2 ≥ 36,4) 𝜎2 6 Buscando en la tabla de la distribución 𝑥 2 el valor de 36,4 con 24 grados de libertad se obtiene una probabilidad de 0,05 b) La probabilidad sería: 𝑃(3,462 ≤ 𝑆 2 ≤ 10,745) = 𝑃(13,84 ≤ 𝑥 2 ≤ 42,98) Buscando en la tabla de la distribución 𝑥 2 el valor de 13,84 con 24 g.l se obtiene una probabilidad de 0,95 y buscando el valor de 42,98 con 24 g.l se obtiene una probabilidad de 0,01. Calculando el área del intervalo solicitado, se obtiene una probabilidad del 0,94 entre los valores de 3,462 y 10,745. 2017