LUIS J. CASTILLO VÀSQUEZ DISTRIBUCION MUESTRAL DE MEDIAS Y PROPORCIONES Conceptos básicos Para introducir los conceptos básicos consideremos el siguiente ejemplo: Supongamos que estamos interesados en determinar el número medio de televisores por hogar en la ciudad de Lima. Para ello consideraremos primeramente: Población: Conjunto de personas u objetos de interés en una Investigación. Ej: Todos los hogares de la ciudad de Lima Muestra Es una porción representativa de elementos de una población, elegida para su examen o medición directa. Note que generalmente es costoso el análisis de todos los datos, así que se hace necesario realizar las mediciones de interés sólo en una porción representativa de la población e inferir de ella resultados que corresponden a la población entera. Ej: Medir la cantidad de televisores en un grupo de hogares de varias localidades, municipios de la ciudad de Lima, escogidos aleatoriamente de manera conveniente. Parámetro Es cualquier característica de una población, como la media de la población, la desviación de la población, etc. Ej: Número promedio de televisores por hogar en toda la ciudad de Lima. Estadístico Es cualquier característica de una muestra, como la media de la muestra, la desviación de la muestra, etc. Ej: Número promedio de televisores calculado sólo a partir de los hogares que fueron seleccionados en la muestra. 1 LUIS J. CASTILLO VÀSQUEZ Muestreo Proceso de selección de muestras, se utiliza cuando no es posible contar o medir todos los elementos de la población objeto de estudio. Tipos de Muestreo Existen dos métodos para seleccionar muestras de poblaciones: a) Muestreo no aleatorio o de juicio: Se emplea el conocimiento y la opinión personal para identificar aquellos elementos de la población que deben incluirse en la muestra. b) Muestreo aleatorio o de probabilidad: En el cual todos los elementos de la población tienen la oportunidad de ser escogidos para la muestra. Dentro de este tipo de muestreo se encuentran: b.1) Muestreo aleatorio simple: el cual es un método de selección de muestras que permite que cada muestra posible pueda ser elegida con la misma probabilidad. Por su parte cada elemento de la población tiene la misma oportunidad igual de ser incluido en la muestra. b.2) Muestreo sistemático: método en el cual los elementos que se muestrearán se seleccionan de la población en un intervalo uniforme que se mide con respecto al tiempo, al orden o al espacio. b.3) Muestreo estratificado: método en el que la población se divide en grupos homogéneos, o estratos, y después se toma una muestra aleatoria simple de cada estrato. Aquí la variabilidad dentro de cada grupo es pequeña y entre los grupos es grande. b.4) Muestreo de racimo: método en el que la población se divide en grupos o racimos de elementos, y luego se selecciona una muestra aleatoria de estos racimos. La variabilidad dentro de cada grupo es grande y entre los grupos es pequeña; es como si cada racimo fuese un pequeña representación de la población en si mima. El seleccionar uno u otro tipo de muestreo depende del problema en cuestión. 2 LUIS J. CASTILLO VÀSQUEZ Analicemos nuestro ejemplo. Imagine que decidiéramos seleccionar una muestra simple aleatoria para nuestro propósito, esto significaría que podría darse el caso que la mayoría de las familias seleccionadas para formar parte de la muestra fueran de un sitio de clase alta donde quizás las casas tienen múltiples habitaciones y cada una de ellas con un televisor, de manera que podríamos concluir que el promedio de televisores por familia es mucho mayor que el que realmente es en promedio por vivienda en una familia. En este ejemplo, quizás fuese más conveniente construir algunos estratos, que representen las diferentes zonas de Lima, y de cada uno de ellos escoger de manera aleatoria un grupo de familia para realizar el estudio. Error Muestral Es la diferencia entre el parámetro de la población y el estadístico de la muestra utilizado para estimar el parámetro. Distribución muestral Es una lista de todos los valores posibles de un estadístico y la probabilidad asociada a cada valor. Se considerarán la distribución muestral de medias y la de proporciones. 3 LUIS J. CASTILLO VÀSQUEZ Distribución muestral de medias 1. Definición: es la distribución de probabilidad de todas las medias posibles de muestras de un tamaño dado, n, de una población. 2. Media de las medias muestrales: es el promedio de todos los valores posibles de las medias que se pueden generar mediante las diversas muestras aleatorias simples. Se puede demostrar que el valor esperado de las medias muestrales es igual a la media poblacional; es decir E (x) 3. Error estándar de la media: es la desviación estándar de la distribución de muestreo de la media, por lo que mide el grado en que se espera que varíen las medias de las diferentes muestras de la media de la población, debido al error aleatorio en el proceso de muestreo. Al disminuir el error estándar, el valor de cualquier media de muestra probablemente se acercará al valor de la media de la población. (efecto del tamaño de la muestra sobre el error típico, es decir, a medida que aumenta el tamaño de la muestra, se incrementa la precisión con la que se puede usar la media de muestra para estimar la media de la población, sin embargo, rara vez vale la pena tomar muestras excesivamente grandes ya que el error 4 LUIS J. CASTILLO VÀSQUEZ estándar de la media varía inversamente con n , por lo que hay una utilidad decreciente en el muestreo). Usos: indica el tamaño del error de azar que se ha cometido, y además señala la probable precisión que obtendremos si utilizamos una estadística de muestra para estimar un parámetro de población. La distribución muestral de medias tiene un error estándar igual a: Para población infinita con n>30, muestreo con reemplazo o población normal : x n Para población finita o muestreo sin reemplazo con x n . n 0.05 : N N n N 1 Donde es la desviación estándar de la población y n el tamaño de la muestra. Al factor N n se le denomina factor de corrección N 1 4. Teorema del límite central: es un teorema a través del cual se asegura que la distribución de muestreo de la media se aproxima a la normal, al incrementarse el tamaño de la muestra. Este teorema permite usar estadística de muestra para hacer inferencias con respecto a los parámetros de la población, sin saber nada sobre la forma de la distribución de frecuencias de esa población más que lo que podamos obtener de la muestra. Para efectos prácticos el tamaño de la muestra debe ser n 30. Nota: si la distribución de la población es bastante simétrica, la distribución muestral de la media se aproxima a la normal si se seleccionan muestras pequeñas. 5 LUIS J. CASTILLO VÀSQUEZ Aplicaciones: Una aplicación muy corriente y útil de la distribución muestral es determinar la probabilidad de que la media de una muestra caiga dentro de un intervalo determinado. Puesto que la distribución muestral seguirá una distribución normal (ya sea porque la muestra se toma de una distribución normal, o porque n 30 y el teorema del límite central garantice la normalidad en el proceso de muestreo), se podrá utilizar la variable tipificada para obtener la información necesaria en la toma de decisiones. z x x 1. Teorema del límite central: es un teorema a través del cual se asegura que la distribución muestral de la proporción se aproxima a la distribución normal, al incrementarse el tamaño de la muestra. Este teorema permite usar estadística de muestra para hacer inferencias con respecto a los parámetros de la población, sin saber nada sobre la forma de la distribución de frecuencias de esa población más que lo que podamos obtener de la muestra. Para efectos prácticos el tamaño de la muestra debe ser n 50. 2. Aplicaciones: una aplicación muy corriente y útil de distribución muestral es determinar la probabilidad de que la proporción de una muestra caiga dentro de un intervalo determinado. Puesto que la distribución muestral seguirá una distribución normal (ya sea porque la muestra se toma de una distribución normal, o porque n 30, según otros autores) y np como n(1p) deben ser mayores a 5, (el teorema del límite central garantiza la normalidad en el proceso de muestreo), se podrá utilizar la variable tipificada para obtener la información necesaria en la toma de decisiones. 6 LUIS J. CASTILLO VÀSQUEZ Observación: En la terminología estadística, la distribución de muestreo que se obtendría al tomar todas las muestras de un tamaño dado constituye una distribución teórica de muestreo. En la práctica, el tamaño y el carácter de la mayor parte de las poblaciones impiden que los responsables de las decisiones tomen todas las muestras posibles de una distribución de población, sin embargo, se han desarrollado fórmulas para estimar las características de estas distribuciones teóricas de muestreo, haciendo innecesario que se recolecten grandes números de muestras. En casi todos los casos, los responsables de las decisiones sólo toman una muestra de la población, calculan estadísticas para esa muestra y de esas estadísticas infieren algo sobre los parámetros de toda la población. Distribución Muestral A partir de las muestras seleccionadas de una población pueden construirse variables aleatorias alternativas, de cuyo análisis se desprenden interesantes propiedades estadísticas. Las dos formas más comunes de estas variables corresponden a las distribuciones muestrales de las medias y de las proporciones. Distribución muestral de las medias Dada una población constituida por un número “n” de elementos, cuya media aritmética es µ y donde la desviación típica viene dada σ, pueden formarse n 2 muestras con reemplazamiento distintas, formadas por los elementos de la población. Para cada una de estas muestras es posible una media muestral, que denotaremos con el símbolo X . Un ejemplo de la tabla de muestras de tamaño 2, tomada de la población {1, 3, 5}, con sus medias aritméticas reflejadas, sería 7 LUIS J. CASTILLO VÀSQUEZ Muestra Media 1;1 1;3 1;5 3;1 3;3 3;5 5;1 5;3 5;5 1 2 3 2 3 4 3 4 5 A partir de la variable estadística original x de la población se puede construir una nueva variable estadística X , que tendría como valores las medias de las muestras tomadas de la población. La media aritmética de esta distribución muestral de las medias se denota por x , y su desviación típica por x Parámetros de la distribución muestral de las medias de tamaño 2. Establecida una distribución muestral de las medias de tamaño 2, su esperanza matemática adopta el valor siguiente: E( X ) x E( X ) siendo µ la media aritmética de la población; la media aritmética de todas las medias, E ( X ) la esperanza matemática de la variable aleatoria X (para la distribución muestral de medias; E(X) la esperanza matemática de la variable aleatoria X de la población En una distribución muestral de las medias, la variable aleatoria media muestral sigue una ley normal descrita como N ( , / n ). Extracción Con reemplazo Infinita Población Finita (N) Sin reemplazo x x x / n x / n x x x / n x ( / n ). ( N n) /( N 1) Parámetros estadísticos de una distribución muestral de las medias de tamaño n: 8 LUIS J. CASTILLO VÀSQUEZ DISTRIBUCIÓN MUESTRAL DE LAS PROPORCIONES Sea una población formada por n elementos, de los cuales algunos poseen una determinada característica y otros no (llamaremos p a la proporción de los elementos que poseen la característica, y q = 1 - p a la de los restantes elementos). Entonces, es posible extraer muestras de la población de manera que a cada una se asocie como valor la proporción de la característica analizada. Por ejemplo, en la población {1, 2, 3}, la característica par tiene un valor p = 1/ 3, mientras que la impar es q = 2/ 3. Mediante la tabla siguiente de muestras se construye una nueva distribución muestral de las proporciones. Muestra Proporción 1;1 1;2 1;3 2;1 2;2 2;3 3;1 3;2 3;3 0 0.5 0 0.5 0 0.5 0 0.5 0 Parámetros estadísticos de una distribución muestral de las proporciones de tamaño n: Extracción Con reemplazo p p Infinita Población Sin reemplazo p p p pq / n p pq / n Finita (N) p p p p p pq / n p ( pq / n) ). ( N n) /( N 1) Una distribución muestral de las proporciones se comporta como una distribución normal descrita por los parámetros. 9 LUIS J. CASTILLO VÀSQUEZ Distribución muestral de las medias La distribución muestral de las medías sigue una ley normal cuyos parámetros son la media µ y la desviación típica dividida por la raíz de n: N (µ, σ/√n). La tipificación de esta distribución con el cambio. z x / n produce una distribución normal centrada N (0,1). Probabilidad de las medias Consideremos el ejemplo siguiente. Sea una población que sigue la distribución normal N (100,15). Si se toma una muestra de tamaño 36, la probabilidad de que la muestra tenga una media inferior a 105 sería: N (100,15 / √36) =N (100, 2,5) La probabilidad P sería: P ( X ≤105)= P [Z ≤ (105 – 100/2,5)]= P (Z ≤ 2) = 0, 9772. Consultando la tabla de la distribución normal N (0,1): Distribución muestral de las proporciones La distribución muestral de las proporciones es de tipo normal, si presenta los siguientes parámetros N ( p, pq / n ) Si la variable se tipifica como: la ley se transforma en N (0,1). Z ( p p) / pq / n Probabilidad de las proporciones Hallemos la probabilidad de que al lanzar 100 veces al aire una moneda, salga cara entre un 45% y un 55%: N ( p, pq / n) = N (0.5, (0.5)(0.5) / 100 ) La variable es: N (0.5, 0.05) 10 LUIS J. CASTILLO VÀSQUEZ Entonces si se tipifica la función: P (0.45≤ p≤0.55)= P (0.445 – 0.5) /0.05 ≤ Z ≤ (0.555 – 0.5)/0.05)= P (-1.1≤z≤1.1) = P (z≤1.1) – P (z≤-1.1) = 0.86433 – 0.13567 =0.72866 11 LUIS J. CASTILLO VÀSQUEZ EJERCICIOS RESUELTOS 1. EJEMPLO (resuelto) El CI de los alumnos de un centro especial de se distribuye normalmente con media 80 y desviación típica 10. Si extraemos una muestra aleatoria simple de 25 alumnos: a) Si se extrae un sujeto al azar, ¿Cuál es la probabilidad de que obtenga como mínimo una puntuación en CI de 75? b) ¿Cuál es la probabilidad de que su media aritmética sea mayor de 75? c) ¿Cuál es la probabilidad de que su media aritmética sea como máximo 83? d) ¿Qué valor debería tomar la media aritmética para que la probabilidad de obtenerlo en esa muestra sea como máximo 0,85? X N(80,10) X N(80, 2) Si la variable de partida no es normal Cuando la variable X con media u y desviación típica <72, no sigue un modelo de distribución conocido, la distribución muestra] de X se parece más a la de la distribución normal a medida que crece el tamaño de las muestras sobre las que se calcula. 12 LUIS J. CASTILLO VÀSQUEZ Teorema del Límite Central Independientemente de cómo sea la distribución de X, la distribución muestral de X tiende a la normal cuando el tamaño de las muestras tiende a infinito. Mediante este teorema podemos calcular probabilidades asociadas a los valores de las medias cuando se desconoce la forma de la distribución muestral de partida, siempre y cuando las muestras sean lo suficientemente grandes. Algunos autores plantean que el parecido con la distribución normal empieza a ocurrir desde tamaños muestrales de 30 observaciones. El valor de n afecta al error típico de la media, (X) 2. EJERCICIO La variable X se distribuye normalmente con media 50 y desviación típica 12. Si extraemos una muestra aleatoria simple de 16 alumnos: 1. Si se extrae un sujeto al azar, ¿Cuál es la probabilidad de que obtenga al menos una puntuación de 45? 2. ¿Cuál es la probabilidad de que su media aritmética sea menor de 58? 3. ¿Cuál es la probabilidad de que su media aritmética sea como mínimo 45? 4. ¿Qué valores debería tomar la media aritmética para que exista una probabilidad de 0,38 de encontrar valores entre ellos? 5. ¿Qué tamaño tendría que tener la muestra para que la probabilidad de encontrar medias superiores a 52 fuese 0,2578? 13 LUIS J. CASTILLO VÀSQUEZ Solución 1) 0,6628 2) 0,9962 3) 0,9525 4) X; = 48,50 y X; = 51,50 5) n = 15 sujetos 3. DISTRIBUCIÓN MUESTRAL DE LA PROPORCIÓN Si tenemos n observaciones (X1, X2,..., X„) dicotómicas y definimos: X,”Numero de aciertos con probabilidad ” Entonces: X B (x, n, ) E(X) = n - ( X ) n .(1 ) EJEMPLO: Distribución del número de aciertos en un test de 5 ítems con p = 0,50 Xi 0 1 2 3 4 5 F(xi) 0.031 0.156 0.312 0.312 0.156 0.031 Si ahora definimos la variable P X1 Proporción de aciertos con probabilidad " n El estadístico proporción (P) se distribuye mediante el modelo Binomial: B (x, n, " ). 14 LUIS J. CASTILLO VÀSQUEZ Las probabilidades asociadas al estadístico P pueden obtenerse mediante la tabla de la Binomial con parámetros n y " . En el ejemplo: Distribución de la proporción de aciertos en un test de 5 ítems con " = 0,50 Xi 0 1 2 3 4 5 Pi 0 0.20 0.40 0.60 0.80 1.00 F(xi) 0.031 0.156 0.312 0.312 0.156 0.031 Por tanto: 1) Probabilidad de que se acierten el 40% de los ítems: P (P;=0,40)=P(X,=2)=0,312 2) Probabilidad de que se acierten como máximo el 60% de los ítems: P (P; ≤ 0,60) = P(x, ≤ 3) = 0,811 4. EJEMPLO (resuelto) Un psicólogo clínico afirma que con su terapia para tratar "el miedo a volar en avión" se recupera el 80% de los pacientes. Si seleccionamos al azar 16 pacientes que han acudido a su consulta durante los últimos 3 meses por este tema, ¿cuál es la probabilidad de que al menos el 75% se hayan recuperado y puedan tomar aviones? X: N° de pacientes recuperados... X B (x, n = 16, p= 0,80) P: Proporción de pacientes recuperados.... P B (x, n= 16, z= 0,80) El 75% son 12 sujetos P (Pi 0,75)=P (Xi 12)=1-F (11)=1-(0+0+0+0+0+0+0+0,001+0,006+ + 0,020 + 0,055 + 0,120) = 0,798 (según tablas de la binomial) 15 LUIS J. CASTILLO VÀSQUEZ Aproximación a la normal Si n es suficientemente grande 0,20 ≤ ≤ 0,80 Entonces la probabilidad de P se puede aproximar mediante el modelo normal Con X: "Número de aciertos" 5. EJERCICIOS 1) Un partido político cree que el 60% del electorado está a favor de su programa. Como su líder encuentra que esta predicción es demasiado optimista decide hacer un sondeo con una muestra de 90 personas. ¿Cuál será la probabilidad de que como máximo 60 personas estén a favor de su partido? 2) Disponemos de los datos del I.N.E. (Instituto Nacional de Estadística) sobre el aumento del empleo durante el año 98, el cual se encuentra en un 45%. Si tomamos una muestra aleatoria de 200 ciudadanos. ¿Cuál es la probabilidad de que más del 50% tenga empleo? Soluciones: 1) 0,9192 2) 0,0869 (con corrección por continuidad). 16 LUIS J. CASTILLO VÀSQUEZ 6. Ejemplo Considerar una población que consiste de 3, 4, 6, 8, 10, 11, 12, 15, 20. Solución: 1) Calculamos la media y desviación estándar de dicha población. Descripción Estadística Variable N Nean Median Pr Nean C1 9 3.09 13.00 9.89 Variable Min Max Q1 Q3 C3 3.00 20.00 5.00 13.50 S-Dex 5.42 S3Hean 1.81 2) Extraemos 30 muestras de tamaño 4 de dicha población, ejecutando 4 veces la siguiente secuencia Cate Random Data Sample from columns. Guardar cada una de las 4 observaciones de las muestras en 4 columnas distintas-0bs1, Obs2, Obs3, y Obs4. 3) Tercero, calculamos las medias de todas esas muestras usando la opción Raw Statistcs del menú Calc y matamos de ver gráficamente al menos si hay acercamiento a Normalidad. Se eligen las 30 muestras. Las medidas estadísticas de la media muestral son: Variable N Nean Median Pr Nean C1 30 13.108 10.125 10.019 Variable Min Max Q1 Q3 C3 3.250 16.750 7.938 11.875 S-Dex 2.806 S3Hean 0.512 Interpretación: Notar que la media de las medias muestrales µ=l0.108 Que está bien cerca de la media poblacional µ =9.89. Además la desviación estándar de la media muestral es 2806 mientras que n es igual a 5.42/2=2.71 ambos valores también están relativamente cerca. El histograma si está un poco alejado de la normalidad. 17 LUIS J. CASTILLO VÀSQUEZ Si se incrementa el tamaño de las muestras se puede notar una mejor aproximación a la Norma! Histograma de la distribución de las medidas maestrales del Ejemplo 6.1 7. Ejemplo Según reportes del centro nacional para estadísticas de salud, alrededor del 20 % de la población masculina adulta de los Estados Unidos es obesa Se elige al azar una muestra de 150 hombres adultos en los Estados Unidos. ¿Cuál es la probabilidad de que: a) Haya a lo más 25 personas obesas? b) Haya más de 22 pero menos de 35 obesos? c) Haya por lo menos un 25% de obesos en la muestra? Solución Sea X el número de personas obesas en la muestra. Usando aproximación normal a la Binomial se tiene que: 18 LUIS J. CASTILLO VÀSQUEZ 8. Ejemplo El precio medio de ventas de casa nuevas en una ciudad americana es de $115 000 con una desviación típica de $25 000. Se toma una muestra aleatoria de 100 casas nuevas de esta ciudad. a) ¿Cuál es la probabilidad de que la media muestral de los precios de venta sea menor de $110 000? X: Precios de venta de las casas. Dado que el tamaño de muestra n=100 > 30 podemos utilizar el Teorema Central del Límite, así que tenemos que: 9. Ejemplo Se ha tomado una muestra de 16 directores de 100 oficinas de una ciudad con el fin de estimar el tiempo medio diario que emplean en desplazarse hasta su trabajo. Si la media de los tiempos es de 87 minutos y la desviación típica de 20 minutos, calcule la probabilidad de que la media muestral sea menor de 100 minutos. Como la población es finita y la muestra es sin reemplazo, debemos verificar si es o no necesario el empleo del factor de corrección para calcular el error muestral. 19 LUIS J. CASTILLO VÀSQUEZ Supongamos que el incremento porcentual de los salarios de los funcionarios de todas las corporaciones medianas se distribuye normal con una media de 12.2% y una desviación típica de 3.6%. Si se toma una muestra aleatoria de nueve observaciones de esta población, calcule la probabilidad de que el incremento medio muestral porcentual sea menor del 10%. Como la distribución de la población es normal, tenemos que los parámetros de la distribución muestral de la media son: Es realmente muy poco probable que el incremento medio porcentual esté por debajo del 10%. Distribución muestral de proporción 3. Definición: es la distribución de probabilidad de todos los valores posibles de la proporción muestral ( p ) 4. Media de las proporciones muestrales: es la media de todos los valores posibles de las proporciones que se pueden generar mediante las diversas muestras aleatorias simples. Se puede demostrar que la media de las proporciones muestrales p será igual a (proporción de la población). El valor esperado de las proporciones muestrales es igual a la proporción poblacional; es decir, E ( p )=p. 5. Error estándar de la proporción: es la desviación estándar de la distribución de muestreo de la proporción, por lo que mide el grado en que se espera que varíen las proporciones de las diferentes muestras de la proporción de la población, debido al error aleatorio en el proceso de muestreo. La distribución de muestreo tiene un error estándar igual a: Para población infinita con n>30 o muestreo con reemplazo: 20 LUIS J. CASTILLO VÀSQUEZ Para población finita y muestreo sin reemplazo con 05, 0 En ambos caso es 1 proporción en la población y n el tamaño de la muestra. 11. Ejemplo Se toma una muestra de 250 casas de una población de edificios antiguos para estimar la proporción de casas de este tipo. Supongamos que el 30% de todos los edificios son antiguos. Hallar la probabilidad de que la proporción de edificios antiguos esté entre 0.25 y 0.35. Tenemos que p=0.3 y n = 250, note que aquí la población es infinita. Así que Es muy probable que la probabilidad de que la proporción de edificios antiguos esté en ese intervalo. 12. Ejemplo Se ha estimado que el 43% de los licenciados en economía consideran que es muy importante que se imparta un curso de ética en economía. De una población de 800 estudiantes se tomó una muestra de 80. Calcular la probabilidad de que más de la mitad de ellos opinen de ese modo. En este necesitamos el factor de corrección dado que: 21 LUIS J. CASTILLO VÀSQUEZ Por tanto es pequeña la probabilidad de que más de la mitad de los estudiantes consideren necesario que se imparta ética en la licenciatura de economía. 22