Teoría del muestreo El total de un grupo de datos de llama población o universo, y una porción representativa de este grupo se llama muestra. Las muestras desempeñan un papel muy importante en los trabajos estadísticos, porque a menudo es imposible o muy costoso analizar a la población entera. La información obtenida de una muestra o un grupo de muestras es útil en la estimación de parámetros de población desconocidos, tales como la media, la varianza, etc. Esto se llama inferencia estadística o estimación. Además, a menudo deseamos comparar dos muestras de la misma población para determinar la hipótesis de si ciertas diferencias son significativas o no. Esto es parte de la teoría de decisiones. Teoría de muestras grandes o pequeñas. Se recordara que al calcular la desviación estándar y en la correlación deben hacerse ciertos ajustes a las formulas cuando la cantidad de datos es pequeña (n<30), y debe utilizarse una teoría de muestreo para muestras pequeñas. En realidad, las formulas desarrolladas para teoría de muestreo de muestras pequeñas se aplican a muestras de todos tamaños, pero suele ser más complicadas, y las formulas más sencillas para muestras grandes se utilizan siempre que esto sea posible. La parte inicial de este texto tratara sobre muestras grandes, y las muestras pequeñas se estudiaran en las partes finales Tipos de muestras Existen algunas diferentes maneras de seleccionar muestras de una población. Muestreo aleatorio: cada miembro de la población tiene la misma posibilidad de ser seleccionado Muestreo estratificado: Una población heterogénea deberá dividirse en subgrupos homogéneos y, entonces, se seleccionan muestras aleatorias de cada uno de estos grupos. Las proporciones de los subgrupos en la muestra deberán ser iguales a las proporciones de los subgrupos en la población Muestreo de juicio: Esta es una selección deliberada de una muestra por el estadístico, para obtener una muestra representativa de la población. Este método se utiliza a menudo en la construcción de un modelo para representar una población. Las técnicas de este texto no se aplicaran a muestreo de juicio. Varios otros términos se utilizan para representar variantes de estas tres divisiones, tales como el sistemático, doble, secuencial, de rea, de grupo agregado, de cuota y proporcional Métodos para obtener muestras aleatorias: En muchos problemas cada unidad tiene, o puede asignársele, un número. Las personas tiene un numero en su carnet de identidad, las casas tienen los números de sus calles, y los automóviles tienen números de serie y números de patente. Si cada número de nuestra población se escribiera en un trozo de papel y se mesclaran perfectamente entonces, seleccionando papeles de la urna, se podría obtener una muestra Profesor Eduardo Flores 1 aleatoria de cualquier tamaño deseado. Es posible considerar muchos casos en donde esta idea teórica puede ser no práctica, como por ejemplo cuando la población total es grande o innumerable. A menudo puede obtenerse una muestra seleccionando cada número que tenga como último digito un 4 (por ejemplo), o 56 (por ejemplo), en la serie de números. Es necesario determinar que la selección en esta forma no incluirá sesgos, y cuando se sospeche que esto ocurre deberá utilizarse en su lugar una tabla de números aleatorios o una función de ramdom. Pregunta Se desea obtener una muestra de todos los teléfonos de una ciudad. ¿Cuál seria el defecto de seleccionar todos los números terminados en dos dígitos seleccionados, ( digamos 45)? Hint: Los números de empresas suelen terminar en 000. Muestreo con o sin reemplazo En el procedimiento de la urna descrito anteriormente, cada papel es sacado de la urna debe reemplazarse después de que el número quedo registrado. Esto da un proceso de selección aleatoria que permite al mismo número ser seleccionado más de una vez. Cualquier procedimiento donde esto sucede se llama muestreo con reemplazo. Suponiendo que la población es grande, esto no tiene importancia, pero en una población pequeña la diferencia si la tiene. El muestreo con reemplazo hace que se utilicen forman apropiadas a poblaciones infinitas. Distribución de medias de las muestras Se toma un número de muestras, todas de tamaño N, de cierta población y se calcula la media de cada muestra. Entonces tenemos una nueva distribución – la distribución de las medias de muestras. Estas medias de las muestras tiene una distribución normal, aun si la población no tenia una distribución normal, suponiendo que el tamaño de la muestra, N, es grande. La media de esta distribución es µ p , la media de la población y la desviación estándar es σp N , la desviación estándar de la población. Esta desviación estándar se llama error estándar de la distribución de las medias de muestreo Ejemplo: una población consiste en todos los números de 0 a 99-­‐ Se selecciona de 5 en 5 por medio de una función ramdom obteniendo lo 51 indicado en la tabla. 42 46 Calcúlese la media de estas muestras, , la media 93 y la desviación estándar de estas medias de las 19 muestras. Profesor Eduardo Flores 2 77 33 62 58 64 27 12 16 20 8 46 90 28 41 70 40 44 98 86 56 Solución Sumando los números de cada muestra y dividiendo por 5 las medias de las muestras son 51 42 46 93 19 77 33 62 58 64 27 12 16 20 8 46 90 28 41 70 40 44 98 86 56 suma 241 221 250 298 217 medias 48,2 44,2 50 59,6 43,4 La media de las muestras es x= 48,2 + 44,2 + 50 + 59,6 + 43,4 245,4 = = 49,08 5 5 La varianza es ( 0,88) + ( 4,88) + ( −0,92 ) + ( −10,52 ) + (5, 68) σ = 2 2 2 2 2 2 5 0, 7744 + 23,8144 + 0,8464 + 110, 6704 + 32, 2624 = 5 168,368 = = 33, 6736 5 Y la desviación estándar σ = 33, 6736 = 5,80289583 Ejemplo Una población tiene una medida de 50, y una desviación estándar de 30. Si se selecciona un gran número de muestras de cada una de tamaño 36. ¿Cuál es la media y la desviación estándar de las medias de las muestras? media = 50 Profesor Eduardo Flores desviacion = 3 30 30 = = 5 36 6 Otras distribuciones de muestreo Considérese una proporción P, y una población grande, Obtenida al arrojar un dado o por otros métodos, basados sobre la proporción. Si se toman muestras de esta población la distribución de las muestras se la proporción de sucesos será P y la desviación estándar ( error estándar) será p (1 − p ) = N pq N Donde q = 1 − p A pesar de que la población es una distribución binomial, la distribución de muestras de la proporción es próxima a la normal. Si se toman dos grupos independientes de muestras de dos poblaciones separadas con medias µ1 y µ 2 , y desviaciones estándar de σ 1 y σ 2 , entonces la media de la suma de las medias será µ1 + µ2 , y la media de las diferencias será µ1 − µ2 . En cualesquiera de estos casos, la desviación estándar de la distribución de las sumas o de las diferencias de las medias será σ 12 σ 22 + , donde N1 y N 2 , son los tamaños de las muestras. N1 N 2 Para un N grande la distribución maestral de la desviación estándar de las muestras es casi normal y su error estándar es σ 2N Ejemplo Se toman dos muestras de tamaño 30 y 50 de la población mencionada en el problema anterior. ¿Cuáles son: Las medias y las desviaciones estándar de las medias de los dos grupos de muestras? la media y la desviación estándar de la distribución muestral de la suma y de la diferencia de las muestras Solución media desviación estándar grupo 1 50 30 = 5,5 30 grupo 2 50 30 = 4,2 50 Suma de la media de las muestras 302 302 + = 30 + 18 = 6,9 30 50 Media=50Desviación estándar Profesor Eduardo Flores 4 Diferencia de las medias de las muestras Media=0; desviación estándar=6,9 Ejemplo La población A consiste de los números 3 y 5 distribuidos en iguales proporciones. La población B consiste de los números 1 y 5 distribuidos en iguales proporciones. Ambas poblaciones son infinitas. Un grupo de muestras X de tamaño 50 se toma de la población A. Esta tendrá por lo general un número aproximadamente igual a números 3 y números 5, pero cualquier distribución hasta 50 es posible. Un grupo de muestras Y, de tamaño 100 se toma de la población B. Se forma un nuevo grupo de muestras combinando la media de cualesquier de las muestras X con la media de cualesquiera de las muestras Y. ¿Cuál es la media y la desviación estándar de esta distribución? Para la población A la media es 4 y la desviación es 1. Para la población B la media es 3 y la desviación es 2. La media de la distribución será µ1 + µ2 = 4 + 3 = 7 La desviación estándar será σ 12 σ 22 1 2 2 1 + = + = = N1 N 2 50 100 50 5 Corrección para poblaciones finitas si el tamaño de la muestra es N y el tamaño de la población es M, la media de la distribución de medias de las muestras es también igual a la media de la población µ = µ p Pero para la varianza será σ = 2 σ p2 M − N N M −1 Ejemplo ¿Cuál es el factor de corrección que deberá aplicarse a la desviación estándar para una población finita donde la población es 100 y el tamaño de muestra es 10? El factor d corrección de la varianza σ 2 es M − N 100 − 10 90 = = = 0,91 M − 1 100 − 1 99 El factor que deberá aplicarse a la desviación estándar es 0,91 = 0.95 Profesor Eduardo Flores 5 Si la población es 100. ¿ Qué tamaño de muestra corresponde a un factor de corrección a la desviación estándar de 0,9? Solución 100 − N 2 = ( 0,9 ) 100 − 1 De donde 100 − N = 99 ⋅ 0,81 N = 100 − 80 N = 20 Distribución T de Student Se estableció anteriormente que si el tamaño de la muestra es grande, las medias de las muestras siguen una distribución normal, Aún si la misma población no es normal. Esto es válido para muestras pequeñas sólo si la población tiene una distribución normal. Expresado matemáticamente z= x−µ σ es una curva normal estándar, donde µ y σ se refieren a la población. En la mayoría N de los casos σ es desconocida y debemos sustituir por σ est = N s donde s es la desviación N −1 estándar de la muestra. La ecuación t = x−µ s se llama distribución t de student, y se aproxima a la distribución N −1 normal cuando n es grande. La distribución t no es diferente a la normal, pero para la misma área bajo la curva y la misma desviación estándar, la cima es mas baja y las colas son mas altas. El uso de las tablas de la distribución t implica la idea de grados de libertad. Expresado en manera sencilla, el número de grados de libertad es el tamaño de la muestra menos K de parámetros de la población (restricciones) que deben estimarse de las observaciones de la muestra. v = N − k . Profesor Eduardo Flores 6 Error probable. La tabla para las áreas bajo la curva normal nos permite determinar la probabilidad de valores que están dentro de un rango en particular fuera de la media. Asi, para el rango de −σ a +σ la probabilidad es del 68%; de −2σ a +2σ la probabilidad es del 95,5%, y desde −3σ a +3σ la probabilidad es del 99,7%.. El rango correspondiente al 50 %se llama error probable ya que para valores es igualmente probable estar dentro o fuera de este rango. Para la curva normal, este rango es −0,6745σ a +0,6745σ . Para la distribución t, este rango es mayor. Para 10 grados de libertad el rango es de −0, 700σ a +0, 700σ , y para 5 grados de libertad es de −0, 727σ a +0, 727σ . Tabla de distribución t A utilizar la distribución t, normalmente estamos implicados con la probabilidad de que valor dado esté fuera del rango de −xσ a +xσ . Las probabilidades están tabuladas de la siguiente manera. probabilidad libertad Grados de 0,50 0,10 0,05 0,01 1 1,000 6,31 12,71 63,66 2 0,816 2,92 4,30 9,92 3 0,765 2,35 3,18 5,84 4 0,741 2,13 2,78 4,60 5 0,727 2,02 2,57 4,03 10 0,700 1,81 2,23 3,17 20 0,687 1,72 2,09 2,84 ∞ 0,674 1,64 1,96 2,58 Profesor Eduardo Flores 7 Ejemplo: Si el número de grado de libertad es 10, ¿qué rango de valores incluirá el 90% del nuevo total de medias registradas en un gran número de pruebas de muestras? Si el 90% de los valores están dentro del rango, el 10% estarán fuera de el. Observando la tabla con una probabilidad del 0,10, y 10 grados de libertad obtenemos e valor 1,81. Por lo tanto el rango requerido es −1,81σ a +1,81σ . Problemas 1. Una biblioteca registra en la contra portada de sus libros la fecha en que se presta cada libro. Se desea determinar el número promedio de veces que un libro se presta en un año. Se sugiereque tome cada décimo libro que este colocado en los estantes y se cuente el número de veces que ha sido prestado en los últimos 12 meses. ¿cuál es el error de esta técnica de muestreo? R: Considerando que no todos los libros que están en los estantes han sido prestados, es claro que aplicar este método de muestreo es claramente inadecuado. 2. Un analista de opinión pública obtiene las opiniones de los transeúntes en una esquina de una calle muy transitada para determinar los resultados de una eleccion. ¿cuál es el error de este procedimiento? Por una esquina de una calle no pasa demasiada gente, por consiguiente la masa encuestada no es significativa. 3. En un mostrador de inspección aduanera de determinado aeropuerto, se colocan grandes números de 0 a 9 a intervalos iguales sobre el mostrador, y el equipaje se distribuye bajo los números de acuerdo al ante penúltimo dígito del boleto de equipaje. ¿se hace esto para proporcionar una distribución igual del equipaje sobre el mostrador? ¿por que se utiliza el antepenúltimo digito? Claramente permite una estrategia de ordenamiento, lo cual distribuye en forma aleatoria a los pasajeros. 4. Una población consiste de 5 números (1,2, 3, 4 y 5). ¿cuántas muestras diferentes se dos números pueden seleccionarse? ⎛5⎞ ⎝ 2⎠ Aplicando combinatoria ⎜ ⎟ = 5! 5 ⋅ 4 = = 10 2!3! 2 Profesor Eduardo Flores 8 5. Calcúlese la media y la desviación estándar de la población del problema relacionado con los 100 números, mostrado el ejemplo, la media y la desviación estándar, de las medias de las pruebas. Población ds= 2 = 1, 4142418 media =3 muestra media x − x ( x − x ) (1,2) 1,5 -­‐1,5 2,25 (1,3) 2 -­‐1 1 2 (1,4) (1,5) 2,5 -­‐0,5 3 0 0,25 0 media = x varianza = σ 2 Desviación = σ (2,3) 2,5 -­‐0,5 0,25 (2,4) 3 0 0 (2,5) 3,5 0,5 0,25 (3,4) 3,5 0,5 0,25 (3,5) 4 1 1 (4,5) 4,5 1,5 2,25 suma 30 7,5 media = x 3 0,75 3 0,75 0,8660254 6. ¿cómo se alteraría la respuesta del problema anterior si las muestras se seleccionaran con reemplazo? Con reemplazo l muestras serian (1,1) (1,2),(1,3), .. etc Y se debe distinguir entre (1,2) y (2,1), de otra manera deberíamos dar doble peso a (1,1), (2,2), etc… La media de las muestras aun seria 3 pero la desviación estándar se calculara de la siguiente manera. mue stra 1 2 3 4 5 etc suma media de las muestras 3 varianza desviación Profesor Eduardo Flores 1 2 3 4 5 etc frecuencia 1 1 1 1 1 20 25 media x-­‐x 1 2 3 4 5 3 1 1 9 x-­‐x ^2 -­‐2 -­‐1 0 1 2 0 0 4 1 0 1 4 15 25 7. La edad de 5000 estudiantes hombre de una universidad tiene una media de 20,1 y una desviación de 2,6 años. Si se toman 10 muestras de 100 estudiantes cada una . ¿cuál será la media esperada de las medias de las muestras y a desviación estándar de esta media? La media es la misma que la media de la población, 20,1 y la desviación estándar es σ= 2,6 = 0,26 100 8. En el problema anterior, si en lugar de 10 muestras de 100 estudiantes fueran 100 muestras de 10 estuantes cada una . ¿cómo habría afectado los resultados? ( supóngase que se aplica la teoría de muestras grandes) La media permanecerá sin alteraciones en 20,1. La desviación estándar , por la formula de muestras grandes será σ= 2,6 = 0,82 10 9. ¿cómo se afectaría el resultado del problema anterior si sólo hubieran tomado 10 muestras en lugar de 100? Los resultados no se alteraran de ninguna manera. La media y la desviación estándar de las medias de las muestras es la misma así exista uno o cualquier otro numero de muestras. 10. En el problema inicial, de los 5000 estudiantes, ¿cuál es el número esperado de las 10 muestras , si tuvieran una media de 20,0 y 21,0? La media de las medias es 20,1, y la desviación estándar es 0,26 20,0 = m − 0, 4σ 21,0 = m + 3,5σ por medio de la tabla de distribución normal , es fácil ver que entre − 0, 4σ y 0 = 0,155 entre entre 0 y 3,5σ = 0,500 = 0,655 la probabilidad de un valor entre 20,0 y 21,0 e 0,655 y el numero esperado de las 10 muestras es 6,55. Profesor Eduardo Flores 10