MUESTREO DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES Marta Alperin Profesora Adjunta de Estadística [email protected] http://www.fcnym.unlp.edu.ar/catedras/estadistica OBJETIVO DE TRABAJOS DE INVESTIGACIÓN Conocer algún aspecto de una población específica Es imposible contar con la información de todos los individuos de la población. Conclusiones válidas con una muestra (esfuerzos y costos razonables) Para tener éxito en un estudio se requiere: conocimiento del problema concreto para obtener información relevante sólida base conceptual de la teoría del muestreo . • Muestreo • Razones para el muestreo • Conceptos básicos y base teórica del muestreo • Tipos de muestreo: Muestreo aleatorio simple Muestreo sistemático Muestreo estratificado Muestreo por conglomerados • Distribución de las medias muestrales • Distribución de las varianzas muestrales CONCEPTOS FUNDAMENTALES Población : es la colección completa de individuos, plantas, animales, rocas, agua, minerales o cosas que tienen por lo menos una característica común. Población biológica: es el conjunto de individuos de la misma especie ubicados en espacio y tiempo. Población geológica: comprenden diferentes clase de objetos (ej. cristales de minerales, pozos, unidades litológicas, emanaciones de gases), eventos (erupciones volcánicas, inundaciones, precipitaciones), o números (ej. producción de barriles de petróleo, número de manifestaciones minerales en un distrito minero, medidas de rumbo de estructuras, longitudes de onda de olas de diferente tipo, profundidades), ubicados en espacio y tiempo. Población estadística: es la colección completa de todo el grupo posible de medidas, valores o cualidades que son motivo del estudio. Población objetivo o blanco: es aquella sobre la que se hacen las inferencias con base a los datos que se obtienen en el muestreo. La población a ser muestreada debe coincidir con la población objetivo. Ejemplares , individuos, especímenes o unidades de muestreo: son los miembros individuales de la población. Es la unidad estadística sobre la que se quiere tener información para analizar. uniformes y estables fácilmente identificables suministrar información precisa debe tener igual probabilidad de selección es deseable que permita una fácil conversión a unidades de área debe tener una magnitud proporcional al objetivo de estudio Muestra estadística número limitado de datos. Debe ser representativa de la población y equiprobable. Muestra geológica cantidad finita de roca o sedimentos consolidados o inconsolidados, muestreados al azar de la parte del cuerpo de roca que está disponible. Datos: valores medidas o cualidades que se obtienen de la observación y/o medición de las unidades de muestreo. MUESTREO OBJETIVO: Estimar algún parámetro de una población de N elementos partir de la información de una muestra de n elementos. MUESTRA: Parte representativa de un todo. La proporción y distribución de las Todos los elementos de la población características que se investigan deben ser iguales en la población y en la muestra. deben tener igual probabilidad de ser elegidos para conformar la muestra. Muestreo no equiprobable La muestra debe ser representativa si se va a usar para estimar las características de la población. El método para seleccionar una muestra representativa depende: - del tiempo - dinero - habilidad - naturaleza de los individuos El tamaño de la muestra depende del nivel de precisión deseado: - en investigación 10% a 15% - en toma de decisiones 20% a 25% El tamaño de la muestra está determinado por la variación existente entre las unidades de muestreo. Fórmula general para calcular el tamaño de la muestra: n= tamaño de la muestra s= desvío estándar obtenido con datos de muestras preliminares =estimada con datos de muestreos preliminares E=nivel de precisión requerido Objetivo del muestreo es estimar algún parámetro de una población a partir de la información de una muestra. Parámetros son los valores fijos que caracterizan a una población. Estimador o estadístico son las cantidades que se usan para describir la muestra (media, desvío estándar, varianza, etc.). INFERENCIA Operación mental por la cual se admite una proposición cuya verdad no se conoce directamente, pero que se acepta por su relación con otras proposiciones que ya han sido consideradas verdaderas: la deducción y la inducción son casos especiales de inferencia. Muestreo o desmuestre • Todas las operaciones que conducen a establecer los parámetros principales de una población. • Una operación estadística mediante la cual se eligen n individuos con objeto de representar a una población N mucho mayor. Premisas para un buen muestreo: Objetivo de la investigación. Definir la población objetivo (delimitar la población en tiempo y espacio). Definir, describir y listar los elementos de la población (marco muestral). Seleccionar la/las características que se van a tomar. Definir el tipo de observación o medida a realizar. Evaluar la variabilidad que presentan los datos (población homogénea o heterogénea. Establecer modo de recolectar datos , el método de medida y volumen de material. Establecer el método de muestreo (equiprobable), lugar y frecuencia de toma de muestra. Definir la precisión y exactitud requeridas en el estudio. Tipos de muestreo según el número de muestras tomadas • MUESTREO SIMPLE Se toma solamente una muestra de la población. El tamaño de muestra debe ser los suficientemente grande para extraer una conclusión. Una muestra grande muchas veces cuesta demasiado dinero y tiempo. • MUESTREO DOBLE Si el resultado del estudio de la primera muestra no es concluyente, se toma una segunda muestra de la misma población. Las dos muestras se combinan para analizar los resultados. • MUESTREO MÚLTIPLE Similar al muestreo doble, excepto que el número de muestras sucesivas requerido para llegar a una decisión es de más de dos muestras. Tipos de muestreo según el procedimiento utilizado para seleccionar la muestra A. Muestreo no probabilístico no es posible hacer inferencias sobre la población. B. Muestreo Aleatorio es posible hacer inferencias sobre la población. A. MUESTREOS NO PROBABILISTICO • Muestreo de juicio u opinión: los elementos de la muestra son seleccionados mediante juicio personal. • Muestreo por cuotas: se requiere conocer la población y/o los individuos más representativos. Se fijan cuotas que consisten en número de individuos con determinadas condiciones. • Muestreo accidental: los individuos de la muestra se obtienen sin ningún plan, son elegidas producto de circunstancias casuales. • Muestreo incidental o de conveniencia: se seleccionan directa e intencionalmente a los individuos de la población que formaran la muestra. Se usa en estudios exploratorios y en pruebas piloto. • Muestreo bola de nieve: la premisa es que los elementos se relacionen entre sí. Se localizan algunos individuos de la población y estos conducen a otros que llevan a otros y así hasta tener una muestra de tamaño suficiente. B. MÉTODOS DE MUESTREO PROBABILISTICO MUESTREO ALEATORIO SIMPLE Muestras están distribuidas aleatoriamente en espacio y tiempo. La selección de los n individuos tienen igual probabilidad de ser elegidos. La población debe ser homogénea respecto a la variable de interés. 1000 900 800 Norte (Km) 700 600 500 400 300 200 100 0 0 100 200 300 400 500 600 700 800 900 1000 Este (Km) 10097 08422 66065 31060 74350 37542 63573 73796 65481 80124 B. MÉTODOS DE MUESTREO PROBABILISTICO MUESTREO SISTEMÁTICO Las muestras se toman según una regla fija. Los elementos de la población son seleccionados dentro de un intervalo uniforme que se mide con respecto al espacio o al tiempo. Se decide distanciar uniformemente el espacio de muestreo, segmentos de la misma longitud y se seleccionan los n elementos. 1000 900 800 700 600 500 Norte (Km) 400 300 200 100 0 0 100 200 300 400 500 Este (Km) 600 700 800 900 1000 MUESTREO ESTRATIFICADO SIMPLE La población está subdividida en subpoblaciones llamados estratos o capas. Los estratos pueden considerarse homogéneos al interior, pero diferentes entre sí, sin traslapes. En cada estrato se toma una muestra aleatoria simple. Es apropiado cuando la población ya está dividida en estratos y los estratos tienen diferente tamaño y es necesario tener ambos en cuenta. Refleja de forma mas precisa las características de la población estratificada en comparación con otro tipo de muestras. MUESTREO DE CONGLOMERADOS La población está subdividida en subpoblaciones llamados conglomerados. Los conglomerados deben presentar toda la variabilidad de la población. Además los conglomerados deben ser muy parecidos entre sí. La selección de los conglomerados que integran la muestra es al azar. Todos los elementos del conglomerado representan la población, de modo que conviene incluirlos a todos en la muestra. Una muestra de conglomerados, usualmente produce un mayor error muestral y es menos precisa en las estimaciones que una muestra aleatoria simple del mismo tamaño pero es menos costosa y mas rápida de muestrear. RECOLECCION DE DATOS Las diversas técnicas pueden conducir a diferentes resultados dependiendo de la pericia del operador, de las capacidad técnica para calcular la variable de análisis. Ambos permiten definir los factores de corrección o calibración para recolectar datos. Muestreo de vetas en galería Muestreo de puntos Muestreo de canaletas Muestreos oceanográficos Saca testigo de caja Saca testigo tubular Rastra Draga Tipos de recorridos: cuadrícula, zig-zag, diagonal, sinuoso, transectas, banda griega. Muestreo de microvertebrados Muestreo de insectos con red DISTRIBUCIONES EN EL MUESTREO Con el objetivo es estudiar el parámetro cualquiera ( , , ), se extraen de manera aleatoria k muestras de las M posibles de tamaño n de una población finita de tamaño N. Cada muestra aporta un valor del estadístico (estimativa), . Los valores de los estadísticos varían de muestra en muestra. Las diferencias entre cada muestra y la población, y entre las diferentes muestras entre sí, se deben únicamente a las características de los individuos que fueron seleccionados por azar para integrar la muestra (ERROR DE MUESTREO). DISTRIBUCION MUESTRAL DE UN ESTADISTICO Es la distribución de todos los valores que puede tomar el estadístico calculado de muestras de igual tamaño seleccionadas con un muestreo aleatorio exhaustivo de una población. Población de la variable X X = {2, 4, 6} Frecuencia Distribución de la Media Muestral 1 0 2 3 4 x Media poblacional de X 246 4 3 Varianza poblacional de X 2 2 4) 2 (4 4) 2 (6 4) 2 8 2,66 3 3 5 6 Muestreo con reposición de la población. Muestras de tamaño n = 2 Muestra Media muestral X X X 2 2 2;2 2 (2 – 4)2 4 2;4 3 (3 - 4)2 1 2;6 4 (4 -4)2 0 4;2 3 (3 - 4)2 1 4;4 4 (4 - 4)2 0 4;6 5 (5 - 4)2 1 6;2 4 (4 - 4)2 0 6;4 5 (5 - 4)2 1 6 4)2 4 6;6 Total (6 - 36 12 •Varianza de las medias muestrales X2 12 / 9 1,33 4 3 Frecuencia • • 2 1 0 2 3 4 5 6 MEDIA MUESTRAL X •La media de las medias muestrales es X 36 / 9 4 •Error típico ó Error estándar de las medias muestrales X2 1,33 1,15 Relaciones entre la distribución de la variable X y la distribución de la variable media muestral X Media poblacional de X Media poblacional de X 4 Varianza poblacional de X 2 8 2,66 3 La media de las medias muestrales es igual a la media poblacional. La varianza de las medias muestrales es igual al cociente entre la varianza poblacional y el tamaño de la muestra. X 4 Varianza poblacional de X X2 1,33 2,66 2 X 4 X2 1,33 2 n 4 Frecuencia 3 Frecuencia La distribución de las medias muestrales es simétrica, aunque la distribución de la variable no lo sea. 2 1 1 0 2 3 4 5 6 MEDIA MUESTRAL X Esta distribución simétrica nos induce a pensar en el modelo de . distribución de una variable Normal, con parámetros y n 0 2 3 4 x 5 6 EL TEOREMA CENTRAL DEL LÍMITE: DEFINICIÓN FORMAL Si X1, X2,… Xn son variables aleatorias independientes y tienen todas la misma distribución, con esperanza matemática, E(X)=μ y varianza V(X)=σ2 finitas y ≠0. Se define una nueva variable aleatoria Zn X n ; en dónde 1 n X Xi n 1 La función de distribución Zn converge a una función de distribución normal estándar cuando n →∞. EL TEOREMA CENTRAL DEL LÍMITE: DEFINICIÓN INFORMAL Cuando se efectúa un muestreo aleatorio de tamaño fijo ”n” de una población que tiene forma arbitraria, pero media y varianza finita, la distribución de las medias muestrales tiende aproximadamente hacia una distribución de frecuencias normal a medida que el tamaño de la muestra aumenta. Analicemos la distribución de las medias muestrales El tamaño de la muestra forma parte del Error estándar de la media n A: distribución de la población de la variable X “talla de Pingüino emperador”. μ=100 y σ=15. B: distribución de medias muestrales de n=10. μ=100 y error estándar= 4,7. C: distribución de medias muestrales de n=100. μ=100 y error estándar= 1,5. El tamaño de la muestra determina el parecido de las medias muestrales a la media poblacional debido a que existen más probabilidades de incluir individuos de la población y con ellos la variabilidad. Esto determina que la distribución del estadístico media muestral se encuentre mas o menos apretada en torno al parámetro poblacional. Señalemos La diferencia entre el resultado obtenido de una muestra (un estadístico) y el resultado que deberíamos haber obtenido de la población (el parámetro correspondiente) se llama error muestral o error de muestreo. El error de muestreo es medido por el error estadístico, en términos de probabilidad, bajo la curva normal. El valor del error muestral indica la precisión de la estimación de la población basada en el estudio de la muestra. Mientras más pequeño el error muestral, mayor es la precisión de la estimación. Tamaño de la muestra Vs. el tamaño de la población Ejemplo Un yacimiento de cobre diseminado es cubicado en 160 * 10 6 toneladas. • El yacimiento fue reconocido a través 40.000 m de sondajes, con un peso total de 103 toneladas. • Razón de Muestreo =103/(160*106) = 0,000064 • Se estima la ley del yacimiento de ciento sesenta millones de toneladas conociendo sólo sesenta y cuatro millonésimas partes del yacimiento. Chuqicamata, Chile. Open pit Ubicación de una media muestral en la distribución de medias muestrales Ejemplo Población de Pingüino Emperador (Aptenodytes forsteri) Variable: talla (cm) n=25 X 106 cm μ=100 cm =15 cm n Zn X n 15 25 3 106 100 6 2 15 3 25 La P(z≤2)=0,977, de donde P(z≤2)=0,977 P(z≥2) = 1- P(z≤2)=1-0,977=0,023 La probabilidad de hallar en muestras de 25 ejemplares una talla media mayor a 106 cm es sólo del 2,3%. Distribución de la Varianza Muestral S2 se puede usar como una estima de 2 se usa para calcular es el error de la estimación de X 2 Población X = {2, 4, 6} 2 4) 2 (4 4)2 (6 4)2 8 2,66 3 3 n Muestra X 2 x X 2;2 2;4 2;6 4;2 4;4 4;6 6;2 6;4 6;6 Total 2 3 4 3 4 5 4 5 6 (2–2)2+(2–2)2 (2-3)2+(4–3)2 (2-4)2+(6–4)2 (4–3)2+(2–3)2 (4-4)2+(4–4)2 (4-5)2+(6-5)2 (6–4)2+(2–4)2 (6-5)2+(4–5)2 (6- 5)2+(6–6)2 S 24 / 9 2,66 1 Varianza muestral s2 1 n 2 S x X i n 1 i 1 0 2 8 2 0 2 8 2 0 24 2 5 4 Frecuencia 2 muestreo con reposición, muestras con n=2 3 2 1 0 0 1 2 3 4 S2 2 Error estándar 5 6 7 8 En muestras de tamaño 2, el promedio de las varianzas muestrales coincide con la varianza de la población, . La distribución de las varianzas muestrales es asimétrica, aunque la distribución de la variable no lo sea. La relación entre la varianza muestral y la varianza poblacional está dada por el estadístico : Grados de libertad (k) n 1s 2 2 2 2 SÍNTESIS Cuando se tiene un objetivo claro de un estudio debemos delimitar con precisión cuál es la población motivo de estudio y cual la población objetivo. Para estudiar se toma una muestra de la población esencialmente por razones de accesibilidad, tiempo y dinero. La muestra solo sirve para hacer inferencias sobre la población si el muestreo se realiza con algún método de muestreo probabilístico, donde todos los elementos de la población tienen la misma posibilidad de ser elegidos para integrar la muestra. Se pueden hacer inferencias sobre la población porque existen relaciones bien definidas entre los parámetros poblacionales y los estadísticos muestrales. Se pueden cometer errores en la estimación de los parámetros poblacionales. Los errores disminuyen al aumentar el tamaño de la muestra. Agradezco su atención