17/11/2011 Análisis de datos y gestión veterinaria Muestreo Departamento de Producción Animal – Facultad de Veterinaria Universidad de Córdoba Córdoba, 16 de Noviembre de 2011 Población y muestra Predecir los resultados electorales en España Población. Conjunto completo de individuos sobre el que estamos interesados en obtener conclusiones. 1 17/11/2011 Población y muestra N = ?? ?? = millones de votantes Predecir los resultados electorales en España Población. Conjunto completo de votantes. Población y muestra n = 10.000 votantes N = ?? ?? = millones de votantes n = 10.000 votantes Muestra. Subconjunto de los valores poblacionales observados. 2 17/11/2011 Población y muestra n = 10.000 votantes los estadísticos N = ?? se utilizan como ?? = millones de votantes Inferencias. Generalizaciones a partir de la muestra a la población. estimadores de los parámetros de la población, como la edad media de los votantes de la población calculamos estadísticos, como la edad media de los votantes de la muestra Población y muestra ¿Se puede confiar en que los estadísticos sean similares a los parámetros? N = ?? ?¿?¿?¿ 35,5 años ??¿?¿? ?? = millones de votantes Los parámetros son los que realmente se quieren conocer n = 10.000 35,5 años votantes Los estadísticos son calculados y conocidos 3 17/11/2011 Población y muestra ¿Se puede confiar en que los estadísticos sean similares a los parámetros? Los parámetros no son verificables (si lo fueran, no trabajaríamos con muestras). Si, siempre que la muestra represente a la población Población y muestra N = 12 vacas Si, siempre que la muestra represente a la población 4 17/11/2011 Población y muestra N = 12 vacas n=6 vacas La muestra representa a la población las Si, siempre que la simuestra características de la población se repiten en la muestra. represente a la población ¿Si no sabemos cómo es la población, ni Población y muestra siquiera su tamaño? La representatividad se basa en la forma en n = mejores 10.000 que la muestra es seleccionada (los métodos son los que se basan en el usovotantes planeado del azar) N = ?? ?? = millones de votantes La representatividad se basa en el tamaño de la muestra (en principio, mayores tamaños mejoran la representatividad) La muestra representa a la población si las características de la población se repiten en la muestra. 5 17/11/2011 Muestreo aleatorio simple Población (N): 5.000 papeletas marcadas con 1 5.000 papeletas marcadas con 0 Muestreo aleatorio simple Se le da la urna y se le informa que contiene un número determinado de papeletas con ceros y unos. Se le pide que estime sus proporciones Agita la urna (garantizamos la aleatoriedad) Saca 1.000 papeletas sin reposición (n) 6 17/11/2011 Muestreo aleatorio simple Dado que todos los elementos de la urna tenían la misma probabilidad de ser seleccionados, el muestreo es aleatorio, por tanto: % unos en la muestra = % unos en la urna + error aleatorio Si el muestreo es aleatorio: Estimador = Parámetro + Error aleatorio Muestreo aleatorio simple 521 unos en la muestra = 500 + 21 491 unos en la muestra = 500 - 9 507 unos en la muestra = 500 + 7 Si el muestreo es aleatorio: Estimador = Parámetro + Error aleatorio 7 17/11/2011 Distribución en el muestreo de la media muestral Población (N): 6 papeletas marcadas con: 2, 4, 6, 6, 7 y 8 µ = 5,5 Distribución en el muestreo de la media muestral Media = µ + error aleatorio 4,5 = 5,5 -1 Repetimos… Agitamos la urna… Sacamos 4 papeletas (n) 2, 4, 6, 6 media = 4,5 8 17/11/2011 Distribución en el muestreo de la media muestral Media = µ + error aleatorio 4,5 = 5,5 -1 5,0 = 5,5 - 0,5 Repetimos… Agitamos la urna… Sacamos 4 papeletas (n) 2, 4, 6, 8 media = 5,0 Distribución en el muestreo de la media muestral Media = µ + error aleatorio 4,5 = 5,5 -1 5,0 = 5,5 - 0,5 5,75 = 5,5la+urna… 0,25 Agitamos Sacamos 4 papeletas (n) 2, 6, 7, 8 media = 5,75 9 17/11/2011 Distribución en el muestreo de la media muestral …Si hay 6 papeletas…. …y se extraen sin reposición 4… ¿cuántas muestras se pueden extraer? La variable “sacamos 4 papeletas de la urna” es una variable aleatoria como las estudiadas en temas anteriores (cada extracción es una variable aleatoria). La distribución de probabilidades de los posibles valores que puede tomar el estadístico (en este caso, la media) a lo largo de todas las posibles muestras con el mismo número de observaciones (se denomina distribución muestral) sirve para estimar el error aleatorio a través del error estándar (y proporciona la base para la inferencia). Distribución en el muestreo de la media Muestra Media muestral muestral 2, 4, 6, 6 2, 4, 6, 7 2, 4, 6, 8 2, 4, 6, 7 2, 4, 6, 8 2, 4, 7, 8 2, 6, 6, 7 2, 6, 6, 8 2, 6, 7, 8 2, 6, 7, 8 4, 6, 6, 7 4, 6, 6, 8 4, 6, 7, 8 4, 6, 7, 8 6, 6, 7, 8 4,50 4,75 5,00 4,75 5,00 5,25 5,25 5,50 5,75 5,75 5,75 6,00 6,25 6,25 6,75 Todas las muestras tienen la misma probabilidad de ser seleccionadas (1/15) 10 17/11/2011 Distribución en el muestreo de la media muestral Muestra Media muestral 2, 4, 6, 6 4,50 2, 4, 6, 7 4,75 2, 4, 6, 8 5,00 2, 4, 6, 7 4,75 2, 4, 6, 8 5,00 2, 4, 7, 8 5,25 2, 6, 6, 7 5,25 2, 6, 6, 8 5,50 2, 6, 7, 8 5,75 2, 6, 7, 8 5,75 4, 6, 6, 7 5,75 4, 6, 6, 8 6,00 4, 6, 7, 8 6,25 4, 6, 7, 8 6,25 6, 6, 7, 8 6,75 Todas las muestras tienen la misma probabilidad de ser seleccionadas (1/15) La distribución muestral de la media (función de probabilidad): Px(4,50) = 1/15 Px(4,75) = 2/15 Px(5,00) = 2/15 Px(5,25) = 2/15 Px(5,50) = 1/15 Px(5,75) = 3/15 Px(6,00) = 1/15 Px(6,25) = 2/15 Px(6,75) = 1/15 Distribución en el muestreo de la media muestral Px(4,50) = 1/15 Px(6,25) = 2/15 Px(5,25) = 2/15 Px(4,75) = 2/15 Px(5,50) = 1/15 Px(5,75) = 3/15 Px(x) 3/15 El valor esperado de la media 2/15 E( X ) = 1 Px(5,00) = 2/15 Px(6,75) = 1/15 Px(6,00) = 1/15 muestral es: 2 1 ∑ xPx ( x ) =(4,5) 15 + (4, 75) 15 + ... + (6, 75) 15 = 5,5 Por tanto, el valor esperado de la media muestral es la 1/15 poblacional media 0 4,5 5,5 6,5 7,5 11 17/11/2011 Distribución en el muestreo de la media muestral Por tanto, la suma de las 4 variables aleatorias será: n E ∑ X i =Sacamos nµ x siendo n=4 4 papeletas i =1 (n) SeX1trata de 4 variables aleatorias, X2 X3 X4 cuya esperanza es: E ( X1 ) = E ( X 2 ) = E ( X 3 ) = E ( X 4 ) = µ x La media muestral esperada será: E(X ) = 1 n nµ E ∑ X i = x = µx n i =1 n LaDistribución distribución de muestral centrada enlaelmedia muestreo de está la media en la media poblacional. muestral Px(x) 3/15Por el teorema central del límite, sabemos 2/15 además que sigue una distribución normal 1/15 0 4,5 5,5 6,5 7,5 12 17/11/2011 Distribución en el muestreo de la media muestral Media = µ + error aleatorio 4,5 = 5,5 -1 5,0 = 5,5 - 0,5 5,75 = 5,5 + 0,25 … … … Cuando el número de4muestras Sacamos papeletasse hace muy grande, el promedio de las medias (n) muestrales tiende a la media poblacional (µ) Distribución en el muestreo de la media muestral Dado que todos los elementos de la urna tenían la misma probabilidad de ser seleccionados, el muestreo es aleatorio, por tanto: % unos en la muestra = % unos en la urna + error aleatorio Si el muestreo es aleatorio: Estimador = Parámetro + Error aleatorio 13 17/11/2011 Distribución en el muestreo de la media muestral 521 unos en la muestra = 500 + 21 491 unos en la muestra = 500 - 9 507 unos en la muestra = 500 + 7 Si el muestreo es aleatorio: Estimador = Parámetro + Error aleatorio Distribución en el muestreo de la media muestral 521 unos en la muestra = 500 + 21 491 unos en la muestra = 500 - 9 507 unos en la muestra = 500 + 7 El error aleatorio cambia con cada extracción No es posible conocer cuánto medirá en una extracción particular Es posible calcular su tamaño probable (error estándar) 14 17/11/2011 Distribución en el muestreo de la media muestral Px(x) 3/15 2/15 1/15 0 4,5 5,5 6,5 7,5 Es posible calcular su tamaño probable (error estándar) Distribución en el muestreo de la media muestral Población (N): 6 papeletas marcadas con: 2, 4, 6, 6, 7 y 8 µ = 5,5 Sacamos 4 papeletas (n) 15 combinaciones Sacamos 5 papeletas (n) 6 combinaciones 15 17/11/2011 Distribución en el muestreo de la media muestral Todas las muestras tienen la misma probabilidad de ser seleccionadas (1/6) Sacamos 5 papeletas (n) 6 combinaciones La distribución muestral de la media (función de probabilidad): Muestra Media muestral 2, 4, 6, 6, 8 5,0 2, 4, 6, 6, 7 5,2 2, 4, 6, 7, 8 5,4 2, 4, 6, 7, 8 5,4 2, 6, 6, 7, 8 5,8 4, 6, 6, 7, 8 6,2 Px(5,0) Px(5,2) Px(5,4) Px(5,8) Px(6,2) = = = = = 1/6 1/6 1/3 1/6 1/6 Distribución en el muestreo de la media Px(5,0) = 1/6 Px(5,2) = 1/6 Px(5,4) = 1/3 Px(5,8) = 1/6 Px(6,2) = 1/6 muestral Px(x) 2/6 1/6 0 4,5 5,5 6,5 7,5 Es posible calcular su tamaño probable (error estándar) 16 17/11/2011 Distribución en el muestreo de la media muestral Px(x) σx Error estándar. La varianza muestral el error se aleatorio, Ambas distribuciones dedetermina la media muestral centran EE = yen Si n se incrementa, la varianza muestral disminuye. Indica el tamaño del probable. error aleatorio. n sirve para calcularprobable su tamaño la media poblacional. 2/6 1/6 0 4,5 5,5 6,5 7,5 Distribución en el muestreo de la media muestral Px(x) Ambas distribuciones de la media muestral se centran en la media poblacional. 2/6 Si n se incrementa, la varianza muestral disminuye. La varianza muestral determina el error aleatorio, y 1/6 para calcular su tamaño probable. sirve Error estándar. Indica el tamaño probable del error aleatorio. 0 4,5 5,5 6,5 EE = 7,5 σx n 17 17/11/2011 Distribución en el muestreo de la media muestral Siempre que el muestreo sea aleatorio: Mientras mayor sea n, menor será el error aleatorio. Si n respecto a N es muy pequeño, se puede asumir que los valores individuales de la muestra se distribuyen independientemente unos de otros. El error cometido asumir independencia muy pequeño, P.e. Muestra de al 1.000 votantes sobre eles censo total de por lo que votantes en las elecciones presidenciales españolas (N σ EE = x entorno a 30 millones). n Probabilidad primera extracción = 1/30 millones Probabilidad segunda extracción = 1/(30 millones – 1) Probabilidad 999 extracción = 1/(30 millones – 999) Distribución en el muestreo de la media muestral Siempre que el muestreo sea aleatorio: Mientras mayor sea n, menor será el error aleatorio. Si n respecto a N no es muy pequeño, no se puede asumir que los valores individuales de la muestra se distribuyen independientemente unos de otros. P.e. Muestra de 4 sobres sobre 6 sobres. El error cometido al asumir independencia es muy grande, porProbabilidad lo que seprimera aplica extracción el factor= 1/6 de corrección por población finita (N – n)/(N – 1):= 1/(6-1) Probabilidad segunda extracción σ N −n EE = Probabilidad cuarta extracción = 1/(6-3) x n · N −1 18 17/11/2011 Distribución en el muestreo de la media muestral Si la distribución de la población es normal: Z= X − µx σx Sigue una distribución normal estándar Si la distribución de la población no es normal pero n es grande, Z se considera que sigue una distribución normal estándar por el teorema central del límite. Distribución en el muestreo de la media σx X − µx Z= muestral σx n EE = La tasa de abortos en una cooperativa lechera sigue una distribución normal con media 12,2% y desviación típica 3,6%. Se toma una muestra aleatoria de 9 explotaciones. ¿Cuál es la probabilidad de que la media muestral sea menor del 10%? µx = 12,2 σx = 3,6 X − µ x 10 − µ x 10 − µ x P ( X < 10 ) = P < = PZ < σ σ σx x x n=9 EE = σ x = σx n = 3, 6 = 1, 2 9 10 − 12, 2 P ( X < 10 ) = P Z < = P ( Z < −1,83) 1, 2 P ( X < 10 ) = Fz ( −1,83) = 1 − Fz (1,83) = 1 − 0,9664 P ( X < 10 ) = 0, 0336 19 17/11/2011 Distribución en el muestreo de una proporción muestral Se le da la urna y se le informa que contiene un número determinado de papeletas con ceros y unos. Se le pide que estime sus proporciones Agita la urna (garantizamos la aleatoriedad) Saca 1.000 papeletas sin reposición (n) Distribución en el muestreo de una proporción muestral Si en la urna hay 5.000 papeletas con ceros y 5.000 papeletas con unos: Sea X el número de éxitos en n observaciones, donde la probabilidad de éxito es p. Px(1)=0,5 X pˆ x = E ( X ) = np En la muestra (1.000), Var ( X ) = np (1 − p ) n el número esperado de unos será: np = 1.000 0,5 = 5000 E ( pˆ x ) = p La proporción esperada será: EE ( pˆ x ) = p(1 − p ) EE ( pˆ x ) = p (1 − p ) N − n · n N −1 p −p (np)/n =n(1.000 0,5)/1.000 Z = x = 0,5 ˆ EE ( pˆ x ) 20 17/11/2011 Z= pˆ x − p Distribución EE ( pˆ x ) en el muestreo de EE ( una pˆ x ) = proporción muestral p (1 − p ) n Tras una epidemia de lengua azul en Córdoba, se estima que el 30% de las explotaciones resulta insegura. Se toma una muestra de 250 explotaciones para determinar la proporción de las que resultan inseguras. Hallar la probabilidad de que la proporción en la muestra esté entre el 25% y el 30%. p = 0,30 n = 250 0, 25 − p pˆ x − p 0,35 − p P ( 0, 25 < pˆ x < 0, 35 ) = P < < = σˆ σ pˆ σ pˆ p 0, 25 − p 0,35 − p = P <Z< σˆ σ pˆ p (1 = P ( 0, 25 < pˆ x < 0, 35) = P ( −1, 72 < Z < 1, 72 ) = p (1 − p ) 0,30·0, 60 = = n σ pˆ = ) 0, 30·0, 60 = = 0, 029 250 = Fz (1, 72) − Fz (−1, 72) = 0,9573 − (1 − 0,9573) = 0,9146 Distribución en el muestreo de la varianza muestral sx2 = 2 1 n ·∑ ( X i − X ) n − 1 i =1 Si la distribución poblacional es normal, entonces: ( n − 1)·sx2 σ x2 sigue una distribución χ (2n −1) 21 17/11/2011 Distribución en el muestreo de la varianza muestral χ (2n −1) Var ( χ (2n −1) ) = 2(n − 1) E ( χ (2n −1) ) = n − 1 (n - 1) = grados de libertad f(chi-cuadrado) 0,16 χ 52 0,12 0,08 0,04 0 0 4 8 12 16 20 24 chi-cuadrado Distribución en el muestreo de la varianza muestral χ (2n −1) E ( χ (2n −1) ) = n − 1 Var ( χ (2n −1) ) = 2(n − 1) (n - 1) = grados de libertad f(chi-cuadrado) 0,1 χ102 0,08 0,06 0,04 0,02 0 0 10 20 30 40 chi-cuadrado 22 17/11/2011 Distribución en el muestreo de la varianza muestral χυ2 Es la distribución de la suma de los cuadrados de variables aleatorias normales estándar independientes Si la distribución poblacional es normal, entonces: ( n − 1)·sx2 σ x2 sigue una distribución χ (2n −1) ( ) x 2 Distribución en el muestreo de la varianza χ 2 ( n −1) σx muestral n − 1 ·s 2 Cuando una fábrica de piensos funciona adecuadamente, el peso de los sacos de 50 kg sigue una distribución normal con desviación típica 3,6. Se toma una muestra aleatoria de 4 sacos. ¿Qué probabilidad hay de que la varianza sea superior a 30?. n=4 σx = 3,6 (n − 1) sx2 30(n − 1) P ( sx2 > 30 ) = P > = 2 σ x2 σx 30·3 = P χ 32 > = P ( χ 32 > 6,94 ) 12,96 σx2 = 12,96 P ( χ 32 > 6, 25 ) = 0,10 P ( χ 32 > 7,81) = 0, 05 0, 05 < P ( sx2 > 30 ) < 0,10 23 17/11/2011 Muestreo aleatorio simple La inferencia basada en la media muestral es robusta debido a que si la distribución de la población de la que extrae la muestra se desvía de la normal, el error cometido en el cálculo de probabilidades es pequeño. La inferencia basada en la varianza muestral es muy sensible a las desviaciones de la distribución de la población respecto a la normal, por lo que el error cometido en el cálculo de probabilidades es grande. Sesgo Estimador = Parámetro + Error aleatorio + Sesgo 24 17/11/2011 Sesgo Sesgo. Distorsión causada por la selección de la muestra, que potencia o excluye cierto tipo de resultados. Estimador = Parámetro + Error aleatorio + Sesgo Sesgo Sesgo. Distorsión causada por la selección de la muestra, que potencia o excluye cierto tipo de resultados. - El sesgo se controla aleatorizando el muestreo. - Cualquier tipo de selección provoca sesgo. - Es difícil de detectar. - Si se detecta, tampoco se “puede” corregir. 25 17/11/2011 Sesgo Por ejemplo. Para estudiar la opinión de los españoles sobre la ley del aborto, hacemos una encuesta a 100.000 españoles. Los encuestadores preguntan a la salida de misa en la puerta de las iglesias. La muestra es seleccionada aleatoriamente a partir del listín telefónico. Los encuestadores preguntan a padres y madres en la puerta de los colegios. Sesgo Ejemplos de sesgo. Los indecisos. Sesgo de respuesta. Sesgo de no respuesta. Sesgo del hogar. Sesgo del entrevistador. 26