MAESTRIA EN DIDACTICA DE LAS MATEMATICAS TEORIA DE MUESTREO Profesor: Kennedy Hurtado Ibarra. Licenciado en Matemática y Física Especialista en Estadística Aplicada Magister en Estadística Aplicada Doctor en Ciencias de la Educación Celular: 3002426058 [email protected] Referencia: Introducción al muestreo. David Ospina INTRODUCCION El muestreo ha sido una de las áreas de mayor importancia en la investigación en los diversos campos de la ciencia. Desafortunadamente, su aplicación no ha sido siempre la más adecuada por la falta de conocimiento que se tiene acerca de esta valiosa herramienta. Los conceptos básicos, así como las diferentes fórmulas requeridas en su uso, en general, no son bien asimiladas debido en parte a que no parecen existir textos que, sin perder la rigurosidad conceptual, introduzcan gradualmente a los estudiantes y profesionales interesados en la comprensión de los principales diseños muéstrales y su utilización. Existen tres situaciones principales en donde es conveniente seleccionar una muestra antes de llevar a cabo un censo. Ellas son: 1. La población es grande y su estudio completo excede los recursos asignados. 2. Existe suficiente homogeneidad en las unidades poblacionales con respecto a lo que se quiere medir lo cual permite que una muestra adecuada contenga la información de interés necesaria al estudio. 3. El proceso de selección de la muestra es destructivo, lo cual obliga al análisis de solo una parte de la población REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - DEFINICION BASICAS Población: Es aquel conjunto de individuos o elementos que son de interés para un problema dado. Estos se pueden observar, mediante una característica o atributo. Ejemplo de población: Estudiantes de una población, personas fumadoras de una región, usuarios que reciben un puesto público especifico (agua, luz, teléfono etc). Total poblacional: Es la suma de todos los valores de la variable en la población. Es dado por: Y = 𝑦𝑖 Muestra: subconjunto representativo de una población. Representativo en el sentido que da a conocer las características deseables de una población REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - MUESTREO: Es el procedimiento empleado para obtener una o más muestras de una población. MARCO MUESTRAL: Antes de seleccionar una muestra la población debe ser dividida en partes que se denominan unidades de muestreo, estas pueden ser objetos, personas, barrios, manzanas, cajas de artículos, áreas especificas, etc. Dichas unidades deben cubrir la totalidad de la población y no traslaparse, de tal manera que, todo elemento de la población pertenezca a una y solo una unidad. A la construcción de una lista de unidades de muestreo se le llama marco muestral. REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - Ejemplo: El médico que está interesado en realizar un estudio sobre el efecto de una nueva medicina para la cura del sida, el marco muestral está constituido por una lista que contenga a todas aquellas personas (Unidades muestrales) que utilizan la medicina, La población estará constituido por las muestras de sangre que se tomen a cada persona. (Unidades experimentales) Parámetro: Es una medida usada para describir alguna característica de una población. Estas se obtienen de la distribución de probabilidad de la población. REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - Estadístico: Un estadístico es una medida usada para describir alguna característica de una muestra. Estas representan una estimación de los parámetros. ¿Qué tan buena será una estimación? ¿Cuanta confianza tendremos de la validez de nuestra inferencia? Una manera de evaluar la bondad de una estimación es a través del error muestral o error de muestreo Error Muestral: El error muestral es la diferencia entre un estadístico de la muestra y el parámetro correspondiente de la población. Mientras más pequeño el error muestral, mayor es la precisión de la estimación REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - Error no muestral: Es otro tipo de error que suele cometerse al realizar un análisis estadístico, es una estimación inexacta de los parámetros, que puede presentarse aunque no hayamos utilizado muestras en nuestro estudio. Los errores no muéstrales pueden surgir de muchas causas, entre estas tenemos: preguntas mal redactadas, encuestadores inexpertos, falta de respuesta al cuestionario, errores de tabulación y cálculo, manipulación de datos, respuestas inconsistentes, etc. Los errores no muéstrales pueden también ocurrir en una encuesta completa de la población REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - Parámetros en variables Cuantitativas Generalmente las variables mas importantes a estudiar son de tipos cuantitativos. A continuación se definen los parámetros mas frecuentemente utilizados. Total poblacional: Es la suma de todos los valores de la variable en la población. Esta dado por la formula. Y = 𝑦𝑖 La media aritmética poblacional: Es la media aritmética de todos los valores de la variable en la población y es dado por la formula: 𝑌= 𝑦𝑖 𝑁 = 𝑌 𝑁 REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - La varianza o cuasivarianza poblacional: Es el promedio de las desviaciones al cuadrado de todos los valores con respecto a la media y se obtiene como: 𝟐 (𝒚 − 𝒀) 𝒊 𝑺𝟐 = 𝑵−𝟏 La desviación estándar Es la raíz cuadrada positiva de la varianza, a saber. Desviación estándar poblacional S= 𝑆 2 Coeficiente de variación: Es el cociente entre la desviación estándar y la media aritmética. 𝑆 CV = 𝑌 REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - La varianza relativa: Es igual al coeficiente de variación elevado al cuadrado. V.Relativa= 𝑉𝑟𝑒𝑙𝑎𝑡 = (𝐶𝑉)2 La covarianza entre dos variables XY. Correspondiente a los elementos de una población. Esta definida por: (𝑥𝑖 − 𝑋)(𝑦𝑖 − 𝑌) 𝑆𝑥𝑦 = 𝑁−1 Coeficiente de correlación: ρ𝒙𝒚 𝑺𝒙𝒚 = 𝑺𝒙 𝑺𝒚 REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - EJEMPLO: Consideremos la población de colegios de una ciudad. La lista de ellos, identificados con dos letras del alfabeto, su numero total de estudiantes y su carácter de funcionamiento (O oficial, P privado) N° 1 2 3 4 5 6 7 8 9 10 Identificación AA AB AC AD AF AG AH EC ED EF Carácter P P O P O P P P P O N° de estudiantes 240 360 1338 845 664 540 788 446 360 880 REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 EG EH EJ EM IB IC ID IF IG IH IM OB OC OD OF OG OH UB P P O O P O O P O P P P P P O O P P 1180 244 1124 440 246 412 602 446 712 126 377 265 332 459 824 1455 326 548 REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - Y = 16579 estudiantes (total de los estudiantes en los colegios de la ciudad. 𝑌 = 592,11 estudiantes, se aproxima a 592 𝑆 2 = 121867,88 estudiantes (varianza poblacional) S = 349,10 estudiantes (desviación típica poblacional) CV = 0,5896 coeficiente de variación, 58,96% REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - PARAMETROS DE VARIABLES CUALITATIVAS En el caso de que las características sean un atributo, los parámetros de interés pueden derivarse de las formulas anteriores, definiendo los valores para la variable y, como: 𝑦𝑖 = 1, 𝑠𝑖 𝑒𝑙 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜 𝑒𝑠𝑡à 𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑒 𝑒𝑛 𝑙𝑎 𝑖 − 𝑒𝑠𝑖𝑚𝑎 𝑢𝑛𝑖𝑑𝑎𝑑 𝑜, 𝑠𝑖 𝑒𝑙 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜 𝑛𝑜 𝑒𝑠𝑡à 𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑒 Definición: El numero total de elementos en la población que poseen el atributo considerado: A = 𝑦𝑖 DEFINICION La proporción poblacional con el atributo deseado está dada por: 𝑦 𝐴 P= 𝑖= 𝑁 𝑁 DEFINICION La varianza (cuasivarianza) poblacional se define como: 𝑁 𝑆2 = PQ, donde Q = 1 – P es la proporción de elementos que no 𝑁 −1 poseen el atributo considerado. DEFINICION: La desviación estándar poblacional, es la raíz cuadrada de la varianza y se representa. S = 𝑆2 REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - DEFINICION El coeficiente de variación se define como: CV = 𝑁 𝑁 −1 𝑄 𝑃 EJEMPLO: Consideremos de nuevo el ejemplo de los colegios, se puede definia Y como el atributo “ ser de carácter privado”. Por lo tanto puede tomar el valor de 1 si el e- eximo colegio es privado y cero en otro caso (carácter oficial). A= 18 numero total de colegios privados. 18 P= = 0,6429 proporción de colegios privados en la ciudad. En forma 28 de porcentaje seria 64, 29% REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - 𝑆 2 = 0,2381 varianza de la variable Y. S = 0,4879 desviación típica de la variable Y CV = 0,5790 ( 57,90% coeficiente de variación) Supongamos que el atributo Y se define “ pertenecer al sector oficial”. En este caso los valores de 𝑦1 tomaran los valores de 1 si el e-esimo atributo es de caracter oficial, 0 en otro caso. Los parámetros serian. A= 10 numero total de colegios oficiales. 10 P= = 0,3571 proporción de colegio oficiales en la ciudad. 28 2 𝑆 = 0, 2381 varianza de la variable Y. REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - S = 0,4879 desviación estándar de la variable y CV = 1, 3663 coeficiente de variación de la variable y. ESTADISTICOS. VARIABLES CUANTITATIVAS. La definición de los principales estadísticos, usados frecuentementes para la estimación de los parámetros, son los siguientes: DEFINICION: El total muestral es la suma de todos los valores de la característica (variable y) en la muestra esta dado por: y= 𝑦𝑖 REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - DEFINICION: L a media muestral, promedio de la característica (variable y) en la muestra esta dado por: 𝑦𝑖 𝑦= 𝑛 DEFINICION: La varianza muestral, medida de dispersión de la característica (variable y), en la muestra es: 2 (𝑦 − 𝑦) 𝑖 𝑠2 = 𝑛−1 DEFINICION: La desviación estándar muestral, raíz cuadrada s = 𝑠2 DEFINICION: La varianza de la distribución de un estimador ө, esta dado por: Var(ө) = (ө𝑖 − 𝐸 ө )2 𝛑𝑖 DEFINICION: La desviación estándar de la distribución de un estimador ө, se denomina frecuentemente error estándar de estimación y se define: EE(ө𝑖 ) = 𝑣𝑎𝑟(ө𝑖 ) DEFINICION: El coeficiente de variación de para un estimador ө, esta dado por: EE(ө𝑖) cv( ө𝒊 ) = , mide la variabilidad muestral de la estimación 𝑬(ө𝑖 ) relativa al parámetro a ser estimado. DEFINICION: El error del cuadrado medio de un estimador es una medida de dispersión con respecto al parámetro poblacional y se obtiene: B[ө𝑖 ] = E[ө𝑖 ] − ө REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - DEFINICION: Un estimador ө se dice que es insesgado B[ө] =0. Si un estimador es insesgado su varianza es igual a su error cuadrático medio. En general, la relación entre los dos parámetros esta dada por: ECM [ө] = VAR [ө] + 𝐵2 [ө] Cuando se analizan dos estimadores ө1 𝑦 ө2 , de dos parámetros en la misma población de elementos existen dos medidas importantes que son esenciales en el análisis estadístico, esta son la covarianza y el coeficiente de correlación entre los dos estimadores. REPUBLICA DE COLOMBIA - UVERSIDAD DEL ATLÁNTICO - DEFINICION: La covarianza entre ө1 𝑦 ө2 dos estimadores distintos de ө𝑖 con media E[ө1 ] y E[ө2 ], se define como: COV[ө1 ; ө2 ] - E[ө1 ] E[ө2 ]. DEFINICION: El coeficiente de correlación entre los dos estimadores ө1 𝑦 ө2 distinto de ө, con error estándar EE[ө1 ] y EE[ө2 ], esta dado por: Ρ(ө1 ; ө2 ) = COV[ө1 ; ө2] EE[ө1 ].EE[ө2 ], REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - DEFINICION: Sean dos estimadores ө1 𝑦 ө2 distinto de ө con varianzas dadas VAR [ө1 ] y VAR [ө2 ], respectivamente. Si VAR [ө2 ]>0, la efiencia relativa (EFR) de ө1 con respecto a ө2 esta dado por: VAR [ө1 ] EFR(ө1 ; ө2 ) = VAR [ө ] 2 Según que EFR(ө1 ; ө2 ), sea inferior, igual o superior a la unidad, se dirá que ө1 es mas, igual o menor que ө2 REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - Ejemplo: Supóngase que una pequeña cafetería cuenta con un servicio de 8 mesas, en todas las cuales ya se han hecho diferentes pedidos. El consumo por mesas en una hora determinada aparecen en la tabla siguiente: (Datos en miles de pesos) Mesa Consumo 1 26 2 3 50 60 4 48 5 6 120 34 7 72 8 60 El parámetro a considerar es la media poblacional, es decir, el consumo promedio por mesa en la cafetería. (Alternativamente se podría considerar el total poblacional o cualquier otro parámetro. REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - SOLUCION: Si se quiere estimar ө a partir de la información obtenida considerando 8 solamente dos de las mesas, se tendrá un total de = 28 medias 2 muéstrales o estimación. j 1 2 3 4 5 6 7 Mes as 1,2 1,3 1,4 1,5 1,6 1,7 1,8 J 38 43 37 73 30 49 43 8 9 10 11 12 13 14 Mes as 2,3 2,4 2,5 2,6 2,7 2,8 3,4 j 55 49 85 42 61 55 54 15 16 17 18 19 20 21 Mes as 3,5 3,6 3,7 3,8 4,5 4,6 4,7 REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - j 90 47 66 60 84 41 60 22 23 24 25 26 27 28 Mes as 4,8 5,6 5,7 5,8 6,7 6,8 7,8 54 77 96 90 53 47 66 En este caso se tiene que: ө = Y = 58.75. E[ө] = 30 1 + 28 37 1 28 … … … … … … . 96 1 28 = 58,750 = $58750. Como en este caso ө = E ө , se concluye que ө es un estimador insesgado. Al ser ө un estimador insesgado, su varianza y error cuadrado medio coinciden. La varianza, el error estándar y el coeficiente de variación del estimador considerado se obtienen a continuación. 1 1 VAR [ө] = (ө𝑖 − E ө )2 𝛑𝑖 = (30 − 58,75)2 + (37 − 58,75)2 ………….+ 28 28 + (96 − 58,75)2 1 = 28 311,116071. EE[ө] = 311,116071 = 17,638 y CV [ө] = 17,638 = 58,75 30%. REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - 0,30 MUESTREO ALEATORIO DE POBLACIONES FINITAS. En el muestro de poblaciones finitas se asume que el numero total de elementos en la población es N, de los cuales se seleccionan aleatoriamente n. La selección aleatoria es indispensable para poder hacer uso correcto de los procesos de inferencia estadística. (Selección aleatoria no es sinónimo de selección al azar). El termino aleatorio implica el uso de un mecanismo de probabilidad bien diseñado en la selección de la muestra. (muestras aleatoria probabilística). REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - MUESTREO PROBABILISTICO Existen condiciones que deben cumplirse para poder hablar de una muestra probabilística. Poder definir el conjunto total de muestras posibles S= 𝑠1 , 𝑠2 … … … … . 𝑠𝑛 , que pueden seleccionarse de la población de acuerdo con el procedimiento muestral. Conocer para cada una de las muestras posibles la probabilidad 𝛑(𝑠) de que sea seleccionada. El procedimiento utilizado debe dar a cada elemento de la población una probabilidad de selección diferente de cero. La selección, como se menciono antes, debe ser aleatoria, esto es, el mecanismo de probabilidad diseñado para la selección debe ser tal que cada muestra posible tenga la probabilidad de selección asignada previamente 𝛑(s). REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - MUESTREO NO PROBABILISTICO En general, todo tipo de muestreo que no cumpla con algunas de las condiciones enumeradas anteriormente es un muestreo no probabilístico. Los siguientes son ejemplos típicos de muestreo no probabilístico: La muestra ha sido restringida a la parte de la población que es fácilmente accesible. La muestra se selecciona teniendo en cuenta el azar mas no la aleatoriedad. Con una población heterogénea y pequeña. La muestra está compuesta esencialmente de voluntarios. Un caso típico y ampliamente usado es el muestreo por cuotas. REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - DISEÑOS MUESTRALES BÁSICOS Entre los distintos métodos de muestreos probabilísticos para poblaciones finitas existen los considerados básicos que al combinarse originan otros denominados métodos políetópicos, más complejos de estudiar. Una descripción general de los diseños básicos se da a continuación: Muestreo aleatorio simple sin reemplazo. Muestreo aleatorio simple con reemplazo. Muestreo estratificado aleatorio simple. Muestreo sistemático aleatorio. Muestreo por conglomerado. REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - MUESTREO ALEATORIO SIMPLE (MAS) Definición: Es uno de los procedimiento de muestreo conocido como de muestreo de elementos, aquellos donde las unidades elementales son las mismas unidades de muestreo. Característica. Todas las muestras posibles de tamaño n, de una población de tamaño N, tienen la misma probabilidad de ser seleccionada. Esto conlleva a que todos los elementos de la población también tengan la misma probabilidad de ser seleccionado. La selección de las unidades en el MAS se lleva acabo seleccionando una unidad a la vez. Esta selección puede ser con reemplazo o sin reemplazo. REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO. Definición: En el MAS sin remplazo ninguna de la unidad de la población puede estar representada en la muestra mas de una vez. La probabilidad de seleccionar una muestra especifica es: 𝑁! (𝑁−𝑛)!𝑛! , que es el numero total de subconjuntos (muestra) de tamaño n que pueden ser seleccionados de un conjunto ( población) de tamaño N. REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - Ejemplo: Supóngase que se tiene una población de 20 personas (unidades poblacional) de las cuales se desea seleccionar una muestra aleatoria simple sin reemplazo de tamaño 4. Solución: El numero total de muestras distintas que se pueden seleccionar 20! 20 son: = = 4845 (20−4)!4 4 La probabilidad de seleccionar una muestra compuesta por cuatro personas 1 determinadas son: = 0,000206. 4845 Así mismo la probabilidad de que una persona cualquiera pertenezca a la 4 muestra es igual a = 0,20 20 REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - GENERACION DE UNA MUESTRA ALEATORIA. Asignar a cada unidad del marco muestral (o elemento de la población) un numero de 1 a N. Seleccionar aleatoriamente n de esos números mediante el uso de algún proceso aleatorio. ESTIMACION DE LA MEDIA POBLACIONAL En el MAS sin reemplazo la media muestral, definida como: 𝑦 𝑦 = 𝑖 ; es un estimador insesgado de la media poblacional Y 𝑛 REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - La varianza muestral esta dada por : 𝑠2 = (𝑦𝑖 − 𝑦)2 𝑛 −1 Es un estimador insesgado de la varianza poblacional finita σ2 . La varianza de la media muestral es: var[𝑦] = ( 1 - 𝑛 𝑁 𝜎2 ) 𝑛 REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - La raíz cuadrada de la varianza anterior se conoce con el error estándar de estimación de la media muestral. 𝑛 σ ) 𝑁 𝑛 EE[𝑦] = (1 − Los estimadores de la VAR[𝑦] y EE[𝑦] se obtiene reemplazando σ2 y σ por sus respectivos estimadores 𝑠 2 y s, siendo el estimador de la varianza un estimador insesgado. Var [𝑦] = (1 − 𝑛 𝑠2 ) 𝑁 𝑛 ee [𝑦] = (1 − 𝑛 𝑠 ) 𝑁 𝑛 REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - ESTIMACION DEL TOTAL POBLACIONAL. Existen situaciones donde el objetivo principal es estimar el total de los valores de una variable. Un estimador insesgado del total poblacional esta dado por: 𝑌 = Ny = 𝑁 𝑛 𝑦𝑖 INTERVALO DE CONFIANZA PARA LA MEDIA Y EL TOTAL POBLACIONAL Los intervalos de confianza aproximados del 100(1 – α)% Para la media y el total poblacional esta dado por: 𝑦 ± 𝑡𝑛−1 ee[𝑦] y 𝑌 ± 𝑡𝑛−1 ee[𝑦] REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - ESTIMACION DE LA PROPORCION Y DEL TOTAL DE ELEMENTOS EN LA POBLACION CON UN ATRIBUTO ESPECIFICO. Muchas dela s investigaciones que se llevan a cabo buscan conocer las preferencias que las personas tienen por un candidato, producto o la cantidad de elementos de una población que puede clasificarse en grupo especifico. Esto implica la estimación proporcional. Definicion: La proporción poblacional P, y el numero total de unidades en la población con atributo deseado A, se definen: 𝑎 P= 𝐴 = 𝑁𝑝 = 𝑛 atributo deseado. 𝑁 𝑛 a, donde a es el numero de elementos con el REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - La varianza y el error estándar de estimación de la proporción muestral están dados por: 𝑁 −𝑛 𝑃𝑄 𝑁 −1 𝑛 VAR[𝑝] = EE [𝑝] = 𝑁 −𝑛 𝑁 −1 𝑃𝑄 𝑛 Con estimadores 𝑁 −𝑛 𝑝𝑞 var[𝑝] = . var[𝑝] es un estimador de VAR[𝑝] y 𝑁 −1 𝑛 𝑁 −𝑛 ee[𝑝] = 𝑁 −1 𝑝𝑞 𝑛 . ee[𝑝] es u n estimador de EE [𝑝] REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - La varianza y el error estándar del estimador del total de unidades con las características son: 𝑁 −𝑛 𝑃𝑄 VAR [𝐴]= 𝑁 2 𝑁 −1 𝑛 EE[𝐴] = N 𝑁 −𝑛 𝑁 −1 𝑃𝑄 𝑛 Sus estimadores son: var [𝐴]= N(N – n) 𝑝𝑞 𝑛 −1 ee[𝐴] = N(N – n) 𝑝𝑞 𝑛 −1 REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - INTERVALOS DE CONFIANZA PARA LA PROPORCIÓN Y EL TOTAL DE ELEMENTOS DE LA POBLACIÓN. Cuando se trabaja con proporciones, los requisitos acerca del tamaño de la muestra, para poder utilizar la aproximación normal en el establecimiento de los intervalos de confianza, son mayores. El valor de n adecuado es sensible al valor de p, proporción estimada a partir de la muestra. Según COCHRAN, la siguiente tabla presenta los valores mínimos requeridos de n, como función de p. P n 0,5 30 0,4 0,3 50 80 0,2 0,1 200 600 0,05 1400 < 0,05 >1400 Si se cumple el requisito anterior, los limites de confianza para la proporción poblacional y para el numero de elementos con atributos desados, estará dado por: 𝑝 ± 𝑡𝑛−1 𝑒𝑒[𝑝] 𝐴 ± 𝑡𝑛−1 𝑒𝑒[𝐴] Cuando el tamaño de la muestra no cumple los requisitos establecidos los intervalos de confianzas son inconsistentes. En este caso es necesario hacer el uso de la distribución hipergeometrica. REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - Ejemplo: Consideremos nuevamente la población de 28 establecimientos educativos de la tabla anterior. Se desea seleccionar una muestra de 8 colegios con el fin de estimar el tamaño promedio de los establecimientos (𝑌), el numero total de estudiantes en la ciudad (Y), la proporción (P) y el numero total de ellos (𝐴), con funcionamiento privado. Solución: Seleccionamos una muestra aleatoria REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO Tabla de la muestra seleccionada Números Aleatorios Identtif. carácter N° orden N° de estud. 26 OG O 1 1455 27 OH P 2 326 22 0B P 3 265 14 EM O 4 440 02 AB P 5 360 08 EC P 6 446 06 AG P 7 540 16 IC O 8 412 REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - 𝑦𝑖 𝑛 Para la media 𝑦 = establecimientos. = 530,5 , se aproxima 530 estudiantes por s 2 = 146506,29 8 146506,29 var[y] = (1 - ) = 13080,92 28 8 ee[𝑦]= 13080,92 = 114,37 estudiantes por establecimientos. El intervalo de confianza del 90%, esta dado por: [530 ± 1,895(114,37)] = [313; 748] estudiantes por establecimientos REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - Para el total 𝑌 𝑌 = N𝑦 = (28)(530,5) = 14854 estudiantes. ee[𝑌] = (28)(114,37) = 3202,36 estudiantes por establecimientos. Intervalo de confianza del 90%. [8785; 20923], estudiantes. REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - Para la proporción. 5 8 Usando la aproximación normal 𝑝 = = 0,625 = 62,5% 𝑁 −𝑛 𝑝𝑞 𝑁 𝑛−1 VAR[𝑝] = ee [𝑝] = 𝑁 −𝑛 𝑁 = ( 𝑝𝑞 𝑛−1 28−8 (0,625)(0,375) ) 28 8−1 = 28−8 28 = 0,023916 (0,625)(0,375) 8−1 = 0,1546 Intervalo de confianza para el 90% [0,332 ; 0,918] Intervalo de confianza para A [9 ; 26] Ejercicio: Una muestra aleatoria simple sin reemplazo de 56 personas fue seleccionada de una población de 1000 trabajadores de una empresa. Además de su ingreso mensual en miles de pesos (I), se registró su género (G)(H=hombre; M=mujer). La información obtenida se encuentra en la siguiente tabla. Estime: a.El ingreso promedio de los trabajadores. Establezca un intervalo de 95%. b.El ingreso total de todos los trabajadores de la empresa. Establezca un intervalo del 95%. c.Estime la proporción y el numero total de mujeres en la empresa. REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - Tabla de muestra aleatoria de trabajadores de una emprea N° 1 2 3 4 5 I 800 960 670 688 1025 G M H H M M N° 8 9 10 11 12 I 1126 1780 2135 1446 2245 G H H H H H N° 15 16 17 18 19 I 686 997 1335 1567 1456 G H M H M M N° 22 23 24 25 26 I 1456 1388 1785 1653 2121 G H M H M H N° 29 30 31 32 33 I 1256 946 2000 2037 3111 G H M M M H N° 36 37 38 39 40 I 1222 1768 1984 2348 876 G M H H H M N° 43 44 45 46 47 I 1678 1326 1843 880 760 G H M H H M N° 50 51 52 53 54 I 2880 1890 1033 2668 3345 REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - 6 2346 H 13 1760 M 20 1234 H 27 880 M 34 1042 M 41 890 H 48 1146 M 55 2156 7 780 M 14 2287 H 21 2678 H 28 984 H 35 1564 H 42 1452 H 49 1680 M 56 1880 d. Establezca un intervalo del 95% tanto para la proporción como para el numero total de mujeres en la empresa. e. ¿Considera valida la aproximación normal en este caso? f. ¿Cómo estimaría el ingreso promedio y total de las mujeres para toda la empresa si no se conociera el numero total de ellas. REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - TAMAÑO DE LA MUESTRA La determinación del tamaño de la muestra es tal vez el principal problema a resolver en las investigaciones por muestreo. Análisis apresurados de la situación estudiada pueden conducir a definir tamaños de muestras insuficientes que no proporcionan estimaciones con la precisión y confiabilidad requerida o en el otro extremo, tamaños muy grandes que, aunque puedan cumplir con los objetivos trazados, desbordan el presupuesto asignado. TAMAÑOS DE MUESTRAS PARA MEDIAS Y TOTALES EN MAS En el caso de MAS sin reemplazo la formula para calcular el tamaño de la muestra es: 𝑠2 n= var[y] 1+ 𝑠2 𝑁 var[y] Cuando se desea controlar el error máximo absoluto, se tiene que: n= 𝑧2 𝑠2 δ2 1 𝑧2 𝑠2 1 +𝑁 ( 2 ) δ , donde var[y] se reemplaza por REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - δ 2 𝑧 Si n es suficientemente grande o el muestreo es con reemplazo, n puede aproximarse por 𝑛0 = 𝑧 2𝑠2 δ 2 n puede ser expresada como función de 𝑛0 así: n= 𝑛0 𝑛 1+ 𝑁0 Para la selección de una muestra piloto de tamaño 𝑛1 (generalmente <30) y calculo de la varianza de esta muestra. Esta varianza se toma como estimación de la varianza poblacional. 𝑛0 = 𝑧 2𝑠2 δ 2 1+ 2 𝑛1 Ejemplo: Considere la información que aparece en la tabla correspondiente a una muestra de 30 personas. Una vez las personas fueron seleccionadas, además de ingreso mensual (I), se registro su género (G) (masculino m; femenino f) y su estado civil (EC) (soltero s: casado c; otros o). Tabla de ingreso mensual, genero y estado N° I G EC N° I G EC N° I G EC 1 2,0 f c 11 3,5 f o 21 7,1 f c 2 2,5 m s 12 5,7 f s 22 4,9 f s 3 4,0 f c 13 10,0 m s 23 2.3 m o 4 3,8 m s 14 8,1 m s 24 3,9 f c 5 7,2 f c 15 4,4 m c 25 11,1 m s 6 10.0 m c 16 6,6 f o 26 7,3 f o 7 5,6 f c 17 7,3 m s 27 6,5 m s 8 4,9 f o 18 8,0 f o 28 5,8 f o 9 3,3 f o 19 9,0 f c 29 4,0 m c 10 4,0 m s 20 3,9 m s 30 3,0 f s civil. Suponga que la muestra es una muestra piloto seleccionadas por los expertos de una comunidad de 10000 personas. Se desea determinar el tamaño de la muestra minimo para estimar el ingreso promedio y total con un error absoluto no mayor de 0,2 salarios mínimo (de 2000 en el caso total) y una confiabilidad del 95% Solución: Z= 1,96 valor correspondiente a una confiabilidad del 95% δ = 0,2 𝑠 2 = 5,9977 varianza de la muestra N = 10000 REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - Entonces: n= 𝑧2 𝑠2 δ2 1 𝑧2 𝑠2 1 +𝑁 ( 2 ) δ = (1,96)2 (5,9977)2 (0,2)2 1 (1,96)2 (5,9977)2 1 +10000 ( ) (0,2)2 = 544,65 = 545 Que es el numero de personas sin incluir a la muestra piloto. Considere ahora que l muestra piloto es una muestra aleatoria simple: n= (1,96)2 (5,9977)2 (0,2)2 1 + 2 30 = 614,42 aproximado 615 Lo cual indica que se tendrá que escoger 615 sin incluir la muestra piloto. TAMAÑO DE MUESTRA PARA PROPORCIONES EN EL MAS El tamaño de muestra cuando se desea controlar el error máximo absoluto. n= 𝑧2 𝑃𝑄 δ2 𝑁−1 1 𝑧2 𝑃𝑄 + . 2 𝑁 𝑁 δ Si el muestreo es con reemplazo, o la población es suficientemente grande para ser asumida como infinita, se reduce a: n= 𝑧 2 𝑃𝑄 δ2 El problema de la estimación del tamaño de la muestra en proporciones es, en general, mas fácil de solucionar que en el caso de la media, ya que la proporción es un numero real entre 0 y 1, lo cual permite, en el peor de los casos establecer un tamaño de muestra suficiente. Esto implica que en ningún caso el tamaño de la muestra debeb ser mayor que: 𝑧2 𝑛0 = 4δ2 REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - Tamaño de muestra cuando se desea controlar el error máximo relativo. En el caso de la proporción, controlar el error máximo relativo es de gran importancia cuando existe un desconocimiento de las proporciones poblacionales. n= 𝑧2 𝑄∗ 2 ∗ 𝑃 1 𝑧2 𝑄∗ 1 +𝑁 2 𝑃∗ ε , desafortunadamente este tamaño de muestra es ε muy sensible a ligeros cambios en la estimación previa de P. Si el tamaño de la población es muy grande, la anterior formula puede aproximarse por: 𝑛0 = 𝑧 2 𝑄∗ ε2 𝑃∗ REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - EJEMPLO. Consideremos la información contenida en la tabla anterior y asúmase que corresponde a una muestra piloto. Se desea estimar el porcentaje de hombres, con un error absoluto no mayor de 0,04 y una confiabilidad de 90%. SOLUCION. Con base a una muestra piloto de 30 personas se puede estimar P denotado como 𝑃∗ y la cual es: 14 𝑃∗ = ¨= 0,4667 y 𝑄∗ = 0,533 30 REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - Reemplazando en la formula: n= 𝑧2 𝑃𝑄 δ2 𝑁−1 1 𝑧2 𝑃𝑄 +𝑁 . 2 𝑁 δ = 1,642 (0,4667)(0,533) (0,04)2 9999 1 1,642 (0,4667)(0,5333) + . 10000 10000 δ2 = 403,98 aprox. 404 que es el numero de personas a seleccionar Si la muestra final fue aleatoria, esas 30 personas pueden formar parte de la muestra final, en caso contrario no. S i el objetivo es controlar el error relativo en la estimación de la proporción, estableciendo como máximo el 10%, se utilza: n= 𝑧2 𝑄∗ 2 ∗ 𝑃 1 𝑧2 𝑄2 1+ 𝑁 2 𝑃∗ ε ε = 𝑧1,64 (0,5333) 0,102 (0,46767) 1 1,642 (0,5333) 1+ 10000 0,102 (0,4667) = 299,94 se aprox. 300 PROPORCION SIMULTANEA Los investigadores frecuentemente se enfrentan a problemas de definir un tamaño de muestra n para un MAS sin reemplazo de una población finita, pero grande de tamaño N, de la cual se conoce que esta dividida en k categorías mutuamente excluyentes. Si N es pequeña , el tamaño de la muestra mas pequeño puede obtenerse mediante la expresión : 𝑛0 n= 𝑁 −1 𝑛0 𝑁 + 𝑁 REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO - GRACIAS REPUBLICA DE COLOMBIA - UNIVERSIDAD DEL ATLÁNTICO -