TÉCNICAS DE MUESTREO TÉCNICAS DE MUESTREO I. CONCEPTOS GENERALES DE MUESTREO El objetivo de la teoría de muestras es proporcionar una serie de técnicas que permitan conocer características o valores referidas al total de unidades de un conjunto, estudiando sólo una parte de las unidades del conjunto. Población o Universo es el conjunto total de unidades de las que se desea información o conjunto total de unidades objeto de estudio: P = {u1 ,u2 ,...,u N } Muestra es una parte de la población sobre la que se mide la información: { S j = u j1 ,u j2 ,...,u jn } Tamaño de la población es el número de unidades N que forman la población. Tamaño de la muestra es el número de unidades n seleccionadas para la muestra. El término muestreo se refiere al conjunto de técnicas utilizadas para seleccionar una muestra de una población. Representamos por Yi el valor numérico de una característica o variable en la unidad ui. Esta variable y se denomina variable de estudio. Valor poblacional es una expresión θ = ϑ ( y) que sintetiza los valores de la variable en estudio en las N unidades de la población completa: N Total Y = ∑ Yi Media Y = i =1 Y N Valor muestral es una estimación θ! ( s ) del valor poblacional θ que se calcula a partir de las n unidades de la muestra. El valor poblacional es una constante, en general desconocida, que depende sólo de los N valores Yi. La estimación es un valor calculado y único en cada muestra particular, pero el valor varía de muestra a muestra. 2 TÉCNICAS DE MUESTREO Si dado un procedimiento de muestreo podemos definir el conjunto de muestras posibles o espacio muestral y la selección de la muestra se hace de acuerdo a una función de probabilidad P definida sobre el espacio muestral, diremos que el muestreo es probabilístico. Es decir, para cada muestra posible, Sj, está definida una probabilidad P(Sj) > 0 con ∑ P( S j ) = 1, y la selección de la muestra respeta esta probabilidad. j En el muestreo probabilístico la estimación ϑ! se convierte para una muestra particular en el valor observado de una variable aleatoria θ! ( S j ) que se llama estimador cuya función de probabilidad corresponde a la definida en el espacio muestral, es decir [ ] P ϑ! ( S j ) = P( S j ) Esta función de probabilidad del estimador sobre el espacio muestral se denomina distribución de muestreo del estimador y corresponde, por tanto, al conjunto de estimaciones de todas las muestras posibles con su probabilidad de materializarse. En la práctica podemos asignar probabilidades de selección a las N unidades de la población. En tal caso la probabilidad de selección de una muestra será: P( S j ) = P( u j1 ) ⋅ P( u j2 u j1 ) ⋅⋅⋅⋅ P( u jn u j1 , u j2 ,..., u jn −1 ) De esta forma en el muestreo probabilístico, cada unidad de la población tiene una probabilidad conocida y no nula de ser seleccionada. El muestreo probabilístico es sin reposición o sin reemplazamiento si toda muestra Sj está formada por n unidades distintas, es decir, las muestras con alguna unidad repetida tienen probabilidad cero de ser seleccionadas. En caso contrario, si en la muestra puede haber unidades repetidas, se dice que el muestreo es con reposición o con reemplazamiento. La selección con reposición responde al hecho físico de hacer n selecciones sucesivas de elementos, restituyendo a la población cada unidad elegida antes de proceder a la siguiente selección.En la selección sin reposición cada unidad elegida no se restituye a la población y, por tanto, una misma unidad sólo puede estar presente en la misma muestra una sola vez. En lo que sigue nos referiremos siempre al muestreo sin reemplazamiento. 3 TÉCNICAS DE MUESTREO Suele hablarse de muestra aleatoria cuando todas las unidades de la población tienen la misma probabilidad de ser seleccionadas. En éste caso todas las posibles muestras son también equiprobables. Trataremos de aclarar algunos de los conceptos anteriores con un ejemplo. Sea una población de N=6 elementos en los que la variable y , objeto de estudio, toma los valores Yi = {8,3111 , , ,4 ,7} .La media poblacional es Y = 8 + 3 + 1 + 11 + 4 + 7 = 5,7 . En 6 una muestra aleatoria, la media muestral es un estimador de la media poblacional, así, si nuestra muestra, de tamaño 3, estuviera formada por los valores (3,11,4) la media muestral sería y = 6,0 . Seleccionemos todas las muestras posibles de tamaño 3 calculando para cada una la media muestral. Los resultados se muestran en el siguiente gráfico: media muestral vs media poblacional 9,0 8,7 8,0 7,7 7,3 7,3 7,0 7,0 6,7 6,3 6,3 6,0 6,0 media 6,0 muestra poblac. 5,3 5,3 5,0 5,0 5,0 4,7 4,3 4,0 4,0 4,0 3,7 3,0 2,7 (11,4,7) (1,4,7) (1,11,7) (1,11,4) (3,4,7) (3,11,7) (3,11,4) (3,1,7) (3,1,4) (3,1,11) (8,4,7) (8,11,7) (8,11,4) (8,1,7) (8,1,4) (8,1,11) (8,3,7) (8,3,4) (8,3,11) (8,3,1) 2,0 muestra Sobre el eje de abscisas se señalan los componentes de cada una de las posibles 20 muestras aleatorias de tamaño 3, todas equiprobables, es decir la probabilidad de tomar una muestra cualquiera es 1/20. En el eje de ordenadas se señala para cada una de las muestras la media muestral correspondiente. También se indica la media poblacional que es constante e igual a 5,7, de acuerdo al cálculo anterior. 4 TÉCNICAS DE MUESTREO El gráfico refleja cómo el valor poblacional (la media) es una constante pero su estimador (la media muestral) presenta valores diferentes según las unidades que componen la muestra, es decir, el valor del estimador, estimación, varía de muestra a muestra. Puede observarse también como las distintas estimaciones se sitúan alrededor del verdadero valor que se quiere estimar. Puesto que cada muestra en el ejemplo tiene una probabilidad de 1/20 de ser seleccionada, cada uno de los 20 valores muestrales tiene también una probabilidad de 1/20 de ser obtenido, es decir, denotando por y la media muestral (el estimador) resulta P( y = 2 ,7) = P( y = 3,7) =" P( y = 8,7) = 1 20 . Este conjunto de posibles valores del estimador junto con la probabilidad de obtener cada valor constituye la distribución en el muestreo del estimador. En base a esta distribución puede calcularse la probabilidad de que el estimador tome valores en un cierto intervalo; así, el intervalo (4,5; 6,5) comprende 9 de las 20 muestras. Es decir, la probabilidad de que la media muestral tome valores comprendidos entre 4,5 y 6,5 es de 9/20. Siendo el estimador una variable aleatoria pueden estudiarse distintas características del mismo, como son su media o esperanza matemática, la varianza y su raiz cuadrada o desviación típica, y el coeficiente de variación, esto es, el cociente entre la desviación típica del estimador y su esperanza matemática. En particular, la desviación típica del estimador se llama error de muestreo o error estándar. Sobre el ejemplo anterior fácilmente podemos comprobar que el promedio de las 20 estimaciones es 5,7 que coincide con la media poblacional. Esto no es casualidad, es debido a que en el muestreo aleatorio de unidades elementales la media muestral es un estimador insesgado de la media poblacional, es decir, la esperanza matemática del estimador coincide con el verdadero valor que se quiere estimar: E ( y ) = Y . En caso contrario el estimador se dice sesgado y a la diferencia entre la esperanza matemática o valor medio del estimador y el valor a estimar se le llama sesgo. En ocasiones puede ser preferible la utilización de un estimador sesgado si ello implica una sensible reducción del error de muestreo y el tamaño del sesgo es pequeño respecto al error estándar. En 5 TÉCNICAS DE MUESTREO caso de estimadores sesgados es deseable la propiedad de consistencia que se cumple cuando el sesgo tiende a cero al aumentar el tamaño de la muestra. Calculemos a continuación la desviación típica del estimador en nuestro ejemplo. Recordemos que dado un conjunto de valores x1 , x2 ," , x n , la desviación típica se define como la raiz cuadrada de la varianza, es decir n σ= donde x = ∑ xi n ∑ ( xi − x ) 2 1 n es el valor medio. En nuestro caso xi son las 20 estimaciones del gráfico y x es su valor medio por lo que σ= (2 ,7 − 5,7)2 + (3,7 − 5,7)2 +"+(8,7 − 5,7)2 20 , = 15 Así pues, el error de muestreo en el ejemplo es 1,5 y nos da una medida de la variabilidad de las estimaciones individuales alrededor de su media. La desviación típica se expresa en la misma unidad de medida que la variable en estudio, por lo que, dividiendo por la media se obtiene el coeficiente de variación, que es una medida relativa de la variabilidad, sin unidad de medida. En nuestro caso el coeficiente de variación de las estimaciones sería CV = 15 , = 0,264 → 26,4% 5,7 El coeficiente de variación del estimador se denomina error de muestreo relativo. Veremos posteriormente que no es necesario tomar todas las posibles muestras para calcular el error de muestreo, lo cuál en la práctica sería irrealizable. II. POBLACIÓN, MARCO Y MUESTREO 6 MUESTRA. UNIDADES DE TÉCNICAS DE MUESTREO Conviene distinguir entre unidad elemental y unidad de muestreo. La unidad elemental o unidad de estudio es todo elemento o individuo miembro de la población objetivo. Las variables objeto de estudio en una investigación por muestreo se miden sobre las unidades elementales. Las unidades de muestreo son aquellas que forman parte del proceso de selección de la muestra. La unidad de muestreo puede coincidir con la unidad elemental, en cuyo caso hablamos de muestreo de unidades elementales, o puede referirse a un conjunto de unidades elementales, que se denominan conglomerados. Así, para seleccionar una muestra de la población española para estudiar cualquier característica, por ejemplo la talla, podemos seleccionar la muestra a partir de una lista de todos los individuos. Aquí la unidad de muestreo es la persona física y coincide con la unidad elemental. Pero si no disponemos de la lista de individuos sino sólo de una lista de viviendas, podemos seleccionar una muestra de viviendas y recoger información de todos los individuos que habitan en las viviendas seleccionadas. En este caso la unidad elemental sigue siendo el individuo pero la unidad de muestreo es la vivienda, formada por un conjunto de unidades elementales. El concepto de población establecido anteriormente como conjunto total de unidades de las que se desea información, se refiere a la población objetivo y constituye un modelo ideal. En la práctica, la muestra se selecciona a partir de un material soporte, denominado marco, que coincide en mayor o menor grado con la población objetivo. En sentido estricto, el marco de muestreo se define como la lista de unidades de muestreo a partir de la cual se selecciona la muestra. Es decir que el marco equivale a la población que va a ser muestreada y por tanto el marco o “población marco” será tanto mejor cuanto mas equivalga a la población objeto de estudio. Como idea intuitiva, un marco sería aceptable cuando obteniendo a partir de él información exhaustiva (del 100% de las unidades del marco), ésta cubriese aceptablemente los objetivos propuestos. En sentido amplio, el marco de muestreo comprende no solo listas de unidades de muestreo, sino que incluye todo el material e información previa que disponemos sobre la población y su agrupación en unidades de muestreo, y que es útil para la estratificación y formación de estimadores. 7 TÉCNICAS DE MUESTREO Dada la importancia del marco en una investigación por muestreo, hay que pretender trabajar con marcos perfectos, es decir marcos en los que todas las unidades de la población objetivo estén incluidas una sola vez y sólo incluya unidades de la población. El muestreo de unidades elementales aunque tiene gran interés teórico, no es muy utilizado en la práctica por dos graves inconvenientes: a) Imposibilidad práctica en muchas ocasiones de obtener una lista de unidades elementales en la cuál basar la selección de la muestra. b) La selección de unidades elementales proporciona en general una muestra muy esparcida de unidades a entrevistar con el consiguiente incremento de coste y tiempo. Para evitar estos inconvenientes surge, de forma natural, el muestreo de conglomerados, agrupando las unidades elementales próximas en un conglomerado que se constituye en la nueva unidad de muestreo, más grande que la unidad elemental. Los conglomerados deben estar perfectamente definidos, lo cuál significa que no haya solapamiento entre ellos (una unidad elemental pertenece sólo a un conglomerado) y que el conjunto de todos los conglomerados contiene a la población objeto de estudio. La agrupación de unidades elementales en unidades de muestreo mas amplias tiene ventajas e inconvenientes. Entre las ventajas podemos citar el ahorro de coste y tiempo, y la mayor facilidad de preparar listas (sólo se necesitan para los conglomerados de la muestra). De los inconvenientes hay que destacar la menor precisión derivada de una mayor homogeneidad de las unidades elementales dentro de un conglomerado respecto a la característica de estudio. Si en el proceso de muestreo investigamos todas las unidades elementales contenidas en los conglomerados seleccionados en la muestra, el muestreo se denomina en una etapa o monoetápico. Ahora bien, para evitar el inconveniente apuntado (homogeneidad dentro del conglomerado) podemos investigar no todas las unidades elementales del conglomerado, sino seleccionar a su vez una muestra probabilística de las mismas. Estaríamos así ante un muestreo en dos etapas: las unidades de primera etapa o 8 TÉCNICAS DE MUESTREO unidades primarias de muestreo serían los conglomerados y las unidades de segunda etapa serían las unidades elementales. Este proceso puede generalizarse llevándonos así al muestreo multietápico o polietápico. Obsérvese que en muestreo por etapas se definen distintas unidades de muestreo y que la “lista” de unidades de muestreo en una etapa dada, sólo es necesario disponerla para las unidades seleccionadas en la etapa inmediatamente anterior. Se constituye así una jerarquía entre las distintas unidades de muestreo de acuerdo a las etapas del proceso. Para precisar mejor las ideas anteriores, consideremos la selección de una muestra de individuos de la población española. En un muestreo de unidades elementales necesitamos disponer de una lista de todas las personas. Podemos optar por un muestreo de conglomerados y tomar como unidad de 1ª etapa la sección censal, con lo cual solo necesitamos la lista de secciones. Podemos tomar como unidad de 2ª etapa las manzanas, para lo cual necesitamos una lista de manzanas de las secciones previamente seleccionadas. Finalmente en una 3ª etapa podemos tomar como unidad de muestreo la vivienda, necesitando una lista de viviendas de las manzanas seleccionadas en la 2ª etapa. III. MUESTREO PROBABILÍSTICO Y OTROS TIPOS DE MUESTREO Al estudiar una población la primera posibilidad es obtener la información necesaria de todas y cada una de las unidades que forman la población. Estaríamos así ante un estudio censal o censo. El censo se caracteriza por obtener información de toda la población, mientras que en el muestreo se estudia una parte de la población. En general hay tres principales ventajas en el muestreo respecto a la investigación total de la población o censo: 1) Menor coste, derivado de obtener información solo de una parte de la población. 2) Mayor rapidez, por el mismo motivo anterior. 9 TÉCNICAS DE MUESTREO 3) Mayor calidad. Al reducirse el volumen de trabajo se puede emplear personal especialista mejor preparado y entrenado. Igualmente los procesos de supervisión y proceso de datos están mejor controlados, lo que redunda en una mejor calidad de trabajo y una disminución de errores (no de muestreo) respecto al censo total. Ya hemos indicado que el muestreo probabilístico se caracteriza porque cada unidad de la población tiene una probabilidad no nula y conocida de ser seleccionada en la muestra. El conocimiento de esta probabilidad permite calcular errores de muestreo, y los sesgos de selección, no respuesta y estimación pueden ser virtualmente eliminados o contenidos dentro de límites conocidos. Un muestreo probabilístico se lleva a cabo con un plan estadístico de selección totalmente rígido y fijado de antemano de acuerdo a esas probabilidades y donde ni los entrevistadores ni otras personas que intervengan en el muestreo toman decisión alguna sobre qué unidad elegir para la muestra. También hay que notar que los procedimientos para formar estimadores están fijados de antemano como parte del diseño muestral y no dependen de la muestra particular que se ha seleccionado. En las muestras que denominamos intencionales o de juicio (judgment samples según Deming), el procedimiento de selección no es probabilístico y, en consecuencia, los errores de muestreo y posibles sesgos no pueden ser calculados, sino que son determinados por el buen juicio y experiencia del investigador que diseña y calcula los resultados muestrales. En una muestra intencional las unidades muestrales se seleccionan de forma que a juicio del diseñador las unidades sean “típicas” o “representativas” respecto a la información que se desea obtener. Un ejemplo típico de muestreo intencional es el muestreo por cuotas, donde se fija de antemano, de acuerdo a características poblacionales conocidas, los porcentajes o cuotas de las unidades muestrales que deben reunir esas características. El entrevistador deberá seleccionar las unidades de la muestra de forma que el conjunto de unidades seleccionadas verifiquen las cuotas que se le han fijado. 10 TÉCNICAS DE MUESTREO En una muestra por cuotas los porcentajes muestrales de las características poblacionales fijadas como cuotas pueden corresponder exactamente a las proporciones poblacionales, lo que lleva a decir que la muestra es perfectamente representativa transversalmente. Sin embargo, ello no evita el riesgo de sesgos en la representación de las características que se van a medir en la muestra, no coincidentes con las establecidas como cuotas. Únicamente una muestra probabilística evita estos riesgos. Si la experiencia y el conocimiento de la población a muestrear es importante en un muestreo intencional, no lo es menos en muestreo probabilístico. Este conocimiento de la población, particularmente en aspectos relacionados con variables objeto de estudio deben ser utilizados de la mejor manera posible en el diseño de muestras probabilísticas. Por ejemplo, nos puede ayudar a definir el tamaño y el tipo de las unidades de muestreo en distintas etapas, en la formación de estratos y en el uso de variables auxiliares conocidas en la población que ayuden a mejorar las estimaciones, en el establecimiento de las propias probabilidades de selección de las unidades muestrales, etc. No hay límite a la cantidad de información que puede utilizarse en un proceso probabilístico de muestreo. El único límite que existe es que la selección sea matemática, respetando las probabilidades asignadas. IV. LA HIPÓTESIS DE NORMALIDAD Admitiremos que una población finita sigue una distribución normal si su distribución de frecuencias se ajusta a las correspondientes frecuencias teóricas de la distribución normal. Si el estimador está formado por una combinación lineal de variables cuya población base es normal, sabemos que el estimador tiene una distribución normal en el muestreo. Si la población base no es normal, está demostrado que en condiciones muy generales, un estimador lineal sigue una distribución convergente a la normal a medida que aumenta el tamaño de la muestra. El error de muestreo, que indica en que forma las estimaciones procedentes de muestras de igual tamaño y diseño se distribuyen alrededor del verdadero valor poblacional (estimador insesgado), en el supuesto de que tuviéramos 11 TÉCNICAS DE MUESTREO miles de tales muestras, corresponde a la desviación típica de la distribución normal del estimador. ϑ ϑ! Es importante recalcar que el error estándar no nos dice nada acerca del tamaño o dirección de la diferencia entre nuestras estimaciones y el valor verdadero. Cuando estamos ante una muestra en particular, no sabemos en que parte de la distribución de frecuencias de las estimaciones nos encontramos (no sabemos si estamos cerca o lejos del verdadero valor, que por otra parte no conocemos). Sin embargo las propiedades de la distribución normal, nos permiten la construcción de intervalos de la forma (ϑ! − E, ϑ! + E) dentro del cual y con un determinado nivel de confianza (probabilidad), se encuentra el verdadero valor. E se calcula a partir del error estándar en la forma E = k ⋅ (e. e.) . El multiplicador k del error estándar nos proporciona el nivel de confianza que deseemos y se puede obtener a partir de unas tablas de la normal. Hay que indicar que el e.e. está definido por el tamaño y el diseño de la encuesta. Conocido su valor, el usuario de los datos de una encuesta puede manejarlos con el nivel de confianza que desee. Algunos valores típicos de k y su confianza asociada son: k nivel de confianza 0.6745 50% 1 68.26% 1.6 89.04% 2 95.44% 3 99.73% 12 TÉCNICAS DE MUESTREO En la práctica, es habitual encontrarse con poblaciones normales o muy simétricas en su distribución de frecuencias, por lo que la hipótesis de normalidad de los estimadores es razonable incluso para tamaños de muestra moderados. Pero también es muy frecuente encontrarse con poblaciones muy asimétricas, con una gran concentración de frecuencias en valores moderados de la variable y una marcada cola a la derecha correspondiente a frecuencias bajas de valores muy altos de la variable. En estos casos debe tenerse en cuenta que cuanto mayor sea la asimetría de la población, mayor es el tamaño de la muestra requerido para admitir la distribución normal del estimador. Si el tamaño de la muestra no es suficiente, la distribución del estimador muestra cierta asimetría por la derecha, tanto mayor cuanto menor es el tamaño de la muestra: ϑ! Los tamaños muestrales que se utilizan en la práctica suelen ser lo suficientemente grandes para admitir la hipótesis de normalidad sin mayores problemas. Además, la práctica, muy frecuente en muestreo, de incluir con certeza en la muestra las unidades muy grandes contribuye a facilitar la validez de la aproximación normal, ya que la eliminación de las unidades extremas de la población a muestrear, además de reducir la variabilidad de la muestra y aumentar la precisión de los estimadores, reduce la asimetría y mejora la aproximación normal. Como ejemplo de la aproximación normal a la distribución del estimador vamos a considerar una población de N=2959 supermercados de 400 m2 y más de superficie de venta que presentan la distribución por superficie que refleja el gráfico: DISTRIBUCIÓN DE SUPERMERCADOS POR SUPERFICIE DE VENTA (%) 13 TÉCNICAS DE MUESTREO 37,7 22,7 12,2 13,6 7,2 2,4 400599 600799 800999 2,5 1,7 1000- 1500- 2500- 5000- 10000 1499 2499 4999 9999 y m as Superficie La superficie media poblacional es de Y = 1165m 2 , con una desviación típica de 1793m2. De este Universo de supermercados se han seleccionado 100 muestras aleatorias de tamaño n=100, calculándose la superficie media de cada muestra. El siguiente gráfico muestra la distribución de medias muestrales obtenida: DISTRIBUCIÓN DE MEDIAS MUESTRALES DE 100 MUESTRAS ALEATORIAS (n=100) 14 TÉCNICAS DE MUESTREO 33 32 28 19 frec. obs. frec. teor. 27 19 11 12 7 5 4 < 900 3 1050-1200 1350-1500 superficie m edia estim ada Junto a la distribución observada de medias muestrales aparece la distribución teórica que se obtendría de acuerdo a la hipótesis de distribución normal del estimador. Puede observarse como la distribución de medias muestrales está muy próxima a la distribución normal teórica, a pesar del alto grado de asimetría de la distribución original de superficies de venta. V. PRINCIPALES FASES DEL DISEÑO DE UNA ENCUESTA POR MUESTREO 1. Establecer los objetivos. Es clave establecer unos objetivos claros y precisos de la encuesta. Esta fase puede incluir una revisión de la información existente en relación con los objetivos perseguidos y un análisis de la utilidad final de la encuesta, con el fin de revelar que la información a recoger sea realmente necesaria. 2. Definir la población a ser muestreada. Las definiciones deben ser claras de forma que los inspectores de Campo no tengan dificultad para decidir si una unidad pertenece o no a la población. La definición de la población incluye el marco de muestreo y la división del mismo en unidades de muestreo. 3. Cuestionario. Se incluye aquí la lista de datos que deben ser recogidos, la forma de medición y la estructura y organización de todo ello en un cuestionario. Establecer un 15 TÉCNICAS DE MUESTREO primer plan de tabulación puede ser de ayuda también en el diseño del cuestionario, sobre todo para eliminar preguntas que no se van a utilizar. Debe tenerse presente que el cuestionario puede ser fuente de errores y sesgos y causa de falta de cooperación de los entrevistados. Un cuestionario demasiado largo puede bajar la calidad de las respuestas, tanto a las preguntas importantes como a las de poca importancia. Entre los aspectos a tener en cuenta al preparar el cuestionario citaremos: -Forma de presentar las preguntas. -Redacción correcta de las mismas. -Orden de las preguntas. -Evitar preguntas tendenciosas. 4. Nivel de precisión - coste y selección de la muestra. Será útil disponer de diseños muestrales alternativos que muestren los costes aproximados para distintos grados de precisión, que ayuden a tomar la decisión sobre el grado de precisión y tamaños muestrales. Debe tenerse presente que el coste de una encuesta por muestreo está muy relacionado con el tamaño de muestra. 5. Elaboración de instrucciones de campo y planes de supervisión. Deben ser claras e inteligibles por la gente que va a trabajar. Los objetivos de la encuesta ayudarán a entender mejor las instrucciones. Debe incluirse el calendario de realización de la encuesta y planes de envío a la central. 6. Encuesta piloto o prueba. Sirve para testar sobre el terreno el cuestionario y los métodos de campo a pequeña escala. Puede resultar en mejoras del cuestionario y soluciones de otros problemas, que descubiertos a mayor escala, podrían incluso invalidar la encuesta. 7. Preparación de planes de inspección de resultados, análisis de datos y tabulación. Inspección de datos, depuración de errores. Primeros resultados para datos importantes basados en una submuestra. Planes para manejar la no respuesta. Los métodos de control de calidad utilizados en la industria pueden aplicarse en la encuesta para determinar la calidad del trabajo de campo y de otras operaciones realizadas en la oficina. 16 TÉCNICAS DE MUESTREO 8. Interpretación y publicación de resultados finales. Es una buena práctica la de informar de los errores de muestreo esperados para las estimaciones mas importantes. VI. MUESTREO DE UNIDADES ELEMENTALES CON PROBABILIDADES IGUALES También llamado muestreo aleatorio simple, corresponde al caso de seleccionar las unidades elementales o de estudio con igual probabilidad. La probabilidad de que la unidad ui esté en la muestra es n/N y el número de muestras posibles corresponde a las combinaciones de N elementos tomados de n en n, siendo todas las muestras equiprobables. Antes de entrar en el estudio de estimadores y errores de muestreo vamos a recordar el concepto de varianza, ya apuntado anterormente. Sea una población P = {u1 ,u2 ,...,u N } y sean {Y1 , Y2 ,..., YN } los valores de la variable en estudio. La media y el total poblacional vienen dados por : N Y = ∑Y i N Y = ∑ Yi 1 N 1 El promedio de los cuadrados de las desviaciones de cada valor individual a la media es la varianza: N σ2 = N ∑ (Y − Y ) ∑ (Y − Y ) 2 i 1 N 2 i Su raiz cuadrada, σ = 1 N , se denomina desviación típica o estándar y es una medida de la dispersión o variabilidad de los valores individuales alrededor de su media: cuanto mayor es la desviación típica mayor variabilidad, es decir, menos concentrados estan los valores alrededor de la media. En cualquier distribución, al menos el 75% de los valores, se encuentran comprendidos entre la media y ± dos veces la desviación típica. 17 TÉCNICAS DE MUESTREO Tanto la media como la desviación estándar se expresan en la misma unidad de medida que la variable en estudio, es decir, si estamos considerando ventas de empresas, tendremos una venta media por empresa expresada en pesetas y su correspondiente desviación típica expresada también en pesetas. En la práctica es frecuente utilizar como medida de dispersión el coeficiente de variación, que es el cociente entre la desviación típica y la media: C.V = σ , y en el cuál la unidad de medida de la variable desaparece Y al dividir por la media: el CV es la desviación estandar en términos relativos (expresable en % sin mas que multiplicar por 100) y es comparable para distintas variables y poblaciones. Con frecuencia estaremos interesados en conocer el número de unidades que cumplen una condición o poseen una característica (% de votantes de un determinado partido, % de personas que han visto un cierto programa de televisión, etc). En este caso la variable Yi toma el valor 1 si la unidad posee la característica y el valor 0 si no la posee. Se dice que estamos estudiando una variable cualitativa o de atributos.Llamaremos C al número total de elementos de la población que poseen el atributo o característica en estudio. C se denomina total de clase y P = C es la proporción de clase, expresable en %. En este N caso tenemos: 1 si ui ∈ C Yi = 0 si ui ∉ C por lo que N N C = ∑ Yi P=Y = 1 ∑Y i 1 N = C N corresponden al total y la media de una variable cualitativa. Hay que indicar que todas las fórmulas que se obtienen para varibles cuantitativas Yi son igualmente válidas para variables cualitativas o dicotómicas.De ahí que no siempre se obtengan las fórmulas en el caso dicotómico. Como ejemplo, para la varianza tenemos 18 TÉCNICAS DE MUESTREO N σ2 = = N 2 2 ∑ (Yi − Y ) ∑ (Yi − P) ∑ (Yi 2 − 2 PYi + P 2 ) 1 1 = N ∑ Yi2 − 2 P∑ Yi + NP 2 N = N N = = P − 2 P 2 + P 2 = P − P 2 = P(1 − P) = PQ dónde se ha tenido en cuenta que ∑ Yi 2 = ∑ Yi N VI.A. =P N Estimadores y varianzas n Designaremos por y = ∑ Yi el total muestral correspondiente a una muestra de tamaño 1 n. La media muestral n y y= = n ∑ Yi 1 n es el estimador insesgado de la media poblacional Y , mientras que para el total poblacional Y, el estimador insesgado es N Y! = N ⋅ y = n n ∑ Yi = 1 N y n n De la misma forma la proporción muestral p = ∑ Yi 1 n y C! = N ⋅ p son los estimadores insesgados de la proporción poblacional P y del total de clase C respectivamente. La relación f = n se llama fracción de muestreo y expresa la relación que existe entre N el tamaño de la muestra y el de la población. Su inverso N se llama factor de n expansión, factor por el que se multiplica cada valor muestral para obtener la estimación del total. 19 TÉCNICAS DE MUESTREO La varianza de la media muestral es V (y) = N − n σ2 N − n S 2 S2 = = (1 − f ) N −1 n N n n dónde ∑ (Y − Y ) N S2 = N σ2 = N −1 2 i 1 N −1 es la cuasivarianza poblacional. A partir de aquí se obtiene () V Y! = N 2V ( y ) N − n PQ N −1 n V ( p) = () V C! = N 2V ( p) La raiz cuadrada de las varianzas de los estimadores son su desviación típica o error de muestreo. Puede comprobarse cómo en la población del ejemplo del epígrafe I, resulta S2 = 13,47 y el error estándar es (1 − 0,5) 13,47 = 1,5 , coincidente con el allí calculado 3 a partir de todas las muestras posibles. El problema práctico con las fórmulas anteriores es que en las mismas intervienen los parámetros poblacionales σ 2 o S2, en general desconocidos, por lo que necesitan ser estimados. Como estimador insesgado de S2 se toma la cuasivarianza muestral n s = 2 ∑ (Y − y ) i 1 n −1 que, para el caso de proporciones, resulta en s2 = n pq n −1 En consecuencia los estimadores insesgados de las varianzas de los estimadores son 2 s V! ( y ) = (1 − f ) n 20 () V! Y! = N 2V! ( y ) TÉCNICAS DE MUESTREO () pq V! ( p) = (1 − f ) V! C! = N 2V! ( p) n −1 En la práctica, si exceptuamos el caso de proporciones, suele trabajarse con errores de muestreo relativos, que se obtienen al dividir los valores absolutos por el valor de los estimadores. También en la práctica la fracción de muestreo n/N suele ser próxima a cero y se prescinde del factor (1-f), llamado factor de corrección por población finita. Con ello el error estándar en términos relativos resulta eer = dónde K = K n s es el coeficiente de variación estimado a partir de los datos muestrales. y Para calcular el tamaño de muestra necesario para obtener un determinado error estándar no hay mas que despejar n, obteniéndose n0 = K2 eer2 En el caso de que la fracción de muestreo no sea próxima a cero, se tiene eer = 1 − f K n n= En el caso de proporciones si se sustituye K por n0 1 + (n0 N ) pq se obtiene una aproximación al error estándar en términos absolutos. Si no se tiene ninguna idea aproximada del valor de P, puede utilizarse p=q=0,50 ya que en éste caso pq es máximo y estamos ante el caso mas desfavorable. Al trabajar con errores absolutos en proporciones debe tenerse presente que, por ejemplo, 1 punto de error para P=50% es un 2% de error relativo y se convierte en un 10% de error si P=10%. Conviene notar que el error estándar es inversamente proporcional a la raiz cuadrada del tamaño de muestra. Esto significa, por ejemplo, que para reducir el error estándar a la mitad es necesario tomar un tamaño de muestra cuatro veces superior. El siguiente 21 TÉCNICAS DE MUESTREO gráfico relaciona el coeficiente de variación de la población, el error estándar y el tamaño de muestra: Tamaño de muestra según CV y error estándar 2500 2025 TAMAÑO DE MUESTRA 2000 1600 err. est 1500 2% 3% 4% 1225 1111 1000 900 900 711 625 625 544 506 500 400 400 400 306 278 225 178 225 100 0 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 COEFICIENTE DE VARIACION Ya se ha mencionado la influencia del error estándar en el tamaño de muestra. El gráfico revela también la influencia del coeficiente de variación de la población en el tamaño de muestra: cuanto más homogénea sea la población tanto menor será el tamaño de muestra requerido. De ahí la importancia que tiene el conocimiento de la población a muestrear para tratar de reducir la variabilidad original de la misma. Existen dos principales técnicas de muestreo con éste objetivo: el muestreo estratificado y la técnica del estimador de razón. VII. MUESTREO ESTRATIFICADO VII.A. Definición y objetivos El muestreo estratificado consiste en : 1º) Dividir la población de N unidades en un cierto número de subpoblaciones llamadas estratos, de forma que las unidades que componen cada estrato sean lo más homogéneas 22 TÉCNICAS DE MUESTREO posibles en cuanto a la variable objeto de estudio. Cada unidad de la población ha de pertenecer a uno y sólo uno de los estratos formados. El número de unidades que pertenecen a un estrato dado es el tamaño del estrato. L = número de estratos N h = tamaño del estrato h. L ∑N h =N h Wh = Nh = tamaño relativo del estrato h (peso del estrato h) N 2º) Seleccionar una muestra probabilística en cada estrato. La muestra de cada estrato es independiente de la muestra de cualquier otro estrato. Si la muestra en cada estrato es una muestra aleatoria simple (probabilidades iguales) tenemos el muestreo aleatorio estratificado que es el que vamos a estudiar (sin reemplazamiento). nh = tamaño de la muestra en el estrato h L n = tamaño de la muestra total: n = ∑ nh h fh = nh = fracción de muestreo en el estrato h Nh f = n = fracción de muestreo global o total N Los principales objetivos del muestreo estratificado son: a) Ganancia en precisión respecto al muestreo no estratificado. Es el objetivo fundamental y en poblaciones muy asimétricas pueden conseguirse excelentes resultados. Para precisar mas la idea vamos a considerar la población de supermercados de 400 m2 y más de superficie de venta citada anteriormente. Tomaremos como variable de estudio el personal empleado. Los datos del Universo son: Número de establecimientos: N = 2959 Personal medio por establecimiento: Y = 29,8 Coeficiente de variación poblacional: CV= 2,16 23 TÉCNICAS DE MUESTREO Vamos a dividir el Universo en tres estratos tomando como variable de estratificación la superficie de venta, que, intuitivamente, debe estar correlacionada con el personal. Los resultados que se obtienen son: estrato1 estrato2 estrato3 >= 2500m2 1000-2500 m2 400-1000 m2 Núm. establ (Nh) 195 615 2149 media person. (Yh ) 216.3 30.8 12.6 coefic. de variac. 0.70 0.68 0.72 Fijémonos como el coeficiente de variación del personal, que en la población global es de 2,16, se reduce a la tercera parte, alrededor de 0,70 en cada estrato. Si recordamos la fórmula del error estándar resulta intuitivo que éste experimentará sensibles reducciones al tomar muestras independientes en cada estrato. Ésta es la clave de la estratificación: formar estratos que reduzcan la variabilidad de la población original. Cuanto más reduzcamos la variabilidad dentro de cada estrato respecto a la variabilidad total de la población, mayor será la ganancia en precisión ( o al revés, menor muestra necesitaremos para una precisión prefijada). b) Posibilidad de obtener estimadores separados para cada estrato o agrupación de estratos, lo que proporciona una información mas rica y detallada. c) Más eficacia en la organización administrativa, al poder considerar como variables de estratificación provincias o regiones geográficas, que permiten una mayor descentralización de la organización de Campo y de tareas administrativas. d) Los problemas de muestreo pueden diferir marcadamente en diferentes partes de la población. Al ser el proceso de muestreo independiente en cada estrato, pueden aplicarse métodos diferentes de muestreo por estrato de acuerdo a la información de que se disponga. Respecto a las variables o criterios de estratificación, su número y el número de estratos, dependen de los objetivos concretos de cada caso, de la información disponible y de la 24 TÉCNICAS DE MUESTREO estructura de la población; las variables utilizadas en la estratificación, deberán estar correlacionadas con las variables objeto de investigación, aunque tambien pueden incluirse criterios “administrativos” (regiones geográficas). En general, un número moderado de variables de estratificación y de estratos es suficiente para obtener ganacias de precisión; ésta es, en general, decreciente al aumentar el número de estratos. Puesto que en cada estrato vamos a seleccionar una muestra aleatoria simple de unidades, recordemos que la media muestral y es estimador insesgado de la media poblacional, con varianza, V ( y ) = (1 − f ) varianza relativa estimada = V!r ( x ) = (1 − f ) VII.B. S2 n ky 2 s , estimada por V! ( y ) = (1 − f ) n y 2 n . Estimadores insesgados y varianzas La formación de estimadores se basa en la selección independiente de muestras aleatorias en cada estrato. Ello lleva a elegir el correspondiente estimador insesgado en cada estrato y, posteriormente, mediante combinaciones lineales adecuadas de los estimadores insesgados de cada estrato, obtener el estimador insesgado global de toda la población. Para el cálculo de varianzas de los estimadores no hay mas que tener en cuenta la regla de aditividad de varianzas de combinaciones lineales de variables aleatorias (en este caso estimadores) independientes. Sean: Yhi = valor de la variable de estudio en la unidad i del estrato h Nh ∑Y hi Yh = i Nh = Yh = media poblacional del estrato h Nh Yh = N h Yh = total poblacinal del estrato h L Y = ∑ Yh = total poblacional h 25 TÉCNICAS DE MUESTREO L Y = ∑Y h L =∑ h N h Nh ∑ (Y hi Sh = 2 L N h Yh = ∑ Wh Yh = media poblacional N h − Yh ) 2 i Nh − 1 = cuasivarianza poblacional del estrato h Los estimadores y sus varianzas son ya inmediatos de obtener: Media: ( ) L L h h E Y!st = ∑ Wh E ( y h ) = ∑ Wh Yh = Y Y!st = ∑ Wh y h ( ) L L 2 L L 2 S 2 2 V Y!st = ∑ Wh V ( y h ) = ∑ Wh (1 − f h ) h nh h h ( ) s 2 2 V! Y!st = ∑ Wh V! ( y h ) = ∑ Wh (1 − f h ) h nh h h nh ∑ (Y hi dónde sh = 2 − yh ) i nh − 1 2 es la cuasivarianza muestral del estrato h. Total: L L L h h h Y!st = NY!st = N ∑ Wh y h = ∑ N h y h = ∑ Y!h ( ) ( ) ( ) ( ) L L h h ( ) 2 V Y!st = N 2V Y!st = ∑ N h V ( y h ) = ∑ V Y!h 2 L s 2 V! Y!st = N 2V! Y!st = ∑ N h (1 − f h ) h nh h Proporción: En este caso estamos ante una variable cualitativa que sólo toma los valores, Yhi = 1 si la unidad uhi posee la característica en estudio, y Yhi = 0 si no la posee. Tenemos: L P!st = ∑ Wh ph h 26 TÉCNICAS DE MUESTREO L L 2 2 N h − nh Ph Qh V P!st = ∑ Wh V ( ph ) = ∑ Wh N h − 1 nh h h ( ) L L L pq 2 2 N h − nh ph q h 2 V! P!st = ∑ Wh V! ( ph ) = ∑ Wh = ∑ Wh (1 − f h ) h h N h nh − 1 h nh − 1 h h ( ) Total de clase: ( ) ( ) V C! st = N 2V P!st C! st = NP!st ( ) ( ) V! C! st = N 2V! P!st Debe observarse que el cálculo de estimadores de la varianza, requiere al menos dos unidades en la muestra por cada estrato. VII.C. Afijación Se denomina afijación al método de distribuir las n unidades de la muestra total entre los diferentes estratos. Supondremos que el tamaño de muestra total, n, está dado. En principio, el tamaño de muestra en cada estrato puede fijarlo el diseñador a su buen juicio y criterio. Esta forma de distribución de la muestra entre estratos puede denominarse afijación subjetiva. Sin embargo, en la práctica es habitual utilizar algún criterio formulable para hacer la afijación. Los tipos de afijación más comunes son: 1. Afijacion proporcional. Consiste en repartir la muestra proporcionalmente a los tamaños de los estratos: nh = n Nh , h = 1,2, ...., L N ; nh n = Nh N ; fh = f Las fracciones de muestreo resultan idénticas en todos los estratos y cada unidad de la población tiene la misma probabilidad de pertenecer a la muestra, originando una muestra autoponderada en la que los factores de expansión por estrato para la 27 TÉCNICAS DE MUESTREO estimación de totales son todos iguales. Ello se traduce en una notable simplificación en el cálculo de estimaciones y sus varianzas. L 2. Afijación óptima. Introducimos una función de coste de la forma C = c0 + ∑ ch nh , h dónde c0 representa un costo general, mientras que ch correspondería a un coste por unidad de muestreo en el estrato h. La afijación óptima proporciona la mínima varianza del estimador para un coste prefijado. La fórmula que se obtiene es nh = n N h Sh ∑N h ch Sh ch h y utilizando los coeficientes de variación por estrato Kh = Sh Xh → S h = Kh X h , se obtiene nh = n Yh K h ∑Y K h ch h ch h Resulta, pues, que la muestra en cada estrato es proporcional a la variabilidad del estrato (Sh) e inversamente proporcional a la raiz cuadrada del coste por unidad. Si no se consideran costes o ch es igual por estrato se obtiene nh = n N h Sh YK =n h h ∑ N h Sh ∑ Yh Kh h h Si además Sh es igual por estrato se obtiene la afijación proporcional, mientras que si Kh es igual por estrato se obtiene una afijación proporcional a la importancia que tiene en cada estrato la variable en estudio. Obsérvese que en las fórmulas anteriores pueden utilizarse los valores absolutos de Nh, Yh o los relativos N h Yh , (no habría mas que dividir numerador y denominador por N N Y y Y respectivamente). Los valores relativos pueden utilizarse también en forma de porcentaje. Los valores de Sh o Yh deberán ser, en la práctica, estimados a partir de la 28 TÉCNICAS DE MUESTREO información disponible. Alguna de las variables de estratificación, correlacionada con la de estudio puede ser de utilidad. La eficiencia de la estratificación nos indica en qué medida la varianza del estimador se reduce con la estratificación respecto al muestreo aleatorio simple. Ya hemos visto que la afijación óptima coincide con la proporcional si Sh es igual por estrato; dado que la afijación óptima produce la mínima varianza del estimador se deduce que ésta será tanto mejor respecto a la afijación proporcional cuanto más difieran las Sh entre estratos. Al comparar la afijación proporcional con el muestreo aleatorio simple se llega a la conclusión de que la estratificación es tanto más eficiente cuanto mas difieran entre si las medias por estrato Yh . VII.D. Ejemplo Sigamos con la población de supermercados de 400 m2 y más de superficie de venta, con los estratos señalados anteriormente según la superficie de venta. Nuestra variable de estudio será el personal. El siguiente cuadro resume los valores poblacionales: TOTAL Estrato 1 Estrato 2 Estrato 3 UNIVERSO >=2500m2 1000-2500 400-1000 2.959 195 615 2.149 29,8 216,3 30,8 12,6 88.174 42.173 18.959 27.042 64,4 150,9 20,9 9,1 2,16 0,7 0,68 0,72 4 2 1 Nh Yh Y Sh Kh ch Para una muestra de tamaño 100 las dos afijaciones consideradas proporcionarían la siguiente distribución muestral: Afijación Estrato 1 Proporcional Óptima 29 Estrato 2 Estrato 3 6 21 73 34 21 45 TÉCNICAS DE MUESTREO Con los datos anteriores estamos ya en situación de calcular el error estándar del estimador de la media. Los resultados se resumen a continuación (se prescinde del factor 1-f): Tipo de muestreo Tamaño de Varianza del error de error relativo muestra estimador muestreo de muestreo muestra aleatoria 100 41,47 6,4 21,6% m. estr. proporcional 100 17,98 4,2 14,2% m. estr. óptima 100 4,78 2,2 7,3% Vemos que el muestreo estratificado con afijación óptima produce una sensible disminución del error de muestreo, a la tercera parte, respecto al muestreo aleatorio simple, y también respecto a la afijación proporcional debido a los diferentes valores de Sh, según se apuntó anteriormente. En forma gráfica se tiene: COMPARACIÓN DE ERRORES ESTÁNDAR (n = 100) 21,6% 14,2% 7,3% mtra aleat m. estr. prop. m. estr. ópt. Otra forma de ver los resultados anteriores es comparar los tamaños de muestra que para los distintos diseños muestrales proporciona el mismo nivel de error estándar, según muestra el gráfico siguiente: 30 TÉCNICAS DE MUESTREO TAMAÑOS DE MUESTRA PARA IGUAL ERROR ESTÁNDAR 876 350 100 mtra aleat m. estr. prop. m. estr. ópt. Resulta notable el incremento de muestra necesario, casi 9 veces, para tener el mismo nivel de error estándar con una muestra aleatoria, que con una muestra estratificada con afijación óptima. Los dos gráficos anteriores ilustran el grado de eficiencia que se puede conseguir con la estratificación respecto al muestreo aleatorio y, a su vez, con la afijación óptima respecto a la proporcional, cuando estamos ante poblaciones muy asimétricas como es la del ejemplo. En el ejemplo se ha considerado en los tres casos un tamaño de muestra n=100, lo que proporciona una fracción de muestreo global de 100/2959 = 3,4%. Esta es también la fracción de muestreo en cada estrato con afijación proporcional. Sin embargo con la afijación óptima la fracción de muestreo difiere de estrato a estrato: la muestra tiende a concentrarse más en los estratos con mayor Sh. La fracción de muestreo es de 34/195 = 17,4% en el estrato1, de 21/615 = 3,4% en el estrato 2 y de 45/2149 = 2,1% en el estrato 3. Suponiendo que la media muestral en cada estrato es similar a la media poblacional el total de personas empleadas en los establecimientos de la muestra sería de 34 ⋅ 216,3 + 21 ⋅ 30,8 + 45 ⋅ 12,6 = 8568 que sobre los 88174 empleados en todo el Universo supone un 9,7%. Este es el concepto de fracción muestral ponderada: qué parte del total de la variable en estudio se mide en 31 TÉCNICAS DE MUESTREO las unidades muestrales. Tanto en muestreo aleatorio como en muestreo estratificado con afijación proporcional la fracción muestral ponderada es similar o igual a la fracción de número. Pero con la afijación óptima, con un 3,4% de muestra se está “observando” el 9,7% de la variable en estudio, siendo ésta última, con frecuencia, un mejor indicador del tamaño de muestra que el simple número n. Hay que destacar también que siendo el factor de expansión el inverso de la fracción de muestreo, la afijación óptima origina factores de expansión diferentes por estrato, tanto menores cuanto mayor es la varianza del estrato: obsérvese que el factor de expansión más pequeño corresponde a las unidades muestrales más grandes. VIII. ESTIMADOR DE RAZON El estimador de razón trata de mejorar la precisión de un estimador utilizando la información que se posee, para la población investigada, de una variable auxiliar que se supone correlacionada con la variable de estudio. Sea Yi la variable de estudio y sea Xi la variable auxiliar conocida para el Universo o población en estudio. Supongamos que se desea estimar la producción de trigo mediante una muestra aleatoria de explotaciones agrarias, y poseemos información sobre la superficie cultivada: explotación prod. trigo (Yi) superf. cultivada (Xi) 1 Y1 X1 2 Y2 X2 ...... ....... ...... n Yn Xn total muestral y x El estimador insesgado lineal de la producción de trigo es N Y! = n n ∑Y i 1 32 = N y n TÉCNICAS DE MUESTREO Puesto que poseemos información de la superficie cultivada Xi y conocemos su total poblacional X, podemos, además, estimarlo con los datos de la muestra N X! = n El cociente n ∑X i = 1 N x n X constituye una cierta medida de la representatividad de la muestra: si X! X > 1 , indicaría que en la muestra hay una mayor representación de explotaciones X! pequeñas, mientras que si X < 1 , tendríamos una mayor representación de X! explotaciones grandes. Habiendo correlación entre ambas variables parece lógico utilizar la desviación X , cometida en la estimación de la variable conocida para X! corregir la estimación de Y. Esto nos lleva al estimador X Y! ! Y!R = Y! = X = RX X! X! Y! y , se llama estimador de razón, Y!R es el estimador del total por el método R! = = ! X x de razón. Y!R lo podemos escribir como N X X Y!R = y = n N x x n n ∑Y i 1 es decir, el estimador del total por razón equivale a la expansión de los datos muestrales mediante el factor X x , relación entre el valor poblacional y el valor muestral de la variable auxiliar Xi , en lugar de utilizar la expansión N/n de número o expansión simple. Al factor X x le llamamos factor-X. Y! X ! . La media Y se estima por Y!R = R = R! = RX N N La razón R = Y Y se llama razón poblacional, y su estimador R! es sesgado, es = X X decir, la esperanza matemática de R! o media sobre todas las posibles muestras no () coincide con R. Una acotación para el sesgo B = E R! − R viene dada por 33 TÉCNICAS DE MUESTREO B ≤ σx K σx = Cx ≈ x X n que expresa que la razón del sesgo al error estandar de x es menor o igual al coeficiente de variación C x o error de muestreo relativo de la media muestral x . En la práctica si C x es menor de 0,20 el sesgo puede ignorarse. También se observa que la razón del sesgo al error de muestreo es del orden de magnitud de 1 n y, por tanto, disminuye con el tamaño de muestra. En el caso particular de que la línea de regresión poblacional de y respecto a x sea una recta que pasa por el origen, el estimador de razón R! es insesgado. La varianza del estimador de razón es 1− f 2 V R! = S y + R 2 S x2 − 2 RS yx 2 nX () ( ) con ∑ (Y − Y )( X N S yx = i 1 i − X) N −1 y se estima sustituyendo los valores poblacionales por los muestrales: 1− f 2 !2 2 ! V! R! = s y + R s x − 2 Rs yx nX 2 () ( ) ! y la media Y! = RX ! , la varianza es Para el total Y!R = RX R V! Y!R = X 2V! R! V! Y!R = X 2V! R! ( ) ( ) () () ( ) Al comparar V Y!R con la varianza del total en muestreo aleatorio simple, N 2 (1 − f ) 2 Vas Y! = Sy n () ( ) () resulta que V Y!R < Vas Y! si se verifica ρ> ∑ (Y − Y )( X N dónde ρ = i 1 i − X) ( N − 1)S y S x = S yx Sy Sx 1 Cx 2 Cy es el coeficiente de correlación entre Yi y Xi. 34 TÉCNICAS DE MUESTREO Se deduce entonces, que el estimador de razón puede ser más o menos preciso que el de simple expansión dependiendo del tamaño del coeficiente de correlación entre Yi, Xi y de la relación de sus coeficientes de variación. Si Cx > 2Cy el estimador de razón es siempre menos preciso ya que ρ no puede ser superior a 1. Cuando Xi es el valor de Yi en alguna ocasión previa, Cx y Cy pueden ser aproximadamente iguales y el estimador de razón es superior si ρ > 0,5 . Siendo Xi el valor de Yi en alguna ocasión anterior, es frcuente que R ≈ 1 y S x ≈ S y , con lo cuál tenemos N 2 (1 − f ) 2 N 2 (1 − f ) 2 2 2 V Y!R = S y + S y − 2ρS y = S y ⋅ 2(1 − ρ) = Vas ⋅ 2(1 − ρ) n n ( ) ( ) 2(1 − ρ) indica la ganacia en precisión respecto al estimador de simple expansión. Así, si ρ = 0,8 , V (YR ) = Vas ⋅ 0,4 , V (YR ) = Vas ⋅ 0,63 . Vemos que con correlaciones altas se obtienen reducciones importantes en el error de muestreo. En el muestreo estratificado la variabilidad de la población se reduce por la formación de estratos relativamente homogéneos. Con el estimador de razón la variabilidad se reduce por medio de la correlación existente entre la variable de estudio y, y la variable auxiliar x. Resulta entonces, que la utilización de muestreo estratificado junto con estimador de razón puede producir importantes aumentos en la precisión de los estimadores. IX. MUESTREO DE CONGLOMERADOS SIN SUBMUESTREO. El muestreo de unidades elementales tiene dos principales inconvenientes de tipo práctico: a) Imposibilidad en muchas ocasiones de obtener una lista de unidades elementales en la cuál basar la selección de la muestra. b) La selección de unidades elementales proporciona, en general, una muestra muy esparcida de unidades a entrevistar con el consiguiente incremento de coste y tiempo. Para evitar estos inconvenientes surge de forma natural la idea de agrupar unidades elementales próximas entre si en una unidad mayor que se denomina conglomerado, 35 TÉCNICAS DE MUESTREO constituyéndose el conjunto de conglomerados en las nuevas unidades de muestreo. Los conglomerados deben estar perfectamente definidos, lo cuál significa que no haya solapamiento entre ellos -una unidad elemental pertenece sólo a un conglomerado- y que el conjunto de todos los conglomerados contiene a la población objeto de estudio. Así pues, en el muestreo de conglomerados se selecciona una muestra de conglomerados. Si posteriormente, investigamos todas las unidades elementales contenidas en los conglomerados seleccionados en la muestra, el muestreo se dice de conglomerados sin submuestreo o muestreo en una etapa, que es el que vamos a estudiar aquí. Se denomina tamaño del conglomerado al número de unidades elementales que contiene. Supondremos que todos los conglomerados son de igual tamaño M . Supondremos también que la selección de la muestra se hace con probabilidades iguales y sin reemplazamiento (muestreo aleatorio simple): N = número de conglomerados en la población. M 0 = NM = número total de unidades elementales en la población. n = número de conglomerados en la muestra. nM = número de unidades elementales en la muestra. Para la variable en estudio tenemos: Yij = valor de y en la unidad j del conglomerado i. M Yi = ∑ Yij = total del conglomerado i. j N N M i i j Y = ∑ Yi = ∑ ∑ Yij = total general. Yi = Yi = media por elemento del conglomerado i. M N Y = ∑Y i i N = total medio de conglomerados, es decir, media de los totales de conglomerados (media entre conglomerados). 36 TÉCNICAS DE MUESTREO Y = N M i j ∑ ∑ Yij NM N N ∑Y ∑ Yi Y = = = i = media general por elemento. NM M N i i La media muestral por elemento puede expresarse por : y y= = nM n M i j ∑ ∑ Yij nM n = ∑Y i i nM y es un estimador insesgado de la media poblacional por elemento Y con varianza dada por 1− f 2 Sb nM V (y) = dónde ∑ ∑ (Y − Y ) N M Sb = 2 i j N −1 ( N 2 i = M ∑ Yi − Y i ) 2 N −1 es decir, la varianza de la media muestral por elemento proviene en su totalidad de la varianza de las medias por elemento entre los conglomerados, lo cuál es lógico ya que dentro de cada conglomerado de la muestra no hay submuestreo: todas las unidades elementales del conglomerado seleccionado forman parte de la muestra. Si hubiera submuestreo, habría que añadir un componente de variabilidad debido al submuestreo dentro de cada conglomerado. Si consideramos una muestra aleatoria simple de nM elementos, la varianza de la media muestral sería: ∑ ∑ (Y N Vas ( y ) = NM − nM 1 NM nM M ij i −Y j NM − 1 ) 2 = 1− f 2 S ≠ V (y) nM La relación entre ambas puede aproximarse por [ V ( y ) ≈ Vas ( y ) 1 + ( M − 1)δ dónde 37 ] (1) TÉCNICAS DE MUESTREO ∑∑( )( ) ∑ ∑ (Y − Y )(Y − Y ) δ= = ( M − 1)( NM − 1)S ( M − 1)∑ ∑ (Y − Y ) N M i j≠k Yij − Y Yik − Y N M i j N M i j≠k ij 2 ik 2 ij define la correlación existente entre todos los posibles pares de unidades distintas dentro de cada conglomerado. δ se denomina coficiente de correlación intraconglomerados y constituye una medida de la homogeneidad existente entre las unidades elementales dentro de cada conglomerado. A la razón V ( y ) Vas ( y ) entre la varianza del estimador en un diseño particular y la varianza del estimador en una muestra aleatoria simple, con el mismo tamaño muestral en unidades elementales, se denomina efecto de diseño. En el caso de muestreo por conglomerados, el efecto de diseño es 1 + ( M − 1)δ , y corresponde al factor por el que hay que multiplicar la varianza del estimador por usar conglomerados en lugar de una muestra aleatoria simple de unidades elementales. Así pues, siempre que δ > 0 , que es lo más habitual, el muestreo por conglomerados tiene menos prcisión que el muestreo aleatorio simple para el mismo tamaño de muestra en unidades elmentales. Si δ < 0 , el muestreo por conglomerados es mas eficiente y si δ = 0 , ambos son equivalentes. En el caso de M = 1, el muestreo por conglomerados coincide con el muestreo aleatorio simple. De (1) se obtiene una expresión aproximada para el coeficiente de correlación intraconglomerados: Sb − S 2 δ≈ ( M − 1)S 2 2 Según el valor de Sb2 en relación a S2 el, el coeficiente de correlación intraconglomerados podrá tomar valores positivos o negativos. Vamos a distinguir los siguientes casos: 38 TÉCNICAS DE MUESTREO a) Sb2 = 0 . Entonces δ = − 1 , su valor mínimo, y V ( y ) = 0 . Estamos ante el caso M −1 ideal para la utilización de muestreo por conglomerados. Todas las Yi son iguales a Y y por tanto, un solo conglomerado en la muestra suministra toda la información. En otras palabras, toda la variabilidad procede de dentro de los conglomerados y todos los conglomerados son iguales entre si. Aún cuando δ no alcance su valor mínimo, siempre que δ < 0 , que no es usual en la práctica, resultará ventajoso utilizar muestreo por conglomerados. b) Sb2 = S2 . Entonces δ = 0 y Vc = Vas . La variación entre conglomerados es igual a la variación entre unidades elementales en la población. Yi varía de conglomerado a conglomerado como podría esperarse si los conglomerados hubiesen sido formados agrupando aleatoriamente las unidades elementales. Sb2 = S2 . Con δ = 0 da igual utilizar muestreo de conglomerados o de unidades elementales en lo que a precisión se refiere. c) Sb2 > S2 . Entonces δ > 0 y Vc > Vas . Es el caso mas común. La varianza entre conglomerados es mayor que la varianza de las unidades elementales en la población, es decir, Yi varía de conglomerado a conglomerado más que varían las unidades elementales en la población. Esto equivale a decir que las unidades dentro de los conglomerados son más homogéneas que lo son en la población. Cuanto mayor sea Sb2, mayor será δ y mayor el efecto de diseño o efecto conglomerado, y mayor la varianza del estimador respecto al muestreo aleatorio simple. El caso mas desfavorable será aquel en que toda la variabilidad de la población procede de la variabilidad entre conglomerados, es decir, existiese homogeneidad absoluta dentro de los conglomerados. En este caso δ tomaría su valor máximo: δ = 1 . X. MUESTREO SISTEMÁTICO Sea una población {u1 ,u2 ,# ,u N } . La selección sistemática de una muestra de n unidades se realiza en la siguiente forma: sea k = N n (suponemos N divisible por n), 39 TÉCNICAS DE MUESTREO tomamos un número i al azar 1 ≤ i ≤ k con probabilidad 1 k y la muestra sistemática queda formada por las n unidades {u ,u i+k i , ui + 2 k ,# , ui +( n −1) k } Como vemos, la selección de la primera unidad determina la muestra completa. El espacio muestral está formado por las siguientes k muestras posibles, dónde se indica el valor de la variable en estudio en cada unidad seleccionada: Muestra estratos Media 1 2 ...... i ...... k X1 X2 Xi Xk X1+k X2+k Xi+k X2k ...... ...... ...... ...... X1+(n-1)k X2+(n-1)k Xi+(n-1)k Xnk x1 x2 xi xk conglomerados Las k muestras posibles son equiprobables (prob. = 1 k ) y la probabilidad de que la unidad ui esté en la muestra es 1 k = n N . La media muestral xi = 1 n ∑ X ij n j es el estimador insesgado de la media poblacional. Observar que al utilizar dos subíndices, el primero i hace referencia a la muestra sistemática y el segundo j a la unidad elemental dentro de la muestra. El muestreo sistemático es de fácil aplicación práctica y asegura además que la muestra se extiende a toda la población. Podemos considerar la población dividida en n estratos, los cuales consisten de las primeras k unidades, las segundas k unidades, etc., es decir, al contemplar el cuadro de muestras posibles en horizontal, cada fila sería un estrato. La muestra sistemática correspondería a una muestra estratificada con una unidad por 40 TÉCNICAS DE MUESTREO estrato, por lo que sería esperable una mayor precisión respecto al muestreo aleatorio simple. La diferencia con el muestreo estratificado está en que con la muestra sistemática, las unidades seleccionadas ocupan la misma posición relativa en cada estrato, mientras que en el muestreo estratificado la selección es independiente en cada estrato, por lo que también es esperable que el muestreo sistemático sea menos preciso que el muestreo al azar estratificado. Observando el cuadro de muestras posibles, el muestreo sistemático es equivalente a considerar la población dividida en k grupos o conglomerados (columnas del cuadro), cada uno de n unidades, de los cuales se selecciona uno al azar. Es decir, una muestra sistemática es una muestra aleatoria de una unidad conglomerada de una población de k conglomerados de tamaño n. El comportamiento del muestreo sistemático respecto al estratificado o el muestreo aleatorio simple, depende en gran medida de las propiedades de la población. En poblaciones en las cuales la numeración de las unidades puede considerarse al azar respecto a la característica que se mide, cabría esperar que el muestreo sistemático fuera equivalente al muestreo aleatorio simple y que tuviera la misma varianza. Cuando la población presenta una tendencia lineal como en la figura que sigue, Xi muestra sistemática muestra aleatoria estratif. ui intuitivamente se ve que la muestra sistemática es más efectiva que la muestra aleatoria simple ya que asegura presencia en la muestra de todas las zonas de tendencia, pero es 41 TÉCNICAS DE MUESTREO menos efectiva que la muestra estratificada ya que si la muestra sistemática es muy baja en un estrato, es muy baja en todos, mientras que la estratificación da oportunidad para que los errores dentro de los estratos se compensen. El comportamiento de la muestra sistemática podría mejorarse usando una muestra centralmente ubicada. Para una población con tendencia periódica, por ejemplo una curva sinoidal, la efectividad de la muestra sistemática depende del valor de k, como puede verse en la A B A A B B B B figura, dónde la altura de la curva es la observación Yi. Los puntos A de la muestra, representan el caso menos favorable y suceden si k es igual al periodo de la curva o a un múltiplo entero del periodo. Toda observación dentro de la muestra sistemática proporciona la misma información y la muestra no es más precisa que una sola observación tomada al azar de la población. El caso más favorable (muestra B) ocurre cuando k es un múltiplo impar del medioperiodo. Toda muestra sistemática tiene una media exactamente igual a la media verdadera. Entre estos dos casos extremos, la muestra sistemática tiene varios grados de efectividad, dependiendo de la relación entre k y el periodo de la curva. Poblaciones con tendencia más o menos periódica se encuentran en la práctica con relativa frecuencia. Ejemplos son el flujo de tránsito por un punto de una carretera durante las 24 horas del día y las ventas de una tienda durante los dias de la semana. Para estimar un promedio sobre un periodo de tiempo, una muestra sistemática diaria a las 6 p. m. o cada martes, no sería obviamente juicioso. La estrategia correcta es girar la muestra sobre la curva periódica, por ejemplo, viendo que cada día de la semana esté igualmente representado, en el caso de las ventas de una tienda. 42 TÉCNICAS DE MUESTREO A partir de los resultados de una muestra aletoria simple podemos calcular un estimador insesgado de la varianza de la media muestral siempre que n > 1. Este estimador es insesgado cualquiera que sea la forma de la población. Dado que una muestra sistemática corresponde a una muestra aleatoria simple de tamaño n = 1, seleccionada de entre k conglomerados en la población, no resulta posible construir un estimador de la varianza de la media muestral. En la práctica si la población está ordenada al azar puede utilizarse la estimación de la varianza que proporcionaría una muestra aleatoria simple del mismo tamaño. XI. OTROS ASPECTOS DEL MUESTREO Habrá ocasiones en que el conocimiento previo que se dispone del Universo objeto de estudio es muy limitado e insuficiente para proceder a una estratificación eficiente o para la utilización de estimadores del tipo de razón que nos permitan importantes reducciones del error estándar. En estos casos puede ser conveniente la realización de una primera muestra, relativamente amplia, con el objeto de estimar aquellas características básicas que nos sirvan para la utilización posterior de muestreo estratificado o de estimadores de razón. Una vez determinadas las características del Universo que sean de interés, se selecciona en una segunda fase una submuestra de la primera sobre la que ya se estudian propiamente las variables objeto de estudio. Este proceso se conoce como muestreo doble o muestreo en dos fases. El proceso se justifica si la información obtenida en la primera fase permite una reducción de muestra en la segunda fase que compense costes. La muestra correspondiente a la primera fase se denomina también muestra censal, muestra maestra o censo muestral. Estas denominaciones indican un primer proceso de muestreo sustitutivo de un censo completo, es decir, cuyo fin es conocer características poblacionales, incluso el propio tamaño del Universo N, necesarios para el posterior diseño de la muestra. Este procedimiento censal en base a una muestra no debe sorprender: es práctica habitual en grandes operaciones censales proporcionar resultados basados en una muestra de los cuestionarios censales en lugar de utilizar la información completa del censo total. La muestra en segunda fase puede denominarse muestra 43 TÉCNICAS DE MUESTREO principal o muestra de estudio, ya que es la muestra sobre la que se miden las variables objeto de estudio. Cuando se estudia la teoría de muestras siempre se habla de la variable de estudio Yi. Sin embargo cuando se selecciona una muestra van a ser muchas variables Yi las que se estudien en cada unidad muestral, lo que significa que la muestra va a proporcionar multitud de estimaciones cada una con su propio nivel de error estándar, es decir, no puede hablarse de la calidad global de una muestra, sino que cada estimación que proporcione, tendrá su propio error de muestreo. Previamente habrá que haber definido un tamaño de muestra en función de un cierto error estándar. Si quisiéramos el mismo nivel de error estándar para cada variable en estudio resultarían tamaños de muestra diferentes para cada una, lo cuál, desde un punto de vista práctico no tiene sentido. Lo normal será que entre las variables a estudiar haya unas pocas de mayor importancia y sean éstas las que predominen en la determinación del tamaño de muestra, llegándose a una solución de compromiso. Un problema similar surge al establecer la distribución óptima de una muestra estratificada para distintas variables a estudiar: cada variable nos puede proporcionar afijaciones diferentes y debe llegarse a una solución única. El concepto de error de muestreo surge porque al tomar cientos o miles de muestras independientes de una población para estimar un parámetro, las estimaciones presentan una variabilidad aleatoria que puede aproximarse por la distribución normal. En una forma análoga se puede pensar que cuando una muestra proporciona cientos, miles de estimaciones se pueden aplicar las propiedades de la distribución normal y pensar que, por ejemplo, un 5% de las estimaciones quedan fuera de su intervalo de confianza ( ± 2 veces el error estándar), es decir, alejadas de la realidad, sin que pueda saberse cuales son: es el analista de los resultados el que con su conocimiento y experiencia puede separar, quizá no totalmente, aquellos datos que reflejen la realidad de aquellos otros que pueden ser debidos a variaciones extremas de muestreo o a sesgos introducidos en la muestra, no importantes para muchas de las variables investigadas pero que sí lo son para otras. En la actualidad es práctica común la de utilizar muestras para recoger series de datos sobre la misma población que se publican a intervalos regulares de tiempo. Ejemplos de 44 TÉCNICAS DE MUESTREO ello los tenemos en las encuestas de población activa o de fuerza de trabajo que realizan los paises desarrollados, los paneles de audiencia de televisión, muestras contínuas de hogares o de tiendas para medir el consumo, etc. Cuando la misma población se muestrea repetidamente en el tiempo, estamos en una posición ideal para obtener estimadores realistas de costes y varianzas y, en consecuencia, para aplicar técnicas que conducen a una utilización óptima del muestreo. Una cuestión importante en muestreo repetido es con qué frecuencia y de qué manera debe cambiarse la muestra a lo largo del tiempo. Podemos optar entre las siguientes alternativas: a) Utilizar la misma muestra, llamada panel, en cada repetición del muestreo o periodo. b) Mantener en cada periodo una proporción π c de muestra común con el periodo anterior, renovando el resto de la muestra. c) Utilizar en cada periodo muestras independientes. Hay muchas consideraciones que afectan a la decisión. Los entrevistados pueden negarse a dar la misma información una y otra vez. Los que responden pueden influirse por la información que reciben durante las entrevistas lo que contribuye a introducir paulatinamente sesgos en la muestra y suele decirse que la muestra se contamina con el tiempo. Otras veces puede haber mejor cooperación en segunda y sucesivas tomas de información. Si conseguir la colaboración de una unidad muestral implica un coste relativamente alto respecto a la toma de información puede ser aconsejable utilizar la misma muestra o una alta proporción de muestra común. Con los datos de muestras sucesivas de la misma población hay tres clases de cantidades a estimar y, en cada caso, la política de renovación de la muestra es diferente si deseamos maximizar la precisión: 1. Si deseamos estimar el cambio en Y de un periodo al siguiente o de un año al mismo periodo del año anterior, es mejor retener la misma muestra. 2. Para estimar el valor promedio Y sobre varios periodos, es mejor tomar muestras independientes en cada periodo. 45 TÉCNICAS DE MUESTREO 3. Si nuestro interés se centra en el valor promedio Y para el periodo más reciente, entonces se obtiene la misma precisión conservando la misma muestra o cambiándola en cada periodo; el cambio parcial de parte de la muestra puede ser mejor que cualquiera de estas alternativas. Lo anterior es consecuencia de la correlación positiva ρ entre las medidas de la misma unidad en dos periodos consecutivos. Al mantener la muestra constante en periodos consecutivos, existe una alta correlación entre los datos de las unidades muestrales en ambas ocasiones, lo que hace que los errores en las estimaciones tiendan a permanecer en la misma dirección (es decir, si el error es + 2,5% en el primer periodo, puede ser +1,5% en el siguiente, pero dificílmente será -3%), lo que hace que los cambios se midan con menor error absoluto que las estimaciones individuales de cada periodo. Si suponemos muestreo aleatorio simple y que la varianza poblacional es la misma en los dos periodos t1, y t2 se tiene que la varianza de la media en cada periodo es V ( y1 ) = V ( y 2 ) = S2 n y la varianza de la diferencia resulta ser V ( y 2 − y1 ) = 2S 2 (1 − ρπ c ) n obteniéndose la mayor precisión cuando la parte común de la muestra es π c = 1 , mientras que si el cambio se estima a partir de muestras independientes la varianza resulta en V ( y 2 − y1 ) = 2S 2 n Al estimar la media de los dos periodos resulta 2 y 2 + y1 S V (1 + ρπ c ) = 2 2n y si las muestras son independientes 2 y + y1 S V 2 = 2 2n 46 TÉCNICAS DE MUESTREO 2 y + y1 S Hay que notar que en el caso de π c = 1 y ρ = 1, sería V 2 , es decir, igual = 2 n a la varianza de la media de cualquiera de los periodos. Significa esto que utilizando la misma muestra en cada periodo, siempre que ρ < 1 la media de dos periodos tiene algo más de precisión que la de un periodo individual aunque, desde luego, mayor que si se utilizaran muestras independientes. En muestreo repetido de la misma población puede tener total sentido la dedicación de parte de los recursos a lo que anteriormente se ha indicado como primera fase del muestreo o censo muestral ya que su coste se amortiza sobre varias realizaciones de la muestra objetivo. En estudios periódicos en el tiempo esta primera fase censal se vuelve imprescindible si el Universo que se pretende estudiar cambia en el tiempo y no se dispone de información sobre su evolución: en estos caso resulta necesario realizar estudios censales periódicos (cada cinco, dos años, o de forma contínua) para preservar de sesgos a la muestra de estudio. Lógicamente, la muestra de estudio, aunque se pretenda constante en el tiempo, estará afectada por la propia evolución del Universo y será necesario introducir cambios paulatinos en la misma para su adaptación al carácter cambiante y evolutivo del Universo. Cuando se muestrean poblaciones con un alto grado de asimetría ya se vió la importancia del muestreo estratificado para la precisión. En estos casos la varianza por estrato suele aumentar con el valor de la variable de estudio (tamaño de la unidad) de forma que la afijación óptima es la única garantía para que el factor de expansión de las unidades grande o muy grandes se mantenga dentro de límites razonables. Pensemos que en cualquier proceso de muestreo, el total poblacional se estima aplicando a cada unidad muestral un factor de expansión Fi, de forma que el total estimado es n YF Y! = ∑ Yi Fi . La cantidad i i es la contribución de la i-ésima unidad muestral a la Y! 1 estimación y es la misma para la estimación del total que para la media. Con muestreo aleatorio o con afijación proporcional Fi es igual para todas las unidades muestrales y la contribución depende del valor Yi: valores muy altos van a resultar en contribuciones muy altas y estimaciones con alto error de muestreo y, por tanto, poco fiables. Resulta intuitivo que cuanto mayor es Yi menor debe ser Fi con el fin de preservar a la 47 TÉCNICAS DE MUESTREO estimación final de contribuciones extremas debidas a una sola o unas pocas unidades: no parecería muy fiable una estimación obtenida con una muestra de 100 unidades (100 sumandos) , de las cuales una sola de ellas represente el 80% del total estimado, cuando cada sumando en promedio contribuya con un 1%. La afijación óptima es la única garantía para evitar estos problemas. XII. ERRORES NO DE MUESTREO Hasta ahora hemos supuesto que 1) la población marco coincide con la población objetivo, 2) que la muestra real alcanzada se corresponde con la muestra inicialmente planificada y seleccionada probabilísticamente y 3) que la información obtenida en cada unidad muestral es correcta. En estas condiciones la única fuente de error del estimador es el error de muestreo que es la variación aleatoria que se presenta cuando se miden n de las unidades en lugar de la población completa N. Lamentablemente esta situación ideal no se da con frecuencia en la práctica y debemos asumir la presencia de otros errores, que se presentan cuando no se cumple cualquiera de los tres supuestos mencionados y que se agrupan bajo el nombre de errores no de muestreo o errores ajenos al muestreo. Cuando la población marco no coincide con la población objetivo tenemos los llamados errores de cobertura. Recordemos que la población marco es la población que sirve de base para la selección de la muestra. Podemos pensar en un listado del que se selecciona la muestra: puede haber unidades de la población objetivo no contenidas en el listado (omisiones) o puede haber unidades en el listado que no se corresponden con la población objetivo (unidades vacias), incluso el listado puede contener unidades duplicadas: (2) (1) (3) (1)+(2) = población marco 48 TÉCNICAS DE MUESTREO (1)+(3) = población objetivo Con la muestra seleccionada de la población marco podremos estimar la proporción de unidades (1) y hacer que los resultados estimados se refieran al Universo (1), parte coincidente entre la población marco y la población objetivo, pero no a la parte (3), conjunto de unidades omitidas en el listado. Una solución para disminuir errores de cobertura puede ser la utilización de varios listados. No obstante, si las proporciones (2) y (3) son altas será necesario utilizar conjuntamente una muestra de la lista junto con otro procedimiento de selección, por ejemplo áreas, que nos permita acceder a la parte (3). Una muestra en primera fase nos puede servir para determinar estimaciones de (1) y (3) y por tanto de la población objetivo. Los problemas de cobertura no son exclusivos de la utilización de listas. Pensemos en un muestreo por áreas en una ciudad en el que se parte de planos o mapas incompletos: manzanas, urbanizaciones o barrios de reciente construcción pueden quedar omitidos del marco. Cuando la muestra real alcanzada no se corresponde con la muestra inicialmente planificada, es decir, no se obtiene información en todas las unidades de la muestra, decimos que existe falta de respuesta o no respuesta. Aparte la no respuesta por unidades omitidas en el marco, ya mencionada, la falta de respuesta puede agruparse en dos principales tipos: a) No localizado o falta de contacto, que puede ser debido a: a1) Ausencia temporal durante las horas de entrevista (no-en-casa). Es conocido que familias en las cuales ambos padres trabajan y las familias sin niños son más difíciles de alcanzar que familias con niños pequeños o con personas jubiladas. a2) Viaje, vacaciones. a3) Enfermedad. a4) Problemas de lenguaje. a5) Movilidad gegráfica: cambio de dirección o domicilio, cambio de ciudad. a6) Falta de motivación o experiencia en el entrevistador para contactar con el entrevistado. Está comprobado que las tasas de no respuesta varían por entrevistador. 49 TÉCNICAS DE MUESTREO a7) Barrio o vecindad “dificil”. b) Negativa a colaborar, debido a: b1) Falta de tiempo. b2) Falta de motivación o de interés por el tema de la encuesta. b3) No desea que el entrevistador conozca sus respuestas u opiniones. b4) No desea estar “registrado”. b5) Cansancio de las entrevistas. b6) Cuestionario demasiado largo, preguntas complicadas, preguntas que rozan la intimidad. b7) Los “hueso duro”. Personas que cerradamente rechazan ser entrevistadas o están sistemáticamente fuera de casa durante el tiempo disponible para el trabajo de campo. b8) Falta de habilidad del entrevistador para conseguir la colaboración. Vale aquí el comentario de a6): hay entrevistadores que consiguen mejores tasa de respuesta que otros. b9) La colaboración es, finalmente, voluntaria: “Busque a otro que yo no puedo ahora”. A estos dos grupos de no respuesta puede añadirse la falta de respuesta parcial: el entrevistado no responde a parte de las preguntas porque no tiene la información o, simplemente, no está dispuesto a facilitarla. Para evaluar los efectos de la falta de respuesta conviene pensar en la población dividida en dos estratos: en el primero se incluyen todas las unidades para las cuales se obtendrían mediciones si caen en la muestra y en el segundo se incluyen las unidades para las que no se obtendrían mediciones. La muestra no proporciona información del estrato 2, lo cuál no sería un problema si se pudiera suponer que las características que se miden en el muestreo son las mismas, en promedio, en el estrato 2 que en el estrato1. Desde el momento que esto no sea así estaremos en presencia de un sesgo causado por la falta de respuesta. Suponiendo muestreo aleatorio simple, sean N1 y N2 el número de unidades en el Universo en cada uno de los dos estratos y W1 = N 1 N , W2 = N 2 N , es decir, W2 es la proporción de no respuesta en toda la población y W1 la proporción de respuesta. 50 TÉCNICAS DE MUESTREO Terminado el trabajo de campo tenemos datos del estrato 1 pero no del estrato 2 y siendo la media muestral y1 estimador insesgado de la media poblacional del estrato 1, Y1 , la cantidad de sesgo en la media de la muestra es E ( y1 ) − Y = Y1 − Y = Y1 − (W1Y1 + W2 Y2 ) = W2 (Y1 − Y2 ) es decir, el sesgo es el producto de la proporción de no respuesta y la diferencia entre las medias de los dos estratos. Al no disponer de información de Y2 , el tamaño del sesgo es desconocido. La falta de respuesta no debe ignorarse o pensar que se corrige sustituyendo en la muestra a los que no responde por otros que sí colaboren, ya que ello no va eliminar el sesgo, simplemente nos mantiene el tamaño de muestra. Por el contrario hay que ser conscientes de que la no respuesta va a ocurrir y asignar, en lo posible, algunos recursos y disponer de algunas estrategias para reducir su proporción. Algunos procedimientos para reducir la no respuesta son: 1) Cartas y llamadas telefónicas por adelantado. 2) Dar algún incentivo por la colaboración. 3) Programar visitas repetidas puede ser de gran efectividad para reducir los no-en-casa. 4) Mejora de los procedimientos de recogida de información. Si la información se recoge por entrevista personal el entrenamiento del entrevistador es fundamental: la interacción positiva entrevistador-entrevistado es básica para el éxito de la entrevista, lo cuál puede requerir que el entrevistador disponga de distintas estrategias para afrontar la entrevista en función de ciertas características observables de los encuestados. Preservar la intimidad del entrevistado puede favorecer el dejarle el cuestionario para que lo rellene y envíe posteriormente por correo, aunque se haya tenido un primer contacto personal para obtener la colaboración. Otro aspecto a tener en cuenta es que cuanto más activa (más tiempo requiere) sea la colaboración de la unidad muestral menor es su disposición a colaborar: pensemos en un panel de audiencia de TV en el que el hogar debe rellenar y enviar por correo un largo y tedioso cuestionario sobre qué ha visto cada día en relación con la instalación de un audímetro conectado al televisor que registra y transmite lo que el televisor emite en cada momento; la colaboración del hogar en el caso del audímetro es mucho más pasiva (menos molestia), lo cuál favorece la colaboración. 51 TÉCNICAS DE MUESTREO En la práctica y a pesar de las medidas que se tomen será imposible, en general, reducir la no respuesta a cero por lo que se hace imprescindible su medición y control. Un primer aspecto en este sentido es cuantificar la tasa de no respuesta según distintas causas. Ello puede ayudar para reducir las tasas de no respuesta en encuestas posteriores. En ocasiones será posible recoger ciertas características observables de las unidades no respuesta que puedan ser utilizadas posteriormente en procedimientos de ajuste para remover los sesgos de no respuesta en las estimaciones finales. Normalmente, además de las variables que hayan servido para la estratificación del Universo se dispone de información poblacional de otras características que pueden servir para controlar la “microrrepresentatividad” final de la muestra obtenida, comparando los valores poblacionales de estas variables conocidas con los estimados por la muestra. Éste control de microrrepresentatividad es fundamental en presencia de falta de respuesta y nos puede ayudar a determinar ciertas características del estrato de no respuesta Las desviaciones que se producen pueden utilizarse para modificar los factores de expansión originales de cada unidad muestral, en un proceso iterativo, hasta conseguir que los valores “estimados” coincidan con los conocidos en el Universo para las distintas variables incluidas en el proceso. Este proceso iterativo de ajuste en los factores originales de expansión se conoce también como equilibraje de la muestra y puede contribuir a remover sesgos introducidos en la muestra final, en la medida en que las variables objeto de investigación puedan estar correlacionadas con las variables que intervienen en el proceso de equilibraje. Un tercer tipo de error no de muestreo se produce por errores de medición y errores que se introducen en la producción de los resultados de una encuesta. Estos errores suceden cuando el valor medido Yi* (o el utilizado para la estimación) no se corresponde con el valor real Yi. Se conocen también por errores de respuesta y pueden ser varias las causas que los producen: 1) Instrumentos de medición inadecuados o sujetos a error. 2) Fallos de memoria. El entrevistado responde lo que él cree que hizo, pero no lo qué realmente hizo. 52 TÉCNICAS DE MUESTREO 3) El entrevistado dá una respuesta falsa, bién inducido por el entrevistador (quizá por el cuestionario), o bién porque no desea que “su verdad” quede registrada (“qué dirán...”). 4) Olvido. Por ejemplo en un panel de hogares el hogar colaborador olvida anotar algunas compras en el diario o en un panel de audímetros una persona olvida identificarse. 5) Falta de información. El informante no dispone de toda la información para contestar y da una respuesta aproximada. 6) Errores de codificación y grabación que introducen en el proceso un valor erróneo con independencia de que el valor original fuera correcto o no. Si suponemos que las mediciones Yi estan sujetas a un sesgo constante B = Yi * − Yi cuya magnitud se desconoce, entonces la media muestral está también sujeta al sesgo, mientras que la estimación del error de muestreo no se ve afectado por el sesgo ya que se deriva de una suma de cuadrados de los términos (Yi − y ) . Este hecho puede 2 desvirtuar los límites de confianza, al aplicar a una cantidad sesgada una variabilidad que no contempla el sesgo. Con sesgo constante, estimadores de cambio de un periodo a otro o de un estrato a otro permanecen sin sesgo, precísamente por la constancia del mismo. Si los errores de medición son independientes de unidad a unidad dentro de la muestra y promedian cero sobre toda la población la media muestral sigue siendo estimador insesgado y los errores de medición son tenidos en cuenta en el cálculo de errores estándar. La precisión de las estimaciones disminuye. Si los errores de medición no son independientes la formula usual de error estándar es un subestimador, debido a que en la práctica la correlación intramuestra de los errores será positiva. Una técnica útil para para el estudio de errores correlacionados es el de submuestras mutuamente penetrantes. En forma simple consistiría en dividir una muestra aleatoria de n unidades en k submuestras de n/k unidades cada una. El trabajo de campo y procesamiento se planean de forma que no hay correlación entre los errores de medición de dos unidades cualesquiera en submuestras diferentes. Por ejemplo si la correlación que hay que tratar proviene solo de sesgos imputables a los entrevistadores se puede 53 TÉCNICAS DE MUESTREO asignar cada submuestra a un entrevistador. Un análisis de varianza posterior “entre submuestras” y “dentro de submuestras” ayuda a determinar el efecto del entrevistador. Con datos cuantitativos se mencionó anteriormente el concepto de contribución de una unidad muestral al total estimado. El análisis cuidadoso de las contribuciones puede ayudar en la detección de datos especialmente extremos que pueden tener efectos fuertes en las estimaciones y provenir de errores de medición. Como comentario final hay que decir que al planear un estudio por muestreo debe prestarse especial atención a los errores no de muestreo que pueden presentarse en cualquier fase del trabajo y, si son importantes, incluso invalidar los resultados. Por otra parte detectarlos y cuantificarlos no es tarea fácil. Sólo la anticipación y el análisis cuidadoso de cada paso en el proceso de muestreo y de los resultados pueden ayudar. Los errores de muestreo desde el momento que pueden ser evaluados y estimados dejan de tener importancia. El error de muestreo se constituye en una medida de la calidad del diseño teórico de la muestra pero no mide la calidad real, afectada por los errores no de muestreo. 54