Universidad Nacional de Colombia Facultad de Ciencias Departamento de Estadística SIMPOSIO DE ESTADÍSTICA SAN ANDRÉS, 2000 TÉCNICAS DE DISEÑO DE ENCUESTAS Leonardo Bautista Sierra Profesor Asociado Universidad Nacional de Colombia San Andrés, Colombia, julio de 2000 Simposio de Estadística 2000 3 1. EL PLAN MUESTRAL Tres son los componentes que pueden ser considerados como partes fundamentales de lo que constituye un plan muestral para un estudio o encuesta. Ellos son las definiciones básicas, los estimadores a utilizar y el propiamente llamado diseño muestral o procedimiento de selección aleatoria. Las definiciones básicas indispensables en la conformación del plan muestral son el UNIVERSO de estudio, las VARIABLES de interés y los PARÁMETROS a estimar. Estas definiciones, así como la información, los recursos y el tiempo disponible son los condicionantes del plan. La estrategia muestral se construye luego, sobre la base de los condicionantes particulares del estudio, mediante la combinación de estimadores y diseños muestrales a utilizar. Finalmente, el resultado de un proyecto de muestra para encuesta se plasma en el informe o propuesta técnica de plan muestral. Estos son los temas a considerar en los próximos cinco numerales. 1.1 Definiciones básicas 1.1.1 Universo de estudio El primer aspecto a tratar es el relativo al denominado UNIVERSO DE ESTUDIO, en este sentido se tienen que diferenciar al menos cuatro conceptos que aunque tienen nombres similares deben ser claramente diferenciados al momento de interpretar los resultados de una encuesta. El primer término se puede denominar el universo ideal y se trata del conjunto sobre el cual el investigador y no propiamente el muestrista, pretende obtener alguna información y sobre el cual recaerán, posiblemente las consecuencias de las decisiones basadas en los resultados de la encuesta. La segunda expresión recibe con frecuencia el título de población objetivo y constituye el conjunto de elementos que partiendo del universo ideal puede ser realmente alcanzado por el investigador. Una vez definido el universo ideal del investigador, los ajustes recortes, bien por operatividad, razones políticas, económicas, o sociales Técnicas de diseño de encuestas 4 Simposio de Estadística 2000 conducen a lo que se denomina población objetivo. Por ejemplo la diferencia entre el concepto general de caficultor y la precisión posterior basada en una cantidad mínima de área sembrada en café. Otro ejemplo es aquel en el que el universo ideal lo constituye el grupo de conductores de servicio público pero la población objetivo se limita a aquellos conductores de servicio público con una antigüedad no menor a seis meses y una dedicación no inferior a 30 horas semanales en la actividad en el último semestre. Otro ejemplo, con un sentido algo diferente puesto que no se trata de recortar el universo ideal, sino por el contrario, de ajustarlo, es el caso de un estudio sobre los propietarios de vehículo. La definición jurídica, es decir tomada a partir de la tarjeta de propiedad adjudica el vehículo a la entidad financiera, por ejemplo a la compañía de Leasing sin embargo el investigador está interesado en la opinión de quien lo usa como propietario. Las definiciones del investigador tienen todavía que pasar por un tamiz adicional. Para conseguir información a partir de una encuesta se necesita un plan de muestreo probabilístico y este se basa en un marco muestral. El tercer término relacionado con el universo es el marco de muestreo. El marco de muestreo es el dispositivo que permite identificar y ubicar los sujetos que toman parte en los diferentes procesos de selección al azar. En muchos estudios, una gran parte de los recursos se invierten en la construcción, la corrección y la complementación de los marcos. De hecho el marco constituye el primer instrumento indispensable de todo plan muestral y muchos investigadores ven recortadas sus aspiraciones por la ausencia de un marco muestral adecuado. En algunos casos la imposibilidad de financiar la construcción o consecución del marco muestral conduce a la renuncia del método estadístico de encuesta como metodología de investigación. En tales casos se hacen estudios no probabilísticos sin posibilidad de inferencia estadística y que son tomados como estudios de caso o sondeos sin pretensiones de generalización. En muchos casos no se dispone de un marco de elementos pero si se dispone del marco de conglomerados o conjuntos de elementos. Por ejemplo no se dispone del marco de alumnos de octavo grado escolar, pero si se dispone del listado en el que es posible identificar y ubicar cada uno de los colegios de la ciudad. En estos casos se aplica un diseño de conglomerados o en varias etapas. Técnicas de diseño de encuestas Simposio de Estadística 2000 5 El marco de muestreo se ve finalmente afectado por lo que se podría denominar la población susceptible de encuesta que viene a ser el cuarto y último término relativo al universo de estudio. La población susceptible de estudio se refiere al conjunto de elementos del marco muestral con probabilidad mayor a cero de ser incluidos en la muestra. Respecto a esta diferencia entre marco y población susceptible de encuesta es importante resaltar la imposibilidad cada día más alta de acceso a los sectores sociales de más alto nivel socioeconómico. Las condiciones nacionales marcadas por la inseguridad de personas y familias hace que los sectores más pudientes establezcan sistemas de seguridad que impiden el acercamiento el acceso y que hacen prácticamente imposible la consecución de información. El hecho de tener la identificación y la ubicación de los principales productores en una rama económica no garantiza que se pueda acceder a ellos y menos que se pueda conseguir la información. La meta del muestrista es encontrar mecanismos que cierren la brecha entre el universo ideal del investigador y la población susceptible de encuesta. Para ello es primordial la consideración de diferentes marcos de muestreo y el planteamiento de formas de acceso adecuadas para diversos subconjuntos del universo; lo que de hecho conduce a diseños muestrales estratificados por razones operativas y de acceso. 1.1.2 Variables de interés La segunda definición importante es la referente a las variables de interés. Un razonamiento similar al del universo de estudio se plantea en muchos casos para remarcar la diferencia entre variable ideal del investigador y la variable operacional, es decir aquella que está en condiciones de ser observada y ser objeto de medición. La tarea del muestrista es encontrar la forma de que la variable operacional que él propone refleje lo más cercanamente posible el concepto que el investigador pretende estudiar. Es por este tipo de trabajo que en algunas partes del mundo al estadístico y en particular al muestrista se le conoce con el título de metodólogo o experto en me- Técnicas de diseño de encuestas Simposio de Estadística 2000 6 todología de medición. Sin embargo, en muchos casos la forma de medición de un fenómeno hace parte inherente a la disciplina del investigador y el papel del muestrista se limita entonces a determinar y controlar las fuentes de variación de los procesos de medición, como por ejemplo calibración de equipos, instrumentos y operarios, memoria de los fenómenos, ruido, etc. Dentro del resto de este escrito se denominará con el nombre de ELEMENTO al objeto de medición u observación. El universo es el conjunto de elementos. Para el k-ésimo elemento del universo las medidas de las variables X, Y, Z serán notadas con la nomenclatura xk, yk, zk. El universo se dirá compuesto por N elementos, N cantidad finita aunque no necesariamente conocida, como en el caso del muestreo en varias etapas. 1.1.3 Parámetros a investigar Finalmente como última componente previa y necesaria para poder iniciar la elaboración de una estrategia muestral es la respuesta al QUË se quiere medir. Es la determinación de los PARÁMETROS objeto de estudio, es decir las características poblacionales de interés. Estadísticamente, el valor de la característica en un elemento es útil sólo en la medida que él se integra con los valores de otros elementos para conformar una medida poblacional. Así por ejemplo desde la perspectiva de encuesta el objetivo no es saber la producción de un productor particular sino estimar la producción nacional. La meta no es saber cuanto gasta un determinado hogar en educación sino estimar el porcentaje regional de gasto de los hogares en educación. Obviamente para alcanzar la meta propuesta, y debido a la metodología estadística, es necesario realizar las observaciones de los elementos, pero ellas no constituyen un objetivo en sí. El objetivo de la encuesta es el conocimiento de características poblacionales, por ello sus instrumentos de observación son muy diferentes a los utilizados en los exámenes o estudios en los que el objetivo es el conocimiento a fondo del elemento observado. Cómo se verá más adelante esta diferencia de objetivos conduce a la diferencia entre el cuestionario de encuesta y la ficha de expediente. Las características poblacionales de interés, desde la perspectiva muestral son de tres tipos TOTALES, RAZONES o INDICADORES especiales. Técnicas de diseño de encuestas Simposio de Estadística 2000 7 Los totales son la suma sobre el universo de la variable en estudio. Se notará en este escrito como ty y se define como: t y U yk La variable y puede ser de tipo cuantitativo y el total de interés es entonces el acumulado en el universo. Ejemplos de este caso son: La producción total de arroz en una región, en cuyo caso el elemento es la unidad de producción agropecuaria UPA. La cantidad total de accidentes de tráfico en un departamento en un año, con el municipio como elemento. El monto total de ventas en una determinada rama del comercio, con la empresa de comercio como elemento. La cantidad de niños de una ciudad que en edad escolar no visitan un centro educativo, tomando como elemento el hogar. Un caso particular de repetida aplicación es cuando la variable y cuenta si un elemento posee o no una determinada característica, en tal caso se dice que el total es sencillamente la frecuencia absoluta con que se presenta la característica en estudio. Sea Ud el conjunto de elementos del universo que poseen la característica d en estudio, su complemento se nota como U dc . El parámetro de interés es entonces Nd la cantidad de elementos que constituyen el subconjunto Ud. Se define para este caso la variable el total 1 si k U d ydk c 0 si k U d N d t yd U ydk en forma tal que el parámetro de interés se convierte en . Ejemplos de este total son: La cantidad de hogares de la ciudad que consumen un determinado producto. La cantidad de personas económicamente activas que buscan empleo. Técnicas de diseño de encuestas Simposio de Estadística 2000 8 La cantidad de casos de una determinada enfermedad que llegaron a los hospitales de la ciudad en el semestre anterior. La cantidad de niños de una ciudad que en edad escolar no visitan un centro educativo, tomando como elemento el niño. Un caso particular y frecuente que aunque parece trivial, es de mucha importancia es el caso del tamaño total del universo, muchas veces desconocido. Para este caso particular se utiliza en este escrito la notación zk = 1 para todo k U ; así t z U zk U 1 N Desde el punto de vista práctico el parámetro que se estudia en la gran mayoría de los casos es del tipo de RAZON. Una razón la define el muestrista como el cociente de dos totales. Es decir, para un estudio en el que para cada elemento se estudian dos características y, z, y se tienen los totales ty, tz una razón está definida como: R ty tz U yk U zk . Ejemplo cuando las dos variables son de tipo cuantitativo son: El rendimiento en toneladas por hectárea sembrada en una región de la producción de maíz, como el cociente de la producción total de maíz en la cosecha sobre el total de área sembrada. La productividad en una empresa en términos de unidades producidas por hora de maquina, como el cociente del total de unidades producidas sobre el total de horas trabajadas por las máquinas. El consumo de combustible en términos de kilómetros recorridos por galón de combustible en una empresa de transporte. Es tal caso la razón deseada es el cociente entre el total de kilómetros recorridos por los vehículos de la empresa, sobre el total de combustible consumido en el mismo período de tiempo. Muchas veces la razón de interés es el cociente entre dos frecuencias, por ejemplo: Técnicas de diseño de encuestas Simposio de Estadística 2000 9 La proporción de personas que favorecerán con su voto a un candidato sobre el conjunto de quienes piensan participar en la consulta. Es entonces el cociente entre la cantidad de quienes apoyan al candidato sobre la cantidad de quienes tienen intención de participar en la elección. En este caso se exige casi siempre que los pertenecientes al grupo de favorecedores del candidato sea subconjunto del grupo con intención de voto. La proporción de hogares que prefieren una determinada marca en el conjunto de los hogares consumidores de un determinado producto. Es decir el cociente de la cantidad de los que han consumido la marca en el último mes sobre la cantidad de hogares consumidores de ese producto. Particularmente sea el ejemplo de la proporción de hogares que vieron un determinado programa de T.V en el conjunto de hogares que vieron T.V en ese horario. La denominada tasa de analfabetismo expresada como el cociente de la cantidad de personas mayores de trece años que no saben leer y escribir sobre la cantidad de personas mayores de trece años. En forma similar se definen tasas de fecundidad, natalidad, migración, desempleo y muchas más. Algunas veces la razón de estudio recibe un nombre particular. Demanda insatisfecha por ejemplo como el cociente entre la cantidad de usuarios que solicitaron y no recibieron servicio sobra la cantidad total de usuarios que solicitaron servicio. Cobertura como el cociente entre la cantidad de usuarios que recibieron el servicio sobre la cantidad total de usuarios con derecho a recibirlo. Un caso especial de RAZÓN es cuando se pregunta por los promedios, sea ya el promedio poblacional y los promedios de dominio. Técnicas de diseño de encuestas Simposio de Estadística 2000 10 En el primer caso se trata de la razón YU medios de dominio se trata de la razón YUd ty N t yd Nd y 1 U k U U ydk U zdk U yk U zk ty tz . Para los pro- 0 si k U d con ydk y k si k U d 0 si k U d zdk 1 si k U d En ocasiones se busca información sobre parámetros diferentes a totales y razones. Es el caso de estimar los coeficientes de un modelo de regresión, los percentiles de una distribución, o la covarianza entre variables. De acuerdo con la teoría muestral el mecanismo utilizado para estimar cualquier parámetro consiste en expresarlo como función de totales. 1.2 Definiciones estadísticas Aunque existen varias metodologías para alcanzar algún nivel de conocimiento sobre características de una población, se trata en este texto de un único método y es el basado en modelos de probabilidad y conocido generalmente como métodos de inferencia estadística y llamado por los especialistas con el nombre de muestreo estadístico. El muestreo parte de las definiciones básicas de universo de estudio, variables de interés y parámetros a investigar y utiliza conceptos propios de la estadística, los cuales se presentan a continuación. 1.2.1 Muestra probabilística En teoría de muestreo se parte de un universo finito. Una muestra es el conjunto de elementos extraídos del universo ya sea mediante un método sin reposición, en el cual las muestras son de tamaño menor o igual al universo, o mediante métodos con reposición en los que es posible que las muestras sean mayores al universo. Técnicas de diseño de encuestas Simposio de Estadística 2000 11 El método de inferencia estadística tiene su sustento teórico en modelos de probabilidad aplicables solamente a muestras probabilísticas. Una muestra es probabilística si cumple: 1. Se dispone de un marco de muestreo para los objetos a ser seleccionados. Estos objetos son los ELEMENTOS constitutivos del universo o agrupaciones de elementos, denominadas UNIDADES de MUESTREO. 2. Todos los objetos de selección tienen una probabilidad conocida de antemano y mayor a cero de ser incluidos en una muestra. 3. El mecanismo de selección de la muestra corresponde a las probabilidades asignadas con anterioridad a cada objeto. Respecto al marco de muestreo vale la pena hacer los siguientes comentarios: El marco debe permitir IDENTIFICAR y UBICAR a todos y cada uno de los objetos posibles de selección. Disponer de la cantidad total de objetos del universo o sólo de la identificación de ellos no es suficiente para obtener una muestra probabilística por cuanto una vez seleccionado un determinado individuo no es posible localizarlo. Los frecuentes defectos de los marcos son la subcobertura, es decir no están todos los que deberían, la sobrecobertura, es decir el marco contiene a muchos que ya no son integrantes del universo y la repetición, es decir varios objetos aparecen en el marco más de una vez. La inferencia estadística planteada por la teoría muestral parte del conocimiento de las probabilidades de selección o inclusión de cada uno de los objetos susceptibles de hacer parte de la muestra. El colocar un entrevistador en un cruce a preguntar a quien se detiene ante el semáforo en rojo, es un mecanismo que aunque pretende ser al azar no parte del conocimiento previo de las probabilidades de inclusión en la muestra, por lo que se trata de un método no válido para realizar inferencia estadística. Pero si se puede realizar la inferencia cuando en un marco de muestreo constituido por los minutos del período de atención de una unidad de servicio se escogen Técnicas de diseño de encuestas Simposio de Estadística 2000 12 con probabilidad conocida algunos minutos y en ellos se aplica un cuestionario a todos los clientes que en ese minuto abandonan la unidad de servicio. La probabilidad de selección o de inclusión de un objeto es lo que permite el paso de lo observado en la muestra a la inferencia de lo buscado en la población. La inferencia que se realice con base en probabilidades no ciertas conducirá a decisiones equivocadas. El hecho de conocer las probabilidades de selección de los objetos, debe ir acompañado del proceso de selección aleatoria que le corresponda. Para ilustrar lo que debe y lo que no debe ser en el sentido de hacer corresponder las probabilidades conocidas y las realmente aplicadas sea el ejemplo en el que se planea un estudio acerca de las preferencias entre los consumidores de detergente. El muestrista establece que al llegar a un hogar se debe seleccionar una única persona, la ama de casa debe tener probabilidad de selección igual a 0.5 y los demás adultos deben tener cada uno de ellos igual probabilidad de selección. A cada entrevistador se le entrega una pequeña calculadora de bolsillo se le enseña a obtener un número aleatorio de tres cifras y se le instruye así: Realice el enlistamiento de personas adultas en el hogar, respetando el número cero para la ama de casa y del uno en adelante para las personas mayores de 18 años. Registre el número total de personas en la casilla respectiva. Obtenga un número aleatorio de su calculadora de bolsillo. Si el número aleatorio termina en número impar entreviste el ama de casa. Si el número aleatorio termina en número par seleccione la persona de acuerdo a la tabla de selección. Si la persona está ausente vuelva en otra oportunidad a realizar la entrevista. Si luego de seis visitas en días y horas distintas no logra la entrevista avise a su supervisor. Técnicas de diseño de encuestas Simposio de Estadística 2000 13 TABLA DE SELECCIÓN Entreviste la persona número ___ dependiendo del número aleatorio obtenido Cantidad de personas Si el número aleatorio ob- Seleccione la persona adultas en el hogar tenido está en el intervalo número Una Cualquiera 0 Dos De 0.002 a 0.998 1 De 0.002 a 0.500 1 De 0.502 a 0.998 2 De 0.002 a 0.332 1 De 0.334 a 0.666 2 De 0.666 a 0998 3 De 0.002 a 0.250 1 De 0.252 a 0.500 2 De 0.502 a 0.750 3 De 0.752 a 0.998 4 Tres Cuatro Cinco etc. Pero si el instructivo señala que la entrevista se aplica a quien abra la puerta, o a una de las personas presentes en el hogar, entonces la probabilidad de selección no es conocida, infringiendo así el punto dos. Si luego del enlistamiento se vuelve a la oficina y se realiza una selección sistemática no se consigue la correspondencia entre la probabilidad preestablecida y la realmente aplicada. La correspondencia entre las probabilidades explicitadas y las aplicadas mediante la forma de selección, se evidencia en las fórmulas matemáticas aplicadas luego de la selección de la muestra a fin de obtener los valores poblacionales que se buscan con el estudio. Cuando se cumple la correspondencia entre lo planteado y lo realizado las fórmulas aplicadas son las correctas, cuando esta correspondencia no existe, las fórmulas aplicadas no son correctas y los errores pueden ser inmensos, errores en términos de las dos principales medidas de calidad el insesgamiento y la varianza. Técnicas de diseño de encuestas Simposio de Estadística 2000 14 1.2.2 Estimador estadístico Una vez obtenidos los valores muestrales y1, y2, ... , yns se deben expandir en forma tal que conduzcan al valor que será tomado como posible valor poblacional. La fórmula utilizada para expandir se denominará ESTIMADOR. La teoría del muestreo presenta tres estimadores principales para estimar el total de un universo. Ellos son el π-estimador o estimador de Horvitz-Thompson, el MCRestimador o estimador de Hansen y Hurwitz y el r-estimador. El π-estimador utiliza las probabilidades de inclusión, es decir la probabilidad de que el elemento pueda ser incluido en una muestra para realizar la expansión. En este y caso el estimador está dado por la fórmula tˆy m k m ak . yk donde la suma so- k bre m significa la suma sobre los elementos de la muestra. π k simboliza la probabilidad de inclusión del k-ésimo elemento, yk es el valor medido para ese mismo elemento. En este caso el factor de expansión ak es el inverso de la probabilidad de inclusión πk. El MCR-estimador, llamado así por las siglas de Muestreo Sin Reposición, utiliza las probabilidades de selección de los elementos para construir el factor de expansión. 1 y El MCR estimador está dado por tˆy m k m ak . yk . En esta fórmula m es el m pk tamaño de la muestra pk es la probabilidad de selección del k-ésimo elemento, yk su valor observado y el factor de expansión es el promedio de los inversos de las probabilidades de selección. Los dos estimadores conducen a resultados diferentes para una misma muestra pero son en principio de calidad comparable en términos de insesgamiento y varianza como se verá más adelante. La diferencia de utilización de estos dos estimadores radica en la relativa facilidad o dificultad de establecer las probabilidades de inclusión o de selección de los objetos a escoger. En general para los diseños de muestreo o Técnicas de diseño de encuestas Simposio de Estadística 2000 15 maneras de selección sin reposición las probabilidades de inclusión son fáciles de determinar y de ahí la utilización del π-estimador. En diseños con reposición las probabilidades de inclusión son difíciles de obtener, pero en cambio las de selección son directas por lo que se prefiere el MCR-estimador. El tercer estimador principal, pues existen muchos otros de menor uso, es el r estimador que tiene como principio de construcción la disponibilidad de información auxiliar completa y de alta calidad. Se supone que para el estudio de la variable y se dispone de información para todo el universo de la variable auxiliar x. El r-estimador se construye entonces aplicando un modelo de regresión entre x, y con los valores de la muestra y utilizando ese resultado para estimar el total ty. De una manera sencilla se puede expresar el r-estimador del total mediante la fórmula: xj x U . ak . yk ak . U j . yk ak .g ks . yk tˆyr m m al .xl m al .xl m m donde ak es el factor de expansión correspondiente a un π-estimador ó MCRestimador y gks es el factor de ajuste entre la “verdad” del total de x y su estimación mediante la muestra. Obviamente se trata aquí de una expresión sencilla que ilustra la concepción del r-estimador y que toma esta forma en un caso particular1, frecuente pero no de validez general. El r-estimador se puede aplicar si se dispone de la información auxiliar necesaria. Su calidad en comparación con los otros dos estimadores puede llegar a ser muchas veces superior, dependiendo de la calidad de la información auxiliar. Se trata de un estimador que aunque con algo de sesgo puede conducir a resultados con muy poca varianza, lo que quiere decir que para alcanzar un determinado resultado de calidad, la aplicación de este estimador necesitará muestras mucho más pequeñas que las requeridas para alcanzar igual calidad con el π-estimador o el MCR-estimador. 1 Modelo univariado, heterocedástico sin intercepto Técnicas de diseño de encuestas Simposio de Estadística 2000 16 1.2.3 La calidad del estimador Para entender los conceptos de calidad de un estimador hay que tener presente que cada muestra que se obtenga arrojará, al aplicar la fórmula de estimación, un resultado diferente. Puesto que se trata de un muestreo probabilístico es posible determinar el valor numérico de la probabilidad de cada muestra. Hipotéticamente se podría entonces establecer el valor estimado por cada una de las posibles muestras y calcular su esperanza y su varianza. Así por ejemplo suponga el universo de cinco elementos u1, u2, u3, u4, u5 con los valores y1 = 25, y2 = 48, y3 = 70, y4 = 18, y5 = 44, lo que quiere decir que en la población el total es igual a 25 + 48 + 70 + 18 + 44 = 205. Para este universo con total desconocido por supuesto, se quiere estimar su total con base en una muestra de tamaño igual a dos. Suponga entonces que se plantea una muestra de diseño MAS (Muestreo Aleatorio Simple). Es decir la probabilidad de cada muestra es igual a tante e igual a 1 N n y la probabilidad de inclusión de cada elemento es cons- n . En este caso se tienen diez muestras posibles y al utilizar el πN estimador se obtienen las siguientes estimaciones: Elementos Probabilidad Valores Total estimado seleccionados de la muestra observados tˆy 1 u1 u2 u 3 1/10 25 48 70 238.33 2 u1 u2 u 4 1/10 25 48 18 151.67 3 u1 u2 u 5 1/10 25 48 44 195.00 4 u1 u3 u 4 1/10 25 70 18 183.33 5 u1 u3 u 5 1/10 25 70 44 231.67 6 u1 u4 u 5 1/10 25 18 44 145.00 7 u2 u3 u 4 1/10 48 70 18 226.67 8 u2 u3 u 5 1/10 48 70 44 270.00 9 u2 u4 u 5 1/10 48 18 44 183.33 10 u3 u4 u 5 1/10 70 18 44 220.00 Muestra Técnicas de diseño de encuestas Simposio de Estadística 2000 17 10 La esperanza dada por p(m).tˆ ym = 205. Valor que no por coincidencia es igual al m ]1 valor poblacional desconocido. La varianza del estimador es igual a 1403.33. Si de otro lado se tuviera disponible la información x1 =5, x2 =10, x3 =12, x4 =5, x5 = 8, se podría aplicar el r-estimador propuesto Total estimado Total estimado Muestra de x tˆx gks tˆyr 1 45.0 0.88 211.9 2 33.3 1.2 182.0 3 38.3 1.04 203.5 4 36.67 1.09 205.5 5 41.67 0.96 222.4 6 30.0 1.33 193.3 7 45.0 0.88 201.5 8 50.0 0.8 216.0 9 38.3 1.04 191.3 10 41.67 0.96 211.2 La esperanza es 203.85 y la varianza es 136.4. En la práctica cotidiana la esperanza y la varianza de un estimador no se pueden calcular, puesto que para ello sería necesario conocer todos los valores del universo, la esperanza y la varianza son expresiones que se pueden comparar como tales y no como números. Cuando se extrae una muestra para realizar inferencia estadística se acostumbra a utilizar la muestra para hacer dos estimaciones diferentes, la primera es la estimación del parámetro de interés y la segunda es la estimación de la varianza del estimador. En el ejemplo se trata de estimar un total desconocido para el muestrista pero cuyo valor conocen Dios y el Diablo y que es igual a 205. También la muestra debe Técnicas de diseño de encuestas Simposio de Estadística 2000 18 servir para estimar la varianza del estimador, que en el primer caso es igual a 1403 y en el segundo es igual a 136.4. La estimación de la varianza es uno de los principales temas del muestreo y se conocen fórmulas y métodos que van desde los estimadores de Yates y Grundy pasando por los métodos de linealización de Taylor hasta llegar a métodos de Jackknife, Bootstrap o Medias Muestras Balanceadas. Para los dos estimadores del total propuestos en el ejemplo anterior, los dos estimadores de la varianza del estimador son: Para el π-estimador N2 n 1 ˆ ˆ yk ym 2 V t y 1 m n N n 1 Para el r-estimador x N2 n 1 y y m .xk Vˆ tˆyr U . .1 . m k xm xm n N n 1 2 2 Lo que para la muestra número seis, por ejemplo, establece que: 52 3 1 25 292 18 292 44 292 603.3 para el π-estimador y Vˆ tˆy 1 3 5 3 1 2 2 2 2 2 29 29 29 8 5 3 1 Vˆ tˆyr . .1 . 25 . 5 18 . 5 44 . 8 199.0 6 6 6 6 3 5 3 1 Cuando se efectúa una estimación muestral se suele entregar un intervalo de estimación o se señala una medida que conduce directamente al intervalo y que en muchas ocasiones recibe el nombre, algo ambiguo de error de muestreo. El intervalo en sí es conocido como intervalo de confianza. La propuesta más común de intervalo de confianza es: tˆy 1.96. Vˆ tˆy en el que necesariamente existe correspondencia entre los dos estimadores, el del total y el de la varianza del estimador del total. En forma equivalente la propuesta de medida de calidad es bien el error estándar dado por Técnicas de diseño de encuestas Simposio de Estadística 2000 19 Vˆ tˆy o un poco más práctico el c.v.e. dado por 100. Vˆ tˆy . En el ejemplo y para los tˆy dos estimadores dados los intervalos de confianza y sus respectivos c.v.e son: π-estimador Estimación Intervalo Muestra Vˆ tˆy ICtˆy 1 1687.7 2 r-estimador Estimación Intervalo % Vˆ tˆy ICtˆy 157.8 - 318.9 17.2 90.0 193.3 – 230.4 4.5 821.1 95.5 - 207.8 18.9 81.3 164.3 – 199.7 5.0 3 503.3 151.0 - 239.0 11.5 35.1 191.9 – 215.1 2.9 4 2654.4 87.4 - 289.3 27.4 256.7 174.1 – 236.9 7.8 5 1701.1 150.8 - 312.5 17.8 28.92 211.9 – 232.9 2.4 6 603.3 96.9 - 193.1 16.9 199.0 165.7 – 221.0 7.3 7 2271.1 133.3 - 320.1 21.0 195.6 174.1 – 228.9 6.9 8 653.3 219.9 - 320.1 9.5 67.9 199.8 – 232.2 3.8 9 884.4 125.0 - 241.6 16.2 123.3 169.5 –213.1 5.8 10 2253.3 127.0 - 313.0 21.6 180.7 184.8 – 237.6 6.4 c.v.e c.v.e % Nótese que para el caso del π-estimador las muestras seis y ocho, el respectivo intervalo de confianza no cubre al parámetro, es decir no contiene el valor 205. Como son ocho de las diez muestras las que cumplen que el IC cubre al parámetro se dice que el π-estimador en este caso tiene una cobertura del 80%. En el caso del restimador sucede lo mismo pero con las muestras número dos y cinco, lo que conduce a igual cobertura. Puesto que en poblaciones grandes la cantidad de muestras posibles es inmensa se puede hablar entonces de la confiabilidad del IC y se define como la suma de las probabilidades de las muestras cuyo intervalo de confianza cubre al parámetro. Si el estimador es insesgado la confiabilidad del estimador es del 95% (correspondiente al Técnicas de diseño de encuestas Simposio de Estadística 2000 20 valor 1.96 de la fórmula dada). Cuando el estimador es sesgado la confiabilidad se reduce de acuerdo a la magnitud del sesgo. Se utiliza el término sesgo relativo para denominar a: Br tˆy E (tˆy ) t y V (tˆy ) entonces, pa- ra muestras grandes se cumple: Valor absoluto del sesgo relativo Confiabilidad 0 0.95 0.05 0.1 0.949 0.948 0.3 0.5 1 1.5 2 2.8 0.94 0.92 0.83 0.63 0.48 0.20 En el ejemplo y puesto que se trata de un universo muy pequeño la cobertura es tan sólo del 80% aunque el sesgo relativo del π-estimador es cero y del r-estimador es igual a 203.85 205 0.098 . 136.4 La primera propiedad deseada de los estimadores es que sean insesgados o mejor, que sean de sesgo relativo bajo. Un estimador se dice insesgado para el parámetro si se cumple que su esperanza es igual al parámetro. En el caso anterior el estimador propuesto en el primer caso es insesgado. La teoría de muestreo muestra que el π-estimador así como el MCR-estimador son insesgados para la estimación de totales. En el ejemplo el r-estimador se verifica que es sesgado, lo cual corresponde con lo que se plantea en la teoría. Se desea que el estimador sea INSESGADO o tenga SESGO RELATIVO pequeño para que el intervalo de confianza que se entregue tenga la mejor confiabilidad. A medida que aumenta el sesgo se pierde confiabilidad hasta llegar al extremo de inutilizar los resultados. La tarea del investigador es tener presente las fuentes de sesgo, controlar y corregir a tiempo. Son fuentes de sesgo los marcos defectuosos, los instrumentos mal diseñados, la deficiente capacitación de entrevistadores, los errores Técnicas de diseño de encuestas Simposio de Estadística 2000 21 sistemáticos de selección, la utilización de fórmulas equivocadas para la determinación de factores de expansión, la imputación, la codificación, entre otros. La segunda característica de los estimadores es que sean de poca varianza. En el ejemplo dado las dos varianzas obtenidas son radicalmente diferentes. Para el πestimador la varianza fue igual a 1403, para el r-estimador la varianza fue menos de su décima parte (136.4). Aunque la confiabilidad sea buena, el tamaño o la amplitud de los intervalos de confianza puede ser tan alta que hace inútil la información entregada al usuario. Señalar por ejemplo que un candidato para las próximas elecciones tiene hoy día un porcentaje de favoritismo entre el cero y el cien por ciento, más que una tontería es una caricatura que pretende reflejar lo que sucede en algunos resultados de encuesta. El instituto oficial de estadística de Canadá establece entre sus normas que cifras con un c.v.e. superior al 15% no pueden ser entregadas al público. Para el caso del favoritismo por un candidato, en el que el estimador puntual es 20%, el c.v.e. del 15% significa que el real favoritismo por el candidato está cubierto (con 95% de probabilidad) por el intervalo (20 ± 6)% 2. Es decir el intervalo de confianza es de 14% a 26% lo cual no constituye precisamente una ganancia de conocimiento. Pero estimaciones con c.v.e del 10% tampoco son de muy buena calidad. En general se puede decir que los intervalos de confianza que conducen a resultados útiles tiene c.v.e inferiores al 3%, pero entre el 3% y el 6% todavía se pueden tomar decisiones. Valores del c.v.e superiores al 6% conducen a obtener una idea general del fenómeno en estudio pero puede suceder que la información con nivel tan bajo de precisión se pueda adquirir por métodos mas baratos a la encuesta. En el ejemplo dado y por el tamaño tan pequeño del universo se presenta una muy amplia variabilidad entre los c.v.e de las diferentes muestras, y sin embargo la diferencia entre los dos estimadores es abismal a favor del r-estimador. En general, los universos son mucho mayores y la variabilidad entre los c.v.e no es tan grande, pero naturalmente existe variabilidad. 2 El 15% de 20 es 3, se aproxima el valor 1.96 a dos y se realiza el producto 3 x 2 =6 Técnicas de diseño de encuestas Simposio de Estadística 2000 22 Es importante resaltar que los términos de calidad, es decir confiabilidad y amplitud del intervalo de confianza se refieren al estimador utilizado, es decir al procedimiento de estimación y no al valor particular que se obtiene de una muestra. Es decir al realizar un estudio de calidad de una investigación de encuesta estadística se analizan los métodos utilizados y no los resultados obtenidos. Puede suceder que dos investigadores estimen la producción total a obtener. El investigador A estima el total en 425000 toneladas (c.v.e = 2.3%), el investigador B estima 580000 toneladas (c.v.e = 7.4%). Luego de recogida la cosecha la producción obtenida fue de 467.520 toneladas. Un estudio de calidad de la encuesta revisa las fuentes de sesgo y de varianza y no se basa en la distancia entre el valor estimado y el valor real obtenido. Bien podría ser que los métodos del investigador A tengan sesgos tan altos que invaliden sus resultados a pesar de la varianza pequeña que presentan. En el caso del ejemplo dado con el pequeño universo de tamaño cinco es evidente que el r-estimador aunque levemente sesgado es mucho mejor que el π-estimador, sin embargo si un investigador A utiliza el π-estimador y obtiene la muestra número tres su estimación es 195 (c.v.e = 11.5%) mientras que el investigador B con el r-estimador y la muestra número seis estima el total en 193.3 (c.v.e = 7.3%) 1.3 Los diseños de muestreo Se entiende por diseño de muestreo el método de selección aleatoria de objetos a incluir en la muestra. Para un diseño dado se pueden encontrar varios algoritmos de selección que cumplen las reglas establecidas por su método particular. Dado el método y el algoritmo de selección, la teoría del muestreo se ha encargado de realizar los cálculos de probabilidad y establecer las probabilidades de inclusión o de selección y con ellas se tiene en forma directa las tres fórmulas básicas: El estimador del total para los casos del π-estimador o el MCR-estimador, la fórmula de la varianza del estimador y un estimador de la varianza del estimador. Para el caso de un restimador se deben hacer adicionalmente supuestos sobre el modelo de regresión que relaciona la variable en estudio y con la variable auxiliar x. Técnicas de diseño de encuestas Simposio de Estadística 2000 1.3.1 23 Diseños no proporcionales de elementos DISEÑO BERNOULLI. En este diseño se fija un valor entre cero y uno denominado por la letra π. Para cada elemento k del universo se realiza un evento aleatorio k de distribución uniforme entre cero y uno y se decide si k <π entonces elemento k será incluido en la muestra, de lo contrario no. El algoritmo es una copia directa del método y es aplicado en los controles de aduana. Con este diseño se tiene que el tamaño de muestra es variable, la probabilidad de inclusión es constante e igual a π para todos los elementos del universo y las tres fórmulas de trabajo son: 1 tˆy m yk , 1 VBER (tˆy ) 1U yk . 1 1 VˆBER tˆy . 1.m yk El tamaño de muestra tiene un valor esperado igual a N.π, con lo que se puede escoger el valor π tal que, E ns . N Este diseño tiene el inconveniente de la aleatoriedad de la muestra lo que se considera inconveniente para la planeación del trabajo operativo. De otro lado, la misma aleatoriedad del tamaño muestral hace que sus estimadores tengan una varianza superior a otros diseños. Sin embargo el diseño es de muy fácil aplicación y en un muy reciente artículo3 se mostró cómo la combinación entre un diseño estratificado de Bernoulli y un r-estimador produce resultados altamente eficientes. 3 Särndal C-E, (1996) Técnicas de diseño de encuestas Simposio de Estadística 2000 24 DISEÑO MUESTREO ALEATORIO SIMPLE (MAS). El más popular y el más tratado de todos los diseños es el conocido M.A.S, el cual consiste en seleccionar sin reposición y en forma equiprobable, al interior de cada extracción, un elemento hasta completar un total de n, valor establecido de antemano. Nótese que cuando se selecciona el primer elemento de la muestra todos tienen igual probabilidad, lo mismo sucede cuando se selecciona el segundo elemento, pero las probabilidades de selección entre la primera y la segunda extracción han cambiado. En la primera extracción todos tienen probabilidad de selección igual a babilidad de selección igual a 1 , en la segunda los que restan tienen proN 1 . se presentan aquí dos algoritmos para seleccioN 1 nar muestra MAS. El primer algoritmo, conocido con el nombre de Coordinado negativo, consiste en generar para todo k en el universo un número aleatorio k de distribución uniforme entre cero y uno, ordenar las parejas (k , k ) de menor a mayor respecto al número aleatorio k. Los primeros n elementos de este nuevo orden constituyen la muestra MAS deseada. El segundo algoritmo conocido con el nombre de sus inventores Fan-Muller lo que hace es para cada elemento k del universo genera un número aleatorio k de distribución uniforme entre cero y uno y decide que k pertenece a la muestra si: k n nk donde nk es la cantidad de elementos seleccionados para la muestra N k 1 antes del k-ésimo intento. La selección de la muestra termina cuando nk = n. En el muestreo aleatorio simple la probabilidad de inclusión es constante e igual a con lo que las tres fórmulas de trabajo son: N tˆy . m yk n Técnicas de diseño de encuestas n N Simposio de Estadística 2000 25 N .( N n) 2 .S yU n con 2 S yU 1 2 .U yk yU N 1 y yU N .( N n) 2 VˆMAS (tˆy ) .S ym n con 2 S ym 1 2 . m yk ym n 1 y ym VMAS (tˆy ) 1 .U yk N 1 .m yk n DISEÑO SISTEMATICO. El método sistemático consiste en dividir el universo en grupos de igual tamaño (amplitud = a), en el primer grupo, mediante un diseño MAS se seleccionan r elementos denominados arranques aleatorios y notados aquí como los elementos v1, v2, ..., vr. Los demás integrantes de la muestra son los elementos que se obtienen “brincando” la cantidad a a partir de los arranques aleatorios. El valor r se conoce con el nombre de réplicas. Este diseño tiene tamaño de muestra aleatorio cuando para N n.a c el residuo c < a es diferente de cero. Diseño aplicado r con frecuencia en las últimas etapas de los diseños multietápicos, por su versatilidad y las posibilidades de control y supervisión tiene como inconvenientes, primero que si r es igual a uno, no se cuenta con un estimador insesgado de la varianza del estimador y segundo que si existe un orden sistemático en el mismo sentido en que se está seleccionando la muestra la varianza del estimador crece considerablemente. Estas razones recomiendan evitar a este diseño para la unidades primarias de muestreo, como se verá más adelante. Puesto que se trata en un principio de un muestreo aleatorio simple de r elementos entre los primeras a no sorprende que la probabilidad de inclusión sea constante e igual a r . Las fórmulas de trabajo en este diseño son: a a tˆy .m yk r a.(a r ) 2 VSIS (tˆy ) .StUa r con 2 StUa 1 2 .Ua ti ta a 1 y ta 1 . ti a Ua donde ti es la suma de los yk en la i-ésima muestra, es decir la compuesta por los elementos {vi, vi+ a, vi+ 2a, ... , vi+ (n/r –1) a } Técnicas de diseño de encuestas Simposio de Estadística 2000 26 El estimador de la varianza es: a.(a r ) 2 VˆSIS (tˆy ) .Stma r 1.3.2 con 2 Stma 1 2 .ma ti tma r 1 y tma 1 . ma ti r Diseños proporcionales de elementos DISEÑO CON REPOSICIÓN Y PROBABILIDAD DE SELECCION PROPORCIONAL AL TAMAÑO -PPT. Este muy popular diseño se basa en la disponibilidad de información auxiliar cuantitativa altamente correlacionada con la variable en estudio y la aplicación del MCR-estimador del total. El sustento teórico de este diseño parte de que la varianza del MCR-estimador es de 2 la forma ple que y 1 VPPT tˆ U pk k t y lo que quiere decir que si para todo k se cumm pk yk y t y es decir que pk k la varianza del estimador sería igual a cero. pk ty Puesto que la probabilidad de selección, necesaria antes de la selección misma está en función de valor desconocido yk este se reemplaza por el valor xk disponible y altamente correlacionado con y . De esta forma las probabilidades de selección son iguales a pk xk . tx El algoritmo más conocido para obtener muestras PPT es el denominado método acumulativo total, el cual acumula las probabilidades de selección, crea intervalos de selección a partir de los acumulados, genera m números aleatorios de distribución uniforme entre cero y uno y selecciona los elementos en cuyos intervalos de selección se ubiquen los números aleatorios generados. Para ilustrar se da el siguiente ejemplo: Ejemplo del método Acumulativo total para selección de tres elementos mediante diseño PPT. Técnicas de diseño de encuestas Simposio de Estadística 2000 27 Intervalos de k xk pk Acumulado 1 15 0.075 0.075 0.0001 a 0.0750 2 50 0.250 0.325 0.0751 a 0.3250 3 60 0.300 0.625 0.3251 a 0.6250 4 20 0.100 0.725 0.6251 a 0.7250 5 35 0.175 0.900 0.7251 a 0.9000 6 15 0.075 0.975 0.9001 a 0.9750 7 5 0.025 1 0.9751 a 0.9999 selección Si los tres aleatorios generados son 1 = 0.2541, 2 = 0.6819, 3 = 0.8057, los elementos seleccionados son {2, 4, 5}. En este diseño el cálculo de las probabilidades de inclusión no es nada sencillo, y las probabilidades de selección están dadas por el método mismo. El estimador más utilizado para el total es el MCR-estimador con sus respectivas fórmulas para la varianza y el estimador de la varianza del estimados. Las tres fórmulas son: m m m 1 y y t tˆy , m ki ki x . yk ak . yk m pk i 1 m. xk i 1 m.xk i 1 tx y 1 VPPT tˆ U pk k t y m pk 2 yki 1 1 VˆPPT tˆ . tˆy m m m 1 pk 2 Este diseño se caracteriza por la simplicidad. Son sencillos los métodos de selección, son sencillas las fórmulas para cálculo y estimación de la varianza y si la correlación entre las variables de interés y auxiliar es alta este diseño es mucho más eficiente que los tratados anteriormente. Obviamente la comparación no es correcta, puesto que este diseño utiliza información auxiliar. El mayor inconveniente de este diseño lo Técnicas de diseño de encuestas Simposio de Estadística 2000 28 constituye el manejo operativo de los elementos que salen en la muestra más de una vez, por cuanto se trata de un diseño con reposición. DISEÑO SIN REPOSICIÓN Y PROBABILIDAD DE INCLUSIÓN PROPORCIONAL AL TAMAÑO –π.P.T. Este diseño será mencionado sin mayor detenimiento por cuanto sus métodos y fórmulas son demasiado complicadas, aunque constituye el diseño con mejores niveles de eficiencia. El método consiste en establecer probabilidades de inclusión proporcionales al tamaño en forma similar al caso del diseño PPT. En este caso se trata que k n. yk con lo que se llegaría a una varianza nula del estity mador. Nótese que se tiene un nuevo término en la proporcionalidad, el tamaño fijo y establecido de antemano de muestra n. De nuevo y puesto que los valores yk son desconocidos se toma x la variable auxiliar disponible y bien correlacionada con y y se fija k n.xk . El problema principal radica entonces en encontrar un método de tx selección de elementos tal que la probabilidad final de inclusión sea igual a la dada de antemano. Son conocidos los métodos de Sunter, Brewer, Madow y otros, todos ellos muy complicados y con algunos defectos. Son muchos los trabajos que se siguen realizando tratando de encontrar métodos fáciles que cumplan los requisitos de este diseño. El π-estimador del total está dado por: y y t tˆy m k m k m x . yk m ak . yk n.xk k n.xk tx Las fórmulas de la varianza del estimador y del estimador de la varianza del estimador se omiten por cuanto son muy complicadas. El diseño π.P.T tiene similitud con el diseño P.P.T, sin embargo hay aspectos cruciales que diferencian estos dos diseños. El primero es el carácter con reposición del PPT y sin reposición del π.P.T. El segundo aspecto de diferencia es que en el primer diseño se trata de la proporcionalidad de las probabilidades de selección mientras Técnicas de diseño de encuestas Simposio de Estadística 2000 29 que en el otro es la proporcionalidad de las probabilidades de inclusión. Estas diferencias se van a notar drásticamente en las fórmulas a utilizar. La comparación entre estos dos diseños, posible puesto que ambos parten del supuesto de utilizar información auxiliar, establece que el PPT es menos eficiente que el π.P.T, es decir que sus estimadores tienen una mayor varianza pero eso lo compensan con simplicidad. Planteado desde la perspectiva contraria se puede entonces afirmar que se puede preferir el diseño π.P.T sobre el P.P.T porque produce mejores resultados pero se tiene que pagar un costo alto en complicaciones de escritorio por el manejo de procedimientos y fórmulas de trabajo. 1.3.3 Diseño de conglomerados Un diseño de conglomerados se caracteriza porque los objetos a ser seleccionados no son, como en los diseños anteriores, elementos sino agrupaciones de elementos llamados conglomerados. Una vez obtenida la muestra de conglomerados en cada uno de ellos se estudian todos los elementos que lo conforman. La definición es la siguiente: 1. Se tiene una partición del universo U en subconjuntos U1, U2, ..., UNI denominados conglomerados. Una partición significa que se cumplen tres propiedades: 2. a.- Ninguno de los conglomerados es vacío b.- Todos son disjuntos dos a dos c.- La unión de todos los conglomerados reconstruye el universo Del conjunto total de conglomerados se escoge mediante diseño d I una muestra de conglomerados. (Puede ser cualquiera de los diseños ya planteados, por ejemplo Bernoulli, MAS, PPT etc.). 3. En los conglomerados de la muestra se observan y se miden todos los elementos que los componen. Técnicas de diseño de encuestas Simposio de Estadística 2000 30 Para este diseño se denomina con t yi Ui yk al total del i-ésimo conglomerado. El algoritmo de selección corresponde al diseño que se haya planteado, Fan-Muller si es MAS, acumulativo total si es un diseño PPT de conglomerados. En principio no tiene mayor diferencia con el diseño de elementos, la diferencia radica en que en este caso la selección es de conglomerados y no de elementos. Así por ejemplo para un estudio entre alumnos de octavo y noveno grado escolar se puede planear la selección, por ejemplo PPT, de cursos. Las fórmulas de trabajo son prácticamente las mismas que las encontradas para los diseños de elementos, la diferencia radica en que se utilizarán los totales t yi en lugar de los yk. Así por ejemplo cuando se trata de un diseño Muestreo Aleatorio Simple de Conglomerados (MASC) la estimación se hace mediante: N tˆy I .mI t yi nI donde NI es el total de conglomerados en el universo y n I la canti- dad de conglomerados en la muestra. Su varianza y el estimador de la varianza son: N .(N nI ) 2 VMASC (tˆy ) I I .StiUI nI con 2 StiU I 1 . t yi tU I NI 1 U I N .( N I nI ) 2 VˆMASC (tˆy ) I .Stim nI con 2 Stim 1 2 .mI t yi tmI nI 1 2 y tU I 1 .U t yi I NI y tmI 1 .mI t yi nI El muy frecuente diseño PPT de conglomerados tiene las fórmulas 1 tˆy mI , mI 1 VPPTC tˆ mI t yi m pIi i 1 U tx .t yi mI .xi t pI i . yi t y pIi 2 Nótese que en este último caso se evidencia que la varianza del estimador será menor, es decir el diseño será más eficiente en la medida que la probabilidad de selec- Técnicas de diseño de encuestas Simposio de Estadística 2000 31 ción del conglomerado sea proporcional al total del mismo y no propiamente proporcional a la cantidad de elementos del mismo. El diseño de conglomerados se utiliza básicamente por dos razones principales. La primera es que cuando se carece de un marco de elementos es posible construir o disponer de un marco de conglomerados. Si bien no se tienen los nombres y la dirección de todas las personas de una ciudad si se cuenta con el mapa en el que registran con precisión las manzanas de la ciudad. Cuando no se cuenta con el listado de los empleados de un banco se puede disponer del listado de sucursales y dependencias. La segunda razón es que aunque se cuente con el marco de elementos conviene trabajar con conglomerados por razones operativas y de costos. Es por ejemplo el caso del estudio sobre el consumo de combustible en una empresa de transporte. Por razones administrativas puede llegar a ser más fácil conseguir la información de consumo de una flotilla que la de un vehículo en particular. El diseño de conglomerados es un diseño eficiente desde el punto de vista de los costos pero puede llegar a ser ineficiente desde el punto de vista de la varianza del estimador en aquellos casos en los que la similitud entre los elementos del conglomerado sea muy alta. Tomando el caso extremo de que todos los elementos de un conglomerado tuvieran el mismo valor yk para la característica en estudio, se entiende entonces que hay una pérdida de eficiencia al estudiarlos a todos. Por el contrario se gana mucha eficiencia estadística en la medida que al interior de cada conglomerado se presente toda la variabilidad que se da en el universo. Para considerar este aspecto de la variabilidad al interior del conglomerado se ha creado la llamada medida de correlación intraclásica que asume el valor uno cuando todos los elementos de cada conglomerado asumen un mismo valor, es decir en el caso más desfavorable, y que toma el valor cero cuando la variabilidad al interior de los conglomerados es igual a la variabilidad en el universo. La decisión sobre la conveniencia de aplicar un diseño de conglomerados tiene en cuenta el grado de correlación intraclásica. En encuestas de favoritismo electoral se da el caso de que algunos candidatos, no to- Técnicas de diseño de encuestas Simposio de Estadística 2000 32 dos, generan favoritismo que se puede llamar de alta correlación intraclásica, es decir que concentran sus partidarios en determinadas zonas geográficas, niveles socioeconómicos, grupos de edad, etc. En estos casos bien vale la pena detenerse un momento antes de aplicar un diseño de conglomerados. 1.3.4 Diseño multietápico Una variante al diseño de conglomerados es el diseño en dos etapas. Cuando la correlación intraclásica es muy alta, es decir cuando al interior del conglomerado la semejanza entre los elementos es muy alta, entonces en lugar de estudiar a todos los elementos se puede aplicar un diseño de muestreo probabilístico, particular para cada conglomerado y llegar así a un tˆyi en lugar del anterior t yi . De esta manera se reducen los costos sin incrementar la varianza del estimador. La definición de un muestreo en dos etapas es la siguiente: 1. Se tiene una partición del universo U en subconjuntos U1, U2, ..., UNI denominados Unidades Primarias de Muestreo UPMs. Una partición significa que se cumplen tres propiedades: 2. a.- Ninguna de las UPM’s es vacía b.- Todas son disjuntas dos a dos c.- La unión de todas las UPM’s reconstruye el universo Del conjunto total de UPM’s se escoge mediante diseño d I una muestra de UPM’s. (Puede ser mediante cualquiera de los diseños ya planteados, por ejemplo Bernoulli, MAS, PPT, etc.). 3. En las UPM’s de la muestra se construye el marco de elementos, procedimiento conocido con el nombre de enlistamiento, 4. En cada UPM de la muestra se extrae, con independencia e invarianza una muestra probabilística con diseño particular d i. Se estudian entonces los elementos seleccionados en esta segunda etapa. Técnicas de diseño de encuestas Simposio de Estadística 2000 33 Los principios de independencia e invarianza significan: Para diseño en dos etapas se entenderá que dos diseños para la segunda etapa son independientes cuando las probabilidades de selección de elementos al interior de una UPM no dependen ni de las probabilidades de la primera etapa, ni de las probabilidades asignadas en otras UPM’s. Se dirá que se cumple el principio de invarianza cuando en el caso de que una UPM sea seleccionada varias veces (en diseños con reposición, por ejemplo PPT) el diseño aplicado a su interior sea siempre el mismo y con iguales parámetros. Así por ejemplo si una determinada UPM de tamaño 450 fue seleccionada tres veces y a su interior se aplicará un diseño MAS de parámetro n = 25, entonces se deberán generar tres muestras independientes de tamaño 25 de 450, entonces algunos elementos pueden aparecer más de una vez y hasta tres veces en la muestra final. Queda entonces claro que los diseños al interior de cada UPM no necesariamente deben ser los mismos. Este aspecto genera flexibilidad y le permite al muestrista ajustar el diseño a las características particulares de las UPMs consideradas. Las fórmulas de trabajo no difieren mucho de las establecidas para el diseño de conglomerados. En la estimación se reemplaza el anterior t yi por el nuevo tˆyi . Así por ejemplo si se plantea un diseño en dos etapas en el que en la primera etapa se aplica un diseño PPT y en la segunda se aplica siempre un diseño MAS (ni) la estimación del total se hará mediante la fórmula: 1 mI ˆ 1 m I Ni tˆy . t yi . mI i 1 mI i 1 ni mi mI yk m i 1 i 1 Ni . . yk m ak . yk mI ni La fórmula de la varianza cambia radicalmente frente a las de los casos anteriores por cuanto se tiene ahora dos fuentes de variación una por cada etapa. En principio Técnicas de diseño de encuestas Simposio de Estadística 2000 34 se puede decir que la varianza está constituida por la varianza entre UPMs y la varianza dentro de las UPMs. La varianza entre UPMs corresponde al diseño de la primera etapa y como en el caso de conglomerados se reemplazan los yk por los tyi . la varianza dentro de la UPMs es la suma expandida, como se expanden las estimaciones, de las varianzas de los estimadores en los diseños de la segunda etapa. Para el caso del ejemplo anterior del diseño PPT-MAS la varianza está dada por la suma de la varianza entre UPMs y varianza dentro de UPMs de la siguiente manera: 2 t 1 1 V VPPT MAS (tˆy ) .U pIi . i t .U i I I mI pIi pIi mI donde Vi Ni .( Ni ni ) 2 .S yUi ni Para la estimación de la varianza del estimador se procede en forma similar aunque hay que tener en cuenta algunos casos especiales. Cuando en la primera etapa el diseño aplicado es PPT se tiene un estimador insesgado de la varianza utilizando la fórmula tˆi 1 1 VˆPPT di (tˆy ) . tˆ mI mI mI 1 pIi 2 que no requiere la estimación de la va- rianza en la segunda etapa. Este aspecto se cumple sólo para diseño PPT en la primera etapa y contrasta de gran manera con la multiplicidad de cálculos necesarios para estimar la varianza en diseños sin reposición en la primera etapa. Por esta razón se ha generalizado el uso del diseño PPT para selección de unidades primarias de muestreo. El diseño en tres etapas puede ser visto como un diseño en dos etapas en el que el diseño aplicado en la segunda etapa es a su vez un diseño en dos etapas. En tal caso se tiene un diseño para escoger unidades primarias de Muestreo (UPM’s), al interior de las UPM’s seleccionadas se construye el marco de Unidades Secundarias de Muestreo (USM’s), se aplica, en cada caso un diseño di y en la USM’s seleccionadas Técnicas de diseño de encuestas Simposio de Estadística 2000 35 se construye el marco de elementos. Se aplica finalmente un diseño d iq y se observan los elementos escogidos. Sea por ejemplo el caso de un estudio sobre gastos en salud entre desempleados en una ciudad. Las UPM’s pueden ser las secciones cartográficas del mapa DANE de la ciudad. En cada una de las secciones escogidas se establece el marco de manzanas, se seleccionan mediante diseño di algunas de ellas, dentro de las manzanas seleccionadas se levanta mediante censo el marco de desempleados. Con la lista que permite identificar y ubicar, personal o telefónicamente, a cada desempleado se aplica un último diseño diq para aplicar la entrevista a alguno de ellos. Si en este ejemplo se utilizara un diseño PPT-PPT-MAS, la estimación del total de dinero gastado en salud por los desempleados de la ciudad estaría dado por: 1 tˆy mI tˆi 1 pIi mI mI mI 1 pIi 1 tˆ 1 . .m iq i pIIi mI mi mI mi 1 1 1 . . pIi mi pIIi N . iq .miq yk n iq 1 1 1 1 Niq . . . . . yk m ak . yk y puesto que en la primera etapa se miq mI pIi mi pIIi niq mI mi aplica un diseño PPT, la estimación de la varianza del estimador se consigue con: tˆi 1 1 ˆ VˆPPT di (tˆy ) . t mI mI 1 m I pIi 2 En el diseño multietápico por ser una extensión del diseño de conglomerados se cumple también la relación inversa entre coeficiente de correlación intraclásica y eficiencia de la estimación. En el ejemplo que se viene tratando, se puede decir que si por razones epidemiológicas es de esperar que las personas que residen cerca están expuestas a riesgos similares, que además tienen niveles socio-culturales semejantes y que por lo tanto el gasto en salud puede ser muy parecido entre ellos, entonces no tiene sentido entrevistar a muchos desempleados por manzana. Técnicas de diseño de encuestas Simposio de Estadística 2000 36 1.3.5 Diseño estratificado Aunque no constituye un diseño propiamente dicho como los anteriores, se denomina como tal dada su muy alta importancia y aplicación cotidiana. Un diseño estratificado se define así: 1. Se tiene una partición del universo U en subconjuntos U 1, U2, ..., UH denominados estratos. Una partición significa que se cumplen tres propiedades de los estratos, ellas son: 2. a.- Ninguno de ellos es vacío b.- Son todos disjuntos dos a dos c.- La unión de todos reconstruye el universo En cada estrato Uh se escoge en forma INDEPENDIENTE una muestra mh mediante el diseño dh que se prefiera. El estimador del total será entonces la suma de las estimaciones de los estratos, cada cual obtenido con su respectivo diseño, y puesto que la selección de muestra es independiente en los estratos la varianza de la suma es igual a la suma de las varianzas, tanto para la varianza del estimador como para la estimación de la varianza del estimador. Es entonces evidente que la razón para estratificar es la conveniencia de aplicar diseños diferentes para grupos de elementos. Se puede entonces aplicar diseños proporcionales en donde hay información auxiliar, conglomerados donde es conveniente, multietápicos en otros estratos y diseños no proporcionales de elementos en otros grupos. Aplicando el diseño pertinente a cada estrato se logra reducir considerablemente la varianza de la estimación. Un diseño muy común en estudios de variables económicas con altos grados de asimetría, es decir en los que unos pocos producen o venden muy grandes cantidades y una cantidad cada vez más grande produce o vende cada vez menos hasta llegar a una cantidad inmensa de pequeños productores, es el diseño estratificado con tres estratos. El primero denominado de Inclusión Técnicas de diseño de encuestas Simposio de Estadística 2000 37 Forzosa (IF), es decir aquel estrato en el que todos los elementos que lo componen son observados. Este estrato está conformado por los más grandes productores. El segundo estrato para diseño proporcional, generalmente PPT, por cuanto se trata de los negocios o empresas de nivel intermedio, con información registrada en cámaras de industria o comercio, información útil para el diseño proporcional. Por último, el estrato de los establecimientos económicos más pequeños, que constituyen una inmensa cantidad pero sobre los cuales no se tiene mayor información. Este estrato es estudiado mediante un diseño MAS. Este mismo concepto se aplica en estudios de consumo en muestreo de varias etapas. Las primeras cuatro ciudades están en el estrato de inclusión forzosa, es decir son UPM’s de hecho seleccionadas. Para las siguientes ciento cincuenta ciudades se aplica un diseño PPT y para el resto de municipios, es decir los menores de 25000 habitantes se hace un diseño MAS. Una razón también poderosa para crear estratos es la forma de acceso a las unidades o elementos de la muestra. En este caso los estratos se crean de acuerdo al grado de dificultad o de facilidad de acceso. Los estratos más fáciles tendrán operativos normales mientras que para los estratos de acceso difícil se deberán diseñar operativos especiales y costosos. En general la estratificación es un mecanismo que permite ajustar los diseños de muestreo a las condiciones particulares de grupos de elementos y aún a las necesidades de los investigadores. En algunos casos la estratificación responde a criterios de tipo administrativo, en otros a la necesidad de producir estimaciones separadas para cada estrato y en otros casos la estratificación se realiza de acuerdo a las tasas históricas de no respuesta. Técnicas de diseño de encuestas Simposio de Estadística 2000 38 La estratificación es un procedimiento que puede utilizarse en un diseño multietápico en cualquiera de las etapas e independientemente en cualquiera de las unidades de muestreo. El diseño estratificado sigue siendo objeto de estudio, puesto que son muchas las preguntas que todavía no tienen respuesta, por ejemplo la asignación de muestra o cantidad de elementos por estrato cuando el diseño a su interior no es MAS, el establecimiento de la frontera entre estratos cuando hay diferencia de diseños entre estratos fronterizos o la cantidad óptima de estratos cuando la estratificación puede ser manejada por el muestrista. 1.4 La estrategia muestral La estrategia para conformar el plan muestral tiene como meta conseguir la mejor estimación, o las mejores estimaciones, en términos de sesgo y de varianza, consumiendo para ello la menor cantidad posible de recursos y sujeto a un cronograma establecido. Son muchos los elementos con los que cuenta el muestrista para tratar de conseguir el objetivo y desde el punto de vista matemático es imposible formular un modelo que tenga en cuenta la multiplicidad de factores y circunstancias que entran en juego al tratar de establecer un plan muestral. En principio se pueden señalar las siguientes fuentes de sesgo que el investigador debe tener en cuenta dentro de la planificación y la distribución de recursos y de tiempo más para evitar defectos que para mejorar su plan muestral. En el proceso de selección de las muestras los sesgos son producidos por defectos graves en los marcos muestrales, tales como subcobertura, sobrecobertura y repetición. Técnicas de diseño de encuestas Simposio de Estadística 2000 39 En el proceso de recolección de información se puede pensar en tres fuentes de error que generan sesgos importantes en los resultados, esas fuentes son el entrevistador, el proceso de medición, y el objeto observado. Los sujetos que realizan la observación o medición son también encargados de realizar los enlistamientos de los diseños multietápicos. Los graves errores que se pueden cometer en estas tareas están ligadas a: Una deficiente capacitación en los procesos y pasos a seguir. Un proceso impropio de selección. Formas de pago inadecuadas. Procesos insuficientes de control, supervisión y corrección de errores. Los errores en el proceso de medición están ligados tanto a los procedimientos como a los instrumentos utilizados. Los procedimientos se invalidan cuando se pierde la independencia y cuando se genera autocorrelación. Estos defectos apuntan directamente a la generación de sesgo. Sucede por ejemplo debido al cansancio del observador o del objeto observado, el agotamiento del instrumento de medida, por ejemplo cuando se utilizan filtros, al efecto de memoria de los objetos medidos, a la ambigüedad del dato observado, por ejemplo en preguntas mal diseñadas. Es papel del estadístico no sólo vigilar que estos errores no se cometan sino estar despierto a detectar toda fuente de variación que se introduce en el proceso de medición y evitar que se generen variaciones sistemáticas. El objeto observado puede generar un grave error de sesgo básicamente por la no respuesta. El procedimiento para evitarlo tanto como se pueda es acudiendo a procesos de información, persuasión, convencimiento y generación de confianza. El método de acceso a los objetos observados debe ser tal que para él se produzca la menos incomodidad posible, que no le genere traumatismos y que no represente una carga de trabajo excesiva. El investigador debe ajustarse a las condiciones del sujeto observado y no esperar que la realidad se ajuste a sus caprichos. Una encuesta a personas debe ser respondida cuando los entrevistados tengan el tiempo y la dispo- Técnicas de diseño de encuestas 40 Simposio de Estadística 2000 sición de hacerlo no necesariamente cuando el investigador lo pretenda. Una empresa responderá un cuestionario tan sólo cuando los resultados contables estén disponible y no cuando la agencia encuestadora lo requiera. La ética impide aplicar un cuestionario por ejemplo a los dolientes de una persona fallecida en una clínica u hospital. Durante el procesamiento de la información también se pueden cometer errores que van a originar sesgos a veces mayores a los ocurridos durante las labores de selección o de recolección. Los sesgos pueden originarse en los procesos de codificación, grabación, crítica, imputación y estimación. La codificación tiene que ver con el proceso de asignar un código a una respuesta generalmente abierta. Es el caso por ejemplo de las unidades de medida para la producción agropecuaria (bultos, cajas, racimos, cargas, arrobas, sacos, etc). Para este tipo de tareas se tienen que diseñar mecanismos de revisión y corrección de errores. Para garantizar que la grabación no generará sesgos difíciles de detectar basta con diseñar un excelente plan de prueba de programación, además de un proceso especial de verificación. La verificación apunta a detectar errores de las personas encargadas de trasladar información en papel a medio magnético. El plan de prueba de programa apunta a detectar errores en el programa mismo de grabación o de verificación. No es extraño que la información de una pregunta quede grabada encima de la información de la pregunta anterior. En ocasiones el error es evidente, en otras ocasiones el error puede pasar inadvertido ocasionando decisiones equivocadas. La estrategia de crítica e imputación genera sesgos, no muy altos si la cantidad de inconsistencias o ausencias no es muy grande. Los sesgos pueden llegar a niveles preocupantes si la cantidad de respuestas consideradas inconsistentes o sin respuesta es muy alta. Finalmente un cuidadoso trabajo de selección, recolección y procesamiento puede concluir en un desastre si el estadístico se equivoca al momento de establecer los factores de expansión correspondientes al diseño y al estimador utilizado en el estudio. La varianza del estimador se reduce mediante la combinación de siguientes tres factores: El tamaño de muestra, el diseño muestral y el estimador a utilizar. Entre mayor Técnicas de diseño de encuestas Simposio de Estadística 2000 41 sea el tamaño de muestra menor será la varianza del estimador, sin embargo a iguales tamaños de muestra corresponden diferentes varianzas si no hay similitud entre los diseños y mucho mayor puede ser la diferencia en varianza si además de la incompatibilidad entre diseños se trabaja con distintos estimadores. Un aspecto adicional a tener en cuenta es el relativo a las posibilidades operativas y a los costos asociados a una u otra elección estratégica. Aún cuando estos cuatro aspectos se conjugan para conformar una estrategia de plan muestral, serán tratados a continuación en forma separada. 1.4.1 El diseño muestral Para la elección del diseño muestral se debe partir en primer lugar de la información disponible o posible de conseguir. Cuando se carece de toda información, cuando la información disponible es ninguna, no se puede elaborar un plan muestral. El trabajo comienza entonces por la consecución de un marco muestral sin defectos de subcobertura, sobrecobertura y repetición. Los recursos destinados a una investigación pueden invertirse en la obtención de información auxiliar a utilizar en el diseño o en el estimador. Como principios generales para determinar el diseño más apropiado se pueden sugerir los siguientes: 1. Un diseño muestral de elementos sólo es posible si se dispone de un marco de elementos, de lo contrario se está en la obligación de acudir a un diseño de unidades (conglomerados o multietápico). 2. Los diseños proporcionales sin reposición son más eficientes que los diseños con reposición pero son mucho más engorrosos y difíciles de manejar 3. Los diseños de probabilidad proporcional son mucho más eficientes que los diseños no proporcionales. 4. Los diseños con tamaño fijo de muestra fijo son más eficientes que los diseños de tamaño aleatorio de muestra. Técnicas de diseño de encuestas Simposio de Estadística 2000 42 5. La varianza asociada a un diseño multietápico aumenta a medida que aumenta la cantidad de etapas. 6. Un diseño proporcional de UPM’s o de conglomerados es mucho más eficiente que un diseño no proporcional de UPM’s. 7. En un diseño proporcional de UPM’s o de conglomerados la proporcionalidad de las probabilidades debe ser a los totales de las UPM’s o de los conglomerados. 8. La varianza del estimador asociada a un diseño multietápico tiene su mayor peso en la componente de varianza entre las UPM’s y decrece hasta el punto de que la varianza entre elementos puede llegar a ser despreciable. 9. En diseño en dos etapas es estadísticamente preferible, más UPM’s y menos elementos por UPM que a la inversa. Esto, sin embargo esto implica un aumento en los costos. Este principio se puede generalizar a diseños en varias etapas. 10. En un diseño en dos etapas o de conglomerados la varianza del estimador crece a medida que aumenta la correlación intraclásica, es decir la semejanza desde el punto de vista de la variable en estudio, de los elementos. Este principio se deja generalizar para el diseño multietápico. 11. Mediante una adecuada estratificación se puede asignar el diseño más apropiado a las circunstancias particulares de grupos de unidades o de elementos. 12. La tarea de estimar la varianza de los estimadores puede determinar el diseño a utilizar. El método de Medias Muestras Balanceadas necesita muchos estratos y dos UPM’s por estrato, el método de Jackknife es difícilmente aplicable para diseños estratificados de UPM’s. 13. Una alternativa metodológica es aplicar diseños proporcionales sin reposición en las UPM’s y utilizar las fórmulas de estimación de varianza de los diseños con reposición. Técnicas de diseño de encuestas Simposio de Estadística 2000 1.4.2 43 El estimador a escoger Como en el caso del diseño muestral la primera consideración es respecto a la información auxiliar disponible. Si se dispone de información auxiliar es recomendable intentar un r-estimador. Se dispone de esta información auxiliar por ejemplo, cuando se trata de estimaciones económicas anteriores a la recolección censal de los registros contables, por ejemplo antes de la llegada de las declaraciones de impuestos, o antes del establecimiento del balance anual. También se dispone de esta información inmediatamente después de la primera vuelta de un proceso electoral, después de la recolección de cosecha en una región, luego de concluir un período académico o al concluir una feria comercial. Si por ejemplo se trata de estimar la producción de un determinado cereal en una región y se cuenta con la producción alcanzada un año atrás por todos quienes cosecharon ese producto, se podría pensar en un diseño con dos estratos, el primero conformado por quienes cosecharon al año anterior y se prestan a cosechar en el presente y el otro estrato conformado por los productores que sin haber cosechado el año anterior lo harán ahora. Para el primer estrato se puede proponer un r-estimador y para el segundo un π-estimador. Sin embargo la utilización de un r-estimador implica un conocimiento especializado que va más allá de los alcances de este documento, pero que hace parte del dominio del experto en muestreo. La decisión entre un π-estimador o un MCR estimador del total depende del tipo de diseño que se esté aplicando. Si se trata de un diseño con reposición y como se mencionó anteriormente, es muy difícil establecer las probabilidades de inclusión, particularmente en el diseño PPT. Por esta razón es entonces preferible utilizar el MCR estimador para todos los objetos seleccionados, incluidas las repeticiones de un mismo elemento o unidad. Si por el contrario el diseño es sin reposición es siempre preferible utilizar el π-estimador para estimar totales. Técnicas de diseño de encuestas Simposio de Estadística 2000 44 Especial mención merece el caso de la estimación de razones y en particular la estimación del promedio. En una gran cantidad de casos, en diseños de conglomerados o de varias etapas no se conoce el tamaño total del universo. Pero aún en los casos en que el tamaño del universo es conocido la teoría de muestreo da a conocer que el tˆ ys y estimador de razón ~ Nˆ timador yˆU m ak . yk N a .y a k m m k aunque sesgado es de menor varianza al es- k . Sin embargo se debe tener cuidado con la magnitud del sesgo. Se ha llegado a establecer que para la razón R tado por ty tz el estimador Rˆ tˆy tˆz m ak .yk a .z k m k tiene un sesgo aco- B Rˆ E( Rˆ ) ˆ R V t(tˆ ) . 2 r z V ( R) 2 z Como se mencionó anteriormente, la magnitud del sesgo relativo incide directamente en la confiabilidad de la estimación. Si el sesgo relativo supera la unidad se está ya en una situación de poca confiabilidad. Para que el sesgo relativo sea menor que uno se tiene que cumplir que V tˆz t z2 , lo que, aunque no es una gran exigencia, debe ser tenido en cuenta. 1.4.3 El tamaño muestral La discusión acerca el tamaño muestral puede hacerse desde dos perspectivas diferentes, en algo complementarias pero ambas necesarias. La primera desde el punto de vista teórico, que si bien, en la mayoría de los casos, no conduce directamente a resultados concretos, constituye la base sobre la cual se construye la segunda posibilidad: la simulación. Técnicas de diseño de encuestas Simposio de Estadística 2000 45 Desde el punto de vista teórico se trabaja con dos conceptos importantes, el primero el tamaño de muestra en un diseño MAS y el segundo el denominado efecto de diseño deff. La estimación de un total mediante un diseño MAS utilizando el π-estimador y una muestra de tamaño n de N tiene la varianza VMAS (tˆy ) N .( N n) 2 .S yU . En este caso, n si se pretende que CV (tˆy ) se tiene que cumplir que CV yU n con no . n o 1 no 2 2 Para la estimación de una razón en este mismo esquema y si se desea que la estimación sea tal que CV (Rˆ ) , entonces se necesita que n 1 no ( yk yU ).(zk zU ) . 2 2 con no 2 CV yU CV zU 2. U ( N 1).yU .zU 1 no 1 si k U d En el caso particular en el que yk 0 si k U d no 1 2 . N Pe Pd . N 1 Pd .Pe 1 si k U e zk 0 si k U e Ud Ue N N con Pd d e Pe N N Cuando el tamaño del universo es tan grande que el cociente N se vuelve muy N 1 cercano a uno, el comportamiento de no para α = 2.5% oscila entre 100 y los varios miles dependiendo de la configuración de Pe y Pd como lo muestra la siguiente tabla. Técnicas de diseño de encuestas Simposio de Estadística 2000 46 Tamaño de muestra para estimar la razón Nd mediante M.A.S con CV Rˆ 2,5% Ne Pe Pd 1 0,90 0,85 0,80 0,70 0,60 0,50 0,40 0,30 0,25 0,20 0,05 30400 30222 30118 30000 29714 29333 28800 28000 26667 25600 24000 0,10 14400 14222 14118 14000 13714 13333 12800 12000 10667 9600 8000 0,15 9067 8889 8784 8667 8381 8000 7467 6667 5333 4267 2667 0,20 6400 6222 6118 6000 5714 5333 4800 4000 2667 1600 0,25 4800 4622 4518 4400 4114 3733 3200 2400 1067 0,30 3733 3556 3451 3333 3048 2667 2133 1333 0,35 2971 2794 2689 2571 2286 1905 1371 571 0,40 2400 2222 2118 2000 1714 1333 800 0,45 1956 1778 1673 1556 1270 889 356 0,50 1600 1422 1318 1200 914 533 0,55 1309 1131 1027 909 623 242 0,60 1067 889 784 667 381 0,65 862 684 579 462 176 0,70 686 508 403 286 0,75 533 356 251 133 0,80 400 222 118 0,85 282 105 0,90 178 0,95 84 Para una estimación de mediana calidad es decir CV Rˆ 5,0% los tamaños de muestra se reducen exactamente en una cuarta parte puesto que el factor 1 pasa de ser 2 1 1 1600 a ser 400 . 0.025 0.05 De tal manera que si por experiencia se intuye que el porcentaje de votantes es cercano al 70% y la proporción de votos favorables es del 40%, es decir Técnicas de diseño de encuestas Nd P 0.4 d Ne Pe Simposio de Estadística 2000 47 entonces Pe = 0.28 y así se llega a que en MAS se necesita un tamaño de muestra de 3429 personas para conseguir que el intervalo de confianza sea de la forma (40 2)% (2 = 2 x 2.5 % de 40%). Si para similares condiciones, el intervalo deseado fuera de la forma (40 1)%, se tendría que 1 2 x CV x 40 % con lo que el CV sería 100 igual a 1.25% y el tamaño de muestra crecería a 13.714 personas. Si por el contrario un intervalo de la forma (40 4)% satisface las necesidades del usuario entonces el CV sería igual a 5% y el tamaño de muestra necesario sería igual 857 personas. Para pasar de un diseño MAS, con el π-estimador y un tamaño de muestra n a un diseño cualquiera d con el estimador tˆy también arbitrario y tamaño de muestra comparable, es decir E(ns) = n se utiliza el denominado efecto de diseño deff, definido como el cociente de las varianzas de los dos estimadores: deff ( d , tˆy ) Vd (tˆy ) VMAS (tˆy ) con Ed (ns ) n de esta manera se llega a que si para un diseño cualquiera d con estimador tˆy arbitrario se desea una estimación con CVd (tˆy ) entonces Vd (tˆy ) y así E tˆy con lo que n Vd (tˆy ) 2.E 2 tˆy es decir deff (d , tˆy ).VMAS (tˆy ) 2.E2 tˆy deff .no con no como se ha definido en los casos anteriores. 1 1 .deff .no N Nótese que tanto en el caso de la determinación del tamaño de muestra para un diseño MAS como en el caso general en que se utiliza el coeficiente deff, se hace necesario disponer de información acerca del coeficiente de variación CV de la o las variables en estudio. Si no se cuenta con esta información, aún en forma aproximada es imposible abordar la discusión acerca del tamaño de muestra. En casos de completo desconocimiento sobre estos aspectos se suele recabar esta información a partir de una muestra piloto. Técnicas de diseño de encuestas 48 Simposio de Estadística 2000 La situación se hace más difícil pero también más frecuente cuando no se dispone de un marco muestral de elementos y se debe acudir a los diseños multietápicos. En este caso es prácticamente imposible acercarse a un estimativo del coeficiente deff. Nótese que para poder establecer este factor se debe disponer de la información censal de las variables en estudio. De otra parte, cuando se tiene una muestra con un diseño particular di diferente al MAS no se puede intentar una estimación del deff. Para poderlo hacer, se necesitaría de al menos dos muestras, una MAS y otra di. En diseños multietápicos se suele comenzar con un diseño proporcional, entonces el deff no sólo depende de la combinación de diseños en las diferentes etapas sino también y en gran medida de la escogencia de los valores pi Desde esta perspectiva teórica es muy difícil llegar a una determinación regularmente satisfactoria de un tamaño de muestra para un diseño no muy complejo en varias etapas, como los que suelen necesitarse en la cotidianidad. Guiándose por los criterios teóricos expuestos se puede entonces proceder a simulaciones, ojalá a partir de datos censales para variables de distribución presumiblemente similar a las variables de estudio. Para la simulación es conveniente dejar fijo un esquema de selección muestral para jugar únicamente con los tamaños en las diferentes etapas y en las distintas UPM’s. Para reducir un poco la complejidad del modelo de simulación vale la pena dejar fijos algunos de los parámetros y mover sólo otros. Se puede fijar de antemano la decisión acerca de la definición de las diferentes unidades de muestreo. Por ejemplo para un estudio entre amas de casa, la definición de unidades es: UPM’s – Municipios USM’s – Secciones UTM’s – Manzanas Elemento – Ama de casa Técnicas de diseño de encuestas Simposio de Estadística 2000 49 Este esquema podría cambiarse teniendo en cuenta los sectores cartográficos, segmentos, las caras de manzana, las viviendas, los hogares y muchas otras unidades más, todas ellas conducentes al elemento de estudio: el ama de casa. Sin embargo es conveniente fijar un esquema para luego jugar con otros factores. Aquí es importante recordar que si por un lado el establecer más etapas implica mayor varianza y por ende mayor tamaño de muestra, de otro lado el enlistamiento en unidades grandes implica un alto costo y poco aprovechamiento muestral del listado conseguido. El segundo factor a dejar relativamente fijo para la simulación es el tipo de selección en cada una de las unidades muestrales a seleccionar. El plan de simulación es más fácil, si al interior de todas o casi todas las Unidades Primarias de Muestreo se proyecta un mismo diseño o método de selección, de igual manera en la siguiente etapa y así hasta llegar al elemento. Por ejemplo con el esquema del ejemplo anterior de unidades se podría pensar en un plan EST(IF-PPT-MAS)-PPT-MAS-SIS, es decir estratificar los municipios como se señaló en un ejemplo anterior, las principales ciudades en el estrato de inclusión forzosa (πk = 1), los municipios de más de 25000 habitantes en estrato para diseño PPT y los municipios de menos de 25000 habitantes en un estrato en el que aplicará un diseño MAS de municipios. Para las principales ciudades y para los municipios del segundo estrato seleccionados se aplicará un diseño PPT de secciones cartográficas. En los municipios pequeños son tan pocas las secciones cartográficas y tan cortas las distancias, se puede obviar esta etapa y pasar directamente a una selección MAS de manzanas. También en las grandes ciudades y municipios de estrato dos se llega a una selección MAS de manzanas. La razón para utilizar una etapa más, es decir incluir la sección, aún cuando a partir de los archivos es posible seleccionar directamente manzanas, es por concentrar los operativos y reducir los tiempos de desplazamiento. Valdría la pena estudiar, en el caso particular, la diferencia de costos entre el tamaño muestral que se aumenta por ampliación de la varianza y el aumento de costo por esparcir la muestra a nivel de Técnicas de diseño de encuestas 50 Simposio de Estadística 2000 manzana en la ciudad. Finalmente en todas las manzanas seleccionadas se levanta el marco muestral de amas de casa y se procede a una selección sistemática. El tercer aspecto con el cual se puede jugar un poco dependiendo de la disponibilidad de información es la variable auxiliar sobre la cual se ha de construir la proporcionalidad, sobre todo de las primeras etapas, cuya varianza tanto pesa en la varianza final. El primer factor de juego en la simulación es el tamaño de muestra en cada etapa y unidad de muestreo. Buscando de nuevo la simplicidad, el modelo se deja analizar mejor si para los diseños MAS o SIS se establecen porcentajes fijos a lo largo de las unidades de muestreo sobre el tamaño total de la unidad. Así por ejemplo, se juega con la cantidad de municipios a seleccionar y también con el de secciones y luego se varían porcentajes de muestra. En el ejemplo, varía el porcentaje de manzanas a ser estudiadas en las secciones escogidas. Si por ejemplo se fija que se escoge el 10% de las manzanas de la sección, esta proporción será fija para todas las secciones; de igual manera con la proporción de amas de casa por manzana. De esta manera se generan tablas en las que un mismo valor de tamaño muestral se consigue con diferentes configuraciones. En un ejemplo sencillo se pueden entrevistar 400 hogares seleccionando 40 manzanas y 10 hogares por manzana, pero también con 25 manzanas y 16 hogares por manzana, ó 10 manzanas y cuarenta hogares por manzana bajo el supuesto de que todas las manzanas son de tamaño tan grande. Desde la perspectiva de la varianza del estimador la mejor configuración es aquella que tiene la mayor cantidad de UPM’s y la menor de elementos al interior de cada UPM. Sin embargo los costos y tiempos de enlistamiento son completamente diferentes. Se llega entonces al último aspecto a tener en cuenta en la simulación: La operatividad y los costos. No necesariamente una muestra más grande implica mayores costos. Los costos crecen en función de los procesos de construcción de los marcos en las unidades posteriores. Técnicas de diseño de encuestas Simposio de Estadística 2000 1.4.4 51 Operatividad y costos Dentro del proceso de diseño del plan muestral se debe tener especial atención a los costos y recursos asociados a la operatividad, es decir a la identificación correcta de unidades de estudio o de variables de interés. Este aspecto está ligado a la definición de elemento pero también de unidades de muestreo. Si se propone una etapa muestral en la que se identifica al hogar, se hace necesaria una indagación metódica acerca de los gastos, cómo se comparten alimentos, etc. Averiguación costosa frente a la identificación de la vivienda. Cuando se propone una etapa en la que es necesario delimitar la finca productora se incurre en un elevado costo en comparación al proceso en el que la unidad intermedia muestral es el productor como persona. El costo de un proceso muestral tiene, desde la perspectiva operativa las siguientes fuentes de costo: 1. La adquisición, corrección y complementación del marco de UPM’s. 2. El levantamiento o construcción del marco de unidades posteriores de muestreo 3. Los procesos de seguimiento, control y corrección al desarrollo de las diferentes etapas muestrales. 4. El proceso de observación o entrevista. 5. La supervisión y control del proceso de medición. Como complemento al modelo de simulación que genera un resultado de CV de estimación para unos tamaños de muestra dados, se establecen entonces los costos asociados a las decisiones con las que se alimenta el modelo. De esta forma es posible configurar unos escenarios en los que la calidad está en función del costo y sobre el que es posible encontrar el mejor resultado para un costo dado o el mínimo costo con el que se puede conseguir una especificación de calidad preestablecida. Técnicas de diseño de encuestas Simposio de Estadística 2000 52 1.5 El informe del plan muestral Una vez conseguido un diseño medianamente satisfactorio, discutido y de acuerdo con los requerimientos del usuario, se hace indispensable redactar y entregar un informe de plan muestral. Este informe es el documento oficial con el que el muestrista asume las responsabilidades de su producto. En él se registran los elementos de muestreo que serán posteriormente utilizados en la recolección, producción e interpretación de resultados. El informe debe contener más o menos las siguientes partes: Título (Es conveniente incluir fechas y restricciones geográficas) Introducción Resumen del diseño muestral, tamaño final de muestra, costo total, fórmulas de los factores de expansión, de la varianza del estimador y método de estimación de la varianza y comentarios importantes. Marco conceptual Objetivos generales y específicos del estudio, concreción de objetivos en los principales cuadros de salida esperados. Diseño Definición de las diferentes unidades de muestreo, definición de las formas de selección, variables auxiliares a utilizar. Características Se trata en este capítulo de entregar las cifras concretas de probabilidades de selección, tamaños planeados de muestra, costos asociados a las etapas y duración de las mismas. Factores de expansión Tabla final de factores de expansión para todos los elementos a observar. Métodos aplicados para el ajuste por no respuesta. Técnicas de diseño de encuestas Simposio de Estadística 2000 Imputación 53 Criterio de mínima respuesta aceptable. Criterios para los procesos crítica de campo, de oficina y análisis de consistencia y de respuesta válida. Estrategia de imputación. Estimación Procedimientos específicos a aplicar. Fórmulas para la estimación de totales, razones y otros parámetros. Fórmulas o mecanismos propuestos para la estimación de la varianza del estimador. ANEXOS Definiciones utilizadas conceptual y operativamente. Cuestionario a aplicar Manual de recolección, crítica y mínima respuesta aceptable Especificaciones de consistencia Especificaciones de imputación Técnicas de diseño de encuestas Simposio de Estadística 2000 54 2. EL DISEÑO DEL CUESTIONARIO Un cuestionario es un grupo o secuencia de preguntas diseñadas para obtener información acerca de un sujeto o un tópico a través de un informante o entrevistado. Un cuestionario es un conjunto estructurado de preguntas con respuestas precodificadas de acuerdo con categorías. Un cuestionario puede ser administrado por el entrevistador o ser diligenciado directamente por el entrevistado. Los cuestionarios cumplen un papel fundamental en el proceso de recolección de la información. Ellos inciden decisivamente en la calidad de la información y en la imagen que la organización encuestadora proyecta ante el público. Un cuestionario debe permitir la recolección de información en forma eficiente con un mínimo de errores, debe facilitar la codificación y captura de los datos y reducir la cantidad de crítica y de imputación necesarias. La redacción de las preguntas debe ser clara y éstas deben seguir una secuencia lógica. Las preguntas deben ser comprendidas fácilmente y planteadas de forma que la respuesta sea siempre precisa, un cuestionario debe ser amigable tanto para el entrevistador como para el entrevistado. 2.1 Criterios de diseño Los aspectos a tener en cuenta en el diseño del cuestionario son: Objetivos de la encuesta traducidos en cuadros de salida esperados Características del Universo de estudio Métodos de recolección de la información Tiempo disponible para la entrevista Presupuesto y Cronograma de trabajo Como pasos a seguir para el diseño del cuestionario se sugiere el siguiente plan de acción: Técnicas de diseño de encuestas Simposio de Estadística 2000 55 1. Prepare un documento donde se enuncien claramente los objetivos, las necesidades de información y el plan de análisis. 2. Establezca las variables a medir, las preguntas en orden de importancia y las alternativas de respuesta necesarias para cumplir los objetivos. 3. Prepare un listado de preguntas y asegúrese de la pertinencia de ellas en relación con los objetivos y necesidades de información. En este punto revise preguntas que se hayan utilizado en anteriores encuestas sobre un tema igual o similar. 4. Analice la racionalidad de cada pregunta y haga el ejercicio de usar sus respuestas para cumplir los objetivos planteados, recuerde que el criterio no debe ser lo interesante de la pregunta o de la respuesta sino su correspondencia con un cuadro de salida preestablecido y acorde con los objetivos del estudio. 5. Ponga el listado de preguntas a consideración de los expertos en la temática de la encuesta y luego de sus ajustes discútalo con el usuario. 6. Revise la gramática, el lenguaje y la pertinencia de conceptos, palabras o giros idiomáticos. 7. Con el listado final de preguntas estructure un cuestionario fluido, sin saltos bruscos en la temática, sin repeticiones, ameno y en general que no constituya una carga de trabajo intelectual tanto para el entrevistado como para el entrevistador. 8. Realice pruebas de cuestionario, en las que Usted mismo juegue varias veces el papel del entrevistador. Válgase para estas pruebas de personas del universo de estudio, ojalá no vinculadas al grupo de trabajo de la encuesta. De esta manera podrá identificar preocupaciones y asuntos propios del universo en estudio. Técnicas de diseño de encuestas Simposio de Estadística 2000 56 2.2 La prueba del cuestionario La prueba de cuestionarios permite detectar errores de organización en los flujos de preguntas condicionales, sugerir categorías adicionales a las posibles respuestas, obtener un indicador preliminar de la duración de la entrevista y de las posibilidades de rechazo. Si la entrevista es grabada al tiempo de la prueba, posteriormente se puede analizar la interacción entre entrevistador y entrevistado. Estos registros de comportamiento ayudan a identificar problemas tales como fallas del encuestador en leer la pregunta o la forma como ésta aparece redactada. El entrevistado puede pedir explicación sobre una pregunta o sobre el procedimiento de respuesta. El tamaño para estas pruebas puede ser entre 20 y 100 entrevistados. Los entrevistados se seleccionan generalmente de acuerdo con el propósito que se persigue y no al azar. La prueba puede realizarse mediante la técnica de un grupo focal, mediante entrevistas particulares o mediante entrevistas observadas. El grupo focal es la reunión de personas pertenecientes a la población objetivo, convocada con el fin de adelantar una discusión informal sobre un tema previamente seleccionado. El grupo focal es liderado por un moderador quien debe conocer acerca de técnicas de entrevista en grupo y del propósito de la discusión. El grupo focal proporciona información sobre las actitudes, opiniones, intereses, experiencias y sugerencias de los participantes. Los grupos focales son útiles en la prueba y evaluación de los cuestionarios, ellos permiten evaluar la comprensión por parte de los encuestados del lenguaje y la redacción utilizados en las preguntas y las instrucciones y para evaluar alternativas de redacción y formato de preguntas. Los grupos focales varían de tamaño entre seis y doce personas, el tamaño ideal es de 7 a 9 personas. Las reuniones de los grupos focales son, por lo general, grabadas (en algunos casos filmadas). Pueden ser observados por personas desde un salón adjunto o a través de un falso espejo. Para el desarrollo de una sesión de grupo focal conviene analizar con detenimiento los siguientes aspectos que atañen con quienes deben responder las preguntas. Técnicas de diseño de encuestas Simposio de Estadística 2000 57 Comprensión, qué fue lo que realmente entendió de la pregunta ? Recordación, que tanto se recuerda o se sabe lo que se está indagando ? Reflexión y juicio sobre las consecuencias de las respuestas, es decir la tendencia a asociar la pregunta a alguna intención oculta de la entrevista, y por ende a emitir respuestas poco sinceras. Otra manera de probar cuestionarios es mediante entrevistas individuales en las que se utilizan algunas de las siguientes posibilidades: Observar los sujetos mientras responden el cuestionario. La observación suministra información acerca del comportamiento del respondiente. El observador toma nota acerca de la forma como se lee, la secuencia en la cual las preguntas son respondidas, los comentarios respecto a las instrucciones, tipos de registros o personas consultadas, el tiempo requerido para diligenciar las diferentes secciones y las correcciones o cambios hechos a las respuestas. Realizar discusiones de seguimiento con los entrevistados para determinar sus reacciones al cuestionario, a las instrucciones y a las preguntas individuales. Desarrollar entrevistas pensando en voz alta: A los entrevistados se les solicita pensar en voz alta mientras responden las preguntas, comentando cada una y explicando cómo fue escogida la respuesta final. Un entrevistador puede probar las respuestas obteniendo más información acerca de una afirmación en particular o clarificando el proceso a través del cual fue escogida una respuesta. Las entrevistas pensadas en voz alta ayudan a identificar las áreas en las cuales los encuestados tienen problemas y a entender el proceso a través del cual el cuestionario es diligenciado. También se prueba el cuestionario mediante la técnica de la entrevista observada para procesos de interrogación presencial o telefónica. Los observadores son de Técnicas de diseño de encuestas 58 Simposio de Estadística 2000 gran ayuda ya que ellos pueden presenciar o escuchar el diálogo entre el entrevistador y el entrevistado. Los observadores verifican si el entrevistador hace las preguntas exactamente como están redactadas y en la secuencia correcta, si omite alguna pregunta, si el entrevistado requiere alguna explicación adicional, si responde adecuadamente, etc. Diferentes entrevistadores y observadores deben ser usados para evitar sesgos en el resultado. Un método alternativo consiste entonces en grabar las entrevistas: esto permite un análisis posterior más detallado. El cuestionario debe ser administrado en forma apropiada. Tanto las personas encargadas de realizar las pruebas de la encuesta como los observadores deben entender los objetivos de ésta y la importancia de no cambiar arbitrariamente la redacción del cuestionario ni la forma de administrarlo. Sin embargo, ellos pueden redactar nuevamente las preguntas o formular otras adicionales, cuando se sospeche que la respuesta es inexacta, inapropiada o insuficiente. Esto deberá formar parte del sistema de retroalimentación para detectar problemas adicionales en el cuestionario. Sea de una u otra manera como se realiza la prueba del cuestionario, ella puede aplicarse a todo o a una parte del cuestionario, pero es recomendable utilizar todo el cuestionario, aun cuando algunas de las preguntas hayan sido adaptadas de otras investigaciones. Puede ser conveniente probar dos o más versiones de una misma pregunta o versiones en las que se varía el orden de las preguntas en la estructura del cuestionario. Si solamente se puede practicar una prueba, el cuestionario deberá ser administrado de la misma manera como se hará en la encuesta definitiva por ejemplo en entrevista presencial o telefónica. La prueba de un cuestionario a diligenciar por correo es más efectiva si para la prueban se utiliza una técnica semi-presencial. Los entrevistadores tendrían la función de observar el diligenciamiento del cuestionario y aclararle dudas al entrevistado, pero no de plantearle las preguntas y diligenciar el cuestionario. Técnicas de diseño de encuestas Simposio de Estadística 2000 59 Conviene seleccionar encuestadores con entrenamiento y experiencia para las pruebas. Así es más probable que las deficiencias detectadas se deban más al diseño del cuestionario que a los encuestadores. Ellos pueden igualmente hacer importantes recomendaciones para mejorar el cuestionario basados en su experiencia con otras encuestas. En general la opinión de los entrevistadores puede ser de gran utilidad en el diseño del cuestionario. También hay que anotar que los encuestadores experimentados pueden tener también desventajas para las pruebas de cuestionario, pues ellos pueden estar en capacidad de resolver situaciones que los encuestadores menos experimentados no sepan abordar. Ellos pueden también ser más eficientes, lo cual conduce a subestimar el tiempo que demanda la entrevista. Lo apropiado es entonces, escoger encuestadores con diferentes grados de entrenamiento y experiencia para una prueba. Los encuestadores de prueba deberán ser entrenados en cómo obtener información que sea útil para refinar el cuestionario. Se les deberá instruir detalladamente en los conceptos y definiciones usados en el cuestionario y en la forma de administrarlo. Los entrevistadores deben determinar si hay ciertas palabras, frases o situaciones que sean entendidas por diferentes interrogados de manera distinta a como fueron concebidas por quienes diseñaron el cuestionario. Gran parte de la evaluación en una prueba consiste simplemente en aplicar el sentido común para resolver los problemas identificados mediante la retroalimentación. La tabulación del número de respuestas :“No sabe”, “Rechazo” o “ No aplica” sumado a las inconsistencias y preguntas en blanco, usualmente identifica diversos problemas en el cuestionario. La prueba usualmente identifica que hay un problema, pero no brinda la solución “correcta”. Por ejemplo, si con frecuencia una pregunta no es respondida durante la prueba, posiblemente haya un problema en su redacción. A menos que los entrevistadores u observadores identifiquen la pregunta no respondida, los diseñadores del cuestionario no tendrán la suficiente información para replantear la pregunta en una forma que facilite su respuesta. Técnicas de diseño de encuestas Simposio de Estadística 2000 60 La cantidad de tiempo necesario para realizar una prueba varía en función de varios factores, entre los cuales cabe mencionar: El numero de casos y de entrevistadores; La duración de la entrevista; La distancia media entre los diferentes informantes, en el caso de entrevistas realizadas personalmente; La necesidad de enviar materiales a una empresa para imprimirlos; La necesidad de escribir las instrucciones, el material de capacitación, las guías para los interrogatorios y los formatos para los observadores; La necesidad de enviar por correo el material al lugar de la entrevista. Para el costo de la prueba del cuestionario se tiene que pensar en Salarios de los entrevistadores y del personal de campo; Salarios de otro personal como diseñadores, observadores, etc.; Viáticos y gastos de transporte de los entrevistadores y observadores; Diseño de los formatos y reproducción de los cuestionarios; Gastos de correo para el material enviado al sitio o gastos de teléfono en el caso de entrevistas telefónicas. 2.3 El contenido del cuestionario Un cuestionario consta básicamente de cuatro partes, el encabezamiento, la información operativa, la información estadística y el cuerpo de preguntas. El encabezamiento está conformado por el título del estudio, la presentación de la entidad y del entrevistador, y el saludo a los entrevistados, en el que se le mencionan Técnicas de diseño de encuestas Simposio de Estadística 2000 61 los objetivos y alcances del estudio, se le motiva a responder con sinceridad y se le dan las garantías sobre el la confidencialidad de la información que suministre. La información operativa es aquella que se registra en el cuestionario sobre los intentos fallidos, las entrevistas por completar, las citas acordadas y por cumplir. Es decir es la información que sobre la cubierta del cuestionario permite decidir el destino que se le ha de dar al mismo, al final de cada jornada. Si el cuestionario fue respondido a satisfacción debe señalarlo en alguna parte para así enviarlo al proceso de crítica de oficina. Si se planeó una cita, el cuestionario así lo debe registrar a fin de que el encargado de darles rumbo lo coloque donde debe ser. La información operativa contiene una parte final en la que se registra el resultado final de la operación con ese cuestionario en particular. O bien se trata de una entrevista a satisfacción, es una entrevista rechazada, no se encontró el elemento muestral correspondiente, o es una entrevista realizada completamente pero respondida parcialmente. Con esta información el responsable de cuestionarios sabrá el destino final que debe darle a cada cuestionario. La información estadística comprende el número de identificación del cuestionario, que ha de ser único, el estrato o estratos a los que pertenece el elemento que se corresponde con el cuestionario, la identificación de las unidades primarias, secundarias , etc. de muestreo del elemento a entrevistar con ese cuestionario. En términos generales se debe consignar allí la información que permita identificar la procedencia estadística del cuestionario y asignarle el correcto factor de expansión. Luego viene el cuerpo de preguntas y finalmente debe existir un espacio para observaciones o comentarios del entrevistador o del entrevistado. Las preguntas se denominan abiertas cuando el entrevistado puede redactar y entregar libremente su respuesta. Ejemplo 1. Técnicas de diseño de encuestas Simposio de Estadística 2000 62 Cuáles son las razones principales por las que usted decidió escogió esta empresa de aviación? 1.__________________________________________________________________ 2.__________________________________________________________________ 3.__________________________________________________________________ Ejemplo 2. Qué clase de trabajo realizó la semana pasada? (Describa en forma detallada) ___________________________________________________________________ ___________________________________________________________________ ___________________________________________________________________ Ejemplo 3. Cuántas piezas tiene esta vivienda? |_|_| (Incluya cocina, habitaciones, sala, cuarto de estar, etc. No incluya baños, vestíbulos y cuartos utilizados con fines de negocio) Las preguntas abiertas recogen mucha información, contiene matices, es más próxima a la respuesta del interrogado y suministra datos numéricos exactos. Sin embargo es mucho más consumidor de tiempo y más exigente para el entrevistado. En las entrevistas no autodiligenciadas la respuesta pasa por el filtro del entrevistador que Técnicas de diseño de encuestas Simposio de Estadística 2000 63 diligencia el cuestionario. Él interpreta, analiza y registra lo que considera más importante de acuerdo a su criterio. Finalmente el tratamiento estadístico de las preguntas abiertas es mucho más dispendioso que con otros tipos de preguntas. Por ejemplo la grabación es mucho más complicada en preguntas abiertas que en preguntas cerradas. Se denominan preguntas cerradas aquellas en que las respuestas están preestablecidas y el entrevistado debe escoger entre una o varias de las opciones señaladas. Ejemplos Ha vivido usted alguna vez en una ciudad con más de 10.000 habitantes? 1 Si 2 No Usted trabaja para una entidad: 1 Privada 2 Pública Con las preguntas cerradas se puede obtener una respuesta sin que exista conocimiento u opinión al respecto, se puede llegar a una exagerada simplificación de algún aspecto, y se puede forzar una respuesta de modo artificial. Pero de otro lado son fáciles de responder, codificar, procesar y analizar. Entre las preguntas cerradas destacan dos tipos especiales, las de selección excluyente y las de selección múltiple. En la primera, el entrevistado sólo puede tomar una alternativa, por ejemplo: Cuál es su antigüedad en ese cargo? 1 Menos de 4 años 2 Entre 4 y 10 años Técnicas de diseño de encuestas Simposio de Estadística 2000 64 3 Más de 10 años En las preguntas de selección múltiple conviene eliminar la ambigüedad entre la no respuesta y la respuesta negativa. Ejemplo: Qué deportes práctico en los dos últimos meses ? Si No Natación 1 2 Ciclismo 1 2 Tenis 1 2 Fútbol 1 2 Se llamará aquí campo al nombre de la variable de grabación. Cada pregunta puede tener uno o varios campos de acuerdo con las opciones de respuesta. El cuestionario estructurado indica el nombre del campo en las alternativas de las respuestas. Ejemplos 1. Cuál es su antigüedad en ese cargo? C01 2. 1 Menos de 4 años 2 Entre 4 y 10 años 3 Más de 10 años Qué deportes ha practicado en los dos últimos meses ? Si No Natación 1 2 C02 Ciclismo 1 2 C03 Tenis 1 2 C04 Fútbol 1 2 C05 Técnicas de diseño de encuestas Simposio de Estadística 2000 3. 3.1 65 LA CRITICA Y LA IMPUTACIÓN La crítica estadística La crítica estadística es el proceso por el cual se garantiza que la información de una encuesta es aceptable en términos de completitud, consistencia y corrección. Desde la perspectiva operativa, la aceptabilidad de la información se determina por la integridad total de los datos en términos de: Qué tan completos están, Qué tan correctos son, y Qué tanto grado de consistencia interna presentan. Se entiende como crítica estadística el proceso encaminado a determinar el grado de integridad de la información en referencia a estos tres términos. Para estudiar la integridad de los datos se plantean dos tipos diferentes de crítica denominados generalmente como crítica interna y macro-crítica. La crítica interna es el proceso de determinar las inconsistencias, las ausencias importantes, e incorrecciones internas y el proceso encaminado a su corrección. La macro-crítica coteja los datos de la encuesta con otros conjuntos de datos (Encuestas anteriores, registros administrativos, versiones anteriores de la misma investigación) a fin de asegurar la comparabilidad. La crítica estadística es el proceso que implica la aplicación de ciertas reglas al conjunto de datos. Si un registro no cumple con alguna de las reglas establecidas debe ser señalado para ser corregido o cambiado. Ejemplos de este tipo de reglas son : La pregunta X DEBE TENER una y sólo una respuesta, Las respuestas válidas para la pregunta X son 1y 2, Técnicas de diseño de encuestas 66 Simposio de Estadística 2000 La suma de las partes de la pregunta X no puede ser menor que la respuesta a la pregunta Y, Máximo el 5% del área puede ser dedicada a labores de beneficio, etc., Las reglas de crítica se refieren generalmente a : Los valores que en forma individual pueden asumir las variables, Las relaciones que deberían existir entre unas respuestas y otras, La estructura global que se espera del conjunto de datos. La definición de las reglas de crítica se basa en el conocimiento experto de los especialistas en el tema, en la estructura del cuestionario y en otros datos relacionados con el tema de la encuesta. Los individuos con una amplia experiencia en el manejo de las variables que quieren ser criticadas tienen un buen conocimiento de las relaciones que existen entre esas variables y pueden distinguir las respuestas que tienen sentido. Ellos son importantes para definir el tipo de reglas de crítica. Por ejemplo un analista de estadísticas económicas del sector forestal puede saber de la relación entre ingreso bruto y gasto para las unidades del sector. Un experto en transporte puede señalar el rango aceptable de valores para la tasa de consumo de combustible para diferentes modelos de vehículos. El proceso de crítica puede ser manual o automático, dependiendo del volumen de crítica en términos de a) datos a criticar y b) cantidad de reglas a verificar ; dependiendo de la naturaleza y complejidad de las reglas de crítica y dependiendo de la etapa de procesamiento en la que se aplicarán las reglas de crítica. Obviamente entre más compleja sean las reglas de crítica, más difícil y susceptible a error serán los procesos manuales. Por el contrario para algunas encuestas, durante el proceso de recolección de datos será difícil, sino imposible incorporar procedimientos de crítica automática. Si se trata de una crítica manual y si se está interesado en un trabajo correcto se requiere: Escribir el conjunto de reglas de crítica, Técnicas de diseño de encuestas Simposio de Estadística 2000 67 Escribir el conjunto de decisiones a tomar cuando un dato no se ajusta a la regla, Entrenar a quienes van a realizar la crítica, Establecer un mecanismo de supervisión y control de los criticadores, Establecer la medida de impacto que la crítica ha tenido sobre los datos originales, y Finalmente el trabajo propio de crítica puede ser bastante laborioso. En un ambiente de crítica automática se debe: Escribir las reglas de crítica Contar un sistema de computo en el que se pueda realizar la crítica, Escribir los programas que realizarán la crítica, con base en especificaciones, Verificar y probar los programas, Aplicar los programas al conjunto de datos. La magnitud de los recursos, el tiempo y los costos de este proceso de principio a fin puede llegar a ser muy alto. En cualquier caso se debe estar seguro que la inversión de los recursos valen la pena. De una parte se debe estar seguro que no se trata de institucionalizar un operativo de crítica costoso, que consume mucho tiempo pero que tan sólo encontrará alguno pocos datos “equivocados” y con un impacto insignificante sobre los resultados finales de la encuesta. De otra parte, por el contrario, no se trata tampoco de correr el riesgo de entregar resultados poco confiables como producto de un diseño muy grueso de crítica, útil sólo para encontrar los mayores errores. A fin de diseñar una estrategia de crítica que responda a las necesidades y las restricciones de recursos se deben responder preguntas como : Qué cantidad de registros no cumplen las reglas de crítica ? Cuál es el impacto de esas inconsistencias en los resultados de la encuesta ? Técnicas de diseño de encuestas 68 Simposio de Estadística 2000 Deben considerarse con igual criterio todos los registros ?, Hay registros más importantes que otros ? Tienen todas las variables igual importancia ? Estas preguntas son muy fácil de formular pero no siempre de responder. La respuesta acerca de la cantidad de datos “equivocados” depende en gran medida de qué tan bien diseñado está el cuestionario, qué grado de escolaridad o de conocimiento sobre el tema tienen los respondientes, qué tan bien entrenados están los entrevistadores, qué tan eficientes son los procesos de supervisión y control. Con relación a la importancia que tienen los registros se debe señalar que no siempre ellos tienen la misma importancia. Tratándose por ejemplo de una encuesta a empresarios sobre las condiciones laborales de sus empleados, la importancia de una empresa con diez mil empleados es evidente sobre una empresa con cuatro empleados. Mientras que para la empresa grande es necesario realizar un proceso completo de crítica, conducente a una revisión y corrección completa, para la segunda la crítica puede ser reducida a enviar un mensaje de advertencia sin que implique corrección alguna. Este tipo de crítica conocido como crítica selectiva es muy utilizado en encuestas de tipo económico y de empresas. El diseño de una estrategia de crítica está relacionada también con las posibilidades de corrección de la información. Una de las consecuencias de realizar crítica a cuestionarios de una encuesta es el relacionado con la posibilidad de regresar a una fuente a verificar o corregir uno o varios datos. En las encuestas de hogares parece muy difícil hace revisitas por segunda o tercera vez a fin de verificar alguna información sobretodo si se trata de una encuesta larga, pesada o con aspectos muy sensibles. En las encuestas económicas, por el contrario, dada la importancia que para los resultados finales tiene cada fuente es necesario y frecuente volver a la fuente a realizar revisiones de la información entregada. El diseño de una estrategia de crítica conducente a identificar registros que no se ajustan a las reglas establecidas no tiene valor práctico si no está seguido del proceTécnicas de diseño de encuestas Simposio de Estadística 2000 69 so de corrección correspondiente. La acción de corrección es comúnmente llamada imputación estadística. Es importante tener en cuenta que las acciones de crítica e imputación están tan estrechamente ligadas, que se debe tener en cuenta el tipo de imputación a realizar al momento de escribir las especificaciones de crítica. Frecuentemente la imputación se realiza como un paso separado después que todos los datos han pasado por los procesos de crítica. Durante este último proceso se han detectado las inconsistencias y se han marcado los registros a ser corregidos. En un proceso separado, el de imputación, se efectúan las correcciones del conjunto de datos. La crítica estadística es un proceso que tiene lugar durante las etapas de recolección y procesamiento de información. Durante la entrevista: Durante la recolección existe una crítica que realiza el entrevistador, quien revisa y corrige a medida que realiza la entrevista. En estos casos el entrevistador se basa en reglas preestablecidas pero también en su sentido común y su juicio acerca de lo que son respuestas aceptables o combinaciones de respuestas. Ejemplos de este tipo de crítica, pueden ser reconocer errores de registro como por ejemplo entrar el número 8 cuando existen dos campos numéricos para registrar el mes y se ha debido registrar 08. Otro ejemplo es la detección de palabras mal escritas. Una situación más compleja es el caso en el que el entrevistador reporta ingresos por la producción de un cultivo para el cual no se han reportado áreas de siembra. Inmediatamente después de la entrevista: Frecuentemente existe una crítica en forma inmediata a la finalización de la entrevista. Los entrevistadores son entrenados para realizar una revisión de las respuestas registradas inmediatamente después de abandonar el hogar o el establecimiento encuestado. De esta manera se tiene la oportunidad de detectar y corregir errores cuando la información está aún fresca en Técnicas de diseño de encuestas 70 Simposio de Estadística 2000 la memoria del encuestador con la posibilidad adicional de realizar una nuevo contacto fácil y poco costoso. La crítica del supervisor: La siguiente forma de crítica es la efectuada por el supervisor. Entre sus tareas está la de controlar el trabajo de los encuestadores para encontrar errores a fin de aplicar las acciones remediales necesarias. En general se trata del mismo tipo de errores que el entrevistador hubiera podido detectar inmediatamente después de la entrevista, y usualmente tiene la posibilidad de volver a contactar al respondiente para determinar el valor correcto. La crítica de oficina: Los formularios una vez completos son enviados o entregados por los supervisores a una oficina en la que se lleva a cabo el proceso de alistamiento previo al operativo de oficina. Dicho alistamiento consiste entre otras actividades, en la codificación, la colocación de etiquetas, la construcción de paquetes, el registro de formularios completos, incompletos, etc. dentro de este proceso se realiza generalmente un proceso adicional de crítica, en el que por ejemplo se revisan los identificadores, los códigos, los criterios mínimos para considerar un formulario “completo”, etc. La magnitud de la crítica a realizar en este momento depende del presupuesto disponible y de las posibilidades que tiene el grupo de oficina de corregir los errores encontrados. En esta etapa es todavía posible intentar, como última oportunidad, un nuevo contacto con la fuente a fin de corregir algún dato. Una vez los cuestionarios son enviados a grabación las correcciones se realizarán (en la mayoría de los casos) por medios automáticos. La crítica más compleja y general se produce usualmente durante la etapa de procesamiento de datos. La crítica automática, como se denomina, se realiza cuando la información ha pasado de cuestionarios físicos a un medio magnético y se aplican programas de computador diseñados para verificar las reglas de crítica. Esta crítica permite mayor complejidad en el tipo de reglas a ser manejadas. Técnicas de diseño de encuestas Simposio de Estadística 2000 71 Durante la captura: La crítica puede ser realizada durante la captura de datos bien por los grabadores o por el mismo programa de grabación. Puesto que se trata de la etapa durante la cual los datos del cuestionario son convertidos en un archivo magnético o una base de datos, resulta económico aprovechar la oportunidad para aplicar ciertas reglas de crítica que dejarán los datos suficientemente ‘depurados’ para continuar en forma eficiente con los siguientes pasos del procesamiento. En un proceso separado de crítica e imputación: La crítica que se lleva a cabo durante la captura está generalmente relacionada a las reglas específicas para cada variable, como por ejemplo los valores posibles. Para el análisis de las relaciones entre variables, relaciones entre registros o entre conjuntos de datos, se acostumbra un proceso independiente, posterior a la grabación, denominado proceso de crítica e imputación. Un principio universalmente aceptado respecto al proceso de critica automática después de la captura de datos, es que la etapa de crítica y su correspondiente “corrección” o imputación no requiere volver a las copias en papel de los cuestionarios, a menos que sea absolutamente necesario. Es decir, se parte del concepto de que la base de datos en medio magnético, producto de la captura, contiene todo lo necesario a fin de poder realizar las tareas posteriores de crítica e imputación. En los casos en los que el regreso al cuestionario físico sea inevitable, el proceso de crítica e imputación deberá ser tal que toda la información a obtener del cuestionario físico debe ser conseguida en una única consulta. Se debe evitar la situación en que los cuestionarios son consultados una y otra vez a fin de resolver errores de crítica, por cuanto es un procedimiento demasiado costoso y consumidor de tiempo, máxime si se trata de un volumen elevado de cuestionarios. Otro principio incluido en el proceso de crítica señala que durante las diferentes etapas de crítica, una regla de crítica no puede contradecir reglas de crítica de otras etapas. Por ejemplo una relación lógica aplicada por los entrevistadores durante la Técnicas de diseño de encuestas 72 Simposio de Estadística 2000 crítica manual no puede ser controvertida por la crítica automática durante la etapa de procesamiento. Igualmente el grado de rigurosidad en la crítica de una etapa deberá ser al menos tan riguroso como en las etapas anteriores. Un primer propósito de la crítica de campo es la de corregir los errores ocurridos durante el proceso de entrevista, errores que provienen bien del entrevistador o del entrevistado. Por ejemplo los encuestadores o el supervisor no notan que se está llevando una falsa secuencia debido a un error de salto en el formulario. En otros casos los entrevistadores o el personal de oficina pueden notar un error sistemático originado en una forma incorrecta de ajustar cantidades o de rellenar con ceros. En ocasiones el error puede derivarse de estar utilizando una tabla equivocada de códigos o de equivalencias. Un segundo propósito de la crítica de campo es la de controlar que ciertas preguntas cruciales dentro del cuestionario hayan sido contestadas. En general se establece que si una determinada cantidad de preguntas cruciales no ha sido respondida el cuestionario puede considerarse inútil y puede ser removido de los paquetes para entrar a procesamiento. Considérese por ejemplo una encuesta sobre el mercado laboral que recoge información sobre los trabajos que ha desempeñado la persona en el último año. Para la información acerca del trabajo es absolutamente necesario contar con respuestas a las preguntas sobre el tipo de trabajo, el tipo de responsabilidades que él implicaba y la compañía en la que trabajó. No hay manera de imputar esta información si no ha sido registrada por el encuestador. Esto significa que el cuestionario deberá ser rechazado como una total no respuesta aún en el caso que muchas otras respuestas hayan sido respondidas correctamente. Generalmente estas variables que deben estar respondidas constituyen lo que se denomina el criterio de mínima respuesta para no rechazo y se insiste sobre ellas en el manual del encuestador y durante la capacitación. Una tercera razón para realizar la crítica de campo es la posibilidad de “limpiar” la encuesta. Algunos encuestadores, generalmente novatos, adoptan la modalidad de Técnicas de diseño de encuestas Simposio de Estadística 2000 73 escribir cortas notas o palabras claves al borde del cuestionario, acerca de las respuestas señaladas por el encuestado. La razón de proceder de esta manera es que ellos o bien no conocen bien los códigos, o no creen conveniente comenzar a buscarlos en su manual de campo en medio de la entrevista. La crítica de campo le permitirá al encuestador poner en limpio la codificación de esas notas, que olvidará muy pronto, y entregar un cuestionario limpio y sin notas al margen. En la oficina las notas aclaratorias al margen del cuestionario pueden ayudar al proceso de crítica. Pero nunca más allá, por cuanto esas notas no llegarán a ser grabadas. El resultado de la crítica de campo puede ser muy diverso. En primer lugar se puede originar una corrección en el lugar por cuanto la acción de corregir era obvia. De otra parte se puede volver a la fuente que se tiene cerca tanto en tiempo como en espacio y recoger de ella la información correcta o faltante. Finalmente, si ninguna de las dos alternativas anteriores es posible, la crítica de campo deja la respuesta en blanco para que sea marcada para imputación en un proceso posterior. Las razones para realizar la crítica automática son corregir los datos faltantes, detectar los datos erróneos, encontrar inconsistencias y eventualmente señalar los llamados “outliers” o datos extraños. La crítica automática es la última oportunidad de “corregir” datos antes de iniciar el proceso de producción de cuadros de salida. El objetivo de la crítica automática es la de aplicar y verificar el cumplimiento de las reglas de crítica que no fueron verificadas anteriormente, así como la aplicación de reglas muy complejas y que abarcan en forma simultánea un amplio espectro del cuestionario. El resultado de la crítica automática puede también conducir a varias salidas. en algunos casos el registro que se critica presenta tal cantidad de infracciones a las reglas de crítica o infringe sólo algunas pero las más cruciales reglas que su posterior utilización se hace prácticamente imposible. En estos casos se debe retirar el registro de la base de datos y darle el tratamiento de caso absoluto de no respuesta. Técnicas de diseño de encuestas Simposio de Estadística 2000 74 Otra salida posible es la imputación llamada determinística en la que si es posible, se establece un único valor el cual será asumido por la variable en forma automática en el momento en el que se detecte un error. De esta manera se puede evitar tener que volver sobre el mismo registro para hacer la corrección, haciendo así más eficiente los pasos posteriores de procesamiento. La salida más frecuente es en la que no es posible señalar un valor para la imputación determinística, y será necesario realizar un proceso posterior de imputación probabilística, en este caso la salida de la crítica es la de marcar el registro, colocar una bandera, a ser tenida en cuenta en el siguiente paso de imputación. En encuestas de opinión es frecuente que el investigador opte por crear un código nuevo y asignarle a este código los casos en que no se tiene respuesta o se tiene una respuesta inicialmente no aceptada. Finalmente el resultado de la crítica automática puede ser sencillamente dejar el espacio en blanco a fin de que el problema se solucione en el proceso posterior de imputación, obviamente si las especificaciones de imputación aclaran que el espacio en blanco es sinónimo de bandera para imputación. 3.1.1 Verificación y validación Antes de iniciar este numeral es importante establecer la diferencia entre dos términos que se utilizan frecuentemente en este contexto y que son muy diferentes. La verificación y la validación. La verificación es el proceso que generalmente acompaña a la grabación y que consiste en garantizar que lo grabado es un fiel reflejo de lo contenido en los cuestionarios. Este proceso se realiza casi siempre a través de una segunda grabación en la que cada uno de los datos capturados va siendo comparado con la anterior captura. Las diferencias se concilian inmediatamente. En muchos casos y por razones de Técnicas de diseño de encuestas Simposio de Estadística 2000 75 tiempo y costo este procedimiento se limita a las variables más importantes del cuestionario como los campos de identificación, los códigos, las variables claves y las que deben estar respondidas. La validación es el proceso por el cual en forma manual o automática se determina si los datos cumplen ciertas reglas preestablecidas de aceptabilidad. Estas reglas constituyen la crítica de validación. La verificación de la regla la puede realizar el grabador cuando al momento de grabar determina si la variable cumple o no la regla establecida. En muchos casos el programa de grabación acepta sólo valores aceptables o respuestas válidas. Esta verificación puede también ser efectuada como un proceso aparte después de la grabación y verificación. La crítica de validación controla una variable y solo una en cada momento, no permite revisar relaciones entre variables o entre individuos. Para valores numéricos especifica los rangos de respuesta válida. Para preguntas cerradas de selección única se valida el cumplimiento de una de las posibles alternativas. La crítica de validación puede establecer que son valores aceptables el uno y el dos. En algunos casos la no respuesta también puede ser aceptable, es decir los valores válidos serían 1, 2 y 3. Obviamente si las dos respuestas, el 1 y el 2, están marcadas sobre el formulario la respuesta es claramente inválida y debe ser criticada, es decir se debe decidir qué hacer en ese caso. La crítica de validación también se aplica para verificar la sintaxis numérica o alfanumérica de una determinada respuesta. Es decir cuando se espera un determinado nombre, por ejemplo de un departamento, la crítica verificará que quede correctamente escrito o lo rechazará por inválido, lo mismo podría hacerse para aspectos relacionados a direcciones, marcas, jerarquías, etc. A la crítica de validación le corresponde siempre una acción en caso de encontrar casos inválidos. Las acciones a tomar pueden ser: la corrección inmediata, la impu- Técnicas de diseño de encuestas 76 Simposio de Estadística 2000 tación determinística, la señalización con banderas o códigos especiales o simplemente, dejar los espacios en blanco. En el caso por ejemplo en el que se tienen dos campos para colocar el dígito correspondiente al mes, el valor inválido 8 blanco, puede ser inmediatamente corregido a 08. Así mismo, pequeños errores de ortografía pueden conducir al nombre correcto de la compañía en cuestión. Puesto que la crítica de validación se hace generalmente durante la captura de la información, se instruye a los grabadores para que todo caso no válido sea dejado en blanco. Una consideración muy importante en este punto es que el software utilizado pueda distinguir entre el cero y el blanco. Los blancos señalan ausencia de información e implica que son datos no tenidos en cuenta para las estimaciones de promedios, aspecto muy diferente con el cero. En otros casos se utiliza un valor especial, por ejemplo el “9” para indicar que un valor no válido fue respondido. La razón de utilizar el 8 y el 9 para estos efectos radica en que generalmente ellos no pertenecen a los rangos aceptados. Sin embargo la aplicación de este procedimiento a valores cuantitativos como el ingreso, la cantidad de empleados, etc, puede conducir a grandes catástrofes. Existen muchas formas de presentar las especificaciones de la crítica de validación, sin embargo la simple lista de cada una de las variables en forma ordenada, seguida de sus valores válidos y un campo para observaciones especiales es suficiente para completar la especificación. Generalmente al lado de las observaciones individuales por variable se acostumbra a tener un conjunto, de instrucciones generales que se aplican para todo el cuestionario. Estas son particularmente importantes cuando la crítica se esta realizando durante la captura. Ejemplo de este tipo de reglas generales son: Los campos numéricos se ajustan a la derecha y se completan con ceros, Técnicas de diseño de encuestas Simposio de Estadística 2000 77 Los campos sin entrada posible se dejan en blanco, Todos los campos deben ser verificados. 3.1.2 Especificaciones de consistencia Mientras que la crítica de validación examina una variable en un momento, la crítica de consistencia analiza la relación entre dos o más variables. Esa relación puede ser simplemente la obediencia al flujo establecido en el formulario, por ejemplo si la respuesta a la pregunta 22 es ‘No’ las preguntas 23, 24 y 25 no debieron ser formuladas ni respondidas. Otra aplicación de este tipo de crítica verifica la relación ‘lógica’ entre dos o más respuestas de un mismo cuestionario. Una persona menor de diez años no puede responder estado civil diferente de soltero, o una mujer muy joven no puede responder que ha tenido más de determinada cantidad de hijos vivos. La crítica de consistencia, al contrario de la crítica de validación tiene a su disposición la información completa de todo el cuestionario al momento de criticar una determinada variable. Para la crítica de consistencia se manejan dos planteamientos básicos importantes. El primero parte del principio de realizar el mínimo cambio posible de datos hasta obtener una base de datos completa y corregida. Aunque este planteamiento preserva la cualidad de mantener la mayor cantidad posible de información para la producción de cuadros, requiere muchas reglas de crítica y sofisticados programas de computo capaces de determinar los puntos de cambio mínimo. El segundo planteamiento parte del principio muy práctico de realizar la crítica de consistencia únicamente basándose en la información previamente criticada, es decir de las preguntas anteriores. Este procedimiento denominado crítica descendente conlleva a estable- Técnicas de diseño de encuestas 78 Simposio de Estadística 2000 cer reglas muy sencillas, se implementa de manera relativamente fácil y rápida, aunque puede conducir a una elevada cantidad de cambios en la base de datos. La operación de crítica de consistencia termina en retirar datos de la base, realizar una imputación determinística o marcar registros a fin de realizar la imputación probabilística en un paso posterior. En términos generales el primer paso de la crítica de consistencia es crear la regla de validación que controla las condiciones de mínimo respuesta para rechazo y las de utilidad del cuestionario. Por ejemplo si cierta cantidad de preguntas claves no se han respondido o una buena proporción de las preguntas iniciales están en blanco, quizá sea conveniente considerar el cuestionario como no respuesta absoluta en su totalidad y dejar para un paso posterior los ajustes necesarios en los factores de expansión a utilizar. La crítica de consistencia en principio identifica datos que no cumplen las reglas y los señala para ser reemplazados por datos de individuos similares. Este método se conoce como imputación probabilística. Durante el proceso de crítica lo único a tener en cuenta es definir los registros que en caso de fallas, serán objeto de imputación determinística y los que son objeto de imputación probabilística. 3.1.3 Macrocrítica Esta forma de crítica se utiliza para detectar valores de variables o cuestionarios que parecen diferentes a valores o resultados de encuestas anteriores y que tienen la apariencia de estar incorrectos. Este tipo de situaciones pueden no ser detectadas a través de la crítica de consistencia por cuanto se trata de valores que no violan las reglas. Un ejemplo de este tipo de casos se tiene cuando los ingresos netos son muy altos, en relación a los ingresos brutos para un subsector económico en o una región geográfica en particular. Técnicas de diseño de encuestas Simposio de Estadística 2000 79 Este tipo de crítica puede realizarse antes o después de la verificación de consistencia. Si se hace previamente se puede entonces identificar registros que no deberían hacer parte del conjunto de “donantes” para el proceso de imputación. En ocasiones este tipo de crítica se realiza después de la prueba de consistencia como proceso para llegar a una versión final de datos depurados. Se puede afirmar que así como la crítica de validación observa una única variable, la crítica de consistencia examina un cuestionario, la macro-crítica estudia el conjunto completo de datos, para lo cual se vale de datos históricos, datos de la misma encuesta en meses o años anteriores, o encuestas sobre el mismo tema. En general la manera de realizar este tipo de crítica es a través de tablas univariadas que permitan determinar lo que se pueden denominar regiones “outliers” o extrañas. Una manera de hacerlo es revisando cuidadosamente el comportamiento de los 5% más altos o más bajos a fin de establecer si se trata de datos plausibles o no. En algunos casos las puntas de las distribuciones se manejan de manera diferente pero sistemática, así por ejemplo se imputan los datos más allá del 5%, y a los de la franja entre el 5% y el 15% no se les permite entrar en el grupo de donantes. Para esto, naturalmente, se debe contar con tamaños de muestra relativamente grandes. Las decisiones a tomar en los casos que la macro-crítica detecte errores, van desde el intento de hacer un nuevo contacto con la fuente, en los casos en los que el impacto en la información es muy importante, pasando por la necesidad de realizar ajustes a los factores de expansión, hasta la señalización de variables para ser imputadas. Finalmente se debe resaltar el hecho de que al cliente o al público se le debe informar, dentro de los comentarios de calidad de la información producida, acerca de los mecanismos de crítica realizados y sobre el impacto de ésta en los resultados presentados. Técnicas de diseño de encuestas Simposio de Estadística 2000 80 ESPECIFICACIONES DE VALIDACIÓN Encuesta : Escritas por: Fecha: Hora: 17:00 Pág. 1 de CAMPO TAMAÑO VALORES VÁLIDOS OBSERVACIONES Número 3 001 - 999 Debe estar Estrato 1 1, 2 Debe estar UPM 2 01, 03, 04, 08, 13, 17, 21, Debe estar 27, 33, 39, 45, 56, 64, 70 Hogar 3 001 - 300 Debe estar Réplica 2 01 - 17 Debe estar Múltiple 1 1-9 Debe estar C01 2 01 - 18, b C02 1 1, 2 Debe estar C03 2 18 - 98 Debe estar C04 3 50 - 150, b C05 3 120 - 200, b C06 1 1, 2, b C07 1 1 - 4, b C08 1 1, 2, b Técnicas de diseño de encuestas 1 Simposio de Estadística 2000 81 ESPECIFICACIONES DE CONSISTENCIA Encuesta : Pág. 1 Escritas por: de 11 Fecha: Bloque Nro. Condiciones 1 2 1 S N C04 = b Tabla nro. 3 4 5 Hora: 6 7 8 9 2 3 Acciones 1 Marque C04 para imputar X 2 3 No hacer nada 3.2 X La imputación estadística Durante el diseño y el desarrollo de una encuesta se hacen muchos esfuerzos con el fin de contar al final con datos completos, correctos y consistentes de parte de cada uno de los entrevistados. Sin embargo aún cuando una gran parte de recursos y del tiempo se invierte diseñando, revisando y probando el cuestionario, capacitando entrevistadores, y realizando actividades de seguimiento y control, no todas las respuestas son contestadas, no todas son correctas y se presentan casos de inconsistencias. Técnicas de diseño de encuestas 82 Simposio de Estadística 2000 Parece natural que la “mejor” (mejor entre comillas) solución ante datos faltantes o incorrectos es el retornar a la fuente primaria para resolver y realizar la depuración. Esta solución es muchas veces imposible, cara, e impráctica, pero además el respondiente puede no conocer la respuesta o no desea suministrarla. Con frecuencia el problema en los datos se detecta una vez se han realizado múltiples pasos en el procesamiento y es sencillamente muy tarde para detener el proceso y volver a la fuente. Y por supuesto siempre se debe estar atento acerca de la cantidad de molestias que se pueden recargar a un entrevistado. El hecho es que de todas maneras la base de datos presenta datos faltantes o inconsistentes al final del proceso de recolección a pesar de todos los esfuerzos y recursos gastados en seguimiento y control. Ante este hecho quedan dos posibles caminos, el primero eliminar de la base los cuestionarios con al menos un dato erróneo o faltante, con la consecuente pérdida de información que si estaba presente en el cuestionario y que tuvo un costo asociado a la recolección, la supervisión y el control. La otra posibilidad es la de asignar un valor “plausible” en el lugar de los datos faltantes o incorrectos, es decir realizar la imputación con la consecuente pérdida de precisión en los resultados entregados. Se trata entonces de determinar en cuál de las dos opciones se pierde menos. Si se establece que las pérdidas en precisión pueden ser mayores a lo que el investigador esta dispuesto a permitir, entonces se eliminan los cuestionarios en cuestión y se realizan los ajustes a los factores de expansión. En este caso el error muestral se amplía. Si por el contrario la magnitud de la imputación no implica grandes pérdidas de precisión, entonces la imputación se convierte en el procedimiento final antes de llegar a contar con archivos completos y depurados. Sin embargo los métodos particulares de imputación tienen mucho que ver con el nivel de pérdida de precisión. Así por ejemplo se han diseñado formas de imputación para que los promedios estimados no se alteren substancialmente. Mientras que la crítica es el proceso de identificar valores erróneos o faltantes la imputación es el proceso de “corregirlos” es decir de cambiarlos. La relación entre estos dos procesos es muy estrecha, tanto que generalmente se asocia a un único Técnicas de diseño de encuestas Simposio de Estadística 2000 83 proceso denominado critica e imputación. El proceso de crítica e imputación tiene tres pasos básicos: Identificar que algo está equivocado Establecer la causa de ese problema, es decir determinar la variable equivocada Corregir esos valores (es decir cambiar esos valores por otros que conduzcan a un conjunto consistente de datos). Los dos primeros pasos pertenecen a la crítica propiamente dicha, el último es lo que se denomina imputación. Naturalmente se debe tener cuidado que en este último paso no se vuelva a cometer un error que la crítica tendría que volver a detectar. Un dato imputado no pasará de nuevo por el proceso de crítica, por tal razón la imputación debe conducir a datos correctos y consistentes. Es por esta razón que el proceso de imputación al tener en cuenta las reglas de crítica puede llegar a ser un procedimiento por lo demás bastante complejo. El siguiente ejemplo ilustra el nivel de complejidad que se puede alcanzar: Considere las tres preguntas de selección: P1 P2 P3 Cuál es su actual estado civil ? 1 Soltero (a) 2 Casado (a) o unión libre 3 Separado(a), divorciado(a), viudo(a) En qué grupo de edad se ubica? 1 Menos de 15 años ---> Entonces termine la encuesta 2 15 a 34 3 35 a 54 4 55 ó más Trabajó la semana pasada como empleado? Técnicas de diseño de encuestas Simposio de Estadística 2000 84 1 Si 2 No Las especificaciones de crítica de consistencia escritas para este cuestionario fueron las siguientes: Regla 1. Si P1 es 2 o 3 entonces P2 no puede ser 1 Que traducido a términos de la encuesta señala que si el estado civil es casado, en unión libre, separado, divorciado o viudo, la edad no puede ser menor de quince años. Regla 2. Si P2 es 1 entonces P3 debe ser blanco Que significa que si en la pregunta dos, se contestó que la persona era menor de quince años la encuesta debe terminar y no debe haber respuesta para la pregunta tres. Regla 3. Si P2 es 2, 3 ó 4 entonces P3 no puede ser blanco. Que significa que si la edad es mayor de quince años debe haber alguna respuesta a la actividad laboral de la semana anterior. Considérese entonces un primer cuestionario con las siguientes respuestas: P1= 2 P2= 1 P3 = 1 Es decir una persona casada, menor de quince años que trabajó la semana anterior. Al aplicar las reglas de crítica a estos datos se infringen las reglas uno y dos. El siguiente paso es identificar la causa de ese error. Al menos uno de los tres valores está equivocado. Si el proceso de crítica establece que el dato errado es la segunda variable, la marcaría para imputación y este proceso debería escoger un valor entre el 2, 3 o el 4, porque de lo contrario el error persistiría. Considere ahora un segundo formulario en el que las respuestas son: Técnicas de diseño de encuestas Simposio de Estadística 2000 P1= 1 P2= 1 85 P3 = 2 Es decir una persona soltera, menor de quince años que no trabajó la semana anterior. Según las reglas de crítica se infringe la segunda regla. Suponga que quien escribió las especificaciones de crítica estableció que en casos como este el problema esté en P3, que debe ser marcada e imputada en un proceso posterior. La imputación de P3 debe ser blanco, por cuanto, cualquier otra posibilidad haría mantener el error. Con este ejemplo se muestra que la imputación es un proceso de asignar valores plausibles a las variables erróneas sin que se infrinjan de nuevo las reglas de crítica. Al lector curioso e interesado le queda como ejercicio el estudiar la misma situación si hace un pequeño cambio en el orden de las preguntas, e ilustrarse así de la estrecha relación entre diseño del cuestionario, crítica e imputación. Básicamente hay dos casos en los que amerita aplicar un procedimiento de imputación, en los casos de datos sin respuesta o para valores inconsistentes. El caso de la no respuesta también se puede considerar desde dos ángulos la no respuesta total y la no respuesta parcial. Se dice que un caso de no respuesta es total cuando ha sido respondida una muy pequeña parte del cuestionario o casi nada de él. La razón puede estar en que el respondiente después de la segunda o tercera respuesta decide no colaborar más y no responde el resto de preguntas. Sin embargo este caso debería haber sido detectado en la crítica de oficina, o a más tardar en el proceso de crítica de validación. Si el cuestionario tiene muy poca información la imputación será muy difícil de realizar. En estos casos vale la pena examinar la cantidad y el tipo de cuestionarios en similar situación para medir el impacto y así establecer si vale la pena invertir en desarrollar un costoso proceso de imputación. Si la cantidad de casos en esta situación es relativamente pequeño y además se puede asumir que se trata de un subgrupo aleatorio Técnicas de diseño de encuestas 86 Simposio de Estadística 2000 de individuos será entonces más eficiente y simple descartar esos casos y proceder a ajustar los factores de expansión. Una situación diferente se presenta cuando es evidente que la no respuesta total responde a un subgrupo de individuos con similares características y de importancia en el estudio que se realiza. Se dice que la no respuesta es parcial, cuando ciertos bloques de preguntas del cuestionario han sido dejados sin responder. Esto resulta cuando el respondiente no pudo dar una respuesta concreta a una o más preguntas, cuando el entrevistador realizó un salto que no debía o equivocadamente dejó una página sin leer. Se dice que un dato específico es inconsistente o inválido cuando infringe una ley de crítica de consistencia o de validación, entonces se marca para imputación y debe ser imputado. Así por ejemplo si un menor de quince años tiene estado civil casado y se determina que el dato errado es el estado civil, entonces se marca esta variable para imputación. Una pregunta obvia a esta altura es por qué se debe imputar, por qué no dejar los datos faltantes, inválidos o inconsistentes como están y proceder a trabajar con el resto de la información correcta. También se podría marcar todos los datos faltantes e incorrectos con un código especial que signifique dato no disponible. Además una base de datos a la que se le ha realizado una gran cantidad de imputación puede dar la impresión de que se trata de una base de “datos cocinados” y si además la imputación no ha sido correctamente dirigida se puede llegar de hecho a una base completamente falsa. En el caso de la no respuesta total es generalmente preferible no imputar y realizar los ajustes a los factores de expansión. En los casos de no respuesta parcial o de valores inconsistentes o inválidos, el ignorar los registros con información no disponible puede llegar a ser una gran pérdida por la información no tenida en cuenta. El establecer una categoría nueva de información no disponible para cada una de las variables con datos faltantes puede por un lado conducir a proporciones y valores Técnicas de diseño de encuestas Simposio de Estadística 2000 87 muy bajos y de poco interés. En encuestas con datos demográficos no se acostumbra a presentar la categoría no disponible cuando se trata de grupos de edad, género, por cuanto se trata de variables fundamentales a tener en cuenta. Es más, la presentación de tablas en las que en la categoría de género, por ejemplo aparece la nota no disponible, es considerado en algunos círculos como señal de poco profesionalismo. Por otro lado, presentar la categoría no disponible es ignorar que la información faltante, a lo mejor puede ser accesible a través de otros datos existentes en el cuestionario. Considérese por ejemplo el caso del encuestado que rehusa dar datos acerca de su ingreso, pero señala que es médico, tiene 20 años de experiencia, es empleado y ejerce todavía la profesión. Al señalar que la información no es disponible se ignora que en tales condiciones aunque no se conozca un ingreso exacto si se sabe que debe ser relativamente alto. Algunos investigadores se toman el tiempo y el trabajo de presentar los datos en dos versiones, la primera en la que se tiene la categoría ‘no disponible’ y otra en la que no se cuenta con ella. En tal caso se debe revisar cuidadosamente si las diferencias encontradas ameritan el esfuerzo y los recursos invertidos en ello. 3.2.1 Imputación determinista Se dice que la imputación es determinística cuando un dato señalado para imputación recibe un único valor posible que se le puede asignar a fin de que cumplan las reglas de crítica planteadas. Supóngase por ejemplo el caso de tener un cuestionario en el que se reseñan las ventas mes a mes y falta el dato anual. Si la regla de crítica establece que el total anual debe ser igual a la suma de los meses, no hay otra posibilidad más que realizar la suma y asignarle ese valor al dato faltante. Otro ejemplo se vio anteriormente cuando la respuesta a la pregunta 2 era que se trataba de un menor de quince años, y la respuesta a la pregunta 3 tenía respuesta Técnicas de diseño de encuestas Simposio de Estadística 2000 88 dos, lo cual era inconsistente, fue marcada para imputación, pero el único valor asignable es el blanco. La imputación determinística utiliza únicamente información del mismo registro y por esa razón se puede realizar dentro del proceso mismo de crítica. Es decir que al escribir las especificaciones de crítica y encontrar un caso de este tipo no se marca el dato para una posterior imputación sino que de una vez se asume la acción de reemplazar el dato por el que debe ser. 3.2.2. Imputación por substitución La imputación por substitución se puede realizar cuando se cuenta con una base de datos externa en la que se encuentran los mismos individuos de la encuesta y a la cual se pueda recurrir cada vez que se tiene un dato faltante o erróneo. La base externa de datos puede ser un archivo de registros administrativos, una base de datos de una encuesta anterior en el tiempo. Este método es muy común para encuestas continuas, por ejemplo mensuales, en las que se indaga sobre el mismo tópico siempre. Sea por ejemplo el caso de una encuesta de empleo en hogares en la que durante seis meses se llega a un mismo hogar a realizar la encuesta. En un mes determinado y para una persona del hogar la respuesta a la cantidad de horas trabajadas la semana anterior está sin responder y por lo tanto marcada para imputación. Esta cantidad de horas puede ser obtenida de la cantidad de horas trabajadas reportadas el mes anterior por el mismo individuo, máxime si además reporta que no ha cambiado de empleo; entonces se procede a copiar de la base antigua a la nueva base. En una encuesta de opinión al interior de una gran empresa un individuo dejó de responder la edad, la variable está marcada para imputación. La substitución se produce cuando a partir del archivo administrativo de personal se extrae el dato faltante y se copia sobre el archivo de la encuesta. Técnicas de diseño de encuestas Simposio de Estadística 2000 89 La dificultad de este tipo de procedimiento radica en encontrar variables e identificadores que coincidan en los dos archivos y que permitan el traslado de información de uno a otro lado. No sobra mencionar que se debe poner especial cuidado en que aunque los nombres de las variables pueden ser el mismo en los dos archivos, la definición utilizada también lo sea. Recuerde por ejemplo que la variable salario no tiene igual definición para todos los investigadores. 3.2.3. Imputación basada en estimaciones Este método implica procesamiento y manipulación de los datos antes de realizar la imputación. Dicha manipulación se puede realizar sólo con los datos correctos, o con datos históricos externos. El método puede variar desde lo más simple como por ejemplo estimar algunos promedios hasta tratar de establecer el grado de relación entre variables, como por ejemplo la estimación de regresión, todo orientado a estimar valores a imputar. Una primera versión de este método puede ser la imputación de acuerdo al promedio actual. Sea por ejemplo que se extraña el dato sobre el monto del arriendo pagado en una vivienda. Se calcula entonces el arriendo promedio de las viviendas del mismo sector y similar tamaño y se asigna este valor promedio al dato por imputar. En forma similar se puede imputar de acuerdo a la razón existente. Sea por ejemplo el caso de una encuesta económica en la que se extraña el dato de retención en la fuente por pagos en salarios, sin embargo se tiene el dato de valor de la nómina se conoce el subgrupo económico en que se clasifica la empresa, entonces se puede calcular la relación entre retención y valor de la nómina para las industrias de ese subgrupo y aplicar esa razón al dato de nomina de la empresa con el dato por imputar. Otra manera de hacer imputación es a partir de la estimación de la tendencia. Suponga en el caso anterior que se cuenta con registros históricos que permiten a partir Técnicas de diseño de encuestas Simposio de Estadística 2000 90 de los datos completos de la encuesta determinar la tendencia del monto de la retención, es decir establecer el comportamiento del dato actual en comparación con los meses anteriores. Entonces si la empresa con el dato faltante ha reportado correctamente los meses anteriores basta con aplicar la tendencia encontrada para estimar el dato a imputar. La precisión de los valores imputados dependen en gran medida de los niveles de correlación entre las variables a imputar y las utilizadas para estimar, del grado de sofisticación de los cálculos matemáticos y a la utilización de toda o de una parte de los datos de la base. En términos generales las razones y los estimadores de regresión suelen ser más estables que las estimaciones de simples promedios. La imputación basada en la estimación es muy frecuente en investigaciones de tipo económico, particularmente aquellas que se repiten periódicamente. Una desventaja de este método es que aún después de la imputación pueden persistir situaciones de inconsistencia, sobre todo si en las reglas de crítica se pide que ciertos valores, sumas o razones deban presentar relaciones de igualdad. Por tal razón es recomendable aplicar de nuevo procedimientos de crítica después de realizada la imputación. 3.2.4 El paquete caliente La imputación llamada en frío consiste en usar valores o reglas predeterminadas en los casos de ser necesario imputar el valor de una variable. El valor se obtiene de una encuesta anterior, de un experto en la temática, de un dato histórico y se trata simplemente de encontrar el mejor valor adivinado. Técnicas de diseño de encuestas Simposio de Estadística 2000 91 En la encuesta de hábitos de fumar no se encuentra la cantidad de cigarros fumados al día, pero una encuesta de un par de años antes arrojó que en promedio esa cantidad era igual a quince. Entonces esa cantidad puede ser utilizada para imputar los datos faltantes o inconsistentes. En una encuesta de salud a personas se trata de imputar la estatura. Estudios demográficos recientes señalan que para esa región la estatura promedio de hombres es 175 cm. y para mujeres 167cm., estos datos pueden ser utilizados para imputar sin mayores complicaciones. Con este tipo de imputación no se respetan las distribuciones y las relaciones entre variables, la magnitud del sesgo es incierta pero se puede aplicar cuando los datos a imputar son muy pocos y los otros procedimientos de imputación no arrojan resultados satisfactorios. 3.2.5. Imputaciones en paquete caliente En la actualidad se conoce como paquete caliente a una serie de métodos que comparten el mismo principio básico el cual señala que un dato por imputar se reemplaza por un dato obtenido de los registros de la misma encuesta. Para este tipo de imputación la base de datos de la encuesta se divide en dos partes, la primera la que contiene los registros con al menos un dato faltante, inválido o inconsistente y que se llamará el conjunto de datos errados o de receptores. La segunda parte contiene todos los registros con datos absolutamente “limpios” y se denomina el conjunto de donantes. Un registro con un dato faltante pero al que se le hizo imputación determinística, se le hace la imputación, se considera correcto y pertenece al conjunto de los donantes. La idea básica del paquete caliente es que para cada registro del conjunto de los receptores se encuentre un donante muy similar en el otro conjunto a fin de que el dato Técnicas de diseño de encuestas Simposio de Estadística 2000 92 faltante pueda ser reemplazado por el mismo valor que tiene el donante para esa variable. Algunos aspectos importantes a considerar al momento de hacer la imputación por paquete caliente son: 1. Cómo entender la similitud entre donante y receptor? La similaridad se define en el sentido de que algunas variables muy relacionadas con la variable a imputar coinciden para los dos individuos. El proceso comienza por definir las variables que tienen alta correlación con la variable a imputar, se toman los datos del receptor para esas variables y se busca un donante con esas mismas características. 2. Se pueden imputar todas las variables necesarias en un receptor a partir de un mismo donante? En algún sentido se trata de una situación deseable pues de esta manera se preservan las relaciones entre variables. En una encuesta de empleo es obvio que si la ocupación y el ingreso personal deben ser imputados, hay ventajas al imputarlos de un mismo donante debido al estrecha relación entre esas dos variables. Sin embargo si se tienen varias variables a ser imputadas se tiene que buscar donantes similares de acuerdo a variables relacionadas con la variable a imputar y es muy extraño que las variables que se relacionan con una, también lo hagan con otra variable. Sin embargo como método de imputación se aplica a veces el hacer la imputación por grupos de variables a modo de aprovechar los mismos donantes aunque en forma parcial. 3. Puede un donante ser utilizado para varios receptores ? Técnicas de diseño de encuestas Simposio de Estadística 2000 93 Si muchos receptores son imputados a partir de los datos de un mismo donante el impacto en los estimativos puede ser importante. Vale la pena entonces limitar la cantidad de veces que un mismo donante es utilizado para imputar y se evita así el abuso de un mismo dato. Si esta es una ventaja o no, es un debate aún no concluido. Si la cantidad de respuestas correctas de una determinada región es muy baja es probable que no se encuentren donantes para determinados tipos de receptores y entonces se deba relajar un poco las condiciones de similitud. Si no se establece un límite para la cantidad de veces que un donante sirve para imputación, el investigador podría al menos contabilizar esta cantidad y cuando supere una cierta barrera observar detenidamente las características del donante. El problema se presenta si el donante presenta características de outlier o dato fuera de serie, caso en el cual los resultados finales pueden ser seriamente distorsionados. 4. Qué hacer cuando no se encuentra un donante idóneo? Casi siempre sucede que al menos unos pocos receptores no encuentren un donante idóneo. De hecho sería extraño que en una encuesta compleja un único procedimiento de imputación fuera suficiente para completar toda la depuración. Para los casos sin donante se debe entonces especificar otro método de imputación, el cual se incluye dentro del paquete caliente a fin de tener respuestas completas, por ejemplo la imputación en frío. Para datos de tipo categórico es frecuente utilizar o bien un método secuencial de paquete caliente o uno de selección aleatoria. Para datos de tipo cuantitativo el método más utilizado es el del vecino más próximo. Para ilustrar este método, aplicado en el censo de los Estados Unidos, sea por ejemplo la pregunta sobre el hábito de fumar, la cual tiene tres posibles respuestas: Técnicas de diseño de encuestas Simposio de Estadística 2000 94 y se ha decidido que la imputación en caliente se haría basándose en las variables grupo de edad y sexo, la primera con tres categorías, la segunda con dos: Grupo de edad 2 15 a 24 3 25 a 44 4 45 ó más 1 Masculino 2 Femenino Sexo La imputación secuencial seguiría el siguiente procedimiento: 1. Se crea una matriz de imputación en la que se establecen todas las posibles combinaciones de las variables de similitud. En el ejemplo se tienen tres categorías de edad por dos categorías de sexo lo que origina seis combinaciones que conforman la parte inicial de la matriz de imputación, de la siguiente manera: Grupo de edad Sexo 1 1 1 2 2 1 2 2 3 1 3 2 Técnicas de diseño de encuestas Valor de imputación Simposio de Estadística 2000 2. 95 Se leen uno a uno los datos del archivo de la encuesta y la matriz de impu- tación se va actualizando con datos correctos así por ejemplo si después de veinte datos la matriz aparece: Grupo de edad Sexo Valor de imputación 1 1 2 1 2 2 2 1 1 2 2 3 3 1 1 3 2 3 y el 21-avo dato corresponde a una mujer del grupo dos de edad y que es no fumadora, el dato de la cuarta fila (3) será actualizado por 2 (no ha fumado nunca). La matriz se ira actualizando consecutivamente a medida que vayan apareciendo datos correctos. 3. Cuando aparece un valor a ser imputado se toma el valor correspondiente de la matriz de imputación. De esta manera el receptor tiene el mismo valor que el donante para todos los campos de similitud e imputación. 4. El procedimiento continua hasta terminar de leer toda la base de datos y ha- ber realizado el proceso en el que cada dato correcto originó una actualización en la matriz de imputación y cada dato incorrecto fue imputado a partir de la matriz. Este método presenta algunas características que vale la pena mencionar: Si dos registros consecutivos tienen el mismo valor para imputar y tienen las mismas características de similitud tendrán el mismo donante. Esto puede ser particularmente peligroso si se considera que los datos errados tienden a estar juntos por cuanto Técnicas de diseño de encuestas 96 Simposio de Estadística 2000 provienen de una misma región, se deben al pobre trabajo de un supervisor o simplemente son los últimos datos de la encuesta, los cuales se recogieron cuando ya el equipo de supervisores y controladores debió ser trasladado a otra investigación. Como se mencionó anteriormente la reiterada utilización de un mismo donante puede generar fuertes sesgos en los estimativos del estudio. En general el orden en el que se encuentran los datos en la base no es propiamente aleatoria, por el contrario corresponden a un orden geográfico, en forma tal que datos de una determinada área tiene mucha probabilidad de ser imputados con donantes de esa área, lo cual significa un mejoramiento de la imputación. En las encuestas con muchas variables y muchos casos para imputar la cantidad de matrices de imputación puede ser relativamente alta, lo mismo que el espacio en memoria del computador. El investigador debe cuidar que sus recursos de hardware resistan el proceso que se propone iniciar. Cada matriz de imputación debe inicializarse utilizando valores ad-hoc a fin de evitar que los primeros registros sean imputados con blanco. Con este método no es necesario mantener una matriz de imputación, el método consiste en construir un subgrupo de donantes, los que cumplen con tener los mismos valores en las variables de similitud y seleccionar entre ellos uno al azar como donante. Así por ejemplo en el caso anterior si se encuentra una bandera para imputar los hábitos de fumar, el grupo de edad es 1 (entre 15 y 24 años) y el sexo 1 (masculino) se separan todos los hombres de ese grupo de edad en el grupo de donantes y se elige uno al azar que será el donante. El valor del hábito de fumar imputado será entonces el mismo del donante elegido. Este método es utilizado para las imputaciones del censo y la encuesta mensual de desempleo de Canadá. En los dos casos anteriores la decisión acerca de las variables de similitud es muy importante, y ellas deben estar muy relacionadas con la variable a imputar. Es conTécnicas de diseño de encuestas Simposio de Estadística 2000 97 veniente evitar la utilización de un campo numérico como variable de similitud, para evitar el crecimiento desbordado de la matriz de imputación. Normalmente se codifican las variables numéricas previamente a su utilización como variables de similitud, de esta manera la matriz vuelve a tamaños normales y la probabilidad de encontrar una similitud, que con valores continuos era muy pequeña se vuelve relativamente grande. Si se utilizan muchas variables como similitud, la cantidad de combinaciones crece rápidamente y la cantidad de donantes por celda es muy baja en forma tal que se corre el riesgo de utilizar repetidas veces un donante y de no encontrar donantes para ciertas imputaciones. En este sentido se puede caminar hacia un compromiso entre la cantidad de variables de similitud y de ser necesario establecer un criterio de jerarquía entre ellas. Sea el caso por ejemplo en que se debe imputar el ingreso personal. Las variables de similitud son: Escolaridad (Cinco niveles) Grupo de edad (Cinco niveles) Sexo (Dos niveles) Ocupación (25 categorías) Así se llega a 1250 combinaciones y muy probablemente no habrá donantes para algunos casos aunque el investigador considera que las cuatro variables son necesarias. Si luego de un primer intento no se encontró donante para un caso particular, se podría intentar con las tres últimas variables para las que se tienen 250 = 5 x 2 x 25 combinaciones. Si aún así tampoco se encuentra donante se recurriría a las 50 combinaciones resultantes de sexo y ocupación, incrementando así la probabilidad de encontrar donante. Para las encuestas en las que predominan las variables de tipo cuantitativo no son aplicables los procedimientos anteriores, por cuanto no es posible definir estas varia- Técnicas de diseño de encuestas 98 Simposio de Estadística 2000 bles como variables de similitud, de otra parte la categorización de todas las variables es bastante dispendiosa amen de que sin un estudio detenido no es fácil establecer por adelantado, rangos de valor útiles y apropiados. La solución es entonces no buscar el dato que tiene exactamente el mismo valor pero si aquel que más se le aproxima y que además pertenece a una clase similar en otra variable importante, por ejemplo el mismo grupo de código industrial. El problema de este procedimiento radica en establecer lo que se puede denominar la distancia para determinar cercanía o lejanía, con los subsecuentes problemas derivados de las unidades de medida que se utilizan en las diferentes variables. En estos casos se presenta con mucha frecuencia que una vez realizada la imputación se vuelven a presentar problemas de crítica. Los programas intentan con el primer donante y revisan si de esta manera se cumplen las reglas de crítica, si no es el caso se trata con el segundo donante y así sucesivamente hasta llegar a un punto en el que la imputación no infringe las reglas de crítica o se considera que la imputación por paquete caliente no es aplicable. En general un investigador responsable debería hacer llamados de atención en sus resultados, señalando el impacto y la magnitud de la imputación realizada antes de producir los cuadros que se entregan. Naturalmente el tamaño de la encuesta y su presupuesto determinan cuanto se puede hacer en términos de evaluar el impacto de la imputación. Sin embargo los usuarios deben tener al menos como información básica al respecto, la proporción de información que proviene de datos originales y la proporción que proviene de datos modelados o estimados dentro de un proceso de imputación. Los puntos más importantes a evaluar acerca de un proceso de imputación son el sesgo y la varianza en las estimaciones. Si el presupuesto lo permite el investigador puede detenerse a examinar las diferencias de estimación cuando se incluye y no se incluyen los valores imputados. Las grandes diferencias deberán entonces ser analizadas a fin de descartar o encontrar sesgos importantes debidos a la imputación. Si Técnicas de diseño de encuestas Simposio de Estadística 2000 99 este procedimiento no es posible, entonces se espera que al menos se le informe al usuario: 1. La cantidad de registros que fueron objeto de imputación 2. La cantidad de registros donantes 3. La cantidad de veces que cada variable fue imputada y el método utilizado 4. La cantidad de donantes específicos y la cantidad de imputaciones realizadas con ese grupo 5. La cantidad de intentos hasta lograr una imputación exitosa para cada receptor 6. La lista de registros utilizados como donantes para cada receptor 7. La lista de receptores en los que los métodos de imputación fallaron Respecto a la varianza es común tratar a los datos imputados como datos correctos provenientes de los informantes y aplicar las fórmulas tradicionales de estimación de la varianza del estimador, este procedimiento conlleva a serías subestimaciones de la varianza, especialmente si la cantidad de imputaciones es alta. Técnicas de diseño de encuestas Simposio de Estadística 100 2000 Bibliografía Bautista, L. (1998). Diseños de muestreo estadístico. Universidad Nacional de Colombia Bogotá – Colombia. Biermer. P.P., Groves. R.M., Lyberg. L.E., Mathiowetz. N., Sudman. S., (1991). Measurement errors in surveys. John Wiley, New York. Brick, J.M., Broene, P., James. P., Severynse. J. (1997). A USER’S guide to WesVarPC. Westat, Inc. Maryland. Cassel. C-M., Särndal. C-E., Wretman. J. (1993). Foundations of Inference in Survey Sampling. Krieger Publ. Co. Malabar, Florida. Chaudhuri, A., Mukerjee, R. (1984). Unbiased estimation of domain parameters in sampling without replacement. Survey Methodology V. 10 pp 181-185. Cochran. W., (1977). Sampling Techniques. John Wiley, New York. Couper, M.P. , Groves, R.M. (1992). The role of the interviewer in survey participation. Survey Methodology V.18 pp 163-277. Cox. B., Binder. D., Chinnappa. B.N., Christianson. A., Colledge. M., Kott. P. (1195). Business Survey Methods John Wiley, New York. Dey, A., Srivastava, A.K. (1987). A sampling procedure with inclusion probabilities proportional to size. Survey Methodology V 13 pp 85-92. Dillman. D. (1978). Mail and Telephone surveys. John Wiley, New York. Gower, A.R. (1194). Questionnaire Design for Business Surveys. Survey Methodology V. 20 pp 125-136. Gray, G.B., Platek, R. (1976). Analysis of design effects and variance components in multi-stage sample surveys. V. 2 pp 1-30. Groves. R.M. (1989). Survey errors and survey costs. John Wiley, New Tork. Groves, R.M., Biemer, P., Lyberg,. L., Massey. J.T., Nicholls II. W., Waksberg. J., (1988). Telephone survey methodology. John Wiley, New York Hidiroglou, M.A. (1986). The construction of a self-Representing Stratum of large Units in survey Design. JASA, Vol 40 No. 1 pp 27-31 Kish. L., (1967). Survey Sampling. John Wiley, New York. Técnicas de diseño de encuestas Simposio de Estadística 2000 101 Labaw. P.J., (1980). Advanced Questionnaire Design. Abt Books, Cambridge, Massachusetts. Lavrakas. P.J. (1993). Telephone Survey Methods. SAGE Publications, Newbury Park. Särndal, C-E., Swensson, B., Wretman, J. (1992). Model Assisted Survey Sampling. Springer Verlag, New York. Särndal, C-E. (1996). Efficient Estimators with simple variance in unequal probability Sampling. JASA. V. 91 pp 1289-1300 Shao, J., Dongsheng, T. (1995). The Jackknife and Bootstrap. Springer Verlag, New York. Skinner. C.J., Holt. D., Smuth. T.M.F. (1989). Analysis of Complex Surveys. John Wiley , New York. Swain, L. (1985). Basic principles of questionnaire design. Survey Methodology. V 11 pp 161-170. Técnicas de diseño de encuestas