UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS FACULTAD DE CIENCIAS MATEMÁTICAS E.A.P. DE ESTADÍSTICA Una aplicación del procedimiento Hot Deck como método de imputación Capítulo II. Descripción general de la no respuesta TRABAJO MONOGRÁFICO Para optar el Título Profesional de Licenciado en Estadística AUTOR Carlos Alberto Avila Guerra LIMA – PERÚ 2002 DESCRIPCIÓN GENERAL DE LA NO RESPUESTA II.- DESCRIPCIÓN GENERAL DE LA NO RESPUESTA 2.1 Introducción a la no respuesta En las encuestas por muestreo o enumeración completa (Censos) llevados a cabo por diferentes Instituciones se presentan diversos problemas durante la recolección de la información. Una de las más frecuentes es aquella en que la unidad seleccionada para la muestra no responde. Como es de suponer esto traerá consigo una reducción en el tamaño de la muestra y un incremento en las estimaciones de varianzas. Como es lógico nos planteamos las siguientes preguntas: ¿ Qué inferencia podemos hacer a partir de los datos obtenidos? ¿ Qué acciones se debe de considerar para obtener la información faltante? Como se sabe, la no respuesta se refiere a la ausencia de la observación (respuestas) de algunos elementos seleccionados que conforman la muestra. La no respuesta, puede ser de dos tipos: - Unidad No Respondida (o Ausencia de Respuesta por Unidad), es cuando falta toda la unidad de observación, por ejemplo, en una encuesta de personas, la ausencia de respuesta por unidad significa que la persona no proporciona información para la encuesta o el entrevistador no encontró la vivienda, o también cuando se realizan encuestas postales y los cuestionarios enviados por correo no fueron devueltos. - Ítem No Respondido (o Ausencia de Respuesta por Elemento), es cuando se dispone de algunas mediciones para la unidad de observación, pero donde falta al menos una de ellas. La ausencia de respuesta por elemento significa que la persona no responde a un punto particular del cuestionario. Este tipo de ausencia se da cuando se incluyen preguntas delicadas en una encuesta como por ejemplo, preguntas que conciernen a ingresos o número de abortos, o algunas veces por que el encuestado no tiene la respuesta. 2.2 Fuentes de ausencia de respuesta Una característica común de muchas encuestas es la falta de tiempo invertido en su diseño y en el seguimiento de la ausencia de respuesta. Muchas personas con poca experiencia en dirigir encuestas simplemente comienzan a recolectar datos sin tomar en cuenta los problemas potenciales en su proceso de recolección, envían cuestionarios a todos los elementos de la población objetivo y analizan los que regresan. El resultado es 12 que en muchas de esas investigaciones se tiene una alta tasa de no respuesta. Por ejemplo, muchos de los trabajos de investigación sobre el poder adquisitivo de las familias dan como resultado una baja tasa de respuesta (alrededor de 14-16% ), por lo cual es difícil concluir algo acerca de la población en una encuesta de ese tipo. Por tanto, es importante que el investigador conozca bien a la población objetivo para anticiparse a las razones de la ausencia de respuesta y evitar alguna de ellas. La ausencia de respuesta puede tener varias causas por lo que se recomienda usar algunos de los métodos existentes. Platek (1977) clasifica las fuentes de ausencia de respuesta de acuerdo con: (1) el contenido de la encuesta, (2) métodos de recolección de datos y (3) características de quienes responden e ilustra varias fuentes como se observa en la figura Nº 2.1 Figura Nº 2.1 13 Groves (1989), y Dillman (1978) analizan otras fuentes de ausencia de respuesta. Los factores se clasifican en tres grupos: Grupo I. Son los factores que pertenecen al diseño del cuestionario y a los procedimientos de recolección de datos, son cuestiones que afectan directamente a las tasas de no respuesta. Entre ellas se encuentran: • Contenido de la encuesta. Una encuesta sobre el uso de drogas o asuntos financieros puede tener una gran cantidad de rechazos. A veces, se puede aumentar la tasa de respuesta ordenando con cuidado las preguntas o utilizando una técnica de respuesta aleatorizada. • Tiempo de la encuesta. Algunos periodos para realizar entrevistas o temporadas del año pueden producir mayores tasas de respuestas que otras. Por ejemplo, en Alemania realizar una encuesta en el mes de agosto sería contraproducente ya que en ese mes se encuentran de vacaciones. • Entrevistadores. Gower (1979) encontró una gran variabilidad en las tasas de respuesta logradas por diversos entrevistadores, de modo que cerca del 15% de éstos informaron de una ausencia de respuesta. Se pueden aplicar los métodos estándar de mejoramiento de calidad para aumentar la tasas de respuesta y la precisión de los entrevistadores . Los mismos métodos se pueden aplicar al proceso de codificación de datos. • Métodos de recolección de datos. Con frecuencia, las encuestas por correo, fax o internet tienen bajas tasas de respuesta, por lo que debemos de pensar mucho antes de decidirnos por una de ellas. Las encuestas personales son las que tienen mayor tasa de respuesta en la mayor parte de los países. Las encuestas telefónicas apoyadas por computadora han mostrado que mejora la precisión de los datos. • Diseño del cuestionario. La formulación de las preguntas tiene un efecto importante sobre las respuestas recibidas. • Agobio de las personas que responden. Quienes contestan una encuesta nos hacen un favor inmenso, por lo que la encuesta debe ser lo menos indiscreto posible. Un cuestionario breve, que requiera menos detalles, puede reducir el agobio de la personas que responde. 14 • Presentación de la encuesta. La presentación de la encuesta proporciona el primer contacto entre el entrevistador y la persona que potencialmente contestara, una buena presentación, que motive la respuesta, puede incrementar drásticamente las tasas de respuesta. La empresa Nielsen Media Research enfatiza a las familias seleccionadas en la muestra que su participación en las clasificaciones de Nielsen afecta a los programas de televisión que se transmiten. La persona que responde debe saber la finalidad con la que se utilizarán los datos y garantizar la confidencialidad. • Incentivos y anti-incentivos. Los incentivos, financieros o de otros tipos puede incrementar las tasas de respuesta. Los anti-incentivos también pueden ser útiles. Por ejemplo, en Canadá los médicos que se negaron a ser entrevistados por sus colegas se les suspendió sus licencias médicas. • Seguimiento. Se debe decidir sobre un número prudencial de visitas de seguimiento antes de abandonar la unidad. Grupo II. Estos factores pertenecen a la etapa de diseño, son factores que tienen un efecto indirecto en las tasas de respuesta. Entre ellas se tiene: • Marco muestral • Tamaño de la muestra • Estratificación • Asignación de la muestra dentro de los estratos Grupo III. Estos factores pertenecen a la etapa de procesamiento y análisis después de que se ha completado la encuesta y no hay oportunidad ya de tratar en el campo la no respuesta. Entre ellos tenemos: • depuración previa e imputación • procedimientos de estimación • varianza y estimación de la varianza • publicación y análisis de los datos 15 2.3 Métodos para tratar la unidad no respondida (o ausencia de respuesta por unidad) Se ha mencionado que una reducción en el tamaño de la muestra repercute en la calidad de sus estimados, por lo cual es necesario dar bastante importancia al momento de recolectar la data. Las causas de una unidad no respondida son muchas, entre ellas se encuentran: - Los no en casa. Son personas que residen en el lugar, pero que se encuentran temporalmente fuera de ella. - Los rechazos. Son personas que se rehúsan a ser entrevistadas. - Incapacidad o imposibilidad de contestar. Generalmente se debe a la enfermedad física o mental que impide la obtención de la respuesta. En algunas encuestas esta incapacidad se debe al idioma, ebriedad de la persona. - No cubrimiento. Que consiste en que el encuestador no localiza la unidad seleccionada. Esto se debe principalmente a las zonas peligrosas o de acceso difícil. Algunas reglas para evitar la no respuesta - Las revisitas son de gran ayuda para reducir los casos que no están en casa. Es bueno preguntar en que momento se le puede ubicar a la persona o en su defecto en que lugar . - Una forma de reducir los rechazos es mediante: • El anonimato del entrevistado. • Despertar el interés del entrevistado con comentarios acertados al iniciar las preguntas. • Mediante incentivos. • En preguntas delicadas aplicar la técnica de respuesta aleatorizada. A continuación se presentan algunos métodos para el tratamiento de la Ausencia de Respuesta: i.- Encuestas repetidas (Callbaks) La no respuesta se puede reducir mediante esfuerzos persistentes de los entrevistadores y motivando a los que no responden para que respondan. Estos esfuerzos persistentes son en su mayor parte encuestas repetidas que son parte esencial de cualquier encuesta. Es claro intuitivamente que las familias que están en casa la primera vez que se visita suelen diferir de las que no están. Así, si se tiene en cuenta únicamente a los que estaban 16 en casa en el primer intento, se obtienen unos resultados muy diferentes de los se obtendrían si se repitiesen las entrevistas que no se pudieron realizar la primera vez. Por tanto, en el diseño del procedimiento de recolección de datos debe tenerse en cuenta la encuesta repetida a fin de reducir la no respuesta y sus sesgos. Las encuestas repetidas toman formas diversas, dependiendo del tipo de encuestas y de la forma de recolectar la data. Las encuestas repetidas son la forma más limpia de reducir la no respuesta. En las encuestas postales, la encuesta repetida suele ser una carta recordando al individuo de la unidad seleccionada la importancia de la encuesta; en la carta se suele incluir una nueva copia del cuestionario por si acaso el encuestado perdió la primera copia. Se debe también indicar que no tenga en cuenta este aviso si ya ha enviado la primera hoja. En las encuestas postales no suele haber más de tres repeticiones y estas se realizan antes de que finalice el plazo de recogida de datos y comience la fase de procesamiento de la información. A veces, las encuestas repetidas se realizan por teléfono o mediante entrevista personal. En estos métodos, especialmente la encuesta personal, puede ser contraproducente ya que generalmente se procede a una encuesta por correo para minimizar el costo. En el caso de encuestas telefónicas las encuestas repetidas suelen realizarse también por teléfono ya que generalmente esto resulta más barato que la entrevista personal o el envió postal. Finalmente, en el caso de entrevistas personales, las encuestas repetidas se hacen volviendo a la unidad seleccionada o por teléfono. Si se consigue contactar por teléfono, la llamada se puede utilizar para obtener los datos o para acordar una hora en que se realizara la entrevista. Cualquiera sea el procedimiento por el que se realiza la encuesta, se debe controlar que las encuestas repetidas se lleven a cabo en las unidades seleccionadas. En la etapa de diseño se puede estimar el número de encuestas repetidas sobre la base de la experiencia pasada. Es importante tener la varianza de la información obtenida en las encuestas repetidas y el costo asociado a éstas. Diversos factores tales como las características demográficas y socio económicas de los entrevistados; estrategias del entrevistador tales como horario en las repeticiones y costo de obtener la información, afectan al éxito de la encuestas repetidas. 17 Diferentes estudios llevados a cabo por diversos individuos y organizaciones confirman que: • todas las encuestas muestran que el número de respuestas se incrementan sustancialmente cuando crece el número de revisitas. • en la mayoría de las encuestas, la estimación de la media después del primer intento de realizar la encuesta difiere sustancialmente de la estimación tras varias reiteraciones. ii.- Sustitución en el campo Un método para reducir el tamaño de la no respuesta en el momento de la recolección de datos es proceder a una sustitución usando unidades que no habían sido seleccionadas para la muestra. Hay dos tipos básicos de sustitución a usar: • Selección de un sustituto aleatorio • Selección de un sustituto especialmente designado Con el primer procedimiento de sustitución aleatoria, una unidad es seleccionada adicionalmente para reemplazar cada no respuesta. Usualmente la sustitución para una no respuesta en particular es elegirla de un subgrupo de la población restringida (ejemplo: en la misma manzana, área, estrato o conjunto de estrato en la cual la no respuesta fue seleccionada). En este caso se asume que la característica de un sustituto seleccionado de un subgrupo de la población estará más cercana a la no respuesta, que la característica de un sustituto seleccionado de la población entera. Para muchos procedimientos de sustitución, las unidades sustitutas (alternativas o backups) son seleccionadas por un procedimiento anterior a la fase de la recolección de la información. Esto se hace con el fin de evitar demoras y molestias que pueden surgir cuando se presenten unidades que no responden. El procedimiento que usa unidades sustitutas especialmente designadas identifican uno o más unidades backups para proveer sustitutos, si es necesario para cada unidad de muestreo. Esto es, consiste en especificar unidades sustitutas que tengan características similares a aquellas unidades que no respondieron (ejemplo, un vecino geográfico de la unidad que no responde o una unidad que tenga características similares a la unidad que no respondió.) Hay dos desventajas del procedimiento de sustitución. La mayor desventaja del procedimiento de sustitución es: 18 • no se insiste en obtener la información de la unidad originalmente seleccionada, ya que se cuentan con unidades sustitutas que la reemplaza, por consiguiente esto conduce a un nivel más alto de no respuesta por tanto hay mayor sesgo. • existe una tendencia a ignorar el nivel de sustitución usado en los informes de la encuesta. Las ventajas que conducen a su aplicación son: • la muestra total estará balanceada con respecto al tamaño de muestra por la sustitución realizada. • como el tamaño de muestra se ve incrementada da lugar a una reducción en la estimación de la varianza. Con cualquier tipo de sustitución que se realice en una encuesta se debe de tener cuidado en: - mantener las registros exactos sobre que unidades son sustituidas. - identificar que registro de datos son obtenidos de las unidades sustitutas. - informar el nivel de sustitución realizado. - tratar las unidades sustitutas como casos de no respuesta cuando se calcula la tasa de respuesta en la encuesta. iii.- Encuesta Delegada (Proxi) Otra técnica importante es elegir datos de una unidad alternativa. Por ejemplo, las instrucciones de la encuesta pueden indicar que se puede encuestar, en el caso de que no sea posible hacerlo a la persona indicada, a cualquier otro miembro de la familia. Obviamente, las respuestas tienen mayor probabilidad de ser incorrectas en estos casos. Sin embargo, no es peligroso para cierto tipo de encuestas. Pero si la información requerida es confidencial o personal entonces la encuesta delegada puede ser sesgada. Se debe realizar un pre-estudio de la encuesta delegada antes de aplicarla a cada caso en particular. Sin embargo, debido a las restricciones de tiempo y costo es virtualmente imposible obtener respuesta de cada individuo sin recurrir a la encuesta delegada. Por esta razón, se utilizó este método en la encuesta sobre mano de obra en Canadá. Generalmente solo se encuesta a una persona de la familia y ésta responde sobre el comportamiento de todos los miembros. A veces, se necesitan entrevistas separadas de los miembros de una 19 casa por ejemplo si hay huéspedes. En promedio se ha encontrado que las encuestas delegadas son aproximadamente el 50% de los que responden. Además, al aceptar las encuestas delegadas es posible obtener respuestas completas para todos los miembros de una casa prácticamente en el 100% de los hogares que responden. Por tanto, la encuesta delegada es un medio muy efectivo para reducir la no respuesta. 2.4 Métodos de Imputación para tratar el ítem no respondido (o ausencia de respuesta por elemento) Durante todo este tiempo se ha venido utilizando diversos procedimientos de imputación para los datos faltantes debido a la no respuesta, tanto en encuestas de hogares como en los censos. El uso de un determinado procedimiento ha sido justificado en base a la experiencia, la intuición y oportunidad. La imputación generalmente se utiliza, para asignar valores a los elementos faltantes, produciendo así un conjunto de datos completos. Frecuentemente se asigna un valor de reemplazo al valor faltante, mediante un valor de otra unidad que ha respondido de una encuesta similar. Mediante la imputación al igual que con el ajuste de las ponderaciones se buscar reducir el sesgo debido a la no respuesta. La imputación opera sobre los datos, de forma que los resultados obtenidos por los diferentes análisis sean mutuamente consistente, lo que no sucede cuando el análisis se realiza sobre un conjunto de datos incompletos. Sea cualquiera el método de imputación utilizado, no se puede asegurar una mejora en el sesgo respecto del sistema de datos incompletos. La imputación es un procedimiento de generar datos. Entre los métodos existentes, mencionaremos alguno de ellos: i.- Imputación Deductiva.- Actualmente este método se aplica en situaciones en que las respuestas que faltan se pueden deducir del resto de la información proveniente del conjunto de datos, es decir en base a las relaciones lógicas entre las variables. Por ejemplo, si falta el sexo del que responde y la persona tiene nombre femenino y esta casada con un varón, se puede deducir que es mujer. Este es un método popular y muy usado a menudo. ii.- Imputación Hot Deck (Fichero Caliente).- Es un método usual de ajustar datos para valores no observados y admite diversas variantes. Generalmente el fichero caliente es un procedimiento de duplicación. Cuando falta un valor, se duplica un valor 20 ya existente en la muestra para reemplazarlo. El principal propósito del fichero caliente es reducir el sesgo debido a la no respuesta. Para reducir este sesgo, el procedimiento incorpora un método de clasificación. Todas las unidades muéstrales se clasifican en grupos disjuntos de forma que sean lo más homogéneas posibles dentro de los grupos. A cada valor faltante, se le asigna un valor del mismo grupo. El supuesto que se utiliza es que dentro de cada clasificación la no respuesta sigue la misma distribución de los que responden. Este supuesto impone una fuerte restricción para las variables de clasificación. Estas variables deben de estar correlacionadas con los valores que falten y con los valores de los que responden. Si esto no se mantiene el método Hot Deck no funciona, reduce solo en parte el sesgo debido a la no respuesta como es: i. producir un conjunto de datos limpios, es decir un conjunto de datos completos y claros. ii. reducir el sesgo mientras preservamos las distribuciones conjuntas y marginales. Como método de imputación este procedimiento tiene ciertas ventajas entre las que se encuentran las siguientes: • los procedimientos conducen a una post-estratificación sencilla. • no se presentan problemas especiales de encajar conjuntos de datos. • no se necesita supuestos fuertes para estimar los valores individuales de las respuestas faltantes. Sin embargo, este procedimiento tiene ciertas desventajas como es el de carecer de un mecanismo de probabilidad, lo que imposibilita calcular su confianza sin algún procedimiento de modelización. Y la otra es que existe la posibilidad de usar varias veces a una misma unidad que ya ha respondido. iii.- Fichero Caliente Modificado.- La esencia de este método es la clasificación y encaje de unidades potenciales y receptoras utilizando un considerable número de variables. El encaje se hace sobre bases jerárquicas en el siguiente sentido: si no se encuentra una unidad para encajar con un receptor en todas la variable de control, se elimina algunas variables consideradas como menos importantes para de esta forma, conseguir el encaje a un nivel inferior. Los niveles jerárquicos se definen con este propósito siendo el nivel más bajo aquel en el que se encuentra una unidad potencial. 21 iv.- Regresión.- La imputación por regresión predice el valor faltante usando una regresión del elemento de interés sobre las variables observadas para todos los casos. Mediante este procedimiento la pregunta “ y ” a la cual hay que imputar valores, se regresiona sobre las variables control (x1, x2, ....,xp ). Tomando los datos de unidades en los que si hay respuesta para “ y ”. Las variables de control pueden ser cuantitativas como cualitativas. Las variables cualitativas se incorporan al modelo de regresión por medio de variables ficticias. A través de un desarrollo cuidadoso de un modelo explicito, la imputación por regresión produce valores más cercanos al verdadero que otros métodos de imputación. La construcción de un buen modelo de regresión consume tiempo y es costoso por lo cual es conveniente utilizar este método solo para las variables principales del estudio. v.- Imputación por Medias.- Este método fue propuesto por Wilks (1932) es posiblemente uno de los procedimientos de imputación más antiguo y el más sencillo. Consiste en estimar los valores faltantes de la j-ésima variable mediante la media de sus valores observados, la cual ha sido llamada por Little y Rubin (1987), media de los valores disponibles. vi.- Componentes Principales.- Este método, fue sugerido por Dear (1959) y descrito por Béale y Little (1974), tiene como punto de partida una matriz de datos estandarizada con datos completos mediante el método de Imputación por Medias. vii.- Imputación Cold Deck.- En la imputación Cold Deck, los valores se asignan a partir de una encuesta anterior o de otras informaciones, como datos históricos (ya que el conjunto de datos que sirve como fuente para la asignación no es el que está actualmente en la computadora, el conjunto esta “frío”). En lo que se sigue, se tratará el método de Imputación Hot Deck. 22