UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS Una

Anuncio
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
FACULTAD DE CIENCIAS MATEMÁTICAS
E.A.P. DE ESTADÍSTICA
Una aplicación del procedimiento Hot Deck como método
de imputación
Capítulo II. Descripción general de la no respuesta
TRABAJO MONOGRÁFICO
Para optar el Título Profesional de Licenciado en Estadística
AUTOR
Carlos Alberto Avila Guerra
LIMA – PERÚ
2002
DESCRIPCIÓN GENERAL DE LA NO RESPUESTA
II.- DESCRIPCIÓN GENERAL DE LA NO RESPUESTA
2.1 Introducción a la no respuesta
En las encuestas por muestreo o enumeración completa (Censos) llevados a cabo por
diferentes Instituciones se presentan diversos problemas durante la recolección de la
información. Una de las más frecuentes es aquella en que la unidad seleccionada para la
muestra no responde. Como es de suponer esto traerá consigo una reducción en el
tamaño de la muestra y un incremento en las estimaciones de varianzas.
Como es lógico nos planteamos las siguientes preguntas:
¿ Qué inferencia podemos hacer a partir de los datos obtenidos?
¿ Qué acciones se debe de considerar para obtener la información faltante?
Como se sabe, la no respuesta se refiere a la ausencia de la observación (respuestas) de
algunos elementos seleccionados que conforman la muestra. La no respuesta, puede ser
de dos tipos:
-
Unidad No Respondida (o Ausencia de Respuesta por Unidad), es cuando
falta toda la unidad de observación, por ejemplo, en una encuesta de personas,
la ausencia de respuesta por unidad significa que la persona no proporciona
información para la encuesta o el entrevistador no encontró la vivienda, o
también cuando se realizan encuestas postales y los cuestionarios enviados por
correo no fueron devueltos.
-
Ítem No Respondido (o Ausencia de Respuesta por Elemento), es cuando se
dispone de algunas mediciones para la unidad de observación, pero donde falta
al menos una de ellas. La ausencia de respuesta por elemento significa que la
persona no responde a un punto particular del cuestionario. Este tipo de ausencia
se da cuando se incluyen preguntas delicadas en una encuesta como por ejemplo,
preguntas que conciernen a ingresos o número de abortos, o algunas veces por
que el encuestado no tiene la respuesta.
2.2 Fuentes de ausencia de respuesta
Una característica común de muchas encuestas es la falta de tiempo invertido en su
diseño y en el seguimiento de la ausencia de respuesta. Muchas personas con poca
experiencia en dirigir encuestas simplemente comienzan a recolectar datos sin tomar en
cuenta los problemas potenciales en su proceso de recolección, envían cuestionarios a
todos los elementos de la población objetivo y analizan los que regresan. El resultado es
12
que en muchas de esas investigaciones se tiene una alta tasa de no respuesta. Por
ejemplo, muchos de los trabajos de investigación sobre el poder adquisitivo de las
familias dan como resultado una baja tasa de respuesta (alrededor de 14-16% ), por lo
cual es difícil concluir algo acerca de la población en una encuesta de ese tipo.
Por tanto, es importante que el investigador conozca bien a la población objetivo para
anticiparse a las razones de la ausencia de respuesta y evitar alguna de ellas.
La ausencia de respuesta puede tener varias causas por lo que se recomienda usar
algunos de los métodos existentes. Platek (1977) clasifica las fuentes de ausencia de
respuesta de acuerdo con: (1) el contenido de la encuesta, (2) métodos de recolección de
datos y (3) características de quienes responden e ilustra varias fuentes como se observa
en la figura Nº 2.1
Figura Nº 2.1
13
Groves (1989), y Dillman (1978) analizan otras fuentes de ausencia de respuesta. Los
factores se clasifican en tres grupos:
Grupo I. Son los factores que pertenecen al diseño del cuestionario y a los
procedimientos de recolección de datos, son cuestiones que afectan directamente a las
tasas de no respuesta. Entre ellas se encuentran:
• Contenido de la encuesta. Una encuesta sobre el uso de drogas o asuntos
financieros puede tener una gran cantidad de rechazos. A veces, se puede
aumentar la tasa de respuesta ordenando con cuidado las preguntas o
utilizando una técnica de respuesta aleatorizada.
•
Tiempo de la encuesta. Algunos periodos para realizar entrevistas o
temporadas del año pueden producir mayores tasas de respuestas que
otras. Por ejemplo, en Alemania realizar una encuesta en el mes de
agosto sería contraproducente ya que en ese mes se encuentran de
vacaciones.
•
Entrevistadores. Gower (1979) encontró una gran variabilidad en las
tasas de respuesta logradas por diversos entrevistadores, de modo que
cerca del 15% de éstos informaron de una ausencia de respuesta. Se
pueden aplicar los métodos estándar de mejoramiento de calidad para
aumentar la tasas de respuesta y la precisión de los entrevistadores . Los
mismos métodos se pueden aplicar al proceso de codificación de datos.
•
Métodos de recolección de datos. Con frecuencia, las encuestas por
correo, fax o internet tienen bajas tasas de respuesta, por lo que debemos
de pensar mucho antes de decidirnos por una de ellas. Las encuestas
personales son las que tienen mayor tasa de respuesta en la mayor parte
de los países. Las encuestas telefónicas apoyadas por computadora han
mostrado que mejora la precisión de los datos.
•
Diseño del cuestionario. La formulación de las preguntas tiene un efecto
importante sobre las respuestas recibidas.
•
Agobio de las personas que responden. Quienes contestan una encuesta
nos hacen un favor inmenso, por lo que la encuesta debe ser lo menos
indiscreto posible. Un cuestionario breve, que requiera menos detalles,
puede reducir el agobio de la personas que responde.
14
•
Presentación de la encuesta. La presentación de la encuesta proporciona
el primer contacto entre el entrevistador y la persona que potencialmente
contestara, una buena presentación, que motive la respuesta, puede
incrementar drásticamente las tasas de respuesta. La empresa Nielsen
Media Research enfatiza a las familias seleccionadas en la muestra que
su participación en las clasificaciones de Nielsen afecta a los programas
de televisión que se transmiten. La persona que responde debe saber la
finalidad con la que se utilizarán los datos y garantizar la
confidencialidad.
•
Incentivos y anti-incentivos. Los incentivos, financieros o de otros tipos
puede incrementar las tasas de respuesta. Los anti-incentivos también
pueden ser útiles. Por ejemplo, en Canadá los médicos que se negaron a
ser entrevistados por sus colegas se les suspendió sus licencias médicas.
•
Seguimiento. Se debe decidir sobre un número prudencial de visitas de
seguimiento antes de abandonar la unidad.
Grupo II. Estos factores pertenecen a la etapa de diseño, son factores que tienen un
efecto indirecto en las tasas de respuesta. Entre ellas se tiene:
•
Marco muestral
•
Tamaño de la muestra
•
Estratificación
•
Asignación de la muestra dentro de los estratos
Grupo III. Estos factores pertenecen a la etapa de procesamiento y análisis después de
que se ha completado la encuesta y no hay oportunidad ya de tratar en el campo la no
respuesta. Entre ellos tenemos:
•
depuración previa e imputación
•
procedimientos de estimación
•
varianza y estimación de la varianza
•
publicación y análisis de los datos
15
2.3 Métodos para tratar la unidad no respondida (o ausencia de respuesta por
unidad)
Se ha mencionado que una reducción en el tamaño de la muestra repercute en la calidad
de sus estimados, por lo cual es necesario dar bastante importancia al momento de
recolectar la data.
Las causas de una unidad no respondida son muchas, entre ellas se encuentran:
-
Los no en casa. Son personas que residen en el lugar, pero que se encuentran
temporalmente fuera de ella.
-
Los rechazos. Son personas que se rehúsan a ser entrevistadas.
-
Incapacidad o imposibilidad de contestar. Generalmente se debe a la enfermedad
física o mental que impide la obtención de la respuesta. En algunas encuestas
esta incapacidad se debe al idioma, ebriedad de la persona.
-
No cubrimiento. Que consiste en que el encuestador no localiza la unidad
seleccionada. Esto se debe principalmente a las zonas peligrosas o de acceso
difícil.
Algunas reglas para evitar la no respuesta
-
Las revisitas son de gran ayuda para reducir los casos que no están en casa. Es
bueno preguntar en que momento se le puede ubicar a la persona o en su defecto
en que lugar .
-
Una forma de reducir los rechazos es mediante:
•
El anonimato del entrevistado.
•
Despertar el interés del entrevistado con comentarios acertados al iniciar
las preguntas.
•
Mediante incentivos.
•
En preguntas delicadas aplicar la técnica de respuesta aleatorizada.
A continuación se presentan algunos métodos para el tratamiento de la Ausencia de
Respuesta:
i.- Encuestas repetidas (Callbaks)
La no respuesta se puede reducir mediante esfuerzos persistentes de los entrevistadores
y motivando a los que no responden para que respondan. Estos esfuerzos persistentes
son en su mayor parte encuestas repetidas que son parte esencial de cualquier encuesta.
Es claro intuitivamente que las familias que están en casa la primera vez que se visita
suelen diferir de las que no están. Así, si se tiene en cuenta únicamente a los que estaban
16
en casa en el primer intento, se obtienen unos resultados muy diferentes de los se
obtendrían si se repitiesen las entrevistas que no se pudieron realizar la primera vez. Por
tanto, en el diseño del procedimiento de recolección de datos debe tenerse en cuenta la
encuesta repetida a fin de reducir la no respuesta y sus sesgos.
Las encuestas repetidas toman formas diversas, dependiendo del tipo de encuestas y de
la forma de recolectar la data. Las encuestas repetidas son la forma más limpia de
reducir la no respuesta.
En las encuestas postales, la encuesta repetida suele ser una carta recordando al
individuo de la unidad seleccionada la importancia de la encuesta; en la carta se suele
incluir una nueva copia del cuestionario por si acaso el encuestado perdió la primera
copia. Se debe también indicar que no tenga en cuenta este aviso si ya ha enviado la
primera hoja.
En las encuestas postales no suele haber más de tres repeticiones y estas se realizan
antes de que finalice el plazo de recogida de datos y comience la fase de procesamiento
de la información. A veces, las encuestas repetidas se realizan por teléfono o mediante
entrevista personal. En estos métodos, especialmente la encuesta personal, puede ser
contraproducente ya que generalmente se procede a una encuesta por correo para
minimizar el costo.
En el caso de encuestas telefónicas las encuestas repetidas suelen realizarse también por
teléfono ya que generalmente esto resulta más barato que la entrevista personal o el
envió postal.
Finalmente, en el caso de entrevistas personales, las encuestas repetidas se hacen
volviendo a la unidad seleccionada o por teléfono. Si se consigue contactar por teléfono,
la llamada se puede utilizar para obtener los datos o para acordar una hora en que se
realizara la entrevista.
Cualquiera sea el procedimiento por el que se realiza la encuesta, se debe controlar que
las encuestas repetidas se lleven a cabo en las unidades seleccionadas.
En la etapa de diseño se puede estimar el número de encuestas repetidas sobre la base de
la experiencia pasada. Es importante tener la varianza de la información obtenida en las
encuestas repetidas y el costo asociado a éstas. Diversos factores tales como las
características demográficas y socio económicas de los entrevistados; estrategias del
entrevistador tales como horario en las repeticiones y costo de obtener la información,
afectan al éxito de la encuestas repetidas.
17
Diferentes estudios llevados a cabo por diversos individuos y organizaciones confirman
que:
•
todas las encuestas muestran que el número de respuestas se incrementan
sustancialmente cuando crece el número de revisitas.
•
en la mayoría de las encuestas, la estimación de la media después del
primer intento de realizar la encuesta difiere sustancialmente de la
estimación tras varias reiteraciones.
ii.- Sustitución en el campo
Un método para reducir el tamaño de la no respuesta en el momento de la recolección
de datos es proceder a una sustitución usando unidades que no habían sido
seleccionadas para la muestra. Hay dos tipos básicos de sustitución a usar:
•
Selección de un sustituto aleatorio
•
Selección de un sustituto especialmente designado
Con el primer procedimiento de sustitución aleatoria, una unidad es seleccionada
adicionalmente para reemplazar cada no respuesta. Usualmente la sustitución para una
no respuesta en particular es elegirla de un subgrupo de la población restringida
(ejemplo: en la misma manzana, área, estrato o conjunto de estrato en la cual la no
respuesta fue seleccionada). En este caso se asume que la característica de un sustituto
seleccionado de un subgrupo de la población estará más cercana a la no respuesta, que
la característica de un sustituto seleccionado de la población entera.
Para muchos procedimientos de sustitución, las unidades sustitutas (alternativas o
backups) son seleccionadas por un procedimiento anterior a la fase de la recolección de
la información. Esto se hace con el fin de evitar demoras y molestias que pueden surgir
cuando se presenten unidades que no responden.
El procedimiento que usa unidades sustitutas especialmente designadas identifican uno
o más unidades backups para proveer sustitutos, si es necesario para cada unidad de
muestreo. Esto es, consiste en especificar unidades sustitutas que tengan características
similares a aquellas unidades que no respondieron (ejemplo, un vecino geográfico de la
unidad que no responde o una unidad que tenga características similares a la unidad que
no respondió.)
Hay dos desventajas del procedimiento de sustitución. La mayor desventaja del
procedimiento de sustitución es:
18
•
no se insiste en obtener la información de la unidad originalmente
seleccionada, ya que se cuentan con unidades sustitutas que la reemplaza,
por consiguiente esto conduce a un nivel más alto de no respuesta por
tanto hay mayor sesgo.
•
existe una tendencia a ignorar el nivel de sustitución usado en los
informes de la encuesta.
Las ventajas que conducen a su aplicación son:
•
la muestra total estará balanceada con respecto al tamaño de muestra por
la sustitución realizada.
•
como el tamaño de muestra se ve incrementada da lugar a una reducción
en la estimación de la varianza.
Con cualquier tipo de sustitución que se realice en una encuesta se debe de tener
cuidado en:
-
mantener las registros exactos sobre que unidades son sustituidas.
-
identificar que registro de datos son obtenidos de las unidades sustitutas.
-
informar el nivel de sustitución realizado.
-
tratar las unidades sustitutas como casos de no respuesta cuando se calcula la
tasa de respuesta en la encuesta.
iii.- Encuesta Delegada (Proxi)
Otra técnica importante es elegir datos de una unidad alternativa. Por ejemplo, las
instrucciones de la encuesta pueden indicar que se puede encuestar, en el caso de que no
sea posible hacerlo a la persona indicada, a cualquier otro miembro de la familia.
Obviamente, las respuestas tienen mayor probabilidad de ser incorrectas en estos casos.
Sin embargo, no es peligroso para cierto tipo de encuestas. Pero si la información
requerida es confidencial o personal entonces la encuesta delegada puede ser sesgada.
Se debe realizar un pre-estudio de la encuesta delegada antes de aplicarla a cada caso en
particular.
Sin embargo, debido a las restricciones de tiempo y costo es virtualmente imposible
obtener respuesta de cada individuo sin recurrir a la encuesta delegada. Por esta razón,
se utilizó este método en la encuesta sobre mano de obra en Canadá. Generalmente solo
se encuesta a una persona de la familia y ésta responde sobre el comportamiento de
todos los miembros. A veces, se necesitan entrevistas separadas de los miembros de una
19
casa por ejemplo si hay huéspedes. En promedio se ha encontrado que las encuestas
delegadas son aproximadamente el 50% de los que responden. Además, al aceptar las
encuestas delegadas es posible obtener respuestas completas para todos los miembros de
una casa prácticamente en el 100% de los hogares que responden. Por tanto, la encuesta
delegada es un medio muy efectivo para reducir la no respuesta.
2.4 Métodos de Imputación para tratar el ítem no respondido (o ausencia de
respuesta por elemento)
Durante todo este tiempo se ha venido utilizando diversos procedimientos de
imputación para los datos faltantes debido a la no respuesta, tanto en encuestas de
hogares como en
los censos. El uso de un determinado procedimiento ha sido
justificado en base a la experiencia, la intuición y oportunidad.
La imputación generalmente se utiliza, para asignar valores a los elementos faltantes,
produciendo así un conjunto de datos completos. Frecuentemente se asigna un valor de
reemplazo al valor faltante, mediante un valor de otra unidad que ha respondido de una
encuesta similar.
Mediante la imputación al igual que con el ajuste de las ponderaciones se buscar
reducir el sesgo debido a la no respuesta. La imputación opera sobre los datos, de forma
que los resultados obtenidos por los diferentes análisis sean mutuamente consistente, lo
que no sucede cuando el análisis se realiza sobre un conjunto de datos incompletos. Sea
cualquiera el método de imputación utilizado, no se puede asegurar una mejora en el
sesgo respecto del sistema de datos incompletos. La imputación es un procedimiento de
generar datos.
Entre los métodos existentes, mencionaremos alguno de ellos:
i.- Imputación Deductiva.- Actualmente este método se aplica en situaciones en que
las respuestas que faltan se pueden deducir del resto de la información proveniente del
conjunto de datos, es decir en base a las relaciones lógicas entre las variables. Por
ejemplo, si falta el sexo del que responde y la persona tiene nombre femenino y esta
casada con un varón, se puede deducir que es mujer. Este es un método popular y muy
usado a menudo.
ii.- Imputación Hot Deck (Fichero Caliente).- Es un método usual de ajustar datos
para valores no observados y admite diversas variantes. Generalmente el fichero
caliente es un procedimiento de duplicación. Cuando falta un valor, se duplica un valor
20
ya existente en la muestra para reemplazarlo. El principal propósito del fichero caliente
es reducir el sesgo debido a la no respuesta. Para reducir este sesgo, el procedimiento
incorpora un método de clasificación. Todas las unidades muéstrales se clasifican en
grupos disjuntos de forma que sean lo más homogéneas posibles dentro de los grupos. A
cada valor faltante, se le asigna un valor del mismo grupo. El supuesto que se utiliza es
que dentro de cada clasificación la no respuesta sigue la misma distribución de los que
responden. Este supuesto impone una fuerte restricción para las variables de
clasificación. Estas variables deben de estar correlacionadas con los valores que falten y
con los valores de los que responden. Si esto no se mantiene el método Hot Deck no
funciona, reduce solo en parte el sesgo debido a la no respuesta como es:
i.
producir un conjunto de datos limpios, es decir un conjunto de datos
completos y claros.
ii.
reducir el sesgo mientras preservamos las distribuciones conjuntas y
marginales.
Como método de imputación este procedimiento tiene ciertas ventajas entre las que se
encuentran las siguientes:
•
los procedimientos conducen a una post-estratificación sencilla.
•
no se presentan problemas especiales de encajar conjuntos de datos.
•
no se necesita supuestos fuertes para estimar los valores individuales
de las respuestas faltantes.
Sin embargo, este procedimiento tiene ciertas desventajas como es el de carecer de un
mecanismo de probabilidad, lo que imposibilita calcular su confianza sin algún
procedimiento de modelización. Y la otra es que existe la posibilidad de usar varias
veces a una misma unidad que ya ha respondido.
iii.- Fichero Caliente Modificado.- La esencia de este método es la clasificación y
encaje de unidades potenciales y receptoras utilizando un considerable número de
variables. El encaje se hace sobre bases jerárquicas en el siguiente sentido: si no se
encuentra una unidad para encajar con un receptor en todas la variable de control, se
elimina algunas variables consideradas como menos importantes para de esta forma,
conseguir el encaje a un nivel inferior. Los niveles jerárquicos se definen con este
propósito siendo el nivel más bajo aquel en el que se encuentra una unidad potencial.
21
iv.- Regresión.- La imputación por regresión predice el valor faltante usando una
regresión del elemento de interés sobre las variables observadas para todos los casos.
Mediante este procedimiento la pregunta “ y ” a la cual hay que imputar valores, se
regresiona sobre las variables control (x1, x2, ....,xp ). Tomando los datos de unidades en
los que si hay respuesta para “ y ”. Las variables de control pueden ser cuantitativas
como cualitativas. Las variables cualitativas se incorporan al modelo de regresión por
medio de variables ficticias. A través de un desarrollo cuidadoso de un modelo
explicito, la imputación por regresión produce valores más cercanos al verdadero que
otros métodos de imputación. La construcción de un buen modelo de regresión consume
tiempo y es costoso por lo cual es conveniente utilizar este método solo para las
variables principales del estudio.
v.- Imputación por Medias.- Este método fue propuesto por Wilks (1932) es
posiblemente uno de los procedimientos de imputación más antiguo y el más sencillo.
Consiste en estimar los valores faltantes de la j-ésima variable mediante la media de sus
valores observados, la cual ha sido llamada por Little y Rubin (1987), media de los
valores disponibles.
vi.- Componentes Principales.- Este método, fue sugerido por Dear (1959) y descrito
por Béale y Little (1974), tiene como punto de partida una matriz de datos estandarizada
con datos completos mediante el método de Imputación por Medias.
vii.- Imputación Cold Deck.- En la imputación Cold Deck, los valores se asignan a
partir de una encuesta anterior o de otras informaciones, como datos históricos (ya que
el conjunto de datos que sirve como fuente para la asignación no es el que está
actualmente en la computadora, el conjunto esta “frío”).
En lo que se sigue, se tratará el método de Imputación Hot Deck.
22
Descargar