imputación múltiple como alternativa para el tratamiento de

Anuncio
Cuartas Jornadas "Investigaciones en la Facultad" de Ciencias Económicas y Estadística, octubre de 1999.
Badler, Clara
Alsina, Sara
Puigsubirá, Cristina
Vitelleschi, María Susana
Instituto de Investigaciones Teóricas y Aplicadas, Escuela de Estadística.
IMPUTACIÓN MÚLTIPLE COMO ALTERNATIVA PARA EL TRATAMIENTO
DE INFORMACIÓN “CONFUSA” EN LA ENCUESTA PERMANENTE DE
HOGARES1
1. INTRODUCCIÓN
Los usuarios que analizan bases de datos provenientes de la Encuesta Permanente de
Hogares (EPH), no cuentan frecuentemente con elementos que les permitan tomar conocimiento que la misma presenta problemas que afectan la calidad de las conclusiones. El analista deberá optar por un tratamiento previo al análisis definitivo de los datos.
Los inconvenientes se producen en la secuencia realidad - base de datos a partir de las
distintas etapas del relevamiento: de definiciones confusas o erróneas de variables o indicadores, de la categorización de las mismas, debido a la codificación, a errores de edición, por
uso no riguroso del software en el procesamiento y, frecuentemente, producen falta de información.
Existen distintos procedimientos para enfrentar el problema; uno es trabajar sólo con datos completos eliminando las unidades con inconvenientes, otra solución es la de considerar
la presencia de datos incompletos recurriendo para su tratamiento a técnicas de imputación
que rescatan la idea intuitiva de reemplazar los valores perdidos por otros, seleccionados
mediante diferentes métodos.
Este trabajo intenta una propuesta metodológica a través de la aplicación de métodos
para el tratamiento de datos incompletos a una variable de la EPH con información “confusa”, recurriendo a las ventajas de la técnica de imputación múltiple.
2. MATERIAL
La información proviene de la onda octubre 1997, archivo personas de la base usuario
ampliada, correspondiente al Gran Rosario.
Se trabaja con la sub-base integrada por las “personas desocupadas con ocupación anterior” (DOA), definida a partir de los criterios de clasificación de la condición laboral implícita
en la encuesta y de la condición de existencia de la ocupación anterior.
La variable analizada es “monto del ingreso Per Capita Familiar” (IPCF) de importancia
en la encuesta, pues resulta un indicador de subsistencia y permite asignar ingresos al grupo de desocupados.
1
Proyecto PICT Nº 0200095-01996 de la ANPCyT.
237
Cuartas Jornadas "Investigaciones en la Facultad" de Ciencias Económicas y Estadística, octubre de 1999.
La misma se asocia a cada persona encuestada pero no es relevada directamente sino
que es elaborada a través de la siguiente secuencia:
Ingreso individual total de
cada componentemm
del hogar. (IC)
Monto del ingreso
total familiar:
ITF =
H
1
IPCF =
IC
1
ITF
H2
H2: total de componentes del hogar,
Incluyendo servicio
doméstico.
H1: total de componentes del hogar, excluyendo servicio doméstico.
La variable IPCF presenta valores iguales a cero en su distribución básica. A partir de la
codificación del relevamiento, estos valores pueden ser consecuencia de que:
•
la ITF sea cero porque los ingresos de todos los miembros del hogar sean cero,
•
la ITF sea cero porque al menos un miembro del hogar (incluso el desocupado) no registra información sobre el total de sus ingresos.
>0
IPCF: permite asignar ingresos al grupo de desocupados y representa un indicador de subsistencia
Presenta
valores
Confusa su identificación:
=0
*¿Ingreso Nulo?
*¿Información Faltante?
A través de un monitoreo se observa que en su mayoría los ceros no corresponden a ingresos nulos.
238
Cuartas Jornadas "Investigaciones en la Facultad" de Ciencias Económicas y Estadística, octubre de 1999.
Se utiliza además la variable “decil del ingreso Per Capita Familiar” (DECCF), asociado
a la variable IPCF, cuya codificación establece el código 12 para ingresos parciales o no
sabe/ no responde.
Para la aplicación de la metodología se utilizan otras variables de la sub-base DOA, que
complementan la descripción del problema del desempleo:
•
"Tiempo de búsqueda de empleo" (TBE): tomando la definición de las variables del relevamiento que la originan, ella es construida a partir de la combinación lineal de las variables relevadas, "tiempo en meses que busca empleo" y "tiempo en días que busca empleo".
•
"Tiempo transcurrido desde que dejó la ocupación anterior" (TTOA): construida a los
fines de su utilización en este trabajo, a través de la combinación lineal de tres variables
relevadas, tiempo en años, meses y días transcurridos desde que dejó la ocupación anterior.
Cabe acotar que el usuario se enfrenta con definiciones que pueden confundir la interpretación del tiempo asociado al problema del desempleo.
3. METODOLOGÍA
Ante la presencia de información faltante para algunas variables en algunas unidades se
recurre para su tratamiento a las alternativas de casos completos e imputación.
3.1. Casos Completos
Una forma simple de trabajar frecuentemente utilizada, es la de descartar las unidades
con información incompleta y analizar sólo aquellas con datos completos.
Esta estrategia permite mantener un tamaño muestral común para todas las variables,
pero al reducirlo produce pérdida de información.
La técnica puede ser satisfactoria cuando es pequeña la proporción de información faltante pero puede conducir a sesgos importantes en las estimaciones muestrales, ya que
frecuentemente las unidades descartadas tienen un comportamiento diferente de aquellas
con información completa. La magnitud de estos sesgos depende de los mecanismos que
han producido las pérdidas y del tipo de análisis a realizar.
3.2. Imputación
Consiste en completar la base de datos bajo cierto supuesto sobre las características
del mecanismo de pérdida, asignando a los valores faltantes, reemplazantes tan similares a
ellos como sea posible.
De esta manera, se incorpora información auxiliar de utilidad y se completan las bases,
restaurándose también la habilidad de utilizar métodos de análisis estadísticos estándares
para datos completos.
Entre los métodos para realizar imputaciones se opta por el del vecino más cercano.
3.2.1. Método del vecino más cercano
Es un método de imputación que sustituye a cada valor perdido por el de un donante
elegido a partir de una determinada distancia calculada a través de una variable con información completa.
239
Cuartas Jornadas "Investigaciones en la Facultad" de Ciencias Económicas y Estadística, octubre de 1999.
A partir de una muestra (S) de tamaño n, se obtiene un conjunto de respondientes (R) y
otro de no respondientes (W), S = R U W; se designa con y1 la variable que presenta valores perdidos y con y2 la variable con información completa. Si se considera una unidad i perteneciente a W y se supone que:
min y i 2 − y l 2
l∈R
ocurre para l = l(i), entonces el valor yl(i)1 se imputa para el valor faltante yi1. A este valor se lo
denomina donante y corresponde al de menor distancia. La i-ésima observación de la variable con pérdida:
y i1 =
yi1 si i ∈ R
y l( i )1 si i ∈ W
Es importante destacar que el valor imputado mediante este método, proviene del
donante que más se parece a la unidad para la cual un valor debe ser imputado, por lo cual
preserva bastante bien la estructura de los datos y al ser el donante uno de los respondientes es un valor que ocurre realmente en el relevamiento, y no uno construido a partir de información no obtenida directamente del relevamiento como en otros métodos de imputación.
3.2.2. Error de imputación
En general los métodos de imputación pueden ser expresados a través de un modelo
que relaciona las variables con información faltante con aquellas con información completa.
En este trabajo, para la unidad i perteneciente a W:
yi1 = f (yi2) + ei
donde: yi1 es el valor imputado y ei el residuo.
Es importante considerar que al imputar se agrega una fuente de variabilidad, el error de
imputación
( yi1 - yl(i)1 )
Los análisis que tratan a los valores imputados como valores observados, no tienen en
cuenta que están sujetos a errores de imputación cuyos efectos sobre el desvío de las estimaciones no son fácilmente medibles. Claramente, cuando el valor del donante mejor represente al valor faltante correspondiente, menor será el error de imputación.
Al aplicar imputación simple a los valores faltantes no es posible calcular el error de imputación en la evaluación de las estimaciones muestrales. Una estrategia para incorporarlo
es a través de la técnica de imputación múltiple.
3.2.3. Imputación Múltiple
Rubin propuso la técnica de imputación múltiple que mantiene las principales ventajas
de la imputación simple pero intenta solucionar sus desventajas.
240
Cuartas Jornadas "Investigaciones en la Facultad" de Ciencias Económicas y Estadística, octubre de 1999.
Imputación Múltiple: completa conjuntos de
datos, reemplazando cada valor faltante por un
vector de posibles valores de dimensión m, que
representan una distribución de valores probables.
• Permite utilizar métodos de
análisis estadísticos estándares.
• Asocia una medida de incertidumbre debida a la variabilidad muestral a partir de las m
imputaciones combinando la
variabilidad dentro y entre
imputaciones.
El reemplazo de cada valor faltante se
realiza utilizando un mismo método de
imputación, bajo el supuesto de la postulación de un esquema de pérdida.
La figura 1 describe un conjunto de datos con información faltante en el cual se ha utilizado imputación múltiple, reemplazando cada valor perdido por un punto del vector de m
valores posibles, que son almacenados en una matriz auxiliar con una fila para cada valor
faltante y m columnas que representan la cantidad de imputaciones realizadas. Dichos valores están ordenados de manera que la primera columna de la matriz auxiliar contiene los
que se utilizan para sustituir los valores faltantes, generando un conjunto de datos “completos”. La segunda columna genera otro conjunto de datos “completos” y así sucesivamente.
En la práctica este método es útil cuando la fracción de valores perdidos no es excesiva.
VARIABLES
IMPUTACIONES
U
N
I
D
A
D
E
S
Fig. 1 Conjunto de datos con m imputaciones para cada dato faltante
241
Cuartas Jornadas "Investigaciones en la Facultad" de Ciencias Económicas y Estadística, octubre de 1999.
3.2.4. Estimaciones a partir de imputación múltiple
Es de interés estimar el parámetro θ: promedio de la variable y1 obteniéndose a partir
de los m conjuntos reconstruidos un vector de m estimaciones y de sus variancias asociadas.
θˆj =
n
i =1
y i1 / n
j = 1,...,m
Uˆ j =
n
i =1
( y i1 − y1 ) 2 / n(n − 1)
En imputación múltiple se combinan la m estimaciones obteniéndose:
θˆj =
Estimador combinado y su variancia
i =1
total asociada
Uˆ
θˆj
θˆ =
j =1 m
m
Tˆ =Uˆ +(1+m−1)Bˆ
n
Uˆ j =
n
i =1
Bˆ =
m
j =1
yi1 / n
Uˆj
j =1 m
m
=
( yi1 − y1 ) 2 / n(n −1)
(θˆj − θˆ ) 2
(m − 1)
Se observa que la variancia total asociada ( Tˆ ) tiene dos componentes: una que mide la
variabilidad dentro de los m conjuntos ( Û ) y otra entre los m conjuntos ( B̂ ).
242
Cuartas Jornadas "Investigaciones en la Facultad" de Ciencias Económicas y Estadística, octubre de 1999.
La estimación por intervalo resulta:
θˆ ± tv,(α / 2) Tˆ1/ 2
{
}
−1 2
v = (m−1) 1+ rm
rm = (1+m−1)Bˆ /Uˆ
4. RESULTADOS
En el conjunto de personas desocupadas con ocupación anterior (DOA), compuesto por
171 unidades, la variable “monto del ingreso Per Capita Familiar” (IPCF) presenta en su distribución básica 30 unidades con valores iguales a cero.
El usuario puede tomar distintas decisiones ante la base de datos con este problema:
I. Trabajar sólo con los datos completos que resulten de:
1. Eliminar las 30 unidades por considerarlas con información faltante (n=141).
2. Eliminar las unidades que tienen además el código 12 en la variable “decil del ingreso Per
Capita Familiar” (DECCF) por considerarlas con información faltante (n=161).
3. Trabajar con la totalidad de las unidades pertenecientes a DOA, por considerar al valor
cero como un posible valor de la variable (n=171).
II. Realizar imputaciones, considerando como unidades con información faltante a aquellas
que tienen:
1. Los valores iguales a cero de las 30 unidades (W = 30).
2. Además el código 12 en la variable “decil del ingreso Per Capita Familiar” (DECCF) (W =
10).
Se mantienen en ambos casos 171 unidades y se aplica la técnica de imputación múltiple a través del método del vecino más cercano con m=3 repeticiones, con una macro del
programa SAS.
Este proceso se realiza utilizando cada una de las dos variables auxiliares: “tiempo de
búsqueda de empleo” (TBE) y “tiempo transcurrido desde que dejó la ocupación anterior”
(TTOA). Surgen de esta manera tres conjuntos de datos “completos” a partir de cada una de
ellas.
Siendo de interés la estimación del promedio de la variable IPCF para el conjunto DOA,
se realizan las estimaciones para las distintas opciones planteadas.
En la Tabla 1 se presentan los resultados para las distintas alternativas de la opción I:
243
Cuartas Jornadas "Investigaciones en la Facultad" de Ciencias Económicas y Estadística, octubre de 1999.
Tabla 1. Estimaciones del promedio de IPCF con datos completos
n
Promedio Estimado
Variancia Asociada
Error Estándar
Estimación por Intervalo
(95%)
141
160.33
118.537
10.89
(139.00;181.67)
161
140.41
108.315
10.41
(120.01;160.81)
171
132.204
102.368
10.12
(112.37;152.03)
Se puede observar que la estimación del promedio se ve afectado según la decisión que
tome el usuario con respecto a la eliminación de unidades con información faltante.
La opción II utiliza la técnica de imputación múltiple que permite obtener una estimación
combinada del promedio y asociar a cada estimador una medida de la variabilidad a partir
de las repeticiones, combinando variabilidad dentro y entre imputaciones (Tablas 2 y 3).
Tabla 2. Estimaciones del promedio de IPCF con datos imputados
Variable
Auxiliar
Estimación Combinada
Estimación por Intervalo (95%)
W = 10
W = 30
W = 10
W = 30
TBE
140.59
160.13
(121.023;160.15)
(142.40;179.06)
TTOA
140.20
166.76
(120.70;159.69)
(146.05;186.65)
244
Cuartas Jornadas "Investigaciones en la Facultad" de Ciencias Económicas y Estadística, octubre de 1999.
Tabla 3. Variancias resultantes a partir de la aplicación de Imputación Múltiple
Variable
Variancia Intra
Auxiliar
TBE
TTOA
Variancia entre
Variancia Total
Imputaciones
W = 10
W = 30
W = 10
W = 30
W = 10
W = 30
98.659
85.89
0.7307
1.16
99.63
87.43
(9.98)
(9.35)
98.95
107.25
(9.95)
(10.35)
98.625
106.97
0.2452
0.20
El mayor aporte a la variancia total por el uso de las repeticiones en la técnica de imputación múltiple, corresponde al caso de la utilización de TBE como variable auxiliar habiéndose perdido los 30 ceros.
5. DISCUSIÓN
El tratamiento de información confusa con metodología para datos incompletos es una
alternativa válida que aporta posibles soluciones.
En particular, la imputación múltiple habilita al conjunto de datos, manteniendo el tamaño muestral, para la aplicación de métodos estadísticos para datos completos. Incorpora el
error de imputación en la evaluación de las estimaciones muestrales y posibilita la utilización
de información adicional del mismo relevamiento.
El usuario analista deberá evaluar en cada caso la elección de la metodología para mejorar la calidad de la información, teniendo en cuenta las características de la variable analizada, las ventajas observadas en las conclusiones, la operatividad de la misma y su aporte
al conocimiento de la realidad.
BIBLIOGRAFÍA
BADLER, C.; ALSINA, S.; ARNESI, N.; PUIGSUBIRÁ, C. y VITELLESCHI, M. S.. (1999).
“Tratamiento a través de Imputación Múltiple a Datos Incompletos en la Encuesta Permanente de Hogares (EPH)”. Presentado al IV Congreso Latinoamericano de Sociedades de Estadística (CLATSE IV).
BADLER, C.; ALSINA, S.; ARNESI, N.; PUIGSUBIRÁ, C. y VITELLESCHI, M. S.. (1998).
“Datos Incompletos y Esquemas de Pérdidas. Su Tratamiento a través de Imputación
Múltiple”. Presentado al VII Congreso Latinoamericano de Probabilidad y Estadística
Matemética (CLAPEM), III Congreso Iberoamericano de Estadística y XXVI Coloquio
Argentino de Estadística.
GELMAN, A.; KiNG, G. and LIU, C.. (1998). “Not Asked and Not Answered: Multiple Imputation for Multiple Surveys”. Journal of the American Statistical Association, vol. 93, Nº
443, pp. 846-874.
INDEC ,ISI , IASS. (1998). “Encuestas a Hogares: Reformulación de la Encuesta Permanente de Hogares de Argentina”. INDEC. Buenos Aires.
245
Cuartas Jornadas "Investigaciones en la Facultad" de Ciencias Económicas y Estadística, octubre de 1999.
RANCOURT, E.; SÄRNDAL, C. and LEE, H. . (1994). “Estimation of the Variance in the Presence of Nearest Neighbour Imputation”. Proceeding of the Section on Survey Research
Methods. American Statistical Association, vol II, pp. 888-893.
RUBIN, D. B.. (1996). “Multiple Imputation After 18+ Years”.Journal of the American Statistical Association, vol. 91, Nº 434, pp. 473-489.
RUBIN, D. B.. (1987). “Multiple Imputation for Nonresponse in Surveys”. John Wiley & Sons.
RUBIN, D. B.. (1986). “Basic Ideas of Multiple Imputation for Nonresponse”. Survey Methodology, vol. 122, Nº 1, pp. 37-47.
246
Descargar