195 IMPUTACIÓN DE DATOS DE MERCADO DE TRABAJO INSTITUTO NACIONAL DE ESTADÍSTICA Y CENSOS (INEC) COSTA RICA 196 Imputación de datos de mercado... ÍNDICE Página La Encuesta de Hogares de Propósitos Múltiples de Costa Rica.................................................... 197 Organización del trabajo de campo ................................................................................................ 198 ¿Qué tipo de pruebas de consistencia se le aplican a los datos de campo?..................................... 198 ¿Se realizan verificaciones de las estructuras de empleo con los datos de cuentas nacionales y con encuestas anteriores?........................................................................................... 201 ¿Qué tipos de criterios se aplican para imputar datos faltantes o aberrantes? ................................ 202 ¿Cómo se evalúa la sensibilidad de los datos a los procedimientos de imputación?...................... 202 Tipos de decisiones que se asumen cuando se detectan datos faltantes: retornos a campo, imputación de datos, eliminación de cuestionarios ........................................... 202 ¿Cómo se documentan esas prácticas? ........................................................................................... 203 Imputación de datos de mercado... 197 La Encuesta de Hogares de Propósitos Múltiples de Costa Rica En Costa Rica la realización de encuestas de hogares tiene una larga trayectoria, la cual se inició en 1966 con el programa de la Encuesta Centroamericana de Hogares. Este programa permaneció hasta 1971, año en que fue descontinuado por dificultades financieras. Posteriormente, de 1976 a 1986 se realizó la Encuesta Nacional de Hogares, Empleo y Desempleo, en un esfuerzo conjunto del Ministerio de Trabajo y Seguridad Social y de la Dirección General de Estadística y Censos. La Encuesta de Hogares de Propósitos Múltiples (EHPM) se realiza en julio de cada año desde 1987 y cuenta con el apoyo de la Caja Costarricense de Seguro Social y de diferentes instituciones que solicitan módulos especiales. Se establecieron los siguientes objetivos para la Encuesta de Hogares de Propósitos Múltiples: a. Mantener un flujo continuo de estadísticas relacionadas con la fuerza de trabajo, el empleo, el desempleo, el subempleo y los ingresos, así como de otras variables socioeconómicas y demográficas necesarias para el establecimiento de políticas y la formulación de planes orientados al desarrollo económico y social del país, y para la evaluación de sus efectos. b. Proveer información periódica, sistemática y oportuna en los períodos intercensales, referente a las variables mencionadas. c. Servir de fuente de información a instituciones gubernamentales, universitarias, o de investigación, interesadas en temas relativos a la población y el empleo, y en otros temas que se introduzcan periódicamente en la encuesta. Se investigan alrededor de 13.000 viviendas en todo el país, distribuidas en las seis regiones de planificación 1. Central 4. Brunca 2. Chorotega 5. Huetar Atlántica 3. Pacífico Central 6. Huetar Norte Se excluye a la población que habita en viviendas colectivas, es decir, aquella población que reside habitualmente en instituciones como asilos, orfanatos, conventos, pensiones, etc. La población se estudia según resida en zona urbana ó en zona rural. 198 Imputación de datos de mercado... Organización del trabajo de campo Las actividades necesarias para realizar la Encuesta de Hogares de Propósitos Múltiples, se pueden agrupar en cinco etapas: Para realizar la labor de campo se seleccionan y capacitan funcionarios del INEC para que se desempeñen como supervisores de campo, posteriormente a cada uno se le asigna un grupo de tres entrevistadores, conformando así los equipos de trabajo de campo. De acuerdo a esta organización, el entrevistador está bajo la responsabilidad de su respectivo supervisor en la realización de sus tareas, por lo tanto debe dirigirse a él para solucionar cualquier problema, duda o situación que se presente. Asimismo, el entrevistador debe respetar y seguir las instrucciones que el supervisor indique. El trabajo de campo se organiza en dos etapas, 1. la primera se lleva a cabo en el Gran Área Metropolitana (GAM): se conforman 20 grupos de trabajo cada uno conformado por tres entrevistadores y un supervisor de campo. Durante dos semanas cada grupo se encarga de llegar a las zonas de trabajo previamente asignadas y seleccionadas probabilísticamente, 2. la segunda etapa se lleva a cabo en el resto del país, aquí se envían 18 grupos de trabajos, ya que dos grupos se dejan en el GAM para realizar todas aquellas viviendas que en la primera etapa sus resultados de entrevista fueron de “pendiente”, es decir, no se lograron realizar las entrevistas por uno u otro motivo, esta labor se realiza durante dos semanas, completando de esta manera todo un mes de trabajo. ¿Qué tipo de pruebas de consistencia se le aplican a los datos de campo? En el caso de Costa Rica, las medidas de consistencia de los datos dan inicio desde el primer día de trabajo de campo, esto por que en oficina se organiza un proceso denominado “reentrevista” que consiste en visitar a por lo menos un grupo de trabajo cada día por parte de funcionarios calificados en toda la temática de la encuesta, junto con este grupo de funcionarios se encuentra un entrevistador que tiene la tarea de realizar otra entrevista en viviendas ya visitadas previamente. El instrumento utilizado es un cuestionario diseñado de tal manera que se pregunte de la misma manera que el entrevistador previo, las preguntas no son todas sino que se han seleccionado un conjunto de las mas representativas o bien de las de mayor interés, entre estas preguntas se presta especial atención por la rama de actividad, ocupación principal, ingresos, categoría ocupacional, algunas preguntas sociodemográficas, entre otras, posteriormente se comparan estos resultados con la entrevista “oficial” o “completa” y se le hacen notar al equipo de trabajo sus errores si ese es el caso, en oficina se realizan informes con una serie de estadísticos que persiguen detectar el grado de calidad de los datos de campo. A manera de ejemplo para la Encuesta del presente año se calculó el Índice de Consistencia Global que sirve para comparar la calidad general de las distintas características evaluadas y se define para una característica determinada C. El valor cero indica ninguna coincidencia y 100 coincidencia total entre la entrevista y reentrevista. Imputación de datos de mercado... 199 ∑n ii ICG (C ) Número de pregunta = i n * 100 Nombre de l a Variabl e ICG Generales A 03 Condición de empleo Total miembros del hogar Vivie nda A 02 A 05 A 08 A 09 A 12 A 16ia A 16ib Tenencia de vivienda Tenencia de cielo raso Número de dormitorios Número de aposentos Conexión de servicio sanitario Tenencia de computadora Número de computadoras Caracterís ticas sociode m ográficas B 03 Relación de parentesco B 04 Sexo B 05 Edad B 07 Condición de aseguramiento B 08 Último grado aprobado B 13 Estado conyugal Actividad económ ica C 01 C 02 Trabajó C 03 C 04 Buscó trabajo C 05 C 07 Tiempo de cesantía C 08 Tipo de inactivo C 15 Grupo ocupacional C 17 Rama de actividad C 18 Categoría ocupacional C 22a Número horas trabajadas * Ingres os ** C 32a C 32b C 32c C 33a C 33b C 32 C 33 C 35 93,90 92,11 88,16 94,08 88,82 67,76 85,53 96,05 100,00 92,54 97,97 90,85 84,07 88,81 91,44 93,77 98,48 100,00 94,62 99,17 0,00 87,39 81,33 85,54 75,30 39,07 Ingresos de asalariados 57,32 Ingresos de independientes 48,84 Ingreso total 53,45 */ De acuerdo con la agrupación de horas que se hizo. **/ De acuerdo con los deciles de la RE. Equipo de trabajo de campo: Las instrucciones básicas que cada grupo de campo debe seguir son visitar grupos de tres viviendas debidamente identificadas en mapas segmentados, esta tarea se efectúa durante un mes en el cual el supervisor tiene la obligación de estar vigilando la labor de cada entrevistador a su cargo, ya sea observando como realiza la entrevista, verificando que la aplicación del cuestionario y conceptos se realicen de acuerdo a los requerimientos de la encuesta. Si se detectan errores o inconsistencias en la información se procede a corroborar los datos nuevamente para corregir o darlos por buenos. Es obligación del supervisor registrar en los listados de recorrido de estructuras todos los cambios 200 Imputación de datos de mercado... que han sufrido estas, ya que de esta labor es que se actualiza el marco muestral de viviendas y con los crecimientos registrados se ajustan los factores de ponderación. Supervisión general Como parte de las medidas para garantizar la buena calidad en los datos, se procede a conformar dos equipos de funcionarios (supervisión general1) que tienen a su cargo visitar a cada uno de los grupos de campo y velar porque se estén realizando las actividades propias de campo. En este punto la estrategia utilizada es permanecer con el grupo durante un día entero de trabajo, para poder observar el desenvolvimiento de cada uno de los entrevistadores y del supervisor mismo, en aquellos casos donde se detectan errores de aplicación o de concepto, se procede a hacer las observaciones correspondientes tanto al grupo de entrevistadores como al mismo supervisor. Otra de las tareas del equipo de supervisión general está en acompañar y guiar al entrevistador que realiza las reentrevistas a hogares que previamente ya han sido entrevistados, esto con el objetivo de cotejar la información recolectada y detectar oportunamente errores sistemáticos en los entrevistadores. Como se indicó en el apartado anterior esta tarea se realiza aplicando un formulario debidamente diseñado, ayudando sobremanera a detectar inconsistencias en el mismo campo. Finalmente se le solicitan al grupo de trabajo de campo segmentos (cargas de trabajo) realizados para ser revisados por los supervisores generales quienes deben manifestar cualquier observación que ayude a mejorar los datos recolectados. Proceso de recuperación de entrevistas pendientes Alrededor de quinde días después de iniciada la fase de trabajo de campo se reciben las boletas realizadas hasta ese momento, así como un listado de todas aquellas viviendas donde la entrevista no se pudo realizar, a estas viviendas se les denomina “pendientes” y durante los próximos quince días dos grupos de trabajo de campo se encargarán de minimizar esa cantidad de pendientes. Crítica y codificación Este proceso de organiza de la siguiente forma: 1. Recepción del material: el supervisor de campo entrega a los encargados de este proceso -contra listado- todos los segmentos correspondientes a su carga de trabajo. 2. Separación de entrevistas “pendientes”: junto con la entrega de material se entrega la lista de viviendas a las que se necesita volver para rescatar la entrevista que por uno u otro motivo quedó sin realizar. 3. Conformación de lotes de trabajo: Se formas lotes de cartapacios2, cada uno de 10 cartapacios, se ordenan geográficamente y se ubican en estantes acondicionados para tal efecto y listos para ser codificados y criticados. 4. Crítica y codificación: se divide en 5 fases, a. Se critica identificación de la vivienda, características de la vivienda, b. Se critica y codifica las características sociodemográficas, c. Se critica y codifica las características de la actividad económica, d. Se critica y codifica la parte geográfica, 1 Grupo de funcionarios calificados en la temática de la Encuesta, que usualmente se compone de una persona encargada de velar por la parte temática, otra por la parte de muestreo y cartografía y un reentrevistador. 2 Sobre donde se adjuntan en promedio unos quince cuestionarios, uno por cada vivienda a visitar. Imputación de datos de mercado... 201 e. Se procede a verificar muestras de segmentos para corroborar que la critica y codificación se ha realizado satisfactoriamente. Sumado a las actividades propias de la crítica y codificación se le solicita al funcionario que todos aquellos casos donde se presente información faltante, errónea o poco consistente sea apartado de los bloques de cuestionarios y sea remitido a la persona encargada de realizar llamadas telefónicas. Una vez que la información ha sido consultada por teléfono el cuestionario es devuelto al proceso de crítica y este es procesado. Tanto en la crítica y codificación como en digitación se realizan validaciones del trabajo realizado en oficina. Mediante muestras de cuestionarios se vuelven a revisar cada una de las fases con el fin de poder dar por aceptado los lotes de trabajo. Validación y consistencia de los datos Esta etapa se realiza una vez que se tienen digitados los datos de la Región Central del país, ya que esta representa alrededor del 50% de toda la información; el proceso es ejecutado por unos 8 grupos de 2 supervisores de campo cada uno. El proceso de detección de inconsistencias se realiza computacionalmente con el software CS-PRO, el cual, una vez que se han ejecutado los módulos correspondientes genera listados de posibles inconsistencias que cada grupo deberá corroborar directamente en el cuestionario y hacer las correcciones e indagaciones pertinentes si es el caso tanto en el instrumento como en la base de datos. A manera de ejemplo algunas de las inconsistencias que se pueden mencionar son: 1. Niveles de educación no concordantes con la edad de la persona 2. Relaciones de parentesco no consistentes con la edad del jefe(a) de hogar 3. Condiciones de aseguramiento cuyo registro de ingresos no es consistente 4. Errores en las características de la persona conforme se cambié de módulos de investigación, 5. Se revisa que personas catalogadas como patronos tengan tamaños de empresa superiores a 2 personas, que su ingreso sea acorde a ciertos rangos establecidos por Ministerio de Trabajo. 6. Los trabajadores por cuenta propia en tamaño de empresa deben tener una persona o varios ayudantes no remunerados, Una vez que se tienen la base de datos de la región central, se procesan una serie de tabulados con las frecuencias de todas las variables si se revisa manualmente que todas las cifras sean consistentes como el resto de la información, en caso de que se detecten errores, se procede a anotar los errores y junto con un administrador de bases de datos se procede a detectar la fuente de error y su respectiva corrección. En términos generales se trata de listar todos aquellos casos que no concuerden con la lógica del cuestionario o bien con situaciones normales. ¿Se realizan verificaciones de las estructuras de empleo con los datos de cuentas nacionales y con encuestas anteriores? Una vez que se tienen las primeras estimaciones de empleo, estas sí se comparan con las obtenidas en encuestas anteriores. La revisión de los datos se hace comparando cifras globales y observando si la tendencia histórica es coherente; en aquellos casos donde se presentan “saltos bruscos” o fuera de lo normal se estudian las regiones que presentan los cambios más significativos, para poder canalizar las investigaciones hacia posibles respuestas del comportamiento de las cifras. Varias de las fuentes que ayudan a entender mejor la situación provienen de entes externos como lo es el Banco Central de Costa Rica, Instituto de 202 Imputación de datos de mercado... Investigaciones en Ciencias Económicas, Municipalidades, Caja Costarricense de Seguro Social, entre otras fuentes. ¿Qué tipo de criterios se aplican para imputar datos faltantes o aberrantes? En el caso de Costa Rica no existen criterios para imputar datos faltantes o erróneos, salvo los criterios que se utilizan para criticar y codificar los cuestionarios de la Encuesta de Hogares, los cuales se basan en asignar códigos especiales a estos casos, por ejemplo: • si en la sección de las características sociodemográficas no se indicó la edad de la persona pero sabemos que es mayor de 12 años se le asigna un código 99 en edad, • Por el contrario si sabemos que es menor de 12 años se le asigna un 98. • En el caso del nivel educativo si la persona posee 11 años de edad y no se indicó el nivel educativo pero sabemos que asiste a la educación regular se le asigna un código 14, es decir, cuarto año de primaria. • En condición de aseguramiento si el seguro social del jefe es por ser asalariado y sus dependientes carecen de código, se les asigna el código correspondiente a familiar de asegurado directo, esto por ser lo mas frecuente y común. La instrucción general se centra en tratar de rescatar la información mediante criterios establecidos como los anteriores, como ultima instancia se le declara como datos ignorado. En general se trata de dejar completa la información de la persona más que de asignar valores válidos y computables en el cálculo de las estadísticas pertinentes a la variable en estudio. Talvez se pueda decir que la forma más cercana a imputación de datos se lleva a cabo cuando se analiza la información de la persona y se puede deducir el dato faltante, sin embargo esto se hace en muy pocas ocasiones ya que la mayoría de las instrucciones en crítica se hacen para asignar códigos prefijados a determinadas situaciones. ¿Cómo se evalúa la sensibilidad de los datos a los procedimientos de imputación? Como se mencionó, en el caso particular de la Encuesta de Hogares de Costa Rica, la imputación de datos se realiza a muy poca escala, casi de manera única y exclusiva de casos muy particulares, por lo que no se realizan evaluaciones de sensibilidad a la hora de imputar algún dato. Tipo de decisiones que se asumen cuando se detectan datos faltantes: retornos a campo, imputación de datos, eliminación de cuestionarios. Durante el trabajo de campo, el supervisor tiene la obligación de revisar los cuestionarios que cada uno de sus entrevistadores ha realizado en las viviendas asignadas, con una breve revisión de los cuestionarios se pueden detectar errores, omisiones o inconsistencias en la información, en tal caso el supervisor de campo debe tomar la decisión de enviar nuevamente al entrevistador a la vivienda para corregir, corroborar o completar la información que amerita ese trabajo extra. Lo mismo sucede con los grupos de supervisión general los cuales tienen la potestad de devolver cuestionarios mal realizados, información dudosa o inconsistente. Un proceso paralelo al de crítica y codificación es el de rescate de datos faltantes y corroboración de información dudosa. Esta actividad es de mucha importancia puesto que se designa a una persona tiempo completo a realizar llamadas telefónicas a todos aquellas viviendas donde sus respectivos cuestionarios se encuentren con datos faltantes. Para el presente año se lograron rescatar alrededor de 500 cuestionarios en al menos una de sus partes, de lo contrario todos estas boletas hubieran codificado con “ignorado” en la respuesta faltante. La pregunta Imputación de datos de mercado... 203 que mas se encuentra con datos faltantes son la referida al ingreso en la ocupación principal, por lo que este es quizá el principal criterio para devolver una boleta para que sea verificada por teléfono. Como se indicó anteriormente, en Costa Rica se realiza -en pocos casos-, una imputación “individualizada”, es decir, en los casos en que se pueda deducir la respuesta con base a otras variables se hace y se rescata ese dato, no existe un proceso formal en que mediante de procesos computacionales se realice algo parecido. Todo aquel caso donde no se pueda obtener el dato faltante quedará como ignorado. ¿Cómo se documentan esas prácticas? Cada una de las decisiones que se toman en el campo son consideradas como necesarias para el buen funcionamiento de los procesos de recolección de la información, el supervisor no toma nota de las decisiones que se llevan a cabo durante el trabajo de campo. Solo en aquellas situaciones donde sucedan acontecimientos que atrasen, perjudiquen o alteren la encuesta se le solicitará al supervisor un detalle de los acontecimientos. Al final de todo el proceso de campo se le solicita al supervisor un informe detallado de las actividades realizadas, en este se especifican las dificultades encontradas, observaciones más importantes con respecto a los segmentos visitados. Estos informes son realizados tanto por los supervisores de campo como por los supervisores generales. Sumado a estos informes se realizan calificaciones de los entrevistadores para poder tener un perfil y saber si es una persona apta para ser nuevamente contratada en encuestas futuras. En el proceso de crítica y codificación se realiza la etapa de verificación en la cual se le dá a un grupo de personas un formulario en el cual debe ir anotando todos los errores encontrados en los cuestionarios que se les dio para ser verificados, con estos informes se pueden tener cuotas máximas aceptables de errores por lote de trabajo, se establecen criterios de aceptación para devolverlos a los críticos codificadores para que nuevamente sean criticados y corregidos. Para con las boletas que se envían a llamadas telefónicas, se lleva un control estricto de su identificación, tipo de error encontrado, y el resultado de la llamada telefónica, si esta fue realizada satisfactoriamente se anota el cambio realizado, de lo contrario se anota que la llamada no se pudo realizar por rechazo o no se localizó a ninguna persona, si este es el caso se codificará como un dato ignorado. En general en la Encuesta de Hogares no existe un sistema de documentación en el cual se especifiquen las decisiones tomadas en materia de imputación, la mayor parte de las decisiones se toman en el momento oportuno, por que se refieren a casos muy individuales y solo se establecen informes ejecutivos de las actividades realizadas.