273 METODOLOGÍA PARA LA INTEGRACIÓN DE BASES DE DATOS DE ENCUESTAS DE HOGARES INSTITUTO NACIONAL DE ESTADÍSTICA (INE) VENEZUELA 274 Metodología para la integración de bases de... ÍNDICE Página 1. Aspectos Institucionales....................................................................................................... 275 2. Aspectos Generales.............................................................................................................. 275 Encuesta de hogares por muestreo ...................................................................................... 276 3. Aspectos Computacionales de la EHM................................................................................ 277 3.1 Estrategia para la captura de datos .............................................................................. 277 3.1.1 Centralización de los procesos ......................................................................... 277 3.1.2 Crítica y codificación de la planilla.................................................................. 278 3.1.3 Captura de datos ............................................................................................... 279 3.1.3.1 Diseño de estructura de datos............................................................. 279 3.1.3.2 Desarrollo de la aplicación ................................................................. 280 3.1.3.3 Requerimiento de hardware y software.............................................. 283 3.1.3.4 Justificación para el desarrollo del sistema de captura ...................... 283 3.2 Procedimientos para evaluar la consistencia de la información.................................. 283 3.2.1 Validación......................................................................................................... 283 3.3 Procesamiento de las bases de datos ........................................................................... 284 3.3.1 Software utilizados y desarrollo del mismo ..................................................... 284 3.3.2 Cálculo de los factores de expansión ............................................................... 284 3.3.3 Generación de tabulados................................................................................... 284 3.4 Imputación de datos..................................................................................................... 285 3.5 Integración de variables............................................................................................... 285 3.6 Integración de archivos de datos ................................................................................. 285 3.7 Políticas institucionales de acceso a la base de datos ................................................. 286 Metodología para la integración de bases de... 1. 275 Aspectos Institucionales La Dirección de Estadísticas Sociales y Ambientales, dentro del INE, tiene como misión, garantizar que se efectúen los diseños de investigaciones estadísticas en el área social, demográfica y ambiental, así como, las proyecciones, predicciones y análisis estadístico que corresponda al INE y velar porque los diseños de las investigaciones que se realizan en otros órganos del Sistema Estadístico Nacional se efectúe en concordancia con el Plan Estadístico de la nación. El Programa Sistema de Encuestas a Hogares, adscrito a la DESDA , es el encargado de velar por la armonización conceptual y metodológica de las Encuestas a Hogares del Sistema Estadístico Nacional, mediante la acción coordinada con las distintas instancias implicadas; en este programa se ubica la Unidad de Consolidación y Consistencia de Resultados, encargada de garantizar la ejecución de la fase relativas a la integración, consolidación y procesamiento de los datos de cada una de las encuestas del Sistema. Instituto Nacional de Estadística Dirección de Estadísticas Sociales Demográficas y Ambientales Programa Sistema de Encuestas a Hogares Unidad de consolidación y Consistencia de Resultados 2. Aspectos Generales Las Encuestas que integran actualmente el Programa de Sistemas de Encuestas a Hogares las podemos clasificar en: ! Encuestas Continuas: Encuestas que manejan variables susceptibles de modificaciones significativas en corto plazo o variables coyunturales. ! Encuestas no periódicas y complementarias: Que incluyen temas de interés para el diseño de políticas económicas y sociales a ser estudiadas, periódicas o eventualmente. 276 Metodología para la integración de bases de... Encuestas Continuas Encuesta de Hogares por Muestreo Encuesta de Presupuesto Familiar (Proyecto 2004) Encuesta de Atención a la Infancia (1998) Encuesta de Educación (Actual) Encuesta Social (Proyecto 2004) Encuesta de Informalidad Encuestas MICS Encuesta de Población y Familia Encuestas Periódicas/ Complementarias Encuesta de hogares por muestreo Es una encuesta periódica, que se realiza en el país de forma ininterrumpida desde el año 1967, y genera información sobre el tamaño de la Fuerza de Trabajo, proporcionan cifras relativas al desempleo y demás aspectos inherentes al mercado de trabajo venezolano, cubriendo las demandas de información, tanto a nivel nacional como internacional. La Encuesta de Hogares por Muestreo constituye la principal fuente de datos que alimenta el Sistema de Encuestas a Hogares, dado la información que registra y la periodicidad con que se recoge y procesa la data. Periodicidad Semestral Encuesta de Hogares Variables Investigadas Características de la vivienda Características del hogar Características de la familia Características Demográficas Características de la población económicamente activa Características de la población económicamente inactiva En el diseño y ejecución de la Encuesta, participan diferentes direcciones, dentro de la estructura organizativa del INE, a saber: ! Dirección de Diseños y Técnicas Estadísticas (DDTE) ! Dirección de Estadísticas Sociales y Ambientales (DESA) ! Direcciones Estadales (DE) ! Dirección de Operaciones de Encuestas (DOE) ! Dirección de Computación (DC) ! Oficina de Promoción y Servicios de Información (OPSI) Metodología para la integración de bases de... 277 A continuación se presenta un diagrama donde se contemplan las 8 grandes etapas que comprenden a la EHM y las direcciones que en cada una intervienen: 3. Aspectos Computacionales de la EHM. Actualmente en el INE, los procesos computacionales que requiere la Encuesta de Hogares por Muestreo para la generación de resultados, no se encuentran integrados en un solo sistema, son aplicaciones independientes para cada uno de los procesos, y son llevados a cabo por direcciones diferentes dependiendo de la etapa que se ejecute. En tal sentido el INE emprendió un Proyecto de Actualización y Modernización de la Plataforma Informática, cuya filosofía se basa en el rediseño y migración de todas las aplicaciones estadísticas y administrativas a una plataforma web. La idea fundamental consistió en la desconcentración de los procesos a las diferentes regiones del país, (iniciándose con el proceso de trascripción) a fin de garantizar la oportunidad de la información generada por las diferentes encuestas. Este proyecto no ha podido ser implementado por razones presupuestarias, debido a la gran inversión económica para la adquisición del Hardware y el desarrollo del Software. 3.1 Estrategia para la captura de datos 3.1.1 Centralización de los procesos. Una vez diligenciados los cuestionarios en cada una de las direcciones regionales, en donde semanalmente se ejecuta el levantamiento de la encuesta de hogares, y aplicado los controles de calidad respectivos a los mismos, son enviados vía valija a la oficina central con sede en Caracas, para continuar con los siguientes procesos en la obtención de resultados de la encuesta, cabe resaltar que el único proceso descentralizado de la encuesta, es el levantamiento. 278 Metodología para la integración de bases de... 3.1.2 Critica y codificación de la planillas La crítica y codificación son dos procesos que se realizan simultáneamente, previos a la trascripción, y esta orientado a examinar los datos contenidos en las planillas para detectar la mayor cantidad de inconsistencia, errores y omisiones que se puedan presentar, para luego corregirlas y depurar el dato. Este proceso permite afinar la información recabada en campo, sometiéndola a una revisión exhaustiva antes de que sea transcrita y procesada, lo cual, garantiza la minimización de errores en los procesos posteriores. Los cuestionarios de la EHM están diseñados utilizando varios tipos de preguntas, l respetando un orden de llenado. Así, tenemos preguntas abiertas, cerradas y de respuestas múltiples. La mayor parte del cuestionario corresponde a preguntas cerradas donde requieren respuestas estrictamente limitadas a las categorías establecidas en ellas. Estas categorías son identificadas a través de un código que debe ser trasladado al lugar correspondiente, lo que llamamos, preguntas precodificadas. Las preguntas que requieren codificación -en estos momentos se realiza en forma manual- son las relacionadas con los grupos de ocupación y rama de actividad económica, así como el código de entidades federales y países. Metodología para la integración de bases de... 3.1.3 279 Captura de datos 3.1.3.1 Diseño de estructura de datos El Modelo lógico empleado en el sistema de captura de la EHM es de entidadrelación. El sistema utiliza tres tablas de datos, una por cada unidad de análisis de la encuesta a saber: ! Tabla de Vivienda ! Tabla de Hogares ! Tabla de Personas En el semestre en curso se levanta una encuesta complementaria de educación, cuya captura se hace en conjunto con la de la EHM, generándose una tabla adicional para dicha encuesta. 280 Metodología para la integración de bases de... 3.1.3.2 Desarrollo de la aplicación El sistema de captura fue desarrollado en Visual Basic 6.0 con el manejador de base de datos Access 98 ó 2000. El sistema de captura de la EHM cuenta con el siguiente menú: Metodología para la integración de bases de... 281 ! Encuesta: Opcion que permite transcribir las planillas de las EHM y las complementarias cuando existan. ! Conversión de los datos: Transforma los tablas de Access a formato dbf para su posterior manejo. ! Consolidación de la información : consolida las bases de datos en una sola y genera estructuras requeridas para el procesamiento de los datos Pantalla de captura EHM 282 Metodología para la integración de bases de... Pantalla de captura, Encuesta Complementaria de Educación Metodología para la integración de bases de... 283 3.1.3.3 Requerimiento de hardware y software. Equipo mínimo para la instalación del sistema ! Pentium ó 586 ! 64 mgbyte de Ram ! Windows 95 en adelante ! Espacío en disco de 100 mgbyte ! Acces 98 0 2000 Recursos existentes para el proceso de trascripción ! 7 Pc. Conectados en red ! 1 Pc como servidor ! 7 transcriptoras por turno ! Un supervisor de transcripción 3.1.3.4 Justificación para el desarrollo del sistema de captura La EHM fue diseñada de modo tal que permite, incorporar encuestas complementarias en el momento que se estime conveniente para profundizar en temas de interés distintos a la fuerza de trabajo, pero vinculados a los hogares, de allí la necesidad de contar con un Sistema flexible que permita la inserción al módulo de transcripción de nuevas estructuras de captura de datos de esas encuestas. 3.2. Procedimientos para evaluar la consistencia de la información 3.2.1 Validación Se consideran dos niveles de validaciones: a. Validación en Línea: se realiza al momento de la entrada de datos y contempla: ! Rango de datos: Valores permitidos para cada una de las variables ! Consistencia y coherencia de los datos ! Unicidad de registros ! Normalización de registros b. Validación post-captura: Se realiza una vez consolidada la data, aplicándose el mismo plan de validación de la captura. Los errores encontradas son corregidos ejecutando un programa de corrección, repitiéndose el proceso hasta tanto quede depurada la base de datos. Esta validación se realiza por la limitación que tiene el sistema de captura de almacenar la información en una Base de Datos Unica durante el proceso de entrada. La información es almacenada en Bases de Datos locales y luego consolidada, mediante un proceso de respaldo y de carga de los datos. El software para la validación y corrección de errores post-captura, esta desarrollado en FoxPro 284 Metodología para la integración de bases de... El flujo de los datos una vez capturados es el siguiente: 3.3 Procesamiento de las bases de datos 3.3.1 Software utilizados y desarrollo de mismo. Los programas para el procesamiento de datos han sido desarrollados en FoxPro. El desarrollo de los programas está a cargo de la Unidad de Consolidación y Consistencia de Resultados. Dado que la EHM es una investigación estadística, donde intervienen factores externos, susceptibles de ser modificados en el transcurso de la misma, se requiere un sistema flexible, para su procesamiento que permita introducir cambios en la ejecución de los programas empleados tantas veces sea necesario hasta tanto no se evalúen los resultados y se consideren estadísticamente satisfactorios. 3.3.2 Cálculo de los factores de expansión: Una vez depurados los datos se ejecuta este proceso, por el cual se obtiene la estimación poblacional a partir de los resultados de la muestra. Es un proceso completamente automatizado con un eficiente tiempo de respuesta, donde se aplican fórmulas estadísticas para los cálculos y se asignan pesos a los registros de las tablas de personas. 3.3.3 Generación de Tabulados: El plan de tabulación de la EHM está desarrollado en FoxPro, ya que este software permite el procesamiento de la data, de uno o varios de tabulados simultáneamente; ya sea en forma mensual, trimestral o semestral, así como por grupos de entidades y en tiempos muy cortos, lo que permite entregar la información para su análisis oportunamente, también permite la salida de los tabulados en diferentes formatos: Excel, Lotus, ASCII, dbf, lo que le da flexibilidad al usuario para hacer sus propios cálculos en el análisis Metodología para la integración de bases de... 285 La Unidad de Consolidación y Consistencia de Resultados, brinda apoyo técnico al resto de los programas de la Dirección de Estadísticas, supliendo la necesidad de información de cada una de las encuestas del Sistema Encuestas a Hogares. Para tales demandas se procesa en SPSS, a través de ese sistema integrado se responde las solicitudes especiales de usuales externos. 3.4. Imputación de datos La Encuesta de Hogares por Muestreo, no realiza imputación de datos para la generación de los indicadores de la fuerza de trabajo. Existen variables en la encuesta, donde no esta permitida la no respuesta, como los son las variables utilizadas para los cálculos de los factores de expansión (sexo y edad) y así como las preguntas que conforman el código sumario para la caracterización de las personas dentro o fuera de la Fuerza de Trabajo. Existe para cada tabulado una categoría llamada “No declarado” donde se totaliza el número de personas que no respondieron las variables involucradas en el tabulado. Los usuarios internos de las bases de datos de la EHM, como por ejemplo, el programa Indicadores de Condiciones de Vida desarrollan algoritmos para imputación de valores de la variable ingresos, se utiliza técnicas hot- deck y el sistema integrado STATA. 3.5. Integración de variables Para el procesamiento de los tabulados de la EHM se incorporan a la base de datos variables generadas por algoritmos, como lo son: el peso de cada persona, situación de la personas en la fuerza de trabajo, informalidad, ingresos del hogar y otras más, quedando en ellas de forma permanente para uso y manipulación de los usuarios de las bases, anexándolas y describiéndoles en el diccionario de las bases de datos. 3.6. Integración de archivos de datos Los archivos de la EHM que contienen la información de Vivienda, Hogares y Personas son generadas con una periodicidad semestral en formato dbf, por lo que pueden ser leídas y procesadas por los paquetes estadísticos, sin necesidad de ninguna transformación. 286 Metodología para la integración de bases de... 3.7. Políticas Institucionales de acceso a la base de datos El INE, adelanta un proyecto de Políticas de Difusión de Información donde se prevé la comercialización electrónica de los datos. Mientras esto ocurre, los productos derivados de la encuesta se comercializan de manera directa, a través de la Oficina de Promoción y Atención al Usuario. Existe un calendario preestablecido según la periodicidad, de difusión de la información, la cual puede ser: mensual, trimestral o semestral, estando disponibles los resultados mes y medio luego de culminado el mes de referencia. Los productos comercializados hasta los momentos son: ! Bases de datos Semestrales de la Encuesta de Hogares ! Libro 30 años de la Encuesta de Hogares por Muestreo ! CD ROOm 30 años de la Encuesta de Hogares por muestreo ! Libro Indicadores de la Fuerza de Trabajo Semestral ! Informes comparativos : Principales Indicadores de la Fuerza de Trabajo (mensual, trimestral y semestral) ! 108 Tabulados detallados de la Encuesta de Hogares por Muestro en formato impreso o electrónico. Actualmente contamos con la pagina web institucional, cuya dirección de acceso es: www.ine.gov.ve , donde se encuentran para consulta los Principales Indicadores de la Fuerza de Trabajo según la periodicidad disponible. Sin embargo la información producida por la encuesta no se limita a la presentada en sus publicaciones, ya que el usuario puede solicitar procesamientos especiales para la obtención de información adicional.