metodología para la integración de bases de datos de encuestas de

Anuncio
273
METODOLOGÍA PARA LA INTEGRACIÓN DE BASES
DE DATOS DE ENCUESTAS DE HOGARES
INSTITUTO NACIONAL DE ESTADÍSTICA (INE)
VENEZUELA
274
Metodología para la integración de bases de...
ÍNDICE
Página
1.
Aspectos Institucionales....................................................................................................... 275
2.
Aspectos Generales.............................................................................................................. 275
Encuesta de hogares por muestreo ...................................................................................... 276
3.
Aspectos Computacionales de la EHM................................................................................ 277
3.1 Estrategia para la captura de datos .............................................................................. 277
3.1.1 Centralización de los procesos ......................................................................... 277
3.1.2 Crítica y codificación de la planilla.................................................................. 278
3.1.3 Captura de datos ............................................................................................... 279
3.1.3.1 Diseño de estructura de datos............................................................. 279
3.1.3.2 Desarrollo de la aplicación ................................................................. 280
3.1.3.3 Requerimiento de hardware y software.............................................. 283
3.1.3.4 Justificación para el desarrollo del sistema de captura ...................... 283
3.2 Procedimientos para evaluar la consistencia de la información.................................. 283
3.2.1 Validación......................................................................................................... 283
3.3 Procesamiento de las bases de datos ........................................................................... 284
3.3.1 Software utilizados y desarrollo del mismo ..................................................... 284
3.3.2 Cálculo de los factores de expansión ............................................................... 284
3.3.3 Generación de tabulados................................................................................... 284
3.4 Imputación de datos..................................................................................................... 285
3.5 Integración de variables............................................................................................... 285
3.6 Integración de archivos de datos ................................................................................. 285
3.7 Políticas institucionales de acceso a la base de datos ................................................. 286
Metodología para la integración de bases de...
1.
275
Aspectos Institucionales
La Dirección de Estadísticas Sociales y Ambientales, dentro del INE, tiene como misión, garantizar que
se efectúen los diseños de investigaciones estadísticas en el área social, demográfica y ambiental, así
como, las proyecciones, predicciones y análisis estadístico que corresponda al INE y velar porque los
diseños de las investigaciones que se realizan en otros órganos del Sistema Estadístico Nacional se
efectúe en concordancia con el Plan Estadístico de la nación.
El Programa Sistema de Encuestas a Hogares, adscrito a la DESDA , es el encargado de velar por la
armonización conceptual y metodológica de las Encuestas a Hogares del Sistema Estadístico Nacional,
mediante la acción coordinada con las distintas instancias implicadas; en este programa se ubica la
Unidad de Consolidación y Consistencia de Resultados, encargada de garantizar la ejecución de la fase
relativas a la integración, consolidación y procesamiento de los datos de cada una de las encuestas del
Sistema.
Instituto Nacional de Estadística
Dirección de Estadísticas Sociales Demográficas y Ambientales
Programa Sistema de Encuestas a Hogares
Unidad de consolidación y Consistencia de
Resultados
2.
Aspectos Generales
Las Encuestas que integran actualmente el Programa de Sistemas de Encuestas a Hogares las podemos
clasificar en:
! Encuestas Continuas: Encuestas que manejan variables susceptibles de modificaciones
significativas en corto plazo o variables coyunturales.
! Encuestas no periódicas y complementarias: Que incluyen temas de interés para el diseño de
políticas económicas y sociales a ser estudiadas, periódicas o eventualmente.
276
Metodología para la integración de bases de...
Encuestas Continuas
Encuesta de Hogares por Muestreo
Encuesta de Presupuesto Familiar (Proyecto 2004)
Encuesta de Atención a la Infancia (1998)
Encuesta de Educación (Actual)
Encuesta Social (Proyecto 2004)
Encuesta de Informalidad
Encuestas MICS
Encuesta de Población y Familia
Encuestas Periódicas/
Complementarias
Encuesta de hogares por muestreo
Es una encuesta periódica, que se realiza en el país de forma ininterrumpida desde el año 1967, y
genera información sobre el tamaño de la Fuerza de Trabajo, proporcionan cifras relativas al
desempleo y demás aspectos inherentes al mercado de trabajo venezolano, cubriendo las demandas
de información, tanto a nivel nacional como internacional.
La Encuesta de Hogares por Muestreo constituye la principal fuente de datos que alimenta el Sistema
de Encuestas a Hogares, dado la información que registra y la periodicidad con que se recoge y
procesa la data.
Periodicidad
Semestral
Encuesta de Hogares
Variables
Investigadas
Características de la vivienda
Características del hogar
Características de la familia
Características Demográficas
Características de la población
económicamente activa
Características de la población
económicamente inactiva
En el diseño y ejecución de la Encuesta, participan diferentes direcciones, dentro de la estructura
organizativa del INE, a saber:
! Dirección de Diseños y Técnicas Estadísticas (DDTE)
! Dirección de Estadísticas Sociales y Ambientales (DESA)
! Direcciones Estadales (DE)
! Dirección de Operaciones de Encuestas (DOE)
! Dirección de Computación (DC)
! Oficina de Promoción y Servicios de Información (OPSI)
Metodología para la integración de bases de...
277
A continuación se presenta un diagrama donde se contemplan las 8 grandes etapas que comprenden a la
EHM y las direcciones que en cada una intervienen:
3.
Aspectos Computacionales de la EHM.
Actualmente en el INE, los procesos computacionales que requiere la Encuesta de Hogares por Muestreo
para la generación de resultados, no se encuentran integrados en un solo sistema, son aplicaciones
independientes para cada uno de los procesos, y son llevados a cabo por direcciones diferentes
dependiendo de la etapa que se ejecute.
En tal sentido el INE emprendió un Proyecto de Actualización y Modernización de la Plataforma
Informática, cuya filosofía se basa en el rediseño y migración de todas las aplicaciones estadísticas y
administrativas a una plataforma web. La idea fundamental consistió en la desconcentración de los
procesos a las diferentes regiones del país, (iniciándose con el proceso de trascripción) a fin de garantizar
la oportunidad de la información generada por las diferentes encuestas.
Este proyecto no ha podido ser implementado por razones presupuestarias, debido a la gran inversión
económica para la adquisición del Hardware y el desarrollo del Software.
3.1 Estrategia para la captura de datos
3.1.1
Centralización de los procesos.
Una vez diligenciados los cuestionarios en cada una de las direcciones regionales, en
donde semanalmente se ejecuta el levantamiento de la encuesta de hogares, y aplicado
los controles de calidad respectivos a los mismos, son enviados vía valija a la oficina
central con sede en Caracas, para continuar con los siguientes procesos en la obtención
de resultados de la encuesta, cabe resaltar que el único proceso descentralizado de la
encuesta, es el levantamiento.
278
Metodología para la integración de bases de...
3.1.2
Critica y codificación de la planillas
La crítica y codificación son dos procesos que se realizan simultáneamente, previos a la
trascripción, y esta orientado a examinar los datos contenidos en las planillas para
detectar la mayor cantidad de inconsistencia, errores y omisiones que se puedan
presentar, para luego corregirlas y depurar el dato. Este proceso permite afinar la
información recabada en campo, sometiéndola a una revisión exhaustiva antes de que sea
transcrita y procesada, lo cual, garantiza la minimización de errores en los procesos
posteriores.
Los cuestionarios de la EHM están diseñados utilizando varios tipos de preguntas, l
respetando un orden de llenado. Así, tenemos preguntas abiertas, cerradas y de
respuestas múltiples. La mayor parte del cuestionario corresponde a preguntas cerradas
donde requieren respuestas estrictamente limitadas a las categorías establecidas en ellas.
Estas categorías son identificadas a través de un código que debe ser trasladado al lugar
correspondiente, lo que llamamos, preguntas precodificadas.
Las preguntas que requieren codificación -en estos momentos se realiza en forma
manual- son las relacionadas con los grupos de ocupación y rama de actividad
económica, así como el código de entidades federales y países.
Metodología para la integración de bases de...
3.1.3
279
Captura de datos
3.1.3.1 Diseño de estructura de datos
El Modelo lógico empleado en el sistema de captura de la EHM es de entidadrelación.
El sistema utiliza tres tablas de datos, una por cada unidad de análisis de la encuesta
a saber:
! Tabla de Vivienda
! Tabla de Hogares
! Tabla de Personas
En el semestre en curso se levanta una encuesta complementaria de educación, cuya captura
se hace en conjunto con la de la EHM, generándose una tabla adicional para dicha encuesta.
280
Metodología para la integración de bases de...
3.1.3.2 Desarrollo de la aplicación
El sistema de captura fue desarrollado en Visual Basic 6.0 con el manejador de base
de datos Access 98 ó 2000.
El sistema de captura de la EHM cuenta con el siguiente menú:
Metodología para la integración de bases de...
281
! Encuesta: Opcion que permite transcribir las planillas de las EHM y las
complementarias cuando existan.
! Conversión de los datos: Transforma los tablas de Access a formato dbf para
su posterior manejo.
! Consolidación de la información : consolida las bases de datos en una sola y
genera estructuras requeridas para el procesamiento de los datos
Pantalla de captura EHM
282
Metodología para la integración de bases de...
Pantalla de captura, Encuesta Complementaria de Educación
Metodología para la integración de bases de...
283
3.1.3.3 Requerimiento de hardware y software.
Equipo mínimo para la instalación del sistema
! Pentium ó 586
! 64 mgbyte de Ram
! Windows 95 en adelante
! Espacío en disco de 100 mgbyte
! Acces 98 0 2000
Recursos existentes para el proceso de trascripción
! 7 Pc. Conectados en red
! 1 Pc como servidor
! 7 transcriptoras por turno
! Un supervisor de transcripción
3.1.3.4 Justificación para el desarrollo del sistema de captura
La EHM fue diseñada de modo tal que permite, incorporar encuestas
complementarias en el momento que se estime conveniente para profundizar en
temas de interés distintos a la fuerza de trabajo, pero vinculados a los hogares, de allí
la necesidad de contar con un Sistema flexible que permita la inserción al módulo de
transcripción de nuevas estructuras de captura de datos de esas encuestas.
3.2. Procedimientos para evaluar la consistencia de la información
3.2.1
Validación
Se consideran dos niveles de validaciones:
a. Validación en Línea: se realiza al momento de la entrada de datos y contempla:
! Rango de datos: Valores permitidos para cada una de las variables
! Consistencia y coherencia de los datos
! Unicidad de registros
! Normalización de registros
b. Validación post-captura: Se realiza una vez consolidada la data, aplicándose el
mismo plan de validación de la captura. Los errores encontradas son corregidos
ejecutando un programa de corrección, repitiéndose el proceso hasta tanto quede
depurada la base de datos. Esta validación se realiza por la limitación que tiene el
sistema de captura de almacenar la información en una Base de Datos Unica durante
el proceso de entrada. La información es almacenada en Bases de Datos locales y
luego consolidada, mediante un proceso de respaldo y de carga de los datos.
El software para la validación y corrección
de errores post-captura, esta desarrollado en
FoxPro
284
Metodología para la integración de bases de...
El flujo de los datos una vez capturados es el siguiente:
3.3 Procesamiento de las bases de datos
3.3.1
Software utilizados y desarrollo de mismo.
Los programas para el procesamiento de datos han sido desarrollados en FoxPro. El
desarrollo de los programas está a cargo de la Unidad de Consolidación y Consistencia
de Resultados. Dado que la EHM es una investigación estadística, donde intervienen
factores externos, susceptibles de ser modificados en el transcurso de la misma, se
requiere un sistema flexible, para su procesamiento que permita introducir cambios en
la ejecución de los programas empleados tantas veces sea necesario hasta tanto no se
evalúen los resultados y se consideren estadísticamente satisfactorios.
3.3.2
Cálculo de los factores de expansión: Una vez depurados los datos se ejecuta este
proceso, por el cual se obtiene la estimación poblacional a partir de los resultados de la
muestra. Es un proceso completamente automatizado con un eficiente tiempo de
respuesta, donde se aplican fórmulas estadísticas para los cálculos y se asignan pesos a
los registros de las tablas de personas.
3.3.3
Generación de Tabulados: El plan de tabulación de la EHM está desarrollado en
FoxPro, ya que este software permite el procesamiento de la data, de uno o varios de
tabulados simultáneamente; ya sea en forma mensual, trimestral o semestral, así como
por grupos de entidades y en tiempos muy cortos, lo que permite entregar la información
para su análisis oportunamente, también permite la salida de los tabulados en diferentes
formatos: Excel, Lotus, ASCII, dbf, lo que le da flexibilidad al usuario para hacer sus
propios cálculos en el análisis
Metodología para la integración de bases de...
285
La Unidad de Consolidación y Consistencia de Resultados, brinda apoyo técnico al resto
de los programas de la Dirección de Estadísticas, supliendo la necesidad de información
de cada una de las encuestas del Sistema Encuestas a Hogares. Para tales demandas se
procesa en SPSS, a través de ese sistema integrado se responde las solicitudes especiales
de usuales externos.
3.4. Imputación de datos
La Encuesta de Hogares por Muestreo, no realiza imputación de datos para la generación de
los indicadores de la fuerza de trabajo.
Existen variables en la encuesta, donde no esta permitida la no respuesta, como los son las
variables utilizadas para los cálculos de los factores de expansión (sexo y edad) y así como
las preguntas que conforman el código sumario para la caracterización de las personas
dentro o fuera de la Fuerza de Trabajo.
Existe para cada tabulado una categoría llamada “No declarado” donde se totaliza el
número de personas que no respondieron las variables involucradas en el tabulado.
Los usuarios internos de las bases de datos de la EHM, como por ejemplo, el programa
Indicadores de Condiciones de Vida desarrollan algoritmos para imputación de valores de
la variable ingresos, se utiliza técnicas hot- deck y el sistema integrado STATA.
3.5. Integración de variables
Para el procesamiento de los tabulados de la EHM se incorporan a la base de datos
variables generadas por algoritmos, como lo son: el peso de cada persona, situación de la
personas en la fuerza de trabajo, informalidad, ingresos del hogar y otras más, quedando en
ellas de forma permanente para uso y manipulación de los usuarios de las bases,
anexándolas y describiéndoles en el diccionario de las bases de datos.
3.6. Integración de archivos de datos
Los archivos de la EHM que contienen la información de Vivienda, Hogares y Personas son
generadas con una periodicidad semestral en formato dbf, por lo que pueden ser leídas y
procesadas por los paquetes estadísticos, sin necesidad de ninguna transformación.
286
Metodología para la integración de bases de...
3.7. Políticas Institucionales de acceso a la base de datos
El INE, adelanta un proyecto de Políticas de Difusión de Información donde se prevé la
comercialización electrónica de los datos. Mientras esto ocurre, los productos derivados de
la encuesta se comercializan de manera directa, a través de la Oficina de Promoción y
Atención al Usuario.
Existe un calendario preestablecido según la periodicidad, de difusión de la información, la
cual puede ser: mensual, trimestral o semestral, estando disponibles los resultados mes y
medio luego de culminado el mes de referencia.
Los productos comercializados hasta los momentos son:
! Bases de datos Semestrales de la Encuesta de Hogares
! Libro 30 años de la Encuesta de Hogares por Muestreo
! CD ROOm 30 años de la Encuesta de Hogares por muestreo
! Libro Indicadores de la Fuerza de Trabajo Semestral
! Informes comparativos : Principales Indicadores de la Fuerza de Trabajo (mensual,
trimestral y semestral)
! 108 Tabulados detallados de la Encuesta de Hogares por Muestro en formato
impreso o electrónico.
Actualmente contamos con la pagina web institucional, cuya dirección de acceso es:
www.ine.gov.ve , donde se encuentran para consulta los Principales Indicadores de la
Fuerza de Trabajo según la periodicidad disponible.
Sin embargo la información producida por la encuesta no se limita a la presentada en sus
publicaciones, ya que el usuario puede solicitar procesamientos especiales para la
obtención de información adicional.
Descargar