PROCESAMIENTO DE LOS CENSOS DE POBLACION Y VIVIENDA

Anuncio
 























PROCESAMIENTO DE LOS CENSOS DE POBLACION Y VIVIENDA
EN EL PERU
INTRODUCCION
Históricamente, los Censos han generado desafíos tecnológicos para las Instituciones
de Estadística. es así que en el Perú, la tecnología aplicada en el procesamiento de la
información de los Censos de Población y Vivienda, de la década de los 80's y 90's
correspondió a grandes equipos de procesamiento, Mínicomputadores, redes con
estaciones de trabajo no inteligente para la entrada de datos, hasta la utilización de
redes LAN de PC'S, con un servidor central. También para estas dos últimas décadas,
se utilizó el IMPS, Software Integrado de uso especializado para el procesamiento de la
boleta censal.
Siendo los Censos, investigaciones estadísticas de mucha importancia, donde la
calidad de los datos que se obtengan y la oportunidad de la disponibilidad de los
mismos son factores críticos, el uso de la tecnología avanzada es de gran ayuda para
su planificación y control, mejorar la calidad de los datos, acelerar su captura y
procesamiento, así como la diversificación de medios para el acceso oportuno de los
resultados censales.
En la actualidad. no solamente habíamos de tecnología de computación para el
procesamiento de la boleta censal, sino de la aplicación de la tecnología de información
en todas las fases del desarrollo de un censo, desde el planeamiento hasta la difusión
de la información a los usuarios finales. Hoy en día, existen herramientas de alto
rendimiento, como son la utilización de imágenes satélites, las redes, las
comunicaciones, el uso de Internet, el reconocimiento óptico de escritura, la cartografía
digital y los Sistemas de Información Geográfico.
1. PLANEAMIENTO Y ESTRATEGIAS
Las condicionantes mencionadas y los lineamientos generales establecidos por la Alta
Dirección, como son el procesamiento descentralizado de la información, y la
innovación de la tecnología informática existente, son el marco para las estrategias del
procesamiento de la información censal, estas son:
•
Implementación de “Unidades de Procesamiento" en Oficinas Departamentales de
Estadística e Informática, para la ejecución descentralizada de los procesos,
basado en redes locales, conectividad a nivel nacional, y administración central y
distribuida del soporte técnico.
•
Desarrollar Sistemas de Información, cuyo ciclo de vida continúe después de los
Censos. Hacer uso de tecnologías orientadas al mejoramiento de los procesos internos
del INEI y para facilitar la integración de la información institucional con la información
de los sectores del gobierno.
• Entrada de datos masivos haciendo uso de nuevas metodologías y técnicas.
•
Incorporar la tecnología de Sistemas de Información Geográfica en las
actividades de ejecución de los censos.
• Facilitar el acceso a la información a usuarios internos y externos.
El enfoque del Procesamiento de los Censos de esta década, tiene dos ángulos
importantes: el desarrollo de los Sistemas de información y el mejoramiento de la
infraestructura de hardware y comunicaciones.
-2-
El desarrollo de sistemas está orientado a la generación de Sistemas de Información y
de bases de datos que permanezcan activos institucionalmente, tal como los Directorios
Nacionales de Vivienda y de Centros Poblados, el desarrollo de Sistemas de
Información que faciliten la Administración de los Procesos Censales, del mejoramiento
del Sistema de Información Geográfica, el desarrollo de un Sistema de Codificación con
un mínimo de procesos manuales, la incorporación de Controles de Calidad
automatizados en cada una de las fases del procesamiento y del Registro de errores,
inconsistencias y correcciones a la información, así como las debilidades detectados en
los procesos para permitir una evaluación final del procesamiento.
La infraestructura de hardware, redes y comunicaciones en la que funcionen los
sistemas se basarán en lo disponible a la fecha, en el mejoramiento de las
comunicaciones y la implementación del soporte técnico centralizado y distribuido a
nivel nacional y en la intensificación del uso de la tecnología de Internet.
La metodología de trabajo a utilizar tiene como principal fuente la experiencia obtenida
después de los censos de los 90's y en el procesamiento de encuestas,
caracterizándose ésta por el procesamiento descentralizado, procedimientos para
codificación automática y/o asistida por computadora, control de calidad automatizado y
supervisión entre otros que puedan adecuarse al procesamiento de datos censales.
Con el procesamiento descentralizado a nivel nacional que actualmente está en
ejecución en las sedes departamentales, se está haciendo uso de los recursos locales
disponibles y consolidando la transferencia de metodologías de trabajo y tecnologías de
información utilizados en la sede central. En cada sede, se administra la producción de
datos, generándose una base de datos en cada departamento, las que se consolidan
en la Sede Central.
2. ADMINISTRACION DE PROCESOS CENSALES
Por los volúmenes de información que maneja el censo es necesario disponer de
mecanismos de control que permitan un inventario y seguimiento del flujo de los
cuestionarios censales en todas las etapas del procesamiento.
En los censos nacionales 1993, se implementaron procedimientos que aseguraban el
registro de la recepción de las cédulas y su distribución a digitación, lo que facilitó el
chequeo de cobertura geográfica y censal. Para ello se utilizó el módulo CENTRACK
del software IMPS, complementado con una aplicación desarrollada institucionalmente,
los cuales cumplieron sus objetivos en forma limitada. Este procedimiento fue mejorado
en los proyectos posteriores como el III Censo Agropecuario (III CENAGRO), la
Encuesta Nacional de Hogares (ENAHO) y en la Actualización Cartográfica y de
Directorios 1999 (Pre-Censo 1999), dando lugar a una nueva versión del sistema, el
cual considera la definición de una Unidad Básica de Procesamiento y sus atributos de
control como el área de empadronamiento, número de viviendas, número de hogares,
número de personas y módulos del cuestionario.
En el III CENAGRO la unidad básica de procesamiento fue el Sector de
Empadronamiento Agropecuario (SEA). El sistema permitía ver el flujo de cada una de
las SEA’s, lo que aseguró la completitud de las SEA’s, y conocer la producción diaria
por cada fase.
-3-
En la ENAHO, permite asegurar la cobertura en el nivel de vivienda, hogar, miembros
e incluso capítulos que le corresponde a cada miembro del hogar de acuerdo a sus
características. Incluye la administración de los recursos humanos que intervienen en el
procesamiento de datos, medir las actividades dé operación de campo, como son los
tiempos utilizados y resultados de ejecución de la entrevista, lo que asegura la
cobertura de la información y permite tomar acciones correctivas en las actividades de
operación de campo.
Para el Pre-Censo 1999, el control ha sido hasta el nivel de manzana para el cual se
ha registrado el número de tipos de registro (vivienda, establecimiento y otros), además
ha permitido controlar las actividades administrativas durante el procesamiento de
datos, así como la recepción y distribución de cargas de trabajo por cada fase del
procesamiento.
Para los censos del 2000, se considera la administración de todas las actividades del
procesamiento de datos, esto es llevar el registro y seguimiento de los procesos que
permitan asegurar la completitud en el procesamiento de los datos.
3. CAPTURA DE DATOS
El proceso de la entrada de datos en los censos de población y vivienda es uno de las
actividades de mayores proporciones al que se enfrentan las entidades estadísticas. En
el Perú antes del año 1961, los censos se procesaban manualmente, en los años 1961
y 1972, se utilizaron máquinas lectoras de tarjetas, posteriormente en los censos de
1981 se utilizo terminales de digitación (Inforex) y minicomputadoras para el ingreso de
datos y el año 1993 gracias al auge de las computadoras, se realizó mediante la
digitación usando redes de microcomputadoras. A la fecha y en todos los censos, el
ingreso de datos se ha realizado en forma centralizada.
Para el Censo del 2000 se han planteado tres alternativas para el ingreso de la
información, bajo los parámetros de tiempo de procesamiento y calidad de la
información.
La primera alterativa está referida al procesamiento descentralizado en ciudades
estratégicas del país mediante digitación, basada principalmente en el aprovechamiento
de la infraestructura instalada en las oficinas departamentales del INEI y la experiencia
adquirida por el personal de las oficinas departamentales con el procesamiento de
datos de las encuestas de hogares y del Pre-censo. 1999.
La segunda alternativa se refiere al ingreso de datos por digitación y en forma
centralizada, basada en la experiencia que tiene el personal de la institución en el
desarrollo de esta metodología durante los censos de 1993.
La tercera alterativa propone el uso de la lectura por escaner y reconocimiento de
caracteres, Está tecnología nos permitirá mejorar la calidad de la información, menores
tiempos de proceso, captación de otros datos alfanuméricos y reducción de costos.
Para las tres alternativas se prevé el ingreso de datos para las preguntas abiertas en
forma directa, es decir sin previa codificación, además también se ha contemplado el
ingreso de la dirección de la vivienda y el registro del jefe del hogar principal, los
-4-
mismos que serán ejecutados en una segunda etapa por razones de prioridad al resto
de variables de la cédula censal.
A la fecha se están desarrollando los procedimientos para la prueba experimental, los
cuales nos darán los parámetros de evaluación para la toma de decisiones en lo que
respecta a la tecnología a utilizar.
4. CODIFICACION
Consiste en la asignación de códigos a las respuestas de preguntas abiertas del
cuestionario, entre las principales se consideran las profesiones, ocupación y
actividades económicas.
En los censos del año 1993, se utilizó la codificación tradicional, que consistió en la
asignación manual de los códigos al cuestionario antes del inicio de la digitación. Esta
actividad consume gran cantidad de tiempo y recursos, y retardaba la obtención de
resultados, y genera márgenes de arror no cuantificados. Esta problemática exigió el
desarrollo de procedimientos y sistemas que permitieran el mejoramiento de esta
actividad.
Es así, que en el procesamiento de datos de la Encuesta Nacional de Hogares, se
implementó inicialmente la Codificación Asistida por Computadora, basada en la
digitación de los literales de las respuestas de las preguntas abiertas de los
Cuestionarios, codificados mediante un programa que mostraba los textos previamente
digitados para la asignación del código haciendo uso de tablas en línea. Este'
procedimiento que mejorado con la generación de Tablas Dinámicas, las que
contienen inicialmente los códigos y descripciones de uso internacional y van
retroalimentándose en forma permanente con otras descripciones propias de las
diferentes regiones del país.
Las tablas dinámicas, dieron lugar al Sistema de Codificación Automática, al igual
que en el caso anterior requiere de la digitación de las descripciones, luego pasan por
in proceso de comparación por igualdad o semejanza y a continuación por un proceso
de comparación con un diccionario de palabras claves, esta forma de trabajo se viene
realizando desde 1997 a la fecha y se ha logrado una codificación del 65%. El resto de
datos que quedan sin codificar pasan por el proceso de Codificación Asistida por
Computadora.
Para los Censo del 2000, la actividad utilizará las dos modalidades, la segunda será
mejorada en sus algoritmos considerando la codificación automática por ocurrencias o
frecuencias, con lo cual se espera disminuir el porcentaje de codificación asistida por
computadora. Para la implemertación de esta forma de trabajo actualmente se están
mejorando las tablas dinámicas, procedimientos y algoritmos que permitan obtener
mayor porcentaje de codificación automática.
5. CONSISTENCIA
Es la etapa que permite analizar (a coherencia de la información obtenida por la captura
de los datos censales, sea esta por digitación o por reconocimiento de caracteres. Este
análisis de la información conlleva a una corrección de los mismos, siendo finalmente el
objetivo garantizar la integridad y calidad de la información.
-5-
La consistencia de la información de los Censos de Población y Vivienda, por el gran
volumen de información que se maneja, obliga a utilizar métodos cada vez más
automáticos con el objeto de obtener resultados en menores tiempo de proceso.
Básicamente los procedimientos para la consistencia de la información no han variado
al respecto de los censos anteriores. Haciendo referencia al último censo de población
y vivienda del Perú, la consistencia de la información se ha realizado en tres
sub-etapas, siendo la primera, la verificación de la completitud de la información, luego
la Consistencia de la integridad de la estructura de los registros físicos y la última
consistencia consistió en el análisis de la información y corrección automática de los
mismos, usando para ello, reglas lógicas preparadas por los especialistas estadísticos y
demógrafos.
Para el censo de población y vivienda del 2000, se tiene proyectado realizar la
consistencia de los datos en dos etapas, siendo la primera etapa en forma
descentralizada, para el caso que se decida el procesamiento del censo
descentralizado, en esta etapa se realizará la verificación y corrección de la completitud
de la información hasta niveles mínimos geográficos que se definan, además del
chequeo de la integridad de la estructura de los registros. La segunda etapa se
realizará en forma centralizada la cuál comprenderá la verificación de la coherencia de
los datos y corrección automática de los mismos, usando para ello, reglas lógicas
preparadas por los especialistas estadísticos y demógrafos y haciendo uso de tablas
dinámicas preparadas previamente de acuerdo a la realidad de cada departamento.
6. EXPLOTACION DE DATOS
En los censos del año 1993 y por primera vez se logró poner a disposición de los
usuarios la información censal en un tiempo récord de seis meses, asegurando además
la existencia de una base datos consistenciada, geocodificada e integrada a otras
informaciones del INEL Entre otros principales productos está la emisión de cuadros
estadísticos básicos, generación de bases de datos para su difusión, se generó el
Marco Muestral Maestro, el Mapa de Pobreza según Necesidades Básicas
Insatisfechas. Estratificación Socio Económica de Hogares, Mapas Temáticos diversos
y archivos de datos resumidos. Así mismo se logró introducir la tecnología de Internet
para la difusión de la información.
Con la experiencia obtenida, el mejor conocimiento de las demandas de información de
los usuarios y las bondades tecnológicas disponibles se facilitará la implementación de
bases de datos en línea, bancos de cuadros estadísticos, aplicaciones SIG utilizando la
información censal en internet, mapas temáticos por Internet, sistemas de recuperación
de microdatos, bases de datos multidisciplinarias con los censos de 1993 y censos
2000
La tecnología de información a utilizarse serán las proporcionadas por Internet,
Sistemas de Información Geográfica y manejadores de bases de datos como Win R+,
SQL Server, Zon- Plan, Edu-Plan, etc.
7. BASES DE DATOS CARTOGRAFICAS
-6-
El INEI requiere bases de datos cartográficas correspondientes a la división política
administrativa del país hasta el nivel de distritos, los planos urbanos de las ciudades
capitales de departamento, provincias y distritos, así como los mapas distritales donde
se localizan los centros poblados. Con los Censos del año 1993 se generaron los dos
primeros, los cuales deben ser actualizados en base a la Actualización Cartográfica y
los Directorios de Viviendas levantados en el año 1999.
La cartografía digital actual, tiene como documentos fuentes los mapas y planos del
Instituto Geográfico Nacional y los mapas y planos distritales, provinciales y
departamentales de los censos y encuestas. La información gráfica es transferida a
medios informáticos por digitalización a través de tablero o escaneo del documento
fuente, para luego asignarles sus atributos cartográficos y censales, asegurando de
este modo el enlace con toda la información estadística generada en el INEI.
Las bases de datos cartográficas, elemento básico del Sistema de Información
Geográfica, nos permitirá por “primera vez" para los censos del 2000, aunque
parcialmente, utilizar esta tecnología en la preparación de la operación de campo,
particularmente en la generación de áreas de empadronamiento urbano.
La generación de las bases de datos correspondientes a Centros Poblados rurales se
prevén generarse en un trabajo en conjunto con el Ministerios de Educación y de Salud,
que serán utilizados para el análisis espacial de la información y presentación de
resultados.
*****
Descargar