PROCESAMIENTO DE LOS CENSOS DE POBLACION Y VIVIENDA EN EL PERU INTRODUCCION Históricamente, los Censos han generado desafíos tecnológicos para las Instituciones de Estadística. es así que en el Perú, la tecnología aplicada en el procesamiento de la información de los Censos de Población y Vivienda, de la década de los 80's y 90's correspondió a grandes equipos de procesamiento, Mínicomputadores, redes con estaciones de trabajo no inteligente para la entrada de datos, hasta la utilización de redes LAN de PC'S, con un servidor central. También para estas dos últimas décadas, se utilizó el IMPS, Software Integrado de uso especializado para el procesamiento de la boleta censal. Siendo los Censos, investigaciones estadísticas de mucha importancia, donde la calidad de los datos que se obtengan y la oportunidad de la disponibilidad de los mismos son factores críticos, el uso de la tecnología avanzada es de gran ayuda para su planificación y control, mejorar la calidad de los datos, acelerar su captura y procesamiento, así como la diversificación de medios para el acceso oportuno de los resultados censales. En la actualidad. no solamente habíamos de tecnología de computación para el procesamiento de la boleta censal, sino de la aplicación de la tecnología de información en todas las fases del desarrollo de un censo, desde el planeamiento hasta la difusión de la información a los usuarios finales. Hoy en día, existen herramientas de alto rendimiento, como son la utilización de imágenes satélites, las redes, las comunicaciones, el uso de Internet, el reconocimiento óptico de escritura, la cartografía digital y los Sistemas de Información Geográfico. 1. PLANEAMIENTO Y ESTRATEGIAS Las condicionantes mencionadas y los lineamientos generales establecidos por la Alta Dirección, como son el procesamiento descentralizado de la información, y la innovación de la tecnología informática existente, son el marco para las estrategias del procesamiento de la información censal, estas son: • Implementación de “Unidades de Procesamiento" en Oficinas Departamentales de Estadística e Informática, para la ejecución descentralizada de los procesos, basado en redes locales, conectividad a nivel nacional, y administración central y distribuida del soporte técnico. • Desarrollar Sistemas de Información, cuyo ciclo de vida continúe después de los Censos. Hacer uso de tecnologías orientadas al mejoramiento de los procesos internos del INEI y para facilitar la integración de la información institucional con la información de los sectores del gobierno. • Entrada de datos masivos haciendo uso de nuevas metodologías y técnicas. • Incorporar la tecnología de Sistemas de Información Geográfica en las actividades de ejecución de los censos. • Facilitar el acceso a la información a usuarios internos y externos. El enfoque del Procesamiento de los Censos de esta década, tiene dos ángulos importantes: el desarrollo de los Sistemas de información y el mejoramiento de la infraestructura de hardware y comunicaciones. -2- El desarrollo de sistemas está orientado a la generación de Sistemas de Información y de bases de datos que permanezcan activos institucionalmente, tal como los Directorios Nacionales de Vivienda y de Centros Poblados, el desarrollo de Sistemas de Información que faciliten la Administración de los Procesos Censales, del mejoramiento del Sistema de Información Geográfica, el desarrollo de un Sistema de Codificación con un mínimo de procesos manuales, la incorporación de Controles de Calidad automatizados en cada una de las fases del procesamiento y del Registro de errores, inconsistencias y correcciones a la información, así como las debilidades detectados en los procesos para permitir una evaluación final del procesamiento. La infraestructura de hardware, redes y comunicaciones en la que funcionen los sistemas se basarán en lo disponible a la fecha, en el mejoramiento de las comunicaciones y la implementación del soporte técnico centralizado y distribuido a nivel nacional y en la intensificación del uso de la tecnología de Internet. La metodología de trabajo a utilizar tiene como principal fuente la experiencia obtenida después de los censos de los 90's y en el procesamiento de encuestas, caracterizándose ésta por el procesamiento descentralizado, procedimientos para codificación automática y/o asistida por computadora, control de calidad automatizado y supervisión entre otros que puedan adecuarse al procesamiento de datos censales. Con el procesamiento descentralizado a nivel nacional que actualmente está en ejecución en las sedes departamentales, se está haciendo uso de los recursos locales disponibles y consolidando la transferencia de metodologías de trabajo y tecnologías de información utilizados en la sede central. En cada sede, se administra la producción de datos, generándose una base de datos en cada departamento, las que se consolidan en la Sede Central. 2. ADMINISTRACION DE PROCESOS CENSALES Por los volúmenes de información que maneja el censo es necesario disponer de mecanismos de control que permitan un inventario y seguimiento del flujo de los cuestionarios censales en todas las etapas del procesamiento. En los censos nacionales 1993, se implementaron procedimientos que aseguraban el registro de la recepción de las cédulas y su distribución a digitación, lo que facilitó el chequeo de cobertura geográfica y censal. Para ello se utilizó el módulo CENTRACK del software IMPS, complementado con una aplicación desarrollada institucionalmente, los cuales cumplieron sus objetivos en forma limitada. Este procedimiento fue mejorado en los proyectos posteriores como el III Censo Agropecuario (III CENAGRO), la Encuesta Nacional de Hogares (ENAHO) y en la Actualización Cartográfica y de Directorios 1999 (Pre-Censo 1999), dando lugar a una nueva versión del sistema, el cual considera la definición de una Unidad Básica de Procesamiento y sus atributos de control como el área de empadronamiento, número de viviendas, número de hogares, número de personas y módulos del cuestionario. En el III CENAGRO la unidad básica de procesamiento fue el Sector de Empadronamiento Agropecuario (SEA). El sistema permitía ver el flujo de cada una de las SEA’s, lo que aseguró la completitud de las SEA’s, y conocer la producción diaria por cada fase. -3- En la ENAHO, permite asegurar la cobertura en el nivel de vivienda, hogar, miembros e incluso capítulos que le corresponde a cada miembro del hogar de acuerdo a sus características. Incluye la administración de los recursos humanos que intervienen en el procesamiento de datos, medir las actividades dé operación de campo, como son los tiempos utilizados y resultados de ejecución de la entrevista, lo que asegura la cobertura de la información y permite tomar acciones correctivas en las actividades de operación de campo. Para el Pre-Censo 1999, el control ha sido hasta el nivel de manzana para el cual se ha registrado el número de tipos de registro (vivienda, establecimiento y otros), además ha permitido controlar las actividades administrativas durante el procesamiento de datos, así como la recepción y distribución de cargas de trabajo por cada fase del procesamiento. Para los censos del 2000, se considera la administración de todas las actividades del procesamiento de datos, esto es llevar el registro y seguimiento de los procesos que permitan asegurar la completitud en el procesamiento de los datos. 3. CAPTURA DE DATOS El proceso de la entrada de datos en los censos de población y vivienda es uno de las actividades de mayores proporciones al que se enfrentan las entidades estadísticas. En el Perú antes del año 1961, los censos se procesaban manualmente, en los años 1961 y 1972, se utilizaron máquinas lectoras de tarjetas, posteriormente en los censos de 1981 se utilizo terminales de digitación (Inforex) y minicomputadoras para el ingreso de datos y el año 1993 gracias al auge de las computadoras, se realizó mediante la digitación usando redes de microcomputadoras. A la fecha y en todos los censos, el ingreso de datos se ha realizado en forma centralizada. Para el Censo del 2000 se han planteado tres alternativas para el ingreso de la información, bajo los parámetros de tiempo de procesamiento y calidad de la información. La primera alterativa está referida al procesamiento descentralizado en ciudades estratégicas del país mediante digitación, basada principalmente en el aprovechamiento de la infraestructura instalada en las oficinas departamentales del INEI y la experiencia adquirida por el personal de las oficinas departamentales con el procesamiento de datos de las encuestas de hogares y del Pre-censo. 1999. La segunda alternativa se refiere al ingreso de datos por digitación y en forma centralizada, basada en la experiencia que tiene el personal de la institución en el desarrollo de esta metodología durante los censos de 1993. La tercera alterativa propone el uso de la lectura por escaner y reconocimiento de caracteres, Está tecnología nos permitirá mejorar la calidad de la información, menores tiempos de proceso, captación de otros datos alfanuméricos y reducción de costos. Para las tres alternativas se prevé el ingreso de datos para las preguntas abiertas en forma directa, es decir sin previa codificación, además también se ha contemplado el ingreso de la dirección de la vivienda y el registro del jefe del hogar principal, los -4- mismos que serán ejecutados en una segunda etapa por razones de prioridad al resto de variables de la cédula censal. A la fecha se están desarrollando los procedimientos para la prueba experimental, los cuales nos darán los parámetros de evaluación para la toma de decisiones en lo que respecta a la tecnología a utilizar. 4. CODIFICACION Consiste en la asignación de códigos a las respuestas de preguntas abiertas del cuestionario, entre las principales se consideran las profesiones, ocupación y actividades económicas. En los censos del año 1993, se utilizó la codificación tradicional, que consistió en la asignación manual de los códigos al cuestionario antes del inicio de la digitación. Esta actividad consume gran cantidad de tiempo y recursos, y retardaba la obtención de resultados, y genera márgenes de arror no cuantificados. Esta problemática exigió el desarrollo de procedimientos y sistemas que permitieran el mejoramiento de esta actividad. Es así, que en el procesamiento de datos de la Encuesta Nacional de Hogares, se implementó inicialmente la Codificación Asistida por Computadora, basada en la digitación de los literales de las respuestas de las preguntas abiertas de los Cuestionarios, codificados mediante un programa que mostraba los textos previamente digitados para la asignación del código haciendo uso de tablas en línea. Este' procedimiento que mejorado con la generación de Tablas Dinámicas, las que contienen inicialmente los códigos y descripciones de uso internacional y van retroalimentándose en forma permanente con otras descripciones propias de las diferentes regiones del país. Las tablas dinámicas, dieron lugar al Sistema de Codificación Automática, al igual que en el caso anterior requiere de la digitación de las descripciones, luego pasan por in proceso de comparación por igualdad o semejanza y a continuación por un proceso de comparación con un diccionario de palabras claves, esta forma de trabajo se viene realizando desde 1997 a la fecha y se ha logrado una codificación del 65%. El resto de datos que quedan sin codificar pasan por el proceso de Codificación Asistida por Computadora. Para los Censo del 2000, la actividad utilizará las dos modalidades, la segunda será mejorada en sus algoritmos considerando la codificación automática por ocurrencias o frecuencias, con lo cual se espera disminuir el porcentaje de codificación asistida por computadora. Para la implemertación de esta forma de trabajo actualmente se están mejorando las tablas dinámicas, procedimientos y algoritmos que permitan obtener mayor porcentaje de codificación automática. 5. CONSISTENCIA Es la etapa que permite analizar (a coherencia de la información obtenida por la captura de los datos censales, sea esta por digitación o por reconocimiento de caracteres. Este análisis de la información conlleva a una corrección de los mismos, siendo finalmente el objetivo garantizar la integridad y calidad de la información. -5- La consistencia de la información de los Censos de Población y Vivienda, por el gran volumen de información que se maneja, obliga a utilizar métodos cada vez más automáticos con el objeto de obtener resultados en menores tiempo de proceso. Básicamente los procedimientos para la consistencia de la información no han variado al respecto de los censos anteriores. Haciendo referencia al último censo de población y vivienda del Perú, la consistencia de la información se ha realizado en tres sub-etapas, siendo la primera, la verificación de la completitud de la información, luego la Consistencia de la integridad de la estructura de los registros físicos y la última consistencia consistió en el análisis de la información y corrección automática de los mismos, usando para ello, reglas lógicas preparadas por los especialistas estadísticos y demógrafos. Para el censo de población y vivienda del 2000, se tiene proyectado realizar la consistencia de los datos en dos etapas, siendo la primera etapa en forma descentralizada, para el caso que se decida el procesamiento del censo descentralizado, en esta etapa se realizará la verificación y corrección de la completitud de la información hasta niveles mínimos geográficos que se definan, además del chequeo de la integridad de la estructura de los registros. La segunda etapa se realizará en forma centralizada la cuál comprenderá la verificación de la coherencia de los datos y corrección automática de los mismos, usando para ello, reglas lógicas preparadas por los especialistas estadísticos y demógrafos y haciendo uso de tablas dinámicas preparadas previamente de acuerdo a la realidad de cada departamento. 6. EXPLOTACION DE DATOS En los censos del año 1993 y por primera vez se logró poner a disposición de los usuarios la información censal en un tiempo récord de seis meses, asegurando además la existencia de una base datos consistenciada, geocodificada e integrada a otras informaciones del INEL Entre otros principales productos está la emisión de cuadros estadísticos básicos, generación de bases de datos para su difusión, se generó el Marco Muestral Maestro, el Mapa de Pobreza según Necesidades Básicas Insatisfechas. Estratificación Socio Económica de Hogares, Mapas Temáticos diversos y archivos de datos resumidos. Así mismo se logró introducir la tecnología de Internet para la difusión de la información. Con la experiencia obtenida, el mejor conocimiento de las demandas de información de los usuarios y las bondades tecnológicas disponibles se facilitará la implementación de bases de datos en línea, bancos de cuadros estadísticos, aplicaciones SIG utilizando la información censal en internet, mapas temáticos por Internet, sistemas de recuperación de microdatos, bases de datos multidisciplinarias con los censos de 1993 y censos 2000 La tecnología de información a utilizarse serán las proporcionadas por Internet, Sistemas de Información Geográfica y manejadores de bases de datos como Win R+, SQL Server, Zon- Plan, Edu-Plan, etc. 7. BASES DE DATOS CARTOGRAFICAS -6- El INEI requiere bases de datos cartográficas correspondientes a la división política administrativa del país hasta el nivel de distritos, los planos urbanos de las ciudades capitales de departamento, provincias y distritos, así como los mapas distritales donde se localizan los centros poblados. Con los Censos del año 1993 se generaron los dos primeros, los cuales deben ser actualizados en base a la Actualización Cartográfica y los Directorios de Viviendas levantados en el año 1999. La cartografía digital actual, tiene como documentos fuentes los mapas y planos del Instituto Geográfico Nacional y los mapas y planos distritales, provinciales y departamentales de los censos y encuestas. La información gráfica es transferida a medios informáticos por digitalización a través de tablero o escaneo del documento fuente, para luego asignarles sus atributos cartográficos y censales, asegurando de este modo el enlace con toda la información estadística generada en el INEI. Las bases de datos cartográficas, elemento básico del Sistema de Información Geográfica, nos permitirá por “primera vez" para los censos del 2000, aunque parcialmente, utilizar esta tecnología en la preparación de la operación de campo, particularmente en la generación de áreas de empadronamiento urbano. La generación de las bases de datos correspondientes a Centros Poblados rurales se prevén generarse en un trabajo en conjunto con el Ministerios de Educación y de Salud, que serán utilizados para el análisis espacial de la información y presentación de resultados. *****