Sobre el aprovechamiento de registros adm i­ nistrativos en la realización de Censos de Población y Viviendas Por Eduardo Teijeiro Alfonsín, Subdirector Adjunto de Censos y Estu­ dio Demográfico Longitudinal, INE 1. Introducción La utilidad de los registros administrativos con fines estadísticos no es una e xcepción, más bien todo lo contrario, cuando se considera en particular la operación estadística de mayor envergadura: los Censos de Población y Viviendas. Aunque todavía hay pocos países que realicen sus censos basándose exclusivamen­ te en combinar registros administrativos (lo que más adelante llamaré modelo nórdi­ co), su utilización con fines censales es claramente creciente y muchos países, inclu­ so aunque sigan aplicando censos clásicos (aún amplia mayoría), hacen algún uso de sus registros, cada uno en la medida de sus posibilida des. El objeto de esta comunicación es describir las tres maneras principales en que se pueden utilizar los registros con fines censales. En el epígrafe 2, se comienza por enumerar las ventajas y desventajas de usar infor­ mación administrativa en los censos, aunque la mayoría son aplicables casi por igual a otras operaciones estadísticas. A continuación, se citan los tres tipos principales de relación censos -registros y se comparan entre sí, para terminar con un breve epígrafe de conclusiones. 2. Ventajas y desventajas de utilizar información administrativa en los censos Empecemos por los aspectos positivos: v.1) Reducción de costes El ejemplo más claro se da en los censos que, gracias a los registros, pueden prescindir por completo de su característica operación exhaustiva de rec ogida, que puede suponer entre un 75 y un 80% de su coste total. Sin llegar a ese extremo, todo lo que sea dejar de preguntar determinada característica supone, a igualdad de otros factores, cierto ahorro. El conocimiento previo de en qué viviendas hay mayor probabilidad de encontrar algún residente (por haber alguien empadronado en ellas) también permite cierta reducción de costes, al permitir métodos de envío y/o recogida más eficientes. v.2) Menos molestias para los ciudadanos Una norma elemental de buena práctica administrativa es no pedir a los ciudada­ nos información que ya obra en poder de alguna Administración. Cuando la petición 1 es con fines estadísticos , ese principio es especialmente apl icable, dada la impor­ tancia que un buen estadístico siempre dará a minimizar, a igualdad de otros facto­ res, la carga del informante. La variable que se deja de preguntar porque se apro­ vecha de un registro puede ser sustituida por otra variable de interés que, en otro caso, quedaría fuera de la encuesta; o bien, preguntar una variable menos, lo que también incide en la ventaja anterior, la reducción de costes. v.3) Disponibilidad continua de la información. Los datos administrativos suelen estar disponibles con carácter continuo, no sólo una vez cada diez años como en los censos clásicos. Por tanto, independientemen­ te de que en el momento censal pueda acometerse una combinación de registros especialmente completa, al menos parte de esa información también puede difu n­ dirse con carácter anual o incluso inferior, lo que puede suponer una gran ventaja para los usuarios. En particular, desde el punto de vista de uno de los elementos más importantes de infraestructura estadística, los directorios de personas y viviendas necesarios para extraer las muestras de las encuestas dirigidas a hogares, se pueden mantener más y mejor actualizados si están basados en una combinación de registros que si lo están en un censo clásico. v.4) Disponibilidad de información longitudinal o ‘de flujos’, además de la transve rsal Desde el punto de vista de la riqueza analítica para los usuarios, esta característica de los censos basados en registros es especialmente relevante. En nuestro caso, la acumulación de información con fines estadísticos sobre las mismas personas, viviendas, etc. a lo largo del tiempo se va a articular alrededor del eje natural del que ya disponemos, a saber el Padrón de Habitantes, y va a constituir un nuevo y ambicioso proyecto del INE, denominado Estudio Demográfico Longitudinal (EDL), que va a ser presentado expresamente en una ponencia de estas jornadas. v.5) Mejoras metodológicas varias Una información administrativa dada, aparte del caso extremo en que se pu ede dar por fija y directamente mezclarla con el resto, puede ser util izada en un censo de otras dos maneras: ? Como información previa pero susceptible de modificación al ser con­ trastada con la realidad (así se usaron, por ejemplo, los datos padrona les en el Censo 2001). ? Como información auxiliar , que no sustituye la obtención de esa variable sobre el terreno, pero que puede contribuir a aumentar su calidad. En ambos casos, a pesar que no hay una sustitución directa de una variable a pre­ guntar en los cuestionarios por la c orrespondiente versión administrativa, la mejora de la calidad en el dato censal puede ser muy importante. Una fase censal que puede verse especialmente beneficiada es la de depur a­ ción/imputación. En efecto, en un censo que no disponga de información auxiliar transversal, ni de información longitudinal previa, sólo es posible aplicar una dep u­ ración/imputación transversal, relacionando unas variables con otras, pero referidas todas ellas al mismo momento censal. 2 En cambio, si se dispone de información de esas mismas unidades para m omentos anteriores, además de esa depuración transversal, también es posible una depura­ ción longitudinal. De hecho, para ser exactos, de dos: ? La más obvia, prospectiva, es decir de atrás hacia delante. Por ejemplo, si no se dispone de una información en 2011 pero sí para 2001, eso puede permitir una imputación muy precisa. ? Una menos obvia pero que también será necesaria en algunos casos: lo que puede denominarse retroimputación, es decir, imputar un valor pa­ sado (por ejemplo de 2001) a partir de uno posterior. Esto es especial­ mente necesario para garantizar una buena calidad en los datos de flujos. Por poner un ejemplo sencillo, una persona puede pasar de soltero a no soltero, pero no al revés. Imputar un valor pasado puede ser neces ario, por tanto, cuando hay una incompatibilidad de este tipo y se decide que es más fiable el dato mas reciente.1 Otro ejemplo de mejora metodológica posible a la acumulación de información: una determinación más precisa de las cifras de población censales. En un censo en que no se dispone de información previa de un RP, es especial­ mente difícil distinguir una vivienda no principal de una vivienda principal en que no ha sido posible el contacto. También es muy difícil detectar cuándo una persona se ha censado en más de una vivienda. Ambos errores, en un censo apoyado en un RP, son bastante más fáciles de prevenir. Pero es que incluso en los casos especialmente dudosos que sigan quedando, la información de otros registros puede ayudar a decidirse en un sentido u otro. En el Censo 2001, utilizamos un contraste previo con el Censo Electoral y un contraste específico del DNI y de las tarjetas de residencia con los ficheros del Ministerio del Interior como información auxiliar para decir los casos más dudosos. Eso quiere decir que la decisión sobre contar o no a cada persona tuvo en cuenta, principal p e­ ro no exhaustivamente (también se hicieron contrastes con el Movimiento Natural de la Población, por ejemplo, para no contar niños de menos ni defunciones de más), cuatro informaciones relevantes: además de esas dos citadas, la información procedente de la operación de recogida y la información padronal previa (las más influyentes, claro está). En cambio, en un censo clásico, la única información que se puede tener en cuenta para determinar las cifras de población es la procedente de la recogida. El contras­ te, y por tanto previsiblemente también la diferencia en la precisión, es enorme. Y en el Censo 2011 podrá haber más información auxiliar aún, en partic ular una es­ pecialmente útil: el estatus de cada persona en el censo 2001. Pasemos ahora a los inconvenientes: i.1) Posibles problemas de aceptación social Si tuviese que citar un solo inconveniente, probablemente sería este, porque es muy difícil de prevenir: una opinión pública contraria, convenientemente azuzada 1 Por ejemplo, porque el dato pasado hubiese sido imputado; detalle que conviene mantener registrado, por tanto. 3 por algún elemento que sirva de espoleta y/o catalizador, puede echar abajo un proyecto bien planificado en un abrir y cerrar de ojos. Hay múltiples ejemplos pero, por citar uno especialmente relacionado con el tema tratado, cabe recordar la polémica que se montó alrededor de los Censos de 1991, por una supuesta intromisión en la intimidad, y que estuvo a punto de provocar su fracaso. Variables como el número de retretes que tenía cada vivienda se convirti eron de la noche a la mañana en ejemplos perfectos de características íntimas don­ de las haya. Y todo por una mera confluencia de varios factores básicamente aje­ nos a aquella (y cualquier otra) operación censal: reciente intento de subir aprecia­ blemente los valores catastrales, lo que vino a de nominarse el ‘catastrazo’; el ‘1984’ de George Orwell, y su ‘Gran Hermano’, estaban de plena actualidad; alg u­ nos periodistas que vieron la oportunidad de montar una po lémica con tirón social, de las que aumentan la audiencia, a la vez que pretendían dar a la ‘caduca’ Adm i­ nistración española una lección de supuesta modernidad y progresía; algunos pol íticos que se apuntaron enseguida a la polémica para no perder la oportunidad de desgastar al Gobierno... En el caso que nos ocupa, la combinación de datos de diversos registros adminis­ trativos, por mucho que sea perfectamente compatible con nuestra legislación en materia estadística, y por mucho hincapié que se haga en la preservación del se­ creto estadístico, puede ser un caso sensible para los sectores de nuestra sociedad que más valoran su intimidad. Afortunadamente, los Censos de 2001, en que ya se usaron varios registros (Padrón, Catastro, Censo Electoral, DNIs...) para mejorar la precisión de las cifras censales, constituyen una primera experiencia, y muy positi­ va, al respecto, al no haberse registrado ningún problema relevante de aceptación social. A partir de ese terreno que, aun con cautela ya puede considerarse ‘con­ quistado’ a la opinión pública, habrá que seguir avanzando con cuidado. i.2) Dependencia de las definiciones administrativas Desde el punto de vista estrictamente estadístico, el principal riesgo de un registro administrativo radica en que, al intentar medir situaciones sujetas a regulaciones legales susceptibles de modificación, el concepto recogido en el registro puede cambiar súbitamente sin que el estadístico pueda hacer nada al respecto. Además, estos cambios pueden estar claramente definidos (en cuyo c aso, al menos es pos i­ ble intentar mantener la coherencia de la serie) o, lo que es mucho más peligroso, deberse a cambios en el funcionamiento interno del registro que cualquier persona que no conozca bien sus entresijos pasará totalmente por alto. Y no es que los conceptos estadísticos no cambien nunca (el concepto de parado de la EPA, por ejemplo, también lo ha hecho), pero al menos esos cambios se rea­ lizan de manera más controlada, intentado respetar en la medida de lo posible la continuidad de las series, y siempre por motivos estrictamente estadístic os, relacio­ nados normalmente con una mayor armonización internacional o una mejor aproximación a la realidad que se quiere medir. i.3) Sesgos provocados por los derechos y deberes que confieren los regis­ tros A nadie se le escapa que, en la medida que cada registro administrativo genera una serie de derechos y deberes para cada ciudadano, la información que conti e­ nen en algunos casos (muy difíciles de cuantificar) no es la más veraz sino, más 4 bien, la que maximiza a nivel individual esa relación derechos/deberes 1. Por poner un ejemplo directamente relacionado con las cifras de población, es conocido que, en caso de duda y de poder escoger, algunas personas pueden tender a empadro­ narse en el sitio donde más les conviene en vez de en su ‘residencia habitual’, tal como establece nítidamente la legislación padronal. Otros casos similares pueden ser las personas apuntadas al INEM pero que no están buscando activamente tra­ bajo (no serían paradas, por tanto, para la EPA) o las que se afilian a la Seguridad Social para conseguir algún beneficio pero sin que exista una actividad laboral real (no serían consideradas ocupadas, por tanto, en ninguna estadística). Claro está que estos sesgos hay que contrapesarlos con los errores de respuesta que, obviamente, también presentan las encuestas, siendo a menudo muy difícil valorar cuáles pueden ser mayores. Por ejemplo, en una encuesta en que se pre­ guntan los ingresos, ¿es razonable esperar que ingresos no declarados a Hacienda puedan ser citados, en cambio, en la encuesta?; ¿o, más bien, los ingresos conoc i­ dos por Hacienda serán normalmente una cota superior de los que se recordarán y reconocerán en una encuesta?. Afortunadamente, no todos los casos son tan dudosos como ese. Por ejemplo, en una información administrativa sobre defunciones, nacimientos, matrim onios, sepa­ raciones... el único error posible radicaría en que los datos identificativos (nombre, apellidos, fecha de nacimiento, DNI...) no estuviesen exactamente igual que en otros registros y que la diferencia fuese suficientemente grande como para ‘eng a­ ñar’ al algoritmo informático de case. i.4) Identificar bien a las personas suele ser bastante complicado en la prácti­ ca Con el anterior ejemplo, surge uno de los principales retos técnicos de la combina­ ción de registros, que no por conocido se puede dejar de mencionar expresamente: aunque en teoría combinar registros debería ser muy fácil (bastaría con que exis­ tiese un identificador único para cada pe rsona y que se utilizase de manera precisa en todas las relaciones de los ciudadanos con las Administraciones), la práctica en el caso de nuestro país es, hoy por hoy, bastante más difícil: ? No todos disponen de ese identific ador (por ejemplo, los niños) ? El identificador no siempre es el mismo, sobre todo en el caso de los ex­ tranjeros: puede haberlos que figuren en un registro con un tipo de identifi­ cador (por ejemplo, un pasaporte de su país); en otro registro, con otro identificador (la tarjeta de residencia); e, incluso, en un tercer registro, con otro más (un DNI de su pa ís o, en caso de posterior nacionalización, un DNI español); errores de transcripción y similares aparte, por supuesto. ? Incluso centrándonos sólo en las personas con DNI, la situación dista mu­ cho aún de ser la óptima: 1 Es curioso lo que se dice a este respecto en un documento muy reciente sobre los registros nórdicos: Both the citizens and the authorities in the Nordic countries have always shown high confidence in the accuracy of register sources, which after all are the basis for many individual rights and duties. It is in the interest of the individual to make sure that all the data within administrative register systems are indeed accurate. Entonces, ¿tendrá mucha razón de ser el prejuicio de que en los países mediterráneos somos especialmente ‘pícaros’?. ¿O más bien en los países nórdicos los registros también contendrán a veces ‘información de conveniencia’ y lo que pasa es que o no se enteran o no quieren reconocerlo públicamente?. 5 o Los registros pueden contener DNIs erróneos para algunas perso­ nas. En esos casos, cruzar sólo con el DNI sería peor que incomple­ to: existirían muchas posibilidades de terminar casando dos perso­ nas que no tienen nada que ver entre sí. o La informatización de los DNIs es relativamente reciente, por lo que hay un colectivo de personas (los mayores de cierta edad, que, por no estar obligados a renovarlo, pueden tener un DNI no informatiz ado) para los que no es posible contrastar la exactitud de su DNI. Esperemos que la, al parecer ya inminente, puesta en marcha del DNI electrónico contribuya a paliar algunas de estas deficiencias. En particular, sería muy conve­ niente que: ? El DNI se diese al nacer, como hacen en otros países. ? La sustitución del DNI actual por el electrónico se hiciese ‘en masa’ e inc lu­ yendo a las personas que no tienen obligación de renovarlo. Si, por el con­ trario, se terminase haciendo sólo a medida que cada persona tuviese que renovarlo, el periodo que habrá que esperar hasta que un porcentaje apre­ ciable lo tuviese (que encima nunca sería la población total hasta que el úl­ timo de los mayores sin necesidad de renovarlo falleciese) sería muy largo, perdiéndose un tiempo precioso para disfrutar de los beneficios que puede aportar esta innovación. ? Se buscase una manera de identificar más unívocamente a cada extranjero que reside en España, independientemente de que tenga permiso de res i­ dencia, sólo esté empadronado, etc. A la espera de esas mejoras, actualmente no hay más remedio que completar y complicar los algoritmos de identificación para que tengan en cuenta, además del número identific ador (cuando existe), variables como el nombre, los apellidos, la f e­ cha de nacimiento, etc. Ello permite paliar algunos de los inconvenientes debidos a la falta de idoneidad de los identificadores actuales, pero al precio de provocar pro­ blemas de otra índole, derivados de las maneras alternativas en que se pueden re­ gistrar algunas de esas variables (sobre todo el nombre) y de los errores que pue­ den presentar (todas ellas). Estas incidencias son mucho más frecuentes en las personas extranjeras, justo donde el identificador es menos aprovechable, lo que contribuye a que, en general, los problemas de case sean mucho mayores entre los extranjeros que entre los españoles. Cerrando este tema, que daría para completar por sí solo el resto de esta comuni­ cación, y antes de pasar ya a describir los distintos tipos de relación registros – censos, se puede concluir que: ? Sería muy conveniente avanzar en la disponibilidad y utilización pre­ cisa de un identificador único y universal, extranjeros incluidos. ? Mientras tanto, para poder alcanzar magnitudes de error, tanto por cases perdidos como por cases incorrectos, suficientemente pequeños, los algo­ ritmos de identificación deben seguir haciendo uso de otras variables y ser muy finos. 6 3. Los tres tipos de censo basado en registros administrativos Por orden decreciente de dependencia de los registros, son los s iguientes: a) Censo basado exclusivamente en la combinación de registros administrativos, al que llamaremos modelo nórdico b) Combinación de registros administrativos y encuestas por muestreo: modelo holandés o pseudocenso c) Combinación de registros administrativos y una enumeración exhaustiva (mo­ delo mixto) En la siguiente tabla se sintetizan los requisitos necesarios para la aplicación óptima de cada uno de estos tipos de censo, sus rasgos distintivos y las ventajas de cada uno en comparación con los otros dos: 7 M o d e l o Requisitos para su Rasgos distintivos aplicación Nórdico ? Toda la inform ación ? censal debe poder obtenerse combinan­ do regis tros ? Los recuentos poblacionales proce­ ? dentes del Regis tro de Población (RP) deben ser permane n­ temente fiables, sin requerir ningún tipo de comprob ación periódica, ni siquiera ? decenal ‘Con mis registros tengo suficiente’ Holandés pseudocenso o ‘Los registros no son suficientes pero no quiero/puedo/necesito recurrir a una enumeración exhaustiva para complementarlos’ ? La mayoría de la ? información censal debe poder extraerse de la combinación de registros, aunque alguna variable cen­ sal puede no estar disponible ? Igual que en el nórdico, los recue ntos ? poblacionales proce­ dentes del RP deben ser perm anentemente fiables, sin requerir ningún tipo de com­ probación periód ica, ni siquiera decenal ? Los usuarios no ? demandan las varia­ bles no dispon ibles en los regis tros con un grado de detalle muy alto, por lo que es aceptable confo r­ ? marse con sacarlas de encues tas por mues treo Ventajas relativas No es necesaria ? ninguna encues ta complementaria, ni muestral ni exhaus tiva Ahorro máximo de costes, al no requerir operación comple­ mentaria, ni siquiera mues tral Los datos presentan ? el detalle conceptual y geográfico que permitan los regis­ tros, usualmente altos Posibilidad de sacar datos con la period ici­ dad que se cons idere óptima, incluso anual o inferior Se pueden obtener datos para el periodo intercensal Algunas variables ? presentan detalle exhaus tivo y otras no. Los cruces en que haya al m enos una variable no exhausti­ va requieren algún tipo de elevación o ajuste. Las marginales de las variables no exhaus­ tivas pueden diferir ? de una tabla a otra, dependiendo de las otras variables que interve ngan en el cruce. Ahorro importante de cos tes, sobre todo si se aprovechan encues tas ya existentes (si se necesitan encues tas nuevas, continuas y de tam año grande, el coste total puede terminar siendo similar al del modelo mixto) Posibilidad de sacar algun os datos en el periodo interce nsal, sobre todo si las encuestas son conti­ nuas Poca flexibilidad para ? atender peticiones cens ales no previstas y ‘ajustadas’ expre­ s amente. No necesita que el sistema de regis tros sea tan completo como en el modelo nórdico Si las encuestas son continuas, también se pueden obtener datos para el periodo inte r­ censal 8 M o d e l o Requisitos para su Rasgos distintivos aplicación Mixto ‘Los registros no son suficientes y compl emen­ tarlos con encuestas muestrales no satisface las necesid ades de calidad y cantidad de inform ación de los usuarios’ ? No es necesario que ? la mayoría de la inform ación censal se pueda extraer de la combinación de registros, au nque un RP (en nues tro caso, el Padrón) sí que es impres cindible ? Alguna variable censal no está dispo­ nible en la com bin a­ ción de regis tros y los usuarios no se co n- ? forman con que se complete por mues­ treo, y/o los recuentos poblacionales procedentes del ? RP requieren un contraste perió­ dico con la reali­ dad, al menos uno cada diez años (en España está incluso es­ tablecido por ley, en el artículo 79 del Reglamento de Población) Ventajas relativas La enumeración ? exhaustiva com ple­ mentaria a los regis­ tros sirve para mej orar la precisión de los recuentos, por un lado, y para recabar la inform ación no dispon ible en los regis tros con el máxi­ ? mo detalle tanto conceptual como geográfico, por otro Es posible ir incluyendo nuevas variables censales, ya sea adicionales o en sustitución de otras, sin el corsé de ? que deban figurar en algún regis tro El conocimiento previ o de dónde ? reside la mayoría de las personas (gracias al RP) permite usar métodos de envío y recogida más eficie n­ tes que en un censo clás ico Con un RP ya es suficiente para poder aplicarlo; es decir, requiere que el siste­ ma de registros sea menos completo aún que el del modelo holandés No es necesario poder suponer que los recuentos pobl aciona­ les del RP se manti e­ nen indefin idamente fiables a lo largo del tiempo sin necesidad de com probación periódica alguna Permite la máxima flexibilidad en la determinación del contenido censal Los resultados de todas las variables son genuinamente cens ales, es decir con el máximo detalle, tanto conceptual como geográfico, compatible con la preservación del secreto estadístico Además de España en 2001, otros países que han usado el modelo mixto en la última ronda censal: Suiza, Bélgica, Eslovenia, Letonia. A veces no es fácil clasificar algunos censos en sólo uno de esos tres tipos, por pre­ sentar rasgos de varios de ellos a la vez. Por ejemplo, el de Noruega 2000 quedó a caballo entre el mixto y el nórdico, porque necesitó de una enumeración exhaustiva para formar el Censo de Viviendas; el de 2010-2011, prevén que ya podrá ser nórdi­ co puro. Otro censo híbrido, esta vez entre el holandés y el mixto, es el que está pla­ neando Alemania para 2008: combinaría (aún no está totalmente confirmado) regis­ tros, encuestas por muestreo y una enumeración exhaustiva. A continuación, un algoritmo de decisión básico para ayudar a fijar ideas sobre qué tipo de censo es más aconsejable en cada caso: 9 ¿Existe Registro de Población?: NO: Censo clásico SI: ¿Sus cifras son permanentemente fiables sin necesidad de comprobación periódica?: NO: Mixto SI: ¿Toda la información se puede obtener de registros? SI: Nórdico NO: Las variables censales que no están en los registros, ¿es posi ble y dese a ble obtenerlas exhaustivamente? SI: Mixto NO: Holandés 4. Conclusiones ? El aprovechamiento estadístico de los registros administrativos es especialmen­ te útil en los Censos de Población y Vivie ndas. ? Eso no quiere decir que no haya que superar inconvenientes serios, quizá el más importante el riesgo de que combinar registros pueda ser mal aceptado socialmente. ? Hay tres tipos principales de censos basados en registros. Ninguno es mejor siempre y en todo lugar que los demás, porque el censo óptimo es el que se adapta mejor a las circunstancias de ese país y ese momento. ? En España, la intención de profundizar cada vez más en el apoyo de los censos en información administrativa es totalmente coherente con la puesta en marcha del Estudio Demográfico Longitudinal, por lo que cada progreso en uno de es­ tos proyectos repercutirá beneficiosamente en el otro y viceversa. Sólo así será posible avanzar a un ritmo adecuado en ambos a la vez y que en el Censo 2011 se empiecen a notar claramente sus repercusiones positivas sobre la can­ tidad y calidad de la información censal. ? Para ello será imprescindible la colaboración de las Unidades Administrativas encargadas de gestionar cada registro aprovechable con fines estadísticos. 10