ESTADISTiCA ESPAÑOLA Vol. 33, Núm. 1 2 7, 1 991, págs. 1 91 a 242 SPEER & GEIS : Dos s i stem as para la depura c ión d e datos c uantitativo s MARIA SOLEDAD BRAti/O CABRIA (1 ) Noviembre, 1989 RESUMEN Este artículo presenta las características y funciones de los sistemas generales de depuración de datos cuantitativos y analiza la metodología de dos sistemas generales: SPEER, desarrollado en el B u reau of the Census de los Estados U nidos y G E I S desarrollado en Statistics Canada. Se compara sucintamente el resultado del proceso de depuración de ambos sistemas. Palab^as c/ave.^ Edit, edits implícitos, depuración, imputación, registro/campo danante. Clasificación A MS.^ 6 2- O 4 INTRODUCCION La Conferencia de Estadísticos Europeos define la depuración de datos estadísticos como "una actividad dirigida a asegurar que los datos cumplen ciertos requerimientos; es decir, que satisfacen condiciones de corrección establecidas". En las tareas de depuración, la Conferencia distingue tres fases que, básicamente, se resumen en 1) la definición de un conjunto de reglas de validez y consistencia, 2) su verificación sobre los datos para la detecciá ^ n de errores y 3) correccián e imputacián de campos sin respuesta o campos con error. Dos son las características de todos los procesos de depuración de datos. La primera es su coste elevado en recursos y tiempo; la segunda, su impacto en la calidad de los datos. Reducir los requerimientos de recursos y de tiempo y mejorar la calidad de los datos (o, al menos, asegurar su neutralidad) son los objetivos de los estudios y trabajos que vienen realizandose en este campa. En ese objetivo se enmarcan los Sistemas Generales de Depuración de Datos. (1 } Agradezco los comentarios que sobre este documento hicieron Ildefonso Villan, Jose Luis Viedma y Magdalena Cordero del INE; el Sr. Silva del fBGE de Brasil. Mr. Kovar de Statistic Canada leyó y comentó la versión en Inglés. Ramiro López me ayudó con la traducción ai español del documento en inglés. Elisa Gutiérrez mecanografió la versión en español. ^`^, 4^ I ^I ^I^ 1 Ic ^ t tii' \^^^ ^I 1 EI desarrollo de métodos automáticos de depuración se inicia en la década de los ochenta; se fundamentan -en su mayoría^ en los principios que Felfegi y Holt ^F & H f establecen en 1 976. Estos principios son: Cada registro debe satisfacer todas las reglas de validez y consistencia (edits en la terminología de F& H). Las correcciones deben realizarse en el menor número de campos posibles. La detección e imputación forman parte de un mismo proceso y cualquier procedimiento de imputación debe mantener la estructura de los datos. Los Sistemas Generaies de Depuración de datos tienen como objetivos explícitos: ^} EI d©tar a las Oficinas de Estadística de una Metodología contrastada y eficiente para la costosa tarea de depuracián de datos. 2) EI generalizar unos esfuerzos que se repiten, y no de forma muy diferente, de aplicación en aplicación. 3) EI ahorrar, siguiendo con lo constatado en el punto anterior, tiempo y recursos en el desarrollo de sistemas de depuracíón específicos. Los sistemas generales de depuración proveen funciones de definición y análisis de !os edits, de detección de posibles errores en los registros de un fichero de datos, de localización de los campos erróneos, de mecanismos de corrección de errores y de diagnóstico. Finalmente, disponen de procedimientos de imputación automática que permiten la obtención de un fichero de datos con registros individualmente "iimpios", conservando la mayor cantidad posibie de datos originales y preservando las distribuciones conjuntas. Los datos de las encuestas ios ciasificamos en datos de tipo cualitativo (datos con inforrnación sobre variables discretas, como "Estado civil") y datos de tipo cuantitativo (datos con información sobre variables continuas, como "Salario bruto"i. Los sistemas generales para la detección é imputaci©n de datos cualitativos se diseñaron e implementaron en primer lugar; en la actualidad son ampliamente utilizados en el proceso de censos y encuestas demográficas. Como ejemplos de sistemas generales de depura^ cián de datos cualitativos tenemos: CANEDIT, utilizado en Statistics Canada para procesar su censo de población; AERO, implementando en la Oficina de Estadística de Hungría y DIA desarrollado y ampliamente utilizado en el I N E, España. La definición de metodologías generales para fa implernentación de sistemas de depuración de datos cuantitativos parecía ser empresa más compleja. Sin embargo, 1os dos sistemas que presento en este artículo son un fogro en el desarrotlo y aplicación de sendas metodologías en el tratamiento de datos cuantitativos. EL I NSTITUTO NACIONAL DE ESTADISTICA ( I NE) de España se interesó muy pronto por fa metodología propuesta por Fellegi & Holt y dedicó recursos personales y económicos al desarrollo de un Sistema de Detección e Imputación Automática (DIA}. DIA supone una importante contribución a los sistemas generales de depuración de datos cualitativos. EI INE ^P[ [ FZ-c,[ I^. [x)^ tiitiTE.41 ^S C'•^Ft•t l•t C)[ Pl Ft•t( Ic)^ Iy^ sigue interesado en participar en este campo de la investigación, razór^ por la cual es un miembro activo del Grupo de Trabajo de Depuración de Datos del Proyecto de Computación Estadística de la Conferencia de Estadísticos Europeos. Sigue de cerca las nuevas tendencias sobre la depuración de datos como es la macroedición propuesta por L. Granquist de la Oficina de Estadística Sueca. Finalmente, está interesado en sistemas generales para la depuración de datos cuantitativos, dos de los cuales se presentan en este momento. Estos son: S PE E R, desa rrol lado por el B U R EA U o F TH E CENSUS (USA) y G EIS desarrollado en STATISTICS CANADA (CANADA). Existen varios motivos, para el interés en los sistemas SPEER y GEIS. En primer lugar, se trata de sistemas generales para la depuración de datos cuantitativos. Las encuestas con dato^s cuantitativos vienen procesandose con programas hechos a medida cuyo coste y duración no requiere rnás énfasis. En segundo lugar, ambos sistemas están basados en metodologías rigurosas y suficientemente probadas que hacen más fiable la delicada operación de depuración de datos. En tercer lugar, los sistemas operan tanto en main-frames como en PC. Esta característica es muy importante con el entorno actual de equipos informáticos. Aprovechando su nueva capacidad en microprocesadores, el I N E ha iniciado un proceso de descentralización de la producción estadística. Para los usuarios, esto significa a la vez un alivio de las restricciones impuestas por el Centro de Proceso de Datos y los grandes ordenadores, pero también nuevas responsabilidades y un considerable aumento de trabajo. Las facilidades de procesamienta que ahora tienen los usuarios puede redundar en una más ágil producción estadística pero no necesariamente de una mayor calidad de los procesos. Urge dotar a los usuarios de instrumentos generales que 1) les faciliten la tarea de producir sus propias encuesta ^ -si así lo aconsejan otras co^^sideraciones- 2) sean fiables y bien documentados; es decir, que la calidad de la información no esté negativarnente afectada por la manipulación de los datos y que 1os procesos y los resultados sean reproducibles, y 3) sean eficaces en cuanto al coste de recursos y de tiempo. Los sistemas que aquí presento estarán operativos en el INE, espero en un plazo corto. Ello significará un paso importante hacia el objetivo de mejorar la calidad de nuestras encuestas y de reducir el tiempo de su producción. La metodología de SPEER y de GEIS: AI igual que para 1a depuración de datos cualitativos, nuevamente Statistics Canada define el marco de referencia de los sistemas generales de depuración de datos cuantitativos. EI sistema SPEER se inspira principalmente en la metodología F& H y 1a aplica a edits de razón entre variables numéricas. EI sistema G EIS, partiendo de los principios de F& H, basa su met©dología en el enfoque de Sande de la depuración de datos cuantitativos. A principios de los ochenta, ^ ^^ -3 t til >1)I`I Ic ^ I^#'i`( ^ I i Statist^cs Canada desarrolló el sistema NEIS como el primer prototipo para la apl^cac^ón de los principios F& H y de la metodología Sande a la depuración de encuestas con datos cuant^tat^vos Hoy G EIS generaliza y adapta dicho sistema a las nuevas tecnologías de proceso. Tanto G EIS como SPEER consiguen uno de los objetivos que promovieron su desarrollo: Reducir el tiempo y los gastos necesarios para la implementación de sistemas de depuración de los datos de los nuevos prayectos estadísticos. Una advertencia importante, sin embargo: Los sistemas generales para la depuración de datos no suponen que los usuarios deban relajar las etapas previas a la depuración de las encuestas. La aplicación de sistemas generales de depuración debe considerarse como la etapa final del proceso de depuración. Su aplicación libera tiempo, que deberá ser invertido en las primeras etapas del tratamiento de la encuesta como son la recogida y grabación de datos, el control de cobertura, el contacto con las fuentes de información, los controles de calidad de las respuestas, la corrección manual de los errores (especialmente aquellos que tienen un impacto importante en las estimaciones finales), etc. En relación a este tema, Kovar et al (1 988y dicen: Se supone que una parte importante de la corrección, dei seguimiento y del control de documentos se realiza en la etapa preliminar a la depuración automática. Sólo los casos sin resolver o de menor importancia, pasan al Sistema General de Edición e Imputación (GEIS^ como último recurso; es aquí donde se hace un esfuerzo para resolver todo ^ los problemas por imputación. Las secciones de este artículo son las siguientes: La Sección 1 presenta las funciones de los sistemas SPEER y GEIS. La Sección 2 hace un análisis más detallado de los sistemas, y de su metodología. Debo subrayar que la metodología de ambos sistemas está perfecta y exhaustivamente documentada. Para GEIS, existen, además, manuales sobre su modo de operación, su Guía de Usuario, y su Manual de Referencia. Este trabajo quiere servir de introducción para las personas interesadas en dichos sistemas, para lo cual hago amplias referencias a su documentación en inglés. La Sección 3 hace una primera evaluación de los sistemas. Mientras que la Sección 2 presenta los sistemas independientemente, aquí se analizan sus resultados de forma comparativa; se compara la salida de la detección de errores y se presenta la distribución estadística de los datos antes y después de la imputación por G EIS y por SPEER. Cada sección pretende ser independiente de forma que se pueda saltar las secciones que no interesen. En la Sección 1 se da una descripción general de las funciones y características de ambos sistemas. La sección 2, w!'F f k (^f Iti (x^ti tiltiT^^E ti1=^S F'•^Ft^1 r.A fi)Ff'l R-^( IO^. ^^S aunque sigue siendo r,na ir^troducción, se ocupa más en detalle de la metodología de S PE E R y G E IS. FUNCIONES Y CARACTERISTICA DE L(^S SISTEMAS GENERALES DE DEPURACION DE DATOS CUANTITATIVOS 1. EI análisis de los sistemas generales de depuración de datos puede realizarse desde distintas ópticas. AI analizar aquí ios sistemas SPEER y GEIS vamos a destacar algunas de las funciones y características que creemos importar^tes en un sistema general de depuración de datos. Son F U N C I O N ES generales de estos sistema: 1 ^ Fc^nción de definición de las características de la encuesta. Esto es, función de definición de los registros del fichero a depurar, de sus campos y_de los valores validos de los campos. En algunos casos, se definen también los criterios de agrupación de registros y de variables. 2) Función de definición y análisis de edits. 3) Función de deteccíón de errvres (de invalidez y/o consistencia). 4) Función de deteeción de outliers. 5) Función de localización de campos a borrar por incurrir en invalidez o inconsistencia. 6) Función de imputación. 7) Función de diagnós tico. Son CARACTERISTICAS generales de estos sistemas: 1) El modo de operación. Los sistemas operan en batch, interactivo 0 batch e interactivo. 2) Su Portabilidad. EI uso cada vez más frecuente de los micros/PC en el proceso estadístico ha exigido que 1a probabilidad de los sistemas entre entornos de rY^ain-frame y micros/PC sea una característica importante en las especificaciones de su diseño. 3) Modularidad. Las funciones de los sistemas se implementan por módulos generales que el diseñador compone de acuerdo con sus necesidades. La cor^strucción del sistema por modulos facilita el intercalar programas hechos a medida para tratar probler^nas específicos de la encuesta que se procesa. 19 f^ t ^1 ^^f>I^I I( •^ F ^;F'^^til)1 1 4) Proceso de depurac^^ón por grupos de variab/es o de registr©s. La depuración de los datos de la encuesta puede realizarse por grupos de variables y grupos de registros en contraste con los diseños tradicionales de programa único de detección e imputación. Esta característica, en parte, se debe a limitaciones de máquina, dado que los algoritmos utilizados requieren gran capaeidad y tiempo de proceso; en parte a la limitación que imponen los tipos de edits o métodos de detección/imputación de los propios sistemas. 5) Tipos de registros; depuración intralinter-registros. Los datos de la unidad encuestada se recogen en un registro, generalmente, de longitud constante. Los sistemas analizados no admiten la depuración interregistros. Esta, si se requiere, debe programarse a medida. 6) Documentación. Existen abundantes artículos que detallan los fundamentos metodológicos de los sistemas. Es variable su documentación en cuanto a guías de usuario y manuales de referencia. Presento aquí, de forma individual, las características y las funciones de los Sistemas SPEER y GEIS. 1.1. E! sistema SPEER: Funciones S PEER es un sistema general para la depuración de datos cuantitativos con edits de razón. EI SPEER se compone de tres segmentos principales: 1) La generación del conjurito completa de Edits. 2) La detección de errores (determinando un cor^junto mínimo ponderado de campos a"borrar" en los registros que fallan los ec^its) 3) Las subrutinas de imputación (Creenberg (1 986)}. Dado el tipo único de edits con los que trabaja, SPEER está orientado a ser el modulo central de un sistema más amplio de depuración. Especifícaciones Técnicas: SPEER ha sido programado en Fortran. Opera en grandes sistemas y en micros/PC bajo DOS. Soporta operación en batch (main-frames} y operación en batch e interactiva (micros/PC}. Otras características: SPEER es un programa estructurado para depurar, en los registros de una encuesta, los campos numéricos cuyo valor es inválido o inconsistente. SPEER dispone de módulos generales para la generación del Conjunto ^i'f f fl -( ^f Eti f N^ti tiltil t\1 ^ti I' \fz \ l 1 I)f f'( Ft \( I(>\ ly7 Completo de Edits, la detección de errores y la localización de campos a borrar. No es general en los módulos de definición de la aplicación o de imputación. Los módulos generales de SPEER son una aplicación elegante y eficaz de la metodología que implementan. EI tiempo de ejecución del sistema es bueno, (evidentemente es función del número de campos en los registros y de! número de registros del fichero a depurar. Los metodólogos que han desarrollado SPEER ponen énfasis en la capacidad del sistema para adaptarse a las necesidades específicas de las encuestas y en su flexibilidad para servir a distintos tipos de usuarios. Sin embargo, desde el punto de vista operacional, el principal defecto de S PEER se debe a este deseo de crear un sistema demasiado flexible. Mientras su implementación sigue condicionada a las especificaciones de los usuarios, el sistema no dispone de una inter-fase general que facilitaría su aplicación en el tratarnienta de una encuesta concreta. Actualmente tanto 1os procedimientos de imputación como las funciones de diagnóstico deben programarse a medida. SPEER requiere todavía un esfuerzo importante para generalizar los módulos de 1} definición de edits y descripción de1 fichero de datos 2) de imputación y 3) de control de calidad. Los módulos interactivos de SPEER son una de sus características más interesantes. Ellos permiten adaptar SPEER a distintas etapas del proceso de una encuesta. Así, SPEER puede emplearse como un sistema para 1 y entradas de datos y 2} análisis y corrección rnanual de los registros seleccionados para estudia en la fase previa de detección y localización de errores. En modo interactivo, el sistema es una herramienta eficaz para el depurador manual que, en su tarea de corrección de los datos, puede ser asistido con información adicional que el sistema 1e provee. Las pantallas del sistema interactiva listan los campos seleccionados del registro, las valores de los campas antes y después de su corrección, sus intervalos de aceptación y las acciones disponibles al usuario. A^^nque se necesita estar familiarizado con el formato de la pantalla y con fa forma de activar las distintas funciones, ei sistema tiene un buen tiempo de respuesta a las accianes del usuario. SPEER trabaja con edits que se definen como intervalos de aceptación de los ratios entre variables numéricas del registro. Los límites de !os intervalos de aceptación pueden variar por estratos lo que faciiita la depuración de todos los registros de la encuesta en un solo proceso. EI sistema recomienda la agrupación de las variables interrelacionadas entre sí; para ello hace la distinción entre lo que denomina variables básicas de la encuesta, variables satélites y variables detalle. 1^8 Fti^ ^r^is^^^ ^ t tiN•^tic^<<.^^ La metodología de SPEER ha sido ampliarnente documentada; sin embargo, el sistema carece de documentación de usuaria, y documentación del sistema. Como referencias a su metodología, veanse los artículos B. G reenberg (1 9$1 ): Developing an edit systerr^ for ir^dustry statistics y B. Greenberg (19$2): Using and edit system to deve%p editing specifications,^ de B. G reenberg y R. Surdy (1 984): A Flexible and lnteractive Edit and lmputation System for Ratio Edits. Estos artículos presentan la fifosofía del sistema, analizan su metodología, los procedimientos heurísticos implementados y estudian detalladamente sus componentes. Un artículo más teórico es de B. Greenberg (1 986): The use of l^nplied Edits and Set Covering in .4utorr^ated Data Editing. Este artículo aborda el probler^na de la cobertura de conjuntos y su aplicación a la rr^etodología F& H para la depuración de datos categóricos y nur^éricos. EI artículo ilustra, vía ejemplos, el papel de los edits implícitos en la determinación del conjunto de campos a borrar, el concepto de cobertura de conjuntos y el de conjunto mínimo de campos a borrar. 1.2. EI Sistema GEIS Funciones: G EIS es un sistema integrado por siete funciones principales que se utilizan para: definir y analizar los conjuntos de edits especificados por el usuario, chequear las registros de la encuesta y aplicar procedimientos múltiples de irnputación. Estas funciones están basadas en los supuestos de linealidad de los edits y la nonegatividad de los datos. (G EIS. Guía del usuario, p.1 ). Aunque no se hace constar específicamente, GEIS es un sistema general para la depuración y la imputación de datos numéricos. Especificaciones técnicas: G EIS ha sido diseñado para operar en distintas arquitecturas de sistemas. Es decir, GEIS trabaja tanto en grandes ordenadores, miniordenadores, ^^C/AT y cornpatibles. Está prograrnado en el lenguaje C e integrado en el Sistema de Gestión de Base de Datos ORACLE. Las facilidades interactivas de SQLFORM de ORACLE permiten la interacción usuariosist?ma Pn !as distintas fases de cl^efinición de la aplira^^ión; PI sistema opera en batch en fase de ejecución. Requisitos de software: EI compilador de1 lenguaje C y el SG B D ORACLE. EI sistema funciona con el sistema operativo MVS, el sistema multiusuario U N IX y el sistema operativo DOS. Trabaja en modo interactivo y en batch. Los usuarios de G EIS tienen que conocer el Structurated Query Language {SQL) utilizado por ORACLE para manejar la base de datos. lyy ^F't t FZ - t ^! Iti (x )^, ^,1^;1 E MA^ P ^R-^^ l^^ i)F F't Ft ^^< Ic )ti O tras características: Los metodólogos del sistema definieron claramente qué características debería incorporar un sistema genera! de depuración de datos. Tal y como ponen de manifiesto las especificaciones técnicas de G EI S, la primera característica es su portabilidad que le permite operar en las distintas arquitecturas de sistemas que existen en Statistics Canada. La segunda característica es su modularidad. Las funciones del sistema han sido programadas en módulos separados que se ejecutan de forma independiente; para funciones específicas, G EIS puede suministrar más de un módulo, que implementan metodologías alternativas. Portabilidad y modularidad aumentan la flexibilidad del sistema para adaptarle a los futuros desarrollos tecnológicos del hardware y del software. Finalmente, y como subraya el artículo de Kovar et al, "Overview...", G ElS tiene las características de Objetividad y de capacidad de reproducción. Esto es siendo un sistema fundamentado en una metodología probada, el usuario puede conocer y medir de anteman© las consecuencias de su estrategia de depuración. Desde el punto de vista operacional, dos aspectos a considerar: En primer lugar, es un sistema "user-friendly" para el usuario. Diseñado con el SQLFORM de ORACLE, la familiarización con las funciones interactivas del sistema no es difícil, incluso para expertos no inforrnáticos. En segundo lugar, la eficiencia del sistema, medida en términos de coste de recursos de ordenador, es variable; el coste aumenta considerablemente según el número de edits y registros en el fichero. En las distintas versiones del sistema, Ios metodólogos y el . personal de sistemas han trabajado para reducir el tiempo de ejecución y continuan elab©rando procedimientos que aumenten -la rapidez del sistema. G EIS limita el número máximo de edits y de variables a procesar por ejecución del sistema. Requiere igualmente procesar la encuesta por grupos de registros (ejemplo, por estratos). Ello se debe, primero, a la perdida de rendimiento del sistema al manejar un número elevado de varíables y segundo, a la limitación del sistema al no admitir los edits condicionales. Finalmente, GEIS no trabaja con ficheros multiregistros. G EIS provee de amplias referencias metodológicas, de manual de usuari© , ^^oúo de introducción de su rnetodología, el artículo de Kovar, MacMillan & Whitridge (1 988): Overview and Strategy for the Generalized Edit and lrrrputation System. Véase también el documento GEIS Generalized Edit and lmputation System; Specificati©ns (1 989), escrito por el grupa de desarrollo del sistema y que detalla los aspectos de su implementación. ^ L1 ... r Y rl T^^f V!'^ ^1 /'^ i^l f'^ ^^1 1'Y1 7 1 1 : i:(..ir^ i,.: ^I w.: v . i.,i i.... vf r J.^.,wv. ^^l r r1 . i....l a,w i w^ . r'. .^1 r .... v^v. i. .. eJtl . n /^ /r i. , V.J ^ LA\.il V, . , ^!^ /. i. V^,JI.^JV, ^Otl 2. t tit ^(^I^1 Ic ^^ f til^^^^^1 ^1 LA METODQLOGIA DE LOS SISTEMAS 2.1. Terminología EI lector interesado en el tema de la depuración está sin duda familiarizado con la terminología introducida por Fellegi & Holt. La terminología en español se presenta en el artículo de F&H traducido y publicado por Estadística Española, (1 9$0) y en la metodología DIA, que resume los conceptos e ilustra sus términos aplicandolos a la depuración de datos cualitativos. No siempre, sin embarga, los distintos sistemas utilizan la terminología con igual sentido; un ejemplo es la definición de EDIT: Mientras SPEER, siguiendo a Fellegi & Holt, define un edit como una condición de fallo (ver más abajo), G EIS lo define indistintamente como una condición de fallo o de aceptación. A continuación se resumen los conceptos básicos de la terminología aplicada a la depuración de datos cuantitativos. EI objeto de la detección y de la imputación de errores es un fichero de datos con registros procedentes de una encuesta; cada registro tiene q valores que recogen las respuestas a las variables del cuestionario. Los q valores de las variables se representan por un vector: x = (x,, x2, x3... x^ ^ . Un edit ei, puede representarse como una función de los valores de las variables del registro, es decir: ei : f (xÍ < - b. ^os sistemas basados en la metodología de F& H expresan el conjunto de edits explícitos como igualdades y desigualdades lineales en el espacio R`'; en términos generales, un edit ei, expresado como una condición de aceptación, toma la siguiente forma: a,, x, + a,2x2 + a,3x3 +... + a,^xQ ^= b,, [2.1 a , 0 + ai2x2 + a,^x3 + ... + a,Qxy = b2, [2.1 b] Si a,^ ^ 0, se dice que la variable xl entra en el edit ei y que es una '"variable activa" en el edit ei. EI conjunto de edits explícitos, ^, E _ { e, : ^.^ a,^x^ < = b,; i=1 ... m }, ^ tif't 1 K-( ^t Iti f>(^^ ^;I^ T^f ti1 ^^S ^' ^k ^ t Z I^f I'1 R 1^ I(l\ se representa en notación matricial de la forma siguiente: Ax < = b [2.1 ] donde A es la matriz de coeficientes m x q b es un vector m x 1 de constantes x es el vector q x 1 de las variables estudiadas. Cada condición en [2.1 ] es un hiperplano que divide el espacio RQ. EI conjunto de edits de [2.1 ], expresados como condiciones de aceptación, define un poliedro convexo en el espacio Ra y define la región de aceptación para los registros de la encuesta. Si el conjunto de [2.1 ] define un espacio vacío, el conjunto de edits originales o explícitos es inconsistente o nulo. Dado un conjunto consistente de edits, cada punto x=(x,, x2, ..., xQ) de la región de aceptación representa una combinación posible de valores válidos de los campos del registro. Implicaciones lógicas de los edits explícitos permiten la generación de edits implicitos, concepto importante en la metodología de F&H. Los edits implícitos pueden definirse de la siguiente manera: Una combinación lineal de k edits (2 <= k<= q) define un edit impiícito si k1 variables activas (k1 < k) en los edits generadores no están activas en el edit implícito. La generación de edits implícitos es un proceso iterativo en que cualquier edit esencialmente nuevo en la iteración t-1 entra en la base de edits para la iteración t. EI conjunto de edits explícitos y de edits implícitos esencialmente nuevos forman el Conjunto Completo de Edits. Tal como lo demuestra F&H, la generación de edits implícitos tiene dos finalidades: En primer lugar, permiten un análisis de inconsistencia del conjunto explícito de edits. En segundo lugar, con el Conjunt^ Completo de Edits se determina el conjunto mínimo de campos que "cubren" los edits fallados por un registro inconsistente. Dado que la generación de edits implícitos es un proceso recursivo que puede ser indefinido, dificultando así la solución al problema de la generación del Conjunto Completo de Edits, los sistemas aquí analizados o bien limitan el tipo de edits que el sistema admite (SPEER) o bien limitan su función en el conjunto del sistema (G EIS). Se denomina Localización de Campos , a Imputar a la función de determinación del conjunto mínimo de campos a corregir o imputar para que el registro quede consistente. Se denomina Imputación a la función de asignación de valores válidos a los campos marcados como "campos a imputar"' en las etapas anteriores del proceso. EI registro imputado será consistente si cae dentro de la región de aceptación de los registros de la encuesta. f tii ^11)Itil It > E `^f'^tititll ^ 2.2. EI conjunto de datos utilizado en el presente estudio Para ilustrar diferentes aspectos de la metodología de SPEER y G E15 y para comparar sus resultados, se ha utilizado un fichero de prueba. EI fichero tiene los registros de una encuesta sobre comercio al por menor realizada en Statistics Canada, y cuyas variables son SALAR IOS, COM PR, T41 (existencias periodo inicial), TCI (existencias periodo final), VENTAS y T^lENTAS tventas totales}. EI número de registros son 201 pertenecientes a una misma actividad. La misma serie de edits definida para depurar la encuesta fue utilizada en ambos sistemas. 2.3. EI Sistema SPEER SPEER es el acrónimo de "Structured Program for Editing and Referral". Utiliza la formulación de un problema de programación lineal entera para localizar los errores en los valores de las variables en encuestas con datos cuantitativos. EI sistema utiliza la teoría de gráfos y técnicas estadísticas para resolver el problema de la detección y de la imputación de datos. EI cuadro [2.3) presenta las funciones principales del sistema SPEER: Cuadro [2.3] FUNCIOlVES EN SPEER 1) ^;ENERAC'lON DE EDITS ( Edits implícitos) ^) CHEQU EO DE ED1TS 3) LOC'ALIZ.AC'lON DE ERRORFS 4) iMPUTACI©N 2.3. 1. DEFIN/CION DE ED/TS Y GENERA C/ON DE ED/TS /MPLIC/TOS En [2.1 a) y[2.1 b] se presentó la forma general de los edits lineales. SPEER restringe la definición de los edits ei, de la forma siguiente: Sólo dos de las q variables pueden ser variables activas en un edit y la constante b,=0. De hecho, en SPEER se define un conjunto de edits de razón que, en forma de condiciones de aceptación, se presentan así: Lkh C= Xk / Xh C = U kh [^. 3 .1 a] !^F'F F R-(^F I^, CX)ti SIST^.M ^S C'•>R^ L^ UE-F't R^^( I()ti L kh <= rXk ^ Xh) ^^X(k 1l ^ X/h-1 /) C-` U kh [2.3.1 bJ Obsérvese que [2.3.1 aJ puede expresarse, con la sintaxis estándar de los edits, como: Lkh* Xh - Xk < = O Ukh*Xh ♦ Xk < = o De la misma forma, [2.3.1 b] puede expresarse como (1 ): Lkh#Xh* ^X(k- 1 J / X(h-1)) Xk C-^ U kh * Xh *`X(k l J ^ X(h- 1 l) + Xk ^= o EI cuadro siguiente presenta un ejemplo de edits explícitos definidos para depurar nuestro fichero de prueba. r-- Cuadro [2.3.1 a]: Edits explícitos en S P E E R-•--^ 0.03 < = SALARIOS / TVENTAS < = 0.5 0.4 < = COMPR / VENTAS < = 1.3 0.7 <= VENTAS 1 TVENTAS <= 1 0.3 <=TOI/TCI<=2.9 Los edits implícitos: Cualquier par de edits del tipo [2.3.1 a] tales como ^-kh Lh^ < = Xk ^ Xh < = U kh <= X h/ X^ <= U hl permite la generación del edit implícito: L kh* Lh^ <= Xk ^ X^ < = U kh* U h1 EI Conjunto Completo de Edits Implícitos se genera de esta manera. Greenberg (1 982), observa que pueden generarse como máximo n,n-1 ) (1 ): Observar el tipo de edits definido en (2.3.1 b^. Son edits de raián entre valores de la misma variable en dos períodos distintos y donde x(h 1^ y x^k_1^ se toman como constante; estos edits dan lugar a un par de desigualdades lineales (ed^ts), específ^cos para cada registro. f^ l•^f^lti T lc •^ f ti1^^1 tic ^( •^ edits implícitos. Los edits implícitos en la metodología SPEER, son: 1) Un instrumento para analizar los edits definidos por los usuarios. 2) Los edits que completan el conjunto de edits definidos por el usuario. Así por ejemplo, los edits implícitos a partir de los edits definidos en cuadro [2.3.1 aJ, son: r--Cuadro [2.3.1 b): Edits implicitos en SPEER 0.28 <= COM PR / TVENTAS <= I.3 0.56 <= COM PR / SALARIOS <= 47.2 0.04 < w SALARIOS / VENTAS <= 0.5 La unión de edits explícitos e implícitos definen en Conjunto Completo de Edits. En nuestro ejemplo, el conjunto completo, expresado en forma lineal ^formato 2.1 y serían: Cuadro [2.3.1 cJ: EI Conjunto completo de Edits para el fichero de prueba e I: e2 : -SA LA R I OS + SA LA R IOS - .54TVENTAS .03TVENTAS e3: e4: -COMPR + COM PR - I . 3 V ENTAS .40VENTAS e5: - .7TVENTAS + >0 eb: + .TVENTAS - VENTAS VENTAS e7: - 0.30TC1 + TOI e8: + 2.91 TCI - TfJ I >0 >0 e9: e 10: .5 VENTAS - .04VE NT^AS - SA LA R I OS + SA LA R IOS >0 >0 e1l: + I .3TVENTAS - >0 >0 >o >0 >0 e 12: COM PR -0.2^3TVENT'AS + COM PR ^0 >0 e 13: -.SbS^,LARIOS + C`OMPR >0 e 14: 47.2SA LA R I OS - C'OM PR ^0 St't f_.Ft-(;E I^. [^()S SIS7E.!^11ti P:^FL^ t_^1 [UE Nl k^^C l()ti ^^)5 Un registro se considera con error si falla cualquiera de los edits del Conjunto Completo de Edits. Después de 1a fase de chequeo de edits, el problema consiste en localizar el número mínimo {ponderado) de campos a eliminar, de forma tal que los campos restantes del registro sean mutuamente consistentes. Este problema se conoce como el Problema de la Localización de Errores. 2. 3. ^. L© CA L/ZA C/ON DE ER R C7^ RES: E/ pr©blem a de la cobertura de conjuntos Greenberg, (1 986) demuestra la relac^ón que existe entre 1) los campos a eliminar (en los registros que fallan los edits), 2) el subconjunto de campos mutuamente consistente y 3) e{ Conjunto Completo de Edits. En la terminología del sistema, un Conjunto de Elirninación son los valores de{ registro que basta modificar para que el registro quede consistente. Se necesita únicamente el conjunto de ed^ts explícitos para detectar un registro con error, pero se necesita el Conjunto Cornpleto de Edits para determinar e! Conjunto de Eliminación (G reenberg, (1 986) pg. 1 526). Para determinar el conjunto de eliminación, el sistema resuelve un problema de programación lineal entera que se conoce como el Problema de Cobertura de Conjuntos. En el cuadro [2.3.3.) de la página siguiente se plantea el Problema de Localización de Errores y un ejemplo. Su cornprensión no es necesaria para continuar con esta lectu ra. t^ t^^ r^i^ r ic a t tit^ ^^c ^t ^^ Cuadro ^2.3.3]: EI problema de !a cobertura de conjuntos ^'onsid ^ rese un re^istro ^ que falla cu^^lquier suhconjunto de eciiis en A^ ^= b. E1 sistema intenta minimizar la suma ponderada de campos a modif^car. E1 prohlema se enuncia de la manera siguiente: Función objetivo: M I N{ w' u( Bu >= 1 } u donde u= es un vector (qx I), de valores cero y uno u, = 1^i el campa x, se modifica u, = 0 si el campo x, no se modifica w en un vector de pesos {qx 1) función de la fiabilidad de los ca m pos 1 si el campo j entra en el edit e 0 en los demás casos E1 conjunto de restricciones Bu >= I^arantiza que al menos uno de los campos que entran en cada edit f'all^do camhie. Bu se define con los edits tailados del conjunto con^pleto de edits. E:4iemplo ^2._^.2^ EI si^uiente EJEM PLO ilustra !a definición de la matriz B en el prohlema de {a Localización de errores. Supon^ar^^os que un re^istro dcl fic.^hcro a de^u^-ar ticne los si^uientes valores: { S^LARIOS,COMf'R,TOI,TC'I,VENT^S,TVENTAS }_ _{ v,, v,, v^, v,^, v 5, v^, }_{ 1 50, 7 5, SU,fi(),1()(),?UO } l.,^i e^truc.^tur^i de edits t^ill^^dc^s d^idcj el cc^^^ju^^tC^ cc^r»pleto en [2•3•2c] sería: vl, v?, v3, v4, v5, v^^ e! 1 () ey I 1 (J 1 () 0 O U 0 0 0 1 1 0 0 0 el^ til't t Fl t^t Iti ( N^^, tilti f F ti1 ^ti f' ^Fi ^ 1 ^(^F ^'I R^t It lti ?07 Una Solución heurística del problema de la LOCALIZACION DE ERRORES. E1 problema de determinar el conjunto mínimo de campos a borrar, se resuelve en SPEER con un procedimiento altamente eficiente. E1 sistema utiliza un procedimiento heurístico derivado de la Teoría de Gráfos, (1 ). Cada campo de un registro es un nodo para SPEER. Cada edit traza un arco que une los nodos activos del edit. La localización de Errores es un problema de desconexión en el gráfo de los edit fallados por un registro. Es decir, para cada registro que falla un subconjunto de edits, SPEER ' dibuja' el gráfo correspondiente, enlazando los nodos ^los campos activos) en los edits fallados. Para desconectar el gráfo trazado, SPEER borra uno a uno y con un criterio definido, tales nodos (i.e., borra el valor del campo) hasta que no haya más nodos enlazados o, lo que es lo mismo, más edits fallados. EI usuario puede asignar un peso a cada campo como una medida de su fiabilidad. (La ponderación por defecto = 1). A menor fiabilidad del campo, mayor peso. EI criterio que utiliza SPEER para borrar los campos es el siguiente: Pondera por el peso el número de veces que un campo entra en los edits fallados y borra el campo con valor más alto. EI procedimiento termina una vez que no haya más edits fallados Ii.e., que el gráfo esté totalmente desconectadol. La metodología demuestra que los campos correspondientes a nodos no borrados y los campos que no figuran en el gráfo, son mutuamente consistentes. (1 ^ De hecho, SPEER interpreta como un problema de Teoría de Gráfos tanto la Generación de Edits Implicitos como la Localización de Errores. ^a Generación de Edits Implícitos, se considera como una forma cfe completar el _yráfo definido por la serie explícita de edits, E ST -^DItiT I(^-+^ F SF' ^til)l ^^ ^O}{ EI cuadro recoge el gráfo de edits #allado en el ejemplo presentado en [2.3.2 ]: Grafo para la Localización de errores del ejemplo [2.3.2] C3e acuerdo con la metodolo^ía de SPEER, el primer nodo a borrar sería nodo l. EI gráto quedará asi: Observar que el campo v 1= SALARIOS es activo en todos los edits fallados. La solución al problema de localizar el mínimo número de campos a borrar sería la de borrar el campo SALARIOS. El subconjunto de carnpos restant^.^s en el re^;i5tro no falla ningún edit; lo que significa que form^^n un subconjunto de campos mutuamente consistente. 2.3.3. Los procedimíentos de imputación Como se indicó anteriormente, SPEER no provee procedimientos generales de imputación. Estos deben programarse a medida para la encuesta. E1 sistema facilita los rnedios para garantizar que los resultados de la imputación no vulneren el conjunto de edits previarnente definidos. En el módulo de imputacián, las rutinas generales que ofrece son las siguientes. tiF'F F R--( ^ E Iti. (X)ti ^I^1 E!^1 •^^ N:^R^> l^ ^ f3t I'l Ft ^^c It )^ 2.3.3. 1. Determinación de la región de aceptación de /os va/ores a imputar: SPEER obtiene para cada campo de^ registro su rango de aceptación correspondiente. Cuanda el usuario define el conjunto de edits de razón, implícitamente está definiendo el rango de aceptación de los valores de cada campo. Es decir, un edit del tipo Lk,, ^= xk/x,, ^= Uk,,, define el intervalo de aceptación de los valores de xk entre (x,,' Lk,,, x,,' Ukh), siendo "xk" el campo a imputar y"x,," cualquier campo consistente o previamente c^rregido. Existen tantos intervalos de aceptación como edits que relacionan a "xk" con campos consistentes "x,,". La intersección de todos los intervalos posibles de xk, (x,* Lk,,, x,* Ukj,) define el rango de aceptación de xk. La metodología demuestra que cualquier valor de xk comprendido en dicho intervalo será consistente con los valores ya aceptados del registro. EI procedimiento funciona secuencialmente campo a campo. Es decir una vez que un campo ha sido imputado, su valor entra a determinar el rango de aceptación de los siguientes campos a imputar. 2.3.3.2. Las estrategias de imputación Por lo que se refiere a las estrategias de imputación, los metodólogos sugieren que se definan, por orden de prioridad, una serie de procedimientos de imputación. Una primera estrategia, que el sistema incorpora y ap^ica siempre que es posible, es la siguiente: Transforrna la unidad de medida del valor del campo para comprobar si hay errores de unidades. Por ejemplo, un valor pudo contestarse en miles en vez de en millones como se pedía. Esta regla de imputación, recoge la filosofía básica de SPEER de respetar en la medida de lo posible los valores del cuestionario. EI sistema provee también valores por defecto para el caso en que ninguno de los procedimientos de imputación prograrnados a medida encuentren un valor válido para el campo a imputar. En modo interactivo, el sistema admite la corrección manual, y provee, además, un instrumento que da flexibilidad a! sistema. Este es el multipiicador, que funciona de la manera siguiente: Si el experto desea imputar un valor que el sistema rechaza, puede ampliar el rango de aceptación del campo utilizando para ello un factor multiplicador. Una vez aplicado el multiplicador a un campo del registro, el rango de aceptación del resto de los campos del registro quedan afectados por dicho multiplicador. _' I O F^I •1f)ISi l( ^1 E til'^`(ll 1 2.3.4. E/ tipo de campos en SPEER Lo expuesto a continuación se refiere más concretamente a la implementación del sisterna SPEER que a su metodología pero es de interés para los que estudien y apliquen SPEER en sus encuestas. No todos los campos de un registro se interrelacionan de igual forma. Teniendo esto en cuenta, S PE E R clasifica los ca m pos de u n registro en B AS I C, SATE LLITE y de DETAIL. Los campos BASIC son los que están mutuamente interrelacionados. Los campos SATELLITE son los que están relacionados con una sola variable. Los campos DETAIL son aquellos cuyo valor es un sumando del valor de un campo de totales. Estos campos dan lugar a edits del tipo: SUM (x,,...xk^ = x^ (i,...k ^ jy SPEER generalmente considera el campo total, x^, como un campo BASIC y los campos sumandos (x,,...xk) como campos DETAIL. La depuración se realiza por tipos campos, de forma secuencial. Es decir, primero se comprueba y generan los edits implícitos de los campos BASIC. Una vez depurados éstos, el sistema trabaja con la depuración de SATELLITES. Finalmente trata los campos DETA^L. 2.3.5. Resumen y Organíg^ama c^e Funciones SPEER es un sistema integrado por módulos generales y módulos definidos específicamente para la encuesta. Los primeros implementan la metodología de Fellegi & Holt para la dep^ración de datos en encuestas con variables numéricas. La fig. [2.3.5] a continuación presenta los módulos generales de SPEER y el flujo del sistema. ^F'F ! Ft (^I Iti (xl^ tiftif F^11ti F'^R-^ F^1 OF F'! Ft 1( I(1` Figura: 2.3.5 !) L.te y al^-+acena valores centrales 2i L.eer y alr^iCeni edits iMpl iGftos ) L.ee reqi stros por pantil 1 a o t^ c 1 a d o. i) 2) i^icializa ^+ariables DeterMina el eonJunto de edits en e l rt+,^^stro. i usar es con e 1 conJunto Oetec ta erro ^ Mp^lci tos. da ed^ ts l os ca-•pos a borrar. t^ Local i za 21 Borra 1 os ca^+pos. as i çnandoles vilor --1. el t^ DeterN+ina el ra^^lo ds a^ept:c^on pxri las caMpos a borrar_ 21 Obti ene vilor esti^+ido pari iN+p. C h^ que a 1 o s r e Q i s tro z d e s pue s d e iMputac ion. T^+priMe reqi stro. Conytinu^, con el proxiMo reQistro C i erra e 1 proceso . LooSE [NOi E^STAC^IST!(',A E:SPA^+()L_.A 2.4. EI sistema GEIS G EIS es un sistema general para la depuración y la imputacián de datos numéricos; es el acrónimo de Generalized Editing and Imputation System. Técnicas de investigación operativa, de programacián lineal, el problema del "matching" y la técnica de imputación tipo donor constituyen la base del sistema G EI S. 2. ^. ^. L os Edi ts en GE/S La primera entrada al sistema GEIS son los EDITS definidos por los expertos de la encuesta a depurar. Los Edits son limitaciones lógicas de los datos que permiten bien aceptar o rechazar el registro que los satisfacen. A este conjunto de edits se le denomina conjunto de edits explícitos. Como mencionábamos en la terminología, los edits de G EIS son desigualdades o igualdades lineales de la forma: E a;f x^ < b, ó^ a;^ x^ _ Í % Las (des)igualdades expresan las condiciones de fa11o o de aceptación. Como primera tarea, G EI S transforma los edits especificados por el usuario en lo que Ilama su forma normal. -Estos, después de añadir las restricciones de positividad, x^ >= 0, definen el sistema: A, x- b, c= 0 AZ x - b2 = 0 [ 2. 4.1 ] donde A, y A2 son las matrices de los coeficientes de las desigualdades y de las igualdades respectivamente; b, y b2 son vectores de constantes. x defin^e el vector de las variables a depurar. EI sistema [2.4.1 ] define la región de aceptación de los registros en el espacio Rp; de esta manera, cualquier registro del conjunto de datos que satisface el sistema es un registro aceptado en el proceso de depuración. Los edits en GEIS son edits numéricos. GEIS no trabaja con edits numéricos condicionales. EI cuadro [2.4.1 ] presenta ires tipos de restricciones que G EIS impone en la definición de sus edits y algunas soluciones propuestas para evitarlas: ^f'f E R-{^E Iti [x)ti tii^l E ti1-^ti f'1R^1 l^•^ f)f F't R 1( 1(1\ Cuadro ( 2.4.1 ] Restriccianes en GEiS 1) La restricción de linealidad: Es decir, el sistema no admite edi \s tales como ei; x;*x; = xk i, j^ k. 2) La limitación de positividad: x, >= 0 3) No admite edits numéricós condicionaies. Si dichas restriceiones se dan en número limitado se pueden aplicar algunas soluciones. Restricción 1) puede obviarse transformando las variables activas en el edit. Por ejemplo, el edit ei admite la transforrnación log. ei: log(x;) + log(x^) < = log(xk) Restricción 2) puede obviarse sumando una constante alta a los valores de la variable. Restricción 3) puede obviarse si el fichero de datos puede subdividirse en grupos de registros mutuamente excluyentes y exhaustivos para ser depurados con diferentes grupos de edits. 2.4. 2. A ná/isis de Edits EI cuadro 2.4.2 presenta los tres módulos que realizan en G EIS la función de análisis de los edits: r--Cuadro ( 2.4.2]: Módulos de análisis de edits: --^ 1) CHEQUEO DE ED1TS 2) GENERACION DE ED1TS IM PLIC'1T05 3) GENERACION DE PUNTOS EXTREMOS ^STAf)I^ f IC'A f SPA^i()LA 2.^.2.1 El chequeo de Edits EI chequeo de Edits consiste en determínar el conjunto mínimo de edits que definen la región de aceptación de los registros, comprobanda al misrno tiempo si existe ta! regidn. Por !o tanto, G EI S chequea el con ju nto original de edits para detectar 1) inconsistencia; 2) redundancia y 3) igua!dades ocuitas o determinancia. Según G iles (1986), • Una serie de edits es incansistente si la región de aceptación está vacía. • Un edit es redundante si no interviene en la definición de la región de aceptación. • Un conjunto de edits define una situación de determinada si define un conjunto único de valores válidos para las variables del registro o define un único valor válido para un subconjunto de variables. G EIS utiliza técnicas de programación lineal para realizar las sucesivas etapas del chequeo de los edits. Camo referencia a este métado véase el documento MODULE ED-ANAL (1 ) y G iles (1 986, 1 989). En general, un problema de Programación Lineal (PL) intenta maximizar (o minimizar) una función lineal S: C'x, sujeta a(des)igualdades lineales: Ax < b y a restricciones de positividad: x>= 0. Es decír: Max ( M i n ) x { C ' x ^ Ax < b y x >= 0 } En los distintos problemas de programacíón lineal que el sistema resuelve al ejecutar la función de chequeo, la función objetivo S y las restricciones varían. En el test de consistencia, el sistema c©mprueba si existe al menos una solución posible al problema de programación lineal. Cualquier función objetivo seleccionada basta para probar la consistencia. Para la detección de redundancia, el procedimiento analiza sucesivamente cada edit, ei, del conjunto de edits de igualdad y de desigualdad (por este orden). Según Giles, el procedimiento consta de dos etapas. En la primera etapa el sistema determina si alguno de los edits está fuera de la regíón de aceptación. En la segunda etapa comprueba si los edits son tangentes a la región de aceptación. EI cuadro siguiente plantea los dos problemas de programación lineal que G EI S resuelve para cada edit. Consideramos el caso de un edit de desigualdad. ^F'F F F2-(^F.Iti. F)Oti SItiTF-^1:1ti P^1FtA LA nF Pl R,^(^IOti ?^5 r--Cuadro [2.4.2a]: Problema para resolver la REDUNDANCIA----^ de un edit ei Primera etapa Max { a;'x-b; ^ A x<- b y^c > 0} x (Observar que A t<= b incluye el edit ei.) EI edit, ei es RED[..JNDANTE si Max ei < o Segunda etapa Max { a;'Y-b; ( A^ r<= b^ y^c > 0} x (Observar que A^ x<= b^ no incluye el edit ei ni los edits redundantes eliminados en primera etapa) El edit, ei es REDUNDANTE(tangente) si Max ei = 0 Los edits restantes ( no redundantesy forman el conjunto mínirno de edits en el sistema. En su proceso, GEIS informa sobre los edits redundantes y su tipo de redundancia. Para comprobar la posible determinancia, el sistema resuelve para cada variable los dos problemas de programación lineal siguientes: Cuadro [2.4.2b]: Los problemas lineales para comprobar DETERMINANCIA 1) Max { x ^ At ^< = b y^>= ll } ~) ^v^ Í i f ^:^ j^^^ :i ^, = ii ^ ti,^ - i j La DETERMINANCIA ocurre si Max x, = Min x, para al,^ún i EI sistema ohtiene, como suhproducto d^^ etite chequeo de determinancia, los límites superiores e inferiores de las v^iriahles. t tir nn^^+ric ^ t tir>^^tic^t ^^ 2.4. 2. 2. L os edits implícitos G EIS utiliza el algoritmo de Chernikova para la generación de los edits implícitos. Schiopu-Kratina y Kovar definen el edit implícito de la siguiente manera: Una desigualdad lineal asociada a un sistema de edits expresado como m desigualdades lineales con q variables, constituye un edit implícito para el sistema si es una combinación lineal con coeficientes positivos de k> 1 edits y contiene como máximo q-k + 1 va riables con coeficientes distintos de 0. Los edits implícitos no tienen un papel primordial en el sistema GEIS y sólo son un instru mento para diagnosticar posibles errores de especificación en el conjunto original de edits. Véase GEIS, Module ED-ANAL (3) para una explicación detallada del uso del algoritmo de Chernikova en la generación de Ios edits implícitos y de las reglas para generar los mismos, 2.4. ^. 3. L os puntos extremos Teóricamente, son el resultado de las intersecciones posibles de m edits de los (m + q) edits del conjunto. Los puntos extremos que determinan los vértices de 1a región de aceptación representan los posibles valores de un registro ficticio que sería aceptado por el sistema. Como tales, los puntos extremos facilitan otro instrumento analítico de los edits para el usua,rio. En el caso de que los valores extremos detectasen combinaciones no deseadas de valores, el usuaria podrá redefinir el conjunto original de edits. G EIS utiliza el algoritmo de Chernikova para la generación de los puntos exiremos. Su utilización está basada en la correspondencia entre un poliedro convexa y un cono poliédrico convexo. (Rubin (1975 p.557} }. ,2.4.3. Aplicaciones de los Edits Este módulo evalua cada registro en el sistema [2.4.1 ]. EI resultado de esta función de chequeo de los registros es un conjunto de tablas de diagnóstico. Los edits estadísticos. Además de los errores detectados por la aplicación de edits, G EIS comprueba los registros con valores outliers. Un valor es outlier si se halla fuera de Ios limites definidos por k veces la primera y la tercera distancia intercuartílica. EI sistema admite dos valores de k, k1 y k2 para distinguir entre outliers no severos (outliers NS©) y outliers severos (outliers SO1. EI usuario puede decidir si un valor SO ha de ser imputa- til'( ( Ft -(^f I^. (X)ti tilti 1( tit titi (' ^ K 1 I ^()( ('( R^( I()^, ?17 do. Los campos SO y NSO no se toman en consideración, salvo excepciones, en las rutinas de Imputación. 2.4.4. Loca/ización de errores Esta función de G EIS resuelve el problema de localizar los campos a imputar. Es decir, el problema de identificar para cada registro el menor número ponderado de campos a imputar (principio establecido en Fellegi & Holt (1976) ). La metodolog^a para la localización de errores en el caso cuantitativo se define en Sande (1978) y se aplicó por primera vez en el sisterna NEIS. Boucaud, et al (1 989) presentan una excelente aproximación al método de la localización de errores con el algoritmo de Chernikova. Un resumen del método se presenta a continuación. Si un registro, x, falla el conjunto de edits, el registro cae fuera de la región de aceptación. En este caso se puede aplicar a los valores de x una corrección positiva o negativa de manera que el registro corregido caiga dentro de la región de aceptación. Sea x el registro a corregir; sean y y z correcciones positivas y negativas a los valores del registro, y sea (x + y- z), el registro corregido. EI problema consiste en encontrar un vector de este tipo (y - z) con las siguientes restricciones: Restricción 1: Siempre que y, > 0, z, = 0 y viceversa. Es decir: es posible aplicar a x, una corrección positiva o negativa pero no las dos a la vez. Esta restricción se conoce como la condición complementar^a, y tiene la sigu iente expresión z'y = 0; Restricción 2: La cardinalidad del vector (y - z) tiene que ser mínima. La cardinalidad de un vector es el número de sus elementos distintos de cero. Esta restricción permite seleccionar (y - z) entre la clase de vectores apropiados y satisfacer el principio F& H. La función de cardinalidad se representa por N(y - z^. EI cuadro [2.4.4a^ presenta el problerna a resolver. ^uadro [2.4.4a]: EI problema de LOCALIZACIONES DE ERRORES Min{N(y-i) ^ A ( ^+y-z) -= = b, x+y-z > _ (), y, ^ ^ _ (), .^y = o, N( y-^) < _ k } E^sr^ar^^s^^^^^A es^nti<^t.^^ 18 La últíma restricción se impone si el usuario desea limitar aún más la cantidad de campos a imputar (k < q). Una ligera modificación de la función objetivo en [2.4.4a] da al usuario la flexibilidad de asígnar un pesa diferente a los campos; el peso, w, es una medida de la fiabilidad del valor dei campo. En G E1S, un mayor peso significa una mayor fiabilídad del campo. Por lo tanto, el problema de la localizacíón de errores se puede replantear como el de minímízar la suma ponderada de campos a modificar. Llamando 'v;' a una variable binaría tal que u, 1 0 si y;>0 ó z;>0; en otros casos tenemos una nueva formulación del problema de localización de errores ^Cuadro ^2.4.4b]: EI problema de LOCALIZACIONES DE ERRORES: rVl i n{^; w, u; ^ A( x+y-z) <^ b, u x+y-z > = o, y,z>=o, z'y-0, N(y-z) < = k } Sin embargo, este sistema no puede resolverse como un problema de programación lineal. En primer lugar, la función objetivo Min(^:, w,u,) no es una función lineal continua. Tampoco la Condición Complementaria (z'y=C^ es una restricción lineal. Para resolver el problema, GEIS elimina ^as últirnas dos restricciones del sistema [2.4.4b] y lo replantea como un Problema Lineal de Restricciones de Cardinalidad. Ello es posibie dadas las dos proposiciones que se definen en Schiopu-Kratina & Kovar (1989): Proposición 1: La cardinalidad de un vector (y,, y2,...yQ; z,, z2,...zQ) en R2Q supera ^a cardina^idad del vector reducido asociado ( y,-a,, y2-a2...; z,-a,,z2-a2,...) donde a,, = min (Y,,z;j; SPF= F R-(;E IS. [xlti tiIS^TE-.M :^S PAR:^ F_A DF= Pl R:^C^IOti ?19 Proposición 2: Si un vector satisface el sistema [2.4.4c] A(y-zj < - b-Ax y-z > = x y,z > = 0 sin la condición complementaria, entonces el vector reducido asociado satisface también el sistema. G EIS trabaja con el sistema [2.4.4c] que es el sistema [2.4.4b] después de suprimir las dos últimas restricciones y de sustituir el vector x por sus valores conocidos. Cuando el algoritmo de Chernikova aplicado al sistema [2.4.4c] finaliza, los campos correspondientes a las coordenadas de los puntos extremos con la mínima suma ponderada son "marcados'" para su imputación. (Es posible que más de una combinación de campos minirnicen el valor, en cuyo caso el sistema selecciona uno al azarl. 2.4.5. La función de imputación La imputación de datos es un proceso de estimación de los valores identificados como erróneos. GEIS ofrece tres módulos diferentes de Imputación Automática, como se recoge en Cuadro 2.4.5 Cuadro [2.4.5]: Módulos en la Función de IMPUTACION 1) LA [MPUTACION DETERMINISTIC~A 2) LA [MPUTAC[ON DEL ESTIMADOR 3) LA [MPUTACION DONOR Pasamos a analizar los métodos de la imputación determinística y la imputación Donor. 2.4.5.1 /mputación Determinística La imputación determinística comprueba si existe un valor único que satisfaga todos los edits. Para cada _registro a imputar, el sistema define el subsistema de edits activos en el registro (un edit es activo si tiene uno 0 varios campos a imputar), y a partir de él, define el sistema reducido al número de variables a imputar. Es decír, después del proceso de localización de errores, x puede representarse por: x=(xrn, xdj donde x,,, es el subvector de las variables a imputar y x,i el subvector de las variables conocidas. Una vez que se sustituye xd por su valor y se opera algebraica- r^:-r ^1r^iti r ic ^1 r^;r^ ^yr^r. 1 ^^0 mente, G E I S opera con el "sistema reducido`" en el espacio de x^, y cuya expresión es: [2.4.5a] A,^, x,^ ^ = b, A^,^ xm = ba,^ x,,, > - O Para cada variable del vector xfi, por ejemplo, la variable xk, el sistema resuelve dos problemas de PL: Max xk y Min xk sujetos a las restricciones en [2.4.5aj. Si Max xk = Min xk, existe una solución única para xk y ésta se imputa en el campo xk. (Recuérdese que se utilizaba el mismo procedimiénto para controlar la determinancia}. 2.4.5.2. /mputación DONQR La imputación Donor es otra de las funciones interesantes de G EIS. EI método consiste en "casar" un registro con campos a imputar (registro candidato) con un registro del conjunto de registros aceptados en la fase de detección de errores (registro donor), y en asignar a los campos dei registro candidato ios valores de ios campos correspondientes en el registro donor. De este modo, el procedimiento asegura que el registro candidato 1 i pase todos los edits y 2} mantenga la estructura de correlación entre las variables. EI cuadro [2.4.5] recoge los módulos GEIS en la imputación DONOR: Cuadro [2.4.5^: Los módulos GEIS de la IMPUTACI4N DONOR 1) DETERMINA^ION DE LAS VARIABLES "MAT^HING" . 2) TRANSFORMAC'iON DE LOS C'AMPOS "MA^F'CH1NG" 3) CREAC'ION DEL ARSOL KD ^. ^. 5. 2. 1 DETERI!/1/N,4 CIQN ©E LA S VA R1A BL ES "MA TC,HING " Teóricamente, las variabies "'matching" son aquellas que no necesitan ser imputadas en et registro candidato y que están altamente correlacionadas con 1as variables que sí necesitan ser imputadas. EI método utilizado para determinar los campos "matching" está descrito en GEIS, M©DULE MATCH-FIELD. Véase también el documenta de especificaciones Gene^alized Edit and lmputation System,- Specifications (pg. 923}. SPEIr^.R-(;EIS, CX^S SISTEti1AS PAft^l L:^ [)E Nl ft•^( 1()ti ^^ ^ Para determinar ias variables matching, se obtiene para cada registro el sistema "'reducido"", tal como se describe en la imputación determinística, y se eliminan las desigualdades redundantes que se hallan completamente fuera de su región de aceptación (2^. (Recuérdese que en el sistema reducido sólo se consideraban los edits activos). Los campos del sistema reusltante que no están marcados para imputar son los campos matching. Puede ocurrir que resulte un conjunto vacío en cuyo caso el registro no tiene campos "matching" automáticamente seleccionados. AI conjunto de campos "matching" seleccionados por el sistema, el experto puede añadir otros campos que desea forzar como ""matching". Los campos "matching" seleccionados por el sistema y por el usuario son el input en la etapa siguiente del proceso que es la transformación de camp os. 2. 4. 5. 2. 2 TRA NSFORMA CION DE L OS CA MPOS "MA TCHING" La transformación de los valores de los campos "matching" a una escala común es un mecanismo para suprimir cualquier efecto de escala en fos valores de las variables, Entre las posibles alternativas para transformar las variables a una escala común, están la transformación de rango y la de localización. GEIS elige la primera. EI algoritmo para la transformación de rango trabaja, secuencialmente, variable a variable, de la forma siguiente: Primero, selecciona los regístros de la población donor y de la población candidata, que tienen un valor válido para la variable en análisis y los clasifica. Segundo, asigna un número de secuencia (rango) a cada uno de los valores, empezando con el valor 1. Los campos con valores iguales tendrán rangos iguales. Finalmente, calcula el valor transformado como sigue: rango /(número de registros seleccionados + 1) EI resultado de ia transformación es una distribución uniforme de las variables matching. Con ellos, el sistema construye un árbol K-D. 2. 4. 5. 2. 3 EL .4 RB OL K-D EI árbol K-D es un método de búsqueda binario que ayuda a seleccionar el donor más próximo a cada candidato, EI árbol se construye al dividir los (2 ) EI procedimiento de detección de edits rpdundantes es el rnismo c^ue el descrito en la función de chequeo de edits. E ti^T-^[^)tti1l(^^1 l 4f'-1ti(1LA registros por la mediana de la variable que tiene la máxima dispersión (en valores transformadosj. En cada nodo del árbol, el sistema vuelve a calcular la dispersión de cada variable, efige la variabie con rnáxima dispersión y utiliza su mediana como valor para dividir los registros. E! proceso continúa hasta que el número de registros que tiene los nodos terminales del árbol es n1, valor que el usuario debe facilitar al sistema. EI documento G EIS; Specificativrrs (pg. 1 71 $i facilita una explicaci+án gráfica y clarificadora dei procedimiento. ^ 2.4.5.2.4 LA BUS'QUED.4 DE U1V D^OJVOR APROP/ADQ Las funciones de este módulo son: 1) Encontrar un donor, para cada registro con campos a imputar. 2) Determinar si el registro corregido pasa el conjunto de edits postimputación ^3?. EI mecanismo para encontrar un registro donor apropiado (4) es diferente para los registros con o sin campos matching. Para el primer grupo, el sistema busca los n1 registros más cercanas al registro candidato y seiecciona el donor cuya distancia respecto al candidato sea mínima. GEiS usa como Función de Distancia entre el candidato y el donor la función propuesta en un artículo de Friedman et al.: Algoritrn fo^ Finding Best Matches in Logarithmic Expected Time, y que se define: . D 4x, y) = max ^ x; - y; ^ i= 1... número de campos matching, donde x, e y, san el valor transformado para los campos de los registros candidato y donor. Si los n 1 donors pri meros fallan los edits postimputación, el sistema hace una segunda selecciá^ n de los n2 registros siguientes más cercanos. En el caso de que ningún registro imputado satisface los edits postímputación, se imprime el registro para su análisis. Para el segundo grupo, los registros sin campos matching, no se necesita el árbol K-D; E{ registro donor se selecciona aleatariamente. Véase, para u na explicación detallada del Algoritmo, e^ docu mento G EI S specifications (p.23y. (3} ^EIS permite definir un conjunto diferente de edits para chequear los registras imputados {^dits se denornina conjunto de post-imputación) (^4) En general, se rechazan como registros donor aquellos que tienen campos marcados como NSO. tiPf f R-(^F Iti fN)ti SItiI-f^tii ^S F'^R ^i l ^1 f)f Pl R^i( IOti 2.4. 6. RESUMEN y ORGA N1GRA MA DE FUNCIONES En esta sección, se ha presentado las principales funciones del sistema Generalizado de Depuración e Irnputación, G EIS, desarrollado en Statistcs Canadá. La figura [2.4.6) muestra el flujo de funciones y módulos del sistema. Figura: 2.4.6 Cu•s^ionario s tratos cla^es sr[clnr tDITs rurl^ 1 on Gen•ra ia tor^+a norr+al Ccanonica) da los edits. c'n[:x [^1 ts ^^+^l1ftC [Dlii Ivnct I on ^rr^r Ec^ts NnCT l On St+I1SfICaL E^^r F'^ rtC 1 I Oh rlllo ourcl [lts El.,^ 0 4 I,OC ^ r I ON /W^CT 10;1 DRE ^trlnlStlC t ^wr^rlon tstln^tlon Inrvt^iton DoM011 tKturArion Hasta st i s r^etodos di['erentes de i r^putiC i on . 11 Deterr,i na 1 p s carr+pos 'MatchinSir' 21 Iransfor^.a los ca^+pos . . )> C re a e 1 arbo 1 }<-D . ^> B us c a^ un re 9^ s tro dono r. ^ ti t^^ !)! ti i 1( •^ t ti F' ^l ti l) t^1 LA COMPARACIOfV DE SISTEl^1/fAS En este apartado presento un análisis comparativo de los resultados de Ic^s sistemas, utiiizanda e! fichero descrito en el apartada 2.^. Un análisis comparativo de sistemas generales de depuración de datos puede enfocarse desde distintos puntos de vista. Uno de ellos consiste en evaluar los sistemas considerando sus efectos sobre los datos, sobre su distribución y sobre las posibles estimaciones que se obtengan con !os datos depurados. Otro consiste en analizar la sensibilidad de los sistemas a! cambio de1 valor de sus parametros o de los procedimientos aplicados (por e^emplo, procedimientos de imputación}. Podiamos igualmente analizar los sistemas desde !a perspectiva de su propia eficiencia a de su caste. E! análisis de los sistemas es aqur muy restrictívo por razones que apuntaré abajo. Analizo. 1 j la función de Localización de Errores y 2} los resultados de! procesa de imputación por distintos métodos. Comparo el método de imputación DO'IVOR de GElS, con e! método de imputación implementado en SPEER, e! valor medio, y e! método de imputacicín máximo verosímil EM. EI alcance de este análisis se limita a! fichero de prueba seleccionado. A! utilizar este fichero que prueba, mi primer objetivo fué familiarizarme con !os aspectos operativos de los sistemas; no fue e! hacer un análisis comparativo. Los registros del fichero proceden de una encuesta real y, como !o muestran las tablas de diagnóstico, no tienen muchas incompatibilidades. Para un análisis comparativo de la posible influencia de !os sistemas en los datos estadísticos hubiera sido conveniente utilizar un fichera con datos simulados, cuya distribución se conociese y donde !os datas omitidos y las errares de inconsistencia se hubiesen controlado. A pesar de sus limitaciones, el presente análisis puede facilitar una primera aproximación a!os sistemas, a sus características y a su efecto sobre los datos. Este análisis deberá realizarse de forma más sistemática cuando ambos sistemas estén operativos en el ! RI E. SPf f ft-(^f Iti Cx)ti tiItiTC ^11ti F-^ft^^ L•^ [)f Pl ft^^l( IO\ 3.1. La calidad de los datos del fichero de prueba; la localiiación de errores EI fichero de prueba tiene 201 registros, de los cuales 101 son consistentes respecto al conjunto de edits definido. La TABLA [3.1 aJ muestra un resumen de! número de registros con status de "correcto"', "incampleto" y "con error" y los campos implicados ( 5). Excepto por el error sistemático de falta de respuesta en TVENTAS, los errores en las otras variables tienen una frecuencia aceptable. Tabla [3.1 a]: (Resultados del Sistema G EIS) Campos Registros correctos Registros incompletos Registros con error SALARIOS 101 30 28 COM PR 101 30 28 TOI 101 30 4 TCI 101 30 4 VENTAS TVENTAS 101 101 30 30 28 58 Las tablas [3.1 bJ y[3.1 c) presentan los resultados de la lacalización de errores y las diferentes soluciones al problema de localizar los campos a imputar: FTD ( Field to delete). Tabla [3.1 b]: Número de registros Número de registros Número de registros en el fichero de fallados con diferente datos solución en e1 problema de . localización . (distintos FTD) 201 73 26 (5) EI sistema GEIS ofrece una cuidada selección de cuadros de diagnóstico, que permiten controlar la calidad de los datos desde el punto de vista de completitud y consistencia con el con^unto de edits definidos. En las versiones que tenemos del sistema SPEER, este lista los registros antes y después de la corrección; no ofrece cuadros de diagnóstico. Tabla [3.1.c]: REGISTROS con ERROR t-1 indica campo localizado como erróneoj Primer registro: FTD en GEIS Segundo registro: FTD en SPEER GEIS 1 1088570 -1 382066 SPEER GEIS i 108857Q 8fi75832 13 1093556 -1 382066 245456 SPEER 13 1093556 7350452 2454^s -1 _1 -1 423752 1 1242240 11242240 -1 216627 -1 21ss27 10216730 -1 GEIS 18 18 450000 450000 -1 330000 330000 -1 -1 33oao0 GEIS 27 75241 4150448 -1 SPEER 27 75241 -1 GElS 40 96000 _1 550208 2000 SPEER 40 49 96000 292000 134400 2aoo _1 -1 480000 -1 _1 49 70 70 292000 563091 563091 446000 380000 -1 _^ -1 -1 -1 -1 569481 10559550 10559550 SPEER 72 72 73 73 596258 596258 417687 417687 -1 -1 -1 9121186 4955762 4955762 449575 -1 -1 2000 -1 2000 -1 -1 GEIS 83 -1 2799992 SPEER GEIS SPEER GEIS SPEER 83 84 84 88 88 506i3 10778$2 1077$82 745500 745500 G EIS 90 -1 SPEER GEIS SPEER GEIS SPEER GEIS SPEER G EIS SPEER G EIS SPEER -1063214 299947 299947 11100$ 40000 92712 9132843 9132843 30000 640000 1755000 40000 3oooa 2049200 -1 2049200 2049200 6750 6260 2260000 2260000 1 081 231 6750 -1 463085 -1 -1 62 60 _1 -1 2312607 469488 1417449 -1 • -1 O 2300000 -1 23ooaoo -1 -1 -1 -1 417733 9401576 94C^1 576 -1 233000 1590000 GEIS 122 802847 SPEER GEIS SPEER 122 128 128 802847 256000 256000 GEIS 131 33000 -1 7524279 -1 137500 1286044 12$6044 _1 649647 5092535 5092535 _1 -1 441849 90000 90000 SPEER 131 GElS 132 906656 SPEER 132 906656 GEIS 134 540827 SPEER 134 139 540827 241084 139 241084 148 148 151 1 51 157 157 160 160 596909 596909 59000 59000 628097 628097 21017 21017 1 67 -1 -1 167 168 168 1172000 994420 994420 _1 -1 SPEER GEIS SPEER GEIS SPEER -1 92712 6014000 2781449 2781449 2927534 -1 -1 6823738 119 GEIS 6014000 2781449 2781449 2927534 -1 -1 396814 _1 80403 111008 SPEER SPEER 6014000 -1 0 GEIS 6014000 -1 1590000 SPEER _1 -1 O -1 GEIS GEIS _1 1952067 1755000 1081231 SPEER GEIS SPEER looooo00 4307891 O 55000 347347 347347 233000 GEIS 330000 -1 1952067 90 116 116 119 33000 -1 _1 -1 6049721 3680000 3880000 22o3©oa 2203000 -1 62 6667 880i04 880104 660000 8600 8600 47736 47736 -1 829972 44522 44522 _1 484000 45000 45000 19381 19381 1 30105 130105 65000 6 5000 149411 149411 0 83000 1768000 1768000 7500 1539000 7500 81395 -1 1$$4406 -1 _1 -1 1893331 81395 -1 1893331 83000 -1 -1 6200817 ?97807 6200847 59729 7013047 59729 7013047 -1 4 500000 480000 4500000 45000 2350000 45000 --1 18753 1852763 18753 -1 138250 1038853 138250 -1 2350000 65000 65U00 -1 143148 -1 143148 2764638 6200847 6200847 7013047 7013047 4540000 4540000 -1 -1 1927763 1927763 -1 -1 2350000 -1 4655704 -1 ^^^^ ^ K c^t iti (>l )ti ^;Iti 1 F ti1 ^^ti f'^1R -^ I 1()I {'t k tic ^c ^^ Variable de análisis COMPR FILE infil Maximum Range Mean 25191243.00 25191243.00 1985160.84 Std Dev CV 235031 7.45 1 18.39 geier 5500000.00 5240000.00 1808692.78 991424.92 54.81 donor 5500000.00 5240000.00 1809275.75 958221.21 52.96 geiel 6042100.00 5782100.00 1845010.41 1045820.23 56.68 Igeisl 5797863.00 5537977.00 1811900.25 994458.68 54.88 speer 9121186.00 6986786.00 1957457.46 1501567.55 76.71 speim 25191240.00 251 63936.00 1 996345.69 2325750.54 1 16.50 speel 25191000.00 25056600.00 21 1 5024.39 2352856.52 1 1 1.24 Variable de análisis TOl ^FILE MaximurY^ Range Mean Std Dev infil 1202700.00 1202700.00 99835.56 159826.80 160.09 geier 382066.00 382066.00 71109.52 70771.76 99.52 donor 382066.00 382066.00 69883.76 69640.47 99.65 geiel 382070.00 382070.00 72 538.83 69909.35 96.38 Igeisl 381933.00 379933.00 75367.74 71069.30 94.30 speer 1063214.00 1061214.00 97957.90 137546.49 140.41. speim 1202700.00 1202699.00 100692.88 159562.00 158.46 speel 1202 700.00 1200700.00 1047 59.40 160093.91 152.82 CV Variable de análisis TCl cv FI LE Maximum Range Mean Std Dev infil 1198353.00 1198353.00 93525.51 145114.11 155.1 geier 355115.00 355115.00 64965.13 66197.83 101.8 donor 355115.00 355115.00 64686.33 65266.69 100.9 geiel 355120.00 359820.90 69773.41 71127.61 101.9 Igeisl 355045.00 353045.00 70233.68 67478.08 96.0 speer 797807.00 795807.00 91324.13 119222.97 130.5 speim 119$353.00 1198352.00 94137.26 144829.01 153.8 speet 1198400.00 1196400.00 97031.29 143974.55 148.3 t s^r,z nr^ r rc a r' sF^,^ tic^^_ A ?? K 3.2. Comparación de los procedimientos de imputación Este apartad© presenta cuadros comparativos de las distintas estimaciones obtenidas antes y después de la deteccicin e imputación de datos con los sisternas GEfS y SPEER. Presenta también fos gráficos de las distribuciones marginafes de las variables en las distintas etapas del proceso. Los ficheros que analizamos son los siguientes: I t^l F I L: GElER: DONOR: GEIEL: LGEiSL: SPEER: EI fichero de datos de entrada E1 fichero de datos después de la Localización de Errores GE1S EI fichero de datos después de la imputación Donor GEIS EI fichero de datcs después de imputar G E I S E R con e1 algoritmo EM E1 fichero de datos después de imputar GEISER con el algoritmo EM y previa transformación de las variables en Logs El fichero de datos después de la Localización de Errores SPEER SPEIM: EI fichero de datos después de imputar SPEER con el valor central SPEEL: EI fichero de datos SPEER después de imputar con el algoritmo E li/i ( 61 La Tabla [3.2a] muestra los valores MAXI MO y M I NI MO estimadas, el RAIVGO, fa MEDIA, la DESVIACIaIV STD y el COEFICIENTE DE VAR1ACION (CV) de las variables consideradas en el estudio. La tabla (3.2bj muestra los valores agregados de las variables. Variable de análi^ is SA LA RIOS cv FILE Maximum Range Mean Std Dev infil 3803334.00 3803334.00 330479.49 355106.40 107.45 geier 906656.00 885639.00 298310.38 187229.79 62.76 dortor 1093556.00 1072539.00 317713.45 219878.14 69.21 geiel 1093600.00 1 072 583.00 31 72C^5.61 21 71 86.42 68.47 lgeis! 1093616.00 1072599.00 31631 1.84 216893.51 68.57 speer 1093556.00 ^ 045261 . 00 324214.97 2 1 8506.41 67.39 speim 3803334.00 3782317.00 333541.35 352775.27 105,?7 speel 3803300.00 3782283.00 339885.71 350172.51 103.03 (6) ^Jéase en el apartado de referencias los artículos correspond^entes al algoritmo EM. til^f f(t-c;f I^, f^t^^ tiltil f^11ti l^^Ft ^ I ^(^f I^^ It ^c Ic^^ ,^y Variable de análisis VENTA S FILE Maximum Range Mean Std Dev CV 11242237.0011242237.00 2412026.37 1908367.89 79.1 geier 7013047.00 7013048.00 2102596.35 1415562.50 67.3 donor 7013047.00 7013047.00 2404408.02 1236245.02 51.4 geiel 7013000.00 7013000.00 2448693.94 130512 7.42 53.3 Igeisl 7011064.00 6722982.00 2413709.31 1211042.73 50.1 speer 11242240.0011242241.00 2272122.06 1996272.43 87.8 speim 24767310.00 247673 1 1.00 2594881.65 2538201.41 97.8 speel 35761000.00 35593360.00 2823210.94 3158691.89 1 1 1.8 infil Variable de análisis TVENTA S FILE infil Maximum Range Mean Std Dev CV 35708342.00 35708342.00 2374337.32 3271661.87 137.7 geier 7013047.00 7013047.00 2404266.83 1343434.12 55.8 donor 7013047.00 7013047.00 2362577.47 1268659.86 53.7 geiel 7013000.00 7013000.00 2443239.89 1327473.18 54.3 Igeisl 7011064.00 7010053.00 2405963.27 1269309.23 52.7 speer 11242240.00 1 061 6652.00 2798393.48 2001993.49 71.5 speim 35708340.00 35708341.00 2664837.09 3186339.79 1 19.5 speel 35708000.00 35529660.00 2829800.70 31 53336.38 1 1 1.4 ^ Obsérvese que las estimaciones de I N FI L se calculan con datos grabados. Las estimaciones obtenidas con los ficheros GEIER y SPEER muestran el efecto del valor ='.' asignado a los campos localizados como erróneos por los respectivos sistemas. Aparte de I N FI L existen dos gru pos de ficheros: Aquellos cuyos datos son tratados con el sistema GEIS y aquellos cuyos datos son tratados con el sistema SPEER. Primera observación: Las estimaciones de los parámetros en la tabla ^3.2a] son más elevadas y los datos están más dispersos en los ficheros SPEER que en los ficheros GEIS. La diferencia es considerable y podemos adelantar una posible explicación. SPEER es un sistema de edits de razón. En SPEER, aquellos registros con valores altos (es decir, aquellos registros con valores que hubiesen sido detectados como outliers en un análisis estadístico), pero con valOres con- f `,T.^[)I`;^f( •1 E ti['•^ti()t_ ^ sistentes, pasan el conjunto de edits de razón y son aceptados por el sistema. G EIS realiza, si así lo pide el usuario, un análisis estaciistico de los datos y marca los campos cansiderados como outliers (las campos "SO""j. Todos los registros con outliers son registros sospechosos, aunque no necesariamente erróneos. Por ello, los usuarios de S PEER deberán hacer, antes de en^rar en el sistema, un análisis de datos para detectar posibles registros con valores extremos. Segunda abservación. En ef grupo de ficheros GEiS, los proced^mientos DONOR Y LGEISL proporcionan los valores de estimaciones más concentrados y simiiares. En LGEISL se aplica el mismo procedimiento de imputación que en GEIEL pero transformando previamente sus va[ores a LC ^ Gs. EI algoritmo EM asurne normalidad en la distribución de variables; este supuesto se satisface mejor si, en una distribución asimétrica, los datos se transforman en lags. El algoritmo EM no es robusto al supuesto de normalidad y su apiicacíón pasa por transformar las variables. La tabla [3.2b] muestra el valor agregado de las variables en estudio en los ocho ficheros que se comparan. Como anteriormente, los totales en I N FI L m uestran el peso de los outliers y G EI S E R y S P E E R el pes© de los valores suprimidos. AI comparar los resuitados del fichero SPEIM con los de los ficheros DONOR y LGEISL observamos: 1 i Para las variables SALARIOS, COMPR, VENTAS y TVENTAS no existen diferencias sustanciales en las estimaciones de valores agregados. 2^ Para las variables TOI y TCI esas diferencias son impórtantes. Una posibie explicación está en la propia definición de los edits en SPEER; las variables TC)I y TCI no se cruzan con ninguna otra variable, lo que hace que el número de errores detectados en esas variables sea muy bajo y en consecuencia, el valor agregado de ambas variabies antes y después de la depuración con SPEER es muy parecido. También se observa que los datos del fichero S PEEL muestran el efecto de la estimación no robusta del vector de medias y de la matriz de varianzas y covarianzas por el algoritmo EM. ^^ ^ SF'F F R-( ^ F Iti, [x1S tiIti TF M.Ati F'.^R ^^ l-> [)I} Pl R ->,( ^IOti Tabla [3.2b] SALARIOS COMPR TOI TCI VENTAS TVENTAS inf^l 5651 1993.00 339462504.00 1 7071880 00 15992862 00 412456510 00 40601 1682 00 ge^er 41 763453 00 2650772 39 00 1 1 590852 00 /0329456 00 357441379 00 305341$89 00 sperr 44093236 00 307320821.00 1 5869180 00 14794509 00 386260751 00 335807218 00 TYFE Resultados después de Imputación. (Ficheros GEISI donor 54210623 00 3085621 54 00 1 1 937070 00 1 1048102 00 410072771 00 402919747 00 ge^el 5392495300 31365177000 1233160100 1186148010 41627797000 415350781 00 Lqe^sl 53773013 00 308023043 00 1 2812515 00 1 1939726 00 410330582 00 40901 3756 00 Resultados después de Irnputación. (Ficheros SPEER) speim 53232236 00 316183873 00 1601 5782 00 148991 19 00 418957453 00 41 9978802 00 speel 5431 71 56 00 3364781 70 00 1671 1 1 57 00 1 5393950 00 447008070.00 4481 87920.00 Para finaliiar, las tablas [3.2c) presentan I©s gráficos de la distribución de las variables en los ocho ficheros en estudio. Tampoco aquí se observan diferencias sustanciales entre los distintos gráficos, y reproducen características ya comentadas. E `^ i ^i^i`+^T I( ^^ E ^i' \^tlt ^^ Tabla [3.2c). ^^stribuciones marginales de !as variables en !os ficheros en estudio. Variable de análisis SALARlQS donor 48295 78704 i42339 256840 3304 79 400634 802847 1172000 ge^el 48295 7$704 142339 256840 3304 79 400634 802847 1^72a©o geier 142339 256840 330479 400fi34 802$47 1172000 48295 7e704 142339 256840 330479 400634 802847 1172000 ige^sl 48295 7$704 142339 256840 330479 4oos34 802847 1172000 speel 48295 78704 142339 256840 330479 400ó34 802847 1172000 spe^m 48295 78704 142339 256840 3304 79 400634 8U2 84 7 1 1 72U00 sperr .................... .................. • w i i i w i i i ....,....--•.....,. --...... .. ..i ,...,. ................. O. 54 1 00 301 2 78 1 46 2 93 1.08 0.3 a • 11 r w r r! r f i i f w r^r i w i• ................... ................... .......... .. 48295 78704 mfil O 54 1 00 3 08 2 78 1 31 2 85 1.23 O31 ....... 48295 78704 142339 25f3840 33t)479 40C)634 R0284 7 1 1 7 2 000 O 54 0.85 2.39 2 47 1.08 2.54 0 93 O 00 ...... ................. ................. ......, • w i r w f i i i i r f i w i i i w i r ..,... • i a i w i i a 11s 1 00 2 78 2.62 1 23 2 85 1 08 0 46 .,...., .................... r r i r • w r r r• r r w w. r w• .,....... . . r . . . . . . . . . . . . . . . . . . ......-... .,... 0 54 1 O© 3 OS 2 78 1 31 ao1 1 08 031 • i s s s s• • s w w i r w i•• r i w i i w i i w i r r s ♦ • w w r w s a w w s w a w i i w i i r i w• ..,...... ..... ................... ....... ... ....... 0 69 1 00 301 2 70 1 31 2 93 1 08 0 39 .,..... • s r r w w r w w i s s s s i s w i r w• r w r w r w f 11 w w i i w w w a w i M .......... ......r ............. ........ ... • s i w w i• 1 1 2 2 1 2 1 0 ....... .....r ............... • w r w w s r w e w r r r w w w r e• ......... ................r.. ....... ,.. 031 O 69 2 39 2 39 1 16 2 47 0,77 031 r r r r ♦ ,.....,.,.,r..,..., • w r. w r r r.^ r r r w r r e w a ........ ................... ..r.. .. 10 20 30 00 00 93 62 23 85 08 39 40 FR^ CUENCtA 50 til't 1 K-( ^F I^. 1>Kl^ ^Iti T t 11 >,^ P ^R -1 l -^ [)f 1'l R^( I()ti Tabla [3.2c]. continuación Variable de análisis COMPR donor 0 531283 929662 1542218 ..... .................... .......................... 1985160 .......... 2203000 5300000 9121186 ge^el 0 .................... ..... . 531283 .... 929662 ..................... 1542218 1985160 2203000 5300000 9121186 geier . 0 531283 929662 1542218 1985160 2203000 5300000 .. . . ... ... .. ............. ........... .................. r^^^^• . ... ................ ................... .......... ................ .... 9121186 infil O 531283 929662 1542218 1985160 2203000 5300000 9121186 Igeisl O 531283 929662 1 542218 1985160 2203000 5300000 ...... 0 531283 929662 1542218 1985160 2203000 5300000 9121186 speim 0 531283 929662 154218 1985160 2203000 5300000 9121186 s^^crr 0 531283 929662 1542218 1985160 2203C)00 5300U00 0 08 0 60 39 2 94 52 3 92 20 40. 10 0 1 51 3 02 0 75 0 00 1 8 41 49 0 08 0 60 3 09 3 70 21 1 58 37 13 0 2 79 0 98 0 00 1 7 36 0 08 0 53 2 72 42 19 3.17 1 43 32 10 0 2 42 0 75 0 00 14 1 .06 11 36 0 83 2 72 .......... 42 19 3.17 1.43 ................ 32 2.42 12 091 5 0 38 1 O 0$ 8 41 51 20 38 0 60 3.09 3.85 1 51 2 87 11 0 083 0 00 ..... ................ ................... ...... .. . .. . ..................... ........................... .......... ................. ...... 9121186 speel 1 8 .. 3 023 ...... 12 091 .................... 40 3 02 40 19 347 1.43 32 2.42 13 0 9B 5 ....................... .......... ................ ....... .. .... ........ • ^ . r ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ f ..................... • r ^ . ^ ^ ^ ^ ^ • ................ ...... .. 8 0 38 0 60 15 1 13 39 42 2 94 317 19 1 43 32 11 2 42 0 83 4 0 30 .. ...... 3 11 0 23 O 83 .................. ..................... 36 42 2 72 317 ' 19 31 1 43 2 34 11 4 0 83 0,30 .......... ................ ...... 9121186 10 20 30 40 f RECUEhCIA 50 ?^4 tst ^^t^t^^^c ^> t^t}->^t}t.-> Tabla [3.2c]-- continuaciór^ Variable de análisis TOI donor z oo© 7110 19857 53518 99835 109900 382066 ...... O 89 1 34 2 45 371 1 .41 2.38 0.45 o.ao ......... ................. ..................r...... • w w i i w i i!^• •swwiwasisiaarwi• ... 1os3214 ge^el ge^er inhl Ige^sl 2000 7110 19857 53518 99835 109900 382066 1063214 2000 7110 19857 5351$ 99835 109900 382066 1063214 2000 7110 19857 5351 8 99835 109900 382066 1063214 2000 7110 19857 53518 99835 109900 382066 1063214 speel 2000 7110 19857 53518 99835 109900 3820fi6 ^063214 speim sperr 2000 7110 19857 53518 99835 10990C? 382066 10632 14 2000 7^10 19857 53518 99835 10990{? 382066 1063214 ....,. ......., ^ 0.89 1.26 2.30 3.71 1.34 2.67 0.45 0.00 • w w!! f s r f r w f r r f w w a . . w . . . . . . . . . . . . . . . . . . . . . . ......... • r 4 r U i! f w r f! r i f f f f• •ww r! w i i 0.89 1.26 2.30 3.57 1.26 2.38 0.4 5 0,00 w ......... ................ • r i r r w w! w w w! r r r w r a i r! w r i r• .......... • r a r s a r r r r w f f r r i• ...... .,....... 0.89 1.26 2.30 3.57 1.26 2.38 0.82 0.2 2 . , . . . . . . . , . w . . . . ......................... ....,.... ................. ....... .. - 0.30 1.26 2.45 ......... .................. ..i.sw•iiaiwwilawwiilaiw..w.• ........ 1 .34 2 53 0.52 0.00 •s!w!!liesiwiiiiw• .. ......... ................ • a 1 i i! • a i w i f 1! i i i i! a i r!! w i a w f r 0 30 1 26 2.38 3.86 1 .34 2.45 0.89 0.1 5 i• i• .................... •alir• ..... .,...... .................. 0.74 1 .26 2.38 3.57 1 .26 2.45 0.82 0.1 5 • a!! i! r w i s w f w w a i r i a r w!!• ......... ................. f s r! a i r ., 0 30 1 .26 2 30 3 57 1 26 2 38 0 82 O 15 • a w r! r f i• ................ a a i r f! r! r r i r i! a r r f i f w i f• .,.,..... ................. ....... -, ^ 10 20 --^---r--- -, 30 a.23 40 FRECUENCIA 50 2^S tiPf f it-l^k I^. [X)ti tilti^1 F!^1 ^S P;'^ RA l_^^ [)f Pl R•^( I()ti Tabla C3.2c)- continuación Variable de análisis TCI donor 2000 7500 18753 54707 93525 100704 396814 10 0 7s ........... 20 1 49 ...... ................. ....................... ......... ................ ... 43 43 3 20 3 20 17 1 27 32 5 2 38 0 37 a o 00 ..... .......... .................... 10 20 40 0 75 1 49 2 98 ...................... 43 15 3 20 1 12 35 7 0 2 61 0 52 0.00 ..... 797807 ^ ge^el 2000 7500 18753 54707 93525 100704 396814 797807 ge^er 9 0 67 20 40 1 49 2 98 ...................... 41 15 29 3 06 1 12 2 16 5 0 0.37 0.00 10 20 40 0.75 1.49 2 98 41 16 3 06 1 19 29 13 2 2.16 0 97 0 15 .......... ...................... ........................... 2 20 42 50 0 15 1 49 3.13 3.73 •---..... 17 1.27 ................. .. 33 6 0 2 46 0 45 0 00 ........... 2 20 0.1 5 1 49 41 3 06 54707 ....................... .......................... 45 3.35 93525 ........ 16 1.19 ................ ....... 32 13 1 2 38 0.97 0.07 8 0.60 20 1.49 40 2.98 43 3_20 ........ ................ 16 29 1.19 2.16 ....... 13 1 0.79 0 07 .......... 2 20 015 1 .49 .................... 40 2 98 ..................... ........ 41 16 29 13 3 06 1.19 2.16 0 97 1 0 07 54707 93525 100704 396814 797807 2000 7500 18753 54707 93525 100704 396814 797807 Ige^sl 2000 7500 18753 54707 93525 100704 396814 797807 speel 2000 7500 18753 100704 396814 797807 speim 2000 7500 18753 54707 93525 100704 396814 797807 sperr ..... .......... ..................... 2000 7500 18753 ^nfil ........ ................. .... 2000 7500 18753 54707 93525 100704 396814 ......... ............... .. ..... .......... .................... ..................... ........ ............. • w r Y • w • ... .......... ...................... . r. r r• w r r r r r w r w w w r. w w w r• ............... ....... 797807 10 20 30 40 FRECUENCIA 50 t^1 ti)I!^T I( ^^ f ti!'^1ti()i •> Tabla [3.2.c]-- continuación Variable de análisis VENTAS . ..., 0 donor 631260 1446582 2006527 2412026 2854442 sol4oo0 2 7 42 ...................... .................... ............. ....................... 37 25 4fi 11 O ...... 10559553 ge^el 0 631260 1446582 2oos527 2412026 2854442 60140©0 10559553 geier 0 631260 1446582 2006527 2412026 2854442 60140Q0 . .... ..................... ................... ............. 0.59 23 5 ... .................... 39 ................. .........., 34 22 36 R i s a R R a R a a R^^ R i R a• ...... 11 10559553 ^nfii O 631260 1446582 2006527,,^ 2412026 2854442 6olaooo 10559553 Igeasl 0 631260 1446582 speel spe^m 17 5 40 . . . . . . 11 . . . . . . . i . . 34 22 37 1• 1 5 ........... • i# a a R s s i a a r a R• a i.• ...... --• . ....................... ................... 0 631260 1446582 2006527 2412026 2854442 6014000 10559553 , ..... ....................... .................. ............ O 631260 1446582 2006527 2422026 2654442 10559553 O 631260 ................ 44 11 0 ..,.... 1 10 43 36 24 38 12 6 . . . . . . . . . . . . . i . . . . , . ...... ... ... i a i a R f i# a i i i i i i i i i i a i a i i i , ................. •# a i f i i i. e ................... ...... ... ............. 2006527 2412026 .............. .,........ f.. a.. a.. f a 1 a. a# a• ...... ... 10 20 30 40 FRECUENCIA 50 1.10 24 98 1 69 0 37 2.87 2.50 1 62 2 65 0.81 0.00 1 .2 5 0 37 2.94 2.50 1 .62 2 . 72 0.91 0.37 0.0 7 0.51 3.1 fi 2.65 2 06 3.23 081 O 00 0 07 0.73 3-16 2.65 1.76 2.79 0.68 0.44 49 33 19 35 1 . 40 2 57 1z C 88 O 37 5 .. 301 2.79 1 .84 3.01 0 37 0 89 3 60 2.42 5 12 ....., ., ................. 1 U5E^9553 28 a^ i# i i r# a a i i i i i i i a i i i• 1446582 2854442 6014000 1 7 43 36 .... 2006527 24 12026 2854442 6014000 10559553 so14©o0 sperr 0 ......... ... ................••.. 0.00 8 41 38 15 O ............ 081 1 2 64 41 .,...... 1 84 3 . 38 2 25 • i a i R a R i. R R i a a f i R a R R R 0 15 051 3 09 2.72 28 4 38 30 19 35 2 06 O 29 7 79 2 20 11 081 5 0 37 1 40 2 57 tiPf f Ft-(^f lti. [X)4 ^Iti f f 11^^^ f'^^Fl 1 1•^ l)f F'l K^( I(^ti Tabla [3.2.c]- continuación ^/ariable de análisis TVENTAS donor 0 631260 1100000 1893331 2374337 2800000 6600847 11242237 ge^el . ..... ............ .......................... .............. ........ ............... ..... . 0 631260 1100000 1893331 2374337 2800000 ... ............. ........................ ............... ...................... 6600847 ...... 11242237 ge+er 0 631260 1100000 1893331 2374337 2sooooo 6600847 .. .. ........ ..................... ............ ............... ..... 11242237 infil 0 631260 1loaooo 1893331 2374337 2800000 6600847 11242237 Ige^sl 0 631260 1100000 1893331 2374337 ................. . ........r. ..................... ............. ................. .... .. .... ............. r r•• r f f r. r r r r w r r f r r f r r r r r •r--.......... 2800000 ..................... 6600847 ....-- 11242237 speel .............. ......................... 6600847 .... 11242237 spe^m r r f r r f r w f f r 1 f• ...................... rrf 631260 1100000 . ..... ............. 1893331 ...................... 2374337 .............. 0 2800000 6600847 11242237 sperr . ... 0 631260 1100000 1893331 2374337 2800000 O fi31260 1100000 1893331 2374337 280U000 660084 7 11242237 . . . . . . . . . . . . . . f . .... ., ........r ................... .......... ......... ..... ... . .. __.-+. 10 40 20 30 FRECUENCIA 50 3 9 23 50 30 0 24 0.71 1 81 3 94 2 37 46 9 3 fi3 071 0 0 00 3 5 26 50 30 0.24 0.39 2 05 3 94 2 37 44 12 3 47 0 95 0 0 00 3 4 0 24 0.32 18 1 42 40 23 30 9 3.15 1 81 2 37 0.71 0 0.00 34 4 20 42 25 62 3 9 6 2 68 0.32 1 58 3 31 1 97 49 13 071 0 47 1 7 26 53 28 0 08 0.55 2 05 4.18 2 21 44 3 47 11 0 0.87 0.00 1 7 0.08. 0 55 28 50 27 41 2 21 3.94 2 13 3 23 10 6 0 79 0 47 7 0.55 9 28 071 2 21 50 3 94 27 2 13 34 9 2 68 0.71 6 0 47 O 0.00 3 0 24 1 7 38 1 34 3 00 20 1 58 28 2 21 9 5 071 0 39 f !i^T ^1f)iST lí^^t F SI•^Zti(ll •1 3.3. Conclusión Se resumen aquí ventajas e inconvenientes de los sistemas G EIS y SPEER observados. GEIS supera claramente a SPEER en: 1) La definición de Edits. 2) EI móduio de imputación DONOR. 33 Su generalidad. Aunque SPEER y GEIS trabajan solamente con edits lineales, G EIS admite como edits cualquier función lineal de las variables, mientras que SPEER admite sólo edits de razón. EI módulo de imputación Donor permite respetar las distribuciones marginales y conjuntas de las variabfes que se depuran con GEIS. Finalmente, G EIS es un sistema acabado, mientras SPEER requiere afguna pragramación a medida. SPEER supera a GEIS en: 1) EI tíempo de Proceso. 2) Que puede ejecutarse en cualquier PC^AT can mínimos requerimientos de software. Para que G EIS pueda carrer en un PC, este debe tener instalado e! Sistema de Base de datos ORACLE, que exíge, a su vez, una configuración de equipo determinada {es decir, no puede ser instalado en PC con menos de 3072 K de memoria extendida). Finalmente GEIS exige una excesiva división de grupos de variables y grupos de registros. EI efecto en las estimaciones finales de las datos no parece importante si se hace: 1 ^ Una correcta definición de los edits. 21 Una corrección previa de outliers groseros. Esta observación no es cancfuyente, sin embargo. Se requiere un estudio más exhaustivo sobre la calidad de los datos y sobre la influencia de 1as procesos de imputación en dicha calidad de los datos. B18LIOCRAFIA Bou^AUD, W., D. D^xoN and D. M^CHAUD (1 9$9). The Field to impute and the Linear programming. Working Paper, Statistics Canada. BUREAU, M., S. MiCHAUD and M. SISTLA (1 986). A^orr^parison of different imputation techniques for quantítative data. Working Paper, BSM D. 6 u sTOS, O. H. y P. L. N. S ^ LvA { 1 9 S 9). Uso de estimadores robustos para imputación de datos faltantes de encuestas. Instituto de Matemática pura y aplicada. Serie B-íJ49. C H E R N I K O V A, N. V.(1 3 0 4). A lg^orí thm for finding a general form ula for the non-negative so/utions of a system of finear equatiorrs. U.S.S.R. Cornputational ^/lathematics and Mathematical Physics 4. C H E R N ^ KOVA, N. V.(1 9O 5). A lgorithm for finding a general formula for the non-negative so/utions of a system of linear inequations. U.S.S.R. Computational Mathernatics and Mathematical Physics 4. ^r3E t K-c ^f I^ (Xlti tiIti 1 f ti1 ^^ti P ^R •^ l^ i)F ( ^^ ?^9 k^^c ic^^ COTTON, P. (1 988). A comparison of software for Editing Survey and Census Data. Presented at the Symposium 88: The impact of High Technology on Survey Taking, Ottawa. Canada. DEMPSTER, A. P., N. M. LAIRD and D. 6. RuBIN. (19771. Maximurn Likelihood from incomplete Data via the EM Algorr'thm. The Jaurnal of the Royal Statistical Society. Series B. Vol 39. ' DIA: Guía de/ Usuario (borradór). Espa ña. Instituto Nacional de Estadística de DIA: Descripción de Sistema (1 987). Instituto Nacional de Estadística de España. F E LLEG I, I. P. (1 9 7 5). A utomatic Edit and lmputation of quantitative data. Statistics Canada. Technical Report. FELLEGI, I. P. and D. HoLT, (1 976). A Systematic Approach to Automatic Edit and lmputation. Journal of The American Statistical Association, Vol. 71, 17-35. (1977). An Algorithm fDr Finding Best Matches in Logarithmic Expected Time. ACM Transaction on FRIEDMAN, J. H., J. I. EENTLEY and R. A. FINKEL Mathematical software 3. GARCIA RUBIO, E. J. M. GOMEZ ALONSO e I. VILLAN, ( 1 983). Desarrollo de un Sistema de Detección e lmputación A utomática basado en la Metodol'ogía de Fe/legi y Ha/t amp/iada. Contributed Paper, 44th Session of the Inter- national Statistical Institute. Madrid. GARCIA RuBlo, E. & I. VILLAN (1990). DIA SYSTEM: Software for the automatic imputation of qualitative data. U.S. 6th Annual Research Conference Proceedings. GARFINKEL, R. S., A. S. KUNNATHUR, and G. E. LIEPINS. (1 98fi). Optimal imputation of erroneous data.^ A survey. Operations Research 34. GEIs, Development Team. (1 989). Generalized Edit and lmputation System; Specifications. SS D, Statistics Canada. G Els Modules Specifications. Module ED-ANAL (1)(2)&(3) G E^s Modules Specifications. Module ED-APPL (1)(2)(3J&(41 GEis Modules Specifications. Module ERR-LOC (0)&(1) GEis Modules Specifications. Module IMPUTE (1^(2^(3)(4^&(5^ GE^s Modules Specifications. MODULE MATCH-FIELDS GE^s Modules Specifications. Canada. 1987 & 1988. D4NQR lmputation BSMDM, Statistics t^1 ^E)Iti1 l( ^^ f tiF'^ti^^l i G ^ ^ES, P. (19 8 6). Methodological specifieations for a Generalized Edit and lmputation System. Statistics Canada Technical Report. G i^ES, P. (1 986). Generalized Edit and lmputatian. The Canadian Journal Statistics, Vol. 16, August. G I LES, P. a nd C. PATR I C K. (1 9 8 6). lmputation Options in a Generalized Edit and lmputation System. Survey Methodology, Vol. 12. Statistics Canada. J une. G ^ ^ES, P. (19 8 9). A nalysis of Edits in a Generalized Edits and /mputation System. Working Paper, SSM D. Statistics Canada, Glossary of Terms.^ Data Editing ECE/UNOP SCPIGL/3, Bratislava, September 1982. GRANQUIST^ L. ,(19821. nn Generalized Editing Piograms and the Solution af the Data Qua/ity Problems ECE/UIVDP/SCP/DE WP.1 7. G RANQUIST, L.. (1983). Un the role of Editing ECE/EN DP/SCP/DE/WP.39. G RANQUIST, ^. (1984). Data Editing and its lrnpact on the Futher af Statistical Data Workshop on the DCP. Budapest 1 2-1 7 lVoviembre 1 984. invited Paper. G RANQUIST, L. (1 990a). ©ata editing and quality I BG E Workshop Data Editing and Imputation Methods. Rio de Janeiro, febrero 1 990. G RANQUIST, L. (1 990b). Macroediting. A review of inethods for rationalizing the editing of survey data quality. ECE/UNDP/SCP2/DE/WP.67. G REENgERG, B. (1 98 i). ©eveloping an edit system far industry statistics. Proceedings of the 13th Symposium on the Interface. G R E E N B E R G, B.(1 9$ 2) . Using an edi t s ys tem to de velop edi ting s pecifiea tions. Proceedings of the Section on Survey Research Methods, ASA. GREENBERG, B. and R. SURDY . (1984). A Flexible and interactive Edit and /mputation System for Ratio Edits. Statistica! Research Division Report Series. U.S. Bureau of the Census. GREENBERG, B. (1 985). Edit and lmputation as an Expert system. Workshop on Statistical Uses of Microcomputérs in Federaf Agencies, Session on Expert Systems. C^^i E E N B E R G, B.(19 8 6). The use of lmplied Edits and Set Co vering in A utomated Data Editing. Statistical Research Division Report Series. U.S. Bureau of ihe Census. HIDIROGLOU, M. A. & J. M. BERTHELOT. ( 1 9$6). Statistical tion for Periodic Business Surveys Vo112. N.i^ 1. pp 73--83. Editing and lmputaSurvey Methodology, June 1986, ^^) 51'F E R-(^E Iti. (^()S tiltiTf ^1 ^^ F'^R> I^ f)f 1'1 Ft ^( I(1\ H i LL, C. J.(19 7 8). The application of a systematic method of automatic and imputation to the 1976 Canadian Census of Population and Housing. Annual Meeting of the American Statistical association, August 1978. KOVAR, J. G., J. H. MACMI^LAN & P. WNITRIDGE ( 1 988). Overview and St^ategy for the Generalized Edit and lmputation System. Working Paper N.° BSMD-88-007E, Methodology óranch, Statistics Canada. Lignes Directrices Concernant la qualité (1987). Statistique Canada. LITTLE, R. and P. J. SMITH (1987). Editing and lmputation for Quantitative Survey Data. Journal of the American Statistical Association. March. LITTLE, R. & D. B. R u B ^ N. (1 9 8 7). Statistical Analysis with Missing Data. Ed. John Wiley & Sons. PIERZCNALA, M. (1 988). A review of the State of the Art in Automated Data Editing and lmputation. NASS Staf# Report. U.S. Department of Agricultu- re. R u B ^ N, D. S., (19 7 5). Vertex Generation and Cardinality Constrained Linear Programs. Operation Research, 23. S A N D E, G.(19 7 8). A n algorithm for the Fields to lmpu te Problem of Numerical and Coded Data. Statistics Canada Technical Report. SCHIOPU-KRATINA, I. and J. G. K©VAR. (1989). Use of Chernikova ^ Algoriti^m in the Generalized Edit And lmputation System. Working Paper, B S M D. Statistics Canada. S I LVA, P. L. N. (19 8 9). Critica e imputacao de dados quantitativos utilizando 0 SAS. Disertacao de mestrado em Estadistica, Instituto de matematica pure e aplicada. Subcommitee on Data Editing in Federal Statistical Agencies (1990) Data Editing in Federal Statistica Agencies. Statistical Policy Office, Working Paper 18, may 1 990. SUMMARY This paper presents the overall characterist+cs and functions of the generalized editing and imputation systems and analyzes the methodology of two generafized systems: implemented at the USA Bureu of the Census and GEIS, implemented at Statistics Canada. It briefly analyzes the impact on a data file of both syste m s. Key words: Edit, implicit edits, editing, imputation, field, donor field. AMS classification: 6^ - 04 matching ESTADISTICA ESPAÑOLA Vol. 33, Núm. 12 7, 1991, págs. 243 a 2 56 COMENTA R IOS ILDEFONSO VILLAN Instituto Nacional de Estadística EI artículo de Soledad Bravo se centra en la descripción de dos Sistemas Generales de depuración de datos, SPEER y G EIS. La descripción que hace de ambos sistemas es completa y clara, sin embargo, el propio énfasis dado a la descripción de los citados sistemas, y su calificativo de "generales", puede crear alguna confusión, especialmente entre los que no se hayan enfrentado nunca con la tarea de recoger y procesar estadísticas. SPEER y G EIS son generales en tanto que se pueden aplicar a muchas estadísticas distintas, pero no resuelven, en general, todos los problemas de depuración de una estadística, y no se pueden aplicar a todos los tipos de estadísticas. Por ello quizás resulte conveniente presentar esquematicamente los métodos y procedimientos que se están utilizando en la actualidad por las Oficinas estadísticas más avanzadas. Los métodos utilizados por cada Oficina Estadística vienen condicionados por factores organizativos, legales, técnicos, e incluso consuetudinarios; en cualquier caso parece que la tendencia actual se pueden resumir en: 1) Integrar operaciones, para eliminar costes y evitar el someter los datos a sucesivas operaciones desconectadas unas de otras. Hay dos estrategias dominantes: 1) La integración de las operaciones de recogida y captura, ernpleando procedimientos CAPI ^Computer Assisted Personal Inter- . view) o CATI (Computer Assisted Telephone Interview). 2) La utilización de grabaciones ""inteligentes"', en lugar de las tradicionales grabaciones masivas. Con las grabaciones inteligentes se pierde velocidad, pero se integran varias tareas en una: grabación, codificación asistida y primera depuración. Su objetivo suele ser evitar posteriores vueltas al cuestionario, al detectar durante la grabación errores cuya corrección se puede hacer usando la información contenida en el propio cuestionario (notas al margen, correcciones, etc.). ?^-^ FST ^[)Itii It -ti F SF'^Ltit^l A 2) Reducir al máxímo las vueltas al respondiente por medio de Ilamadas telefónicas o nuevas visítas, para ello se buscan procedímientos que permitan concentrar los esfuerzos de recontacto con el informante en los errores más importantes, entendiendo como tales aquellos que tienen un mayor impacto en las estimaciones. Este es uno de los campos donde las Oficinas de Estadística están investigando de forma más activa, pues es aquí donde se pueden conseguir ahorros signíficativos en los costes y reducciones en los tiempos. A este respecto son de destacar los trabajos de la oficina Estadística de Suecia, en la que se ha acuñado el concepto de macrodepuración (macroediting) habiendo experimentado varios procedimientos: Topdovvn, BoxPlot, Método de agregación, etc. (véase Granquist, ^. (1 991 )) y la oficina Estadística de Canadá con e1 método de Hideroglou y Berthelot para detección de observaciones outlier y la utilización de una función score"' ( Latouche, M. y Berthelot, J. M. í 1 990) ), que mide el grado de importancia de los errores de un cuestionario para así determinar si es necesario o no realizar un seguimiento más profundo del mismo. Esta función recoge la importancia del respondiente, la magnitud y número de errores e importancia de las variabies sospechosas. EI Instituto Nacional de Estadística ha realizado en este campo una experiencia muy interesante con el 'procedimiento en Cascada' aplicado en la Encuesta lndustrial (Pons, J. {1988) ). 3) Para !os errores que quedan tras aplicar los procedimientos ante-riores, que pueden ser nu merosos, aunque de una importancia reducida, caben dos alternativas: 1) dejarlos en los registros de datos, quedando a discreción de los usuarios el realizar sus propios ajustes 2) eliminarlos utilizando algún procedímiento de imputación automática. No voy a entrar aquí en la larga polémica sobre cua! es la alternativa más conveniente, pero el hecho es que las Oficinas de Estadística suelen utilizar la segunda, dejando si acaso (a primera para investigaciones internas o para usuarios muy especiales. E! problema esta en disponer de procedimientos de imputación automática efícientes, flexibles y con una base metodológica razonable. Es en este punta donde los sístemas SPEER y G EIS descritos por Soledad Bravo adquieren protagonismo. Dado que han sido perfectamente ciescritos en el artículo comentado, me limitaré a hacer únicamente unas consideraciones generales sobre ellos. Las primeras consideraciones son aplicables a la totalidad de los sistemas generales de depuración actualmente existentes. 1) Los sistemas generales de depuracián son necesarios: reducen costes, tiempo de desarrollo, y lo que es más importante, ofrecen una seguridad de estar libres de errores mucho mayor que los sistemas desarrollados a medida. < ^^^ ^t^ ^ t ^k^ir^ti 2) A pesar del calificativo de generaies, los sistemas generales de depuración de datos cuantitativos no son tan "generales"'. Son generales en cuanto a la posibilidad de aplicación a diferentes estadísticas, pero no cubren todo el proceso de depuración, ni se pueden aplicar a todas las estadísticas. 3) Los sistemas generales descansan sobre modelos de la realidad, en concreto sobre modelos del tipo de datos a los que se aplican y de los tipos de errores que afectan a dichos datos. Solo tienen valide2 cuando el modelo en el que están basados es una buena representación de ia realidad. En concreto, tanto GEIS como SPEER suponen que los errores están distribuidos aleatoriamente y son de poca importancia. Pretender depurar un fichero de datos con un alto porcentaje de errores utilizando un sistema general de imputación solo conduce a"inventar" la información obteniendo resultados poco representativos. 4) Los Sistemas generales actuales limitan su aplicabilidad a la depuración intra-registros, dejando para otras fases de la depuración el tratamiento de la depuración inter-registros. 5) Los Sistemas generales suelen presentar limitaciones prácticas en su aplicabilidad. Esto es consecuencia tanto de problemas metodológicos como de potencia de los equipos actuales. En muchos casos es necesario introducir estrategias que permitan su aplicación a pesar de las limitaciones, como por ejemplo estratificar los datos y aplicar distintos conjuntos de edits a cada estrato, estratificar las variables y depurarlas por grupos, etc. Esto hace que en muchos casos sea necesario realizar un irnportante volumen de programación adicional para resolver los problemas no resueltos por el sistema general. En otros casos lo que producen es una complicación de la ejecución de la tarea de depurar, ai ser necesario manejar distintas aplicaciones, una por cada estrato. 6) Los Sistemas generales se han desarrollado por Oficinas de Estadística para resolver sus propios problemas, no son productos comercializados, no estando en distribución de manera oficial. Presentan problemas de soporte y en muchos casos de documentación. 7) Los Sistemas generales son costosos de desarrollar. Buena prueba de ello es el tiempo y recursos dedicados por Statistics ^anadá al desarroIlo de GEIS, que es un sucesor de un proyecto anterior, frustado en cuanto a resultados prácticos, NEIS, iniciado a finales de los setenta, pero que sola el desarrollo de la tecnología y de la metodología ha permitido la obtención de un sistema operativo tras varios años de esfuerzos. ?4f^ ^ tir ^^r^isTic^n t ti^^^tic^t ,^ Comentarios particufares sobre SPEER y GEIS 1} Tanto GEIS como SPEER están principalmente orientados a eliminar los errores residuales por medio de imputacián automática. Este es su único papel en GEIS, que se F^a desarrollado en Statistics Canadá como un complemento al Sistema DC2 ^Data Collection and Capture), en el que se Ilevan a cabo las funciones de entrada, codificación asistida y detección de observaciones que requieren vuelta al informante. SPEER puede ser utilizado de una forma más amplia pues, aunque no es su objetivo principal, se puede utilizar como Sistema de entrada, y por supuesto para realizar correcciones interactivas. Otro factor que limita la generalidad de su aplicabilidad es la limitación del tipo de reglas por ellos manejados. 2) SPEER es un sistema incompleto en el sentido de que no cubre todas las tareas de la depuración, requiere adaptaciones a medida para las especificaciones y para la imputación. Tiene además la limitación de solo manejar edits de la razón y de totalización. Sín embargo tiene sus atractivos. Es sencillo, permite la aplicación de la metodologia de Fellegi & Holt en tada su extensión, pues al utilizar solo edits de la razón la obtención del conjunto completo de reglas se simplifica de manera decisiva. Además, las reglas que maneja son las más frecuentes en muchas encuestas económicas. AI estar programado en Fortran, permite su instalación en una amplia gama de plataformas sin necesidad de realizar inversiones adicionales. Para resolver sus limitaciones, Soledad Bravo ha trabajado intensamente, tanto en el Bureau of The Census como en INE, con vistas a proporcionar un sistema más completo. Fruto de sus trabajos son el Sistema BNDSPEER, que proporciona intervalos de confianza hasta por cuatro métodos diferentes, para la estratificación seleccionada y para cada función de las variables de la encuesta. Es un procedimiento muy útil para obtener los límites de los edits a utilizar con SPEER, así como para integrarse en cualquier otro procedimiento de depuración. También ha iniciado el proyecto de desarrollar MBSPEER, que además de las funciones de SPEER y BNDSPEER, proporcionara un interfaz generalizado para e1 usuario, así como procedimientos generales de imputación. 3) GEIS es un Sistema más elaborado y complejo que SPEER, a pesar de las lir ^^ii^:cior^tcs cc^ c uanto al tipc de reglas que maneja, con sencillas transformaciones puede aplicarse a reglas más complejas. AI estar programado en C y SQL-FORMS de ORACLE, es portable a muchas plataformas hardware, pero requiere disponer tanto de ORACLE, como de SQL-FORMS. <^^^^^^^^ ^^r^ aKi^^^; ?47 Los Sistemas Generales c!e depuración y el Instituto Nacional de Estadística. EI Instituto Nacionai de Estadística de España está interesado, como no podía ser menos, en el tema de los Sistemas Generales de depuración, desde hace más de diez años. Desde el I.N.E. se han seguido con interés los desarrollos teóricos, especialmente de Fellegi y Holt, Sande y posteriormente Greenberg. EI I.N.E. ha sido un miembro activo del Grupo de Trabajo de Depuración de Datos del Proyecto de Computación Estadística auspíciado por la Comisión Económica para Europa de las Naciones Unidas. En este grupo se han intercambiado experiencias, se han realizado interesantes discusiones que poco a poco han ido cristalizando en un gran énfasis en el control del impacto de la depuración en la caiidad de los datos, y una gran importancia al concepto de macrodepuración. EI I.N.E. ha utilizado en la depuración de los Censos Generales de los 8o el sistema AERO (1981), desarrollado por la oficina Central de Estadística de Hungría, y espera poder utilizar en un futuro los sistemas GEIS y SPEER. EI I.N.E. por su parte ha desarrollado DIA, un sistema general de depuración de datos cualitativos, García Rubio, E. y Villan, I. (1988 y 1990), basado en la metodología de Fellegi y Holt, en la que integra el tratamiento de errores sisternáticos por medio de reglas de imputación determinísticas. En la actualidad DIA es el único sistema que integra la imputación determinística con la probabilística, y es el sistema de depuración de datos cualitativos que incorpora un analizador de reglas más completo. DIA se viene utilizando en el I.IV.E. en diferentes estadísticas: Padrón 86, Encuesta de Población Activa, Defunciones, Fecundidad, Presupuestos Familiares, etc., estando prevista su aplicación a los Censos Generales de 1 991, para lo que se está terminando el desarrollo de la versión 2 de DIA, que incorpora mejoras metodológicas y operativas sobre la anterior. REFERENCIAS AERO G ENERALIZED DATA EDITING SYSTEM V.2. System Philosophy. Hungarian Centraj 5táii5iicdl Cifii^e. GARCIA Rue^o, E. y VILLAN , I. (1988). DIA: Descripción del Sistema. Instituto Naciónal de Estadística. GARCiA RuB^o, E. y VILLAN, I. (1990). DIA SYSTEM: Software for the Automatic ímputation of qualitative data. U. S. 6th Annual Research Conference Proceedings. ^-LK I ti l 1T)Iti T I< ^1 F tiP-1`()l •1 G RANQUIST, ^EO^O^D 1^ 990). Macroediting. A review of inethods for razianalizing the editing of survey data quality. ECE/^JNDP/SCP2/DE/WP.67. LATOUCHE, MICHEL and BERTHE^OT, J. M . (19901. Use of a score function for error correction in business surveys at Statistics Canada. lnternational Conference on Measurement Errors in Surveys. Tucson, Arizona. No- viembre 12, 1990. PONS ORDINAS, JuAN (198$y. Praceso de macroedición. Análisis y Transferencias macro-rnicro en la Encuesta lndustrial. Desagregacián en Cascada de Tablas de Series. Instituto Nacional de Estadística, España, Documento de Trabajo, Diciembre 1988. ( ()ti1E tiT ^^RIOS ^^y JOHN G. KOVAR Statistics Canada En primer lugar quiero agradecer y felicitar a la autora por su magnífica y completa evaluación del Sistema Generalizado de Edición e Imputación (G EIS) producido por Statistics Canada. Tanto. la revisión teórica como la descripción del sistema son completas y precisas. Por todo ello me lim itaré a dar una breve descripción de los últimos trabajos que con relación a G EIS se están realizando en Statistics Canada. Se esta dedicando una considerable cantidad de tiempo a la tarea de optimizar y ajustar GEIS. Actualmente se está recopilando una documentación muy completa, cubriendo principalmente los aspectos de utilización del sistemá. Con relación a las tareas de optimización de G EIS, ahora somos capaces de hacer que los módulos críticos de GEIS sean lo suficientemente rápidos para que puedan ejecutarse en el ordenador central grandes aplicaciones, mientras que la versión DOS de GEIS se reserva a demostraciones, entrenamiento, estudios de evaluación y la producción de estadísticas muy pequeñas. Por ejemplo, hemos conseguido depurar satisfactoriamente un fichero de 1 50.000 cuestionarios con alrededor de 30 variables; el rnismo proceso se repetirá este año con la encuesta en curso. En la actualidad estamos preparando el proceso del Censo Agrario 1991: ^alrededor de 300.000 registros con 300 variables. También se han procesado con G EIS varias investigaciones de tamaño medio; el procesamiento, incluyendo preparación, proceso y evaluación se ha realizado generalmente en terminos de días. Todas estas aplicaciones han utilizado el ordenador central. Actualmente estamos intentando procesar una encuesta muy pequeña (400 registros, 10 variables) en el microordenador. Los resultados prelirninares indican que el proceso Ilevará varias horas en una máquina 386SX. Con relación al ajuste del Sistema G EIS, su desarrollo se ha dado por finalizado. Los planes actuales son mantener la presente versión y embarcarnos en nuevos desarrollos únicamente si lo requieren los usuarios. Para completar la tarea de desarrollo, el equipo G EIS está compilando una serie de documentos cun vistas a ayudar a los usuarios a decidir. 1) Cuando GEIS es apropiado para resolver su problema, 2) como realizar la tarea de especificar y analizar los edits, 3) como trabajar bajo las limitaciones de GEIS, etc. También se está terminando la elaboración de un docurnento de la descripción funcional de GEIS, y se está preparando un manual tutorial. 250 FSTADESTIt'^^ E^SF'A!v(^1_A La última versión de G E I S, G EI S f^.3 utiliza la versión 6 de O RAC l.E, e incorpora algunas mejoras sobre fas descritas en el documento de Soledad B ravo. Estas son: 1 ^ EI procedimiento de estimación ejecuta simultáneamente todos fos métodos de estimación, en fugar de ser necesario aplicar por separado cada uno de los algoritmos. 2) Se admiten exponentes decimales, entre 0 y 1 en !a detección de outliers por tendencias históricas, 3) es posible almacenar las cl^usulas de excfusión SQL en una tabla con un identificador asociado, identificador que puede ser utilizadQ en ef futuro en la detección de outliers, imputación con Donor o imputación por estimación, 4) se han hecho varias mejoras de presentación en pantallas, mensajes y tablas. ( (1ti1f ti"I ^^RI(1^ ?51 JUAN PONS ORDINAS Instituto Balear de Estadística Depu^ación de datos Estadísticos Normalmente, cuando se ha terminado de grabar un censo o encuesta se tiene la certeza de que existen un número más o menos grande de registros incorrectos, ya sea por falta de respuesta, o porque se ha cumpfimentado rnal el cuestionario. Existen muchas razones para intentar corregir estos errores, pero quizá la más importante sea la de obtener una mejor estimación de la realidad. EI primer paso para la corrección de los errores consiste en su detección. En general, esta detección es más fácil cuando se tratan datos cualitativos que cuando se tratan datos cuantitativos. Esto es debido a que en el caso cuantitativo, muchas veces se debe recurrir a otras observaciones de la misma encuesta para decidir conjuntos de valores razonables. Por ejemplo: EI ratio "producción bruta/consumo energía" depende en primer lugar del tipo de producto que elabore una determinada empresa y en segundo lugar del grado de mecanización de la empresa. Aún así, no tenemos ninguna seguridad de que no influyan otros factores. De esta forrna, el intervalo de aceptación para este ratio, lo tendremos que calcular sobre grupos de observaciones que presumiblernente sean análogas o parecidas. Si estas observaciones no son verdaderamente parecidas podernos aceptar sin darnos cuenta observaciones inválidas o rechazar observaciones válidas. Por otra parte, en los datos cualitativos, una persona con estudios superiores tiene que tener necesariamente al menos 22 años y una niña de 13 años casi nunca tendrá hijos al margen de otras observaciones. EI problema de la detección de los errores cuantitativos se ve agravado con otro no menos importante: un sólo error en un cuestionario puede invalidar toda una encuesta, mientras que en los datos cualitatívos no suele ocurrir. Una vez que se ha localizado un error se inicia la fase de corrección y/o imputación. Lo ideal sería volver a-preguntar al informador, no obstante este proceso es largo, caro y laborioso, y su puesta en práctica puede Ilevar a considerables retrasos en la finalización de la encuesta o censo incluso a que la información ya no tenga ningún tipo de interés. La otra alternativa es utilizar la información redundante en la observación o basarse en observaciones teóricamente análogas a la que contiene el error, ya sean de periodos anteriores o del mismo, pero parecidas. 1 ti 1 t()I^ i l< ^ F^,I^ ^tic)1 Sea cual sea el proceso seguido, al final lo que abtendremos serán unas observaciones razonablemente correctas. Llegando a este punto, cabe preguntarse en cuanto ha variado la estimación de la realidad después de este proceso. Si ha variado muy poco la información antes y después de la corrección y/o imputación seguirá siendo válida, incluso mejor, al haberse utilizado información redundante o adicional que no poseen los usuarios de !a estadística. Pero, Ly si ha variada sustancialmente?. En ese caso, !a única solución es analizar detenidamente tado el proceso y asegurarse de que las correcciones realizadas van encaminadas hacia un mejor conocimienta de la realidad. En general, ese conacimiento de la realidad viene explicado en los objetivos de la encuesta y en particular viene expresado a través de las tablas que se van a publicar. Esas tablas tienen distintos niveles de desagregación y por lo tanto distinta composición, lo que nos Ileva a la conclusión de que no todos los errores son iguales. Por ejemplo, un error de un millón de pesetas no tiene la más mínima importancia a la hora de estimar la Producción Industrial de España pero si puede tener muchísima importancia cuando se trata de estimar la producción en una determinada actividad de una determinada región y para un determinado tamaño de emprésa. De todo ello se deduce que la importancia de un error se debe medir en función del impacto que produce en el dato a publicar, mimando los que provocan grandes distarsiones y tratando sorneramente los que provocan pequeñas distorsiones a no ser que estos últimas sean muy numerosos y en la misma dirección. En cualquiera de los casos, cabe preguntarse si !os datos son mínimamente fiables cuando difieren en un 50 % antes y después de corregir y/o imputar en el supuesto que se de por bueno el proceso de corrección. Resumiendo, un excelente control de calidad para un proceso de depuración consiste en comparar !os datos a publicar antes y después de corregir y/o imputar y asegurarse de que las correccíones que producen grandes distorsiones están bien realizadas. Veamos a cantinuación un método para la detección y corrección de datos cuantitativos que se ha puesto en práctica en ai Encuesta Industriai del I.N.E. con resultados muy satisfactorios y que se puede utilizar para la localización de las correcciones antes mencionadas. Supongamos que tenemos una idea aproximada de los resultados que se van a obtener para cualquier nivel de desagregación. Esta información se ('O!^1FtiT ^1K1(>^ ?S^ puede obtener a partir de la misma encuesta en periodos anteriores. Si se producen grandes discrepancias en un determinado valor, se desagrega este por una determinada variable, por ejemplo por regiones. Si en todas las regiones se observa la misrna discrepancia, es razonable pensar que esta es real y no debida a errores en las observaciones. Lo contrario implicaría que existen muchos cuestionarios con el misrno error y repartidos uniformemente es decir, un error sistemático que tendría que tratarse aparte. En caso de duda se desagrega cada región por otra variable. Si solo existe una o varias regiones con grandes discrepancias se vuelve a aplicar el mismo proceso a cada una de estas regiones desagregando por otra variable. AI final de este proceso obtenemos un conjunto más o menos reducido de cuestionarios que son los causantes de la discrepancia inicial. Analizando estos cuestionarios se podrá comprobar si son correctos y en su caso corregirlos. Se debe observar que este método solo detecta grandes errores y que para que funcione correctamente no deben existir errores sisternáticos ya que, al final obtendríamos un número demasiado elevado de observaciones a revisar. De todas formas puede servir para detectar este tipo de errores. AI aplicar el proceso, se tiene que tener en cuenta la representatividad de las desagregaciones en el caso de u na encuesta por muestreo, ya que, la selección particular de la muestra puede inducir discrepancias solo debidas a ella. Este mismo método se puede aplicar para localizar los cuestionarios que provocan grandes discrepancias entre los datos antes y después de corregir y/o imputar, con la ventaja de que cualquier desgregación o subpoblación es siempre representativa a1 cornpararse con ella misma antes y después del proceso de depu ración. Por último quisiera hacer una reflexión sobre los procesos de depuración sin contar para nada con el informante. Estos métodos detectan y corrigen los datos raros, inesperados, atípicos, presumiblemente erróneos. Sin embargo estos datos son los que nos pueden informar de que algo raro 0 inesperado y por lo tanto interesante se ha producido o se está produciendo. Volviendo a un ejemplo anterior t-Acaso no existen personas superdotadas con estudios superiores y menores de 22 años?. De esta forma el exigir que toda persona con estudios superiores debe tener al menos 22 años puede provocar que estemos corrigiendo datos correctos. EI impacto de estas correcciones indebidas sobre la población total es despr-eciable, no obstante, debido a la gran difusión que se hace de estos casos excepcionales, puede extrañar a alguien que el número de personas con estudios f ti1 \I)Itil It •\ f Sf'^\^tll_^\ superiores y edad super^or a 22 años coincida con el número de personas con estudios superiores. Desde luego, siempre es mejor que ocurra esto a que se publiquen 300 personas si en realidad solo existen dos o tres. EI realizar buenas estimaciones sobre subpoblaciones raras o reducidas es muy difícil, sobre todo si se trata de una encuesta cuantitativa ya que muchas veces son los mismos datos (correctos o noy de la encuesta los que determinan el intervalo de aceptacián de un determinado ratio o variable. Si además, la encuesta es por muestreo y/o no disponemos de información auxi0iar para agrupar las observaciones teóricamente parecidas, la situacián se complica aún más y puede ocurrir que los intervalos de acep^ tacián no se correspondan con la realidad. Sería interesante saber (especialmente en el caso de datos cuantitativos^ hasta que punto estamos transmitiendo indebidamente un caracter de normalidad a los datos estadísticos al eiiminar lo anormal (presuntos errores^ si no podemos contar ^on el informante a!a hora de corregir una observación. (^(^ti1f^ tiT•^RIOS ^$5 CONTESTACION En primer lugar quiero agradecer a los señores Ildefonso Villan, John Kovar y Juan Pons sus comentarios al trabajo sobre " GEIS y SPEER: Dos Sistemas Generales de Depuración de Datos Cuantitativos". Me alegra, por fin, ver publicado en la Revista Estadística Española del INE un trabajo sobre la Depuración de Datos Estadísticos. Es precisamente esta revista el foro que yo creía más adecuado para la publicación de un artículo sobre^ el tema. Primero, porque son los estadísticos profesionales, y entre ellos los estadísticos del I N E, los que cada día tienen que enfrentarse at difícil problema de dar soluciones técnicas al problema de la detección de errores, corrección de errores e imputación de los datos de sus encuestas. Segundo, porque el propio I N E ha dedicado especiales recu rsos para investigar sobre métodos y técnicas de depuración de datos. Si los artículos de Ildefonso Villan y Juan Pons no fuesen comentarios a mi trabajo, creo que debieran de anteceder a este en el orden de presentación. Ildefonso define perfectamente cual es la problemática de la depuración, que filosofías orientan los trabajos de investigación y que métodos utilizan las oficinas pioneras en este campo. En este marco, Ildefonso puntualiza: Los sistemas "generales" de depuración, lo son porque se pueden aplicar a distintas encuestas, PERO no son generaies en cuanto: 1) No se pueden aplicar a todo tipo de datos. 2) No se pueden aplicar a todo tipo de errores. Efectivamente. Tanto G EIS como SPEER trabajan solo con datos continuos; además exigen el cumpfimiento de los supuestos implícitos al modelo teórico que les sirve de soporte. Es decir: Los edits delimitan correctamente la realidad a analizar; los datos que se respetan en la encuesta son datos verdaderos; ia falta de respuesta y los datos erróneos son aleatorios. Creo que es oportuno insistir con Ildefonso, y ya lo hago en la introducción a este trabajo, que los procesos autornáticos de depuración son la etapa final y residual a los procesos de control de calidad de cada una de las tareas que se ejecutan en la explotación de los datos de una encuesta o censo. ^4f^ f tiC ti[311t It ^^ 1^I'^^^1)L 1 Juan Pons subraya la especial complejidad que tiene la detección de errores y la imputación de datos cuantitativos. Se preocupa Juan, como experto en temas de depuración, de la importancia relativa de los errores, y como deben "mimarse`" ios errores que provocan grandes distorsiones, pasando someramente por los que tiene un impacto menor en los agregados que se publican. Juan Pons se está refiriendo a los métodos que se utilizan en ios procesos de rnacro-depuración pracedimientos de selección y control de los errores de las unidades influyenies de una encuesta . La macro-depuración es una filosofía que ilumina nuevos caminos de investigacián y que, aunque no es esta contestacián el lugar para iniciar una reflexión sobre la m isma, espero se continúe en esta línea de estudio de nuevos métodos. Quiero subrayar una idea que se repite en el comentario de Juan Pons. ^. Los procesos automáticos de detección/imputación de datos mejoran las estimaciones de una encuesta? ^Se está elevando a categoría de "realidad" lo inferido por los datos recogidos y depurados de una encuesta ? La contestación afirmativa a ambas preguntas no es aceptada por todos; en todo caso, los procesos de depuración afectan a los datos finales obtenidos y es nuestra responsabilidad el cuidar y medir el impacto de nuestro trabajo en los rnismos. Mr. Kovar resume los ajustes realizados al sistema G EIS y destaca algunas de las encuestas que se han depurado con GEIS. Desde mi visita a Statistic Canada, visita que me permitió conocer la metodología de G EI S y escribir el trabajo que aquí se publica, ha pasado bastante tiempo. A partir de las aplicaciones procesadas con G EIS, se están publicando numerosos trabajos de evaluación del srstema. Remito a los interesados en los sistemas "generales" de depuración, al estudio y análisis de estos documentos. Finalizo como he empezado: Agradeciendo, ahora, a la revista Estadística Española la publicación de mi trabajo. Espero que en sucesivos números aparezcan publicados otros artículos que, me costa, se han escrito desde otras ópticas de la depuración de datos.