Dos sistemas para la depuración de datos cuantitativos

Anuncio
ESTADISTiCA ESPAÑOLA
Vol. 33, Núm. 1 2 7, 1 991, págs. 1 91 a 242
SPEER & GEIS : Dos s i stem as para la
depura c ión d e datos c uantitativo s
MARIA SOLEDAD BRAti/O CABRIA (1 )
Noviembre, 1989
RESUMEN
Este artículo presenta las características y funciones de los
sistemas generales de depuración de datos cuantitativos y analiza la metodología de dos sistemas generales: SPEER, desarrollado en el B u reau of the Census de los Estados U nidos y G E I S
desarrollado en Statistics Canada. Se compara sucintamente el
resultado del proceso de depuración de ambos sistemas.
Palab^as c/ave.^ Edit, edits implícitos, depuración, imputación,
registro/campo danante.
Clasificación A MS.^
6 2- O 4
INTRODUCCION
La Conferencia de Estadísticos Europeos define la depuración de datos
estadísticos como "una actividad dirigida a asegurar que los datos cumplen
ciertos requerimientos; es decir, que satisfacen condiciones de corrección
establecidas". En las tareas de depuración, la Conferencia distingue tres
fases que, básicamente, se resumen en 1) la definición de un conjunto de
reglas de validez y consistencia, 2) su verificación sobre los datos para la
detecciá ^ n de errores y 3) correccián e imputacián de campos sin respuesta o campos con error. Dos son las características de todos los procesos de depuración de datos. La primera es su coste elevado en recursos y
tiempo; la segunda, su impacto en la calidad de los datos. Reducir los
requerimientos de recursos y de tiempo y mejorar la calidad de los datos
(o, al menos, asegurar su neutralidad) son los objetivos de los estudios y
trabajos que vienen realizandose en este campa. En ese objetivo se enmarcan los Sistemas Generales de Depuración de Datos.
(1 } Agradezco los comentarios que sobre este documento hicieron Ildefonso Villan, Jose
Luis Viedma y Magdalena Cordero del INE; el Sr. Silva del fBGE de Brasil. Mr. Kovar de
Statistic Canada leyó y comentó la versión en Inglés. Ramiro López me ayudó con la traducción ai español del documento en inglés. Elisa Gutiérrez mecanografió la versión en español.
^`^,
4^ I ^I ^I^ 1 Ic ^ t tii' \^^^ ^I 1
EI desarrollo de métodos automáticos de depuración se inicia en la
década de los ochenta; se fundamentan -en su mayoría^ en los principios
que Felfegi y Holt ^F & H f establecen en 1 976. Estos principios son: Cada
registro debe satisfacer todas las reglas de validez y consistencia (edits en
la terminología de F& H). Las correcciones deben realizarse en el menor
número de campos posibles. La detección e imputación forman parte de un
mismo proceso y cualquier procedimiento de imputación debe mantener la
estructura de los datos. Los Sistemas Generaies de Depuración de datos
tienen como objetivos explícitos: ^} EI d©tar a las Oficinas de Estadística
de una Metodología contrastada y eficiente para la costosa tarea de depuracián de datos. 2) EI generalizar unos esfuerzos que se repiten, y no de
forma muy diferente, de aplicación en aplicación. 3) EI ahorrar, siguiendo
con lo constatado en el punto anterior, tiempo y recursos en el desarrollo
de sistemas de depuracíón específicos. Los sistemas generales de depuración proveen funciones de definición y análisis de !os edits, de detección
de posibles errores en los registros de un fichero de datos, de localización
de los campos erróneos, de mecanismos de corrección de errores y de
diagnóstico. Finalmente, disponen de procedimientos de imputación automática que permiten la obtención de un fichero de datos con registros
individualmente "iimpios", conservando la mayor cantidad posibie de datos
originales y preservando las distribuciones conjuntas.
Los datos de las encuestas ios ciasificamos en datos de tipo cualitativo
(datos con inforrnación sobre variables discretas, como "Estado civil") y
datos de tipo cuantitativo (datos con información sobre variables continuas,
como "Salario bruto"i. Los sistemas generales para la detección é imputaci©n de datos cualitativos se diseñaron e implementaron en primer lugar;
en la actualidad son ampliamente utilizados en el proceso de censos y
encuestas demográficas. Como ejemplos de sistemas generales de depura^
cián de datos cualitativos tenemos: CANEDIT, utilizado en Statistics
Canada para procesar su censo de población; AERO, implementando en la
Oficina de Estadística de Hungría y DIA desarrollado y ampliamente utilizado en el I N E, España. La definición de metodologías generales para fa
implernentación de sistemas de depuración de datos cuantitativos parecía
ser empresa más compleja. Sin embargo, 1os dos sistemas que presento en
este artículo son un fogro en el desarrotlo y aplicación de sendas metodologías en el tratamiento de datos cuantitativos.
EL I NSTITUTO NACIONAL DE ESTADISTICA ( I NE) de España se interesó muy pronto por fa metodología propuesta por Fellegi & Holt y dedicó
recursos personales y económicos al desarrollo de un Sistema de Detección e Imputación Automática (DIA}. DIA supone una importante contribución a los sistemas generales de depuración de datos cualitativos. EI INE
^P[ [ FZ-c,[ I^. [x)^ tiitiTE.41 ^S C'•^Ft•t l•t C)[ Pl Ft•t( Ic)^
Iy^
sigue interesado en participar en este campo de la investigación, razór^ por
la cual es un miembro activo del Grupo de Trabajo de Depuración de Datos
del Proyecto de Computación Estadística de la Conferencia de Estadísticos
Europeos. Sigue de cerca las nuevas tendencias sobre la depuración de
datos como es la macroedición propuesta por L. Granquist de la Oficina de
Estadística Sueca. Finalmente, está interesado en sistemas generales para
la depuración de datos cuantitativos, dos de los cuales se presentan en
este momento. Estos son: S PE E R, desa rrol lado por el B U R EA U o F TH E
CENSUS (USA) y G EIS desarrollado en STATISTICS CANADA (CANADA).
Existen varios motivos, para el interés en los sistemas SPEER y GEIS. En
primer lugar, se trata de sistemas generales para la depuración de datos
cuantitativos. Las encuestas con dato^s cuantitativos vienen procesandose
con programas hechos a medida cuyo coste y duración no requiere rnás
énfasis. En segundo lugar, ambos sistemas están basados en metodologías
rigurosas y suficientemente probadas que hacen más fiable la delicada
operación de depuración de datos. En tercer lugar, los sistemas operan
tanto en main-frames como en PC. Esta característica es muy importante
con el entorno actual de equipos informáticos. Aprovechando su nueva
capacidad en microprocesadores, el I N E ha iniciado un proceso de descentralización de la producción estadística. Para los usuarios, esto significa a la
vez un alivio de las restricciones impuestas por el Centro de Proceso de
Datos y los grandes ordenadores, pero también nuevas responsabilidades y
un considerable aumento de trabajo. Las facilidades de procesamienta que
ahora tienen los usuarios puede redundar en una más ágil producción
estadística pero no necesariamente de una mayor calidad de los procesos.
Urge dotar a los usuarios de instrumentos generales que 1) les faciliten la
tarea de producir sus propias encuesta ^ -si así lo aconsejan otras co^^sideraciones- 2) sean fiables y bien documentados; es decir, que la calidad de
la información no esté negativarnente afectada por la manipulación de los
datos y que 1os procesos y los resultados sean reproducibles, y 3) sean
eficaces en cuanto al coste de recursos y de tiempo. Los sistemas que aquí
presento estarán operativos en el INE, espero en un plazo corto. Ello
significará un paso importante hacia el objetivo de mejorar la calidad de
nuestras encuestas y de reducir el tiempo de su producción.
La metodología de SPEER y de GEIS: AI igual que para 1a depuración de
datos cualitativos, nuevamente Statistics Canada define el marco de referencia de los sistemas generales de depuración de datos cuantitativos. EI
sistema SPEER se inspira principalmente en la metodología F& H y 1a
aplica a edits de razón entre variables numéricas. EI sistema G EIS, partiendo de los principios de F& H, basa su met©dología en el enfoque de Sande
de la depuración de datos cuantitativos. A principios de los ochenta,
^ ^^ -3
t til >1)I`I Ic ^ I^#'i`( ^ I i
Statist^cs Canada desarrolló el sistema NEIS como el primer prototipo para
la apl^cac^ón de los principios F& H y de la metodología Sande a la depuración de encuestas con datos cuant^tat^vos Hoy G EIS generaliza y adapta
dicho sistema a las nuevas tecnologías de proceso.
Tanto G EIS como SPEER consiguen uno de los objetivos que promovieron su desarrollo: Reducir el tiempo y los gastos necesarios para la implementación de sistemas de depuración de los datos de los nuevos prayectos
estadísticos. Una advertencia importante, sin embargo: Los sistemas generales para la depuración de datos no suponen que los usuarios deban
relajar las etapas previas a la depuración de las encuestas. La aplicación
de sistemas generales de depuración debe considerarse como la etapa final
del proceso de depuración. Su aplicación libera tiempo, que deberá ser
invertido en las primeras etapas del tratamiento de la encuesta como son
la recogida y grabación de datos, el control de cobertura, el contacto con
las fuentes de información, los controles de calidad de las respuestas, la
corrección manual de los errores (especialmente aquellos que tienen un
impacto importante en las estimaciones finales), etc. En relación a este
tema, Kovar et al (1 988y dicen:
Se supone que una parte importante de la corrección, dei seguimiento y
del control de documentos se realiza en la etapa preliminar a la depuración automática. Sólo los casos sin resolver o de menor importancia,
pasan al Sistema General de Edición e Imputación (GEIS^ como último
recurso; es aquí donde se hace un esfuerzo para resolver todo ^ los
problemas por imputación.
Las secciones de este artículo son las siguientes:
La Sección 1 presenta las funciones de los sistemas SPEER y GEIS. La
Sección 2 hace un análisis más detallado de los sistemas, y de su metodología. Debo subrayar que la metodología de ambos sistemas está perfecta y
exhaustivamente documentada. Para GEIS, existen, además, manuales sobre su modo de operación, su Guía de Usuario, y su Manual de Referencia.
Este trabajo quiere servir de introducción para las personas interesadas en
dichos sistemas, para lo cual hago amplias referencias a su documentación
en inglés. La Sección 3 hace una primera evaluación de los sistemas.
Mientras que la Sección 2 presenta los sistemas independientemente, aquí
se analizan sus resultados de forma comparativa; se compara la salida de la
detección de errores y se presenta la distribución estadística de los datos
antes y después de la imputación por G EIS y por SPEER.
Cada sección pretende ser independiente de forma que se pueda saltar
las secciones que no interesen. En la Sección 1 se da una descripción
general de las funciones y características de ambos sistemas. La sección 2,
w!'F f k (^f Iti (x^ti tiltiT^^E ti1=^S F'•^Ft^1 r.A fi)Ff'l R-^( IO^.
^^S
aunque sigue siendo r,na ir^troducción, se ocupa más en detalle de la
metodología de S PE E R y G E IS.
FUNCIONES Y CARACTERISTICA DE L(^S SISTEMAS
GENERALES DE DEPURACION DE DATOS CUANTITATIVOS
1.
EI análisis de los sistemas generales de depuración de datos puede
realizarse desde distintas ópticas. AI analizar aquí ios sistemas SPEER y
GEIS vamos a destacar algunas de las funciones y características que
creemos importar^tes en un sistema general de depuración de datos.
Son F U N C I O N ES generales de estos sistema:
1 ^ Fc^nción de definición de las características de la encuesta. Esto es,
función de definición de los registros del fichero a depurar, de sus campos
y_de los valores validos de los campos. En algunos casos, se definen
también los criterios de agrupación de registros y de variables.
2)
Función de definición y análisis de edits.
3)
Función de deteccíón de errvres (de invalidez y/o consistencia).
4)
Función de deteeción de outliers.
5) Función de localización de campos a borrar por incurrir en invalidez o
inconsistencia.
6)
Función de imputación.
7)
Función de diagnós tico.
Son CARACTERISTICAS generales de estos sistemas:
1) El modo de operación. Los sistemas operan en batch, interactivo 0
batch e interactivo.
2) Su Portabilidad. EI uso cada vez más frecuente de los micros/PC en
el proceso estadístico ha exigido que 1a probabilidad de los sistemas entre
entornos de rY^ain-frame y micros/PC sea una característica importante en
las especificaciones de su diseño.
3) Modularidad. Las funciones de los sistemas se implementan por módulos generales que el diseñador compone de acuerdo con sus necesidades. La cor^strucción del sistema por modulos facilita el intercalar programas hechos a medida para tratar probler^nas específicos de la encuesta que
se procesa.
19 f^
t ^1 ^^f>I^I I( •^ F ^;F'^^til)1 1
4) Proceso de depurac^^ón por grupos de variab/es o de registr©s. La
depuración de los datos de la encuesta puede realizarse por grupos de
variables y grupos de registros en contraste con los diseños tradicionales
de programa único de detección e imputación. Esta característica, en parte,
se debe a limitaciones de máquina, dado que los algoritmos utilizados
requieren gran capaeidad y tiempo de proceso; en parte a la limitación que
imponen los tipos de edits o métodos de detección/imputación de los
propios sistemas.
5) Tipos de registros; depuración intralinter-registros. Los datos de la
unidad encuestada se recogen en un registro, generalmente, de longitud
constante. Los sistemas analizados no admiten la depuración interregistros. Esta, si se requiere, debe programarse a medida.
6) Documentación. Existen abundantes artículos que detallan los fundamentos metodológicos de los sistemas. Es variable su documentación en
cuanto a guías de usuario y manuales de referencia.
Presento aquí, de forma individual, las características y las funciones de
los Sistemas SPEER y GEIS.
1.1. E! sistema SPEER:
Funciones
S PEER es un sistema general para la depuración de datos cuantitativos
con edits de razón. EI SPEER se compone de tres segmentos principales:
1) La generación del conjurito completa de Edits. 2) La detección de errores (determinando un cor^junto mínimo ponderado de campos a"borrar" en
los registros que fallan los ec^its) 3) Las subrutinas de imputación (Creenberg (1 986)}. Dado el tipo único de edits con los que trabaja, SPEER está
orientado a ser el modulo central de un sistema más amplio de depuración.
Especifícaciones Técnicas:
SPEER ha sido programado en Fortran. Opera en grandes sistemas y en
micros/PC bajo DOS. Soporta operación en batch (main-frames} y operación en batch e interactiva (micros/PC}.
Otras características:
SPEER es un programa estructurado para depurar, en los registros de
una encuesta, los campos numéricos cuyo valor es inválido o inconsistente.
SPEER dispone de módulos generales para la generación del Conjunto
^i'f f fl -( ^f Eti f N^ti tiltil t\1 ^ti I' \fz \ l 1 I)f f'( Ft \( I(>\
ly7
Completo de Edits, la detección de errores y la localización de campos a
borrar. No es general en los módulos de definición de la aplicación o de
imputación.
Los módulos generales de SPEER son una aplicación elegante y eficaz de
la metodología que implementan. EI tiempo de ejecución del sistema es
bueno, (evidentemente es función del número de campos en los registros y
de! número de registros del fichero a depurar. Los metodólogos que han
desarrollado SPEER ponen énfasis en la capacidad del sistema para adaptarse a las necesidades específicas de las encuestas y en su flexibilidad
para servir a distintos tipos de usuarios. Sin embargo, desde el punto de
vista operacional, el principal defecto de S PEER se debe a este deseo de
crear un sistema demasiado flexible. Mientras su implementación sigue
condicionada a las especificaciones de los usuarios, el sistema no dispone
de una inter-fase general que facilitaría su aplicación en el tratarnienta de
una encuesta concreta. Actualmente tanto 1os procedimientos de imputación como las funciones de diagnóstico deben programarse a medida.
SPEER requiere todavía un esfuerzo importante para generalizar los módulos de 1} definición de edits y descripción de1 fichero de datos 2) de
imputación y 3) de control de calidad.
Los módulos interactivos de SPEER son una de sus características más
interesantes. Ellos permiten adaptar SPEER a distintas etapas del proceso
de una encuesta. Así, SPEER puede emplearse como un sistema para 1 y
entradas de datos y 2} análisis y corrección rnanual de los registros seleccionados para estudia en la fase previa de detección y localización de
errores. En modo interactivo, el sistema es una herramienta eficaz para el
depurador manual que, en su tarea de corrección de los datos, puede ser
asistido con información adicional que el sistema 1e provee. Las pantallas
del sistema interactiva listan los campos seleccionados del registro, las
valores de los campas antes y después de su corrección, sus intervalos de
aceptación y las acciones disponibles al usuario. A^^nque se necesita estar
familiarizado con el formato de la pantalla y con fa forma de activar las
distintas funciones, ei sistema tiene un buen tiempo de respuesta a las
accianes del usuario.
SPEER trabaja con edits que se definen como intervalos de aceptación
de los ratios entre variables numéricas del registro. Los límites de !os
intervalos de aceptación pueden variar por estratos lo que faciiita la depuración de todos los registros de la encuesta en un solo proceso. EI
sistema recomienda la agrupación de las variables interrelacionadas entre
sí; para ello hace la distinción entre lo que denomina variables básicas de
la encuesta, variables satélites y variables detalle.
1^8
Fti^ ^r^is^^^ ^ t tiN•^tic^<<.^^
La metodología de SPEER ha sido ampliarnente documentada; sin
embargo, el sistema carece de documentación de usuaria, y documentación del sistema. Como referencias a su metodología, veanse los artículos
B. G reenberg (1 9$1 ): Developing an edit systerr^ for ir^dustry statistics y B.
Greenberg (19$2): Using and edit system to deve%p editing specifications,^
de B. G reenberg y R. Surdy (1 984): A Flexible and lnteractive Edit and
lmputation System for Ratio Edits. Estos artículos presentan la fifosofía del
sistema, analizan su metodología, los procedimientos heurísticos implementados y estudian detalladamente sus componentes. Un artículo más teórico
es de B. Greenberg (1 986): The use of l^nplied Edits and Set Covering in
.4utorr^ated Data Editing. Este artículo aborda el probler^na de la cobertura de
conjuntos y su aplicación a la rr^etodología F& H para la depuración de
datos categóricos y nur^éricos. EI artículo ilustra, vía ejemplos, el papel de
los edits implícitos en la determinación del conjunto de campos a borrar, el
concepto de cobertura de conjuntos y el de conjunto mínimo de campos a
borrar.
1.2. EI Sistema GEIS
Funciones:
G EIS es un sistema integrado por siete funciones principales que se
utilizan para: definir y analizar los conjuntos de edits especificados por el
usuario, chequear las registros de la encuesta y aplicar procedimientos
múltiples de irnputación. Estas funciones están basadas en los supuestos
de linealidad de los edits y la nonegatividad de los datos. (G EIS. Guía del
usuario, p.1 ). Aunque no se hace constar específicamente, GEIS es un
sistema general para la depuración y la imputación de datos numéricos.
Especificaciones técnicas:
G EIS ha sido diseñado para operar en distintas arquitecturas de sistemas. Es decir, GEIS trabaja tanto en grandes ordenadores, miniordenadores, ^^C/AT y cornpatibles. Está prograrnado en el lenguaje C e integrado
en el Sistema de Gestión de Base de Datos ORACLE. Las facilidades
interactivas de SQLFORM de ORACLE permiten la interacción usuariosist?ma Pn !as distintas fases de cl^efinición de la aplira^^ión; PI sistema
opera en batch en fase de ejecución.
Requisitos de software: EI compilador de1 lenguaje C y el SG B D ORACLE.
EI sistema funciona con el sistema operativo MVS, el sistema multiusuario
U N IX y el sistema operativo DOS. Trabaja en modo interactivo y en batch.
Los usuarios de G EIS tienen que conocer el Structurated Query Language
{SQL) utilizado por ORACLE para manejar la base de datos.
lyy
^F't t FZ - t ^! Iti (x )^, ^,1^;1 E MA^ P ^R-^^ l^^ i)F F't Ft ^^< Ic )ti
O tras características:
Los metodólogos del sistema definieron claramente qué características
debería incorporar un sistema genera! de depuración de datos. Tal y como
ponen de manifiesto las especificaciones técnicas de G EI S, la primera
característica es su portabilidad que le permite operar en las distintas
arquitecturas de sistemas que existen en Statistics Canada. La segunda
característica es su modularidad. Las funciones del sistema han sido programadas en módulos separados que se ejecutan de forma independiente;
para funciones específicas, G EIS puede suministrar más de un módulo, que
implementan metodologías alternativas. Portabilidad y modularidad aumentan la flexibilidad del sistema para adaptarle a los futuros desarrollos tecnológicos del hardware y del software. Finalmente, y como subraya el
artículo de Kovar et al, "Overview...", G ElS tiene las características de
Objetividad y de capacidad de reproducción. Esto es siendo un sistema
fundamentado en una metodología probada, el usuario puede conocer y
medir de anteman© las consecuencias de su estrategia de depuración.
Desde el punto de vista operacional, dos aspectos a considerar: En primer lugar, es un sistema "user-friendly" para el usuario. Diseñado con el
SQLFORM de ORACLE, la familiarización con las funciones interactivas del
sistema no es difícil, incluso para expertos no inforrnáticos. En segundo
lugar, la eficiencia del sistema, medida en términos de coste de recursos
de ordenador, es variable; el coste aumenta considerablemente según el
número de edits y registros en el fichero. En las distintas versiones del
sistema, Ios metodólogos y el
. personal de sistemas han trabajado para
reducir el tiempo de ejecución y continuan elab©rando procedimientos que
aumenten -la rapidez del sistema.
G EIS limita el número máximo de edits y de variables a procesar por
ejecución del sistema. Requiere igualmente procesar la encuesta por grupos de registros (ejemplo, por estratos). Ello se debe, primero, a la perdida
de rendimiento del sistema al manejar un número elevado de varíables y
segundo, a la limitación del sistema al no admitir los edits condicionales.
Finalmente, GEIS no trabaja con ficheros multiregistros.
G EIS provee de amplias referencias metodológicas, de manual de usuari©
,
^^oúo de
introducción de su rnetodología, el artículo de Kovar, MacMillan &
Whitridge (1 988): Overview and Strategy for the Generalized Edit and lrrrputation System. Véase también el documento GEIS Generalized Edit and
lmputation System; Specificati©ns (1 989), escrito por el grupa de desarrollo
del sistema y que detalla los aspectos de su implementación.
^
L1
...
r
Y rl T^^f V!'^ ^1 /'^ i^l f'^
^^1
1'Y1 7
1 1
: i:(..ir^ i,.: ^I w.: v . i.,i i.... vf r J.^.,wv.
^^l r r1
.
i....l a,w
i w^ . r'. .^1 r
.... v^v.
i. ..
eJtl
. n
/^ /r i. ,
V.J ^ LA\.il V,
. , ^!^ /. i.
V^,JI.^JV,
^Otl
2.
t tit ^(^I^1 Ic ^^ f til^^^^^1 ^1
LA METODQLOGIA DE LOS SISTEMAS
2.1. Terminología
EI lector interesado en el tema de la depuración está sin duda familiarizado con la terminología introducida por Fellegi & Holt. La terminología en
español se presenta en el artículo de F&H traducido y publicado por
Estadística Española, (1 9$0) y en la metodología DIA, que resume los
conceptos e ilustra sus términos aplicandolos a la depuración de datos
cualitativos. No siempre, sin embarga, los distintos sistemas utilizan la
terminología con igual sentido; un ejemplo es la definición de EDIT: Mientras SPEER, siguiendo a Fellegi & Holt, define un edit como una condición
de fallo (ver más abajo), G EIS lo define indistintamente como una condición de fallo o de aceptación. A continuación se resumen los conceptos
básicos de la terminología aplicada a la depuración de datos cuantitativos.
EI objeto de la detección y de la imputación de errores es un fichero de
datos con registros procedentes de una encuesta; cada registro tiene q
valores que recogen las respuestas a las variables del cuestionario. Los q
valores de las variables se representan por un vector:
x = (x,, x2, x3... x^ ^ .
Un edit ei, puede representarse como una función de los valores de las
variables del registro, es decir:
ei : f (xÍ < - b.
^os sistemas basados en la metodología de F& H expresan el conjunto de
edits explícitos como igualdades y desigualdades lineales en el espacio
R`'; en términos generales, un edit ei, expresado como una condición de
aceptación, toma la siguiente forma:
a,, x, + a,2x2 + a,3x3 +... + a,^xQ ^= b,,
[2.1 a
,
0
+ ai2x2 + a,^x3 + ... + a,Qxy = b2,
[2.1 b]
Si a,^ ^ 0, se dice que la variable xl entra en el edit ei y que es una
'"variable activa" en el edit ei.
EI conjunto de edits explícitos,
^,
E _ { e, : ^.^ a,^x^ < = b,; i=1 ... m },
^
tif't 1 K-( ^t Iti f>(^^ ^;I^ T^f ti1 ^^S ^' ^k ^ t Z I^f I'1 R 1^ I(l\
se representa en notación matricial de la forma siguiente:
Ax < = b
[2.1 ]
donde A es la matriz de coeficientes m x q
b
es un vector m x 1 de constantes
x es el vector q x 1 de las variables estudiadas.
Cada condición en [2.1 ] es un hiperplano que divide el espacio RQ. EI
conjunto de edits de [2.1 ], expresados como condiciones de aceptación,
define un poliedro convexo en el espacio Ra y define la región de aceptación para los registros de la encuesta. Si el conjunto de [2.1 ] define un
espacio vacío, el conjunto de edits originales o explícitos es inconsistente o
nulo. Dado un conjunto consistente de edits, cada punto x=(x,, x2, ..., xQ) de
la región de aceptación representa una combinación posible de valores
válidos de los campos del registro.
Implicaciones lógicas de los edits explícitos permiten la generación de
edits implicitos, concepto importante en la metodología de F&H. Los edits
implícitos pueden definirse de la siguiente manera: Una combinación lineal
de k edits (2 <= k<= q) define un edit impiícito si k1 variables activas
(k1 < k) en los edits generadores no están activas en el edit implícito. La
generación de edits implícitos es un proceso iterativo en que cualquier edit
esencialmente nuevo en la iteración t-1 entra en la base de edits para la
iteración t. EI conjunto de edits explícitos y de edits implícitos esencialmente nuevos forman el Conjunto Completo de Edits. Tal como lo demuestra
F&H, la generación de edits implícitos tiene dos finalidades: En primer
lugar, permiten un análisis de inconsistencia del conjunto explícito de edits.
En segundo lugar, con el Conjunt^ Completo de Edits se determina el
conjunto mínimo de campos que "cubren" los edits fallados por un registro
inconsistente. Dado que la generación de edits implícitos es un proceso
recursivo que puede ser indefinido, dificultando así la solución al problema
de la generación del Conjunto Completo de Edits, los sistemas aquí analizados o bien limitan el tipo de edits que el sistema admite (SPEER) o bien
limitan su función en el conjunto del sistema (G EIS).
Se denomina Localización de Campos , a Imputar a la función de determinación del conjunto mínimo de campos a corregir o imputar para que el
registro quede consistente.
Se denomina Imputación a la función de asignación de valores válidos a
los campos marcados como "campos a imputar"' en las etapas anteriores
del proceso. EI registro imputado será consistente si cae dentro de la
región de aceptación de los registros de la encuesta.
f tii ^11)Itil It > E `^f'^tititll ^
2.2. EI conjunto de datos utilizado en el presente estudio
Para ilustrar diferentes aspectos de la metodología de SPEER y G E15 y
para comparar sus resultados, se ha utilizado un fichero de prueba. EI
fichero tiene los registros de una encuesta sobre comercio al por menor
realizada en Statistics Canada, y cuyas variables son SALAR IOS, COM PR,
T41 (existencias periodo inicial), TCI (existencias periodo final), VENTAS y
T^lENTAS tventas totales}. EI número de registros son 201 pertenecientes
a una misma actividad. La misma serie de edits definida para depurar la
encuesta fue utilizada en ambos sistemas.
2.3. EI Sistema SPEER
SPEER es el acrónimo de "Structured Program for Editing and Referral".
Utiliza la formulación de un problema de programación lineal entera para
localizar los errores en los valores de las variables en encuestas con datos
cuantitativos. EI sistema utiliza la teoría de gráfos y técnicas estadísticas
para resolver el problema de la detección y de la imputación de datos.
EI cuadro [2.3) presenta las funciones principales del sistema SPEER:
Cuadro [2.3] FUNCIOlVES EN SPEER
1) ^;ENERAC'lON DE EDITS ( Edits implícitos)
^) CHEQU EO DE ED1TS
3) LOC'ALIZ.AC'lON DE ERRORFS
4) iMPUTACI©N
2.3. 1. DEFIN/CION DE ED/TS Y GENERA C/ON DE ED/TS /MPLIC/TOS
En [2.1 a) y[2.1 b] se presentó la forma general de los edits lineales.
SPEER restringe la definición de los edits ei, de la forma siguiente: Sólo
dos de las q variables pueden ser variables activas en un edit y la constante b,=0. De hecho, en SPEER se define un conjunto de edits de razón que,
en forma de condiciones de aceptación, se presentan así:
Lkh C= Xk / Xh C
= U kh
[^. 3
.1 a]
!^F'F F R-(^F I^, CX)ti SIST^.M ^S C'•>R^ L^ UE-F't R^^( I()ti
L kh
<= rXk
^ Xh) ^^X(k 1l ^ X/h-1 /)
C-` U kh
[2.3.1 bJ
Obsérvese que [2.3.1 aJ puede expresarse, con la sintaxis estándar de los
edits, como:
Lkh* Xh - Xk < = O
Ukh*Xh ♦ Xk < = o
De la misma forma, [2.3.1 b] puede expresarse como (1 ):
Lkh#Xh* ^X(k- 1 J / X(h-1))
Xk
C-^
U kh * Xh *`X(k l J ^ X(h- 1 l) + Xk ^= o
EI cuadro siguiente presenta un ejemplo de edits explícitos definidos para
depurar nuestro fichero de prueba.
r-- Cuadro [2.3.1 a]: Edits explícitos en S P E E R-•--^
0.03 < = SALARIOS / TVENTAS < = 0.5
0.4
< = COMPR / VENTAS < = 1.3
0.7
<= VENTAS 1 TVENTAS <= 1
0.3
<=TOI/TCI<=2.9
Los edits implícitos: Cualquier par de edits del tipo [2.3.1 a] tales como
^-kh
Lh^
< = Xk ^ Xh < = U kh
<= X h/ X^ <= U hl
permite la generación del edit implícito:
L kh* Lh^
<= Xk ^ X^ <
= U kh* U h1
EI Conjunto Completo de Edits Implícitos se genera de esta manera.
Greenberg (1 982), observa que pueden generarse como máximo n,n-1 )
(1 ):
Observar el tipo de edits definido en (2.3.1 b^. Son edits de raián entre valores de la
misma variable en dos períodos distintos y donde x(h 1^ y x^k_1^ se toman como constante; estos
edits dan lugar a un par de desigualdades lineales (ed^ts), específ^cos para cada registro.
f^ l•^f^lti T lc •^ f ti1^^1 tic ^( •^
edits implícitos. Los edits implícitos en la metodología SPEER, son: 1) Un
instrumento para analizar los edits definidos por los usuarios. 2) Los edits
que completan el conjunto de edits definidos por el usuario.
Así por ejemplo, los edits implícitos a partir de los edits definidos en
cuadro [2.3.1 aJ, son:
r--Cuadro [2.3.1 b): Edits implicitos en SPEER
0.28 <= COM PR / TVENTAS <= I.3
0.56 <= COM PR / SALARIOS <= 47.2
0.04 < w SALARIOS / VENTAS <= 0.5
La unión de edits explícitos e implícitos definen en Conjunto Completo
de Edits. En nuestro ejemplo, el conjunto completo, expresado en forma
lineal ^formato 2.1 y serían:
Cuadro [2.3.1 cJ: EI Conjunto completo de Edits para el
fichero de prueba
e I:
e2 :
-SA LA R I OS +
SA LA R IOS -
.54TVENTAS
.03TVENTAS
e3:
e4:
-COMPR +
COM PR -
I . 3 V ENTAS
.40VENTAS
e5:
- .7TVENTAS +
>0
eb:
+ .TVENTAS -
VENTAS
VENTAS
e7:
- 0.30TC1 +
TOI
e8:
+ 2.91 TCI -
TfJ I
>0
>0
e9:
e 10:
.5 VENTAS
- .04VE NT^AS
- SA LA R I OS
+ SA LA R IOS
>0
>0
e1l:
+ I .3TVENTAS -
>0
>0
>o
>0
>0
e 12:
COM PR
-0.2^3TVENT'AS + COM PR
^0
>0
e 13:
-.SbS^,LARIOS +
C`OMPR
>0
e 14:
47.2SA LA R I OS -
C'OM PR
^0
St't f_.Ft-(;E I^. [^()S SIS7E.!^11ti P:^FL^ t_^1 [UE Nl k^^C l()ti
^^)5
Un registro se considera con error si falla cualquiera de los edits del
Conjunto Completo de Edits. Después de 1a fase de chequeo de edits, el
problema consiste en localizar el número mínimo {ponderado) de campos a
eliminar, de forma tal que los campos restantes del registro sean mutuamente consistentes. Este problema se conoce como el Problema de la
Localización de Errores.
2. 3. ^. L© CA L/ZA C/ON DE ER R C7^ RES: E/ pr©blem a de la cobertura de
conjuntos
Greenberg, (1 986) demuestra la relac^ón que existe entre 1) los campos
a eliminar (en los registros que fallan los edits), 2) el subconjunto de
campos mutuamente consistente y 3) e{ Conjunto Completo de Edits.
En la terminología del sistema, un Conjunto de Elirninación son los valores de{ registro que basta modificar para que el registro quede consistente.
Se necesita únicamente el conjunto de ed^ts explícitos para detectar un
registro con error, pero se necesita el Conjunto Cornpleto de Edits para
determinar e! Conjunto de Eliminación (G reenberg, (1 986) pg. 1 526). Para
determinar el conjunto de eliminación, el sistema resuelve un problema de
programación lineal entera que se conoce como el Problema de Cobertura
de Conjuntos. En el cuadro [2.3.3.) de la página siguiente se plantea el
Problema de Localización de Errores y un ejemplo. Su cornprensión no es
necesaria para continuar con esta lectu ra.
t^ t^^ r^i^ r ic a t tit^ ^^c ^t ^^
Cuadro ^2.3.3]: EI problema de !a cobertura de conjuntos
^'onsid ^ rese un re^istro ^ que falla cu^^lquier suhconjunto de eciiis en
A^ ^= b. E1 sistema intenta minimizar la suma ponderada de
campos a modif^car. E1 prohlema se enuncia de la manera siguiente:
Función objetivo: M I N{ w' u( Bu >= 1 }
u
donde u= es un vector (qx I), de valores cero y uno
u, = 1^i el campa x, se modifica
u, = 0 si el campo x, no se modifica
w en un vector de pesos {qx 1) función de la fiabilidad
de los ca m pos
1
si el campo j entra en el edit e
0
en los demás casos
E1 conjunto de restricciones Bu >= I^arantiza que al menos uno
de los campos que entran en cada edit f'all^do camhie. Bu se define
con los edits tailados del conjunto con^pleto de edits.
E:4iemplo ^2._^.2^
EI si^uiente EJEM PLO ilustra !a definición de la matriz B en el
prohlema de {a Localización de errores. Supon^ar^^os que un re^istro
dcl fic.^hcro a de^u^-ar ticne los si^uientes valores:
{ S^LARIOS,COMf'R,TOI,TC'I,VENT^S,TVENTAS }_
_{ v,, v,, v^, v,^, v 5, v^, }_{ 1 50, 7 5, SU,fi(),1()(),?UO }
l.,^i e^truc.^tur^i de edits t^ill^^dc^s d^idcj el cc^^^ju^^tC^ cc^r»pleto en [2•3•2c]
sería:
vl,
v?,
v3,
v4,
v5,
v^^
e!
1
()
ey
I
1
(J
1
()
0
O
U
0
0
0
1
1
0
0
0
el^
til't t Fl t^t Iti ( N^^, tilti f F ti1 ^ti f' ^Fi ^ 1 ^(^F ^'I R^t It lti
?07
Una Solución heurística del problema de la LOCALIZACION DE ERRORES. E1 problema de determinar el conjunto mínimo de campos a borrar, se
resuelve en SPEER con un procedimiento altamente eficiente. E1 sistema
utiliza un procedimiento heurístico derivado de la Teoría de Gráfos, (1 ).
Cada campo de un registro es un nodo para SPEER. Cada edit traza un
arco que une los nodos activos del edit. La localización de Errores es un
problema de desconexión en el gráfo de los edit fallados por un registro. Es
decir, para cada registro que falla un subconjunto de edits, SPEER ' dibuja'
el gráfo correspondiente, enlazando los nodos ^los campos activos) en los
edits fallados. Para desconectar el gráfo trazado, SPEER borra uno a uno y
con un criterio definido, tales nodos (i.e., borra el valor del campo) hasta
que no haya más nodos enlazados o, lo que es lo mismo, más edits
fallados.
EI usuario puede asignar un peso a cada campo como una medida de su
fiabilidad. (La ponderación por defecto = 1). A menor fiabilidad del campo,
mayor peso. EI criterio que utiliza SPEER para borrar los campos es el
siguiente: Pondera por el peso el número de veces que un campo entra en
los edits fallados y borra el campo con valor más alto. EI procedimiento
termina una vez que no haya más edits fallados Ii.e., que el gráfo esté
totalmente desconectadol. La metodología demuestra que los campos correspondientes a nodos no borrados y los campos que no figuran en el
gráfo, son mutuamente consistentes.
(1 ^ De hecho, SPEER interpreta como un problema de Teoría de Gráfos tanto la Generación de Edits Implicitos como la Localización de Errores. ^a Generación de Edits Implícitos, se
considera como una forma cfe completar el _yráfo definido por la serie explícita de edits,
E ST -^DItiT I(^-+^ F SF' ^til)l ^^
^O}{
EI cuadro recoge el gráfo de edits #allado en el ejemplo presentado en
[2.3.2 ]:
Grafo para la Localización de errores del ejemplo [2.3.2]
C3e acuerdo con la metodolo^ía de SPEER, el primer nodo a borrar
sería nodo l. EI gráto quedará asi:
Observar que el campo v 1= SALARIOS es activo en todos los edits
fallados. La solución al problema de localizar el mínimo número de
campos a borrar sería la de borrar el campo SALARIOS. El subconjunto de carnpos restant^.^s en el re^;i5tro no falla ningún edit; lo
que significa que form^^n un subconjunto de campos mutuamente
consistente.
2.3.3. Los procedimíentos de imputación
Como se indicó anteriormente, SPEER no provee procedimientos generales de imputación. Estos deben programarse a medida para la encuesta. E1
sistema facilita los rnedios para garantizar que los resultados de la imputación no vulneren el conjunto de edits previarnente definidos. En el módulo
de imputacián, las rutinas generales que ofrece son las siguientes.
tiF'F F R--( ^ E Iti. (X)ti ^I^1 E!^1 •^^ N:^R^> l^ ^ f3t I'l Ft ^^c It )^
2.3.3. 1. Determinación de la región de aceptación de /os va/ores a imputar:
SPEER obtiene para cada campo de^ registro su rango de aceptación
correspondiente. Cuanda el usuario define el conjunto de edits de razón,
implícitamente está definiendo el rango de aceptación de los valores de
cada campo. Es decir, un edit del tipo Lk,, ^= xk/x,, ^= Uk,,, define el intervalo de aceptación de los valores de xk entre (x,,' Lk,,, x,,' Ukh), siendo "xk" el
campo a imputar y"x,," cualquier campo consistente o previamente c^rregido. Existen tantos intervalos de aceptación como edits que relacionan a
"xk" con campos consistentes "x,,". La intersección de todos los intervalos
posibles de xk, (x,* Lk,,, x,* Ukj,) define el rango de aceptación de xk. La metodología demuestra que cualquier valor de xk comprendido en dicho intervalo
será consistente con los valores ya aceptados del registro. EI procedimiento
funciona secuencialmente campo a campo. Es decir una vez que un campo
ha sido imputado, su valor entra a determinar el rango de aceptación de los
siguientes campos a imputar.
2.3.3.2. Las estrategias de imputación
Por lo que se refiere a las estrategias de imputación, los metodólogos
sugieren que se definan, por orden de prioridad, una serie de procedimientos de imputación. Una primera estrategia, que el sistema incorpora y
ap^ica siempre que es posible, es la siguiente: Transforrna la unidad de
medida del valor del campo para comprobar si hay errores de unidades. Por
ejemplo, un valor pudo contestarse en miles en vez de en millones como se
pedía. Esta regla de imputación, recoge la filosofía básica de SPEER de
respetar en la medida de lo posible los valores del cuestionario. EI sistema
provee también valores por defecto para el caso en que ninguno de los
procedimientos de imputación prograrnados a medida encuentren un valor
válido para el campo a imputar.
En modo interactivo, el sistema admite la corrección manual, y provee,
además, un instrumento que da flexibilidad a! sistema. Este es el multipiicador, que funciona de la manera siguiente: Si el experto desea imputar un
valor que el sistema rechaza, puede ampliar el rango de aceptación del
campo utilizando para ello un factor multiplicador. Una vez aplicado el
multiplicador a un campo del registro, el rango de aceptación del resto de
los campos del registro quedan afectados por dicho multiplicador.
_' I O
F^I •1f)ISi l( ^1 E til'^`(ll 1
2.3.4. E/ tipo de campos en SPEER
Lo expuesto a continuación se refiere más concretamente a la implementación del sisterna SPEER que a su metodología pero es de interés para los
que estudien y apliquen SPEER en sus encuestas. No todos los campos de
un registro se interrelacionan de igual forma. Teniendo esto en cuenta,
S PE E R clasifica los ca m pos de u n registro en B AS I C, SATE LLITE y de
DETAIL. Los campos BASIC son los que están mutuamente interrelacionados. Los campos SATELLITE son los que están relacionados con una sola
variable. Los campos DETAIL son aquellos cuyo valor es un sumando del
valor de un campo de totales. Estos campos dan lugar a edits del tipo:
SUM (x,,...xk^ = x^ (i,...k ^ jy
SPEER generalmente considera el campo total, x^, como un campo
BASIC y los campos sumandos (x,,...xk) como campos DETAIL. La depuración se realiza por tipos campos, de forma secuencial. Es decir, primero se
comprueba y generan los edits implícitos de los campos BASIC. Una vez
depurados éstos, el sistema trabaja con la depuración de SATELLITES.
Finalmente trata los campos DETA^L.
2.3.5. Resumen y Organíg^ama c^e Funciones
SPEER es un sistema integrado por módulos generales y módulos definidos específicamente para la encuesta. Los primeros implementan la metodología de Fellegi & Holt para la dep^ración de datos en encuestas con
variables numéricas. La fig. [2.3.5] a continuación presenta los módulos
generales de SPEER y el flujo del sistema.
^F'F ! Ft (^I Iti (xl^ tiftif F^11ti F'^R-^ F^1 OF F'! Ft 1( I(1`
Figura: 2.3.5
!) L.te y al^-+acena valores centrales
2i L.eer y alr^iCeni edits iMpl iGftos
)
L.ee
reqi stros por pantil 1 a o
t^ c 1 a d o.
i)
2)
i^icializa ^+ariables
DeterMina el eonJunto de edits
en e l rt+,^^stro.
i usar
es con e 1 conJunto
Oetec ta erro
^ Mp^lci tos.
da ed^ ts
l os ca-•pos
a
borrar.
t^
Local i za
21
Borra 1 os ca^+pos. as i çnandoles
vilor --1.
el
t^
DeterN+ina el ra^^lo ds a^ept:c^on
pxri las caMpos a borrar_
21
Obti ene vilor esti^+ido pari iN+p.
C h^ que a 1 o s r e Q i s tro z
d e s pue s d e
iMputac ion.
T^+priMe reqi stro.
Conytinu^, con el proxiMo reQistro
C i erra e 1 proceso .
LooSE [NOi
E^STAC^IST!(',A E:SPA^+()L_.A
2.4. EI sistema GEIS
G EIS es un sistema general para la depuración y la imputacián de datos
numéricos; es el acrónimo de Generalized Editing and Imputation System.
Técnicas de investigación operativa, de programacián lineal, el problema
del "matching" y la técnica de imputación tipo donor constituyen la base
del sistema G EI S.
2. ^. ^. L os Edi ts en GE/S
La primera entrada al sistema GEIS son los EDITS definidos por los
expertos de la encuesta a depurar. Los Edits son limitaciones lógicas de los
datos que permiten bien aceptar o rechazar el registro que los satisfacen. A
este conjunto de edits se le denomina conjunto de edits explícitos.
Como mencionábamos en la terminología, los edits de G EIS son desigualdades o igualdades lineales de la forma:
E a;f x^ < b, ó^ a;^ x^ _
Í
%
Las (des)igualdades expresan las condiciones de fa11o o de aceptación.
Como primera tarea, G EI S transforma los edits especificados por el usuario
en lo que Ilama su forma normal. -Estos, después de añadir las restricciones de positividad, x^ >= 0, definen el sistema:
A, x- b, c= 0
AZ x - b2 = 0
[ 2. 4.1 ]
donde A, y A2 son las matrices de los coeficientes de las desigualdades y
de las igualdades respectivamente; b, y b2 son vectores de constantes. x
defin^e el vector de las variables a depurar. EI sistema [2.4.1 ] define la
región de aceptación de los registros en el espacio Rp; de esta manera,
cualquier registro del conjunto de datos que satisface el sistema es un
registro aceptado en el proceso de depuración.
Los edits en GEIS son edits numéricos. GEIS no trabaja con edits numéricos condicionales. EI cuadro [2.4.1 ] presenta ires tipos de restricciones
que G EIS impone en la definición de sus edits y algunas soluciones propuestas para evitarlas:
^f'f E R-{^E Iti [x)ti tii^l E ti1-^ti f'1R^1 l^•^ f)f F't R 1( 1(1\
Cuadro ( 2.4.1 ] Restriccianes en GEiS
1) La restricción de linealidad: Es decir, el sistema no admite edi \s
tales como
ei; x;*x; = xk i, j^ k.
2)
La limitación de positividad: x, >= 0
3)
No admite edits numéricós condicionaies.
Si dichas restriceiones se dan en número limitado se pueden aplicar
algunas soluciones.
Restricción 1) puede obviarse transformando las variables activas
en el edit. Por ejemplo, el edit ei admite la transforrnación log.
ei: log(x;) + log(x^) < = log(xk)
Restricción 2) puede obviarse sumando una constante alta a los
valores de la variable.
Restricción 3) puede obviarse si el fichero de datos puede subdividirse en grupos de registros mutuamente excluyentes y exhaustivos
para ser depurados con diferentes grupos de edits.
2.4. 2. A ná/isis de Edits
EI cuadro 2.4.2 presenta los tres módulos que realizan en G EIS la función de análisis de los edits:
r--Cuadro ( 2.4.2]: Módulos de análisis de edits: --^
1) CHEQUEO DE ED1TS
2) GENERACION DE ED1TS IM PLIC'1T05
3) GENERACION DE PUNTOS EXTREMOS
^STAf)I^ f IC'A f SPA^i()LA
2.^.2.1 El chequeo de Edits
EI chequeo de Edits consiste en determínar el conjunto mínimo de edits
que definen la región de aceptación de los registros, comprobanda al
misrno tiempo si existe ta! regidn. Por !o tanto, G EI S chequea el con ju nto
original de edits para detectar 1) inconsistencia; 2) redundancia y 3) igua!dades ocuitas o determinancia. Según G iles (1986),
• Una serie de edits es incansistente si la región de aceptación está vacía.
• Un edit es redundante si no interviene en la definición de la región de
aceptación.
• Un conjunto de edits define una situación de determinada si define un
conjunto único de valores válidos para las variables del registro o define
un único valor válido para un subconjunto de variables.
G EIS utiliza técnicas de programación lineal para realizar las sucesivas
etapas del chequeo de los edits. Camo referencia a este métado véase el
documento MODULE ED-ANAL (1 ) y G iles (1 986, 1 989).
En general, un problema de Programación Lineal (PL) intenta maximizar
(o minimizar) una función lineal S: C'x, sujeta a(des)igualdades lineales:
Ax < b y a restricciones de positividad: x>= 0. Es decír:
Max ( M i n )
x
{ C ' x ^ Ax < b y x >= 0 }
En los distintos problemas de programacíón lineal que el sistema resuelve al ejecutar la función de chequeo, la función objetivo S y las restricciones varían. En el test de consistencia, el sistema c©mprueba si existe al
menos una solución posible al problema de programación lineal. Cualquier
función objetivo seleccionada basta para probar la consistencia.
Para la detección de redundancia, el procedimiento analiza sucesivamente cada edit, ei, del conjunto de edits de igualdad y de desigualdad (por
este orden). Según Giles, el procedimiento consta de dos etapas. En la
primera etapa el sistema determina si alguno de los edits está fuera de la
regíón de aceptación. En la segunda etapa comprueba si los edits son
tangentes a la región de aceptación. EI cuadro siguiente plantea los dos
problemas de programación lineal que G EI S resuelve para cada edit.
Consideramos el caso de un edit de desigualdad.
^F'F F F2-(^F.Iti. F)Oti SItiTF-^1:1ti P^1FtA LA nF Pl R,^(^IOti
?^5
r--Cuadro [2.4.2a]: Problema para resolver la REDUNDANCIA----^
de un edit ei
Primera etapa
Max { a;'x-b; ^ A x<- b y^c > 0}
x
(Observar que A t<= b incluye el edit ei.)
EI edit, ei es RED[..JNDANTE si Max ei < o
Segunda etapa
Max { a;'Y-b; ( A^ r<= b^ y^c > 0}
x
(Observar que A^ x<= b^ no incluye el edit ei ni
los edits redundantes eliminados en primera etapa)
El edit, ei es REDUNDANTE(tangente) si Max ei = 0
Los edits restantes ( no redundantesy forman el conjunto mínirno de
edits en el sistema. En su proceso, GEIS informa sobre los edits redundantes y su tipo de redundancia.
Para comprobar la posible determinancia, el sistema resuelve para cada
variable los dos problemas de programación lineal siguientes:
Cuadro [2.4.2b]: Los problemas lineales para comprobar
DETERMINANCIA
1)
Max { x ^ At ^< = b y^>= ll }
~)
^v^ Í i f ^:^ j^^^ :i
^,
= ii
^
ti,^ - i j
La DETERMINANCIA ocurre si Max x, = Min x, para al,^ún i
EI sistema ohtiene, como suhproducto d^^ etite chequeo de determinancia, los
límites superiores e inferiores de las v^iriahles.
t tir nn^^+ric ^ t tir>^^tic^t ^^
2.4. 2. 2. L os edits implícitos
G EIS utiliza el algoritmo de Chernikova para la generación de los edits
implícitos. Schiopu-Kratina y Kovar definen el edit implícito de la siguiente
manera:
Una desigualdad lineal asociada a un sistema de edits expresado como m desigualdades lineales con q variables, constituye
un edit implícito para el sistema si es una combinación lineal
con coeficientes positivos de k> 1 edits y contiene como máximo q-k + 1 va riables con coeficientes distintos de 0.
Los edits implícitos no tienen un papel primordial en el sistema GEIS y
sólo son un instru mento para diagnosticar posibles errores de especificación en el conjunto original de edits. Véase GEIS, Module ED-ANAL (3)
para una explicación detallada del uso del algoritmo de Chernikova en la
generación de Ios edits implícitos y de las reglas para generar los mismos,
2.4. ^. 3. L os puntos extremos
Teóricamente, son el resultado de las intersecciones posibles de m edits
de los (m + q) edits del conjunto. Los puntos extremos que determinan los
vértices de 1a región de aceptación representan los posibles valores de un
registro ficticio que sería aceptado por el sistema. Como tales, los puntos
extremos facilitan otro instrumento analítico de los edits para el usua,rio. En
el caso de que los valores extremos detectasen combinaciones no deseadas de valores, el usuaria podrá redefinir el conjunto original de edits.
G EIS utiliza el algoritmo de Chernikova para la generación de los puntos
exiremos. Su utilización está basada en la correspondencia entre un poliedro convexa y un cono poliédrico convexo. (Rubin (1975 p.557} }.
,2.4.3. Aplicaciones de los Edits
Este módulo evalua cada registro en el sistema [2.4.1 ]. EI resultado de
esta función de chequeo de los registros es un conjunto de tablas de
diagnóstico.
Los edits estadísticos. Además de los errores detectados por la aplicación de edits, G EIS comprueba los registros con valores outliers. Un valor
es outlier si se halla fuera de Ios limites definidos por k veces la primera y
la tercera distancia intercuartílica. EI sistema admite dos valores de k, k1 y
k2 para distinguir entre outliers no severos (outliers NS©) y outliers severos (outliers SO1. EI usuario puede decidir si un valor SO ha de ser imputa-
til'( ( Ft -(^f I^. (X)ti tilti 1( tit titi (' ^ K 1 I ^()( ('( R^( I()^,
?17
do. Los campos SO y NSO no se toman en consideración, salvo excepciones, en las rutinas de Imputación.
2.4.4. Loca/ización de errores
Esta función de G EIS resuelve el problema de localizar los campos a
imputar. Es decir, el problema de identificar para cada registro el menor
número ponderado de campos a imputar (principio establecido en Fellegi &
Holt (1976) ). La metodolog^a para la localización de errores en el caso
cuantitativo se define en Sande (1978) y se aplicó por primera vez en el
sisterna NEIS. Boucaud, et al (1 989) presentan una excelente aproximación
al método de la localización de errores con el algoritmo de Chernikova. Un
resumen del método se presenta a continuación.
Si un registro, x, falla el conjunto de edits, el registro cae fuera de la
región de aceptación. En este caso se puede aplicar a los valores de x una
corrección positiva o negativa de manera que el registro corregido caiga
dentro de la región de aceptación. Sea x el registro a corregir; sean y y z
correcciones positivas y negativas a los valores del registro, y sea (x +
y- z), el registro corregido. EI problema consiste en encontrar un vector de
este tipo (y - z) con las siguientes restricciones:
Restricción 1: Siempre que y, > 0, z, = 0 y viceversa. Es decir: es posible
aplicar a x, una corrección positiva o negativa pero no las dos a la vez.
Esta restricción se conoce como la condición complementar^a, y tiene la
sigu iente expresión z'y = 0;
Restricción 2: La cardinalidad del vector (y - z) tiene que ser mínima. La
cardinalidad de un vector es el número de sus elementos distintos de
cero. Esta restricción permite seleccionar (y - z) entre la clase de vectores
apropiados y satisfacer el principio F& H. La función de cardinalidad se
representa por N(y - z^. EI cuadro [2.4.4a^ presenta el problerna a resolver.
^uadro [2.4.4a]: EI problema de LOCALIZACIONES DE
ERRORES
Min{N(y-i) ^ A ( ^+y-z) -= = b,
x+y-z > _ (),
y, ^ ^ _ (),
.^y = o,
N( y-^) < _ k }
E^sr^ar^^s^^^^^A es^nti<^t.^^
18
La últíma restricción se impone si el usuario desea limitar aún más la
cantidad de campos a imputar (k < q). Una ligera modificación de la función objetivo en [2.4.4a] da al usuario la flexibilidad de asígnar un pesa
diferente a los campos; el peso, w, es una medida de la fiabilidad del valor
dei campo. En G E1S, un mayor peso significa una mayor fiabilídad del
campo. Por lo tanto, el problema de la localizacíón de errores se puede
replantear como el de minímízar la suma ponderada de campos a modificar.
Llamando 'v;' a una variable binaría tal que
u,
1
0
si y;>0 ó z;>0;
en otros casos
tenemos una nueva formulación del problema de localización de errores
^Cuadro ^2.4.4b]: EI problema de LOCALIZACIONES DE
ERRORES:
rVl i n{^; w, u; ^ A( x+y-z) <^ b,
u
x+y-z > = o,
y,z>=o,
z'y-0,
N(y-z) < = k }
Sin embargo, este sistema no puede resolverse como un problema de
programación lineal. En primer lugar, la función objetivo Min(^:, w,u,) no es
una función lineal continua. Tampoco la Condición Complementaria (z'y=C^
es una restricción lineal. Para resolver el problema, GEIS elimina ^as últirnas dos restricciones del sistema [2.4.4b] y lo replantea como un Problema Lineal de Restricciones de Cardinalidad. Ello es posibie dadas las dos
proposiciones que se definen en Schiopu-Kratina & Kovar (1989):
Proposición 1: La cardinalidad de un vector (y,, y2,...yQ; z,, z2,...zQ) en R2Q
supera ^a cardina^idad del vector reducido asociado ( y,-a,, y2-a2...;
z,-a,,z2-a2,...) donde a,, = min (Y,,z;j;
SPF= F R-(;E IS. [xlti tiIS^TE-.M :^S PAR:^ F_A DF= Pl R:^C^IOti
?19
Proposición 2: Si un vector satisface el sistema
[2.4.4c]
A(y-zj < - b-Ax
y-z > = x
y,z > = 0
sin la condición complementaria, entonces el vector reducido asociado
satisface también el sistema.
G EIS trabaja con el sistema [2.4.4c] que es el sistema [2.4.4b] después
de suprimir las dos últimas restricciones y de sustituir el vector x por sus
valores conocidos. Cuando el algoritmo de Chernikova aplicado al sistema
[2.4.4c] finaliza, los campos correspondientes a las coordenadas de los
puntos extremos con la mínima suma ponderada son "marcados'" para su
imputación. (Es posible que más de una combinación de campos minirnicen
el valor, en cuyo caso el sistema selecciona uno al azarl.
2.4.5. La función de imputación
La imputación de datos es un proceso de estimación de los valores
identificados como erróneos. GEIS ofrece tres módulos diferentes de Imputación Automática, como se recoge en Cuadro 2.4.5
Cuadro [2.4.5]: Módulos en la Función de IMPUTACION
1) LA [MPUTACION DETERMINISTIC~A
2) LA [MPUTAC[ON DEL ESTIMADOR
3) LA [MPUTACION DONOR
Pasamos a analizar los métodos de la imputación determinística y la
imputación Donor.
2.4.5.1 /mputación Determinística
La imputación determinística comprueba si existe un valor único que
satisfaga todos los edits. Para cada _registro a imputar, el sistema define el
subsistema de edits activos en el registro (un edit es activo si tiene uno 0
varios campos a imputar), y a partir de él, define el sistema reducido al
número de variables a imputar. Es decír, después del proceso de localización de errores, x puede representarse por: x=(xrn, xdj donde x,,, es el
subvector de las variables a imputar y x,i el subvector de las variables
conocidas. Una vez que se sustituye xd por su valor y se opera algebraica-
r^:-r ^1r^iti r ic ^1 r^;r^ ^yr^r. 1
^^0
mente, G E I S opera con el "sistema reducido`" en el espacio de x^, y cuya
expresión es:
[2.4.5a]
A,^, x,^ ^ = b,
A^,^ xm = ba,^
x,,, > - O
Para cada variable del vector xfi, por ejemplo, la variable xk, el sistema
resuelve dos problemas de PL: Max xk y Min xk sujetos a las restricciones
en [2.4.5aj. Si Max xk = Min xk, existe una solución única para xk y ésta se
imputa en el campo xk. (Recuérdese que se utilizaba el mismo procedimiénto para controlar la determinancia}.
2.4.5.2. /mputación DONQR
La imputación Donor es otra de las funciones interesantes de G EIS. EI
método consiste en "casar" un registro con campos a imputar (registro
candidato) con un registro del conjunto de registros aceptados en la fase
de detección de errores (registro donor), y en asignar a los campos dei
registro candidato ios valores de ios campos correspondientes en el registro donor. De este modo, el procedimiento asegura que el registro candidato 1 i pase todos los edits y 2} mantenga la estructura de correlación entre
las variables.
EI cuadro [2.4.5] recoge los módulos GEIS en la imputación DONOR:
Cuadro [2.4.5^: Los módulos GEIS de la IMPUTACI4N
DONOR
1) DETERMINA^ION DE LAS VARIABLES "MAT^HING"
.
2) TRANSFORMAC'iON DE LOS C'AMPOS "MA^F'CH1NG"
3) CREAC'ION DEL ARSOL KD
^. ^. 5. 2. 1 DETERI!/1/N,4 CIQN ©E LA S VA R1A BL ES "MA TC,HING "
Teóricamente, las variabies "'matching" son aquellas que no necesitan
ser imputadas en et registro candidato y que están altamente correlacionadas con 1as variables que sí necesitan ser imputadas. EI método utilizado
para determinar los campos "matching" está descrito en GEIS, M©DULE
MATCH-FIELD. Véase también el documenta de especificaciones Gene^alized Edit and lmputation System,- Specifications (pg. 923}.
SPEIr^.R-(;EIS, CX^S SISTEti1AS PAft^l L:^ [)E Nl ft•^( 1()ti
^^ ^
Para determinar ias variables matching, se obtiene para cada registro el
sistema "'reducido"", tal como se describe en la imputación determinística, y
se eliminan las desigualdades redundantes que se hallan completamente
fuera de su región de aceptación (2^. (Recuérdese que en el sistema reducido sólo se consideraban los edits activos). Los campos del sistema reusltante que no están marcados para imputar son los campos matching.
Puede ocurrir que resulte un conjunto vacío en cuyo caso el registro no
tiene campos "matching" automáticamente seleccionados.
AI conjunto de campos "matching" seleccionados por el sistema, el
experto puede añadir otros campos que desea forzar como ""matching". Los
campos "matching" seleccionados por el sistema y por el usuario son el
input en la etapa siguiente del proceso que es la transformación de camp os.
2. 4. 5. 2. 2 TRA NSFORMA CION DE L OS CA MPOS "MA TCHING"
La transformación de los valores de los campos "matching" a una escala
común es un mecanismo para suprimir cualquier efecto de escala en fos
valores de las variables, Entre las posibles alternativas para transformar las
variables a una escala común, están la transformación de rango y la de
localización. GEIS elige la primera. EI algoritmo para la transformación de
rango trabaja, secuencialmente, variable a variable, de la forma siguiente:
Primero, selecciona los regístros de la población donor y de la población
candidata, que tienen un valor válido para la variable en análisis y los
clasifica. Segundo, asigna un número de secuencia (rango) a cada uno de
los valores, empezando con el valor 1. Los campos con valores iguales
tendrán rangos iguales. Finalmente, calcula el valor transformado como
sigue:
rango /(número de registros seleccionados + 1)
EI resultado de ia transformación es una distribución uniforme de las
variables matching. Con ellos, el sistema construye un árbol K-D.
2. 4. 5. 2. 3 EL .4 RB OL K-D
EI árbol K-D es un método de búsqueda binario que ayuda a seleccionar
el donor más próximo a cada candidato, EI árbol se construye al dividir los
(2 ) EI procedimiento de detección de edits rpdundantes es el rnismo c^ue el descrito en la
función de chequeo de edits.
E ti^T-^[^)tti1l(^^1 l 4f'-1ti(1LA
registros por la mediana de la variable que tiene la máxima dispersión (en
valores transformadosj. En cada nodo del árbol, el sistema vuelve a calcular
la dispersión de cada variable, efige la variabie con rnáxima dispersión y
utiliza su mediana como valor para dividir los registros. E! proceso continúa
hasta que el número de registros que tiene los nodos terminales del árbol
es n1, valor que el usuario debe facilitar al sistema. EI documento G EIS;
Specificativrrs (pg. 1 71 $i facilita una explicaci+án gráfica y clarificadora dei
procedimiento.
^
2.4.5.2.4 LA BUS'QUED.4 DE U1V D^OJVOR APROP/ADQ
Las funciones de este módulo son: 1) Encontrar un donor, para cada
registro con campos a imputar. 2) Determinar si el registro corregido pasa
el conjunto de edits postimputación ^3?. EI mecanismo para encontrar un
registro donor apropiado (4) es diferente para los registros con o sin
campos matching. Para el primer grupo, el sistema busca los n1 registros
más cercanas al registro candidato y seiecciona el donor cuya distancia
respecto al candidato sea mínima. GEiS usa como Función de Distancia
entre el candidato y el donor la función propuesta en un artículo de
Friedman et al.: Algoritrn fo^ Finding Best Matches in Logarithmic Expected
Time, y que se define:
.
D 4x, y) = max ^ x; - y; ^ i= 1... número de campos matching,
donde x, e y, san el valor transformado para los campos
de los registros candidato y donor.
Si los n 1 donors pri meros fallan los edits postimputación, el sistema hace
una segunda selecciá^ n de los n2 registros siguientes más cercanos. En el
caso de que ningún registro imputado satisface los edits postímputación,
se imprime el registro para su análisis.
Para el segundo grupo, los registros sin campos matching, no se necesita
el árbol K-D; E{ registro donor se selecciona aleatariamente. Véase, para
u na explicación detallada del Algoritmo, e^ docu mento G EI S specifications
(p.23y.
(3} ^EIS permite definir un conjunto diferente de edits para chequear los registras imputados {^dits se denornina conjunto de post-imputación)
(^4)
En general, se rechazan como registros donor aquellos que tienen campos marcados
como NSO.
tiPf f R-(^F Iti fN)ti SItiI-f^tii ^S F'^R ^i l ^1 f)f Pl R^i( IOti
2.4. 6. RESUMEN y ORGA N1GRA MA DE FUNCIONES
En esta sección, se ha presentado las principales funciones del sistema
Generalizado de Depuración e Irnputación, G EIS, desarrollado en Statistcs
Canadá. La figura [2.4.6) muestra el flujo de funciones y módulos del
sistema.
Figura: 2.4.6
Cu•s^ionario
s tratos
cla^es
sr[clnr tDITs
rurl^ 1 on
Gen•ra ia tor^+a norr+al Ccanonica) da
los edits.
c'n[:x [^1 ts
^^+^l1ftC
[Dlii
Ivnct I on
^rr^r Ec^ts
NnCT l On
St+I1SfICaL
E^^r
F'^ rtC 1 I Oh
rlllo
ourcl [lts
El.,^ 0 4 I,OC ^ r I ON
/W^CT 10;1
DRE ^trlnlStlC
t ^wr^rlon
tstln^tlon
Inrvt^iton
DoM011
tKturArion
Hasta
st i s r^etodos
di['erentes
de i r^putiC i on .
11 Deterr,i na 1 p s carr+pos 'MatchinSir'
21 Iransfor^.a
los ca^+pos . .
)> C re a e 1 arbo 1 }<-D .
^> B us c a^
un re 9^ s tro dono r.
^ ti t^^ !)! ti i 1( •^ t ti F' ^l ti l) t^1
LA COMPARACIOfV DE SISTEl^1/fAS
En este apartado presento un análisis comparativo de los resultados de
Ic^s sistemas, utiiizanda e! fichero descrito en el apartada 2.^.
Un análisis comparativo de sistemas generales de depuración de datos
puede enfocarse desde distintos puntos de vista. Uno de ellos consiste en
evaluar los sistemas considerando sus efectos sobre los datos, sobre su
distribución y sobre las posibles estimaciones que se obtengan con !os
datos depurados. Otro consiste en analizar la sensibilidad de los sistemas a!
cambio de1 valor de sus parametros o de los procedimientos aplicados (por
e^emplo, procedimientos de imputación}. Podiamos igualmente analizar los
sistemas desde !a perspectiva de su propia eficiencia a de su caste. E!
análisis de los sistemas es aqur muy restrictívo por razones que apuntaré
abajo. Analizo. 1 j la función de Localización de Errores y 2} los resultados de! procesa de imputación por distintos métodos. Comparo el método
de imputación DO'IVOR de GElS, con e! método de imputación implementado en SPEER, e! valor medio, y e! método de imputacicín máximo verosímil
EM.
EI alcance de este análisis se limita a! fichero de prueba seleccionado. A!
utilizar este fichero que prueba, mi primer objetivo fué familiarizarme con
!os aspectos operativos de los sistemas; no fue e! hacer un análisis comparativo. Los registros del fichero proceden de una encuesta real y, como !o
muestran las tablas de diagnóstico, no tienen muchas incompatibilidades.
Para un análisis comparativo de la posible influencia de !os sistemas en los
datos estadísticos hubiera sido conveniente utilizar un fichera con datos
simulados, cuya distribución se conociese y donde !os datas omitidos y las
errares de inconsistencia se hubiesen controlado. A pesar de sus limitaciones, el presente análisis puede facilitar una primera aproximación a!os
sistemas, a sus características y a su efecto sobre los datos. Este análisis
deberá realizarse de forma más sistemática cuando ambos sistemas estén
operativos en el ! RI E.
SPf f ft-(^f Iti Cx)ti tiItiTC ^11ti F-^ft^^ L•^ [)f Pl ft^^l( IO\
3.1. La calidad de los datos del fichero de prueba; la localiiación de
errores
EI fichero de prueba tiene 201 registros, de los cuales 101 son consistentes respecto al conjunto de edits definido. La TABLA [3.1 aJ muestra un
resumen de! número de registros con status de "correcto"', "incampleto" y
"con error" y los campos implicados ( 5). Excepto por el error sistemático
de falta de respuesta en TVENTAS, los errores en las otras variables tienen
una frecuencia aceptable.
Tabla [3.1 a]: (Resultados del Sistema G EIS)
Campos
Registros
correctos
Registros
incompletos
Registros
con error
SALARIOS
101
30
28
COM PR
101
30
28
TOI
101
30
4
TCI
101
30
4
VENTAS
TVENTAS
101
101
30
30
28
58
Las tablas [3.1 bJ y[3.1 c) presentan los resultados de la lacalización de
errores y las diferentes soluciones al problema de localizar los campos a
imputar: FTD ( Field to delete).
Tabla [3.1 b]:
Número de registros Número de registros Número de registros
en el fichero de
fallados
con diferente
datos
solución en e1
problema de
.
localización
.
(distintos FTD)
201
73
26
(5) EI sistema GEIS ofrece una cuidada selección de cuadros de diagnóstico, que permiten
controlar la calidad de los datos desde el punto de vista de completitud y consistencia con el
con^unto de edits definidos. En las versiones que tenemos del sistema SPEER, este lista los
registros antes y después de la corrección; no ofrece cuadros de diagnóstico.
Tabla [3.1.c]: REGISTROS con ERROR
t-1 indica campo localizado como erróneoj
Primer registro: FTD en GEIS
Segundo registro: FTD en SPEER
GEIS
1
1088570
-1
382066
SPEER
GEIS
i
108857Q
8fi75832
13
1093556
-1
382066
245456
SPEER
13
1093556
7350452
2454^s
-1
_1
-1
423752 1 1242240 11242240
-1
216627 -1
21ss27 10216730 -1
GEIS
18
18
450000
450000
-1
330000
330000 -1
-1
33oao0
GEIS
27
75241
4150448
-1
SPEER
27
75241
-1
GElS
40
96000
_1
550208
2000
SPEER
40
49
96000
292000
134400
2aoo
_1
-1
480000
-1
_1
49
70
70
292000
563091
563091
446000
380000 -1
_^
-1
-1
-1
-1
569481 10559550 10559550
SPEER
72
72
73
73
596258
596258
417687
417687
-1
-1
-1
9121186
4955762
4955762
449575 -1
-1
2000
-1
2000
-1
-1
GEIS
83
-1
2799992
SPEER
GEIS
SPEER
GEIS
SPEER
83
84
84
88
88
506i3
10778$2
1077$82
745500
745500
G EIS
90
-1
SPEER
GEIS
SPEER
GEIS
SPEER
GEIS
SPEER
G EIS
SPEER
G EIS
SPEER
-1063214
299947
299947
11100$
40000
92712
9132843
9132843
30000
640000
1755000
40000
3oooa
2049200
-1
2049200
2049200
6750
6260
2260000
2260000
1 081 231
6750
-1
463085
-1
-1
62 60
_1
-1
2312607
469488 1417449 -1 •
-1
O
2300000
-1
23ooaoo -1
-1
-1
-1
417733 9401576
94C^1 576
-1
233000
1590000
GEIS
122
802847
SPEER
GEIS
SPEER
122
128
128
802847
256000
256000
GEIS
131
33000
-1
7524279
-1
137500
1286044
12$6044
_1
649647
5092535
5092535
_1
-1
441849
90000
90000
SPEER
131
GElS
132
906656
SPEER
132
906656
GEIS
134
540827
SPEER
134
139
540827
241084
139
241084
148
148
151
1 51
157
157
160
160
596909
596909
59000
59000
628097
628097
21017
21017
1 67
-1
-1
167
168
168
1172000
994420
994420
_1
-1
SPEER
GEIS
SPEER
GEIS
SPEER
-1
92712
6014000
2781449
2781449
2927534
-1
-1
6823738
119
GEIS
6014000
2781449
2781449
2927534
-1
-1
396814
_1
80403
111008
SPEER
SPEER
6014000
-1
0
GEIS
6014000
-1
1590000
SPEER
_1
-1
O
-1
GEIS
GEIS
_1
1952067
1755000
1081231
SPEER
GEIS
SPEER
looooo00
4307891
O
55000
347347
347347
233000
GEIS
330000
-1
1952067
90
116
116
119
33000
-1
_1
-1
6049721
3680000
3880000
22o3©oa
2203000
-1
62 6667
880i04
880104
660000
8600
8600
47736
47736
-1
829972
44522
44522
_1
484000
45000
45000
19381
19381
1 30105
130105
65000
6 5000
149411
149411
0
83000
1768000
1768000
7500
1539000
7500
81395
-1
1$$4406
-1
_1
-1
1893331
81395
-1
1893331
83000 -1
-1
6200817
?97807 6200847
59729
7013047
59729
7013047
-1
4 500000
480000 4500000
45000
2350000
45000 --1
18753
1852763
18753
-1
138250 1038853
138250 -1
2350000
65000
65U00 -1
143148 -1
143148 2764638
6200847
6200847
7013047
7013047
4540000
4540000
-1
-1
1927763
1927763
-1
-1
2350000
-1
4655704
-1
^^^^ ^ K c^t iti (>l )ti ^;Iti 1 F ti1 ^^ti f'^1R -^ I 1()I {'t k tic ^c ^^
Variable de análisis COMPR
FILE
infil
Maximum
Range
Mean
25191243.00 25191243.00 1985160.84
Std Dev
CV
235031 7.45
1 18.39
geier
5500000.00
5240000.00 1808692.78
991424.92
54.81
donor
5500000.00
5240000.00 1809275.75
958221.21
52.96
geiel
6042100.00
5782100.00 1845010.41
1045820.23
56.68
Igeisl
5797863.00
5537977.00 1811900.25
994458.68
54.88
speer
9121186.00
6986786.00 1957457.46
1501567.55
76.71
speim
25191240.00 251 63936.00 1 996345.69
2325750.54
1 16.50
speel
25191000.00 25056600.00 21 1 5024.39
2352856.52
1 1 1.24
Variable de análisis TOl
^FILE
MaximurY^
Range
Mean
Std Dev
infil
1202700.00
1202700.00
99835.56
159826.80
160.09
geier
382066.00
382066.00
71109.52
70771.76
99.52
donor
382066.00
382066.00
69883.76
69640.47
99.65
geiel
382070.00
382070.00
72 538.83
69909.35
96.38
Igeisl
381933.00
379933.00
75367.74
71069.30
94.30
speer
1063214.00
1061214.00
97957.90
137546.49
140.41.
speim
1202700.00
1202699.00
100692.88
159562.00
158.46
speel
1202 700.00
1200700.00
1047 59.40
160093.91
152.82
CV
Variable de análisis TCl
cv
FI LE
Maximum
Range
Mean
Std Dev
infil
1198353.00
1198353.00
93525.51
145114.11
155.1
geier
355115.00
355115.00
64965.13
66197.83
101.8
donor
355115.00
355115.00
64686.33
65266.69
100.9
geiel
355120.00
359820.90
69773.41
71127.61
101.9
Igeisl
355045.00
353045.00
70233.68
67478.08
96.0
speer
797807.00
795807.00
91324.13
119222.97
130.5
speim
119$353.00
1198352.00
94137.26
144829.01
153.8
speet
1198400.00
1196400.00
97031.29
143974.55
148.3
t s^r,z nr^ r rc a r' sF^,^ tic^^_ A
?? K
3.2. Comparación de los procedimientos de imputación
Este apartad© presenta cuadros comparativos de las distintas estimaciones obtenidas antes y después de la deteccicin e imputación de datos con
los sisternas GEfS y SPEER. Presenta también fos gráficos de las distribuciones marginafes de las variables en las distintas etapas del proceso.
Los ficheros que analizamos son los siguientes:
I t^l F I L:
GElER:
DONOR:
GEIEL:
LGEiSL:
SPEER:
EI fichero de datos de entrada
E1 fichero de datos después de la Localización de Errores GE1S
EI fichero de datos después de la imputación Donor GEIS
EI fichero de datcs después de imputar G E I S E R con e1
algoritmo EM
E1 fichero de datos después de imputar GEISER con el
algoritmo EM y previa transformación de las variables en Logs
El fichero de datos después de la Localización de Errores
SPEER
SPEIM:
EI fichero de datos después de imputar SPEER con el valor
central
SPEEL:
EI fichero de datos SPEER después de imputar con el algoritmo
E li/i ( 61
La Tabla [3.2a] muestra los valores MAXI MO y M I NI MO estimadas, el
RAIVGO, fa MEDIA, la DESVIACIaIV STD y el COEFICIENTE DE VAR1ACION (CV) de las variables consideradas en el estudio. La tabla (3.2bj
muestra los valores agregados de las variables.
Variable de análi^ is SA LA RIOS
cv
FILE
Maximum
Range
Mean
Std Dev
infil
3803334.00
3803334.00
330479.49
355106.40
107.45
geier
906656.00
885639.00
298310.38
187229.79
62.76
dortor
1093556.00
1072539.00
317713.45
219878.14
69.21
geiel
1093600.00
1 072 583.00
31 72C^5.61
21 71 86.42
68.47
lgeis!
1093616.00
1072599.00
31631 1.84
216893.51
68.57
speer
1093556.00
^ 045261 . 00
324214.97
2 1 8506.41
67.39
speim
3803334.00
3782317.00
333541.35
352775.27
105,?7
speel
3803300.00
3782283.00
339885.71
350172.51
103.03
(6)
^Jéase en el apartado de referencias los artículos correspond^entes al algoritmo EM.
til^f f(t-c;f I^, f^t^^ tiltil f^11ti l^^Ft ^ I ^(^f I^^ It ^c Ic^^
,^y
Variable de análisis VENTA S
FILE
Maximum
Range
Mean
Std Dev
CV
11242237.0011242237.00 2412026.37 1908367.89
79.1
geier
7013047.00 7013048.00 2102596.35 1415562.50
67.3
donor
7013047.00 7013047.00 2404408.02 1236245.02
51.4
geiel
7013000.00 7013000.00 2448693.94 130512 7.42
53.3
Igeisl
7011064.00 6722982.00 2413709.31 1211042.73
50.1
speer
11242240.0011242241.00 2272122.06 1996272.43
87.8
speim
24767310.00 247673 1 1.00 2594881.65 2538201.41
97.8
speel
35761000.00 35593360.00 2823210.94 3158691.89
1 1 1.8
infil
Variable de análisis TVENTA S
FILE
infil
Maximum
Range
Mean
Std Dev
CV
35708342.00 35708342.00 2374337.32 3271661.87
137.7
geier
7013047.00 7013047.00 2404266.83 1343434.12
55.8
donor
7013047.00 7013047.00 2362577.47
1268659.86
53.7
geiel
7013000.00 7013000.00 2443239.89 1327473.18
54.3
Igeisl
7011064.00 7010053.00 2405963.27 1269309.23
52.7
speer
11242240.00 1 061 6652.00 2798393.48 2001993.49
71.5
speim
35708340.00 35708341.00 2664837.09 3186339.79
1 19.5
speel
35708000.00 35529660.00 2829800.70 31 53336.38
1 1 1.4 ^
Obsérvese que las estimaciones de I N FI L se calculan con datos grabados. Las estimaciones obtenidas con los ficheros GEIER y SPEER muestran
el efecto del valor ='.' asignado a los campos localizados como erróneos
por los respectivos sistemas. Aparte de I N FI L existen dos gru pos de ficheros: Aquellos cuyos datos son tratados con el sistema GEIS y aquellos
cuyos datos son tratados con el sistema SPEER. Primera observación: Las
estimaciones de los parámetros en la tabla ^3.2a] son más elevadas y los
datos están más dispersos en los ficheros SPEER que en los ficheros GEIS.
La diferencia es considerable y podemos adelantar una posible explicación.
SPEER es un sistema de edits de razón. En SPEER, aquellos registros con
valores altos (es decir, aquellos registros con valores que hubiesen sido
detectados como outliers en un análisis estadístico), pero con valOres con-
f `,T.^[)I`;^f( •1 E ti['•^ti()t_ ^
sistentes, pasan el conjunto de edits de razón y son aceptados por el
sistema. G EIS realiza, si así lo pide el usuario, un análisis estaciistico de los
datos y marca los campos cansiderados como outliers (las campos "SO""j.
Todos los registros con outliers son registros sospechosos, aunque no
necesariamente erróneos. Por ello, los usuarios de S PEER deberán hacer,
antes de en^rar en el sistema, un análisis de datos para detectar posibles
registros con valores extremos.
Segunda abservación. En ef grupo de ficheros GEiS, los proced^mientos
DONOR Y LGEISL proporcionan los valores de estimaciones más concentrados y simiiares. En LGEISL se aplica el mismo procedimiento de imputación que en GEIEL pero transformando previamente sus va[ores a LC ^ Gs. EI
algoritmo EM asurne normalidad en la distribución de variables; este supuesto se satisface mejor si, en una distribución asimétrica, los datos se
transforman en lags. El algoritmo EM no es robusto al supuesto de normalidad y su apiicacíón pasa por transformar las variables.
La tabla [3.2b] muestra el valor agregado de las variables en estudio en
los ocho ficheros que se comparan. Como anteriormente, los totales en
I N FI L m uestran el peso de los outliers y G EI S E R y S P E E R el pes© de los
valores suprimidos. AI comparar los resuitados del fichero SPEIM con los
de los ficheros DONOR y LGEISL observamos: 1 i Para las variables
SALARIOS, COMPR, VENTAS y TVENTAS no existen diferencias sustanciales en las estimaciones de valores agregados. 2^ Para las variables
TOI y TCI esas diferencias son impórtantes. Una posibie explicación está en
la propia definición de los edits en SPEER; las variables TC)I y TCI no se
cruzan con ninguna otra variable, lo que hace que el número de errores
detectados en esas variables sea muy bajo y en consecuencia, el valor
agregado de ambas variabies antes y después de la depuración con SPEER
es muy parecido. También se observa que los datos del fichero S PEEL
muestran el efecto de la estimación no robusta del vector de medias y de
la matriz de varianzas y covarianzas por el algoritmo EM.
^^ ^
SF'F F R-( ^ F Iti, [x1S tiIti TF M.Ati F'.^R ^^ l-> [)I} Pl R ->,( ^IOti
Tabla [3.2b]
SALARIOS
COMPR
TOI
TCI
VENTAS
TVENTAS
inf^l
5651 1993.00
339462504.00
1 7071880 00
15992862 00
412456510 00
40601 1682 00
ge^er
41 763453 00
2650772 39 00
1 1 590852 00
/0329456 00
357441379 00
305341$89 00
sperr
44093236 00
307320821.00
1 5869180 00
14794509 00
386260751 00
335807218 00
TYFE
Resultados después de Imputación. (Ficheros GEISI
donor
54210623 00
3085621 54 00
1 1 937070 00
1 1048102 00
410072771 00
402919747 00
ge^el
5392495300
31365177000
1233160100
1186148010
41627797000
415350781 00
Lqe^sl
53773013 00
308023043 00
1 2812515 00
1 1939726 00
410330582 00
40901 3756 00
Resultados después de Irnputación. (Ficheros SPEER)
speim
53232236 00
316183873 00
1601 5782 00
148991 19 00
418957453 00
41 9978802 00
speel
5431 71 56 00
3364781 70 00
1671 1 1 57 00
1 5393950 00
447008070.00
4481 87920.00
Para finaliiar, las tablas [3.2c) presentan I©s gráficos de la distribución de
las variables en los ocho ficheros en estudio. Tampoco aquí se observan
diferencias sustanciales entre los distintos gráficos, y reproducen características ya comentadas.
E `^ i ^i^i`+^T I( ^^ E ^i' \^tlt ^^
Tabla [3.2c). ^^stribuciones marginales de !as variables en !os ficheros
en estudio.
Variable de análisis SALARlQS
donor
48295
78704
i42339
256840
3304 79
400634
802847
1172000
ge^el
48295
7$704
142339
256840
3304 79
400634
802847
1^72a©o
geier
142339
256840
330479
400fi34
802$47
1172000
48295
7e704
142339
256840
330479
400634
802847
1172000
ige^sl
48295
7$704
142339
256840
330479
4oos34
802847
1172000
speel
48295
78704
142339
256840
330479
400ó34
802847
1172000
spe^m
48295
78704
142339
256840
3304 79
400634
8U2 84 7
1 1 72U00
sperr
....................
..................
•
w
i
i
i
w
i
i
i
....,....--•.....,.
--......
..
..i
,...,.
.................
O. 54
1 00
301
2 78
1 46
2 93
1.08
0.3 a
• 11 r w r r! r f i i f w r^r i w i•
...................
...................
..........
..
48295
78704
mfil
O 54
1 00
3 08
2 78
1 31
2 85
1.23
O31
.......
48295
78704
142339
25f3840
33t)479
40C)634
R0284 7
1 1 7 2 000
O 54
0.85
2.39
2 47
1.08
2.54
0 93
O 00
......
.................
.................
......,
•
w
i
r
w
f
i
i
i
i
r
f
i
w
i
i
i
w
i
r
..,...
• i a i w i i a
11s
1 00
2 78
2.62
1 23
2 85
1 08
0 46
.,....,
....................
r r i r • w r r r• r r w w. r w•
.,.......
. . r . . . . . . . . . . . . . . . . . .
......-...
.,...
0 54
1 O©
3 OS
2 78
1 31
ao1
1 08
031
• i s s s s•
• s w w i r w i•• r i w i i w i i w i r r s ♦
• w w r w s a w w s w a w i i w i i r i w•
..,......
..... ...................
.......
...
.......
0 69
1 00
301
2 70
1 31
2 93
1 08
0 39
.,.....
• s r r w w r w w i s s s s i s w i r w•
r w r w r w f 11 w w i i w w w a w i M
..........
......r .............
........
...
• s i w w i•
1
1
2
2
1
2
1
0
.......
.....r ...............
• w r w w s r w e w r r r w w w r e•
.........
................r..
.......
,..
031
O 69
2 39
2 39
1 16
2 47
0,77
031
r r r r ♦
,.....,.,.,r..,...,
• w r. w r r r.^ r r r w r r e w a
........
...................
..r..
..
10
20
30
00
00
93
62
23
85
08
39
40
FR^ CUENCtA
50
til't 1 K-( ^F I^. 1>Kl^ ^Iti T t 11 >,^ P ^R -1 l -^ [)f 1'l R^( I()ti
Tabla [3.2c]. continuación
Variable de análisis COMPR
donor
0
531283
929662
1542218
.....
....................
..........................
1985160
..........
2203000
5300000
9121186
ge^el
0
....................
.....
.
531283
....
929662
.....................
1542218
1985160
2203000
5300000
9121186
geier
.
0
531283
929662
1542218
1985160
2203000
5300000
.. . . ... ... .. .............
...........
..................
r^^^^•
.
...
................
...................
..........
................
....
9121186
infil
O
531283
929662
1542218
1985160
2203000
5300000
9121186
Igeisl
O
531283
929662
1 542218
1985160
2203000
5300000
......
0
531283
929662
1542218
1985160
2203000
5300000
9121186
speim
0
531283
929662
154218
1985160
2203000
5300000
9121186
s^^crr
0
531283
929662
1542218
1985160
2203C)00
5300U00
0 08
0 60
39
2 94
52
3 92
20
40.
10
0
1 51
3 02
0 75
0 00
1
8
41
49
0 08
0 60
3 09
3 70
21
1 58
37
13
0
2 79
0 98
0 00
1
7
36
0 08
0 53
2 72
42
19
3.17
1 43
32
10
0
2 42
0 75
0 00
14
1 .06
11
36
0 83
2 72
..........
42
19
3.17
1.43
................
32
2.42
12
091
5
0 38
1
O 0$
8
41
51
20
38
0 60
3.09
3.85
1 51
2 87
11
0
083
0 00
.....
................
...................
......
..
.
.. .
.....................
...........................
..........
.................
......
9121186
speel
1
8
..
3
023
......
12
091
....................
40
3 02
40
19
347
1.43
32
2.42
13
0 9B
5
.......................
..........
................
.......
..
....
........
• ^ . r ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ f
.....................
• r ^ . ^ ^ ^ ^ ^ •
................
......
..
8
0 38
0 60
15
1 13
39
42
2 94
317
19
1 43
32
11
2 42
0 83
4
0 30
..
......
3
11
0 23
O 83
..................
.....................
36
42
2 72
317 '
19
31
1 43
2 34
11
4
0 83
0,30
..........
................
......
9121186
10
20
30
40
f RECUEhCIA
50
?^4
tst ^^t^t^^^c ^> t^t}->^t}t.->
Tabla [3.2c]-- continuaciór^
Variable de análisis TOI
donor
z oo©
7110
19857
53518
99835
109900
382066
......
O 89
1 34
2 45
371
1 .41
2.38
0.45
o.ao
.........
.................
..................r......
• w w i i w i i!^•
•swwiwasisiaarwi•
...
1os3214
ge^el
ge^er
inhl
Ige^sl
2000
7110
19857
53518
99835
109900
382066
1063214
2000
7110
19857
5351$
99835
109900
382066
1063214
2000
7110
19857
5351 8
99835
109900
382066
1063214
2000
7110
19857
53518
99835
109900
382066
1063214
speel
2000
7110
19857
53518
99835
109900
3820fi6
^063214
speim
sperr
2000
7110
19857
53518
99835
10990C?
382066
10632 14
2000
7^10
19857
53518
99835
10990{?
382066
1063214
....,.
.......,
^ 0.89
1.26
2.30
3.71
1.34
2.67
0.45
0.00
• w w!! f s r f r w f r r f w w a
. . w . . . . . . . . . . . . . . . . . . . . . .
.........
• r 4 r U
i!
f w
r
f!
r
i
f
f
f
f•
•ww
r!
w
i
i
0.89
1.26
2.30
3.57
1.26
2.38
0.4 5
0,00
w
.........
................
• r i r r w w! w w w! r r r w r a i r! w r i r•
..........
• r a r s a r r r r w f f r r i•
......
.,.......
0.89
1.26
2.30
3.57
1.26
2.38
0.82
0.2 2
. , . . . . . . . , . w . . . .
.........................
....,....
.................
.......
..
-
0.30
1.26
2.45
.........
..................
..i.sw•iiaiwwilawwiilaiw..w.•
........
1 .34
2 53
0.52
0.00
•s!w!!liesiwiiiiw•
..
.........
................
•
a
1
i
i!
•
a
i
w
i
f
1!
i
i
i
i!
a
i
r!!
w
i
a
w
f
r
0 30
1 26
2.38
3.86
1 .34
2.45
0.89
0.1 5
i•
i•
....................
•alir•
.....
.,......
..................
0.74
1 .26
2.38
3.57
1 .26
2.45
0.82
0.1 5
• a!! i! r w i s w f w w a i r i a r w!!•
.........
.................
f s r! a i r
.,
0 30
1 .26
2 30
3 57
1 26
2 38
0 82
O 15
• a w r! r f i•
................
a a i r f! r! r r i r i! a r r f i f w i f•
.,.,.....
.................
.......
-,
^
10
20
--^---r--- -,
30
a.23
40
FRECUENCIA
50
2^S
tiPf f it-l^k I^. [X)ti tilti^1 F!^1 ^S P;'^ RA l_^^ [)f Pl R•^( I()ti
Tabla C3.2c)- continuación
Variable de análisis TCI
donor
2000
7500
18753
54707
93525
100704
396814
10
0 7s
...........
20
1 49
...... .................
.......................
.........
................
...
43
43
3 20
3 20
17
1 27
32
5
2 38
0 37
a
o 00
.....
..........
....................
10
20
40
0 75
1 49
2 98
......................
43
15
3 20
1 12
35
7
0
2 61
0 52
0.00
.....
797807
^ ge^el
2000
7500
18753
54707
93525
100704
396814
797807
ge^er
9
0 67
20
40
1 49
2 98
......................
41
15
29
3 06
1 12
2 16
5
0
0.37
0.00
10
20
40
0.75
1.49
2 98
41
16
3 06
1 19
29
13
2
2.16
0 97
0 15
..........
......................
...........................
2
20
42
50
0 15
1 49
3.13
3.73
•---.....
17
1.27
.................
..
33
6
0
2 46
0 45
0 00
...........
2
20
0.1 5
1 49
41
3 06
54707
.......................
..........................
45
3.35
93525
........
16
1.19
................
.......
32
13
1
2 38
0.97
0.07
8
0.60
20
1.49
40
2.98
43
3_20
........
................
16
29
1.19
2.16
.......
13
1
0.79
0 07
..........
2
20
015
1 .49
....................
40
2 98
.....................
........
41
16
29
13
3 06
1.19
2.16
0 97
1
0 07
54707
93525
100704
396814
797807
2000
7500
18753
54707
93525
100704
396814
797807
Ige^sl
2000
7500
18753
54707
93525
100704
396814
797807
speel
2000
7500
18753
100704
396814
797807
speim
2000
7500
18753
54707
93525
100704
396814
797807
sperr
.....
..........
.....................
2000
7500
18753
^nfil
........
.................
....
2000
7500
18753
54707
93525
100704
396814
.........
...............
..
.....
..........
....................
.....................
........
.............
• w r Y • w •
...
..........
......................
. r. r r• w r r r r r w r w w w r. w w w r•
...............
.......
797807
10
20
30
40
FRECUENCIA
50
t^1 ti)I!^T I( ^^ f ti!'^1ti()i •>
Tabla [3.2.c]-- continuación
Variable de análisis VENTAS
.
...,
0
donor
631260
1446582
2006527
2412026
2854442
sol4oo0
2
7
42
......................
....................
.............
.......................
37
25
4fi
11
O
......
10559553
ge^el
0
631260
1446582
2oos527
2412026
2854442
60140©0
10559553
geier
0
631260
1446582
2006527
2412026
2854442
60140Q0
.
....
.....................
...................
.............
0.59
23
5
...
....................
39
.................
..........,
34
22
36
R i s a R R a R a a R^^ R i R a•
......
11
10559553
^nfii
O
631260
1446582
2006527,,^
2412026
2854442
6olaooo
10559553
Igeasl
0
631260
1446582
speel
spe^m
17
5
40
. . . . . . 11 . . . . . . . i . .
34
22
37
1• 1
5
...........
• i# a a R s s i a a r a R• a i.•
......
--•
.
.......................
...................
0
631260
1446582
2006527
2412026
2854442
6014000
10559553
,
.....
.......................
..................
............
O
631260
1446582
2006527
2422026
2654442
10559553
O
631260
................
44
11
0
..,....
1
10
43
36
24
38
12
6
. . . . . . . . . . . . . i . . . . , .
......
...
...
i a i a R f i# a i i i i i i i i i i a i a i i i
, .................
•#
a
i
f
i
i
i.
e
...................
......
...
.............
2006527
2412026
..............
.,........
f.. a.. a.. f a 1 a. a# a•
......
...
10
20
30
40
FRECUENCIA
50
1.10
24 98
1 69
0 37
2.87
2.50
1 62
2 65
0.81
0.00
1 .2 5
0 37
2.94
2.50
1 .62
2 . 72
0.91
0.37
0.0 7
0.51
3.1 fi
2.65
2 06
3.23
081
O 00
0 07
0.73
3-16
2.65
1.76
2.79
0.68
0.44
49
33
19
35
1 . 40
2 57
1z
C 88
O 37
5
..
301
2.79
1 .84
3.01
0 37
0 89
3 60
2.42
5
12
.....,
., .................
1 U5E^9553
28
a^ i# i i r# a a i i i i i i i a i i i•
1446582
2854442
6014000
1
7
43
36
....
2006527
24 12026
2854442
6014000
10559553
so14©o0
sperr
0
.........
...
................••..
0.00
8
41
38
15
O
............
081
1 2 64
41
.,......
1 84
3 . 38
2
25
• i a i R a R i. R R i a a f i R a R R R
0 15
051
3 09
2.72
28
4
38
30
19
35
2 06
O 29
7 79
2 20
11
081
5
0 37
1 40
2 57
tiPf f Ft-(^f lti. [X)4 ^Iti f f 11^^^ f'^^Fl 1 1•^ l)f F'l K^( I(^ti
Tabla [3.2.c]- continuación
^/ariable de análisis TVENTAS
donor
0
631260
1100000
1893331
2374337
2800000
6600847
11242237
ge^el
.
.....
............
..........................
..............
........ ...............
.....
.
0
631260
1100000
1893331
2374337
2800000
...
.............
........................
...............
......................
6600847
......
11242237
ge+er
0
631260
1100000
1893331
2374337
2sooooo
6600847
..
..
........
.....................
............
...............
.....
11242237
infil
0
631260
1loaooo
1893331
2374337
2800000
6600847
11242237
Ige^sl
0
631260
1100000
1893331
2374337
.................
.
........r.
.....................
.............
.................
....
..
....
.............
r r•• r f f r. r r r r w r r f r r f r r r r r
•r--..........
2800000
.....................
6600847
....--
11242237
speel
..............
.........................
6600847
....
11242237
spe^m
r r f r r f r w f f r 1 f•
......................
rrf
631260
1100000
.
.....
.............
1893331
......................
2374337
..............
0
2800000
6600847
11242237
sperr
.
...
0
631260
1100000
1893331
2374337
2800000
O
fi31260
1100000
1893331
2374337
280U000
660084 7
11242237
. . . . . . . . . . . . . . f .
....
.,
........r
...................
..........
......... .....
... .
..
__.-+.
10
40
20
30
FRECUENCIA
50
3
9
23
50
30
0 24
0.71
1 81
3 94
2 37
46
9
3 fi3
071
0
0 00
3
5
26
50
30
0.24
0.39
2 05
3 94
2 37
44
12
3 47
0 95
0
0 00
3
4
0 24
0.32
18
1 42
40
23
30
9
3.15
1 81
2 37
0.71
0
0.00
34
4
20
42
25
62 3
9
6
2 68
0.32
1 58
3 31
1 97
49 13
071
0 47
1
7
26
53
28
0 08
0.55
2 05
4.18
2 21
44
3 47
11
0
0.87
0.00
1
7
0.08.
0 55
28
50
27
41
2 21
3.94
2 13
3 23
10
6
0 79
0 47
7
0.55
9
28
071
2 21
50
3 94
27
2 13
34
9
2 68
0.71
6
0 47
O
0.00
3
0 24
1 7
38
1 34
3 00
20
1 58
28
2 21
9
5
071
0 39
f !i^T ^1f)iST lí^^t F SI•^Zti(ll •1
3.3. Conclusión
Se resumen aquí ventajas e inconvenientes de los sistemas G EIS y
SPEER observados.
GEIS supera claramente a SPEER en: 1) La definición de Edits. 2) EI
móduio de imputación DONOR. 33 Su generalidad. Aunque SPEER y GEIS
trabajan solamente con edits lineales, G EIS admite como edits cualquier
función lineal de las variables, mientras que SPEER admite sólo edits de
razón. EI módulo de imputación Donor permite respetar las distribuciones
marginales y conjuntas de las variabfes que se depuran con GEIS. Finalmente, G EIS es un sistema acabado, mientras SPEER requiere afguna
pragramación a medida.
SPEER supera a GEIS en: 1) EI tíempo de Proceso. 2) Que puede ejecutarse en cualquier PC^AT can mínimos requerimientos de software. Para
que G EIS pueda carrer en un PC, este debe tener instalado e! Sistema de
Base de datos ORACLE, que exíge, a su vez, una configuración de equipo
determinada {es decir, no puede ser instalado en PC con menos de 3072 K
de memoria extendida). Finalmente GEIS exige una excesiva división de
grupos de variables y grupos de registros.
EI efecto en las estimaciones finales de las datos no parece importante si
se hace: 1 ^ Una correcta definición de los edits. 21 Una corrección previa
de outliers groseros. Esta observación no es cancfuyente, sin embargo. Se
requiere un estudio más exhaustivo sobre la calidad de los datos y sobre la
influencia de 1as procesos de imputación en dicha calidad de los datos.
B18LIOCRAFIA
Bou^AUD, W., D. D^xoN and D. M^CHAUD (1 9$9). The Field to impute and the
Linear programming. Working Paper, Statistics Canada.
BUREAU, M., S. MiCHAUD and M. SISTLA (1 986). A^orr^parison of different
imputation techniques for quantítative data. Working Paper, BSM D.
6 u sTOS, O. H. y P. L. N. S ^ LvA { 1 9 S 9). Uso de estimadores robustos para
imputación de datos faltantes de encuestas. Instituto de Matemática pura
y aplicada. Serie B-íJ49.
C H E R N I K O V A, N. V.(1 3 0 4). A lg^orí thm for finding a general form ula for the
non-negative so/utions of a system of finear equatiorrs. U.S.S.R. Cornputational ^/lathematics and Mathematical Physics 4.
C H E R N ^ KOVA, N. V.(1 9O 5). A lgorithm for finding a general formula for the
non-negative so/utions of a system of linear inequations. U.S.S.R. Computational Mathernatics and Mathematical Physics 4.
^r3E t K-c ^f I^ (Xlti tiIti 1 f ti1 ^^ti P
^R •^ l^ i)F ( ^^
?^9
k^^c ic^^
COTTON, P. (1 988). A comparison of software for Editing Survey and Census
Data. Presented at the Symposium 88: The impact of High Technology
on Survey Taking, Ottawa. Canada.
DEMPSTER, A. P., N. M. LAIRD and D. 6. RuBIN. (19771. Maximurn Likelihood
from incomplete Data via the EM Algorr'thm. The Jaurnal of the Royal
Statistical Society. Series B. Vol 39.
'
DIA: Guía de/ Usuario (borradór).
Espa ña.
Instituto Nacional de Estadística de
DIA: Descripción de Sistema (1 987). Instituto Nacional de Estadística de
España.
F E LLEG I, I. P. (1 9 7 5). A utomatic Edit and lmputation of quantitative data.
Statistics Canada. Technical Report.
FELLEGI, I. P. and D. HoLT, (1 976). A Systematic Approach to Automatic Edit
and lmputation. Journal of The American Statistical Association, Vol. 71,
17-35.
(1977). An Algorithm fDr
Finding Best Matches in Logarithmic Expected Time. ACM Transaction on
FRIEDMAN, J. H., J. I. EENTLEY and R. A. FINKEL
Mathematical software 3.
GARCIA RUBIO, E. J. M. GOMEZ ALONSO e I. VILLAN, ( 1 983). Desarrollo de un
Sistema de Detección e lmputación A utomática basado en la Metodol'ogía
de Fe/legi y Ha/t amp/iada. Contributed Paper, 44th Session of the Inter-
national Statistical Institute. Madrid.
GARCIA RuBlo, E. & I. VILLAN (1990). DIA SYSTEM: Software for the
automatic imputation of qualitative data. U.S. 6th Annual Research Conference Proceedings.
GARFINKEL, R. S., A. S. KUNNATHUR, and G. E. LIEPINS. (1 98fi).
Optimal
imputation of erroneous data.^ A survey. Operations Research 34.
GEIs, Development Team. (1 989). Generalized Edit and lmputation System;
Specifications. SS D, Statistics Canada.
G Els Modules Specifications. Module ED-ANAL (1)(2)&(3)
G E^s Modules Specifications. Module ED-APPL (1)(2)(3J&(41
GEis Modules Specifications. Module ERR-LOC (0)&(1)
GEis Modules Specifications. Module IMPUTE (1^(2^(3)(4^&(5^
GE^s Modules Specifications. MODULE MATCH-FIELDS
GE^s Modules Specifications.
Canada. 1987 & 1988.
D4NQR lmputation
BSMDM, Statistics
t^1 ^E)Iti1 l( ^^ f tiF'^ti^^l i
G ^ ^ES, P. (19 8 6). Methodological specifieations for a Generalized Edit and
lmputation System. Statistics Canada Technical Report.
G i^ES, P. (1 986). Generalized Edit and lmputatian. The Canadian Journal
Statistics, Vol. 16, August.
G I LES, P. a nd C. PATR I C K. (1 9 8 6). lmputation Options in a Generalized Edit
and lmputation System. Survey Methodology, Vol. 12. Statistics Canada.
J une.
G ^ ^ES, P. (19 8 9). A nalysis of Edits in a Generalized Edits and /mputation
System. Working Paper, SSM D. Statistics Canada,
Glossary of Terms.^ Data Editing ECE/UNOP SCPIGL/3, Bratislava, September
1982.
GRANQUIST^ L. ,(19821. nn Generalized Editing Piograms and the Solution af the
Data Qua/ity Problems ECE/UIVDP/SCP/DE WP.1 7.
G RANQUIST, L.. (1983). Un the role of Editing ECE/EN DP/SCP/DE/WP.39.
G RANQUIST, ^. (1984). Data Editing and its lrnpact on the Futher af Statistical
Data Workshop on the DCP. Budapest 1 2-1 7 lVoviembre 1 984. invited
Paper.
G RANQUIST, L. (1 990a). ©ata editing and quality I BG E Workshop Data
Editing and Imputation Methods. Rio de Janeiro, febrero 1 990.
G RANQUIST, L. (1 990b). Macroediting. A review of inethods for rationalizing
the editing of survey data quality. ECE/UNDP/SCP2/DE/WP.67.
G REENgERG, B. (1 98 i).
©eveloping an edit system far industry statistics.
Proceedings of the 13th Symposium on the Interface.
G R E E N B E R G, B.(1 9$ 2) . Using an edi t s ys tem to de velop edi ting s pecifiea tions.
Proceedings of the Section on Survey Research Methods, ASA.
GREENBERG, B. and R. SURDY .
(1984). A
Flexible and interactive Edit and
/mputation System for Ratio Edits. Statistica! Research Division Report
Series. U.S. Bureau of the Census.
GREENBERG, B. (1 985). Edit and lmputation as an Expert system. Workshop
on Statistical Uses of Microcomputérs in Federaf Agencies, Session on
Expert Systems.
C^^i E E N B E R G, B.(19 8 6). The use of lmplied Edits and Set Co vering in A utomated Data Editing. Statistical Research Division Report Series. U.S. Bureau
of ihe Census.
HIDIROGLOU, M. A. & J. M. BERTHELOT. ( 1 9$6). Statistical
tion for Periodic Business Surveys
Vo112. N.i^ 1. pp 73--83.
Editing and lmputaSurvey Methodology, June 1986,
^^)
51'F E R-(^E Iti. (^()S tiltiTf ^1 ^^ F'^R> I^ f)f 1'1 Ft ^( I(1\
H i LL, C. J.(19 7 8). The application of a systematic method of automatic and
imputation to the 1976 Canadian Census of Population and Housing.
Annual Meeting of the American Statistical association, August 1978.
KOVAR, J. G., J. H. MACMI^LAN & P. WNITRIDGE ( 1 988).
Overview and
St^ategy for the Generalized Edit and lmputation System. Working Paper
N.° BSMD-88-007E, Methodology óranch, Statistics Canada.
Lignes Directrices Concernant la qualité (1987). Statistique Canada.
LITTLE, R. and P. J. SMITH (1987). Editing and lmputation for Quantitative
Survey Data. Journal of the American Statistical Association. March.
LITTLE, R. & D. B. R u B ^ N. (1 9 8 7). Statistical Analysis with Missing Data. Ed.
John Wiley & Sons.
PIERZCNALA, M. (1 988). A review of the State of the Art in Automated Data
Editing and lmputation. NASS Staf# Report. U.S. Department of Agricultu-
re.
R u B ^ N, D. S., (19 7 5). Vertex Generation and Cardinality Constrained Linear
Programs. Operation Research, 23.
S A N D E, G.(19 7 8). A n algorithm for the Fields to lmpu te Problem of Numerical and Coded Data. Statistics Canada Technical Report.
SCHIOPU-KRATINA, I. and J. G. K©VAR. (1989). Use of Chernikova ^ Algoriti^m
in the Generalized Edit And lmputation System. Working Paper, B S M D.
Statistics Canada.
S I LVA, P. L. N. (19 8 9). Critica e imputacao de dados quantitativos utilizando 0
SAS. Disertacao de mestrado em Estadistica, Instituto de matematica
pure e aplicada.
Subcommitee on Data Editing in Federal Statistical Agencies (1990) Data
Editing in Federal Statistica Agencies. Statistical Policy Office, Working
Paper 18, may 1 990.
SUMMARY
This paper presents the overall characterist+cs and functions of
the generalized editing and imputation systems and analyzes the
methodology of two generafized systems: implemented at the
USA Bureu of the Census and GEIS, implemented at Statistics
Canada. It briefly analyzes the impact on a data file of both
syste m s.
Key words: Edit, implicit edits, editing, imputation,
field, donor field.
AMS classification: 6^ - 04
matching
ESTADISTICA ESPAÑOLA
Vol. 33, Núm. 12 7, 1991, págs. 243 a 2 56
COMENTA R IOS
ILDEFONSO VILLAN
Instituto Nacional de Estadística
EI artículo de Soledad Bravo se centra en la descripción de dos Sistemas
Generales de depuración de datos, SPEER y G EIS. La descripción que hace
de ambos sistemas es completa y clara, sin embargo, el propio énfasis
dado a la descripción de los citados sistemas, y su calificativo de "generales", puede crear alguna confusión, especialmente entre los que no se
hayan enfrentado nunca con la tarea de recoger y procesar estadísticas.
SPEER y G EIS son generales en tanto que se pueden aplicar a muchas estadísticas distintas, pero no resuelven, en general, todos los problemas de
depuración de una estadística, y no se pueden aplicar a todos los tipos de
estadísticas. Por ello quizás resulte conveniente presentar esquematicamente los métodos y procedimientos que se están utilizando en la actualidad por las Oficinas estadísticas más avanzadas.
Los métodos utilizados por cada Oficina Estadística vienen condicionados
por factores organizativos, legales, técnicos, e incluso consuetudinarios; en
cualquier caso parece que la tendencia actual se pueden resumir en:
1) Integrar operaciones, para eliminar costes y evitar el someter los datos a sucesivas operaciones desconectadas unas de otras. Hay dos estrategias dominantes: 1) La integración de las operaciones de recogida y captura, ernpleando procedimientos CAPI ^Computer Assisted Personal Inter- .
view) o CATI (Computer Assisted Telephone Interview). 2) La utilización de
grabaciones ""inteligentes"', en lugar de las tradicionales grabaciones masivas. Con las grabaciones inteligentes se pierde velocidad, pero se integran
varias tareas en una: grabación, codificación asistida y primera depuración.
Su objetivo suele ser evitar posteriores vueltas al cuestionario, al detectar
durante la grabación errores cuya corrección se puede hacer usando la información contenida en el propio cuestionario (notas al margen, correcciones, etc.).
?^-^
FST ^[)Itii It -ti F SF'^Ltit^l A
2) Reducir al máxímo las vueltas al respondiente por medio de Ilamadas
telefónicas o nuevas visítas, para ello se buscan procedímientos que permitan concentrar los esfuerzos de recontacto con el informante en los errores
más importantes, entendiendo como tales aquellos que tienen un mayor
impacto en las estimaciones. Este es uno de los campos donde las Oficinas
de Estadística están investigando de forma más activa, pues es aquí donde
se pueden conseguir ahorros signíficativos en los costes y reducciones en
los tiempos. A este respecto son de destacar los trabajos de la oficina Estadística de Suecia, en la que se ha acuñado el concepto de macrodepuración (macroediting) habiendo experimentado varios procedimientos: Topdovvn, BoxPlot, Método de agregación, etc. (véase Granquist, ^. (1 991 )) y
la oficina Estadística de Canadá con e1 método de Hideroglou y Berthelot
para detección de observaciones outlier y la utilización de una función
score"' ( Latouche, M. y Berthelot, J. M. í 1 990) ), que mide el grado de importancia de los errores de un cuestionario para así determinar si es necesario o no realizar un seguimiento más profundo del mismo. Esta función
recoge la importancia del respondiente, la magnitud y número de errores e
importancia de las variabies sospechosas. EI Instituto Nacional de Estadística ha realizado en este campo una experiencia muy interesante con el 'procedimiento en Cascada' aplicado en la Encuesta lndustrial (Pons, J.
{1988) ).
3) Para !os errores que quedan tras aplicar los procedimientos ante-riores, que pueden ser nu merosos, aunque de una importancia reducida, caben dos alternativas: 1) dejarlos en los registros de datos, quedando a discreción de los usuarios el realizar sus propios ajustes 2) eliminarlos utilizando algún procedímiento de imputación automática. No voy a entrar aquí
en la larga polémica sobre cua! es la alternativa más conveniente, pero el
hecho es que las Oficinas de Estadística suelen utilizar la segunda, dejando
si acaso (a primera para investigaciones internas o para usuarios muy especiales. E! problema esta en disponer de procedimientos de imputación automática efícientes, flexibles y con una base metodológica razonable. Es en
este punta donde los sístemas SPEER y G EIS descritos por Soledad Bravo
adquieren protagonismo. Dado que han sido perfectamente ciescritos en el
artículo comentado, me limitaré a hacer únicamente unas consideraciones
generales sobre ellos.
Las primeras consideraciones son aplicables a la totalidad de los sistemas generales de depuración actualmente existentes.
1) Los sistemas generales de depuracián son necesarios: reducen costes, tiempo de desarrollo, y lo que es más importante, ofrecen una seguridad de estar libres de errores mucho mayor que los sistemas desarrollados
a medida.
< ^^^ ^t^ ^ t ^k^ir^ti
2) A pesar del calificativo de generaies, los sistemas generales de depuración de datos cuantitativos no son tan "generales"'. Son generales en
cuanto a la posibilidad de aplicación a diferentes estadísticas, pero no cubren todo el proceso de depuración, ni se pueden aplicar a todas las estadísticas.
3) Los sistemas generales descansan sobre modelos de la realidad, en
concreto sobre modelos del tipo de datos a los que se aplican y de los tipos de errores que afectan a dichos datos. Solo tienen valide2 cuando el
modelo en el que están basados es una buena representación de ia realidad. En concreto, tanto GEIS como SPEER suponen que los errores están
distribuidos aleatoriamente y son de poca importancia. Pretender depurar
un fichero de datos con un alto porcentaje de errores utilizando un sistema
general de imputación solo conduce a"inventar" la información obteniendo
resultados poco representativos.
4) Los Sistemas generales actuales limitan su aplicabilidad a la depuración intra-registros, dejando para otras fases de la depuración el tratamiento de la depuración inter-registros.
5) Los Sistemas generales suelen presentar limitaciones prácticas en su
aplicabilidad. Esto es consecuencia tanto de problemas metodológicos
como de potencia de los equipos actuales. En muchos casos es necesario
introducir estrategias que permitan su aplicación a pesar de las limitaciones, como por ejemplo estratificar los datos y aplicar distintos conjuntos de
edits a cada estrato, estratificar las variables y depurarlas por grupos, etc.
Esto hace que en muchos casos sea necesario realizar un irnportante volumen de programación adicional para resolver los problemas no resueltos
por el sistema general. En otros casos lo que producen es una complicación de la ejecución de la tarea de depurar, ai ser necesario manejar distintas aplicaciones, una por cada estrato.
6) Los Sistemas generales se han desarrollado por Oficinas de Estadística para resolver sus propios problemas, no son productos comercializados, no estando en distribución de manera oficial. Presentan problemas de
soporte y en muchos casos de documentación.
7) Los Sistemas generales son costosos de desarrollar. Buena prueba
de ello es el tiempo y recursos dedicados por Statistics ^anadá al desarroIlo de GEIS, que es un sucesor de un proyecto anterior, frustado en cuanto
a resultados prácticos, NEIS, iniciado a finales de los setenta, pero que sola
el desarrollo de la tecnología y de la metodología ha permitido la obtención
de un sistema operativo tras varios años de esfuerzos.
?4f^
^ tir ^^r^isTic^n t ti^^^tic^t ,^
Comentarios particufares sobre SPEER y GEIS
1} Tanto GEIS como SPEER están principalmente orientados a eliminar
los errores residuales por medio de imputacián automática. Este es su
único papel en GEIS, que se F^a desarrollado en Statistics Canadá como un
complemento al Sistema DC2 ^Data Collection and Capture), en el que se
Ilevan a cabo las funciones de entrada, codificación asistida y detección de
observaciones que requieren vuelta al informante. SPEER puede ser utilizado de una forma más amplia pues, aunque no es su objetivo principal, se
puede utilizar como Sistema de entrada, y por supuesto para realizar correcciones interactivas. Otro factor que limita la generalidad de su aplicabilidad es la limitación del tipo de reglas por ellos manejados.
2) SPEER es un sistema incompleto en el sentido de que no cubre
todas las tareas de la depuración, requiere adaptaciones a medida para las
especificaciones y para la imputación. Tiene además la limitación de solo
manejar edits de la razón y de totalización. Sín embargo tiene sus atractivos. Es sencillo, permite la aplicación de la metodologia de Fellegi & Holt
en tada su extensión, pues al utilizar solo edits de la razón la obtención del
conjunto completo de reglas se simplifica de manera decisiva. Además, las
reglas que maneja son las más frecuentes en muchas encuestas económicas. AI estar programado en Fortran, permite su instalación en una amplia
gama de plataformas sin necesidad de realizar inversiones adicionales.
Para resolver sus limitaciones, Soledad Bravo ha trabajado intensamente,
tanto en el Bureau of The Census como en INE, con vistas a proporcionar
un sistema más completo. Fruto de sus trabajos son el Sistema
BNDSPEER, que proporciona intervalos de confianza hasta por cuatro métodos diferentes, para la estratificación seleccionada y para cada función de
las variables de la encuesta. Es un procedimiento muy útil para obtener los
límites de los edits a utilizar con SPEER, así como para integrarse en
cualquier otro procedimiento de depuración. También ha iniciado el proyecto de desarrollar MBSPEER, que además de las funciones de SPEER y
BNDSPEER, proporcionara un interfaz generalizado para e1 usuario, así
como procedimientos generales de imputación.
3) GEIS es un Sistema más elaborado y complejo que SPEER, a pesar
de las lir ^^ii^:cior^tcs cc^ c uanto al tipc de reglas que maneja, con sencillas
transformaciones puede aplicarse a reglas más complejas. AI estar programado en C y SQL-FORMS de ORACLE, es portable a muchas plataformas
hardware, pero requiere disponer tanto de ORACLE, como de SQL-FORMS.
<^^^^^^^^ ^^r^ aKi^^^;
?47
Los Sistemas Generales c!e depuración y el Instituto Nacional de
Estadística.
EI Instituto Nacionai de Estadística de España está interesado, como no
podía ser menos, en el tema de los Sistemas Generales de depuración,
desde hace más de diez años. Desde el I.N.E. se han seguido con interés
los desarrollos teóricos, especialmente de Fellegi y Holt, Sande y posteriormente Greenberg. EI I.N.E. ha sido un miembro activo del Grupo de Trabajo
de Depuración de Datos del Proyecto de Computación Estadística auspíciado por la Comisión Económica para Europa de las Naciones Unidas. En
este grupo se han intercambiado experiencias, se han realizado interesantes discusiones que poco a poco han ido cristalizando en un gran énfasis
en el control del impacto de la depuración en la caiidad de los datos, y una
gran importancia al concepto de macrodepuración. EI I.N.E. ha utilizado en
la depuración de los Censos Generales de los 8o el sistema AERO (1981),
desarrollado por la oficina Central de Estadística de Hungría, y espera
poder utilizar en un futuro los sistemas GEIS y SPEER.
EI I.N.E. por su parte ha desarrollado DIA, un sistema general de depuración de datos cualitativos, García Rubio, E. y Villan, I. (1988 y 1990),
basado en la metodología de Fellegi y Holt, en la que integra el tratamiento
de errores sisternáticos por medio de reglas de imputación determinísticas.
En la actualidad DIA es el único sistema que integra la imputación determinística con la probabilística, y es el sistema de depuración de datos cualitativos que incorpora un analizador de reglas más completo. DIA se viene
utilizando en el I.IV.E. en diferentes estadísticas: Padrón 86, Encuesta de
Población Activa, Defunciones, Fecundidad, Presupuestos Familiares, etc.,
estando prevista su aplicación a los Censos Generales de 1 991, para lo
que se está terminando el desarrollo de la versión 2 de DIA, que incorpora
mejoras metodológicas y operativas sobre la anterior.
REFERENCIAS
AERO
G ENERALIZED
DATA EDITING SYSTEM V.2. System
Philosophy.
Hungarian Centraj 5táii5iicdl Cifii^e.
GARCIA
Rue^o, E. y
VILLAN ,
I. (1988). DIA: Descripción del Sistema.
Instituto Naciónal de Estadística.
GARCiA RuB^o, E. y VILLAN, I. (1990). DIA SYSTEM: Software for the
Automatic ímputation of qualitative data. U. S. 6th Annual Research
Conference Proceedings.
^-LK
I ti l 1T)Iti T I< ^1 F tiP-1`()l •1
G RANQUIST, ^EO^O^D 1^ 990). Macroediting. A review of inethods for razianalizing the editing of survey data quality. ECE/^JNDP/SCP2/DE/WP.67.
LATOUCHE, MICHEL and BERTHE^OT, J. M .
(19901. Use of a score function for
error correction in business surveys at Statistics Canada. lnternational
Conference on Measurement Errors in Surveys. Tucson, Arizona. No-
viembre 12, 1990.
PONS ORDINAS, JuAN (198$y. Praceso de macroedición. Análisis y Transferencias macro-rnicro en la Encuesta lndustrial. Desagregacián en Cascada de Tablas de Series. Instituto Nacional de Estadística, España,
Documento de Trabajo, Diciembre 1988.
( ()ti1E tiT ^^RIOS
^^y
JOHN G. KOVAR
Statistics Canada
En primer lugar quiero agradecer y felicitar a la autora por su magnífica y
completa evaluación del Sistema Generalizado de Edición e Imputación
(G EIS) producido por Statistics Canada. Tanto. la revisión teórica como la
descripción del sistema son completas y precisas. Por todo ello me lim itaré
a dar una breve descripción de los últimos trabajos que con relación a
G EIS se están realizando en Statistics Canada.
Se esta dedicando una considerable cantidad de tiempo a la tarea de
optimizar y ajustar GEIS. Actualmente se está recopilando una documentación muy completa, cubriendo principalmente los aspectos de utilización
del sistemá.
Con relación a las tareas de optimización de G EIS, ahora somos capaces
de hacer que los módulos críticos de GEIS sean lo suficientemente rápidos
para que puedan ejecutarse en el ordenador central grandes aplicaciones,
mientras que la versión DOS de GEIS se reserva a demostraciones, entrenamiento, estudios de evaluación y la producción de estadísticas muy
pequeñas. Por ejemplo, hemos conseguido depurar satisfactoriamente un
fichero de 1 50.000 cuestionarios con alrededor de 30 variables; el rnismo
proceso se repetirá este año con la encuesta en curso. En la actualidad
estamos preparando el proceso del Censo Agrario 1991: ^alrededor de
300.000 registros con 300 variables.
También se han procesado con G EIS varias investigaciones de tamaño
medio; el procesamiento, incluyendo preparación, proceso y evaluación se
ha realizado generalmente en terminos de días. Todas estas aplicaciones
han utilizado el ordenador central. Actualmente estamos intentando procesar una encuesta muy pequeña (400 registros, 10 variables) en el microordenador. Los resultados prelirninares indican que el proceso Ilevará varias
horas en una máquina 386SX.
Con relación al ajuste del Sistema G EIS, su desarrollo se ha dado por
finalizado. Los planes actuales son mantener la presente versión y embarcarnos en nuevos desarrollos únicamente si lo requieren los usuarios. Para
completar la tarea de desarrollo, el equipo G EIS está compilando una serie
de documentos cun vistas a ayudar a los usuarios a decidir. 1) Cuando
GEIS es apropiado para resolver su problema, 2) como realizar la tarea de
especificar y analizar los edits, 3) como trabajar bajo las limitaciones de
GEIS, etc. También se está terminando la elaboración de un docurnento de
la descripción funcional de GEIS, y se está preparando un manual tutorial.
250
FSTADESTIt'^^ E^SF'A!v(^1_A
La última versión de G E I S, G EI S f^.3 utiliza la versión 6 de O RAC l.E, e
incorpora algunas mejoras sobre fas descritas en el documento de Soledad
B ravo. Estas son:
1 ^ EI procedimiento de estimación ejecuta simultáneamente todos fos
métodos de estimación, en fugar de ser necesario aplicar por separado
cada uno de los algoritmos. 2) Se admiten exponentes decimales, entre 0 y
1 en !a detección de outliers por tendencias históricas, 3) es posible almacenar las cl^usulas de excfusión SQL en una tabla con un identificador
asociado, identificador que puede ser utilizadQ en ef futuro en la detección
de outliers, imputación con Donor o imputación por estimación, 4) se han
hecho varias mejoras de presentación en pantallas, mensajes y tablas.
( (1ti1f ti"I ^^RI(1^
?51
JUAN PONS ORDINAS
Instituto Balear de Estadística
Depu^ación de datos Estadísticos
Normalmente, cuando se ha terminado de grabar un censo o encuesta se
tiene la certeza de que existen un número más o menos grande de registros incorrectos, ya sea por falta de respuesta, o porque se ha cumpfimentado rnal el cuestionario.
Existen muchas razones para intentar corregir estos errores, pero quizá la
más importante sea la de obtener una mejor estimación de la realidad.
EI primer paso para la corrección de los errores consiste en su detección.
En general, esta detección es más fácil cuando se tratan datos cualitativos
que cuando se tratan datos cuantitativos. Esto es debido a que en el caso
cuantitativo, muchas veces se debe recurrir a otras observaciones de la
misma encuesta para decidir conjuntos de valores razonables. Por ejemplo:
EI ratio "producción bruta/consumo energía" depende en primer lugar
del tipo de producto que elabore una determinada empresa y en segundo
lugar del grado de mecanización de la empresa. Aún así, no tenemos
ninguna seguridad de que no influyan otros factores. De esta forrna, el
intervalo de aceptación para este ratio, lo tendremos que calcular sobre
grupos de observaciones que presumiblernente sean análogas o parecidas.
Si estas observaciones no son verdaderamente parecidas podernos aceptar
sin darnos cuenta observaciones inválidas o rechazar observaciones válidas.
Por otra parte, en los datos cualitativos, una persona con estudios
superiores tiene que tener necesariamente al menos 22 años y una niña de
13 años casi nunca tendrá hijos al margen de otras observaciones.
EI problema de la detección de los errores cuantitativos se ve agravado
con otro no menos importante: un sólo error en un cuestionario puede
invalidar toda una encuesta, mientras que en los datos cualitatívos no suele
ocurrir.
Una vez que se ha localizado un error se inicia la fase de corrección y/o
imputación. Lo ideal sería volver a-preguntar al informador, no obstante
este proceso es largo, caro y laborioso, y su puesta en práctica puede Ilevar
a considerables retrasos en la finalización de la encuesta o censo incluso a
que la información ya no tenga ningún tipo de interés. La otra alternativa es
utilizar la información redundante en la observación o basarse en observaciones teóricamente análogas a la que contiene el error, ya sean de periodos anteriores o del mismo, pero parecidas.
1 ti 1 t()I^ i l< ^ F^,I^ ^tic)1
Sea cual sea el proceso seguido, al final lo que abtendremos serán unas
observaciones razonablemente correctas.
Llegando a este punto, cabe preguntarse en cuanto ha variado la estimación de la realidad después de este proceso. Si ha variado muy poco la
información antes y después de la corrección y/o imputación seguirá
siendo válida, incluso mejor, al haberse utilizado información redundante o
adicional que no poseen los usuarios de !a estadística. Pero, Ly si ha
variada sustancialmente?. En ese caso, !a única solución es analizar detenidamente tado el proceso y asegurarse de que las correcciones realizadas
van encaminadas hacia un mejor conocimienta de la realidad.
En general, ese conacimiento de la realidad viene explicado en los objetivos de la encuesta y en particular viene expresado a través de las tablas
que se van a publicar.
Esas tablas tienen distintos niveles de desagregación y por lo tanto
distinta composición, lo que nos Ileva a la conclusión de que no todos los
errores son iguales. Por ejemplo, un error de un millón de pesetas no tiene
la más mínima importancia a la hora de estimar la Producción Industrial de
España pero si puede tener muchísima importancia cuando se trata de
estimar la producción en una determinada actividad de una determinada
región y para un determinado tamaño de emprésa.
De todo ello se deduce que la importancia de un error se debe medir en
función del impacto que produce en el dato a publicar, mimando los que
provocan grandes distarsiones y tratando sorneramente los que provocan
pequeñas distorsiones a no ser que estos últimas sean muy numerosos y
en la misma dirección.
En cualquiera de los casos, cabe preguntarse si !os datos son mínimamente fiables cuando difieren en un 50 % antes y después de corregir y/o
imputar en el supuesto que se de por bueno el proceso de corrección.
Resumiendo, un excelente control de calidad para un proceso de depuración consiste en comparar !os datos a publicar antes y después de corregir
y/o imputar y asegurarse de que las correccíones que producen grandes
distorsiones están bien realizadas.
Veamos a cantinuación un método para la detección y corrección de
datos cuantitativos que se ha puesto en práctica en ai Encuesta Industriai
del I.N.E. con resultados muy satisfactorios y que se puede utilizar para la
localización de las correcciones antes mencionadas.
Supongamos que tenemos una idea aproximada de los resultados que se
van a obtener para cualquier nivel de desagregación. Esta información se
('O!^1FtiT ^1K1(>^
?S^
puede obtener a partir de la misma encuesta en periodos anteriores. Si se
producen grandes discrepancias en un determinado valor, se desagrega
este por una determinada variable, por ejemplo por regiones. Si en todas
las regiones se observa la misrna discrepancia, es razonable pensar que
esta es real y no debida a errores en las observaciones. Lo contrario
implicaría que existen muchos cuestionarios con el misrno error y repartidos uniformemente es decir, un error sistemático que tendría que tratarse
aparte. En caso de duda se desagrega cada región por otra variable.
Si solo existe una o varias regiones con grandes discrepancias se vuelve
a aplicar el mismo proceso a cada una de estas regiones desagregando por
otra variable.
AI final de este proceso obtenemos un conjunto más o menos reducido
de cuestionarios que son los causantes de la discrepancia inicial. Analizando estos cuestionarios se podrá comprobar si son correctos y en su caso
corregirlos. Se debe observar que este método solo detecta grandes errores
y que para que funcione correctamente no deben existir errores sisternáticos ya que, al final obtendríamos un número demasiado elevado de observaciones a revisar. De todas formas puede servir para detectar este tipo de
errores.
AI aplicar el proceso, se tiene que tener en cuenta la representatividad de
las desagregaciones en el caso de u na encuesta por muestreo, ya que, la
selección particular de la muestra puede inducir discrepancias solo debidas
a ella.
Este mismo método se puede aplicar para localizar los cuestionarios que
provocan grandes discrepancias entre los datos antes y después de corregir
y/o imputar, con la ventaja de que cualquier desgregación o subpoblación
es siempre representativa a1 cornpararse con ella misma antes y después
del proceso de depu ración.
Por último quisiera hacer una reflexión sobre los procesos de depuración
sin contar para nada con el informante. Estos métodos detectan y corrigen
los datos raros, inesperados, atípicos, presumiblemente erróneos. Sin
embargo estos datos son los que nos pueden informar de que algo raro 0
inesperado y por lo tanto interesante se ha producido o se está produciendo. Volviendo a un ejemplo anterior t-Acaso no existen personas superdotadas con estudios superiores y menores de 22 años?. De esta forma el
exigir que toda persona con estudios superiores debe tener al menos 22
años puede provocar que estemos corrigiendo datos correctos. EI impacto
de estas correcciones indebidas sobre la población total es despr-eciable, no
obstante, debido a la gran difusión que se hace de estos casos excepcionales, puede extrañar a alguien que el número de personas con estudios
f ti1 \I)Itil It •\ f Sf'^\^tll_^\
superiores y edad super^or a 22 años coincida con el número de personas
con estudios superiores. Desde luego, siempre es mejor que ocurra esto a
que se publiquen 300 personas si en realidad solo existen dos o tres.
EI realizar buenas estimaciones sobre subpoblaciones raras o reducidas
es muy difícil, sobre todo si se trata de una encuesta cuantitativa ya que
muchas veces son los mismos datos (correctos o noy de la encuesta los
que determinan el intervalo de aceptacián de un determinado ratio o variable. Si además, la encuesta es por muestreo y/o no disponemos de información auxi0iar para agrupar las observaciones teóricamente parecidas, la
situacián se complica aún más y puede ocurrir que los intervalos de acep^
tacián no se correspondan con la realidad.
Sería interesante saber (especialmente en el caso de datos cuantitativos^
hasta que punto estamos transmitiendo indebidamente un caracter de
normalidad a los datos estadísticos al eiiminar lo anormal (presuntos errores^ si no podemos contar ^on el informante a!a hora de corregir una
observación.
(^(^ti1f^ tiT•^RIOS
^$5
CONTESTACION
En primer lugar quiero agradecer a los señores Ildefonso Villan, John
Kovar y Juan Pons sus comentarios al trabajo sobre " GEIS y SPEER: Dos
Sistemas Generales de Depuración de Datos Cuantitativos". Me alegra, por
fin, ver publicado en la Revista Estadística Española del INE un trabajo
sobre la Depuración de Datos Estadísticos. Es precisamente esta revista el
foro que yo creía más adecuado para la publicación de un artículo sobre^ el
tema. Primero, porque son los estadísticos profesionales, y entre ellos los
estadísticos del I N E, los que cada día tienen que enfrentarse at difícil
problema de dar soluciones técnicas al problema de la detección de errores, corrección de errores e imputación de los datos de sus encuestas.
Segundo, porque el propio I N E ha dedicado especiales recu rsos para investigar sobre métodos y técnicas de depuración de datos.
Si los artículos de Ildefonso Villan y Juan Pons no fuesen comentarios a
mi trabajo, creo que debieran de anteceder a este en el orden de presentación. Ildefonso define perfectamente cual es la problemática de la depuración, que filosofías orientan los trabajos de investigación y que métodos
utilizan las oficinas pioneras en este campo. En este marco, Ildefonso
puntualiza: Los sistemas "generales" de depuración, lo son porque se pueden aplicar a distintas encuestas, PERO no son generaies en cuanto: 1) No
se pueden aplicar a todo tipo de datos. 2) No se pueden aplicar a todo tipo
de errores. Efectivamente. Tanto G EIS como SPEER trabajan solo con
datos continuos; además exigen el cumpfimiento de los supuestos implícitos al modelo teórico que les sirve de soporte. Es decir: Los edits delimitan
correctamente la realidad a analizar; los datos que se respetan en la encuesta son datos verdaderos; ia falta de respuesta y los datos erróneos son
aleatorios. Creo que es oportuno insistir con Ildefonso, y ya lo hago en la
introducción a este trabajo, que los procesos autornáticos de depuración
son la etapa final y residual a los procesos de control de calidad de cada
una de las tareas que se ejecutan en la explotación de los datos de una
encuesta o censo.
^4f^
f tiC ti[311t It ^^ 1^I'^^^1)L 1
Juan Pons subraya la especial complejidad que tiene la detección de
errores y la imputación de datos cuantitativos. Se preocupa Juan, como
experto en temas de depuración, de la importancia relativa de los errores, y
como deben "mimarse`" ios errores que provocan grandes distorsiones,
pasando someramente por los que tiene un impacto menor en los agregados que se publican. Juan Pons se está refiriendo a los métodos que se
utilizan en ios procesos de rnacro-depuración
pracedimientos de selección y control de los errores de las unidades influyenies de una encuesta .
La macro-depuración es una filosofía que ilumina nuevos caminos de investigacián y que, aunque no es esta contestacián el lugar para iniciar una
reflexión sobre la m isma, espero se continúe en esta línea de estudio de
nuevos métodos. Quiero subrayar una idea que se repite en el comentario
de Juan Pons. ^. Los procesos automáticos de detección/imputación de
datos mejoran las estimaciones de una encuesta? ^Se está elevando a
categoría de "realidad" lo inferido por los datos recogidos y depurados de
una encuesta ? La contestación afirmativa a ambas preguntas no es aceptada por todos; en todo caso, los procesos de depuración afectan a los datos
finales obtenidos y es nuestra responsabilidad el cuidar y medir el impacto
de nuestro trabajo en los rnismos.
Mr. Kovar resume los ajustes realizados al sistema G EIS y destaca
algunas de las encuestas que se han depurado con GEIS. Desde mi visita a
Statistic Canada, visita que me permitió conocer la metodología de G EI S y
escribir el trabajo que aquí se publica, ha pasado bastante tiempo. A partir
de las aplicaciones procesadas con G EIS, se están publicando numerosos
trabajos de evaluación del srstema. Remito a los interesados en los sistemas "generales" de depuración, al estudio y análisis de estos documentos.
Finalizo como he empezado: Agradeciendo, ahora, a la revista Estadística
Española la publicación de mi trabajo. Espero que en sucesivos números
aparezcan publicados otros artículos que, me costa, se han escrito desde
otras ópticas de la depuración de datos.
Descargar