http://centrodeinnovacion.gobiernoenlinea.gov.co/sites/default/files/3_p...

Anuncio
Calidad de los datos en la interacción con las entidades y en la
publicación de los conjuntos de datos
Estrategia de Gobierno en línea del Ministerio de Tecnologías de la Información y las Comunicaciones.
Alexander Riascos Riascos
Raúl Alberto Ruíz
Profesional Senior – CINTEL Profesional Acompañamiento – CINTEL
Carrera 14 # 99-33 Oficina 505 Carrera 14 # 99-33 Oficina 505
(+571) 3004856738
(+571) 3143699361
Bogotá – Colombia
Bogotá - Colombia
[email protected]
[email protected]
trillion or more.”[5] – Larry English, Information Impact
International
RESUMEN
El presente documento contiene una introducción a los
análisis de los datos de acceso público que actualmente
poseen las entidades del Estado Colombiano, registrados en
el portal datos.gov.co. Además algunas consideraciones
sobre los servicios publicados en el directorio de servicios
de intercambio de información, lugares dispuestos para
facilitar el acceso a la información del gobierno según el
caso.
El análisis realizado en este documento tiene como base, el
uso de técnicas para la detección de problemas de calidad
de los datos, teniendo en cuenta el modelo de datos abiertos
para Colombia y los objetivos que se esperan con su
implementación “Apoyar la generación de progreso
económico y social en el país por medio del acceso y uso
de la información pública por parte de los ciudadanos y
empresas, para que sea utilizada o transformada para la
generación de servicios de gobierno que generen valor a la
sociedad en general”1.
Esta premisa obliga a contar con estrategias claras que
ayuden a mitigar los problemas de calidad de datos
encontrados en la gran mayoría de las empresas e
instituciones en el mundo.
La calidad de los datos en las entidades públicas es una
premisa que permite que el Estado tome mejores decisiones
en la definición y desarrollo de políticas públicas y
garantice los principios de Gobierno en línea: “eficiencia,
transparencia y provisión de servicios.”1
La ley 1712 de 2014, de transparencia y acceso a la
información, define información en su artículo 6 como “un
conjunto organizado de datos contenido en cualquier
documento que los sujetos obligados generen, obtengan,
adquieran, transformen o controlen”2.
En el artículo 3 de la misma ley, se define el principio de la
calidad de la información así: “Toda la información de
interés público que sea producida, gestionada y difundida
por el sujeto obligado, deberá ser oportuna, objetiva, veraz,
completa, reutilizable, procesable y estar disponible en
formatos accesibles para los solicitantes e interesados en
ella, teniendo en cuenta los procedimientos de gestión
documental de la respectiva Entidad” 3
Por otro lado, para poder intercambiar esta información
entre entidades, debe ser utilizado el lenguaje común de
intercambio de información que se interpreta como “el
estándar definido por el Estado Colombiano para
intercambiar información entre organizaciones, facilitando
Palabras Clave – Datos abiertos, Calidad en los datos
abiertos, Calidad de los datos, Calidad en los servicios de
intercambio de información.
1
Principios de Gobierno en línea a nivel territorial página 9 http://goo.gl/NU3wRX
2
Ley de transparencia y acceso
http://goo.gl/R2dStJ
a la información
-
3
Ley de transparencia y acceso
http://goo.gl/R2dStJ
a la información
-
1. INTRODUCCIÓN
“Process failure and information scrap and rework caused
by defective information costs the United States alone $1.5
el entendimiento de los involucrados en los procesos de
intercambio de información”4.

Migración a nuevos sistemas
¿Cuándo hacer calidad de los datos?
Esta es una actividad que se debe hacer permanentemente
2. MARCO CONCEPTUAL
Se debe entender la información como uno de los activos
más importantes de las organizaciones, por lo cual se debe
garantizar la calidad de la misma creando estrategias que
permitan certificar los datos generados, en otras palabras,
no contar con procesos de calidad de los datos, genera
costos adicionales en la operación de las organizaciones.
Por ejemplo, en análisis realizados a los datos de las
organizaciones se evidencia que:



¿Cómo hacer calidad de los datos?
La manera más recomendada es hacerlo de forma
incremental, existen diferentes metodologías y técnicas para
hacer perfilamiento de datos que pueden ayudar a mejorar
la calidad de los datos.
Herramientas que pueden ayudar en el perfilamiento5 de
datos:

Oracle – Warehouse builder (OWB)

Data profile task (SSIS de SQL Server 2008)
“Los problemas relacionados con la mala calidad
de los datos pueden costar alrededor del 10% de
los beneficios de una compañía.”[1][2]

SAS data Quality

Ataccama - (DQ Analyzer)
“Las compañías pierden alrededor del 25% del
tiempo manejando reclamaciones de los clientes
por datos errados”.[1][2]

Talend Open Studio / Talend open profiler
“El 15% de los datos de una típica base de datos
de clientes son erróneos”. [1][2]
Bajo esta perspectiva no se puede negar la importancia de
contar con estrategias claras que permitan administrar el
riesgo que sería para las entidades no controlar la calidad
de los datos.
A continuación se describen algunas causas de los
problemas en los datos:
 Cambios en la dinámica del negocio

La entidad realizó cambios en sus
procesos y/o procedimientos.

Unión entre entidades.

Nuevos requerimientos externos o nuevas
leyes.
 Descontrol de aplicaciones o Bases de datos

Diferentes áreas de las entidades creando
sus o adquiriendo sus propias
aplicaciones, con o sin conocimiento de
TI.
Dando
lugar
a
datos
desestandarizados y desnormalizados.

Los usuarios copian y crean datos en sus
PC’s que no son mantenidos por TI, no
cuentan con validaciones suficientes
etc…
Nota: Contar con un experto y aplicar una metodología
evitará problemas mayores.
En contraste con la normatividad existente, las mejores
prácticas y los escenarios de organizaciones que han
desarrollado he implementado iniciativas de calidad de los
datos, se analizaran los criterios definidos para la calidad de
los datos en los dataset publicados.
La siguiente es una relación de los criterios de calidad
formulados para la iniciativa de datos abiertos en Colombia
enfocándose en la definición de aquellos que se examinarán
en esté paper:
Exactitud: la entidad que publica los datos debe garantizar
que los mismos describen correctamente la información que
está siendo abierta y refleja correctamente la situación del
negocio, sector o ámbito que se está manejando.
Totalidad: se debe garantizar que los datos publicados
están completos de acuerdo al periodo de actualización
definido y a la información que está siendo publicada.
Oportunidad: la entidad debe garantizar la actualización
de los datos una vez publicados independiente del
mecanismo de publicación seleccionado. La oportunidad de
actualización debe corresponder a la frecuencia de cambio
de los datos que fueron publicados.
Consistencia: la información publicada debe ser
consistente con anteriores conjuntos de datos que se hayan
publicado. En caso en que se detecte un error relacionado
con otros conjuntos de datos, la entidad deberá proceder a
actualizar y corregir dicho conjunto de datos.
 Factor herencia
5
4
Lenguaje Común de intercambio de información – Conceptos
Generales - http://goo.gl/teRwRR
Perfilamiento: es el análisis los datos a considerar, para entender
su estructura, contenido, dependencia, calidad, atributos y
características especiales del mismo.
Formatos Permitidos: los siguientes son los formatos en
los que se permite publicar información: XLS6, ODF5,
CSV5, XML5, JSON5, TXT5, RDF-XML5, KML-KMZ5.
Alineación con lenguaje común de Intercambio: los
metadatos deberán estar semánticamente alineados y
mapeado con los conceptos definidos en el lenguaje común
de intercambio.
Las anteriores definiciones comprenden los criterios de
calidad de los datos formulados para la iniciativa de datos
abiertos en Colombia; sin embargo, para hacer un análisis
detallado de los datos existentes en cada dataset también se
tendrán en cuenta las siguientes variables para el análisis:
Valores faltantes: los datos publicados deben estar
completos de acuerdo a la estructura publicada.
Valores inconsistentes: los datos publicados contienen el
mismo formato, además de su concordancia con la
descripción principal.
Valores duplicados: los datos son libres de repeticiones
cuando se representan en su forma compacta.
3. CONTEXTO NACIONAL
Las organizaciones invierten mucho dinero y esfuerzo para
mejorar sus procesos, productos, y servicios, por lo que en
ocasiones este esfuerzo se ve minimizado por la falta de
calidad en la información que se trata en las diferentes
actividades de la organización. En otras palabras la
información es origen de muchas dificultades en las
organizaciones del mundo, si no tenemos un buen control
de ella. Por eso requiere una especial atención en el proceso
de recolección.
Colombia no está exenta de este problema; aunque no
existe un dato oficial que indique el porcentaje de datos
erróneos en las bases de datos, si contamos con casos reales
que permiten vislumbrar el estado de la misma.
Por ejemplo ¿Quién no ha tenido o conoce a alguien que
haya tenido problemas con errores de información en
fechas, nombres incompletos, información que cambió y no
fue actualizada, informes del mismo periodo en diferentes
áreas de la organización con valores que no coinciden etc.?
Es decir la información publicada para ser utilizada por el
ciudadano, la empresa privada y otras entidades del Estado
Colombiano, puede afectar la forma en la que se diseñan las
políticas públicas “que generan servicios de valor
agregado para los ciudadanos”7, los costos de las
6
Entregable no. 2 análisis de prospectiva en interoperabilidad y
estándares gel - http://bit.ly/WDsT83
7
Manual de Gobierno en línea 3.1 - http://goo.gl/KxOZ5Q
organizaciones, la imagen, el nivel de satisfacción de los
ciudadanos y por lo tanto el nivel de aceptación.
Finalmente, la calidad de los datos es observada en el
componente de Transformación de la Estrategia de
Gobierno en línea en la cual las entidades del Estado
realizan cambios operativos para eliminar los límites con
otras entidades y organizar sus trámites y servicios
alrededor de necesidades de ciudadanos y empresas, lo que
implica el desarrollo de cadenas de trámites, el intercambio
eficiente de información y el desarrollo de nuevas
aplicaciones que tienen como objetivo final mejorar el
estilo de vida de los ciudadanos.
3.1 Análisis calidad de datos al portal del
Estado Colombiano
La figura 1, muestra el estado actual de los conjuntos de
datos publicados en el portal del Estado colombiano frente
a los diferentes criterios del análisis de calidad de datos,
tomando como referencia 40 dataset publicados en el
portal, a los cuales se les realizó un análisis de las variables
descritas anteriormente; y el apoyo de herramientas como
DQ Analizer y FRIL:
Figura 1, Resultado análisis calidad de datos en el portal del
Estado colombiano datos.gov.co.
Exactitud
Totalidad
Oportunidad
Baja
Alta
Media
Consistencia
Alineación con GelXML
Formatos permitidos
Baja
Baja
Baja
Fuente: Cintel
Para el análisis se tomaron dataset de los siguientes
sectores: Ciencia, Económica y comercial, Movilidad y
transporte, Social, Datos administrativos, Comercio,
Movilidad y transporte, Educación, Salud, Estadística,
Ambiente, Función pública, Vivienda, Agricultura y
desarrollo.
Figura 2. Muestra dataset utilizados en el perfilamiento de
los datos
Sectores
Nombre Dataset
Agricultura y Desarrollo
Rural
Clasificación y tipificación de necesidades rurales
Ambiente
Proyectos Mineros del Valle del Sinú y San Jorge
Ambiente
Puntos Postconsumo
Sectores
el Ministerio TIC, requieren
encontrar una
información clara, bien estructurada que permita
ser explotada sin necesidad de ser reprocesada y/o
manipulada por personas que no son los dueños de
los datos, esto fortalece la necesidad de requerir
una comunicación efectiva con el responsable del
dato al interior de las entidades que pueda resolver
las inquietudes que dicha información genere a las
organizaciones y/o grupos externos.
Nombre Dataset
Ciencia
Diagnósticos emitidos
Ciencia
Datos sivigila por departamento y municipio de
procedencia
Comercio
Sitios turísticos de Castilla la Nueva
Datos Administrativos
Cooperación Sur-Sur y Triangular
Datos Administrativos
Directorio de la Gobernación del Cauca 2013
Económica y Comercial
Vehículos Quindío
Económica y Comercial
Directorio de Artesanos del Tolima
Educación
Información de los Programas de educación superior
Educación
Instituciones Educativas del municipio de Saboyá
Estadística
Corporación autónoma de caldas
Función publica
Coordinación Interinstitucional
Función publica
Directorio de Entidades Principales
Movilidad y Transporte
Sitrans_Shapes
Movilidad y Transporte
Vías del municipio de Oicatá
Movilidad y Transporte
Vías terciarias del municipio de siachoque
Movilidad y Transporte
Registro nacional de accidentes de transito
Salud
Indicadores de Salud
Salud
Medicamentos del POS
Social
Atencion_Reparacion_Integral_Victimas.hechospord
epto
Social
Videos Golombiao
Vivienda
Mi Vivienda en Línea
Fuente: datos.gov.co
Los dataset seleccionados hacen parte de la información
existente en el portal del Estado Colombiano datos.gov.co.

Evidenciada la necesidad de realizar procesos de
calidad de datos a la información que se publica en
el portal del Estado Colombiano, es recomendable
que algunas entidades implementen calidad de
datos antes de publicar su información. De otro
modo sería el destinatario (Desarrollador,
Empresa, Ciudadano) quien manipularía los datos,
esto puede causar problemas mayores; por lo cual
se recomienda a las entidades que actualmente
publican datos o están en proceso de publicación
crear actividades de calidad de datos e indicadores
que permitan identificar y corregir la información
generada y publicada en el portal.
5. RECOMENDACIONES
Desde el punto de vista de consumo de los datos existente
en el portal del estado colombiano datos.gov.co es
imprescindible garantizar la calidad de los datos que
posteriormente se utilizaran para generar aplicaciones y/o
nuevos modelos de negocio en organizaciones diferentes a
las generadoras de dicha información, por lo cual sería
recomendable controlar por lo menos con las siguientes
características:

Metadatos: el conjunto de datos reportado debe
especificar qué datos son obligatorios y cuáles no,
tipo de dato, etc.
Considerando la creciente demanda en el desarrollo de
aplicaciones móviles en Colombia, detectar y corregir los
datos que se publican para su posterior uso en el desarrollo
de nuevas soluciones móviles hace parte fundamental de la
estrategia.

Históricos: el conjunto de datos existente en el
portal cuenta con información anterior, especificar
cuáles poseen datos históricos y como se obtienen.

Formatos: Permitir la carga de los diferentes
formatos establecidos en el manual GEL 3.1.
En el marco de las actividades administradas por el
Ministerio TIC como (Hackathon, Grupos universitarios,
Colciencias, etc.) se evidencio lo siguiente:

Validar la utilización del lenguaje GEL-XML en la
construcción de los conjuntos de datos publicados.

Generar alertas de los conjuntos de datos
desactualizados.
4. LECCIONES APRENDIDAS


Los problemas de calidad de datos identificados en
el proceso desarrollo se solucionan efectivamente
gracias al acercamiento inmediato de las entidades
generadoras de los retos con los desarrolladores.
La empresa privada o grupos de desarrolladores
que no participan de los eventos organizados por
Desde el punto de vista de generación de conjuntos de
datos y servicios de intercambio de información por parte
de las entidades, sería recomendable contar por lo menos
con los siguientes controles:

Actualizar los responsables o contactos de los
servicios de intercambio de información
publicados y/o conjuntos de datos publicados una
vez estos cambien.

Generar indicadores internos de calidad de datos
que permitan monitorear la calidad de información
generada al exterior de la entidad inicialmente.

Asignar responsables de los datos a publicar al
interior de la entidad, que puedan tomar acción de
los datos erróneos y generar soluciones a los
problemas encontrados.
6. REFERENCIAS
[1] Universidad Pontifica Bolivariana, Colombia, “Técnicas para
la detección de problemas de calidad de datos (2013)”, Iván
Amón Uribe MSc.
[2] Universidad Pontifica Bolivariana, Colombia, “Introducción
a la calidad de datos (2013)”, Iván Amón Uribe MSc.
[3] Ministerio de las Tecnologías de la Información para la
Comunicaciones, Colombia, “Lineamientos para la
implementación de datos abiertos en Colombia”,[Online],
bit.ly/1pzxsbC
[4] Ministerio de las Tecnologías de la Información para la
Comunicaciones, Colombia, "Lenguaje Común de
Intercambio de Información", [Online], Available:
bit.ly/1m1RY71
[5] “The Four Stages of Data Maturity”, page
2; English, Larry. “Plain English about
Information Quality: Information Quality
Tipping Point.” DM Review, July 2007
Descargar