Calidad de los datos en la interacción con las entidades y en la publicación de los conjuntos de datos Estrategia de Gobierno en línea del Ministerio de Tecnologías de la Información y las Comunicaciones. Alexander Riascos Riascos Raúl Alberto Ruíz Profesional Senior – CINTEL Profesional Acompañamiento – CINTEL Carrera 14 # 99-33 Oficina 505 Carrera 14 # 99-33 Oficina 505 (+571) 3004856738 (+571) 3143699361 Bogotá – Colombia Bogotá - Colombia [email protected] [email protected] trillion or more.”[5] – Larry English, Information Impact International RESUMEN El presente documento contiene una introducción a los análisis de los datos de acceso público que actualmente poseen las entidades del Estado Colombiano, registrados en el portal datos.gov.co. Además algunas consideraciones sobre los servicios publicados en el directorio de servicios de intercambio de información, lugares dispuestos para facilitar el acceso a la información del gobierno según el caso. El análisis realizado en este documento tiene como base, el uso de técnicas para la detección de problemas de calidad de los datos, teniendo en cuenta el modelo de datos abiertos para Colombia y los objetivos que se esperan con su implementación “Apoyar la generación de progreso económico y social en el país por medio del acceso y uso de la información pública por parte de los ciudadanos y empresas, para que sea utilizada o transformada para la generación de servicios de gobierno que generen valor a la sociedad en general”1. Esta premisa obliga a contar con estrategias claras que ayuden a mitigar los problemas de calidad de datos encontrados en la gran mayoría de las empresas e instituciones en el mundo. La calidad de los datos en las entidades públicas es una premisa que permite que el Estado tome mejores decisiones en la definición y desarrollo de políticas públicas y garantice los principios de Gobierno en línea: “eficiencia, transparencia y provisión de servicios.”1 La ley 1712 de 2014, de transparencia y acceso a la información, define información en su artículo 6 como “un conjunto organizado de datos contenido en cualquier documento que los sujetos obligados generen, obtengan, adquieran, transformen o controlen”2. En el artículo 3 de la misma ley, se define el principio de la calidad de la información así: “Toda la información de interés público que sea producida, gestionada y difundida por el sujeto obligado, deberá ser oportuna, objetiva, veraz, completa, reutilizable, procesable y estar disponible en formatos accesibles para los solicitantes e interesados en ella, teniendo en cuenta los procedimientos de gestión documental de la respectiva Entidad” 3 Por otro lado, para poder intercambiar esta información entre entidades, debe ser utilizado el lenguaje común de intercambio de información que se interpreta como “el estándar definido por el Estado Colombiano para intercambiar información entre organizaciones, facilitando Palabras Clave – Datos abiertos, Calidad en los datos abiertos, Calidad de los datos, Calidad en los servicios de intercambio de información. 1 Principios de Gobierno en línea a nivel territorial página 9 http://goo.gl/NU3wRX 2 Ley de transparencia y acceso http://goo.gl/R2dStJ a la información - 3 Ley de transparencia y acceso http://goo.gl/R2dStJ a la información - 1. INTRODUCCIÓN “Process failure and information scrap and rework caused by defective information costs the United States alone $1.5 el entendimiento de los involucrados en los procesos de intercambio de información”4. Migración a nuevos sistemas ¿Cuándo hacer calidad de los datos? Esta es una actividad que se debe hacer permanentemente 2. MARCO CONCEPTUAL Se debe entender la información como uno de los activos más importantes de las organizaciones, por lo cual se debe garantizar la calidad de la misma creando estrategias que permitan certificar los datos generados, en otras palabras, no contar con procesos de calidad de los datos, genera costos adicionales en la operación de las organizaciones. Por ejemplo, en análisis realizados a los datos de las organizaciones se evidencia que: ¿Cómo hacer calidad de los datos? La manera más recomendada es hacerlo de forma incremental, existen diferentes metodologías y técnicas para hacer perfilamiento de datos que pueden ayudar a mejorar la calidad de los datos. Herramientas que pueden ayudar en el perfilamiento5 de datos: Oracle – Warehouse builder (OWB) Data profile task (SSIS de SQL Server 2008) “Los problemas relacionados con la mala calidad de los datos pueden costar alrededor del 10% de los beneficios de una compañía.”[1][2] SAS data Quality Ataccama - (DQ Analyzer) “Las compañías pierden alrededor del 25% del tiempo manejando reclamaciones de los clientes por datos errados”.[1][2] Talend Open Studio / Talend open profiler “El 15% de los datos de una típica base de datos de clientes son erróneos”. [1][2] Bajo esta perspectiva no se puede negar la importancia de contar con estrategias claras que permitan administrar el riesgo que sería para las entidades no controlar la calidad de los datos. A continuación se describen algunas causas de los problemas en los datos: Cambios en la dinámica del negocio La entidad realizó cambios en sus procesos y/o procedimientos. Unión entre entidades. Nuevos requerimientos externos o nuevas leyes. Descontrol de aplicaciones o Bases de datos Diferentes áreas de las entidades creando sus o adquiriendo sus propias aplicaciones, con o sin conocimiento de TI. Dando lugar a datos desestandarizados y desnormalizados. Los usuarios copian y crean datos en sus PC’s que no son mantenidos por TI, no cuentan con validaciones suficientes etc… Nota: Contar con un experto y aplicar una metodología evitará problemas mayores. En contraste con la normatividad existente, las mejores prácticas y los escenarios de organizaciones que han desarrollado he implementado iniciativas de calidad de los datos, se analizaran los criterios definidos para la calidad de los datos en los dataset publicados. La siguiente es una relación de los criterios de calidad formulados para la iniciativa de datos abiertos en Colombia enfocándose en la definición de aquellos que se examinarán en esté paper: Exactitud: la entidad que publica los datos debe garantizar que los mismos describen correctamente la información que está siendo abierta y refleja correctamente la situación del negocio, sector o ámbito que se está manejando. Totalidad: se debe garantizar que los datos publicados están completos de acuerdo al periodo de actualización definido y a la información que está siendo publicada. Oportunidad: la entidad debe garantizar la actualización de los datos una vez publicados independiente del mecanismo de publicación seleccionado. La oportunidad de actualización debe corresponder a la frecuencia de cambio de los datos que fueron publicados. Consistencia: la información publicada debe ser consistente con anteriores conjuntos de datos que se hayan publicado. En caso en que se detecte un error relacionado con otros conjuntos de datos, la entidad deberá proceder a actualizar y corregir dicho conjunto de datos. Factor herencia 5 4 Lenguaje Común de intercambio de información – Conceptos Generales - http://goo.gl/teRwRR Perfilamiento: es el análisis los datos a considerar, para entender su estructura, contenido, dependencia, calidad, atributos y características especiales del mismo. Formatos Permitidos: los siguientes son los formatos en los que se permite publicar información: XLS6, ODF5, CSV5, XML5, JSON5, TXT5, RDF-XML5, KML-KMZ5. Alineación con lenguaje común de Intercambio: los metadatos deberán estar semánticamente alineados y mapeado con los conceptos definidos en el lenguaje común de intercambio. Las anteriores definiciones comprenden los criterios de calidad de los datos formulados para la iniciativa de datos abiertos en Colombia; sin embargo, para hacer un análisis detallado de los datos existentes en cada dataset también se tendrán en cuenta las siguientes variables para el análisis: Valores faltantes: los datos publicados deben estar completos de acuerdo a la estructura publicada. Valores inconsistentes: los datos publicados contienen el mismo formato, además de su concordancia con la descripción principal. Valores duplicados: los datos son libres de repeticiones cuando se representan en su forma compacta. 3. CONTEXTO NACIONAL Las organizaciones invierten mucho dinero y esfuerzo para mejorar sus procesos, productos, y servicios, por lo que en ocasiones este esfuerzo se ve minimizado por la falta de calidad en la información que se trata en las diferentes actividades de la organización. En otras palabras la información es origen de muchas dificultades en las organizaciones del mundo, si no tenemos un buen control de ella. Por eso requiere una especial atención en el proceso de recolección. Colombia no está exenta de este problema; aunque no existe un dato oficial que indique el porcentaje de datos erróneos en las bases de datos, si contamos con casos reales que permiten vislumbrar el estado de la misma. Por ejemplo ¿Quién no ha tenido o conoce a alguien que haya tenido problemas con errores de información en fechas, nombres incompletos, información que cambió y no fue actualizada, informes del mismo periodo en diferentes áreas de la organización con valores que no coinciden etc.? Es decir la información publicada para ser utilizada por el ciudadano, la empresa privada y otras entidades del Estado Colombiano, puede afectar la forma en la que se diseñan las políticas públicas “que generan servicios de valor agregado para los ciudadanos”7, los costos de las 6 Entregable no. 2 análisis de prospectiva en interoperabilidad y estándares gel - http://bit.ly/WDsT83 7 Manual de Gobierno en línea 3.1 - http://goo.gl/KxOZ5Q organizaciones, la imagen, el nivel de satisfacción de los ciudadanos y por lo tanto el nivel de aceptación. Finalmente, la calidad de los datos es observada en el componente de Transformación de la Estrategia de Gobierno en línea en la cual las entidades del Estado realizan cambios operativos para eliminar los límites con otras entidades y organizar sus trámites y servicios alrededor de necesidades de ciudadanos y empresas, lo que implica el desarrollo de cadenas de trámites, el intercambio eficiente de información y el desarrollo de nuevas aplicaciones que tienen como objetivo final mejorar el estilo de vida de los ciudadanos. 3.1 Análisis calidad de datos al portal del Estado Colombiano La figura 1, muestra el estado actual de los conjuntos de datos publicados en el portal del Estado colombiano frente a los diferentes criterios del análisis de calidad de datos, tomando como referencia 40 dataset publicados en el portal, a los cuales se les realizó un análisis de las variables descritas anteriormente; y el apoyo de herramientas como DQ Analizer y FRIL: Figura 1, Resultado análisis calidad de datos en el portal del Estado colombiano datos.gov.co. Exactitud Totalidad Oportunidad Baja Alta Media Consistencia Alineación con GelXML Formatos permitidos Baja Baja Baja Fuente: Cintel Para el análisis se tomaron dataset de los siguientes sectores: Ciencia, Económica y comercial, Movilidad y transporte, Social, Datos administrativos, Comercio, Movilidad y transporte, Educación, Salud, Estadística, Ambiente, Función pública, Vivienda, Agricultura y desarrollo. Figura 2. Muestra dataset utilizados en el perfilamiento de los datos Sectores Nombre Dataset Agricultura y Desarrollo Rural Clasificación y tipificación de necesidades rurales Ambiente Proyectos Mineros del Valle del Sinú y San Jorge Ambiente Puntos Postconsumo Sectores el Ministerio TIC, requieren encontrar una información clara, bien estructurada que permita ser explotada sin necesidad de ser reprocesada y/o manipulada por personas que no son los dueños de los datos, esto fortalece la necesidad de requerir una comunicación efectiva con el responsable del dato al interior de las entidades que pueda resolver las inquietudes que dicha información genere a las organizaciones y/o grupos externos. Nombre Dataset Ciencia Diagnósticos emitidos Ciencia Datos sivigila por departamento y municipio de procedencia Comercio Sitios turísticos de Castilla la Nueva Datos Administrativos Cooperación Sur-Sur y Triangular Datos Administrativos Directorio de la Gobernación del Cauca 2013 Económica y Comercial Vehículos Quindío Económica y Comercial Directorio de Artesanos del Tolima Educación Información de los Programas de educación superior Educación Instituciones Educativas del municipio de Saboyá Estadística Corporación autónoma de caldas Función publica Coordinación Interinstitucional Función publica Directorio de Entidades Principales Movilidad y Transporte Sitrans_Shapes Movilidad y Transporte Vías del municipio de Oicatá Movilidad y Transporte Vías terciarias del municipio de siachoque Movilidad y Transporte Registro nacional de accidentes de transito Salud Indicadores de Salud Salud Medicamentos del POS Social Atencion_Reparacion_Integral_Victimas.hechospord epto Social Videos Golombiao Vivienda Mi Vivienda en Línea Fuente: datos.gov.co Los dataset seleccionados hacen parte de la información existente en el portal del Estado Colombiano datos.gov.co. Evidenciada la necesidad de realizar procesos de calidad de datos a la información que se publica en el portal del Estado Colombiano, es recomendable que algunas entidades implementen calidad de datos antes de publicar su información. De otro modo sería el destinatario (Desarrollador, Empresa, Ciudadano) quien manipularía los datos, esto puede causar problemas mayores; por lo cual se recomienda a las entidades que actualmente publican datos o están en proceso de publicación crear actividades de calidad de datos e indicadores que permitan identificar y corregir la información generada y publicada en el portal. 5. RECOMENDACIONES Desde el punto de vista de consumo de los datos existente en el portal del estado colombiano datos.gov.co es imprescindible garantizar la calidad de los datos que posteriormente se utilizaran para generar aplicaciones y/o nuevos modelos de negocio en organizaciones diferentes a las generadoras de dicha información, por lo cual sería recomendable controlar por lo menos con las siguientes características: Metadatos: el conjunto de datos reportado debe especificar qué datos son obligatorios y cuáles no, tipo de dato, etc. Considerando la creciente demanda en el desarrollo de aplicaciones móviles en Colombia, detectar y corregir los datos que se publican para su posterior uso en el desarrollo de nuevas soluciones móviles hace parte fundamental de la estrategia. Históricos: el conjunto de datos existente en el portal cuenta con información anterior, especificar cuáles poseen datos históricos y como se obtienen. Formatos: Permitir la carga de los diferentes formatos establecidos en el manual GEL 3.1. En el marco de las actividades administradas por el Ministerio TIC como (Hackathon, Grupos universitarios, Colciencias, etc.) se evidencio lo siguiente: Validar la utilización del lenguaje GEL-XML en la construcción de los conjuntos de datos publicados. Generar alertas de los conjuntos de datos desactualizados. 4. LECCIONES APRENDIDAS Los problemas de calidad de datos identificados en el proceso desarrollo se solucionan efectivamente gracias al acercamiento inmediato de las entidades generadoras de los retos con los desarrolladores. La empresa privada o grupos de desarrolladores que no participan de los eventos organizados por Desde el punto de vista de generación de conjuntos de datos y servicios de intercambio de información por parte de las entidades, sería recomendable contar por lo menos con los siguientes controles: Actualizar los responsables o contactos de los servicios de intercambio de información publicados y/o conjuntos de datos publicados una vez estos cambien. Generar indicadores internos de calidad de datos que permitan monitorear la calidad de información generada al exterior de la entidad inicialmente. Asignar responsables de los datos a publicar al interior de la entidad, que puedan tomar acción de los datos erróneos y generar soluciones a los problemas encontrados. 6. REFERENCIAS [1] Universidad Pontifica Bolivariana, Colombia, “Técnicas para la detección de problemas de calidad de datos (2013)”, Iván Amón Uribe MSc. [2] Universidad Pontifica Bolivariana, Colombia, “Introducción a la calidad de datos (2013)”, Iván Amón Uribe MSc. [3] Ministerio de las Tecnologías de la Información para la Comunicaciones, Colombia, “Lineamientos para la implementación de datos abiertos en Colombia”,[Online], bit.ly/1pzxsbC [4] Ministerio de las Tecnologías de la Información para la Comunicaciones, Colombia, "Lenguaje Común de Intercambio de Información", [Online], Available: bit.ly/1m1RY71 [5] “The Four Stages of Data Maturity”, page 2; English, Larry. “Plain English about Information Quality: Information Quality Tipping Point.” DM Review, July 2007