AnálisiS COMPARATIVO de los metadatos distribuIdos por

Anuncio
ANÁLISIS COMPARATIVO DE LOS METADATOS DISTRIBUIDOS POR LAS
IDE AUTONÓMICAS.
Paula Diaz1, Joan Masó2 y Alaitz Zabala1
1
Departamento de Geografía de la Universidad Autónoma de Barcelona.
2
Centro de Investigación Ecológica y Aplicaciones Forestales (CREAF)
En la última década la distribución del dato geográfico ha experimentado una renovación.
Las librerías de datos espaciales, los geoportales y la diversificación de datos geográficos
dan buena cuenta de ello. La diversificación de los orígenes de datos ha forzado la
aparición de los catálogos de datos y servicios. En este sentido, la iniciativa INSPIRE
aboga, desde 2002, por una ampliación de los geoservicios que hagan posible la
Infraestructura de Datos Espaciales de Europa donde los catálogos de datos y de servicios
tendrán un papel fundamental.
Misiones básicas de una IDE son la publicación de datos geográficos, la integración y la
transferencia de los mismos evitando su duplicación. Los metadatos juegan un papel
relevante en el proceso de selección, transferencia y manipulación del dato geográfico.
Veinte años después de la creación de las primeras IDE se ha alcanzado un nivel de
producción de datos y metadatos abundante y variado por parte de la mayoría de
productores. En el contexto actual de los Sistemas de Información Geográfica, son
diversos los estudios que evalúan no sólo el hacer, sino el saber hacer, la calidad en los
metadatos. Por ello se ha empezado a señalar a éstos como responsables, en parte
importante, del éxito en las búsquedas en catálogos de datos.
Simultáneamente a la aprobación de la ISO 19115 aparecieron algunas herramientas
independientes que facilitaban la elaboración de metadatos. Estas herramientas han
incorporado mecanismos para detectar los errores y facilitar su corrección. Un paso
adelante en este sentido consiste en agilizar la creación de elevados volúmenes de
documentos de metadatos, operación que permiten los programas de extracción automática
de metadatos desde los mismos datos. Estos programas, además, realizan documentos de
metadatos de forma estandarizada. Sin embargo, la generación de metadatos continúa
siendo un proceso costoso y metódico que depende de la buena voluntad del productor.
Nuestro estudio surge de la voluntad de analizar la presencia de errores en los documentos
de metadatos, su naturaleza y proporción. Este resumen presenta un estudio que analiza los
metadatos del catálogo de la Infraestructura de Datos Espaciales de Cataluña (IDEC) y
propone la realización de un estudio comparativo con alguna otra IDE autonómica que
será presentado en la ponencia definitiva. El proceso para alcanzar estos objetivos consiste
en la extracción masiva de todos los metadatos del catálogo en formato XML de la ISO
19139 y el análisis exhaustivo del contenido de los mismos. Una vez obtenidos, se extraen
la totalidad de los elementos obligatorios, además de aquellos opcionales considerados de
relevada importancia para la comprensión del dato geográfico. La información se vuelca
sobre una base de datos, la cual contiene los elementos obligatorios y opcionales como
campos, mientras que los registros corresponden a los documentos de metadatos
descargados, designados con su identificador único. La utilización de una base de datos
como método para el tratamiento de la información, ha permitido trabajar simultáneamente
con gran cantidad de elementos y registros, sistematizando el proceso de búsqueda y de
detección de errores. Esta metodología ha sido ya aplicada al catálogo de la IDEC. Esta
infraestructura pionera en España viene recopilando metadatos desde 2002 y cuenta, en el
momento de redactar este resumen, con 27001 registros de metadatos de los cuales se han
tratado 14231. Se han apartado del análisis los metadatos producidos directamente por el
Instituto Cartográfico de Cataluña (ICC) al presuponerse su calidad y presentar un
conjunto muy homogéneo y de gran número al estar cortados por hojas.
La omisión de información referente a elementos obligatorios ha ocupado un lugar
importante en el estudio. Otros de los errores analizados hacen referencia a la incoherencia
entre elementos del propio documento, como por ejemplo que la fecha de creación del
dato sea posterior a la del metadato (en un 10%), que el ámbito no esté definido en
sistemas de coordenadas geográficos (5%), que el ámbito defina límites mínimos superiores
al máximo (3%) o que las categorías temáticas se definan con códigos no reconocidos por
ISO por problemas idiomáticos (11%). Además de los errores, se evaluó la calidad de los
documentos de metadatos, entendida como la precisión en los títulos (29% de títulos
alfanuméricos sin contenido real), la inexistencia de redundancias entre éstos y el resumen
(4% de los resúmenes contienen el título) y la abundancia de elementos descriptivos no
exclusivamente obligatorios. Sorprende comprobar que no son pocos los elementos de
obligada cumplimentación que pasan desapercibidos para los editores de los documentos
de metadatos: la ausencia de categorías temáticas (5%) o del idioma del dato son algunos
ejemplos (26%). Asimismo, los elementos opcionales reciben una atención por parte de los
creadores de los documentos considerablemente menor. Se comprueba que, aún siendo
importantes para la comprensión del dato, como sucede por ejemplo con el factor de
escala, un porcentaje considerable de documentos carecen de esta información (8%).
Sin embargo, se constata que la presencia de errores graves sólo afecta a un 5% de los
documentos de metadatos que distribuye la IDEC, un porcentaje bajo si se tiene en cuenta
que los metadatos provienen de muchas fuentes distintas (111 organismos), de diferentes
niveles de la administración (autonómica, provincial, comarcal y local) y en menor medida
de organismos privados, y que se han producido a partir de herramientas heterogéneas y a
lo largo de 7 años. Se constata así que la labor pedagógica de divulgación así como la
distribución de herramientas gratuitas como el MetaD (en sus diferentes versiones) está
dando sus frutos.
Este trabajo también explora la diversa naturaleza de los orígenes de estos errores. Algunos
errores o deficiencias se deben al desconocimiento de la información exacta (como en el
caso de la fecha de creación del dato); a la dificultad de determinar la información que se
requiere, (la escala, en informaciones tabulares de información asociada a coordenadas
sobre el terreno) o la simple ignorancia de determinados factores (histórico de procesos).
Los proveedores disponen de diferentes métodos para crear y publicar documentos de
metadatos en las IDE: formularios en línea, recopilación automática (Harvesting),
transmisión directa del XML o transmisión directa desde un escritorio SIG. Los programas
GeMM (de MiraMon) y CatMDEdit (de la Universidad de Zaragoza) permiten la
extracción automática de metadatos, mientras que el MetaD posibilita la publicación directa
de documentos de metadatos en el catálogo de la IDEC. Estos programas son los más
utilizados en España. Sin embargo estos métodos no se encuentran exentos de la
generación de errores. A pesar de que disponen de funciones de validación que controlan la
obligatoriedad de los metadatos, no evitan la generación de errores por comisión o por falta
de información. Sin embargo, en el caso de la IDEC algunos errores frecuentes han podido
ser asociados a comportamientos de los usuarios no controlados por la aplicación MetaD.
Esta ponencia no sólo realiza un estudio sobre la calidad de los metadatos sino que realiza
recomendaciones con el fin de mejorar esta calidad. Hemos constatado que diferentes
métodos de publicación de las IDE cuentan con diferentes funciones de validación y pasan
por diferentes filtros heterogéneos, a pesar de que deberían contener las mismas funciones
de validación. Es necesaria la implementación de controles de calidad, más allá de la
presencia o ausencia del dato, que revisen la coherencia de los elementos del documento e
incluso realicen un informe y otorguen al documento de metadatos una puntuación
teniendo en cuenta diferentes criterios, como la abundancia de elementos descritos bajo un
rango jerárquico. Estos controles de calidad podrían incluso proponer ciertas mejoras en la
calidad del dato, como la elaboración de títulos concisos, resúmenes no redundantes o la
consolidación de tesauros para la descripción de las palabras clave. Así, proponemos que la
inminente revisión del perfil NEM incluya un conjunto de criterios testeables (a modo de
receta de test) que pueda ser usado por los desarrolladores para incluir, en los diferentes
catálogos y herramientas, un conjunto de criterios prácticos y homogéneos.
Además de la presencia de errores y sus orígenes, este estudio muestra otro criterio de test
de calidad de los documentos de metadatos. Cuanto mayor es el tamaño de éste, más
completas son las descripciones de los elementos y más abundante la presencia de
elementos no obligatorios. Esto permite determinar empíricamente un tamaño umbral de
documento de metadatos XML por debajo del cual la mayoría de documentos presentan
errores y omisiones.
Finalmente, este análisis aplicable a las IDE autonómicas, revela que la calidad es fruto de
la necesidad de las IDE de buscar un compromiso entre la agilidad para los proveedores
que crean metadatos y el usuario final que desea la máxima información y precisión posible.
En este sentido la IDEC ha realizado una excelente labor de motivación, recolección e
integración de los diversos actores implicados, lo que le ha permitido alcanzar una masa
crítica de información suficiente que le posibilita reemplazar su objetivo inicial de cantidad
y producción a un objetivo de mejora de la calidad, un proceso que ha iniciado en el
presente año. Este estudio demuestra que este giro era necesario y que muchos de los
errores pueden ser detectados con procedimientos de análisis de datos y eventualmente
corregidos.
Descargar