ANÁLISIS COMPARATIVO DE LOS METADATOS DISTRIBUIDOS POR LAS IDE AUTONÓMICAS. Paula Diaz1, Joan Masó2 y Alaitz Zabala1 1 Departamento de Geografía de la Universidad Autónoma de Barcelona. 2 Centro de Investigación Ecológica y Aplicaciones Forestales (CREAF) En la última década la distribución del dato geográfico ha experimentado una renovación. Las librerías de datos espaciales, los geoportales y la diversificación de datos geográficos dan buena cuenta de ello. La diversificación de los orígenes de datos ha forzado la aparición de los catálogos de datos y servicios. En este sentido, la iniciativa INSPIRE aboga, desde 2002, por una ampliación de los geoservicios que hagan posible la Infraestructura de Datos Espaciales de Europa donde los catálogos de datos y de servicios tendrán un papel fundamental. Misiones básicas de una IDE son la publicación de datos geográficos, la integración y la transferencia de los mismos evitando su duplicación. Los metadatos juegan un papel relevante en el proceso de selección, transferencia y manipulación del dato geográfico. Veinte años después de la creación de las primeras IDE se ha alcanzado un nivel de producción de datos y metadatos abundante y variado por parte de la mayoría de productores. En el contexto actual de los Sistemas de Información Geográfica, son diversos los estudios que evalúan no sólo el hacer, sino el saber hacer, la calidad en los metadatos. Por ello se ha empezado a señalar a éstos como responsables, en parte importante, del éxito en las búsquedas en catálogos de datos. Simultáneamente a la aprobación de la ISO 19115 aparecieron algunas herramientas independientes que facilitaban la elaboración de metadatos. Estas herramientas han incorporado mecanismos para detectar los errores y facilitar su corrección. Un paso adelante en este sentido consiste en agilizar la creación de elevados volúmenes de documentos de metadatos, operación que permiten los programas de extracción automática de metadatos desde los mismos datos. Estos programas, además, realizan documentos de metadatos de forma estandarizada. Sin embargo, la generación de metadatos continúa siendo un proceso costoso y metódico que depende de la buena voluntad del productor. Nuestro estudio surge de la voluntad de analizar la presencia de errores en los documentos de metadatos, su naturaleza y proporción. Este resumen presenta un estudio que analiza los metadatos del catálogo de la Infraestructura de Datos Espaciales de Cataluña (IDEC) y propone la realización de un estudio comparativo con alguna otra IDE autonómica que será presentado en la ponencia definitiva. El proceso para alcanzar estos objetivos consiste en la extracción masiva de todos los metadatos del catálogo en formato XML de la ISO 19139 y el análisis exhaustivo del contenido de los mismos. Una vez obtenidos, se extraen la totalidad de los elementos obligatorios, además de aquellos opcionales considerados de relevada importancia para la comprensión del dato geográfico. La información se vuelca sobre una base de datos, la cual contiene los elementos obligatorios y opcionales como campos, mientras que los registros corresponden a los documentos de metadatos descargados, designados con su identificador único. La utilización de una base de datos como método para el tratamiento de la información, ha permitido trabajar simultáneamente con gran cantidad de elementos y registros, sistematizando el proceso de búsqueda y de detección de errores. Esta metodología ha sido ya aplicada al catálogo de la IDEC. Esta infraestructura pionera en España viene recopilando metadatos desde 2002 y cuenta, en el momento de redactar este resumen, con 27001 registros de metadatos de los cuales se han tratado 14231. Se han apartado del análisis los metadatos producidos directamente por el Instituto Cartográfico de Cataluña (ICC) al presuponerse su calidad y presentar un conjunto muy homogéneo y de gran número al estar cortados por hojas. La omisión de información referente a elementos obligatorios ha ocupado un lugar importante en el estudio. Otros de los errores analizados hacen referencia a la incoherencia entre elementos del propio documento, como por ejemplo que la fecha de creación del dato sea posterior a la del metadato (en un 10%), que el ámbito no esté definido en sistemas de coordenadas geográficos (5%), que el ámbito defina límites mínimos superiores al máximo (3%) o que las categorías temáticas se definan con códigos no reconocidos por ISO por problemas idiomáticos (11%). Además de los errores, se evaluó la calidad de los documentos de metadatos, entendida como la precisión en los títulos (29% de títulos alfanuméricos sin contenido real), la inexistencia de redundancias entre éstos y el resumen (4% de los resúmenes contienen el título) y la abundancia de elementos descriptivos no exclusivamente obligatorios. Sorprende comprobar que no son pocos los elementos de obligada cumplimentación que pasan desapercibidos para los editores de los documentos de metadatos: la ausencia de categorías temáticas (5%) o del idioma del dato son algunos ejemplos (26%). Asimismo, los elementos opcionales reciben una atención por parte de los creadores de los documentos considerablemente menor. Se comprueba que, aún siendo importantes para la comprensión del dato, como sucede por ejemplo con el factor de escala, un porcentaje considerable de documentos carecen de esta información (8%). Sin embargo, se constata que la presencia de errores graves sólo afecta a un 5% de los documentos de metadatos que distribuye la IDEC, un porcentaje bajo si se tiene en cuenta que los metadatos provienen de muchas fuentes distintas (111 organismos), de diferentes niveles de la administración (autonómica, provincial, comarcal y local) y en menor medida de organismos privados, y que se han producido a partir de herramientas heterogéneas y a lo largo de 7 años. Se constata así que la labor pedagógica de divulgación así como la distribución de herramientas gratuitas como el MetaD (en sus diferentes versiones) está dando sus frutos. Este trabajo también explora la diversa naturaleza de los orígenes de estos errores. Algunos errores o deficiencias se deben al desconocimiento de la información exacta (como en el caso de la fecha de creación del dato); a la dificultad de determinar la información que se requiere, (la escala, en informaciones tabulares de información asociada a coordenadas sobre el terreno) o la simple ignorancia de determinados factores (histórico de procesos). Los proveedores disponen de diferentes métodos para crear y publicar documentos de metadatos en las IDE: formularios en línea, recopilación automática (Harvesting), transmisión directa del XML o transmisión directa desde un escritorio SIG. Los programas GeMM (de MiraMon) y CatMDEdit (de la Universidad de Zaragoza) permiten la extracción automática de metadatos, mientras que el MetaD posibilita la publicación directa de documentos de metadatos en el catálogo de la IDEC. Estos programas son los más utilizados en España. Sin embargo estos métodos no se encuentran exentos de la generación de errores. A pesar de que disponen de funciones de validación que controlan la obligatoriedad de los metadatos, no evitan la generación de errores por comisión o por falta de información. Sin embargo, en el caso de la IDEC algunos errores frecuentes han podido ser asociados a comportamientos de los usuarios no controlados por la aplicación MetaD. Esta ponencia no sólo realiza un estudio sobre la calidad de los metadatos sino que realiza recomendaciones con el fin de mejorar esta calidad. Hemos constatado que diferentes métodos de publicación de las IDE cuentan con diferentes funciones de validación y pasan por diferentes filtros heterogéneos, a pesar de que deberían contener las mismas funciones de validación. Es necesaria la implementación de controles de calidad, más allá de la presencia o ausencia del dato, que revisen la coherencia de los elementos del documento e incluso realicen un informe y otorguen al documento de metadatos una puntuación teniendo en cuenta diferentes criterios, como la abundancia de elementos descritos bajo un rango jerárquico. Estos controles de calidad podrían incluso proponer ciertas mejoras en la calidad del dato, como la elaboración de títulos concisos, resúmenes no redundantes o la consolidación de tesauros para la descripción de las palabras clave. Así, proponemos que la inminente revisión del perfil NEM incluya un conjunto de criterios testeables (a modo de receta de test) que pueda ser usado por los desarrolladores para incluir, en los diferentes catálogos y herramientas, un conjunto de criterios prácticos y homogéneos. Además de la presencia de errores y sus orígenes, este estudio muestra otro criterio de test de calidad de los documentos de metadatos. Cuanto mayor es el tamaño de éste, más completas son las descripciones de los elementos y más abundante la presencia de elementos no obligatorios. Esto permite determinar empíricamente un tamaño umbral de documento de metadatos XML por debajo del cual la mayoría de documentos presentan errores y omisiones. Finalmente, este análisis aplicable a las IDE autonómicas, revela que la calidad es fruto de la necesidad de las IDE de buscar un compromiso entre la agilidad para los proveedores que crean metadatos y el usuario final que desea la máxima información y precisión posible. En este sentido la IDEC ha realizado una excelente labor de motivación, recolección e integración de los diversos actores implicados, lo que le ha permitido alcanzar una masa crítica de información suficiente que le posibilita reemplazar su objetivo inicial de cantidad y producción a un objetivo de mejora de la calidad, un proceso que ha iniciado en el presente año. Este estudio demuestra que este giro era necesario y que muchos de los errores pueden ser detectados con procedimientos de análisis de datos y eventualmente corregidos.