Metadatos para Catálogo datos.gob.es Contenidos 1 INTRODUCCIÓN .................................................................................................. 3 2 ESQUEMA DE INFORMACIÓN ............................................................................ 3 3 FICHAS DESCRIPTIVAS DE DATASETS ............................................................ 4 3.1 Formatos de los datos ................................................................................................ 8 3.1.1 Lista de formatos de datos .................................................................................... 9 1 INTRODUCCIÓN Los conjuntos de datos que pueden ser expuestos para su reutilización pueden ser de dos tipos: datos en crudo -o ficheros estáticos que incluyen los datos en formato XML, CVS, etc.-, y datos “Linked Data”, expresados semánticamente siguiendo los principios de la Web Semántica –o Web 3.0–. Para una gestión óptima de los conjuntos de datos es necesario establecer una catalogación de los mismos, que permita visualizar y acceder a la información por parte de los agentes reutilizadores. El catálogo de los conjuntos de datos –o datasets– se generará en base a cierta información introducida por los catalogadores a través de una aplicación de catalogación. En este documento se detallan las características de alto nivel del sistema de catalogación, relativas tanto a las fichas utilizadas para la gestión de los registros del catálogo como a la propia ficha del catálogo. Para su elaboración se ha tenido también en cuenta el Esquema Nacional de Interoperabilidad1, de forma que los metadatos definidos se ajusten a la Norma Técnica de Interoperabilidad de Reutilización de recursos de la información2. 2 ESQUEMA DE INFORMACIÓN En la figura 1 aparecen representadas las distintas entidades que conforman un catálogo de datos: catálogo, registros del catálogo, los datasets, y las distribuciones. El catálogo se refiere al listado que incluye una colección de registros relacionados con los conjuntos de datos que componen dicho catálogo. En el catálogo se incluye información general descriptiva, los términos de uso de los datos incluidos, e información técnica. Un registro del catálogo es cada una de las entradas del catálogo que están asociadas directamente con los datasets -o conjuntos de datos-. Cada registro incluye información técnica sobre la catalogación de cada dataset (fechas de creación y actualización, o información sobre el origen de la entrada). Cada registro estará relacionado con un único dataset. Un dataset es un conjunto de datos, relacionado con una temática en concreto, que está asociado con un registro del catálogo, e incluye: ▪ información descriptiva y/o técnica sobre los datos que contiene ▪ la licencia aplicada sobre los datos Cada dataset tiene un volcado de datos asociados, que puede estar representado mediante distintos formatos, esto se conoce como distribuciones. Un dataset tiene una o varias distribuciones. 1 2 Texto consolidado Real Decreto 4/2010, de 8 de enero: http://www.csae.map.es/csi/pdf/RD_4_2010_texto_consolidado.pdf Norma Técnica de Interoperabilididad de Reutilización de recursos de la información: http://www.boe.es/diario_boe/txt.php?id=BOEA-2013-2380 Una distribución es la representación de un acceso al volcado de datos de un dataset en un formato determinado. Además del formato, cada distribución indicará su nombre, URL, tamaño y alguna información técnica adicional sobre la interpretación y uso de la misma. Catálogo 1 1..n RegistroCatálogo 1 1 Dataset 1 1..n WFS XML XLS Distribución (formatos) Figura 1 - Esquema de información que relaciona la definición del catálogo, los datasets y sus distribuciones. 3 FICHAS DESCRIPTIVAS DE DATASETS Múltiple: el campo puede tener múltiples valores y deberá repetirse para cada uno Requerido: el campo no puede quedar vacío Auto: el valor del campo puede ser rellenado automáticamente por el sistema Los metadatos a recoger son los siguientes: Tipo de dato Catálogo Referencia al identificador del catálogo al que pertenece el registro. Texto. Secuencia de caracteres correspondiente al identificador del Catálogo. Auto Descripción Requerido Campo Múltiple Registro del Catálogo No Si Si Campo Descripción Múltiple Requerido Auto Registro del Catálogo Fecha de publicación Fecha en la que se añade el registro al catálogo. Fecha. No es la fecha de publicación del dataset Timestamp en el momento de la publicación. El formato general es: [<YYYY-MMDD>T<hh:mm:ss>]. Formato ISO8601. No Si Si Fecha de actualización Fecha en la que se modifica por última vez la entrada del catálogo. No es la fecha de actualización del propio dataset Fecha. Timestamp en el momento de la actualización. El formato general es: [<YYYY-MMDD>T<hh:mm:ss>]. Formato ISO8601. No Si Si Relacionado con Dataset que está relacionado con la entrada actual, ya que puede ser una versión similar a otra catalogada anteriormente (actualizaciones periódicas de los mismos datos). Texto normalizado. Valor correspondiente al identificador del dataset realcionado y seleccionable a través de una lista de los datasets ya existentes en el catálogo. Si No No Tipo de dato Campo Descripción Tipo de dato Múltiple Requerido Auto Descripción del dataset Nombre Breve título o nombre dado al conjunto de datos. Texto libre. (recomendable limitar a 128 caracteres) No Si No Descripción Descripción detallada del dataset Texto libre. No Si No Categoría Temática o materia primaria del dataset Texto normalizado. Valor seleccionable de la Taxonomía (Descrita en documento específico aparte) Si Si No Tags / Etiquetas Conjunto de etiquetas textuales específicas sobre Texto normalizado. la temática del dataset Valores seleccionables de una lista de etiquetas gestionable desde el CMS3. (Podrán ser varias palabras separadas por algún signo de puntuación concreto) Si No No Identificador dataset Referencia de uso interno para identificar al dataset Texto. Su valor será un código identificador / URI No Si Si Fecha de creación Fecha de creación del dataset Fecha. El formato general es: [<YYYY-MMDD>T<hh:mm:ss>]. Formato ISO86014. No No No Fecha de última actualización Última fecha conocida en la que se modificó o actualizó el contenido del dataset Fecha. El formato general es: [<YYYY-MMDD>T<hh:mm:ss>]. Formato ISO8601. No No No 3 4 Véase el punto “4 Extensión temática” de la última versión del documento PLANCISP-TAX-nn (donde nn es el número de versión). Todos los elementos, sub-elementos y, en su caso, sub-sub-elementos que requieren información numérica de fecha y hora deben utilizar la norma internacional ISO 8601:2004. Para mayor información, véase http://www.iso.org Múltiple Requerido Auto Descripción del dataset Frecuencia de Periodo de tiempo aproximado que suele pasar actualización entre actualizaciones del dataset, si hubiera Texto normalizado. Valor seleccionable entre varias opciones: {minuto, hora, diario, semanal, quincenal, mensual, trimestral, semestral, anual, varios años} No No No Idioma Indica el lenguaje en el que se encuentra la información del conjunto de datos Texto. Valor seleccionable entre varias opciones: {ca, es, gl, eu, ca, va}. Se utilizará como vocabulario estandarizado el conjunto de etiquetas definido en el RFC 46465. Si No No Publicador Agente6 actual que mantiene el dataset Texto. No Valor seleccionable de una tabla normalizada de agentes: código alfanumérico único para cada Cadena de órgano/unidad/oficina extraído del Directorio Común gestionado por el MINHAP. Si No Creador Agente original que crea el dataset Texto. No No Valor seleccionable de una tabla normalizada de agentes: código alfanumérico único para cada Cadena de órgano/unidad/oficina extraído del Directorio Común gestionado por el MPTAP. Si no hay cambio organizativo el creador es el mismo que el propietario, y si hay cambio el propietario sería el nuevo responsable, y el creador el original. Descripción Tipo de dato Si Condiciones Nombre descriptivo de la licencia aplicable al de reutilización Dataset Texto libre. No No No URL de las Dirección web a la descripción de la licencia. condiciones de reutilización Texto. URL a una página web del agente correspondiente o del propio catálogo. No No No Tasa Texto. Valor seleccionable: {Gratuita, Según tarifa} No No No URL a la tarifa Dirección web a la descripción de la tarifa aplicable. Texto. URL a una página web del agente correspondiente. Únicamente se informará si Tasa = Según tarifa. No Condicional Campo No Cobertura geográfica Mayor ámbito geográfico cubierto por el dataset Texto normalizado. Valores seleccionables de las tablas país, región y provincia, según taxonomía propia de cobertura geográfica. Si No No Detalle geográfico Nivel de detalle geográfico del dataset Texto normalizado. Valor seleccionable de una taxonomía propia de cobertura geográfica: {provincia, comunidad autónoma, nación}. No No No Indicador de la existencia o no de contraprestación económica 5 RFC4646:2006 proporciona una sintaxis para construir descripciones de lenguas utilizando ISO 639 para códigos de lenguas, ISO 3166 para códigos de país, e ISO 15924 para códigos de escrituras. Tags for Identifying Languages http://www.ietf.org/rfc/rfc4646.txt 6 Agente: Una corporación, elemento organizativo o sistema responsable de las acciones sobre el catálogo y/o sus conjuntos de datos. No incluye personas individuales. Campo Descripción Múltiple Requerido Auto Descripción del dataset Inicio Cobertura temporal Fecha de inicio del periodo cubierto por el dataset Fecha. El formato general es: [<YYYY-MMDD>T<hh:mm:ss>]. Formato ISO8601. Si No No Fin Cobertura temporal Fecha de fin del periodo cubierto por el dataset Fecha. El formato general es: [<YYYY-MMDD>T<hh:mm:ss>]. Formato ISO8601. Si No No Detalle temporal Nivel de detalle temporal del dataset Texto. No Valor seleccionable entre un conjunto de periodos: {minuto, hora, día, semana, quincena, mes, trimestre, semestre, anual, varios años} No No Vigencia del recurso Fecha de validez de un documento o recurso de información o en la que se estima una modificación o actualización de su contenido. Fecha. El formato general es: [<YYYY-MMDD>T<hh:mm:ss>]. Formato ISO8601. No No No Recursos relacionados Uno o más enlaces apuntando a más información Texto. relativa al dataset (información sobre los propios Una o varias URLs a páginas web del agente datos, material audiovisual, etc.) correspondiente o del propio catálogo, acompañadas cada una con un breve texto descriptivo. Si No No Normativa Normativa relativa al documento o recursos de información. Es un enlace a un documento legal Texto. URL a una página web donde se localiza el documento legal. Si No No Texto. Su valor será una o varias referencias al identificador de los formatos de distribución correspondientes. Si Si Si Tipo de dato Distribuciones Referencia a los formatos de distribución del conjunto de datos Campo Descripción Tipo de dato Múltiple Requerido Auto Formato de Distribución Nombre Breve título o nombre dado a la distribución. Texto libre. (recomendable limitar a 128 caracteres) No No No Identificador Referencia de uso interno para identificar al formato de distribución Texto. Su valor será un código identificador / URI No Si Si URL de acceso URL que apunta al recurso (fichero, servicio, etc.) Texto. que contiene o da acceso a los datos finales. URL que puede ser a un canal RSS, Servicio Web, a un fichero descargable, etc. Deberá permitirse URL largas, ya que puede ser una consulta a un servicio SPARQL o similar, donde la consulta se incluye en la querystring. Si el fichero se alojara en la propia plataforma del catálogo este campo se cumplimentaría de forma automática. No Si Auto Tipo de dato Condicional Descripción Requerido Campo Múltiple Formato de Distribución Tipo de acceso Modalidad de acceso a la fuente del conjunto de datos, que indica el grado de inmediatez en la obtención del conjunto de datos en el formato indicado Texto. Valor seleccionable entre “directo” o “indirecto” (Indirecto se refiere al acceso a catálogos, fuentes comprimidas, documentación de APIs, etc., lo que implicará la necesidad de algún tipo de procesamiento adicional por el usuario para obtener el conjunto de datos en el formato indicado) No Si No Formato Formato en que se encuentra representado el dataset Texto normalizado. No Valor seleccionable de la lista de formatos admitidos para documentos electrónicos en la Norma Técnica de Interoperabilidad de Catálogo de estándares. (También Ver apartado 4.1 en este documento). Si No Tamaño Tamaño aproximado del conjunto de datos Será un valor fijo entero (de 1 a 1000), acompañado de una de las siguientes unidades digitales: "B” (Bytes), “KB” (Kilobytes), "MB” (Megabytes) y "GB” (Gigabytes). No No No Más información sobre el formato Enlaces a documentos relacionados con el formato, donde se indica el formato o esquema utilizado para su representación. Texto. URL a un documento que indique más información relacionada con el formato en el que se representa el dataset. (Por ejemplo, podría ser un esquema XSD asociado a un dataset en XML o una página HTML con más información sobre el formato seguido). No No No Se podrán añadir varias distribuciones o formatos de representación a cada entrada del catálogo. 3.1 Formatos de los datos Cada dataset puede tener más de un formato. Cada formato estará identificado por su tipo de formato y por un URI único que identifica el lugar donde se puede acceder para ser consultado o descargado. 3.1.1 Lista de formatos de datos Para la representación de los formatos, se recomienda el empleo de los Tipos MIME7 estándar, así como su representación textual relacionada. A continuación, se muestran los típicos tipos MIME que se pueden encontrar en una plataforma RISP. El tipo MIME podría ser guardado para usos futuros en la base de datos, aunque al usuario sólo se le debería mostrar el nombre legible. 7 Formato Tipo MIME Atom application/atom+xml Calendar text/calendar CSV text/csv DBF application/dbf DjVu image/vnd.djvu DOC application/msword DWG image/vnd.dwg geoRSS application/rss+xml HTML text/html JSON application/json KML application/vnd.google-earth.kml+xml KMZ application/vnd.google-earth.kmz MDB application/msaccess MPP application/vmd.ms-project ODP application/vnd.oasis.opendocument.pre sentation ODS application/vnd.oasis.opendocument.spr eadsheet ODT application/vnd.oasis.opendocument.tex t PC-Axis text/plain PDF application/pdf Plain text/plain PostScript application/postscript PPT application/vms.ms-powerpoint RDF-N3 text/n3 RDF-Turtle text/turtle RDF-XML application/rdf+xml MIME Types: http://www.iana.org/assignments/media-types/ Formato Tipo MIME RSS application/rss+xml RTF text/rtf SHP application/x-zipped-shp SMIL application/smil+xml SOAP application/soap+xml SPARQL application/sparql-query SPARQL-XML application/sparql-results+xml SPARQL-JSON application/sparql-results+json TSV text/tab-separated-values vCard-texto text/vcard vCard-XML application/vcard+xml Visio application/vnd.visio VoiceXML application/voicexml+xml WMS text/xml WFS text/xml XBRL application/xml XHTML application/xhtml+xml XLS application/vnd.ms-excel XLSX application/vnd.openxmlformatsofficedocument.spreadsheetml.sh XML application/xml ZIP application/zip A medida que aparezcan nuevos formatos, se deberán ir añadiendo a la lista existente.