Metadatos para Catálogo

Anuncio
Metadatos para Catálogo
datos.gob.es
Contenidos
1
INTRODUCCIÓN .................................................................................................. 3
2
ESQUEMA DE INFORMACIÓN ............................................................................ 3
3
FICHAS DESCRIPTIVAS DE DATASETS ............................................................ 4
3.1 Formatos de los datos ................................................................................................ 8
3.1.1 Lista de formatos de datos .................................................................................... 9
1 INTRODUCCIÓN
Los conjuntos de datos que pueden ser expuestos para su reutilización pueden ser de dos tipos:
datos en crudo -o ficheros estáticos que incluyen los datos en formato XML, CVS, etc.-, y datos
“Linked Data”, expresados semánticamente siguiendo los principios de la Web Semántica –o
Web 3.0–.
Para una gestión óptima de los conjuntos de datos es necesario establecer una catalogación de
los mismos, que permita visualizar y acceder a la información por parte de los agentes
reutilizadores. El catálogo de los conjuntos de datos –o datasets– se generará en base a cierta
información introducida por los catalogadores a través de una aplicación de catalogación.
En este documento se detallan las características de alto nivel del sistema de catalogación,
relativas tanto a las fichas utilizadas para la gestión de los registros del catálogo como a la propia
ficha del catálogo.
Para su elaboración se ha tenido también en cuenta el Esquema Nacional de Interoperabilidad1,
de forma que los metadatos definidos se ajusten a la Norma Técnica de Interoperabilidad de
Reutilización de recursos de la información2.
2 ESQUEMA DE INFORMACIÓN
En la figura 1 aparecen representadas las distintas entidades que conforman un catálogo de
datos: catálogo, registros del catálogo, los datasets, y las distribuciones.
El catálogo se refiere al listado que incluye una colección de registros relacionados con los
conjuntos de datos que componen dicho catálogo. En el catálogo se incluye información
general descriptiva, los términos de uso de los datos incluidos, e información técnica.
Un registro del catálogo es cada una de las entradas del catálogo que están asociadas
directamente con los datasets -o conjuntos de datos-.
Cada registro incluye información técnica sobre la catalogación de cada dataset (fechas de
creación y actualización, o información sobre el origen de la entrada). Cada registro estará
relacionado con un único dataset.
Un dataset es un conjunto de datos, relacionado con una temática en concreto, que está
asociado con un registro del catálogo, e incluye:
▪
información descriptiva y/o técnica sobre los datos que contiene
▪
la licencia aplicada sobre los datos
Cada dataset tiene un volcado de datos asociados, que puede estar representado mediante
distintos formatos, esto se conoce como distribuciones. Un dataset tiene una o varias
distribuciones.
1
2
Texto consolidado Real Decreto 4/2010, de 8 de enero: http://www.csae.map.es/csi/pdf/RD_4_2010_texto_consolidado.pdf
Norma Técnica de Interoperabilididad de Reutilización de recursos de la información: http://www.boe.es/diario_boe/txt.php?id=BOEA-2013-2380
Una distribución es la representación de un acceso al volcado de datos de un dataset en un
formato determinado. Además del formato, cada distribución indicará su nombre, URL, tamaño
y alguna información técnica adicional sobre la interpretación y uso de la misma.
Catálogo
1
1..n
RegistroCatálogo
1
1
Dataset
1
1..n
WFS
XML
XLS
Distribución
(formatos)
Figura 1 - Esquema de información que relaciona la definición del catálogo, los datasets y sus distribuciones.
3 FICHAS DESCRIPTIVAS DE DATASETS
Múltiple: el campo puede tener múltiples
valores y deberá repetirse para cada uno
Requerido: el campo no puede quedar vacío
Auto: el valor del campo puede ser
rellenado automáticamente por el sistema
Los metadatos a recoger son los siguientes:
Tipo de dato
Catálogo
Referencia al identificador del catálogo al que
pertenece el registro.
Texto.
Secuencia de caracteres correspondiente al
identificador del Catálogo.
Auto
Descripción
Requerido
Campo
Múltiple
Registro del Catálogo
No
Si
Si
Campo
Descripción
Múltiple
Requerido
Auto
Registro del Catálogo
Fecha de
publicación
Fecha en la que se añade el registro al catálogo. Fecha.
No es la fecha de publicación del dataset
Timestamp en el momento de la publicación. El
formato general es: [<YYYY-MMDD>T<hh:mm:ss>]. Formato ISO8601.
No
Si
Si
Fecha de
actualización
Fecha en la que se modifica por última vez la
entrada del catálogo. No es la fecha de
actualización del propio dataset
Fecha.
Timestamp en el momento de la actualización.
El formato general es: [<YYYY-MMDD>T<hh:mm:ss>]. Formato ISO8601.
No
Si
Si
Relacionado
con
Dataset que está relacionado con la entrada
actual, ya que puede ser una versión similar a
otra catalogada anteriormente (actualizaciones
periódicas de los mismos datos).
Texto normalizado.
Valor correspondiente al identificador del dataset
realcionado y seleccionable a través de una lista
de los datasets ya existentes en el catálogo.
Si
No
No
Tipo de dato
Campo
Descripción
Tipo de dato
Múltiple
Requerido
Auto
Descripción del dataset
Nombre
Breve título o nombre dado al conjunto de datos.
Texto libre.
(recomendable limitar a 128 caracteres)
No
Si
No
Descripción
Descripción detallada del dataset
Texto libre.
No
Si
No
Categoría
Temática o materia primaria del dataset
Texto normalizado.
Valor seleccionable de la Taxonomía
(Descrita en documento específico aparte)
Si
Si
No
Tags /
Etiquetas
Conjunto de etiquetas textuales específicas sobre Texto normalizado.
la temática del dataset
Valores seleccionables de una lista de etiquetas
gestionable desde el CMS3.
(Podrán ser varias palabras separadas por
algún signo de puntuación concreto)
Si
No
No
Identificador
dataset
Referencia de uso interno para identificar al
dataset
Texto.
Su valor será un código identificador / URI
No
Si
Si
Fecha de
creación
Fecha de creación del dataset
Fecha.
El formato general es: [<YYYY-MMDD>T<hh:mm:ss>]. Formato ISO86014.
No
No
No
Fecha de
última
actualización
Última fecha conocida en la que se modificó o
actualizó el contenido del dataset
Fecha.
El formato general es: [<YYYY-MMDD>T<hh:mm:ss>]. Formato ISO8601.
No
No
No
3
4
Véase el punto “4 Extensión temática” de la última versión del documento PLANCISP-TAX-nn (donde nn es el número de versión).
Todos los elementos, sub-elementos y, en su caso, sub-sub-elementos que requieren información numérica de fecha y hora deben
utilizar la norma internacional ISO 8601:2004. Para mayor información, véase http://www.iso.org
Múltiple
Requerido
Auto
Descripción del dataset
Frecuencia de Periodo de tiempo aproximado que suele pasar
actualización entre actualizaciones del dataset, si hubiera
Texto normalizado.
Valor seleccionable entre varias opciones:
{minuto, hora, diario, semanal, quincenal,
mensual, trimestral, semestral, anual, varios
años}
No
No
No
Idioma
Indica el lenguaje en el que se encuentra la
información del conjunto de datos
Texto.
Valor seleccionable entre varias opciones: {ca,
es, gl, eu, ca, va}.
Se utilizará como vocabulario estandarizado el
conjunto de etiquetas definido en el RFC 46465.
Si
No
No
Publicador
Agente6 actual que mantiene el dataset
Texto.
No
Valor seleccionable de una tabla normalizada de
agentes: código alfanumérico único para cada
Cadena de órgano/unidad/oficina extraído del
Directorio Común gestionado por el MINHAP.
Si
No
Creador
Agente original que crea el dataset
Texto.
No No
Valor seleccionable de una tabla normalizada de
agentes: código alfanumérico único para cada
Cadena de órgano/unidad/oficina extraído del
Directorio Común gestionado por el MPTAP.
Si no hay cambio organizativo el creador es el
mismo que el propietario, y si hay cambio el
propietario sería el nuevo responsable, y el
creador el original.
Descripción
Tipo de dato
Si
Condiciones
Nombre descriptivo de la licencia aplicable al
de reutilización Dataset
Texto libre.
No
No
No
URL de las
Dirección web a la descripción de la licencia.
condiciones de
reutilización
Texto.
URL a una página web del agente
correspondiente o del propio catálogo.
No
No
No
Tasa
Texto.
Valor seleccionable: {Gratuita, Según tarifa}
No
No
No
URL a la tarifa Dirección web a la descripción de la tarifa
aplicable.
Texto.
URL a una página web del agente
correspondiente.
Únicamente se informará si Tasa = Según tarifa.
No
Condicional
Campo
No
Cobertura
geográfica
Mayor ámbito geográfico cubierto por el dataset
Texto normalizado.
Valores seleccionables de las tablas país,
región y provincia, según taxonomía propia de
cobertura geográfica.
Si
No
No
Detalle
geográfico
Nivel de detalle geográfico del dataset
Texto normalizado.
Valor seleccionable de una taxonomía propia de
cobertura geográfica: {provincia, comunidad
autónoma, nación}.
No
No
No
Indicador de la existencia o no de
contraprestación económica
5
RFC4646:2006 proporciona una sintaxis para construir descripciones de lenguas utilizando ISO 639 para códigos de lenguas, ISO
3166 para códigos de país, e ISO 15924 para códigos de escrituras. Tags for Identifying Languages http://www.ietf.org/rfc/rfc4646.txt
6
Agente: Una corporación, elemento organizativo o sistema responsable de las acciones sobre el catálogo y/o sus conjuntos de datos.
No incluye personas individuales.
Campo
Descripción
Múltiple
Requerido
Auto
Descripción del dataset
Inicio
Cobertura
temporal
Fecha de inicio del periodo cubierto por el dataset Fecha.
El formato general es: [<YYYY-MMDD>T<hh:mm:ss>]. Formato ISO8601.
Si
No
No
Fin Cobertura
temporal
Fecha de fin del periodo cubierto por el dataset
Fecha.
El formato general es: [<YYYY-MMDD>T<hh:mm:ss>]. Formato ISO8601.
Si
No
No
Detalle
temporal
Nivel de detalle temporal del dataset
Texto.
No
Valor seleccionable entre un conjunto de
periodos: {minuto, hora, día, semana, quincena,
mes, trimestre, semestre, anual, varios años}
No
No
Vigencia del
recurso
Fecha de validez de un documento o recurso de
información o en la que se estima una
modificación o actualización de su contenido.
Fecha.
El formato general es: [<YYYY-MMDD>T<hh:mm:ss>]. Formato ISO8601.
No
No
No
Recursos
relacionados
Uno o más enlaces apuntando a más información Texto.
relativa al dataset (información sobre los propios Una o varias URLs a páginas web del agente
datos, material audiovisual, etc.)
correspondiente o del propio catálogo,
acompañadas cada una con un breve texto
descriptivo.
Si
No
No
Normativa
Normativa relativa al documento o recursos de
información. Es un enlace a un documento legal
Texto.
URL a una página web donde se localiza el
documento legal.
Si
No
No
Texto.
Su valor será una o varias referencias al
identificador de los formatos de distribución
correspondientes.
Si
Si
Si
Tipo de dato
Distribuciones Referencia a los formatos de distribución del
conjunto de datos
Campo
Descripción
Tipo de dato
Múltiple
Requerido
Auto
Formato de Distribución
Nombre
Breve título o nombre dado a la distribución.
Texto libre.
(recomendable limitar a 128 caracteres)
No
No
No
Identificador
Referencia de uso interno para identificar al
formato de distribución
Texto.
Su valor será un código identificador / URI
No
Si
Si
URL de
acceso
URL que apunta al recurso (fichero, servicio, etc.) Texto.
que contiene o da acceso a los datos finales.
URL que puede ser a un canal RSS, Servicio
Web, a un fichero descargable, etc.
Deberá permitirse URL largas, ya que puede ser
una consulta a un servicio SPARQL o similar,
donde la consulta se incluye en la querystring.
Si el fichero se alojara en la propia plataforma
del catálogo este campo se cumplimentaría de
forma automática.
No
Si
Auto
Tipo de dato
Condicional
Descripción
Requerido
Campo
Múltiple
Formato de Distribución
Tipo de acceso Modalidad de acceso a la fuente del conjunto de
datos, que indica el grado de inmediatez en la
obtención del conjunto de datos en el formato
indicado
Texto.
Valor seleccionable entre “directo” o “indirecto”
(Indirecto se refiere al acceso a catálogos,
fuentes comprimidas, documentación de APIs,
etc., lo que implicará la necesidad de algún tipo
de procesamiento adicional por el usuario para
obtener el conjunto de datos en el formato
indicado)
No
Si
No
Formato
Formato en que se encuentra representado el
dataset
Texto normalizado.
No
Valor seleccionable de la lista de formatos
admitidos para documentos electrónicos en la
Norma Técnica de Interoperabilidad de Catálogo
de estándares. (También Ver apartado 4.1 en
este documento).
Si
No
Tamaño
Tamaño aproximado del conjunto de datos
Será un valor fijo entero (de 1 a 1000),
acompañado de una de las siguientes unidades
digitales: "B” (Bytes), “KB” (Kilobytes), "MB”
(Megabytes) y "GB” (Gigabytes).
No
No
No
Más
información
sobre el
formato
Enlaces a documentos relacionados con el
formato, donde se indica el formato o esquema
utilizado para su representación.
Texto.
URL a un documento que indique más
información relacionada con el formato en el
que se representa el dataset.
(Por ejemplo, podría ser un esquema XSD
asociado a un dataset en XML o una página
HTML con más información sobre el formato
seguido).
No
No
No
Se podrán añadir varias distribuciones o formatos de representación a cada entrada del catálogo.
3.1 Formatos de los datos
Cada dataset puede tener más de un formato. Cada formato estará identificado por su tipo de
formato y por un URI único que identifica el lugar donde se puede acceder para ser consultado o
descargado.
3.1.1 Lista de formatos de datos
Para la representación de los formatos, se recomienda el empleo de los Tipos MIME7 estándar,
así como su representación textual relacionada.
A continuación, se muestran los típicos tipos MIME que se pueden encontrar en una plataforma
RISP. El tipo MIME podría ser guardado para usos futuros en la base de datos, aunque al
usuario sólo se le debería mostrar el nombre legible.
7
Formato
Tipo MIME
Atom
application/atom+xml
Calendar
text/calendar
CSV
text/csv
DBF
application/dbf
DjVu
image/vnd.djvu
DOC
application/msword
DWG
image/vnd.dwg
geoRSS
application/rss+xml
HTML
text/html
JSON
application/json
KML
application/vnd.google-earth.kml+xml
KMZ
application/vnd.google-earth.kmz
MDB
application/msaccess
MPP
application/vmd.ms-project
ODP
application/vnd.oasis.opendocument.pre
sentation
ODS
application/vnd.oasis.opendocument.spr
eadsheet
ODT
application/vnd.oasis.opendocument.tex
t
PC-Axis
text/plain
PDF
application/pdf
Plain
text/plain
PostScript
application/postscript
PPT
application/vms.ms-powerpoint
RDF-N3
text/n3
RDF-Turtle
text/turtle
RDF-XML
application/rdf+xml
MIME Types: http://www.iana.org/assignments/media-types/
Formato
Tipo MIME
RSS
application/rss+xml
RTF
text/rtf
SHP
application/x-zipped-shp
SMIL
application/smil+xml
SOAP
application/soap+xml
SPARQL
application/sparql-query
SPARQL-XML
application/sparql-results+xml
SPARQL-JSON application/sparql-results+json
TSV
text/tab-separated-values
vCard-texto
text/vcard
vCard-XML
application/vcard+xml
Visio
application/vnd.visio
VoiceXML
application/voicexml+xml
WMS
text/xml
WFS
text/xml
XBRL
application/xml
XHTML
application/xhtml+xml
XLS
application/vnd.ms-excel
XLSX
application/vnd.openxmlformatsofficedocument.spreadsheetml.sh
XML
application/xml
ZIP
application/zip
A medida que aparezcan nuevos formatos, se deberán ir añadiendo a la lista existente.
Descargar