Metadatos XML/RDF

Anuncio
Introducción
Cuando Internet empezó a crecer y la cantidad de información disponible aumentó desmesuradamente,
surgió el problema de clasificarla e identificarla de manera eficiente. Partiendo de ese problema, se
comenzaron a usar los metadatos, es decir, información relativa a los propios datos que facilitan su
catalogación y además proporcionan información semántica asociada.
Tipos de Metadatos
Existen diversos tipos de metadatos, cada uno con su propio formato para describirlos. Según la
información que proporcionen, existen metadatos sobre: el contenido, aspectos formales, derechos
de autor y el contexto.
Según la función que proporcionan, se pueden clasificar en:
Tipo
Descriptivos
Objetivo
Ejemplos
Describen e identifican recursos de información.
Dublin Core o
Permite a los usuarios la búsqueda y recuperación de
Etiquetas META
la información.
de HTML
Facilitan la navegación y la presentación de los
Estructurales
recursos. Proporcionan información sobre la
XML y RDF o
estructura interna de los documentos, así como la
SGML
relación entre ellos.
Facilitan la gestión de conjuntos de recursos. Incluye
Administrativos
la gestión de derechos y sobre control de acceso y
MOA2
uso.
Hay varias iniciativas para tratar de normalizar y estandarizar los metadatos sobre los recursos
electrónicos. Quizá el más conocido sea el Dublin Core, creado inicialmente para catalogar y compartir
información sobre libros entre bibliotecas estadounidenses, pero que ahora se usa casi en la totalidad de
las páginas web existentes en Internet. Existen otros muchos estándares con diferentes niveles de
estructuración y de detalle optimizados para el sistema por el fueron creados.
Los metadatos pueden almacenarse en una base de datos, normalmente diseñada para tal efecto, o
incrustados en la cabecera del propio documento sobre el que añaden información. En el contenido web,
por ejemplo, la metainformación sobre una página web suele ir incluida en el propio documento HTML,
mientras que otros contenidos como la sindicación de noticias o metadatos sobre archivos multimedia se
proporcionan como documentos aparte.
Usos de los Metadatos
Las aplicaciones son muy amplias. Principalmente se usan para la recuperación de información y para
describir y catalogar documentos. Otros usos incluyen la definición de derechos de propiedad intelectual,
valoración y evaluación de contenidos, etc. Los principales clientes suelen ser los robots y agentes de los
motores de búsqueda.
Metainformación en HTML
La forma de asignar metainformación a los documentos HTML es mediante las etiquetas <META>. El
contenido de estas etiquetas suele ser procesado por robots que operan de forma automática. Los tipos
de etiquetas <META> son muy variados, pero se suelen usar principalmente description, que muestra
información general sobre la página como su temática o su responsable, y keywords, que contiene las
palabras claves significativas, junto con las definidas en el estándar Dublin Core.
Especificación de Metadatos
Cada elemento <META> especifica una tupla de propiedad junto con su valor. Los principales atributos
que tiene son name, content, scheme y http-equiv. El atributo name identifica unívocamente a la
propiedad y content le asigna un valor. Se puede de esta forma, por ejemplo, asignar en un mismo
documentos metadatos en función del idioma:
•
<meta name="keywords" lang="en" content="Information Retrieval">
•
<meta name="keywords" lang="es" content="Recuperacion Informacion">
El significado de una propiedad y sus valores asignados está asociado a un diccionario llamado perfil. El
estándar Dublin Core es un ejemplo de perfil.
Algunos autores suelen usar la etiqueta <LINK> en vez de <META> cuando el contenido de la
propiedad es una URL a un elemento externo del documento. La etiqueta <LINK> también suele usarse
para especificar enlaces a versiones alternativas de un mismo documento (por ejemplo en PDF o en otro
idioma) o para enlazar con el índice o los documentos contiguos si semánticamente forma parte de un
documento más grande.
Por ejemplo, este documento HTML contiene los siguientes metadatos:
•
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"/>
•
<meta
name="description"
content="Metadatos
y
documentos
XML/RDF
para
recuperacion"/>
•
<meta name="keywords" content="recuperación acceso información metadatos rdf xml wiki
recuperacion y organizacion de la informacion"/>
•
<meta name="author" content="Victor Garcia Gonzalez"/>
•
<meta name="owner" content="Victor Garcia Gonzalez"/>
•
<meta name="robots" content="index, follow"/>
•
<meta name="robots" content="ALL,INDEX,FOLLOW,ARCHIVE" />
•
<meta name="revisit-after" content="2 days" />
Evolución de los Metadatos
Los metadatos en lenguaje HTML usando <META> tiene muchas limitaciones debido principalmente a
su ambigüedad y a la cantidad de alternativas existentes. Por ello, en la especificación de HTML 4.01 del
W3C, se introdujo el concepto de RDF (Resource Description Framework) para definir metadatos
siguiendo una sintaxis similar a XML.
Dublín Core: Motivación y Objetivos
La iniciativa Dublin Core (DCMI) se creó en 1995 con el propósito de crear estándares que facilitaran la
descripción y recuperación de recursos de información. Se creó un conjunto de descriptores que hoy en
día es el mas extendido en la Web.
Estos metadatos intentan establecer en la red los datos necesarios para describir, identificar y encontrar
un documento. Si este estándar se usara mundialmente, se conseguiría que todos las aplicaciones
automáticas que intentan indizar la información de Internet, como los buscadores, tendrían toda la
información necesaria para manipular los documentos en su propia cabecera, facilitando su indización y
provocando una mejora de eficiencia de los motores de búsqueda.
La
documentación
sobre
http://es.dublincore.org.
Dublin
El
Core
responsable
se
de
encuentra
Dublin
Core
traducida
en
al
España
castellano
es
la
en
RedIris
(http://www.rediris.es/metadata/). Como curiosidad cabe destacar que en septiembre del 2005, se
celebró en la Universidad Carlos III de Madrid la Conferencia Internacional sobre el Dublin Core
y Aplicaciones de Metadatos (DC-2005).
Descripción de Dublin Core
El conjunto de elementos de Dublin Core abarca 15 descriptores. Cada elemento es opcional, puede
repetirse y aparecer en cualquier orden. Es aconsejable escribir de forma adecuada los nombres de cada
metadato, ya que aunque HTML no diferencia mayúsculas o minúsculas, puede provocar conflictos en
otros documentos como en SGML o XML.
Los elementos de Dublin Core puede clasificarse en 3 categorías según el tipo de información que
contengan:
•
Sobre el contenido del recurso:
Etiqueta DC
Descripción
DC.Title
Título. El nombre dado al recurso.
DC.Subject
Materias y palabras clave. El tema del contenido del recurso.
DC.Description
Descripción del contenido del recurso. Puede incluir un resumen, una tabla
de contenidos, etc.
DC.Source
Fuente. Referencia al recurso del que deriva el documento actual.
DC.Languaje
Lengua. El idioma del contenido del recurso.
DC.Relation
Relación. Una referencia a un recurso relacionado con el contenido.
DC.Coverage
Cobertura. Ámbito del contenido del recurso. Puede tratarse de un
especificación geográfica, temporal o legal.
•
Sobre la propiedad intelectual del recurso:
Etiqueta DC
DC.Creator
DC.Publisher
Descripción
Autor. Responsable de la creación del contenido. Puede ser una entidad,
una persona o un servicio.
Editor. Responsable de que el recurso se encuentre disponible
DC.Contributor Colaborador. Responsable de hacer colaboraciones al contenido del recurso.
DC.Rights
•
Derechos. Información sobre los derechos de la propiedad intelectual del
recuso, como por ejemplo el copyright.
Sobre la instancia del recurso:
Etiqueta DC
DC.Date
DC.Type
DC.Format
DC.Identifier
Descripción
Fecha. Fecha asociada a la creación o modificación del recurso. Se suele
seguir la notación AAAA-MM-DD.
El tipo o categoría del contenido. Palabras clave de un vocabulario que
describen la naturaleza del recurso.
Formato. Descripción física del recurso, como su tamaño, duración,
dimensiones, etc. si son aplicables. Se suelen usar tipos MIME
Identificación. Referencia unívoca para el contenido del recurso. Por ejemplo
una URL o un ISBN.
XML
XML surgió como un lenguaje de marcado para sustituir a HTML. Ambos lenguajes son herederos de
SGML, el lenguaje de marcas estándar para la descripción formal y de contenido de los documentos, no
solamente para la presentación de dichos documentos.
HTML era, principalmente, un lenguaje de presentación que definía un conjunto de etiquetas y atributos
válidos y que ofrecía un significado visual para cada elemento del lenguaje, por el contrario, XML no
define las etiquetas ni cómo se utilizan, sino que ofrece un escaso número de reglas sintácticas para
poder crear documentos. Así pues, XML no es un lenguaje, sino un metalenguaje o lenguaje para definir
otros lenguajes. XML no sustituye a HTML puesto que sirven para cosas distintas: HTML para presentar
la información, y XML para representar e intercambiar datos de forma independiente a su presentación.
Los identificadores descriptivos de un documento XML son más homogéneos y tienen una mayor
consistencia que, por ejemplo, las etiquetas <META> del lenguaje HTML. XML permite gestionar los
datos aunque procedan de diversas fuentes y también permite el intercambio de documentos entre
distintas aplicaciones ya estén en un único ordenador o en una red. Como la información en XML está
mucho más estructurada, esto facilitará el trabajo a los buscadores y los robots, que accederán a los
datos de manera más precisa.
RDF
RDF o Resource Description Framework, desarrollado por el W3C para la descripción de recursos de la
Web, provee un mecanismo para integrar múltiples esquemas de metadatos. En RDF un namespace se
define apuntando a un recurso web que describe el esquema de metadatos usado en la descripción. Se
pueden definir múltiples espacios de nombre lo que permite que en la descripción de un recurso puedan
ser combinados elementos de diferentes esquemas. De esta forma pueden enlazarse a otras múltiples
descripciones creadas en diferentes momentos y con propósitos diferentes. Por lo general, RDF utiliza el
lenguaje XML.
Mientras que XML es un lenguaje para modelar datos, RDF es un lenguaje para especificar metadatos.
XML falla en la escalabilidad de los datos puesto que el orden de los elementos es antinatural y su
mantenimiento es muy difícil y costoso, por el contrario, RDF permite la interoperabilidad entre
aplicaciones que intercambian información comprensible por la página web, para proporcionar una
infraestructura que soporte actividades de metadatos.
El lenguaje RDF es muy útil en situaciones en las que la información necesita ser procesada por
aplicaciones que intercambian información legible por máquina, más que por humanos.
RDF también provee una sintaxis basada en XML, llamada RDF/XML, para guardar e intercambiar la
información.
RSS
Una de las aplicaciones más conocidas de RDF y XML es RSS. Se trata de un vocabulario que se usa para
describir información de tal manera que puede ser reutilizada. RSS es, actualmente, el acrónimo de Real
Simple Syndication, aunque anteriormente lo fue de Rich Site Summary y de RDF Site Summary. Este
cambio en la denominación se debe a los distintos estándares existentes:
•
Rich Site Summary (RSS 0.91, 0.92, 0,94)
•
RDF Site Summary (RSS 0.9 y 1.0) basado en la especificación RSS 1.0
•
Really Simple Syndication (RSS 2.0) que no cumple con la especificación RDF
RSS es un formato para distribuir un conjunto de titulares organizados en forma de sumario o índice,
llamados canales (channels o feeds), a cuyos contenidos se puede acceder a través de Internet sin
necesidad de usar el navegador. Gracias a RSS, el usuario dispone de los titulares actualizados de
muchos sitios webs sin que tenga necesidad de conectarse a cada uno de ellos. Muchas webs, sobre todo
las que se actualizan constantemente como los blogs y los sitios web de los medios de comunicación,
permiten de esta forma el acceso a una enorme cantidad de información de forma automatizada.
La versión 2.0 utiliza los elementos obligatorios title (el nombre del canal), link (la URL del sitio
correspondiente al canal) y description (frase o sentencia para describir el canal, y añade otros
elementos
opcionales
como:
language,
copyright,
mangingEditor,
webMaster,
pubDate,
lastBuildDate, category, generator, docs, cloud, ttl, image, textinput, skipHours, skipDays,
etc.
En el pie de esta página hay ejemplos funcionales de RSS 1.0, RSS 2.0, Atom 0.3 y FOAF.
Otros
En relación con RSS, también hay que destacar una especificación similar llamada Atom que ha sido
desarrollada por IBM, Google y otras empresas de hosting y que ha sido muy promocionada por
Blogger, empresa que pertenece a Google.
El proyecto FOAF (Friend Of A Friend) trata de crear un estándar para documentos que describan a la
gente, los enlaces entre ellos y las cosas que hacen. Todo ello usando XML para que sea fácilmente
interpretado por software. Técnicamente es vocabulario semántico en RDF/XML. Existe mucha más
información y documentos relacionados sobre FOAF en The FOAF Project.
SKOS (Simple Knowledge Organization System) es un modelo para sistemas organizados de
conocimiento en formato digital. Proporciona las estructuras básicas para representar tesauros,
esquemas de clasificación, taxonomías, terminologías, glosarios y otros tipos de vocabularios
controlados. El estándar se encuentra en el W3C.
Referencias utilizadas
Enlaces que han proporcionado la información necesaria para crear el contenido o bien la estructura de
esta documentación, para que resulte útil y además salga bien posicionada en los buscadores :) (Espero
que Google no me penalice como Link Farm por poner unos cuantos enlaces que de verdad me han
resultado útiles).
•
Hipertexto: El nuevo concepto de documento en la cultura de la imagen. Tesis Doctoral
de María Jesús Lamarca Lapuente de la Universidad Complutense de Madrid.
•
Dublin Core en la RedIris
•
Tutorial de Posicionamiento de Dirson
•
Cálculo de PageRank™
•
Creador de SiteMaps
•
Herramientas SEO de OjoBuscador
•
Google Analytics
•
Google Sitemaps
•
Button Maker
Enlaces Relacionados
•
Motores de recuperacion de documentos XML/RDF
Y una mención especial en forma de CrossLinking a Erika por su Documentamanía ;)
Descargar