1. La Biblioteca Digital del Ateneo 2. Proceso general de

Anuncio
El Dublin Core es la principal iniciativa de metadatos a nivel mundial, el estándar más utilizado
(ISO 15836­2003) para la descripción, gestión y recuperación de información electrónica y una
infraestructura reconocida por todas las comunidades de información digital para la construcción de
la Web Semántica. Por todo ello, en esta actividad paralela se analizará el uso de este estándar en
proyectos españoles, a través de experiencias o iniciativas de implantación en nuestro país, que
sirvan para evaluar e incentivar el uso de este estándar en España, así como para lograr una mayor
cohesión de nuestros proyectos con la masa crítica internacional. La mesa redonda será una antesala
perfecta para la conferencia internacional DC­2005 que se celebra este año en septiembre en nuestro
país ( http://dc2005.uc3m.es). 1.­ La Biblioteca Digital del Ateneo
Esta comunicación se enmarca en el objetivo del taller de mostrar experiencias españolas en curso,
donde se emplee el Dublin Core. Tal es el caso de la experiencia que llevamos a cabo en la
construcción de la Biblioteca Digital del Ateneo de Madrid.
La Biblioteca del Ateneo es una biblioteca de investigación que nació como colección bibliográfica
del Ateneo de Madrid, fundado en 1835.Tiene una extensa colección de libros y publicaciones
periódicas, especialmente rica en obras del siglo XIX y primer tercio del siglo XX, abarcando todas
las materias y varios idiomas. Sus fondos constan de 350.000 volúmenes aproximadamente, entre
los que destaca una colección de 27.000 folletos (publicaciones de menos de 50 páginas). Además
contiene colecciones de periódicos y revistas científicas, (alrededor de 100.000 vols) y otros
materiales como cristales, microfilms, etc.
En el año 2001, con el objetivo de modernizar e incorporar las nuevas tecnologías de la
información, para facilitar la gestión y difusión de los contenidos de los fondos de la Biblioteca
General, surge el proyecto ACLAMA. también con el objeto de facilitar las tareas de investigación
para los socios del Ateneo así como a cualquier usuario en general, se crean una infraestructura que
posibilita el uso de la biblioteca digital.
La biblioteca digital contiene los siguientes tipos de objetos digitales, libros, folletos, publicaciones
periódicas, imágenes, audio y manuscritos. En estos momentos, en la biblioteca digital del Ateneo
existen unas 800 obras de textos digitalizadas, más de 5000 imágenes, 600 horas de audio de los
actos y conciertos del Ateneo(todavía no de acceso público).
2.­ Proceso general de creación de objetos digitales
materiales
digitalización
deposito
repositorio
Acceso publico
WWW
La figura que mostramos, es un esquema del proceso de creación de los objetos digitales que
llevamos a cabo en la biblioteca digital del Ateneo
1.­ Material a digitalizar, En primer lugar se establecen los criterios de selección de material que se
incorporará en la biblioteca digital
2.­ Digitalización. En segundo lugar se procederá a la digitalización del material, siguiendo las
técnicas más adecuadas según sea el caso
3.­ OCR / Retoque fotografico / Optimización del sonido Para garantizar que el acceso mayoritario
a los contenidos digitales, en el caso del texto se realiza el OCR y corrección posterior de los textos,
en el caso de las imágenes se retocan y convierten a diversos formatos segun calidades, en el caso
del audio, se quitan ruidos, normalizaciones y compresión .
4.­ Almacenamiento en el depósito . Una ver digitalizados los materiales, pasan al depósito, zona
destinada al control de calidad final, así como a la creación de los metadatos correspondientes a:
–
Creación de cabecera (xml/TEI)
–
Creación de codas (Dublin Core)
5.­ Almacenamiento en repositorio . Una vez creados los metadatos, los objetos digitales son
almacenados en el repositorio.
6.­ Acceso público. En última estancia, los materiales almacenados en el repositorio podrán ser
accedidos a través de la web.
3.­ La estructura de objetos digitales
Objetos digitales
A cada una de las obras digitalizadas, ya sean texto, imagen o audio, la consideraremos un objeto
digital, es decir, es un ítem, un todo coherente, que corresponde al equivalente de un objeto físico,
un libro, un folleto, una imagen o un archivo de audio. En ciertos casos, conviene considerar cada
subdivisión coherente de un objeto digital como un objeto digital secundario o de nivel inferior.
Como puede ser el caso: en un concierto cada pieza de un autor, en un recital de poesía cada poema
recitado, es un conferencia de varios autores la intervención de cada ponente, en un libro un
capítulo particular.
Los objetos digitales son las unidades que tienen una dirección especifica en los directorios
existentes en el repositorio. Los objetos están compuestos por varias partes: la parte principal que
corresponde al contenido; la parte auxiliar que corresponde a información sobre el contenido y
sobre las propias características como objeto digital. La parte auxiliar está formada a su vez por una
cabecera y por una coda.
La parte principal corresponderá al contenido de los libros, folletos, periódicos, cartas y cristales
que se suministrarán por la red. Estos contenidos estarán codificados con formatos diferentes
(XML, PDF, RTF, TXT) para adecuarse en su difusión a las necesidades del usuario. A formatos
distintos corresponden objetos digitales distintos aunque tengan el mismo contenido (texto). La parte auxiliar contiene información que ayuda a la gestión del objeto. En la cabecera se
describen los datos de la edición electrónica (utilizando el estándar TEI) y en la coda con
información sobre el objeto en sí mismo en la que se incluirán los metadatos, enlaces con objetos
vinculados, etc.; con ello se informa principalmente sobre las peculiaridades de la descripción
bibliográfica y del contenido (utilizando el estándar Dublín Core).
Codas
La coda contendrá información descriptiva sobre las peculiaridades o atributos de cada objeto
(consideraremos como objetos distintos los distintos formatos de una misma obra digitalizada,
aunque usaremos una misma coda para todos los objetos correspondientes a un mismo contenido).
Las codas proporcionarán información sobre la localización del objeto digital, los formatos en los
que se encuentra, materia a la que pertenece, autor, lengua y otras características bibliográficas, etc..
Su función es facilitar al usuario final, el descubrimiento y navegación por la información, ya que
sin ellos sería muy difícil unir repositorios de información con distintos orígenes. En resumidas cuentas las codas son registros informáticos compuestos de diferentes campos, cada
uno de ellos puede alojar uno o varios atributos, con los que describir a los objetos digitales, a los
objetos digitales secundarios asociados, y también a colecciones de objetos vinculados entre sí por
alguna propiedad. Cuando se trate de colecciones de objetos digitales tendremos dos tipos de codas,
en un tipo se describirán los objetos (y eventualmente los objetos secundarios asociados) y en otro
tipo las colecciones. Las codas de los objetos describirán las características específicas del objeto y
reflejará las relaciones con otros objetos Las codas de las colecciones describirán las características generales de esa colección, es decir,
información que no se encontrará en ninguno de los objetos de la misma.
Esta es una cosa importante de resaltar, que mientras entre los objetos digitales y los objetos físicos
existe una relación directa, de las codas sabemos que están asociacdas a un objetos digital pero
pueden existir codas que no estan asociadas a objetos digitales, por ejemplo si tenemos un conjunto
de articulos encuardernados en un volumen, del cual tendremos coda para cada articulo y otra para
el volumen fisico que las engloba.
4.­ Empleo del Dublin Core en el sistema de gestión de las codas
Todos los objetos digitales almacenados en el repositorio tienen asociada una coda, es decir, los
metadatos asociados a dicho objeto digital, para ello usamos el vocabulario del DCMI (Dublín
Core Metadata Iniciative ) y la sintaxis de RDF, cuyo objetivo es facilitar la recuperación de
contenidos a través de la Web. Debemos tener en cuenta que el futuro de la Web es la Web
Semántica, donde se pretende estructurar los recursos digitales según su significado, crear un
entorno donde los agentes de software sean capaces de realizar un aprendizaje inteligente de manera
que la recuperación de información sea más eficaz .
RDF está realizándose de cara a la futura web, por tanto el RDF es un lenguaje diseñado para poder
ser el punto de apoyo de la Web Semántica , es un marco para la descripción de recursos
(significado en inglés de las siglas Resource Description Framework) o metadata para la Web. El
RDF proporciona estructuras comunes que pueden ser usadas para el intercambio de datos mediante
la interoperatibilidad del XML. El RDF intenta proporcionar un método de expresión semántica no
ambiguo en un código entendible por la máquina.
Dentro del marco de RDF es necesaria la definición de un vocabulario para poder realizar la
descripción de los recursos, en el caso del Ateneo el vocabulario utilizado será Dublín Core.
El objetivo del Dublín Core es definir un conjunto básico de atributos que sirvan para describir
todos los recursos existentes en la red. La definición del conjunto básico de atributos se ha llevado a
cabo a nivel internacional y con participantes de diversas disciplinas.
Podemos resumir las principales características de Dublín Core de la siguiente manera:
Simplicidad, pensado para que pueda ser utilizado tanto por bibliotecarios como por
cualquier autor que desee describir sus documentos y aumentar su visibilidad.
Consenso internacional en el número y definición de los elementos.
Flexibilidad, nada en el DC es obligatorio, todos los elementos son opcionales y repetibles,
así el usuario elige la profundidad de una descripción.
Las codas, son los ficheros utilizados para la descripción de los recursos digitales de la Biblioteca
del Ateneo, estarán almacenadas en un directorio en el servidor del Ateneo de Madrid, dicho
directorio será independiente del depósito y del repositorio, y sobre las codas recaerá la
administración y gestión del repositorio. Para establecer la forma de gestión de las codas hemos
hecho un análisis de las herramientas disponible para ello.
Las codas estan basadas en los 15 elementos basicos del Dublin Core, si bien haremos especial
hincapie en el uso de los “refinamientos” de los elementos basicos destinados a la descripcion de las
relaciones entre objetos HasPart, HasVersion, IsPartOf, .....pues estas relaciones son las que nos
facilitarán la relación con otros materiales relacionados, permitiendo así una búsqueda de
información más afinada.
Estructura de la coda. Para definir la estructura de los registros de la coda usaremos el estándar Dublín Core, del que, a
continuación, damos una descripción sucinta. En este estándar se utilizan quince elementos base,
que están agrupados en los tres bloques siguientes :
[DC Elements ­ 1 ] 1. Titulo (Etiqueta: TITLE). Nombre dado al documento por el creador o editor del recurso.
2. Autor o Creador. (Etiqueta: CREATOR). La persona, institución o congreso responsable
principal de la creación intelectual del contenido del recurso. 3. Materia y palabras clave (Etiqueta: SUBJECT). Asunto o tema sobre el que versa el recurso.
4. Descripción (Etiqueta: DESCRIPTION). Descripción textual del contenido del recurso,
incluyendo resúmenes en el caso de documentos, o descripción del contenido en el caso de recursos
visuales.
5. Editor (Etiqueta: PUBLISHER). Entidad responsable de hacer disponible el recurso en la forma [DC Elements ­ 2]
6. Colaborador (Etiqueta: CONTRIBUTOR). Persona a organización, que ha hecho contribuciones
intelectuales significativas pero secundarias con respecto a las personas especificadas en el
elemento CREATOR .
7. Fecha (Etiqueta: DATE). Fecha en la que el recurso ha sido publicado o puesto a disposición de
los usuarios en la forma presente.
8. Tipo de recurso (Etiqueta: TYPE). La categoría del recurso, tales como página Web, novela,
poema, informe técnico, ensayo, diccionario. 9. Formato (Etiqueta: FORMAT). El formato de un recurso se usa para reconocer el software y
hardware que se necesitan para mostrar a operar con el recurso. 10. Identificador (Etiqueta: IDENTIFIER). Cadena de símbolos o numero utilizado para identificar
unívocamente un recurso digital. [DC Elements ­ 3]
11. Fuente (Etiqueta: SOURCE). Cadena de símbolos o numero usado para identificar
unívocamente el objeto (tanto impreso como electrónico) del que se deriva el recurso, si es
aplicable. 12. Lengua (Etiqueta: LANGUAGE). Es la Lengua en la que se expresa el contenido intelectual del
recurso..
13. Relación (Etiqueta: RELATION). Indica la relación de este recurso con otro. 14. Cobertura (Etiqueta: COVERAGE). Características espaciotemporales del recurso incluyendo
datos geoespaciales. 15.Gestión de los derechos (Etiqueta: RIGHTS). Es un enlace electrónico a una noticia sobre el
copyright, a una frase que indique cómo gestionar los derechos, o de un servicio que pudiera
suministrar información sobre la forma legal de acceder al recurso.
Para la creación de las codas usamos una serie de herramientas desarrolladas dentro de la
Biblioteca Digital, haciendo que sea posible un fácil mantenimiento, creación y modificación de las
codas. Se accederá a las herramientas a través de un navegador a una interfaz web, alojada en el
propio servidor de la Biblioteca Digital del Ateneo, existirá una primera pantalla donde
introduciremos el nombre del objeto digital del cual queremos hacer una coda y si existe la
aplicación nos permitirá modificarlo y si no existe procederemos a la creación. En ambos casos
pasaremos a una pantalla que constará de un formulario con una serie de campos, correspondientes
a los 15 elementos del conjunto básico del Dublin Core, y en caso de tener obras relacionadas pues
tendremos varias opciones a la hora de elegir el tipo de relación. Una vez pulsemos sobre el botón
de “creación” o “modificación” de codas , en el primer caso se creará un nuevo fichero rdf de codas
y en el segundo se modificará el fichero ya existente.
En la figura podemos observar, la pantalla de creación del fichero rdf de codas.
Los ficheros de codas, posteriormente lo utilizaremos en un buscador donde podemos buscar por
nombre, titulo o materia, en la primera búsqueda obtenemos como resultado una ficha sencilla y los
enlaces a los distintos formatos digitales de la obra, también tendemos la posibilidad de ampliar
detalles y ver una ficha más descriptiva.
Ejemplo de coda
Veamos un ejemplo. Damos a continuación la coda correspondiente al objeto digital : Discursos­
012.txt La coda correspondiente a dicho objeto digital, almacenada en el Repositorio, tiene la siguiente
forma:
<?xml version="1.0" ?>
<!DOCTYPE rdf:RDF (View Source for full doctype...)>
-- - <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:dc="http://purl.org/dc/elements/1.1/"
xmlns:dcterms="http://purl.org/dc/terms/">
-- - <rdf:Descriptionrdf:about="CodaDiscursos-012">
<dc:title>Discurso pronunciado por el Exmo. Sr. D. Francisco Martinez de la Rosa, el dia 13 de
Noviembre de 1856, con motivo de la apertura de las cátedras del Ateneo Científico y Literario de
esta corte.</dc:title>
<dc:creator>Martinez de la Rosa, Francisco</dc:creator>
<dc:subject />
<dc:description />
<dc:publisher>Biblioteca del Ateneo de Madrid</dc:publisher>
<dc:contributor />
<dc:date>2003­09</dc:date>
<dc:type>folletos</dc:type>
<dc:format>txt</dc:format>
<dc:format>pdf</dc:format>
<dc:format>xml</dc:format> <dc:identifier>http://ateneodemadrid.net/folletos/Discursos­12.txt</dc:identifier>
<dc:identifier>http://ateneodemadrid.net/folletos/Discursos­012.pdf</dc:identifier>
<dc:identifier>http://ateneodemadrid.net/folletos/Discursos­012.xml</dc:identifier>
<dc:source>Discurso pronunciado por el Exmo. Sr. D. Francisco Martinez de la Rosa, el día 13
de Noviembre de 1856, con motivo de la apertura de las cátedras del Ateneo Científico y Literario
de esta corte. Madrid.1856. Imprenta de Tejado. San Bartolomé, 14.</dc:source>
<dc:language>es</dc:language>
<dc:relation>Introduzca la URL de la obra relacionada</dc:relation>
<dc:coverage />
<dc:rights>Dominio Público</dc:rights>
</rdf:Description>
</rdf:RDF>
Descargar