El Dublin Core es la principal iniciativa de metadatos a nivel mundial, el estándar más utilizado (ISO 15836­2003) para la descripción, gestión y recuperación de información electrónica y una infraestructura reconocida por todas las comunidades de información digital para la construcción de la Web Semántica. Por todo ello, en esta actividad paralela se analizará el uso de este estándar en proyectos españoles, a través de experiencias o iniciativas de implantación en nuestro país, que sirvan para evaluar e incentivar el uso de este estándar en España, así como para lograr una mayor cohesión de nuestros proyectos con la masa crítica internacional. La mesa redonda será una antesala perfecta para la conferencia internacional DC­2005 que se celebra este año en septiembre en nuestro país ( http://dc2005.uc3m.es). 1.­ La Biblioteca Digital del Ateneo Esta comunicación se enmarca en el objetivo del taller de mostrar experiencias españolas en curso, donde se emplee el Dublin Core. Tal es el caso de la experiencia que llevamos a cabo en la construcción de la Biblioteca Digital del Ateneo de Madrid. La Biblioteca del Ateneo es una biblioteca de investigación que nació como colección bibliográfica del Ateneo de Madrid, fundado en 1835.Tiene una extensa colección de libros y publicaciones periódicas, especialmente rica en obras del siglo XIX y primer tercio del siglo XX, abarcando todas las materias y varios idiomas. Sus fondos constan de 350.000 volúmenes aproximadamente, entre los que destaca una colección de 27.000 folletos (publicaciones de menos de 50 páginas). Además contiene colecciones de periódicos y revistas científicas, (alrededor de 100.000 vols) y otros materiales como cristales, microfilms, etc. En el año 2001, con el objetivo de modernizar e incorporar las nuevas tecnologías de la información, para facilitar la gestión y difusión de los contenidos de los fondos de la Biblioteca General, surge el proyecto ACLAMA. también con el objeto de facilitar las tareas de investigación para los socios del Ateneo así como a cualquier usuario en general, se crean una infraestructura que posibilita el uso de la biblioteca digital. La biblioteca digital contiene los siguientes tipos de objetos digitales, libros, folletos, publicaciones periódicas, imágenes, audio y manuscritos. En estos momentos, en la biblioteca digital del Ateneo existen unas 800 obras de textos digitalizadas, más de 5000 imágenes, 600 horas de audio de los actos y conciertos del Ateneo(todavía no de acceso público). 2.­ Proceso general de creación de objetos digitales materiales digitalización deposito repositorio Acceso publico WWW La figura que mostramos, es un esquema del proceso de creación de los objetos digitales que llevamos a cabo en la biblioteca digital del Ateneo 1.­ Material a digitalizar, En primer lugar se establecen los criterios de selección de material que se incorporará en la biblioteca digital 2.­ Digitalización. En segundo lugar se procederá a la digitalización del material, siguiendo las técnicas más adecuadas según sea el caso 3.­ OCR / Retoque fotografico / Optimización del sonido Para garantizar que el acceso mayoritario a los contenidos digitales, en el caso del texto se realiza el OCR y corrección posterior de los textos, en el caso de las imágenes se retocan y convierten a diversos formatos segun calidades, en el caso del audio, se quitan ruidos, normalizaciones y compresión . 4.­ Almacenamiento en el depósito . Una ver digitalizados los materiales, pasan al depósito, zona destinada al control de calidad final, así como a la creación de los metadatos correspondientes a: – Creación de cabecera (xml/TEI) – Creación de codas (Dublin Core) 5.­ Almacenamiento en repositorio . Una vez creados los metadatos, los objetos digitales son almacenados en el repositorio. 6.­ Acceso público. En última estancia, los materiales almacenados en el repositorio podrán ser accedidos a través de la web. 3.­ La estructura de objetos digitales Objetos digitales A cada una de las obras digitalizadas, ya sean texto, imagen o audio, la consideraremos un objeto digital, es decir, es un ítem, un todo coherente, que corresponde al equivalente de un objeto físico, un libro, un folleto, una imagen o un archivo de audio. En ciertos casos, conviene considerar cada subdivisión coherente de un objeto digital como un objeto digital secundario o de nivel inferior. Como puede ser el caso: en un concierto cada pieza de un autor, en un recital de poesía cada poema recitado, es un conferencia de varios autores la intervención de cada ponente, en un libro un capítulo particular. Los objetos digitales son las unidades que tienen una dirección especifica en los directorios existentes en el repositorio. Los objetos están compuestos por varias partes: la parte principal que corresponde al contenido; la parte auxiliar que corresponde a información sobre el contenido y sobre las propias características como objeto digital. La parte auxiliar está formada a su vez por una cabecera y por una coda. La parte principal corresponderá al contenido de los libros, folletos, periódicos, cartas y cristales que se suministrarán por la red. Estos contenidos estarán codificados con formatos diferentes (XML, PDF, RTF, TXT) para adecuarse en su difusión a las necesidades del usuario. A formatos distintos corresponden objetos digitales distintos aunque tengan el mismo contenido (texto). La parte auxiliar contiene información que ayuda a la gestión del objeto. En la cabecera se describen los datos de la edición electrónica (utilizando el estándar TEI) y en la coda con información sobre el objeto en sí mismo en la que se incluirán los metadatos, enlaces con objetos vinculados, etc.; con ello se informa principalmente sobre las peculiaridades de la descripción bibliográfica y del contenido (utilizando el estándar Dublín Core). Codas La coda contendrá información descriptiva sobre las peculiaridades o atributos de cada objeto (consideraremos como objetos distintos los distintos formatos de una misma obra digitalizada, aunque usaremos una misma coda para todos los objetos correspondientes a un mismo contenido). Las codas proporcionarán información sobre la localización del objeto digital, los formatos en los que se encuentra, materia a la que pertenece, autor, lengua y otras características bibliográficas, etc.. Su función es facilitar al usuario final, el descubrimiento y navegación por la información, ya que sin ellos sería muy difícil unir repositorios de información con distintos orígenes. En resumidas cuentas las codas son registros informáticos compuestos de diferentes campos, cada uno de ellos puede alojar uno o varios atributos, con los que describir a los objetos digitales, a los objetos digitales secundarios asociados, y también a colecciones de objetos vinculados entre sí por alguna propiedad. Cuando se trate de colecciones de objetos digitales tendremos dos tipos de codas, en un tipo se describirán los objetos (y eventualmente los objetos secundarios asociados) y en otro tipo las colecciones. Las codas de los objetos describirán las características específicas del objeto y reflejará las relaciones con otros objetos Las codas de las colecciones describirán las características generales de esa colección, es decir, información que no se encontrará en ninguno de los objetos de la misma. Esta es una cosa importante de resaltar, que mientras entre los objetos digitales y los objetos físicos existe una relación directa, de las codas sabemos que están asociacdas a un objetos digital pero pueden existir codas que no estan asociadas a objetos digitales, por ejemplo si tenemos un conjunto de articulos encuardernados en un volumen, del cual tendremos coda para cada articulo y otra para el volumen fisico que las engloba. 4.­ Empleo del Dublin Core en el sistema de gestión de las codas Todos los objetos digitales almacenados en el repositorio tienen asociada una coda, es decir, los metadatos asociados a dicho objeto digital, para ello usamos el vocabulario del DCMI (Dublín Core Metadata Iniciative ) y la sintaxis de RDF, cuyo objetivo es facilitar la recuperación de contenidos a través de la Web. Debemos tener en cuenta que el futuro de la Web es la Web Semántica, donde se pretende estructurar los recursos digitales según su significado, crear un entorno donde los agentes de software sean capaces de realizar un aprendizaje inteligente de manera que la recuperación de información sea más eficaz . RDF está realizándose de cara a la futura web, por tanto el RDF es un lenguaje diseñado para poder ser el punto de apoyo de la Web Semántica , es un marco para la descripción de recursos (significado en inglés de las siglas Resource Description Framework) o metadata para la Web. El RDF proporciona estructuras comunes que pueden ser usadas para el intercambio de datos mediante la interoperatibilidad del XML. El RDF intenta proporcionar un método de expresión semántica no ambiguo en un código entendible por la máquina. Dentro del marco de RDF es necesaria la definición de un vocabulario para poder realizar la descripción de los recursos, en el caso del Ateneo el vocabulario utilizado será Dublín Core. El objetivo del Dublín Core es definir un conjunto básico de atributos que sirvan para describir todos los recursos existentes en la red. La definición del conjunto básico de atributos se ha llevado a cabo a nivel internacional y con participantes de diversas disciplinas. Podemos resumir las principales características de Dublín Core de la siguiente manera: Simplicidad, pensado para que pueda ser utilizado tanto por bibliotecarios como por cualquier autor que desee describir sus documentos y aumentar su visibilidad. Consenso internacional en el número y definición de los elementos. Flexibilidad, nada en el DC es obligatorio, todos los elementos son opcionales y repetibles, así el usuario elige la profundidad de una descripción. Las codas, son los ficheros utilizados para la descripción de los recursos digitales de la Biblioteca del Ateneo, estarán almacenadas en un directorio en el servidor del Ateneo de Madrid, dicho directorio será independiente del depósito y del repositorio, y sobre las codas recaerá la administración y gestión del repositorio. Para establecer la forma de gestión de las codas hemos hecho un análisis de las herramientas disponible para ello. Las codas estan basadas en los 15 elementos basicos del Dublin Core, si bien haremos especial hincapie en el uso de los “refinamientos” de los elementos basicos destinados a la descripcion de las relaciones entre objetos HasPart, HasVersion, IsPartOf, .....pues estas relaciones son las que nos facilitarán la relación con otros materiales relacionados, permitiendo así una búsqueda de información más afinada. Estructura de la coda. Para definir la estructura de los registros de la coda usaremos el estándar Dublín Core, del que, a continuación, damos una descripción sucinta. En este estándar se utilizan quince elementos base, que están agrupados en los tres bloques siguientes : [DC Elements ­ 1 ] 1. Titulo (Etiqueta: TITLE). Nombre dado al documento por el creador o editor del recurso. 2. Autor o Creador. (Etiqueta: CREATOR). La persona, institución o congreso responsable principal de la creación intelectual del contenido del recurso. 3. Materia y palabras clave (Etiqueta: SUBJECT). Asunto o tema sobre el que versa el recurso. 4. Descripción (Etiqueta: DESCRIPTION). Descripción textual del contenido del recurso, incluyendo resúmenes en el caso de documentos, o descripción del contenido en el caso de recursos visuales. 5. Editor (Etiqueta: PUBLISHER). Entidad responsable de hacer disponible el recurso en la forma [DC Elements ­ 2] 6. Colaborador (Etiqueta: CONTRIBUTOR). Persona a organización, que ha hecho contribuciones intelectuales significativas pero secundarias con respecto a las personas especificadas en el elemento CREATOR . 7. Fecha (Etiqueta: DATE). Fecha en la que el recurso ha sido publicado o puesto a disposición de los usuarios en la forma presente. 8. Tipo de recurso (Etiqueta: TYPE). La categoría del recurso, tales como página Web, novela, poema, informe técnico, ensayo, diccionario. 9. Formato (Etiqueta: FORMAT). El formato de un recurso se usa para reconocer el software y hardware que se necesitan para mostrar a operar con el recurso. 10. Identificador (Etiqueta: IDENTIFIER). Cadena de símbolos o numero utilizado para identificar unívocamente un recurso digital. [DC Elements ­ 3] 11. Fuente (Etiqueta: SOURCE). Cadena de símbolos o numero usado para identificar unívocamente el objeto (tanto impreso como electrónico) del que se deriva el recurso, si es aplicable. 12. Lengua (Etiqueta: LANGUAGE). Es la Lengua en la que se expresa el contenido intelectual del recurso.. 13. Relación (Etiqueta: RELATION). Indica la relación de este recurso con otro. 14. Cobertura (Etiqueta: COVERAGE). Características espaciotemporales del recurso incluyendo datos geoespaciales. 15.Gestión de los derechos (Etiqueta: RIGHTS). Es un enlace electrónico a una noticia sobre el copyright, a una frase que indique cómo gestionar los derechos, o de un servicio que pudiera suministrar información sobre la forma legal de acceder al recurso. Para la creación de las codas usamos una serie de herramientas desarrolladas dentro de la Biblioteca Digital, haciendo que sea posible un fácil mantenimiento, creación y modificación de las codas. Se accederá a las herramientas a través de un navegador a una interfaz web, alojada en el propio servidor de la Biblioteca Digital del Ateneo, existirá una primera pantalla donde introduciremos el nombre del objeto digital del cual queremos hacer una coda y si existe la aplicación nos permitirá modificarlo y si no existe procederemos a la creación. En ambos casos pasaremos a una pantalla que constará de un formulario con una serie de campos, correspondientes a los 15 elementos del conjunto básico del Dublin Core, y en caso de tener obras relacionadas pues tendremos varias opciones a la hora de elegir el tipo de relación. Una vez pulsemos sobre el botón de “creación” o “modificación” de codas , en el primer caso se creará un nuevo fichero rdf de codas y en el segundo se modificará el fichero ya existente. En la figura podemos observar, la pantalla de creación del fichero rdf de codas. Los ficheros de codas, posteriormente lo utilizaremos en un buscador donde podemos buscar por nombre, titulo o materia, en la primera búsqueda obtenemos como resultado una ficha sencilla y los enlaces a los distintos formatos digitales de la obra, también tendemos la posibilidad de ampliar detalles y ver una ficha más descriptiva. Ejemplo de coda Veamos un ejemplo. Damos a continuación la coda correspondiente al objeto digital : Discursos­ 012.txt La coda correspondiente a dicho objeto digital, almacenada en el Repositorio, tiene la siguiente forma: <?xml version="1.0" ?> <!DOCTYPE rdf:RDF (View Source for full doctype...)> -- - <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:dcterms="http://purl.org/dc/terms/"> -- - <rdf:Descriptionrdf:about="CodaDiscursos-012"> <dc:title>Discurso pronunciado por el Exmo. Sr. D. Francisco Martinez de la Rosa, el dia 13 de Noviembre de 1856, con motivo de la apertura de las cátedras del Ateneo Científico y Literario de esta corte.</dc:title> <dc:creator>Martinez de la Rosa, Francisco</dc:creator> <dc:subject /> <dc:description /> <dc:publisher>Biblioteca del Ateneo de Madrid</dc:publisher> <dc:contributor /> <dc:date>2003­09</dc:date> <dc:type>folletos</dc:type> <dc:format>txt</dc:format> <dc:format>pdf</dc:format> <dc:format>xml</dc:format> <dc:identifier>http://ateneodemadrid.net/folletos/Discursos­12.txt</dc:identifier> <dc:identifier>http://ateneodemadrid.net/folletos/Discursos­012.pdf</dc:identifier> <dc:identifier>http://ateneodemadrid.net/folletos/Discursos­012.xml</dc:identifier> <dc:source>Discurso pronunciado por el Exmo. Sr. D. Francisco Martinez de la Rosa, el día 13 de Noviembre de 1856, con motivo de la apertura de las cátedras del Ateneo Científico y Literario de esta corte. Madrid.1856. Imprenta de Tejado. San Bartolomé, 14.</dc:source> <dc:language>es</dc:language> <dc:relation>Introduzca la URL de la obra relacionada</dc:relation> <dc:coverage /> <dc:rights>Dominio Público</dc:rights> </rdf:Description> </rdf:RDF>