Los repositorios digitales en la infraestructura para la e-ciencia. Aplicaciones con Fedora Gijón, 12-14 diciembre, 2007 Luis Zorita Vicente Alicia López Medina “e-ciencia”, la ciencia en la web •En red •En colaboración •En entornos distribuidos •Multidisciplinar, internacional, interinstitucional •Compartiendo recursos y aplicaciones •Acceso instantáneo la web (inteligente) Viejo mundo -Estático -Silo -Físico -Manual -Aplicación Nuevo mundo -Dinámico -Compartido -Virtual -Automático -Servicio Una web construida para que las “máquinas” (y los repositorios digitales lo son) puedan trabajar entre ellas de manera que ofrezcan a las personas (usuarios) servicios más complejos y eficientes. En este universo, la información debe ser “comprensible” y “abierta” también para las máquinas. Data y Datasets artículo s Publicación reutilización Modelos El ciclo de la comunicación científica REPOSITORIO DIGITAL: Un sistema en red (hardware, software) que proporciona servicios referidos a una colección de objetos digitales (toda información capaz de ser almacenada digitalmente): guardarlos de forma estructurada en un “lugar” seguro, de manera que puedan ser fácilmente accesibles y recuperables para ser usados, reutilizados y compartidos con diferentes propósitos y en diferentes contextos. Entornos de colaboración virtuales Data EPSRC National Crystallography Service TextGrid Plataforma para el procesamiento textual en un entorno de colaboración distribuido en humanidades. El proyecto enlaza archivos digitales que contienen documentos textuales y proporciona herramientas para el análisis, anotaciones, edición y publicación en colaboración. La unidad de información se hace heterogénea •Texto •Data •Simulaciones •Imágenes •Video •Cálculos •Análisis automatizados •Software Los repositorios digitales han de poder representar muchos tipos de información. • Y ha de estar disponible para ser consumida por máquinas (agentes, aplicaciones…) que las interpreten, las analicen, las visualicen para generar nuevas unidades de comunicación y nuevo conocimiento. Una representación del conocimiento computerizable que vive, crece e interactúa más que un registro pasivo Ser capaces de permitir nuevas asociaciones de ideas, como la memoria humana, para crear nuevos conocimientos; permitir la colaboración. Estándares, arquitecturas abiertas, servicios web... Apoyar no sólo la fase final de la investigación, la publicación formal de sus resultados, sino todo el proceso de comunicación científica, desde la recolección de los datos, su análisis, experimentación, comunicación informal y publicación final. Compartir sus trabajos en progreso con sus colegas, permitir anotaciones, trabajar juntos en la edición... Anotaciones Simulaciones, visualizaciones Ideas, versiones Previas, discusiones Rep Repository Infraestructura De repositorios publicaciones tesis La información como un “continuum” Infrastructure Datos en Bruto, datos Procesados, Pre-prints Patentes Source: e-SciDR Study/ A. Macdonald, P. Lord Tony Hey Modelo de información en red Comunidad virtual Comunidad virtual Comunidad virtual La información como un “continuum”, una red de conocimiento, viva, heterogénea, siendo usada y reutilizada en diferentes contextos y aplicaciones, en entornos distribuidos de colaboración, representando todas las fases del proceso de investigación, permitiendo nuevas asociaciones de objetos al modo de la memoria humana, facilitando nuevas formas de investigación y publicación URI-10 Service-B Graphite Overlay Fragment TypeURI-3 URI-3 I-2 UR e p Ty I-1 eUR p y T TypeURI-4 URI-2 LANL Re pository URI-5 TypeURI-5 Ty pe UR I-8 Typ eUR Cornell University and Los Alamos Nat’l Lab http://www.infosci.cornell.edu/pathways I-7 URI-8 Fedora arXiv Document URI-9 URI-7 URI-6 URI-1 TypeURI-6 URI-4 Grid dataset Web resource Image Object El movimiento “Open Access” “The Internet has fundamentally changed the practical and economic realities of distributing scientific knowledge and cultural heritage. For the first time ever, the Internet now offers the chance to constitute a global and interactive representation of human knowledge, including cultural heritage and the guarantee of worldwide access. In order to realize the vision of a global and accessible representation of knowledge, the future Web has to be sustainable, interactive, and transparent. Content and software tools must be openly accessible and compatible. “ Declaración de Berlín, 2003 • Fedora – Flexible – Extensible – Digital – Object – Repository – Architecture Fedora SOA RDF Fedora • • • Define una nueva estructura llamada objeto digital (DO) que puede ser serializada en xml (fedora.xsd) Puede gestionar el(los) asset(s) en forma local o remota Establece relaciones entre objetos digitales y entre los componentes de un objeto digital, expresadas en RDF: http://www.fedora.info/definitions/1/0/fedora-relsext-ontology.rdfs Ejemplo: http://62.204.194.45:8080/fedora/get/bibliuned:ETFSerie1-F444A3E3-4230-C5FF-C492BA3D011D7738/RELS-EXT • Control de acceso utilizando el estándar XACML con diferentes niveles de granularidad: -repositorio, -objeto -componentes dentro de un objeto (datastreams). • • • • Autenticación LDAP y Shibboleth Control y mantenimiento de las diferentes versiones de un objeto digital Auditoría Data curation PORTAL FEDERADO: Sistema de búsqueda y acceso centralizado a todos los contenidos digitales de los repositorios Portal de gestión Portal e-Spacio Portal OCW Portal TeleUned Portal Otros Servicios web: proyectos especiales (gestión de “curricula”, sistema de citación) E-Spacio E-administración OCW TeleUned Otros Cada una de estas aplicaciones puede tener su propio servidor FEDORA Almacenamiento (local o por referencia) Servicios de interoperabilidad: OAI-PMH, ORE, Google Servicios web de acceso Gestión: creación, versiones, auditoría, preservación, políticas de acceso (XACML) Gestión de objetos digitales FEDORA Bases de datos relacionales Bases de datos de ontologías AGENDA • • • • • Motivación Modelo de objeto digital Estándares Fedora Aplicaciones Aplicaciones • • • • Migración de datos “Data provider”: protocolo OAI-PMH Creación de una Revista digital Servicio de búsqueda -XML y RSS Migración de datos • Datos provenientes de Access • Datos provenientes de Mysql • Datos provenientes de Exist (base de datos XML nativa) Transformaciones xslt OD en foxml Data Provider • • • • Servicio OAI (conforme con el OAI-PMH) Difusión a través de recolectores Portal e-ciencia Información disponible para cualquier recolector Creación de una Revista digital • http://62.204.194.45:8080/fedora/get/bibliuned: revistaEPOS/demo:Collection/view/ Los mismos componentes básicos OD2 Otros tipos MIME Año 1984 PDF IsMemberOf Imagen portada IsMemberOf Dublin Core OD1 Contenedor Revista OD3 Lista.xml Artículo RELS-EXT Dublin Core HasPart Hojaestil o.xsl UD Servicio de búsqueda • Servicio de búsqueda – Resultado en XML – Búsqueda en distintos repositorios – Generando RSS Por hacer • Aprovechar la posibilidad de intercambiar información en formato XML para crear y desarrollar proyectos de colaboración en red • Estudiar y, si es posible, participar en la en el proyecto ORE (Object Reuse and Exchange ) orientado a modificar la forma en que se realiza el proceso de la comunicación y publicación científica. • Estudiar mecanismos de reutilización de data en proyectos GRID-Europa Algunas conclusiones • Creemos que esta elección tecnológica nos permite un alto grado de independencia de nuestros contenidos respecto a la representación elegida. • Está orientada a su despliegue en la web • Permite crear relaciones internas y externas entre unidades de información. • Permite asociar data con metainformación de una forma sencilla. • Utiliza esquemas estándar y publicados en la red para representar sus contenidos lo cual facilita la posibilidad de federación de contenidos. ¡Muchas gracias! [email protected] [email protected]