Fundamentos para la digitalización y gestión de largo plazo de colecciones digitalizadas CICAC - Comisión Nacional de Energía Atómica – octubre 2010 Primera reunión Lic. Fernando Boro FFyL - UBA / CONICET Daguerrotipo, c.1852, Paseo Colón hacia Parque Lezama Acostumbrados a los fenómenos del mundo físico, empezamos a enfrentar lo digital con los conocimientos y capacidades que nos habían sido útiles en la preservación de originales analógicos: Principios década de 1990 Discusión microfilm versus digital en bibliotecas y archivos Comparando características físicas / longevidad como soportes de información Microfilm: 500 años / 100 años Disco Magneto Óptico: ¿… años? IBM: refrescar (recopiar) cada 10 años Fundamentos para la digitalización... 2 Lic. F Daguerrotipo, c. 1854, Alameda hacia Retiro Pero enseguida se hizo claro que el mundo digital planteaba problemas nuevos, y requería de nuevas soluciones: Hoy se podría construir un medio de almacenamiento con materiales especiales, garantizando la estabilidad a largo plazo del soporte de archivos digitales Pero ese no es el verdadero problema, y ese soporte no resolvería los desafíos de la preservación de objetos digitales El problema tiene que ver con la propia “naturaleza” de los objetos digitales, y del mundo en el que “existen”, es decir, los entornos informáticos. Para acercarnos al problema, revisemos primero las características de los objetos físicos como portadores de información Fundamentos para la digitalización... 3 Lic. F Daguerrotipo, c. 1852, Fuerte de Buenos Aires, frente norte Objetos físicos Preservación tradicional, analógica Propiedades físico-químicas de los soportes (papel, microfilms, etc.) Preservación = extender vida útil de los soportes La preservación física del soporte suele preservar el contenido informativo / intelectual / artístico, etc. Si contrariando la razón de ser de la preservación moderna, guardáramos bajo siete llaves a un original físico por 100 años, nuestros nietos podrían acceder a la información contenida en él, siempre que el soporte se mantuviera en buenas condiciones. Lic. Fernando Boro 4 Fundamentos para la digitalización… Objetos físicos Contenidos accesibles directamente a los humanos, sólo se requiere luz y a lo sumo una lupa (microfilm) Se puede esperar muchos años entre la creación o adquisición del objeto y las acciones de preservación: “negligencia benigna” Originales físicos: tolerancia a daños parciales Normas de preservación bien conocidas y estables (estabilización, condiciones de almacenamiento) ¿Los objetos digitales comparten estas características? Lic. Fernando Boro 5 Fundamentos para la digitalización… “Naturaleza” de los objetos digitales Nunca “vemos” los datos digitales, los bits y bytes que son la forma de existencia de la información digitalizada o nacida digital, aquello que se guarda en los discos rígidos de nuestras computadoras. Pero es importante tener en cuenta que la “naturaleza” de la información digital no es otra que esas cadenas de ceros y unos, ya sea en una foto digital, música en mp3, texto electrónico, etc. Y esto tiene consecuencias directas frente al esfuerzo por preservar archivos digitales. Fuerte de Buenos Aires, circa 1860, en imagen analógica sobre papel (copia fotográfica) Fuerte de Buenos Aires, circa 1860, imagen digitalizada, guardada en un disco rígido o un CD. 010000101101100111010101000101010100 010101010100010001101010101010101010 101010101010101010101010000101110101 010101010010010101010100010101010101 010101110101010101010101111010101010 101010101010101010101010101010101010 101100101010101010100101010101010101 010101010101010101010101010101010101 010101010101010101010101010101010101 010101010101010101010101010101010101 101010101010000011110010101010101010 Lic. Fernando Boro 6 Fundamentos para la digitalización… “Naturaleza” de los objetos digitales Inicio del poema Martín Fierro, de José Hernández, como lo vemos impreso en copia analógica: Aquí me pongo a cantar Al compás de la vigüela, que al hombre que lo desvela una pena estrordinaria, como la ave solitaria con el cantar se consuela Lic. Fernando Boro 7 Inicio del poema Martín Fierro, de José Hernández. Texto ASCII guardado en computadora: 01010101010101010101010101010101010 10101010101010101010101010101010101 01010101010101010101010101010101010 10101010101010101010101010101010101 01010101010101010101010101010101010 10101010101010101001010101000101011 01011010101110101001001111010101010 01010101000111101010010101011010101 01010101010110101010101010101010101 01010101010101010101010101010101010 Fundamentos para la digitalización… “Naturaleza” de los objetos digitales Cuando chateamos, lo que se trafica por Internet no son las palabras que escribimos y leemos, sino cadenas de ceros y unos que ciertos programas (software) saben interpretar… Cuando una computadora arranca, aunque veamos un mensaje de texto legible, lo que se está procesando realmente son cadenas de ceros y unos. Nunca “vemos” ni “accedemos” a los datos digitales crudos realmente. Todo lo digital está codificado en cadenas de ceros y unos (bits, bytes): 1101010101010101010101010 ¿Cómo hacemos los humanos para acceder a esos datos codificados? ¿Y para preservarlos como información? ¿Hasta donde nos ayudan las prácticas conocidas de preservación de originales en bibliotecas, archivos y museos? Lic. Fernando Boro 8 Fundamentos para la digitalización… “Naturaleza” de los objetos digitales Acceso: sólo mediante el uso del hardware y el software apropiados. El software, con su entorno de hardware, realiza unas operaciones que convierten a esos ceros y unos en una representación analógica visible en el monitor, u otro dispositivo de salida. Lo que vemos, escuchamos o imprimimos desde una computadora, es una representación analógica de los datos binarios “reales”. Hardware y software actúan como “traductores”: convierten los ceros y unos en información analógica, accesible para nosotros Lic. Fernando Boro 9 Fundamentos para la digitalización… Hardware y software “traducen” la información codificada Una foto en pantalla… Para que este código, 0101010101010101010101010101010 1010101010101010101010101010101 0101010101010101010101010101010 1010101010101010101010111000101 0101010101010101010101010101010 1010101001101010101010101010010 1010101010111101000101001011100 0101010001001110110011010101011 se convierta en… Video y sonido Texto legible… Aquí me pongo a cantar Al compás de la vigüela, que al hombre que lo desvela una pena estrordinaria, como la ave solitaria con el cantar se consuela Lic. Fernando Boro 10 Fundamentos para la digitalización… Hardware y software “traducen” los datos codificados, pero… La tecnología cambia muy rápidamente: el nuevo hardware y software “ignora” cómo “traducir” el código creado 15 o 20 años atrás, y así vuelve efímeros a los datos digitales (Latín y griego clásicos: siglos para ser lenguas muertas) Por eso, puede perderse el acceso a la información, aún si el archivo digital está guardado en un soporte en perfectas condiciones Perdido el acceso, la información digital puede considerarse perdida, algo comparable con un incendio devastador en un museo o archivo físicos. Lic. Fernando Boro 11 Fundamentos para la digitalización… “Naturaleza” de los objetos digitales Ya hay muchos ejemplos de información digital que se ha perdido, desde soportes relativamente recientes (disquetes de 5 ¼) o bien desde las antiguas tarjetas perforadas de la década de 1960. Y en otros casos, debido a la obsolescencia y/o desaparición del software que creó los archivos. Obsolescencia tecnológica = Alto riesgo de pérdida ---> obliga a realizar acciones de preservación ahora, con la creación o ingreso de la colección digital Preservación digital = Preservación del acceso, o del caracter accesible de la información codificada Lic. Fernando Boro 12 Fundamentos para la digitalización… Preservación del acceso Cambio de paradigma respecto de la “preservación tradicional” Preservación digital toma en cuenta: Soportes Cadenas de bits 010001001 010101010 101011100 Formatos de archivo electrónico Software de acceso y visualización Ciclo de cambio tecnológico de hardware + software Lic. Fernando Boro 13 Fundamentos para la digitalización… Analógico y digital Analógico Digital Información accesible directamente por humanos Información inaccesible directamente por humanos Preservación centrada en los soportes No alcanza con preservar los soportes Tolera deterioro parcial No tolera deterioro parcial Soluciones conocidas y estables, estándares Campo en desarrollo, estandares emergentes Se puede esperar mucho tiempo Prever acciones de preservación desde el inicio de digitalización Lic. Fernando Boro 14 Fundamentos para la digitalización… Digitalización y desafíos Impresos, manuscritos, materiales fotográficos, mapas (imágenes fijas) Experiencia de muchos años, en muchas instituciones del mundo: estándares y buenas prácticas, manuales, cursos. Es el área más desarrollada y mejor comprendida Archivos sonoros Menor experiencia mundial, buenas prácticas sugeridas, complejidad técnica por los distintos tipos de soportes analógicos, algunos obsoletos Archivos fílmicos El área más desafiante y menos conocida: inexistencia de estándares, complejidad y diversidad de formatos y codificaciones, enorme tamaño de los archivos digitales (costos de los sistemas de almacenamiento) Otros Preservación digital de sitios web con valor histórico y cultural en distintos países (bibliotecas nacionales, programa Internet Archive, entre otros) Lic. Fernando Boro 15 Fundamentos para la digitalización… Estrategias de preservación digital De corto plazo Preservar los soportes (chequeos, refresco) Preservar integridad de la cadena de bits (chequeos) Usar formatos de archivo universales, no propietarios (TIFF, XML) Redundancia de copias de los objetos digitales Si todo falla ----> Arqueología digital = muy caro, no siempre funciona De largo plazo Registrar - documentar - controlar las distintas instancias de la información en formato digital, a lo largo del ciclo de vida (metadatos, diversas clases) Migración (formatos de archivo) Emulación R. Lorie, UVM – Dioscuri (Bib. Nac. Holanda) Lic. Fernando Boro 16 Fundamentos para la digitalización… Estrategias de preservación digital Migración Conversión de formatos de archivo, para mantenerlos “legibles” con los nuevos software del futuro. Práctica en uso en algunas instituciones, sobre colecciones de imágenes fijas Emulación Máquinas virtuales, software que emula antiguos entornos de hardware y software, manteniendo el código original (formato) del archivo intacto. Prueba de concepto: Dioscuri – Biblioteca Nacional de Holanda www.dioscuri.sourceforge.net/ Esquemas de metadatos Fundamentales, mucho trabajo realizado en los últimos años: interoperabilidad, búsqueda, acceso, preservación digital Lic. Fernando Boro 17 Fundamentos para la digitalización… La situación actual Iniciativas nacionales e internacionales desarrollaron un conjunto de buenas prácticas para la digitalización de originales, y para la preservación de largo plazo de objetos “nacidos digitales” o digitalizados Definición de estándares ISO para generar una infraestructura de preservación digital (OAIS y esquemas de metadatos normalizados) Aparición de herramientas de software para apoyar la gestión de la preservación digital Emergencia de buenas prácticas y estándares: resultado del consenso internacional entre especialistas de distintas disciplinas y pertenecientes a diversas instituciones Todavía es un campo en desarrollo, muchas líneas de investigación abiertas. No hay “recetas” sencillas válidas universalmente Lic. Fernando Boro 18 Fundamentos para la digitalización… Fotografía, c. 1880; Paseo de Julio y Cangallo desde el antiguo Muelle de Pasajeros Fin de la presentación Muchas gracias