Digitalización de Documentos en Archivos y Bibliotecas Roberto Aguirre Bello Coordinador de Conservación y Restauración - Subdirección de Archivos La digitalización En la actualidad no cabe duda que estamos viviendo en la era digital. Muchas personas vienen a cursos como este donde se tratan temas de digitalización. Un tercio de la población de Chile tiene acceso a Intenet y desarrolla intercambio de imágenes e información digital mediante correo electrónico. El buscador Google tiene más de 240.000.000 de visitas diariamente. Podemos ver imágenes digitales de forma instantanea de los Juegos Olímpicos de Beijing y consultar libros de grandes bibliotecas por internet. ¿Somos uno de los elegidos? Las imágenes digitales son imágenes que se pueden ver en el computador, enviar por correo electrónico, ilustrar o formar parte de catalogos o páginas web. Pero estas no aparecen por milagro en el computador, tanto las imágenes obtenidas a través de la digitalización de un original análogo como las “nacidas digitales”, corresponden a un tipo de ordenamiento secuencial matemático que necesita ser decodificado por el computador y transformado a forma análoga para ser vista en la pantalla o impresa. 0100100011000101 Esta secuencia matemática en código binario contendrá los datos estructurales de la imagen que detrminarán la resolución, la profundidad de bits, las dimensiones de píxel, el tamaño del archivo y la compresión. El formato por su parte, contendrá la información de cómo decodificar la información existente. Analógico: Que representa de una manera continua en el tiempo la evolución de una magnitud. un sistema es analógico cuando las magnitudes de la señal se representan mediante variables continuas, esto es análogas a las magnitudes que dan lugar a la generación de esta señal. Pueden ser percibidas de manera directa por los sentidos. Digital: [Aparato o instrumento] que mide cantidades y las representa con números dígitos: reloj digital. Las señales digitales, en contraste con las señales analógicas, no varían en forma continua, sino que cambian en pasos o en incrementos discretos. La mayoría de las señales digitales utilizan códigos binarios o de dos estados. Sistema utilizado por computador. no pueden ser percibidos de manera directa por los sentidos. 01001110011011110010000001100101011100110010000001110000 01101111011100100010000001100001011011010110000101110010 01100111011000010111001001101111011100110010000001101100 01100010111001100100000011101100110000101100011011000010 1000110110100101101111011011100110010101110011001011000 0100000010001101101111011011000110010101100111011000010 1001100111011001000000111000001100101011100100110111100 000000111000101110101011001010110010001100001001000000 101010110111001100001001000000111001101100101011011010 000010110111001100001001000000111000001100001011100100 000010010000001110001011101010110010100100000011101100 101010110010101101100011101100110000101101110001000000 011000110111101110011001000000110001101110101011100100 1001001101001011011100110001101101000011010010111001100 00101010001110010101000101000101010010010001111001010010 0011101010100111001000100010000101010101011000011111010 00100101010100010100100100100101010001011101010000111110 010010010010001001000100001000100100100010001000101011 010001010000010001000100101001000010010100001110001000 01010001001000100100111101010010100100100100010111101010 Sonido análogo Sonido digital y análogo Qué es el Código Binario? Es una forma de representar números mediante el encendido o apagado de un interruptor (bit). 1 Encendido 0 Apagado Bit Un Byte es el juego de 8 interruptores en todas sus posibles combinaciones. Representa la mínima unidad de información binaria. (Una letra o un número). 128 128 00 64 64 00 32 32 00 16 16 00 88 00 44 00 22 00 11 00 128 64 32 16 8 4 2 1 0 0 0 0 0 0 0 1 =1 0 0 0 0 0 0 1 0 =2 0 0 0 1 0 1 0 0 = 20 0 0 1 0 1 1 0 1 = 45 ASCII American Standard Code for Information Interchange Jose = (74111115101) 01001010011011111110111001101100101 ASCII American Standard Code for Information Interchange Jose = (74111115101) 01001010011011111110111001101100101 Conversación entre comptadores Reloj binario Reloj binario 1 0 : 3 7 : 4 9 “Solo hay 11 tipos de personas: las que saben binario, las que no, y nosotros” Tipos de Recursos Digitales Recursos digitalizados Se crean a partir de originales análogos mediante un proceso de captura llamado digitalización. Materiales bibliográficos (libros, revistas, periódicos, mapas) Materiales especiales (fotografías, grabados, audio, video) Recursos “Nacidos Digitales” Son creados directamente en formato digital mediante el procesamiento de software o capturados de una escena por un equipo de conversión digital. Fotografía, audio, video, web, blogs, wikis, email, foros. Texto digital Son recursos digitales en que el valor de los bits representan diferentes caracteres y símbolos. Producidos directamente por un software (.doc .txt .html y otros) Reconocidos desde una imagen a través del uso de reconocimiento óptico de caracteres OCR (Optical Caracter Recognition) Util en tipografías del S. XIX y XX Poco útil en documentos antigos (manuscritos) Existen diferentes softwares en el mercado Requiere tiempo de edición y corrección Imágenes digitales (fijas) Mapas de bits Son imágenes que se pueden ver en el computador, enviar por correo electrónico, ilustrar o formar parte de catalogos o páginas web. Iconografía o texto (tratado como imagen) son los recursos digitales que se encuentran más comunmente en las BD. Estan formadas por un tipo de ordenamiento secuencial matemático (binario) que es decodificado por el computador y transformado a forma análoga para ser vista en la pantalla o impresa. Las estructuras o ficheros de datos representan generalmente una rejilla rectangular de pixeles que almacenan información de color. La secuencia matemática en código binario contiene los datos estructurales de la imagen que determinarán la resolución, la profundidad de bits, las dimensiones de píxel, el tamaño del archivo y la compresión. El formato por su parte, contendrá la información de cómo decodificar la información existente. Imágenes vectoriales Se construyen basándose en ecuaciones matemáticas se conforman con primitivas geométricas tales como puntos, líneas, curvas o polígonos. Audio digital Son señales (ondas) de audio analógicas representadas por ceros y unos capturadas a través de un muestreo. Los niveles de calidad estan determinados por el tamaño y la frecuencia de las muestras. Formatos comunes: wav (Wave Audio): gran calidad de reproducción, su principal problema es el tamaño de los archivos mp3 (MPEG-1 Audio Layer 3) formato con compresión y pérdida de calidad de reproducción. Video digital Son secuencias de imágenes y audio que son almacenadas y reproducidas en forma digital. Para una buena calidad en el video es necesario un método eficiente de compresión y una línea rápida para la trasferencia. Los sistemas de compresión de video se basan en que los cuadros del video tienen mucha información redundante, se consideran únicamente las diferencias que tiene un cuadro a otro y eliminan información. Buena parte de la información perdida no es perceptible al ojo humano. Formatos comunes: MPEG (Moving Picture Experts Group) es un estándar internacional para la compresión de video digital. Es el mas utilizado. Problemas: El despliegue demanda muchos recursos por parte del equipo del usuario y esto dificulta la prestación de un servicio eficiente. Requiere de un enlace con un ancho de banda que permita la transferencia rápida de archivos de tales dimensiones. Otros recursos digitales Bases de datos Conjuntos de datos que pertenecen al mismo contexto almacenados sistemáticamente para su posterior uso. Una biblioteca digital puede considerarse una base de datos compuesta en su mayoría por documentos y textos digitales indexados para su consulta. Sitios Web Es un conjunto de páginas web comunes a un dominio o subdominio de internet. Todos los sitios web públicamente accesibles conforman la World Wide Web de información. Las páginas web que componen los sitios cuentan con información jerarquizada e hiperenlaces que controlan el tráfico de los lectores a través de ellas. Existen muchas clases de sitios: sitios archivo, portales, sitios de comercio electrónico, sitios personales, institucionales, etc. Y diversas estrategias de recopilación y preservación. Blogs Un blog, también conocido como weblog es un sitio web periódicamente actualizado que recopila cronológicamente textos o artículos de uno o varios autores, apareciendo primero el más reciente, donde el autor conserva siempre la libertad de dejar publicado lo que crea pertinente. Deben su origen a las comunidades digitales y a los diarios on line. Fotologs Derivada del inglés photoblog (bitácora fotográfica). A diferencia de un álbum de fotos, en un fotolog se publican unas pocas fotos diarias, generalmente una sola, las que son combinadas con artículos de texto a modo de blogs. Wikis Es un sitio web colaborativo que puede ser editado por varios usuarios. La tecnología wiki permite que páginas web alojadas en un servidor público (las páginas wiki) sean escritas de forma colaborativa a través de un navegador, utilizando una notación sencilla para dar formato, crear enlaces, etc, conservando un historial de cambios que permite recuperar fácilmente cualquier estado anterior de la página. Cuando alguien edita una página wiki, sus cambios aparecen inmediatamente en la web, sin pasar por ningún tipo de revisión previa. Wiki también se puede referir a una colección de páginas hipertexto, que pueden ser visitadas y editadas por cualquier persona. Foros Los foros en Internet son también conocidos como foros de mensajes, de opinión o foros de discusión y son una aplicación web que le da soporte a discusiones en línea. Son los descendientes modernos de los sistema de noticias BBS (Bulletin Board System) y Usenet, muy populares en los años 1980 y 1990. Imágenes Digitalizadas (mapas de bits) Desde siempre el hombre ha intentado registrar y representar el mundo que lo rodea a través de la imagen. Edad Media 27.000 - 22.000 años de antiguedad Renacimiento Siglo XX Escritura con luz 1826 Soportes Fotográficos Daguerrotipo Placa de vidrio Ambrotipo Papel Albuminado Ferrotipo Papel Gelatina Materiales análogos soporte de papel: En las bibliotecas, archivos y centros de documentación existen diferentes tipos de materiales que pueden ser seleccionados para elproceso de digitalización. Estructura del documento: Materiales Bibliográficos (libros, revistas, periódicos, mapas) Materiales especiales (fotografías, dibujos, grabados) Modo en que se forma la imagen: Materiales de tono continuo (fotografías, dibujos, grabados, manuscritos) Materiales de trama: (impresos) Ejemplos estructura de la imagen Imágenes de trama Imágenes de tonocontinuo Imagen Digital Son fotos electrónicas tomadas de una escena o escaneadas de documentos fotografías, manuscritos, textos impresos e ilustraciones. Se obtienen, realizando un muestreo y confeccionando un mapa en forma de cuadrícula de puntos o elementos de la figura (píxeles). Los pixeles, son los mínimos elementos de formación de una imagen digital, equivale al grano de plata en una película fotográfica A cada píxel se le asigna un valor tonal (negro, blanco, matices de gris o color), el cual está representado en código binario (ceros y unos). Los dígitos binarios ("bits") para cada píxel son almacenados por una computadora en una secuencia y luego la computadora interpreta y lee los bits para producir una versión analógica para su visualización o impresión. Profundidad de bits Está determinada por la cantidad de bits utilizados para definir cada píxel. Cuanto mayor sea la profundidad de bits, tanto mayor será la cantidad de tonos (escala de grises o color) que puedan ser representados. Las imágenes digitales se pueden producir en blanco y negro (en forma bitonal), a escala de grises o a color. Una imagen bitonal está representada por píxeles que constan de 1 bit cada uno, que pueden representar dos tonos, utilizando los valores 0 para el negro y 1 para el blanco. Una imagen a escala de grises está compuesta por píxeles representados por múltiples bits de información, que típicamente varían entre 2 a 8 bits o más. Una imagen a color está típicamente representada por una profundidad de bits entre 8 y 24 o superior a ésta. En una imagen de 24 bits están divididos en tres grupos: 8 para el rojo, 8 para el verde, y 8 para el azul. Profundidad de bits 00 0 1 01 10 11 Ejemplo: En una imagen de 2 bits, existen cuatro combinaciones posibles: 00, 01, 10 y 11. Si "00" representa el blanco, y "11" representa el negro, entonces "01" es igual a gris claro y "10" es igual a gris oscuro. La profundidad de bits es dos, pero la cantidad de tonos que pueden representarse es 22 ó 4. A 8 bits, pueden asignarse 256 (28) tonos diferentes a cada píxel. La resolución Es la capacidad de distinguir los detalles espaciales finos en una imagen digital. Por lo general, la frecuencia espacial a la cual se realiza la muestra de una imagen digital (frecuencia de muestreo) es un buen indicador de la resolución. Este es el motivo por el cual puntos por pulgada (dpi) o píxeles por pulgada (ppi) son términos comunes y sinónimos utilizados para expresar la resolución de imágenes digitales. 300 DPI 150 DPI 75 DPI Dimensiones de píxel Son las medidas horizontales y verticales de una imagen, expresadas en píxeles. Las dimensiones de píxel se pueden determinar multiplicando tanto el ancho como la altura por el dpi. Un documento de 8 x 10 pulgadas que se escanea a 300 dpi posee dimensiones de píxel de 2400 píxeles (8 pulgadas x 300 dpi) por 3000 píxeles (10 pulgadas x 300 dpi). Rango Dinámico Es el rango de diferencia tonal entre la parte más clara y la más oscura de una imagen. Cuanto más alto sea el rango dinámico, se pueden potencialmente representar más matices en la imagen digital. Esta capacidad es más importante en los documentos de tono continuo que exhiben tonos que varían ligeramente, y en el caso de las fotografías puede ser el aspecto más importante de la calidad de imagen. Tamaño del Archivo Se calcula multiplicando el área de superficie (altura x ancho) de un documento a ser escaneado, por la profundidad de bits y el dpi2. Debido a que el archivo de imagen se representa en bytes, que están formados por 8 bits, divida esta cifra por 8. Tamaño de archivo = (altura x ancho x profundidad de bits x dpi2) 8 Ejemplo: Para una imagen de 8 bits de 13 x 18 cms. Escaneada a 300 dpi: 12 x18 x 8 x 90000/8 = 19.440.000 1 Kilobyte (KB) = 1.024 bytes,} 1 Megabyte (MB) = 1.024 KB 1 Gigabyte (GB) = 1.024 MB 1 Terabyte (TB) = 1.024 GB La compresión El tamaño del archivo para las imágenes digitales puede ser muy grande, complicando las capacidades informáticas y de redes de muchos sistemas. La compresión se utiliza para reducir el tamaño del archivo de imagen para su almacenamiento, procesamiento y transmisión. Todas las técnicas de compresión abrevian la cadena de código binario de una imagen sin comprimir, a una forma de abreviatura matemática, basada en complejos algoritmos. •Compresión con pérdida •Compresión sin pérdida En la comunidad de las bibliotecas y los archivos hay un importante debate acerca del uso de la compresión en archivos maestros de imágenes. Formato de Archivo Consiste tanto en los bits que comprende la imagen como en la información del encabezamiento acerca de cómo leer e interpretar el archivo. Los formatos de archivo varían fundamentalmente en términos de resolución, profundidad de bits, capacidades de color, y soporte para compresión y metadatos. Los más utilizados en imágenes digitales son: Tiff, Jpeg, Bmp, Gif. Las imágenes digitales pueden ser generadas de 2 maneras: Capturando una imagen analógica existente a través de un escaneado. Capturando una imagen de forma directa de una escena a través de una cámara digital •Escáners •Cámaras digitales •Softwares (Visualización, Edición, organización) El Escáner Su función es traducir información análoga a información digital, procesando los tonos continuos de una imagen en cuatro distintos colores: cian, magenta, amarillo y el negro (CMYK). El uso de un escáner es múltiple. Particularmente se utiliza en archivos bibliotecas y centros de documentación como medio de preservación de documentos originales y para facilitar el acceso a la documentación. •Escáner de cama plana •Escáner de tambor •Escáner de películas Escáner de cama plana: El scanner de cama plana recibe la imagen emulsión hacia abajo sobre la superficie de cristal y gracias a un conjunto de espejos se logra un barrido gradual por medio de sensores que se desplazan progresivamente, en conjunto con la luz, por debajo del cristal. Muchos scanners de este tipo están diseñados para digitalizar dibujos de línea, imágenes blanco y negro de tono continuo y texto. Es el más utilizado en Archivos Bibliotecas. Escáner de tambor: Este scanner presenta forma de tambor, el cual se rota para hacer la lectura de películas fotográficas, por lo tanto, sólo se aplica para explorar imágenes de transmisión como diapositivas. Este scanner es una inversión significante y de magnifica calidad. Sin embargo, se requiere de un usuario capacitado para que la reproducción de color y tonos sea la adecuada. Escáner de películas Se utilizan para digitalizar diapositivas, negativos fotográficos y documentos que no son adecuados para el escaneado directo. Pueden trabajar con varios formatos de película transparente, ya sea negativa, positiva, color o blanco y negro, de tamaño desde 35 mm hasta placas de 9 x 12 cm. Son muy usados en archivos fotográficos ya que obtienen una excelente calidad de imagen a partir de originales trnsparentes. Son de alto costo y su uso es limitado al no aceptar originales opacos. Algunas condiciones para tener en consideración para elegir un escáner para un proyecto digital son: •la resolución •la velocidad de exploración •el software •El tamaño •Los accesorios •la facilidad de uso •el precio Cámaras digitales: Aunque no existe una clara división de categorías, cabe distinguir tres clases principales de cámaras digitales, no sólo en función de su tamaño, sino sobre todo de acuerdo con los siguientes criterios: La resolución de las imágenes que se obtienen. La características de los lentes. (fijos, intercambiables) Los diferentes medios de almacenamiento. Las opciones de ajuste manual El precio. La resolución en una cámara digital: Cuantos más píxeles tiene una cámara, mayor es su capacidad para reproducir hasta los más pequeños detalles y estructuras. •La resolución (= número de píxeles en una foto digital) no dice tanto de la calidad de la imagen como del tamaño que puede tener la copia impresa en papel. •Cuanto mayor sea la resolución, mayor será el archivo de imagen y menor el número de imágenes que podrá almacenar la tarjeta de memoria. Norma empírica: Una resolución de 2 megapíxeles suele ser perfectamente adecuada para una página web, para enviar por correo electrónico o para obtener una copia en papel en el formato estándar de 10 x 15 cm. La resolución puede ser algo mayor para los formatos de copia de mayor tamaño o para realizar ampliaciones selectivas: en este caso será muy útil disponer de una resolución de 3, 4 ó 5 megapíxeles, según las necesidades individuales. Cámaras compactas de fácil manejo Son prácticas, se pueden llevar a todas partes y, si la situación lo requiere, muchos de estos modelos no sólo incorporan potentes funciones automáticas, sino también varias opciones de ajuste manual que permiten adaptar la cámara a las circunstancias del momento. Estas cámaras suelen tener una resolución de entre 1,5 y 2,5 millones de píxeles, que es más que suficiente para obtener copias de alta calidad en papel de formato estándar. Se utilizan principalmente para la obtención de fotografías de registro y no en reproducción digital orientada a la preservación de materiales de archivo. Cámaras de objetivo (lente) fijo: La cámara digital más habitual es comparable a una cámara convencional de 35 mm, tanto en sus dimensiones como en sus prestaciones y manejo. Estos modelos casi siempre incorporan un visor óptico, un objetivo con zoom, un pequeño monitor para visualizar las fotografías realizadas y una ranura para insertar una tarjeta de memoria en la que grabar las imágenes digitales. Las cámaras de esta categoría suelen tener una resolución de 3, 4 ó 5 millones de píxeles, lo que significa que se recogen datos suficientes para obtener incluso copias de mayor formato. Cámaras de objetivo intercambiable : Presentan ventajas en el tipo de visor (reflex) y en el tipo de óptica respecto de las cámaras de objetivo fijo. Permiten incorporar diferentes objetivos y toda una serie de accesorios. Pese a la importante rebaja que ha tenido este tipo de cámaras en los últimos años, el precio sigue siendo bastante alto por lo que todavía suponen un costo excesivo para algunas bibliotecas y/o archivos. Son utilizadas en los archivos y bibliotecas para hacer reproducciones de gran calidad de materiales originales. Medios de almacenamiento La tarjeta de memoria es a la cámara digital lo que la película a la cámara convencional. las tarjetas extraíbles son más prácticas, siempre que se disponga de ellas en número suficiente, porque ofrecen una capacidad prácticamente ilimitada. Posteriormente, una vez transferidas las fotos a un ordenador o reproducidas en papel, se pueden borrar y reutilizar de nuevo. Por el momento son cuatro los principales sistemas que se pueden encontrar: CompactFlash, SmartMedia, MemoryStick y SD o Multimedia. Consideraciones Fundamentales •Resolución adecuada •Softwares de manejo y utilización •Iluminación •Medio de almacenamiento •baterías y conexión a la corriente continua. Programas (software) de imágenes digitales La mayoría de los escáners y de las cámaras digitales traen sus propios programas asociados para trabajar con las imagenes. Por lo general, existen 3 tipos de softwares para trabajar con imágenes digitales: Softwares de visualización: Son programas que decodifican la información binaria convirtiéndola en imagen analógica. Permiten visualizar la imagen en el computador y presentan algunas funciones generales (zoom, rotación, impresión, entre otras). Entre los mas comunes se encuentra Imaging que es del grupo de programas de Microsoft Windows. Softwares de edición: Son programas que presentan poderosas herramientas para modificar la estructura de las imágenes digitales. Permitren hacer cambios en la mkodalidad de la imagen, el tamaño, realizar filtros entre otras. Entre los más comunes está el Adobe Photoshop, el Paint Shop Pro entre otros. Softwares de organización: corresponden comunmente a base de datos que permiten ingresar datos descriptivos de la imágenes y que facilitan su recuperación de manera eficiente y ordenada. Se pueden presentar a modo de galería de imágenes o de fichas con la información y visualización en pantalla. El Centro nacional del Patrimonio Fotográfico ha desarrollado un programa de organización MSAcces para el trabajo con materiales fotográficos patrimoniales. Software de visualización de imágenes Software de edición de imágenes Software de organización de fotografías digitales Roberto Aguirre Bello Unidad de Conservación y Restauración Archivo Nacional [email protected]