Presentación de PowerPoint

Anuncio
Digitalización de Documentos en
Archivos y Bibliotecas
Roberto Aguirre Bello
Coordinador de Conservación y Restauración - Subdirección de Archivos
La digitalización
En la actualidad no cabe duda que estamos
viviendo en la era digital.
Muchas personas vienen a cursos como este
donde se tratan temas de digitalización.
Un tercio de la población de Chile tiene
acceso a Intenet y desarrolla intercambio de
imágenes e información digital mediante
correo electrónico.
El buscador Google tiene más de
240.000.000 de visitas diariamente.
Podemos ver imágenes digitales de forma
instantanea de los Juegos Olímpicos de
Beijing y consultar libros de grandes
bibliotecas por internet.
¿Somos uno de los elegidos?
Las imágenes digitales son imágenes que se pueden ver en el computador,
enviar por correo electrónico, ilustrar o formar parte de catalogos o páginas
web.
Pero estas no aparecen por milagro en el computador, tanto las imágenes
obtenidas a través de la digitalización de un original análogo como las
“nacidas digitales”, corresponden a un tipo de ordenamiento secuencial
matemático que necesita ser decodificado por el computador y transformado
a forma análoga para ser vista en la pantalla o impresa.
0100100011000101
Esta secuencia matemática en código binario contendrá los datos
estructurales de la imagen que detrminarán la resolución, la profundidad de
bits, las dimensiones de píxel, el tamaño del archivo y la compresión.
El formato por su parte, contendrá la información de cómo decodificar la
información existente.
Analógico:
Que representa de una manera continua en el
tiempo la evolución de una magnitud.
un sistema es analógico cuando las magnitudes de la señal se
representan mediante variables continuas, esto es análogas a
las magnitudes que dan lugar a la generación de esta señal.
Pueden ser percibidas de manera directa por los sentidos.
Digital:
[Aparato o instrumento] que mide
cantidades y las representa con números
dígitos: reloj digital.
Las señales digitales, en contraste con las señales analógicas, no
varían en forma continua, sino que cambian en pasos o en
incrementos discretos. La mayoría de las señales digitales utilizan
códigos binarios o de dos estados.
Sistema utilizado por computador.
no pueden ser percibidos de manera directa por los sentidos.
01001110011011110010000001100101011100110010000001110000
01101111011100100010000001100001011011010110000101110010
01100111011000010111001001101111011100110010000001101100
01100010111001100100000011101100110000101100011011000010
1000110110100101101111011011100110010101110011001011000
0100000010001101101111011011000110010101100111011000010
1001100111011001000000111000001100101011100100110111100
000000111000101110101011001010110010001100001001000000
101010110111001100001001000000111001101100101011011010
000010110111001100001001000000111000001100001011100100
000010010000001110001011101010110010100100000011101100
101010110010101101100011101100110000101101110001000000
011000110111101110011001000000110001101110101011100100
1001001101001011011100110001101101000011010010111001100
00101010001110010101000101000101010010010001111001010010
0011101010100111001000100010000101010101011000011111010
00100101010100010100100100100101010001011101010000111110
010010010010001001000100001000100100100010001000101011
010001010000010001000100101001000010010100001110001000
01010001001000100100111101010010100100100100010111101010
Sonido análogo
Sonido digital y análogo
Qué es el Código Binario?
Es una forma de representar números
mediante el encendido o apagado de
un interruptor (bit).
1
Encendido
0
Apagado
Bit
Un Byte es el juego de 8 interruptores en todas sus posibles combinaciones.
Representa la mínima unidad de información binaria. (Una letra o un
número).
128
128
00
64
64
00
32
32
00
16
16
00
88
00
44
00
22
00
11
00
128
64
32
16
8
4
2
1
0
0
0
0
0
0
0
1
=1
0
0
0
0
0
0
1
0
=2
0
0
0
1
0
1
0
0
= 20
0
0
1
0
1
1
0
1
= 45
ASCII
American Standard Code for Information Interchange
Jose = (74111115101) 01001010011011111110111001101100101
ASCII
American Standard Code for Information Interchange
Jose = (74111115101) 01001010011011111110111001101100101
Conversación entre comptadores
Reloj binario
Reloj binario
1
0 : 3 7 : 4 9
“Solo hay 11 tipos de personas:
las que saben binario, las que no,
y nosotros”
Tipos de Recursos Digitales
Recursos digitalizados
Se crean a partir de originales análogos mediante un proceso de captura
llamado digitalización.
Materiales bibliográficos (libros, revistas, periódicos, mapas)
Materiales especiales (fotografías, grabados, audio, video)
Recursos “Nacidos Digitales”
Son creados directamente en formato digital mediante el procesamiento
de software o capturados de una escena por un equipo de conversión
digital.
Fotografía, audio, video, web, blogs, wikis, email, foros.
Texto digital
Son recursos digitales en que el valor de los bits representan diferentes caracteres y
símbolos.
Producidos directamente por un software (.doc .txt .html y otros)
Reconocidos desde una imagen a través del uso de reconocimiento óptico
de caracteres OCR (Optical Caracter Recognition)
Util en tipografías del S. XIX y XX
Poco útil en documentos antigos (manuscritos)
Existen diferentes softwares en el mercado
Requiere tiempo de edición y corrección
Imágenes digitales (fijas)
Mapas de bits
Son imágenes que se pueden ver en el computador, enviar por correo electrónico,
ilustrar o formar parte de catalogos o páginas web.
Iconografía o texto (tratado como imagen) son los recursos digitales que se
encuentran más comunmente en las BD.
Estan formadas por un tipo de ordenamiento secuencial matemático (binario) que
es decodificado por el computador y transformado a forma análoga para ser vista en
la pantalla o impresa.
Las estructuras o ficheros de datos representan generalmente una rejilla
rectangular de pixeles que almacenan información de color.
La secuencia matemática en código binario contiene los datos estructurales de la
imagen que determinarán la resolución, la profundidad de bits, las dimensiones de
píxel, el tamaño del archivo y la compresión.
El formato por su parte, contendrá la información de cómo decodificar la
información existente.
Imágenes vectoriales
Se construyen basándose en ecuaciones matemáticas se conforman con primitivas
geométricas tales como puntos, líneas, curvas o polígonos.
Audio digital
Son señales (ondas) de audio analógicas representadas por ceros y unos capturadas a
través de un muestreo.
Los niveles de calidad estan determinados por el tamaño y la frecuencia de las muestras.
Formatos comunes:
wav (Wave Audio): gran calidad de reproducción, su principal problema es el
tamaño de los archivos
mp3 (MPEG-1 Audio Layer 3) formato con compresión y pérdida de calidad de
reproducción.
Video digital
Son secuencias de imágenes y audio que son almacenadas y reproducidas en forma
digital.
Para una buena calidad en el video es necesario un método eficiente de compresión y
una línea rápida para la trasferencia.
Los sistemas de compresión de video se basan en que los cuadros del video tienen
mucha información redundante, se consideran únicamente las diferencias que tiene un
cuadro a otro y eliminan información. Buena parte de la información perdida no es
perceptible al ojo humano.
Formatos comunes:
MPEG (Moving Picture Experts Group) es un estándar internacional para la compresión
de video digital. Es el mas utilizado.
Problemas:
El despliegue demanda muchos recursos por parte del equipo del usuario y esto dificulta
la prestación de un servicio eficiente.
Requiere de un enlace con un ancho de banda que permita la transferencia rápida de
archivos de tales dimensiones.
Otros recursos digitales
Bases de datos
Conjuntos de datos que pertenecen al mismo contexto almacenados sistemáticamente
para su posterior uso. Una biblioteca digital puede considerarse una base de datos
compuesta en su mayoría por documentos y textos digitales indexados para su consulta.
Sitios Web
Es un conjunto de páginas web comunes a un dominio o subdominio de internet.
Todos los sitios web públicamente accesibles conforman la World Wide Web de
información. Las páginas web que componen los sitios cuentan con información
jerarquizada e hiperenlaces que controlan el tráfico de los lectores a través de ellas.
Existen muchas clases de sitios: sitios archivo, portales, sitios de comercio electrónico,
sitios personales, institucionales, etc. Y diversas estrategias de recopilación y
preservación.
Blogs
Un blog, también conocido como weblog es un sitio web periódicamente actualizado que
recopila cronológicamente textos o artículos de uno o varios autores, apareciendo primero
el más reciente, donde el autor conserva siempre la libertad de dejar publicado lo que
crea pertinente.
Deben su origen a las comunidades digitales y a los diarios on line.
Fotologs
Derivada del inglés photoblog (bitácora fotográfica). A diferencia de un álbum de
fotos, en un fotolog se publican unas pocas fotos diarias, generalmente una sola, las
que son combinadas con artículos de texto a modo de blogs.
Wikis
Es un sitio web colaborativo que puede ser editado por varios usuarios.
La tecnología wiki permite que páginas web alojadas en un servidor público (las
páginas wiki) sean escritas de forma colaborativa a través de un navegador,
utilizando una notación sencilla para dar formato, crear enlaces, etc, conservando un
historial de cambios que permite recuperar fácilmente cualquier estado anterior de la
página.
Cuando alguien edita una página wiki, sus cambios aparecen inmediatamente en la
web, sin pasar por ningún tipo de revisión previa.
Wiki también se puede referir a una colección de páginas hipertexto, que pueden ser
visitadas y editadas por cualquier persona.
Foros
Los foros en Internet son también conocidos como foros de mensajes, de opinión o
foros de discusión y son una aplicación web que le da soporte a discusiones en línea.
Son los descendientes modernos de los sistema de noticias BBS (Bulletin Board
System) y Usenet, muy populares en los años 1980 y 1990.
Imágenes Digitalizadas (mapas de bits)
Desde siempre el hombre ha intentado registrar y representar el
mundo que lo rodea a través de la imagen.
Edad Media
27.000 - 22.000 años de antiguedad
Renacimiento
Siglo XX
Escritura con luz
1826
Soportes Fotográficos
Daguerrotipo
Placa de vidrio
Ambrotipo
Papel Albuminado
Ferrotipo
Papel Gelatina
Materiales análogos soporte de papel:
En las bibliotecas, archivos y centros de documentación existen diferentes tipos de
materiales que pueden ser seleccionados para elproceso de digitalización.
Estructura del documento:
Materiales Bibliográficos (libros, revistas, periódicos, mapas)
Materiales especiales (fotografías, dibujos, grabados)
Modo en que se forma la imagen:
Materiales de tono continuo (fotografías, dibujos, grabados, manuscritos)
Materiales de trama: (impresos)
Ejemplos estructura de la imagen
Imágenes de trama
Imágenes de tonocontinuo
Imagen Digital
Son fotos electrónicas tomadas de una escena o escaneadas de documentos fotografías, manuscritos, textos impresos e ilustraciones.
Se obtienen, realizando un muestreo y confeccionando un mapa en forma de
cuadrícula de puntos o elementos de la figura (píxeles). Los pixeles, son los
mínimos elementos de formación de una imagen digital, equivale al grano de
plata en una película fotográfica
A cada píxel se le asigna un valor tonal (negro, blanco, matices de gris o color),
el cual está representado en código binario (ceros y unos).
Los dígitos binarios ("bits") para cada píxel son almacenados por una
computadora en una secuencia y luego la computadora interpreta y lee los bits
para producir una versión analógica para su visualización o impresión.
Profundidad de bits
Está determinada por la cantidad de bits utilizados para definir cada píxel.
Cuanto mayor sea la profundidad de bits, tanto mayor será la cantidad de
tonos (escala de grises o color) que puedan ser representados.
Las imágenes digitales se pueden producir en blanco y negro (en forma
bitonal), a escala de grises o a color.
Una imagen bitonal está
representada por píxeles que constan
de 1 bit cada uno, que pueden
representar dos tonos, utilizando los
valores 0 para el negro y 1 para el
blanco.
Una imagen a escala de grises
está compuesta por píxeles
representados por múltiples bits
de información, que típicamente
varían entre 2 a 8 bits o más.
Una imagen a color está típicamente
representada por una profundidad de
bits entre 8 y 24 o superior a ésta. En
una imagen de 24 bits están divididos
en tres grupos: 8 para el rojo, 8 para
el verde, y 8 para el azul.
Profundidad de bits
00
0
1
01
10
11
Ejemplo: En una imagen de 2 bits, existen cuatro combinaciones
posibles: 00, 01, 10 y 11. Si "00" representa el blanco, y "11"
representa el negro, entonces "01" es igual a gris claro y "10" es
igual a gris oscuro.
La profundidad de bits es dos, pero la cantidad de tonos que
pueden representarse es 22 ó 4. A 8 bits, pueden asignarse 256
(28) tonos diferentes a cada píxel.
La resolución
Es la capacidad de distinguir los
detalles espaciales finos en una
imagen digital.
Por lo general, la frecuencia
espacial a la cual se realiza la
muestra de una imagen digital
(frecuencia de muestreo) es un
buen indicador de la resolución.
Este es el motivo por el cual
puntos por pulgada (dpi) o píxeles
por pulgada (ppi) son términos
comunes y sinónimos utilizados
para expresar la resolución de
imágenes digitales.
300 DPI
150 DPI
75 DPI
Dimensiones de píxel
Son las medidas horizontales y verticales de una imagen, expresadas en
píxeles.
Las dimensiones de píxel se pueden determinar multiplicando tanto el ancho
como la altura por el dpi.
Un documento de 8 x 10 pulgadas que se escanea a 300 dpi posee
dimensiones de píxel de 2400 píxeles (8 pulgadas x 300 dpi) por 3000 píxeles
(10 pulgadas x 300 dpi).
Rango Dinámico
Es el rango de diferencia tonal
entre la parte más clara y la más
oscura de una imagen.
Cuanto más alto sea el rango
dinámico, se pueden
potencialmente representar más
matices en la imagen digital.
Esta capacidad es más importante
en los documentos de tono
continuo que exhiben tonos que
varían ligeramente, y en el caso de
las fotografías puede ser el
aspecto más importante de la
calidad de imagen.
Tamaño del Archivo
Se calcula multiplicando el área de superficie (altura x ancho) de un
documento a ser escaneado, por la profundidad de bits y el dpi2.
Debido a que el archivo de imagen se representa en bytes, que están
formados por 8 bits, divida esta cifra por 8.
Tamaño de archivo = (altura x ancho x profundidad de bits x dpi2)
8
Ejemplo: Para una imagen de 8 bits de 13 x 18 cms. Escaneada a 300 dpi:
12 x18 x 8 x 90000/8 = 19.440.000
1 Kilobyte (KB) = 1.024 bytes,}
1 Megabyte (MB) = 1.024 KB
1 Gigabyte (GB) = 1.024 MB
1 Terabyte (TB) = 1.024 GB
La compresión
El tamaño del archivo para las imágenes digitales puede ser muy grande,
complicando las capacidades informáticas y de redes de muchos sistemas.
La compresión se utiliza para reducir el tamaño del archivo de imagen para su
almacenamiento, procesamiento y transmisión.
Todas las técnicas de compresión abrevian la cadena de código binario de una
imagen sin comprimir, a una forma de abreviatura matemática, basada en
complejos algoritmos.
•Compresión con pérdida
•Compresión sin pérdida
En la comunidad de las bibliotecas y los archivos hay un importante debate
acerca del uso de la compresión en archivos maestros de imágenes.
Formato de Archivo
Consiste tanto en los bits que comprende la imagen como en la
información del encabezamiento acerca de cómo leer e interpretar el
archivo.
Los formatos de archivo varían fundamentalmente en términos de
resolución, profundidad de bits, capacidades de color, y soporte para
compresión y metadatos.
Los más utilizados en imágenes digitales son: Tiff, Jpeg, Bmp, Gif.
Las imágenes digitales pueden ser generadas de 2 maneras:
Capturando una imagen analógica existente a través de un
escaneado.
Capturando una imagen de forma directa de una escena a través de
una cámara digital
•Escáners
•Cámaras digitales
•Softwares (Visualización, Edición, organización)
El Escáner
Su función es traducir información análoga a información digital,
procesando los tonos continuos de una imagen en cuatro distintos
colores: cian, magenta, amarillo y el negro (CMYK).
El uso de un escáner es múltiple. Particularmente se utiliza en archivos
bibliotecas y centros de documentación como medio de preservación de
documentos originales y para facilitar el acceso a la documentación.
•Escáner de cama plana
•Escáner de tambor
•Escáner de películas
Escáner de cama
plana:
El scanner de cama plana recibe la
imagen emulsión hacia abajo sobre la
superficie de cristal y gracias a un
conjunto de espejos se logra un
barrido gradual por medio de
sensores que se desplazan
progresivamente, en conjunto con la
luz, por debajo del cristal.
Muchos scanners de este tipo están
diseñados para digitalizar dibujos de
línea, imágenes blanco y negro de
tono continuo y texto.
Es el más utilizado en Archivos
Bibliotecas.
Escáner de tambor:
Este scanner presenta forma de tambor, el cual se rota para hacer la lectura
de películas fotográficas, por lo tanto, sólo se aplica para explorar imágenes
de transmisión como diapositivas.
Este scanner es una inversión significante y de magnifica calidad. Sin
embargo, se requiere de un usuario capacitado para que la reproducción de
color y tonos sea la adecuada.
Escáner de películas
Se utilizan para digitalizar diapositivas, negativos fotográficos y
documentos que no son adecuados para el escaneado directo. Pueden
trabajar con varios formatos de película transparente, ya sea negativa,
positiva, color o blanco y negro, de tamaño desde 35 mm hasta placas de
9 x 12 cm.
Son muy usados en archivos fotográficos ya que obtienen una excelente
calidad de imagen a partir de originales trnsparentes.
Son de alto costo y su uso es limitado al no aceptar originales opacos.
Algunas condiciones para tener en consideración
para elegir un escáner para un proyecto digital son:
•la resolución
•la velocidad de exploración
•el software
•El tamaño
•Los accesorios
•la facilidad de uso
•el precio
Cámaras digitales:
Aunque no existe una clara división de categorías, cabe distinguir tres
clases principales de cámaras digitales, no sólo en función de su
tamaño, sino sobre todo de acuerdo con los siguientes criterios:
La resolución de las imágenes que se obtienen.
La características de los lentes. (fijos, intercambiables)
Los diferentes medios de almacenamiento.
Las opciones de ajuste manual
El precio.
La resolución en una cámara digital:
Cuantos más píxeles tiene una cámara, mayor es su capacidad para
reproducir hasta los más pequeños detalles y estructuras.
•La resolución (= número de píxeles en una foto digital) no dice
tanto de la calidad de la imagen como del tamaño que puede tener
la copia impresa en papel.
•Cuanto mayor sea la resolución, mayor será el archivo de imagen y
menor el número de imágenes que podrá almacenar la tarjeta de
memoria.
Norma empírica:
Una resolución de 2 megapíxeles suele ser perfectamente adecuada
para una página web, para enviar por correo electrónico o para
obtener una copia en papel en el formato estándar de 10 x 15 cm.
La resolución puede ser algo mayor para los formatos de copia de
mayor tamaño o para realizar ampliaciones selectivas: en este caso
será muy útil disponer de una resolución de 3, 4 ó 5 megapíxeles,
según las necesidades individuales.
Cámaras compactas de fácil manejo
Son prácticas, se pueden llevar a todas partes y, si la situación lo
requiere, muchos de estos modelos no sólo incorporan potentes funciones
automáticas, sino también varias opciones de ajuste manual que permiten
adaptar la cámara a las circunstancias del momento.
Estas cámaras suelen tener una resolución de entre 1,5 y 2,5 millones de
píxeles, que es más que suficiente para obtener copias de alta calidad en
papel de formato estándar.
Se utilizan principalmente para la obtención de fotografías de registro y
no en reproducción digital orientada a la preservación de materiales de
archivo.
Cámaras de objetivo (lente) fijo:
La cámara digital más habitual es comparable a una cámara convencional
de 35 mm, tanto en sus dimensiones como en sus prestaciones y manejo.
Estos modelos casi siempre incorporan un visor óptico, un objetivo con
zoom, un pequeño monitor para visualizar las fotografías realizadas y una
ranura para insertar una tarjeta de memoria en la que grabar las imágenes
digitales.
Las cámaras de esta categoría suelen tener una resolución de 3, 4 ó 5
millones de píxeles, lo que significa que se recogen datos suficientes para
obtener incluso copias de mayor formato.
Cámaras de objetivo intercambiable :
Presentan ventajas en el tipo de visor (reflex) y en el tipo de óptica respecto
de las cámaras de objetivo fijo.
Permiten incorporar diferentes objetivos y toda una serie de accesorios.
Pese a la importante rebaja que ha tenido este tipo de cámaras en los
últimos años, el precio sigue siendo bastante alto por lo que todavía suponen
un costo excesivo para algunas bibliotecas y/o archivos.
Son utilizadas en los archivos y bibliotecas para hacer reproducciones de
gran calidad de materiales originales.
Medios de almacenamiento
La tarjeta de memoria es a la cámara
digital lo que la película a la cámara
convencional.
las tarjetas extraíbles son más prácticas,
siempre que se disponga de ellas en
número suficiente, porque ofrecen una
capacidad prácticamente ilimitada.
Posteriormente, una vez transferidas las
fotos a un ordenador o reproducidas en
papel, se pueden borrar y reutilizar de
nuevo.
Por el momento son cuatro los principales
sistemas que se pueden encontrar:
CompactFlash, SmartMedia, MemoryStick y
SD o Multimedia.
Consideraciones Fundamentales
•Resolución adecuada
•Softwares de manejo y utilización
•Iluminación
•Medio de almacenamiento
•baterías y conexión a la corriente continua.
Programas (software) de imágenes digitales
La mayoría de los escáners y de las cámaras digitales traen sus propios programas
asociados para trabajar con las imagenes. Por lo general, existen 3 tipos de
softwares para trabajar con imágenes digitales:
Softwares de visualización: Son programas que decodifican la información
binaria convirtiéndola en imagen analógica. Permiten visualizar la imagen en el
computador y presentan algunas funciones generales (zoom, rotación,
impresión, entre otras). Entre los mas comunes se encuentra Imaging que es
del grupo de programas de Microsoft Windows.
Softwares de edición: Son programas que presentan poderosas herramientas
para modificar la estructura de las imágenes digitales. Permitren hacer cambios
en la mkodalidad de la imagen, el tamaño, realizar filtros entre otras. Entre los
más comunes está el Adobe Photoshop, el Paint Shop Pro entre otros.
Softwares de organización: corresponden comunmente a base de datos que
permiten ingresar datos descriptivos de la imágenes y que facilitan su
recuperación de manera eficiente y ordenada. Se pueden presentar a modo de
galería de imágenes o de fichas con la información y visualización en pantalla.
El Centro nacional del Patrimonio Fotográfico ha desarrollado un programa de
organización MSAcces para el trabajo con materiales fotográficos patrimoniales.
Software de visualización de imágenes
Software de edición de imágenes
Software de organización de fotografías digitales
Roberto Aguirre Bello
Unidad de Conservación y Restauración
Archivo Nacional
[email protected]
Descargar