Presentación

Anuncio
EL USO DE LENGUAJES DE ETIQUETADO EN
LA DIGITALIZACIÓN DE COLECCIONES
Mtra. Clara López Guzmán
CPD-DGSCA-UNAM
Taller Mesoamericano y del Caribe de Bibliotecas Digitales
16 de mayo de 2002
RESUMEN
Nos encontramos en el momento de transición de la era del papel hacia la era
digital, en el que muchas instituciones están planeando o llevando a cabo
proyectos de digitalización a fin de facilitar su uso en la enseñanza, la
investigación y la difusión de la cultura. Los hábitos de los usuarios están
cambiando y cada vez son más exigentes en la calidad, facilidad y rapidez con que
obtienen la información. Ante este fenómeno, consecuencia de la aplicación de las
nuevas tecnologías, se experimentan diferentes formas de transmitir y adquirir el
conocimiento. En este momento, los proyectos de digitalización son un nuevo reto
para los responsables de bibliotecas y, especialmente, para los que emprenden la
desafiante tarea de implementar una biblioteca digital.
La digitalización correcta de documentos o archivos es el factor crucial para el
éxito del proyecto, con esto, no me refiero a la rapidez o eficiencia del escáner, si
no a la mezcla adecuada de los diversos factores y variables que afectan a un
proyecto de digitalización que pretenda lograr difusión, permanencia y
preservación de la información
La gran mayoría de los proyectos de digitalización tiene problemas que pudieron
haberse previsto con una buena planeación, antes de comenzar a digitalizar
materiales es fundamental hacer una reflexión inicial sobre tres factores claves, que
pueden ser determinantes para la viabilidad o censura del proyecto:
1. Definición de objetivos
2. Análisis de la comunidad y/o definición de usuarios
3. Disponibilidad de recursos
El punto 3 resulta de especial interés de esta exposición, la disponibilidad de
recursos incluye:
a) recursos financieros: compromiso institucional, presupuesto, patrocinadores;
b) recursos humanos: técnicos especializados, programadores, diseñadores,
especialistas en el manejo de información, coordinadores del proyecto;
c) recursos técnicos: derecho de autor, infraestructura de red, computadoras,
dispositivos de almacenamiento, escáneres, software para el procesamiento y
formatos de archivos.
Existe una gran controversia en torno al formato en el cual un archivo digital debe
ser publicado, se han llevado a cabo proyectos de digitalización en donde los
documentos quedan como imágenes, debido a su complejidad para un proceso de
reconocimiento de caracteres o por tener un valor gráfico, pueden almacenarse
como archivos multi -imagen en formato TIFF. Por otro lado, también se
encuentran los archivos PDF, en los que se permite una presentación muy similar
al impreso y es posible la restricción de funcionalidades como la modificación o
impresión del texto, lo cual da un sentimiento de seguridad al autor quien espera
que su obra no sea “ultrajada” con impresiones al por mayor o alteraciones al
texto, en el mejor de los casos. También se encuentran los formatos como DOC,
HTML o XML que dan una mayor libertad en la creación de textos y permiten
desarrollar sistemas de búsqueda más eficientes en un conjunto de documentos.
HTML (Hypertext Markup Language) y XML( eXtended Markup Language)
pertenecen a la familia de los lenguajes de marca o etiquetado. Estos lenguajes
provienen del SGML (Standard General Markup Language) un lenguaje que surgió
en 1985 con aplicaciones en diversos ramos. Los lenguajes de etiquetado
generalizado tienen las siguientes características principales:
•
•
•
•
•
Separa la estructura de su aspecto.
Las propiedades del texto se etiquetan según su función.
Facilita la generación de visualizaciones y la presentación de documentos.
El indizado se realiza sobre la estructura del documento, en texto completo.
Se facilita la independencia de los datos respecto de las aplicaciones.
SGML es muy versátil pero es de alta complejidad el nivel de programación que
debe hacerse para explotar sus funcionalidades.
El auge de Internet, sin duda, se debe al web, en donde se hace a un lado la
complejidad de SGML derivando de él, en 1989, al HTML, que hace una fácil
relación entre documentos a través de hiperligas y es muy sencillo utilizarlo para
elaborar documentos que deberán enlazarse y compartirse con otros sistemas, es el
primer acercamiento de los lenguajes de etiquetado para crear publicaciones
digitales en Internet. Aunque HTML es una excelente opción para la creación de
documentos digitales, tiene un número limitado de etiquetas y es poco flexible
para su uso en grandes cantidades de información. En 1996, aparece XML como el
lenguaje que va a cubrir las deficiencias que tiene HTML en la publicación de
documentos.
XML es un estándar internacional desarrollado con el auspicio del W3C1 , basado
en el uso de marcas o etiquetas, como lo hace HTML, con la diferencia de que se
tiene la libertad de definir las etiquetas que sean necesarias para elaborarse
documentos sencillos o extremadamente complejos, característica que lo perfila
como el lenguaje más adecuado para la publicación electrónica en Internet.
El éxito de XML en una aplicación, depende de la Definición del Tipo de
Documento (DTD) utilizado, éste representa la plantilla que define la estructura
semántica del documento y sirve para validar si las marcas se han efectuado
correctamente. La apariencia de los datos estará dada por una hoja de estilo (XSL),
la cual además permite dar dinamismo y funcionalidad al documento.
Para explicar más en detalle la utilización de XML como metalenguaje para un
proyecto de digitalización, en la ponencia de este Taller se expondrá la experiencia
del proyecto Leyes Mexicanas, que se lleva a cabo con la colaboración del Colegio de
México y la UNAM.
La presentación hecha en Power Point la podrá consultar después del evento en
http://biblioweb.dgsca.unam.mx/bd/len/lenguajes.html
El
proyecto
se
encuentra
en
línea
http://biblioweb.dgsca.unam.mx/dublanylozano
en
la
dirección
Bibliografía
Moving theory into practice: digital imaging for libraries and archives
Anne R. Kenney, Oya Y. Rieger, editores y autores principales
Mountain View CA: Research Libraries Group, 2000
ISBN 0-9700225-0-6
Handbook for digital projects: A management tool for preservation and access
Maxine K. Sitts
Northeast Document Conservation Center, 2000
ISBN 0-9634685-4-5
XML a través de ejemplos
Abraham Gutiérrez, Raúl Martínez
Alfaomega Ra-Ma, 2001
ISBN 970-15-0716-9
XML Bible
Elliotte Rusty Harold
IDG Books Worldwide, Inc.
ISBN 0-7645-3236-7
1
World Wide Web Consortium, creado en 1994 para apoyar el desarrollo de tecnologías y estándares para la
interoperabilidad del www. http://www.w3.org
Descargar