Texto e hipertexto

Anuncio
Tecnología Multimedia
Profesor Coordinador:
Manuel Castro – Antonio Colmenar, UNED
Profesores de la asignatura:
Manuel Castro, UNED
Texto e Hipertexto
Máster en Ingeniería de la Web
Índice
Texto e Hipertexto .................................................................. 3 Caracteres y Glifos .................................................................. 3 Codificación de caracteres ..................................................... 3 ASCII ................................................................................ 3 ASCII extendido ................................................................... 5 ISO 8859............................................................................ 6 EBCDIC ............................................................................. 7 ISO 10646 .......................................................................... 7 UNICODE ........................................................................... 8 Glifos .................................................................................. 9 Páginas de código ................................................................ 9 Hipertexto .......................................................................... 11 OCR. Reconocimiento Óptico de Caracteres .................................. 15 Medios digitales. Edición, codificación e integración
2 de 16
Máster en Ingeniería de la Web
Texto e Hipertexto
El hipertexto se ha utilizado desde un principio en Informática para almacenar
información y presentar ésta en forma de texto entendible, los avances en
hardware y programación han permitido añadir gráficos y mejorar la
presentación de la información. Cuando el flujo de la información, que
aparece en la pantalla del ordenador, es controlable por el usuario, se
empieza a hablar de hipertexto. Si bien hace tiempo que fueron acuñados, los
sistemas hipertexto han alcanzado auge en la actualidad, con el
abaratamiento y popularización de los periféricos de almacenamiento masivo
de datos y la llegada de Internet.
Caracteres y Glifos
Codificación de caracteres
Los PCs tratan información binaria, unos y ceros, por lo que es necesario
asociar a un conjunto de bits o código un carácter. Por tanto podemos decir que los
caracteres se representan mediante códigos de caracteres. A continuación vamos a
describir los más utilizados:
ASCII
Es el código americano estándar para el intercambio de información. Utiliza 7
bits para representar un carácter. Por tanto solo es posible representar 2 7 =128
caracteres distintos, los cuales corresponden a: 26 letras mayúsculas, 26 letras
minúsculas, 10 dígitos decimales, signos de puntuación, caracteres especiales y
caracteres de control no imprimibles.
A continuación se muestra el código ASCII de 7 bits.
Tabla ASCII
Medios digitales. Edición, codificación e integración
3 de 16
Máster en Ingeniería de la Web
MSD: Digito más significativo.
Medios digitales. Edición, codificación e integración
LSD: Digito menos significativo
4 de 16
Máster en Ingeniería de la Web
Las dos primeras columnas corresponden a caracteres de control. En la
siguiente tabla veremos el significado de cada uno de ellos:
Códigos de Control de la tabla ASCII
ASCII extendido
El código ASCII pronto se hizo demasiado restrictivo, ya que no se incluían
muchos caracteres como por ejemplo la ñ en el lenguaje castellano u otros
caracteres pertenecientes a alfabetos no latinos. Para representar un carácter se
utilizan 8 bits, 2 8 =256 caracteres. Es decir se aumenta el código ASCII en 128
caracteres más.
A diferencia del ASCII original, existen múltiples variedades de ASCII
extendido. En la siguiente figura podremos ver una de las posibles extensiones de
código ASCII.
Códigos de 128 al 255
Medios digitales. Edición, codificación e integración
5 de 16
Máster en Ingeniería de la Web
ISO 8859
Es una norma ISO que codifica un carácter en 8 bits. Los 128 coinciden con el
US-ASCII pero los 128 siguientes permiten codificar caracteres utilizados en otros
sistemas de escritura. Es decir algunas de las codificaciones de ASCII extendido se
han convertido en un estándar.
A Continuación vamos a enumerar los conjuntos ISO 8859 que incluyen los siguientes
alfabetos:
•
•
•
•
•
•
•
•
•
•
•
•
•
•
ISO 8859-1
ISO 8859-2
ISO 8859-3
ISO 8859-4
ISO 8859-5
ISO 8859-6
ISO 8859-7
ISO 8859-8
ISO 8859-9
ISO 8859-10
ISO 8859-11
ISO 8859-13
ISO 8859-14
ISO 8859-15
Lenguas de Europa occidental (Latin-1)
Lenguas de Europa oriental (Latin-2)
Lenguas del sudeste de Europa, y otras (Latin-3)
Lenguas escandinavas/balcánicas (Latin-4)
Latín/cirílico
Latín/árabe
Latín/griego
Latín/hebreo
Modificación de Latin-1 para el turco (Latin-5)
Lenguas lapona/nórdica/esquimal (Latin-6)
Tailandés
Lenguas de la Ribera del Báltico (Latin-7)
Celta (Latin-8)
Lenguas de Europa occidental (Latin-9)
Medios digitales. Edición, codificación e integración
6 de 16
Máster en Ingeniería de la Web
EBCDIC
Es el método de codificación de IBM. Su intención fue ampliar la codificación
ASCII de 7 Bits, por lo que EBCDIC es una codificación de 8 bits, 2 8 =256 caracteres
Tabla EBCDIC
ISO 10646
Es un estándar internacional que define el conjunto de caracteres universal,
UCS (Universal Character Set). UCS contiene el conjunto de los caracteres necesarios
para representar casi todos los lenguajes conocidos.
El estándar UCS (ISO 10646) describe una arquitectura del conjunto de
caracteres de 31 bits. No obstante, hoy en dia sólo a los primeros 65534 códigos
(desde 0x0000 a 0xfffd), que se denominan BMP (Basic Multilingual Plane - Plano
Multilingüe Básico), se les han asignado caracteres, y se espera que sólo caracteres
muy exóticos (p.ej. jeroglíficos) de uso científico especial obtengan alguna vez un
lugar fuera de este BMP de 16 bits.
Medios digitales. Edición, codificación e integración
7 de 16
Máster en Ingeniería de la Web
Los caracteres UCS 0x0000 a 0x007f son idénticos a los del conjunto de
caracteres US-ASCII clásico y los caracteres en el rango de 0x0000 a 0x00ff son
idénticos a los del conjunto de caracteres ISO 8859-1 (Latin-1).
Algunos códigos en UCS han sido asignados como caracteres de combinación.
Así por ejemplo, en alemán el carácter Umlaut-A (“A mayúscula con diéresis”) puede
representarse por el código UCS 0x00c4 o alternativamente como la combinación de
una “A mayúscula” seguida por una diéresis: 0x0041 0x0308.
UNICODE
Como ya hemos dicho anteriormente ISO 10646 define el UCS que engloba la
mayoría de los sistemas de escritura del mundo. Este conjunto es definido por el
estándar Unicode, además de proporcionar información sobre los caracteres y su
utilización.
ISO 10646 y Unicode definen varias formas de codificación: UTF-8, UTF-16, UCS2,
UTF-32 y UCS4. Donde cada carácter es representado por una o más unidades de
codificación.
•
UTF-8: Su unidad de codificación es el octeto. tiene las siguientes
características:
o
El número de caracteres de u+0000 a u+007F corresponde a los
caracteres ASCII de 7 bits. Por tanto una cadena ASCII es también un
UTF-8 válido.
o
La conversión entre UTF-8 y otra forma de codificación no es
compleja.
o
El primer octeto de una secuencia multiocteto indica el número de
octetos de la secuencia, como se puede ver en la tabla siguiente.
Rango Hexadecimal
0000 0000 – 0000 007F
UTF-8 Secuencia octeto
0xxxxxxx
0000 0080 – 0000 07FF
110xxxxx 10xxxxxx
0000 0800 – 0000 FFFF
1110xxxx 10xxxxxx 10xxxxxx
0001 0000 – 0010 FFFF
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
Nota: X indica que es un bit disponible para la codificación del carácter.
•
UTF-16: Su unidad de codificación es la palabra o Word (16 bits).
•
UTF32: Su unidad de codificación es la doble palabra o DWord (32 bits).
Medios digitales. Edición, codificación e integración
8 de 16
Máster en Ingeniería de la Web
Glifos
Los usuarios no ven, ni imprimen caracteres, sino que los usuarios ven e
imprimen glifos. Un glifo es la representación gráfica de un carácter. Por ejemplo la
letra mayúscula y cursiva “u”, en Times New Roman tiene asociado el glifo “U”.
Una fuente es una colección de glifos. Los sistemas operativos son capaces de
conocer el glifo apropiado utilizando información mapeada del teclado, el lenguaje
utilizado y de los glifos asociados a cada carácter.
Los glifos pueden también representar combinaciones de caracteres. No existe
una estricta correspondencia uno a uno entre carácteres y glifos. Por ejemplo dos
caracteres unidos pueden ser representados por un glifo. Imaginemos que un alumno
pulsa la tecla “a”, “f” y “t” según la información mapeada el resultado podría ser el
siguiente:
Otro ejemplo podría ser la unión del carácter “f” y el carácter “i”. El
resultado de teclear ambas teclas seguidas sería:
Las posibles relaciones que puede tener uno o varios caracteres con uno o
varios grifos son:
•
Un glifo Æ un carácter.
•
Varios glifos Æ un carácter. En algunos lenguajes dependiendo de
donde este colocada la letra se escribe de una manera u otra.
•
Un glifo Æ varios caracteres.
Páginas de código
Una página de códigos es una lista de códigos de caracteres en un cierto
orden. Las páginas de código normalmente se definen para soportar lenguajes o
grupos de lenguajes que comparten un sistema de escritura común. El orden del
Medios digitales. Edición, codificación e integración
9 de 16
Máster en Ingeniería de la Web
código del carácter en la página de códigos proporciona a una aplicación el código
del carácter cuando el usuario presiona una tecla del teclado.
En Windows las páginas de código pueden modificarse “al vuelo” sin cambiar
el lenguaje por defecto. Los juegos de caracteres, ya sean ASCII, Unicode o de
cualquier tipo, se materializan dentro de la máquina en unas tablas denominadas
páginas de códigos, que establecen la relación entre cada glifo y su valor numérico.
Las páginas de códigos pueden ser cualquiera, incluso construidas por el usuario,
pero las utilizadas más frecuentemente están estandarizadas. Existen dos tipos:
•
•
ACP ("ANSI Code Pages") Las que han sido estandarizadas por el
Instituto de Estándares Americano. Por ejemplo: la página de códigos
ANSI 1252 corresponde al Inglés-Americano y a la mayoría de lenguas de
Europa occidental.
OCP ("OEM Code Pages") Son propuestas por fabricantes u
organizaciones no oficiales (OEM significa "Original Equipment
Manufacturer").
Generalmente las páginas de código son mantenidas por el Sistema Operativo.
Medios digitales. Edición, codificación e integración
10 de 16
Máster en Ingeniería de la Web
Hipertexto
La versión estrictamente teórica del Hipertexto responde exactamente a las
formas básicas del estructuralismo y propone que cada pieza del texto, cada
palabra, será tratada como un elemento relacionable en un sistema de
información. De esta manera, se puede acceder a enormes cantidades de
datos relacionados a través de palabras claves y búsquedas (Castro y otros,
1996).
A diferencia de lo que son las llamadas a pie de página o notas de un texto,
los distintos cuerpos o espacios textuales del hipertexto poseen autonomía.
Crecen y se modifican de forma independiente y sólo se ven cuando son
activados a través de las palabras claves o puntos de conexión, a los que se
llama nodos.
Es obvio que cuando se planifica un viaje o se narra un hecho, se hace de
manera hipertextual, yéndose por las ramas como se suele decir y haciendo
mención a definiciones o narraciones anexas que ayudan a completar la idea
del discurso. Esto demuestra que el hipertexto no es un invento del
ordenador, sino un descubrimiento del pensamiento humano que encontró en
la máquina una herramienta para su propio crecimiento; los primeros
hipertextos creados en papel, jamás gozaron de versiones electrónicas y entre
otros se pueden contar el libro de Julio Cortázar Rayuela, considerado como
un hipertexto, ya que puede leerse de manera lineal hasta el capítulo 56 o
tomar el camino que sugiere el autor. Algunos poemas de Cortázar también
están construidos en forma hipertextual. El Jardín de los senderos que se
bifurcan o El Aleph, de Jorge Luis Borges, son libros que también hablan en
clave de hipertextualidad. En la colección de libros “Elige tu propia
aventura”, el lector toma parte activa seleccionando los espacios que desea
leer.
Lo primero que el ordenador le añadió, fue la posibilidad de presentar los
distintos cuerpos en forma casi inmediata permitiendo, a través de opciones
de fácil acceso, avanzar o retroceder para navegar por los mares de la
información.
“Por lo tanto, la diferencia básica entre un hipertexto y un texto tradicional
es la naturaleza exclusivamente secuencial de la información que presenta
este último. El hipertexto por el contrario, representa una red o sistema de
información en el que no se sigue un único orden de lectura. Las sucesivas
unidades de información están entrelazadas mediante vínculos o punteros que
permiten desplazarse en el documento”. Se entiende por hipertexto un texto
interactivo que incorpora otros elementos que no son propiamente texto. Es
por tanto, un sistema que vincula elementos de información mediante enlaces
activables.
Algunas formas de enlazar entre sí los diferentes nodos del hipertexto se
logran mediante un conjunto de botones que permiten la navegación hacia la
próxima página o a la página anterior, abandonar la sesión de trabajo o el
Medios digitales. Edición, codificación e integración
11 de 16
Máster en Ingeniería de la Web
libro, solicitar orientaciones generales sobre cómo utilizar el hipertexto,
consultar el índice temático, buscar directamente contenidos especificados
mediante palabras claves, realizar evaluaciones del aprendizaje o ejecutar
comprobaciones prácticas de los contenidos estudiados. Otra forma de enlace
utilizada son las denominadas palabras calientes, que se distinguen por su
color diferente al resto del texto y por el cambio en la forma del cursor del
ratón cuando el mismo se ubica encima de una de estas palabras. Los enlaces
se realizan, en general, mediante elementos designables en pantalla usando
el ratón (letras de color, palabras activas, frases o imágenes) y su objetivo
(texto plano, otro hipertexto, una imagen, una secuencia de vídeo o un
sonido).
Un hipertexto debe estructurarse jerárquicamente, pues así se facilita la
entrada a éste por múltiples puntos del documento final, flexibilizando su uso
para posteriores aplicaciones, (figura 1). Generar hipertexto es tan sencillo
como escribir un documento en un procesador de texto cualquiera, e ir
insertando marcas (elementos activables y referencias de documentos) que
definen las relaciones entre los distintos textos que lo definen. El hipertexto
puede ser desarrollado mediante múltiples formas, desde aplicaciones
informáticas personalizadas como Visual Basic, Borland C, Delphi, Toolbook,
etc., hasta pequeñas herramientas que generan hipertexto en formato .HLP
(como es el caso del procesador de texto Word), es decir, documentos que
son leídos por la ayuda de Windows, programa que acompaña al entorno por
lo que la visualización de estos ficheros está garantizada desde la instalación
de Windows. Pueden encontrarse otras herramientas para generar hipertexto
a precios asequibles (incluso versiones shareware): Help Builder, compilador
Entrada
Cap. 1
Cap. 2
Cap.
N
Glosario
Entrada
HC31 de Borland o Microsoft, etc.
Figura 1. Estructura jerárquica de un hipertexto
Uno de los programas que más fielmente se adaptan a la definición de
hipertexto es el programa Simply Help. Éste nació, tal como reconoce su
autor, como un entorno de creación de ayudas que son integradas en otros
programas que funcionan bajo el sistema operativo DOS. Los sistemas creados
con él son pantallas de texto independientes que se vinculan entre sí de
Medios digitales. Edición, codificación e integración
12 de 16
Máster en Ingeniería de la Web
diferentes formas. La sucesiva presentación de las mismas se puede realizar
por su orden natural o en cualquier orden que se diseñe mediante enlaces
hipertexto. Con el fin de moverse a través de las distintas pantallas, se pulsa
cualquier palabra de enlace con el ratón, o bien la tecla Intro cuando se
encuentre resaltada. Las últimas versiones permiten la posibilidad de enlazar
con programas externos de modo que, utilizando visores adecuados, es posible
dar a la publicación hipertexto un carácter multimedia más amplio.
Un sistema hipertextual completo debe proporcionar herramientas de
creación y edición de nodos y enlaces para formar hiperdocumentos,
permitiendo que un nodo esté conectado a otro en una compleja red. Estas
herramientas deben estar incluidas en un entorno que tenga una interfaz de
usuario que sea sencilla y flexible, y que dé un amplio rango de facilidades en
la construcción, modificación y actualización de documentos.
En la figura 2 se muestra un modelo general de arquitectura de sistemas
hipertextuales. Como primer nivel están dos tipos de usuarios: uno que
accede en forma de consulta (denominado usuario en la figura) y el otro que
es el creador del hiperdocumento (denominado autor). El primero puede
consultar y navegar por la base de información, mientras que el autor puede,
además, actualizar el sistema con las herramientas de mantenimiento. La
información con la que trabajan los dos está contenida en una base de datos
hipertextual.
Como se desprende de la figura 2 en los sistemas hipertextuales existen dos
formas básicas de acceso a la información, mediante navegación y por
interrogación. La experiencia en hipertextos ha demostrado que los
mecanismos de acceso por navegación no son suficientes. En algunas
aplicaciones normalmente caracterizadas por grandes redes estructuradas y
heterogéneas, los usuarios tienden a perderse mientras están buscando la
información de partida. En consecuencia para reforzar los mecanismos de
acceso (navegadores gráficos, visualizador de la red, etc.), muchos sistemas
hipertextuales soportan otros tipos de búsqueda por contenidos, que permite
a los usuarios examinar el hiperdocumento con una pregunta.
Medios digitales. Edición, codificación e integración
13 de 16
Máster en Ingeniería de la Web
Usuarios
Figura 2. Arquitectura de un hipertexto
2.2 Hipermedia
Como extensión del término hipertexto (escritura no secuencial), aparece el
término hipermedia, que implica enlaces y navegación en un material
almacenado en cualquier medio: texto, vídeo, sonido, música, gráficos, etc.
Hipermedia es el término que define el almacenamiento y recuperación de
información mediante un ordenador de una manera no secuencial. La
habilidad para moverse en la información textual y las imágenes es sólo la
mitad del sistema: un entorno que se denomina con propiedad como
hipermedia incluye herramientas que permiten al lector reelaborar el
material que se le presenta con un control total del usuario. Muchos autores
consideran sinónimos los términos hipertexto e hipermedia.
Medios digitales. Edición, codificación e integración
14 de 16
Máster en Ingeniería de la Web
OCR. Reconocimiento Óptico de Caracteres
El reconocimiento óptico de caracteres (OCR), es decir, que el ordenador
entienda las letras escritas sobre el papel y sea capaz de trabajar con ellas, es
uno de los grandes logros de los escáneres o sistemas de digitalización. Para
su correcto funcionamiento hace falta un software especial, que suele
incluirse con el aparato. La combinación software-hardware servirá para
ahorrar trabajo (teclear el texto) y para ahorrar espacio en disco (un
documento editable ocupa mucho menos que una imagen digital).
El reconocimiento óptico de caracteres es el proceso mediante el que, a
partir de la imagen de un documento, se reconocen los caracteres en él
contenidos. El proceso de OCR no siempre es capaz de leer la totalidad del
contenido de los documentos, algunas palabras pueden estar mal
interpretadas o algunos caracteres pueden ser erróneos. La tasa de errores
dependerá de la calidad y el tipo de original que se maneje. No obstante, el
OCR puede ahorrar mucho trabajo de introducción de datos. Al hacer OCR, el
escáner (o el ordenador) se limita a convertir la página de texto física a una
imagen digitalizada; posteriormente, el software OCR se encarga de traducir
sus líneas a caracteres editables. De hecho, cualquier imagen digitalizada que
contenga texto, es susceptible de ser convertida en un documento editable.
Se puede grabar la imagen digitalizada como un bitmap en formato TIF, por
ejemplo, para, más tarde, arrancar el programa de OCR, leer desde el disco el
mapa de bits y convertirlo en una página perfectamente editable por el
procesador de textos habitual.
Figura 3. Reconocimiento por extracción de rasgos
El reconocimiento de caracteres ópticos (OCR) es una tecnología utilizada en
aplicaciones comerciales desde 1950. Fue diseñada inicialmente para leer lo
que se conoce como tipologías “estilizadas”. Estas tipologías, como OCR-A,
incluyen conjuntos completos de caracteres alfanuméricos junto con
caracteres especiales que son digitalizados o leídos mecánicamente
proporcionando, de esa manera, un método de alta velocidad de entrada de
datos libre del teclado. Hay dos formas principales de abordar el
reconocimiento de caracteres ópticos: la comparación contra un juego de
caracteres existente o la extracción de rasgos. La comparación “ve” el
carácter impreso y compara esa imagen con una base de datos de posibles
opciones. La extracción de rasgos mira los elementos estructurales y su
combinación para reconocer el carácter. En los últimos años, la tecnología ha
mejorado significativamente, en parte a la disponibilidad de ordenadores
personales de bajo costo y alta potencia. Esto ha permitido el desarrollo de
software de reconocimiento más poderosos. Por ejemplo, la mayoría de los
equipos actuales de OCR son capaces de leer tipologías comunes de oficina,
Medios digitales. Edición, codificación e integración
15 de 16
Máster en Ingeniería de la Web
como la Courier, también como las tipologías estilizadas y tipologías
proporcionales que se encuentran en los periódicos y revistas. De hecho,
muchos utilizan el término “reconocimiento de caracteres inteligentes” (ICR)
que, según ellos, describe mejor el hardware y software actuales para OCR.
Sin duda, aunque el OCR tiene mucho tiempo de existencia, no ha sido hasta
hace algunos años, cuando bajaron los precios de los escáneres y llegaron al
pequeño usuario, cuando han empezado a mejorarse hasta los límites que se
conocen hoy.
Medios digitales. Edición, codificación e integración
16 de 16
Descargar