Lenguajes de marcado

Anuncio
Acuerdo de Bibliotecas Universitarias de Córdoba
Seminario
27 y 28 de septiembre de 2012
Web semántica
sem ntica, Web 3.0 y entornos
Cloud Computing, nuevos horizontes
para bibliotecarios, documentalistas y
archivistas
[email protected]
Tercer encuentro: Los lenguajes de marcado a la Web
semántica
Temáticas: El concepto de lenguaje de marcado
y su historia
Precisiones terminológicas
Aspectos de estándares de descripción:Fundamentos y
principios
Aspectos de software
El lugar de los especialistas en documentación
El lenguaje de marcado en la Web Semántica:
XML, RDF, Ontologías
Cierre: intercambio y puesta en común. El lugar de los
especialistas en documentación
Lenguajes de marcado:
Aspectos de estándares de descripción
Aspectos del mercado de software
¿Qué
son y para qué se
usan las etiquetas?
Origen usos y etimología
El término ETIQUETA apareció en Francia en el siglo XIV con
la forma estiquette para designar una señal escrita fijada
en una estaca.
Se relaciona con la palabra española 'estaca', del gótico
staka (palo), y con stick, inglesa.
Otro origen posible del término ETIQUETA es el rótulo que
se ponía en los paquete de causas judiciales, escrito en
latín: Est-hic-quaestio ("Aquí está la cuestión“se corrompió
a est-hi-quaest, ->et-hic-quet, y finalmente -> étiquette,
Etiquetas: punto de vista de la
semiología
Siguiendo a Peirce, un índice es un signo determinado por su objeto dinámico en
virtud de la relación real que mantiene con ese objeto. El uso de índices nos
permite identificar: desde el índice de los libros a los menúes de un restaurante o
loa rótulos o etiquetas de los envases en el supermercado y también permiten
comparar y valorar Ej: los indices económicos.
Un ícono es un signo determinado por su objeto dinámico en virtud de su
naturaleza interna. Un ícono es una dama o un caballero en la puerta de un baño
público, si además el baño es para discapacitados se le agrega el ícono
pertinente. La generación de íconos es un trabajo intencional y hoy en día está
siendo estudiado y utilizado en ámbitos tan disímiles como la arquitectura, la
publicidad o la propaganda política.
El símbolo por su parte no tiene ninguna relación con su objeto dinámico, está
allí por una convención o costumbre o decisión social. Las banderas de los
países son un símbolo, cuyo color puede tener algún sentido atribuido pero que
esencialmente tiene ninguna relación con la nacionalidad de las personas. Los
números y palabras son símbolos.
Desde el punto de vista
semiológico una etiqueta es un
índice
En informática se respeta
este sentido, ya que el tag
es un marca que indica una
presencia física o
conceptual
Todos los signos lingüísticos, las palabras, son símbolos: pero
la complejidad del etiquetamiento es que es un índice que se
expresa de manera simbólica e incluso de manera icónica.
En síntesis una ETIQUETA es
siempre METAINFORMACION
La metainformación puede tener
diferentes objetivos que es
importante diferenciar:
1.Contextualizar una información
2. Localizar y-o aglutinar información con
características similares
3. Comentar, anotar, opinar sobre una
información
Cada uno de estos objetivos en el
etiquetamiento requiere diferentes procesos cognitivos
1. Contextualizar una información: fue el primer
uso de las etiquetas en informática: se llamaba tag
(etiquetas) a las órdenes o comandos de tipo descriptivo
escritas en corchetes angulares que se agregraban en los
programas, y luego con este procedimiento se desarrolló
el marcado de los documentos en SGML y HTML
Cuando etiquetamos para contextualizar identificamos
aspectos formales: formatos, tipos: imágenes, textos,
tipos de letras, acentos, idioma, etc.
Cognitivamente realizamos
un proceso ANALITICO
Procesos cognitivos en el etiquetado
2. Encontrar o aglutinar información con
características similares:
Se basa en un parecido fenomenológico u objetivo entre
aspectos o propiedades de la información
Cognitivamente se realiza una ABSTRACCION, típicamente
va del todo a la parte, está dentro de la tradición de
taxonomía y organización del conocimiento en la tradición
científica positivista.
Se trata de una orientación
HEURISTICA
Procesos cognitivos en el etiquetado
3. Comentar, anotar, opinar sobre una información:
Los conceptos que se relacionan se basan en aspectos
VALORATIVOS
El proceso cognitivo está orientado la interpretación, se trata
de una orientación hermenéutica útil para recomendaciones,
orientaciones
Riesgos: de la subjetividad a la intersubjetividad:
manipulaciones, sesgos
En el aspecto sociológico: estigmatización (Los autores de
la teoría del etiquetamiento como estigmatización fueron,
Becker, Lemert, Erikson, Kitsuse, Tannembaum. Schur y
Gusfiel)
Lenguajes de marcado
Concepto que ambió el panorama de la
estructuración de documentos no era el objetivo
inicial
Años 1980: transferencia de datos digitalmente manteniendo aspectos
presentación. Desarrollado por Charles Goldfarb con el nombre de
General Markup Language (GML), en 1969 para IBM.
Adoptado para la circulación de documentos en el interior de
Departamento de Defensa de USA y en la Oficina de Publicaciones
Oficiales de la Comunidad Europea, ambos clientes de IBM.
1986: Standard Generalized Markup Language,
(SGML), ISO 8879
Lenguajes de marcado:
Su historia marca dos características de
SGML:
Está pensado para sistemas de oficina, es decir
para Documentos Corporativos.
Está orientado al procesamiento de datos y
dentro de este ámbito al intercambio.
Lenguajes de marcado:
Norma ISO 8879 descriptores de contenido:
Data processing, documentation, Logical structure, programming
(computers), artificial languages, programming languages.
(ISO, 1986)
SGML es un lenguaje artificial para
representar la estructura lógica de
documentos a efectos de procesamiento y
programación.
Lenguajes de marcado:
SGML es la gran solución para la transferencia de datos
documentales con una estructura lógica determinada y a
la vez se generaron grandes problemas que abarcan:
Aspectos de estándares de descripción
Aspectos de mercado de software
El problema de la descripción y representación de las
estructuras conceptuales en medios informáticos
estuvo ligado y sobredeterminado por las
necesidades de proceso más importante lograr
similitud con el lenguaje de programación que con el
lenguaje de las personas
Precisiones terminológicas
Lenguaje: conjunto de símbolos normalizados para la
representación y comunicación
Se dividen en: lenguajes naturales, lenguajes controlados y
lenguajes artificiales.
Lenguas naturales: creadas en forma social y convencional
conjuntos por
individuos. Ej. lenguas de los
comunidades humanas y formas de comunicación animal
Lenguajes controlados son porciones del lenguaje natural
reglamentadas para fines específicos: lenguajes
documentarios y las ontologías.
Lenguajes artificiales: conjuntos de símbolos arbitrarios
también para fines específicos: los lenguajes de
programación procesamiento, lenguajes de descripción,
como el SGML, cuyo fin es la interpretación por parte de
lenguajes de programación.
Lenguajes de marcado:
fundamentos y principios
Aspectos de estándares de descripción:
Objetivo de SGML permitir la transmisión de datos.
Determina la forma de descripción.
Permite establecer grupos de códigos propios
según la característica de la estructura documental.
Varias líneas de cambios dentro del lenguaje de
marcado:
Sintaxis concreta
Subconjuntos
Extensiones
Lenguajes de marcado:
fundamentos y principios
Aspectos de estándares de descripción:
Sintaxis concreta
Se denomina sintaxis a las reglas que
definen el significado de los códigos y
nombres reservados usados por un
particular lenguaje
Lenguajes de marcado:
fundamentos y principios
Aspectos de estándares de descripción:
SGML necesita ajustarse al objeto de
su descripción y a la vez mantener
una consistencia en códigos y
nominaciones.
La forma de lograrlo es por medio de
tipos de sintaxis: la sintaxis abstracta
y la sintaxis concreta
Lenguajes de marcado:
fundamentos y principios
Aspectos de estándares de descripción:
Sintaxis abstracta : usada para especificar
cómo deben ser escritas las declaraciones
de SGML y las declaraciones de tipo de
documento.
Sintaxis concreta : es el conjunto de reglas
para definir como deben ser codificados
documentos específicos.
Una forma particular de sintaxis concreta, llamada
Reference Concrete Sintax fue definida de manera
formal en la ISO 8879. Su objetivo es proveer una
referencia con la que las sintaxis concretas
eventuales puedan tomar como base o compararse.
Lenguajes de marcado:
fundamentos y principios
Aspectos de estándares de descripción:
International Reference Version (IRV) contiene:
Códigos que deben ser ignorados (shunnes character number
identification)
El set básico de caracteres BASESET definidos por la norma ISO
646. Códigos ASCII homologados
La ampliación de ese conjunto DESCSET
Códigos de caracteres de funciones (function character
identifacation)
Reglas de denominación para cuando se crean entidades o
etiquetas
El conjunto de delimitadores alternativos de marcado y
alternativas
Convenciones de denominación de declaraciones (reserved
name use)
Las cantidades permitidas para el anidamiento de elementos y
entidades
Lenguajes de marcado:
fundamentos y principios
Aspectos de estándares de descripción:
International Reference Version (IRV) contiene:
Esta sintaxis es asumida automáticamente por los sistemas
que procesan SGML cuando se indica:
SYNTAX
PUBLIC
Reference//EN”
“ISO
8879-1986//SYNTAX
Pueden agregarse esquemas propios de codificación
Debe ser conocida y comprendida por sus usuarios
potenciales, sean humanos o sistemas
Cambios en las opciones por defecto deben hacerse de
acuerdo también con ciertas reglas, declarando
públicamente variantes de sintaxis concreta.
Lenguajes de marcado:
fundamentos y principios
Aspectos de estándares de descripción:
Existen tres formas de especificar la variante de sintaxis concreta
en un documento:
Por medio del uso de la opción SWITCHES:
Variantes de la sintaxis concreta de referencia o en otra sintaxis concreta. Permite
establecer pares de caracteres que pueden ser cambiados. Por ejemplo se quiere
indicar que en lugar de usar brackets cuadrados [ ] Códigos ASCII 91 y 93
(Homologado ISO 646) se prefiere usar: {} cuya codificación es 123 y 125:
SYNTAX PUBLIC “ISO 8879-1986//SYNTAX Reference//EN”
SWITCHES 91 123
93 125
Declarando públicamente que se usa una variante de sintaxis
concreta:
SYNTAX PUBLIC “ISO 8879-1986//SYNTAX PRUEBA//SP”
Se elaboran sintaxis concretas orientadas a usos de algunas áreas temáticas
como música, salud o leyes y organizaciones:
organizaciones:
Lenguajes de marcado:
fundamentos y principios
Aspectos de estándares de descripción:
Formas de especificar la variante de sintaxis
concreta en un documento:
Produciendo declaraciones de tipo de documento (DTD) que
engloban las variantes de sintaxis respecto de la básica
de SGML :
TEI (Text Encoding Initiative) financiada por varias
universidades y la CEE, cuyo objetivo es construir una
referencia universal para el la codificación de textos
EAD (Encoded Archival Description) para documentos
corporativos y de archivo, es mantenida por Network
Development and MARC Standards Office de la Library of
Congress asociada a la Society of American Archivists.
MARC DTD (MAchine Readable Cataloging Document
Type Definition) RDA
Lenguajes de marcado:
fundamentos y principios
Aspectos de estándares de descripción
Subconjuntos
Más simplificados o más completos
que las sintaxis concretas
Lo importante es que toman aspectos
de la sintaxis abstracta.
Más conocido es el HTML. ISO 9069 fija
el formato de intercambio HTML
Lenguajes de marcado:
fundamentos y principios
Aspectos de estándares de descripción
Extensiones
XML:
un dialecto de SGML contempla alteraciones
estructurales respecto del lenguaje madre
Es una versión extremadamente simplificada de efectos
de crear un SGML genérico que permita procesar en Web
objetos que no se pueden procesar con HTML: realidad
virtual, movimiento, señales olfativas, etc.
XML es un metalenguaje, ya que permite a su vez crear
subconjuntos, de hecho se está reescribiendo todo HTML
en XML.
Se normalizó la parte XML para libros, artículos y series con
la norma ISO 12083 (última 2009)
Lenguajes de marcado:
como se usan
Aspectos de software
Es posible codificar textos en SGML en
cualquier editor de texto, la tarea artesanal
es muy lenta y pasible de errores
Tres tipos de software
Editores
analizadores (parsers)
visualizadores (browsers)
Lenguajes de marcado:
como se usan
Aspectos de mercado software
Editor: permite redactar DTD de documentos particulares
Free ware báiscos y más complejos que permiten convertir
texto proveniente de otro origen . Otros permiten integrar
hojas de estilo-Mezclas de posibilidades con análisis y
visualización
Analizador o parser verifica las reglas de edición respecto de
la sintaxis
concreta o la DTD.
Trabajan en conjunto con el editor o sobre documentos una
vez compuestos para verificar o modificar marcado
Hojas de estilo como DSSSL (Document Syle and
Specification Language, ISO 10179 y SPDL (Standard Page
Description Language, ISO 10180). La primera permite
agregar abundantes detalles tipográficos y la segunda está
más orientada a la impresión.
Visualizadores o browsers: permiten recorrer el documento en
toda su arborecencia
Web Semántica: usa el lenguaje de
marcado tanto para expresar los
datos como para darles sentido
aunque tengan diferente origen y
forma
Tres tecnologías Web Semántica
que se valen del lenguaje de
marcado:
XML
Resource Description Framework
(RDF)
Ontologías.
Tecnologías de Web Semántica usando
lenguajes de marcado
Resource Description Framework (RDF)
Es una EXTENSION de XML:
Tripletes con verbo, sujeto y predicado: Cada sujeto y cada predicado
son identificados por el Universal Resource Identifier (URI), como
un enlace en cualquier página web
Verbos son identificados también por URIs, que permite a cualquiera
definir un concepto nuevo, un verbo nuevo, simplemente definiendo
un URI para ellos en algún lugar de la Web.
RDF está siendo desarrollado y promovido por el Consorcio 3WC y
varias ISO lo están normalizando
RDF
No evita superposiciones, dos recursos pueden usar diferentes
identificadors para el mismo concepto.
Grafo de
declaración
RDF
Predicado
propiedad
Sujeto
Recurso
lugares, personas,
objetos
Identificados con URI
Objeto, valor
asigando a la
propiedad, puede
ser otro URI
Sentencia
(declaración)
RDF
No evita superposiciones, dos
recursos pueden usar diferentes
identificadors para el mismo concepto.
Para evitarlo Ontologías:
Origen en la filosofí
filosofía En los sistemas
informá
informáticos: especificació
especificación de una conceptualizació
conceptualización
Conceptos son definidos
por sus atributos y comportamiento
Reglas que permiten que la ontologí
ontología
deduzca, o por lo menos proponga,
a que clase o categorí
categoría puede
pertenecer cada nuevo concepto que ingresa
La ontología: taxonomía + un conjunto de reglas de
inferencia.
La taxonomía define clases de objetos y relaciones
entre ellos
Retomando la reflexión
sobre los lenguajes
naturales, artificiales y
controlados, la ontologías
se sitúan dentro de los
lenguajes controlados
Lugar de los especialistas en información
documentación:
Apoyo a los desarrolladores trabajando en la
definición de DTDs y sintaxis concreta
adaptada a las necesidades de cada corpus
de información
Desarrollo de los esquemas de metadatos
para Web Semántica
Capacitación
en
este
ámbito
es
indispensable
Descargar