Sumario - Universitat Pompeu Fabra

Anuncio
Contenidos del Máster en Documentación Digital
Artículo 2.3. El análisis de contenido: procesos, herramientas y
perspectivas
Autor: Silvia Arano
Usuario: Ines Frade Miguez. Tipo de página: Contenido. Fichero: pag205.htm
[imprimir] · [exportar a Openoffice]
Citación recomendada: Silvia Arano. Artículo 2.3. El análisis de contenido: procesos, herramientas y perspectivas [en línea]. En
Cristòfol Rovira; Lluís Codina (dir.). Máster en Documentación Digital. Barcelona: Área de Ciencias de la Documentación.
Departamento de Comunicación Audiovisual. Universidad Pompeu Fabra, 2009. http://www.documentaciondigital.org
Sumario
1. El contexto del análisis de contenido: el proceso documental
2. El análisis de contenido
2.1. La metodología del análisis de contenido
2.2. Los procesos del análisis de contenido
2.2.1. La clasificación
2.2.2. La indización
2.2.3. La elaboración de resúmenes
2.3. Las herramientas del análisis de contenido: agentes para representar y recuperar la
información
2.3.1. L os lenguajes documentales tradicionales
2.3.2. La nueva generación de herramientas documentales
3. Comentarios finales
4. Bibliografía
1. El contexto del análisis de contenido: el proceso documental
El proceso documental , llamado también cadena documental o flujo informativo, se define
como el "conjunto de fases concatenadas entre sí, a través de las cuales se da entrada y se
analiza el documento para extraer de él la información y poder difundirla" . (Garrido 2002: 337)
Las fases que lo conforman se orientan al ingreso del documento en una colección, al
tratamiento necesario para utilización, y a la salida o difusión de dicho documento. Las fases se
concretan por medio de las siguientes operaciones:
•
•
•
•
Selección/Adquisición/Registro: punto de inicio del proceso documental a partir del cual
los documentos se incorporan en la colección de un determinado servicio de
información.
Organización o Tratamiento: implica el procesamiento técnico del documento, tanto a
nivel descriptivo (formal) como temático (de contenido).
Recuperación: actividad orientada a obtener ante la eventual consulta de un usuario,
una respuesta a partir de la colección que se consulta.
Diseminación: al momento de entregar o distribuir la información solicitada y
recuperada en un determinado sistema.
La organización o tratamiento es sin duda, la operación de mayor trascendencia en el
proceso documental pues permite que los usuarios dispongan de los documentos requeridos,
lo cual en definitiva es el fin último de la Documentación.
Es en la organización o tratamiento donde se obtienen a través del análisis documental los
elementos informativos que singularizan al documento con respecto de otros. Sin embargo, el
análisis documental no es un fin en sí mismo, puesto que es un medio para resolver el
problema ocasionado por la diversidad y cantidad de fuentes documentales existentes. La
importancia del análisis documental se ha incrementado con el paso del tiempo, ya que
actualmente el usuario dispone de un amplio espectro de documentos que pueden responder a
sus necesidades. Esta diversidad y multiplicación de posibles documentos relevantes sitúan al
análisis documental como el instrumento que ayuda al usuario a filtrar información en el
momento de la recuperación.
En definitiva, el análisis documental es una técnica formada por una serie de operaciones de
análisis orientadas, valga la redundancia, al análisis y a la recuperación de la información,
donde actúan como intermediarias entre el productor y el usuario de la información. El análisis
documental implica un tratamiento descriptivo de las características externas (formales) e
internas (análisis y representación del contenido) del documento.
El análisis descriptivo (o formal) incluye la descripción bibliográfica (o catalogación) y el
establecimiento de los puntos de acceso que determinan los nombres (autorías) de los
responsables del contenido intelectual o artístico de la obra. La descripción bibliográfica o
catalogación colecta elementos tales como autor, título, editorial, fecha de edición, número de
páginas, idioma original, etc., y los transfiere según determinadas reglas a un soporte
documental (ficha o registro informatizado).La catalogación es realizada de acuerdo a pautas
de trabajo establecidas por normativa internacional, lo cual posibilita el intercambio y la
interpretación de dicha información a nivel internacional. Las normas de catalogación más
difundidas son las ISBD (International Standard Bibliographic Description ) y las Normas de
Catalogación Angloamericanas ( AACR, Anglo American Cataloging Rules). Catalogar no es
simplemente transcribir en forma mecánica según unas determinadas normas, sino que implica
realizar esta recolección de datos de acuerdo a las pautas establecidas dentro de una política
de catalogación. Es decir, la trascripción es influida por el tipo de documento que se describe,
las características de la comunidad de usuarios a la que se atiende, y los criterios de
profundidad y amplitud que se consideren necesarios para cumplir los objetivos del servicio de
información. El establecimiento de los puntos de acceso proporciona al documento las entradas
necesarias para integrarlo a una colección y luego recuperarlo en un catálogo. Recoge
fundamentalmente tanto autores secundarios (personales y corporativos), como también
puntos de acceso temáticos ya sea de forma alfabética o sistemática.
El análisis de contenido se orienta tanto al análisis como a la representación de las
características internas del documento. Por ser el objeto del presente artículo, lo abordaremos
con detalle en el siguiente apartado.
2. El análisis de contenido
Es la actividad, ya sea intelectual o automática a través de la cual se describen las
características internas del documento, o sea, su contenido. Como parte integrante del análisis
documental, su objetivo final es brindar los elementos que auxilian al usuario en la selección de
documentos relevantes acordes con sus necesidades de información.
Para una mejor comprensión de la naturaleza e importancia del análisis de contenido,
detallaremos en los siguientes apartados la metodología para realizarlo, los procesos que
involucra y las herramientas que utiliza.
2.1. La metodología del análisis de contenido
Considerar la existencia de una sola metodología para el análisis de contenido es una tarea
difícil, debido a que contempla tres procesos documentales: la clasificación, la indización y la
elaboración de resúmenes.
Sin embargo a efectos pedagógicos, siguiendo a Pinto Molina (2002), diferenciaremos las fases
de lectura/comprensión , análisis y selección , que presentan las siguientes características:
•
Lectura/comprensión: debido a que el análisis de contenido no se agota en los
documentos bibliográficos la autora denomina a esta fase de lectura/comprensión. Es
la fase donde el analista despliega diversas estrategias cognitivas (según el tipo de
documento que se considere) a fin de comprender el documento que se está
analizando. Por ejemplo, si es un documento bibliográfico, la lectura del texto se orienta
hacia su comprensión lingüística.
•
Análisis: en esta fase es cuando el analista decodifica, interpreta las estructuras y
representa la información. Este análisis, a su vez, consta de dos partes, la selección y
la interpretación. Una vez analizado el documento y aislado aquellas informaciones que
consideramos importantes, es cuando mediante la selección se eliminan las frases y/o
palabras que no son relevantes en el documento; por ejemplo, los conceptos repetidos.
La interpretación de la información relevante nos habilita a asignar un contenido
determinado. En esta situación tienen igual importancia todos los componentes que
intervienen en la generación de un documento, ya sean de tipo lingüístico, situacional o
discursivo.
•
Síntesis: es la fase final donde se presenta el resultado de la etapa de análisis. Es
cuando el analista debe optar por una representación del documento, para lo cual
deberá poner en práctica tanto cualidades y habilidades profesionales como
conocimientos personales. Para la síntesis, tanto la clasificación como la indización
utilizan herramientas documentales para representar el contenido de los documentos
denominadas lenguajes documentales.
2.2. Los procesos del análisis de contenido
Si bien la finalidad del análisis de contenido es sintéticamente proporcionar elementos
descriptivos sobre lo que trata el documento, existen distintos procesos que nos ayudan en la
representación de dicho contenido. Los procesos que permiten concretar al análisis de
contenido son la clasificación, la indización y la elaboración de resúmenes.
2.2.1. La clasificación
La clasificación es una actividad intelectual donde intervienen procesos de análisis,
interpretación y reconocimiento, que aplicados a los documentos posibilitan obtener su
representación. Dicha representación se materializa en un símbolo (denominado notación o
símbolo de clasificación), que permite situar lógicamente al documento en relación a otros
documentos y así facilitar su recuperación para un uso futuro.
La clasificación utiliza un tipo de lenguaje documental, los llamados sistemas o esquemas de
clasificación, que representan una organización del conocimiento humano en base a una
división en clases. La aplicación de un sistema de clasificación tiene como resultado una
organización sistemática, o sea por temas, de la colección de documentos sobre la cual se
aplica.
Clasificar implica un esfuerzo de síntesis, ya que en general los sistemas de clasificación
solamente permiten representar el tema principal y algunos aspectos, y no todos los conceptos
relevantes del documento.
2.2.2. La indización
La indización, es el proceso de extraer los términos que muestran el contenido de un
documento y luego representarlos por medio de un lenguaje libre o documental para su
posterior recuperación.
La representación de los conceptos que reflejan el contenido de los documentos se simboliza a
través de los denominados términos de indización, que pueden ser tomados del lenguaje libre o
natural (entendido como el propio lenguaje que figura y es utilizado en el documento por sus
autores) o de un lenguaje controlado (que se toma de un lenguaje documental seleccionado
con anterioridad).
Los términos de indización se denominan en el campo del lenguaje libre palabras clave y, en
el campo del lenguaje controlado encabezamientos de materia o descriptores , dependiendo
del lenguaje documental que se utilice (listas de encabezamiento de materia o tesauros
respectivamente).
El producto de la indización es el conjunto de términos de indización (sean palabras clave,
encabezamientos de materia o descriptores) que simbolizan el contenido del documento.
La indización como proceso, debe tener en consideración la exhaustividad y la especificidad
con que se realiza, pues ambas características inciden en la calidad del producto resultante.
Por una parte, la exhaustividad está relacionada con la profundidad con que se indiza un
documento. Teóricamente la asignación máxima de términos de indización que realiza un
indizador es de 6 a 30, sin embargo en realidad el número de términos de indización asignados
es generalmente de 8 a 12. Por otra parte, la especificidad está relacionada con la
correspondencia entre los términos de indización seleccionados y los conceptos incluidos en
los documentos a los cuales hacen referencia. Esta correspondencia se da tanto en sentido
vertical, o sea en relación a los niveles de jerarquía conceptual; como a nivel horizontal, en
relación a que a un concepto compuesto se debe corresponder con un término de indización
precoordinado antes que con la asociación de términos de indización simples. Tanto la
exhaustividad como la especificidad dependen de factores tales como la política y los objetivos
de la indización, la calidad del trabajo y la capacidad profesional de los indizadores y las
características del lenguaje documental utilizado.
2.2.3. La elaboración de resúmenes
La elaboración de resúmenes involucra un proceso de condensación o síntesis del contenido
de un documento en el cual se emplea el mismo lenguaje que utiliza el autor del documento, o
sea un lenguaje libre. Es el proceso de análisis de contenido más complejo debido a que
conlleva el esfuerzo cognitivo de sintetizar el contenido de un documento sin obviar elementos
importantes y a la vez reconstruir la estructura de dicho documento en un modelo reducido.
El resultado de la elaboración de resúmenes, es un texto breve y conciso, llamado simplemente
resumen, resumen documental o abstract , que representa el contenido sintetizado de un
documento determinado.
Se pueden distinguir dos tipos de resúmenes según la extensión y elementos que incluyen, los
indicativos y los informativos .
Un resumen indicativo describe el contenido del trabajo original sin detallarlo. Menciona de
qué trata el documento, a que hace referencia y solamente adelanta si proporciona información
sobre resultados concretos. Su finalidad es fundamentalmente ayudar al usuario a juzgar la
utilidad de la lectura del trabajo completo. Su extensión oscila entre 50 y 100 palabras.
Un resumen informativo , incluye los enunciados del documento primario, detallando su
finalidad, alcance, métodos utilizados en la investigación, resultados de su aplicación,
conclusiones y recomendaciones. Se constituye en un anticipo del trabajo original, y en algunos
casos puede sustituir su lectura. Su extensión tendría entre 100 y 200 palabras.
2.3. Las herramientas del análisis de contenido: agentes para
representar y recuperar la información
Para realizar el análisis de contenido es necesario contar con herramientas documentales que
actúen como intermediarias en la interacción entre documentos y usuarios. Su función es
representar el contenido de los documentos para posibilitar su posterior recuperación.
La creciente digitalización del soporte informativo ha marcado un antes y un después en la
concepción, elaboración y uso de las herramientas documentales, pudiendo identificar un grupo
de herramientas documentales más tradicional y otro de nueva generación.
Para dar cuenta de esta evolución, expondremos brevemente ambos conjuntos de
herramientas documentales, el tradicional y el de nueva generación, en los siguientes
apartados.
2.3.1. L os lenguajes documentales tradicionales
Los lenguajes documentales, como ya habíamos avanzado, tienen como función principal la de
ejercer de puente entre el mundo de los documentos y el mundo de los usuarios. La intención
de dichas herramientas documentales es, a partir del análisis del lenguaje libre utilizado por los
autores para escribir sus textos, codificar o traducir su contenido para que pueda ser entendible
por la mayoría de las personas.
Si bien son diversas las clasificaciones que existen de los lenguajes documentales, coincidimos
con la perspectiva amplia de Gil Urdiciaín (1996: 22), en distinguir tres tipologías en base a los
criterios de control terminológico (o control de vocabulario), coordinación de términos y
estructura:
•
•
•
Tipología según control de vocabulario: lenguajes documentales libres (listas de
descriptores libres) y lenguajes documentales controlados (sistemas de clasificación,
listas de encabezamiento de materia y tesauros). La presencia del control terminológico
tiene como principal ventaja la neutralización de las problemáticas relacionadas con la
ambigüedad inherente a la lengua humana (presencia de sinonimia, polisemia, etc.).
Tipología según coordinación de términos: lenguajes documentales precoordinados
(sistemas de clasificación, listas de encabezamiento de materia) y lenguajes
documentales poscoordinados (listas de descriptores libres, listas de palabras clave y
tesauros). El criterio de coordinación remite al momento de combinación de los
elementos que componen la representación. Si la combinación se realiza en el
momento de la construcción del lenguaje documental o cuando se están analizando los
documentos, estamos ante la precoordinación. En cambio, si la combinación se
produce en el momento de la recuperación, estamos ante una poscoordinación.
Tipología según la estructura : lenguajes documentales jerárquicos (sistemas de
clasificación) y lenguajes documentales combinatorios (tesauros y listas de
encabezamiento de materia). El criterio de estructura pone el acento en cuanto a si en
el lenguaje documental prevalece la estructuración jerárquica, o por el contrario, los
términos se presentan en forma de red donde se relacionan no solamente de forma
jerárquica, sino que se existen otro tipo de combinaciones entre ellos.
A continuación expondremos brevemente los tres tipos de lenguaje documental más utilizados
tradicionalmente: las listas de encabezamiento de materia, los sistemas de clasificación y los
tesauros.
Listas de encabezamientos de materia (o de epígrafes)
Son lenguajes documentales de vocabulario controlado que no responden a una estructuración
conceptual, y que generalmente tienen una presentación alfabética.
Las listas de encabezamientos de materia tienen un fuerte carácter precoordinado y
representan a los conceptos a través de encabezamientos y subencabezamientos. Sin
embargo, al no presentar una estructura conceptual, las relaciones que se establecen entre los
encabezamientos tienen sólo la finalidad de lograr un control terminológico. En este sentido, se
utilizan referencias de véase para el control de sinónimos y equivalencias, y referencias de
véase además para indicar las relaciones asociativas o de inclusión con otros
encabezamientos.
El uso de las listas de encabezamiento de materia para el análisis de contenido generalmente
se asocia al ámbito de las bibliotecas de carácter general y público, aunque en España también
son utilizadas por las bibliotecas universitarias.
El establecimiento de los encabezamientos de materia se asienta sobre los principios de:
•
•
•
•
•
especificidad, elección del encabezamiento más concreto que represente el contenido
del documento
economía, asignación del menor número posible de encabezamientos
lingüístico, uso del lenguaje habitual y en el orden natural de las expresiones,
uniformidad, aplicación homogénea de los encabezamientos para denominar a cada
materia
uso, las reglas de aplicación deben contextualizarse en función de la biblioteca y
necesidades de los usuarios
La utilización de las listas de encabezamiento de materia para el análisis de contenido, dadas
sus características como lenguaje documental, presenta inconvenientes en cuanto a la
economía del uso de encabezamientos que dificulta la adecuada representación de contenidos,
la dificultad para lograr consistencia entre los indizadores, y debido q que realizan un
almacenamiento y por lo tanto una recuperación de la información de un modo secuencial.
Actualmente los procesos de construcción y representación de conceptos en las listas de
encabezamientos de materia están en revisión, y se constata una tendencia hacia la
tesaurización de dichas listas, puesto que comienzan a incorporar una mínima estructuración
conceptual.
Ejemplos:
Lista de Encabezamientos de materia para las Bibliotecas Públicas / Ministerio de Cultura
(España)
Llista d'encapçalaments de matèria en català / Biblioteca de Catalunya
Los sistemas (o esquemas) de clasificación
Son lenguajes documentales que organizan en forma lógica una estructura conceptual y la
representan mediante símbolos (denominados notaciones o símbolos de clasificación). La
estructura conceptual de los sistemas de clasificación se basa en una división en clases, cuyo
número es variable dependiendo del sistema (desde diez clases en el Sistema de Clasificación
Decimal Universal, CDU, hasta cuarenta y siete, en la Colon Classification ). Las relaciones
conceptuales que se establecen en los sistemas de clasificación son jerárquicas, de sinonimia
y de equivalencia, y son utilizadas tanto para expresar la estructura conceptual como para
realizar el control terminológico.
La tipología de los sistemas de clasificación es muy variada. De acuerdo a su cobertura
temática puede ser universales o especializados; puede tener bajo, medio o alto nivel de
especificidad según la profundidad de los niveles jerárquicos que se incluyan; y también según
su estructura pueden clasificarse como enumerativos, pre-facetados o facetados.
Generalmente se componen de tablas principales, tablas auxiliares y un índice. La
presentación es sistemática y es complementada por un índice alfabético.
Las principales críticas a este tipo de lenguaje documental se realizan sobre todo a aquellos
sistemas de clasificación con una estructuración enumerativa o pre-facetada. La estructuración
enumerativa conlleva extensas tablas de clasificación, con poca flexibilidad de aplicación y
altos índices de precoordinación. A su vez, la estructuración pre-facetada, también presenta
inconvenientes debidos principalmente al peso excesivo de las relaciones jerárquicas, y
también al poco margen de combinación entre notaciones. Una crítica general a los sistemas
de clasificación es la poca flexibilidad y agilidad tanto para el almacenamiento como para la
recuperación de la información. Debido a ello, tradicionalmente los sistemas de clasificación
por su naturaleza sistemática, son vinculados con la ubicación física de los documentos,
formando parte de la signatura topográfica. Sin embargo, no es posible descartarlos como
elementos importantes en el proceso de recuperación de información, puesto que esta misma
naturaleza sistemática ofrece asistencia al usuario en relación a la especificación y expresión
de la necesidad de información (permite control de vocabulario, navegación jerárquica,
independencia de la lengua, universalidad y especificidad).
Ejemplos:
Esquema de CDU para ISBN / Ministerio de Cultura (España).
Colon classification / S. R. Ranganathan
Los tesauros
Son lenguajes documentales que organizan de forma semántica un determinado campo del
conocimiento, haciendo explícitas las relaciones establecidas entre conceptos y otorgando un
significado restringido de los términos que los representan. Las relaciones conceptuales
habituales en los tesauros son las de jerarquía, sinonimia y de equivalencia. Los tesauros son
una herramienta de control terminológico pues si bien se estructuran en base a conceptos, son
lexicalizaciones seleccionadas (o términos) las que representan a dichos conceptos.
Los tesauros pueden ser monolingües, monolingües con equivalencias o multilingües, de
acuerdo a la cobertura idiomática sobre la que se construya.
La forma de presentación del tesauro puede ser alfabética (orden alfabético de descriptores y
no descriptores), sistemática (presentación estructurada de descriptores y no descriptores en
función de categorías o jerarquías), o gráfica (exponen la estructura semántica de cada campo
semántico que cubre el tesauro: estructura arborescente, diagramas de flechas o
terminogramas). Se recomienda que al menos se combinen dos de estas formas de
presentación en la construcción de los tesauros, de modo que se constituya en una
herramienta con más elementos de ayuda para la recuperación de información. En caso de que
la presentación no sea alfabética, se debe incluir un índice alfabético para permitir una rápida
localización de los términos.
Los tesauros son el tipo de lenguaje documental que se asocia en mayor grado con la
recuperación de la información. Son reconocidos como las herramientas documentales que
logran una mayor precisión en la recuperación, debido al auxilio de su estructuración
conceptual y el control terminológico que realizan.
Ejemplos:
Tesauro de la UNESCO / UNESCO.
Eurovoc Thesaurus / European Communities
2.3.2. La nueva generación de herramientas documentales
El progresivo desarrollo de la tecnología tanto en el campo de la informática como en el de las
telecomunicaciones ha propiciado el desarrollo de Internet, y una de sus tecnologías más
flexibles, el World Wide Web (WWW), sector que actualmente se está consolidando en dos
vertientes: la Web Semántica y la Web 2.0.
La Web Semántica propone ser una extensión de la WWW dotando de significado a los
recursos de información y posibilitando la automatización de los procesos. Es decir, lograr que
las búsquedas sean sensibles a los distintos significados y contextos de los documentos y
recursos en formato digital, y que los procesos de búsqueda y recuperación puedan ser
interpretados y transmitidos por programas inteligentes.
Para ello es necesario que los recursos de información incorporen puntos de acceso relativos a
su semántica, y por lo tanto utilicen lenguajes de marcado y estructuras que lo permitan (XML,
metadatos y ontologías). Asimismo, es necesaria la creación de nuevas estructuras
conceptuales, por ejemplo las ontologías, para dotar de significados concretos y contextos a las
diversas palabras que pueda contener una búsqueda.
En cambio la Web 2.0, no se relaciona solamente con los cambios tecnológicos que la
propician, sino que se asocia con un cambio de actitud, un giro hacia la construcción
colaborativa de conocimiento. Es en este sentido, que si bien se producen cambios en las
arquitecturas de información para dar paso al intercambio de conocimientos, con lo cual se
afectan los procesos de concepción y gestión de las herramientas documentales, también se
modifica el rol de los usuarios, que pasan de ser receptores pasivos a agentes activos en la
promoción de espacios abiertos de colaboración e inteligencia colectiva.
[NOTA: Tim O\'Reilly en el año 2005 proponía una "definición compacta" de Web 2.0 basada en
el uso de las tecnologías: "Web 2.0 applications are those that make the most of the intrinsic
advantages of that platform: delivering software as a continually-updated service that gets
better the more people use it, consuming and remixing data from multiple sources, including
individual users, while providing their own data and services in a form that allows remixing by
others,
creating
network
effects
through
an
"architecture
of
participation,"
[http://radar.oreilly.com/archives/2005/10/web-20-compact-definition.html]
La gestión documental es una más de las prácticas que se han influenciado y vinculado con
estos avances, y específicamente el análisis de contenido no puede evitar los
condicionamientos tecnológicos en sus tendencias actuales y perspectivas futuras. Estos
condicionantes tienen influencia en el objeto del análisis (los documentos), en la forma de llevar
a cabo los procesos del análisis de contenido (automatización de procesos, construcción
colaborativa, etc.), en las herramientas que se utilizan (con contenidos semánticos), en el
comportamiento del usuario (participativo) y en los productos de dicho análisis.
La influencia en el objeto del análisis de contenido, los documentos, propicia un crecimiento
exponencial de la cantidad de fuentes documentales y una diversificación de su tipología. Esto
conlleva a una necesidad de dotar a los documentos en forma rápida y eficaz de descripción,
identificación y elementos de localización. Por lo tanto, se requiere de una optimización del
análisis de contenido, de forma que sea más consistente y preciso, y ello tiene consecuencias
tanto para la metodología con que se llevan a cabo los procesos de dicho análisis, como para
el rediseño de las herramientas de gestión y organización de la información, entre las cuales se
encuentran los lenguajes y recursos documentales. El usuario no es ajeno a las condicionantes
tecnológicas de Internet, y desde su perspectiva surge la necesidad de contar con estructuras
de conocimiento que le posibiliten un acceso rápido y amigable a la información digital. Es así
que el comportamiento de los usuarios ha cambiado, teniendo muchas veces una implicación
directa, a través de la mentada Web 2.0, en la creación, gestión y uso de la información digital.
En los apartados siguientes presentaremos las implicancias de las nuevas tecnologías en las
herramientas del análisis de contenido.
Los tesauros enriquecidos y otras herramientas documentales
Recordemos que los tesauros representan la estructuración conceptual de un determinado
campo del conocimiento, y proporcionan una organización semántica a través de la
explicitación tanto de las relaciones establecidas entre dichos conceptos como del significado
de los términos que los representan.
Sin embargo, dicha estructuración conceptual, erigida como su principal fortaleza ante otras
herramientas documentales, es también su punto débil, puesto que solamente se pueden
recuperar los documentos que reproduzcan las relaciones estáticas y predefinidas con las que
se ha estructurado el tesauro.
Por ejemplo, si analizamos un documento del área de Medicina encontramos que se pueden
establecer relaciones entre conceptos, analizando las formas verbales utilizadas en los textos,
que van más allá de las consabidas relaciones de jerarquía, equivalencia o asociación
utilizadas generalmente en la construcción de los tesauros.
Un área de investigación actual en el campo de la lingüística es la detección automática de
relaciones conceptuales en los textos a través del uso de las diversas formas verbales. Esta
temática es tratada en profundidad en la tesis de Feliu (2004: 118 ) donde se analizan diversos
fragmentos de textos de carácter especializado para comprobar si es posible detectar
relaciones conceptuales mediante el marcaje de las formas verbales significativas y las
palabras que relacionan. Un ejemplo, de los muchos que presenta en su tesis, es el análisis del
siguiente párrafo: ?Essencialment es tracta de treballar de manera que (els efectes de la
manipulació genètica) puguin ésser diferenciats de (les interaccions).? En dicho párrafo, el
término efectes de la manipulación genètica tiene una relación de semejanza negativa con el
término interacciones, relación conceptual que es evidenciada por la forma verbal diferenciados
de.
Actualmente, las tendencias de construcción y mantenimiento de tesauros buscan recoger los
avances e inquietudes de investigación de áreas afines como la Lingüística y la Informática, por
lo tanto se basan en la aplicación de metodologías provenientes del procesamiento del
lenguaje natural y la inteligencia artificial (análisis léxico textual, filtrado de términos mediante
algoritmos y obtención e integración de relaciones), realizando un salto cualitativo hacia la
conversión en mapas de representación del conocimiento.
Esta transformación se basa en la creación de relaciones singulares para cada dominio
temático, la utilización de otras categorías gramaticales más allá de las sustantivas para la
determinación de descriptores, la inclusión de nuevas categorías relacionales para vincular los
recursos de información y las facetas, y el cambio de escenarios posibles para la clasificación y
organización de contenidos. Estas nuevas características han hecho surgir formas alternativas
a los lenguajes documentales habituales, como son los tesauros conceptuales, los tesauros de
verbos, los mapas conceptuales, los topic maps y las folksonomías.
Tesauros conceptuales
Son redes semánticas en las cuales cada nodo contiene un único concepto semántico que
puede tener una serie de descriptores asociados, los cuales también pueden ser identificados
en la red de descriptores relacionados según las relaciones básicas de los tesauros:
jerárquicas, asociativas o de equivalencia.
La denominación tesauro conceptual se basa en la idea de materia (concepto) sobre la cual se
determina un modelo de tesauro de relaciones asociativas (donde se aúnan términos y
conceptos reales por similitud de sentido en el contexto específico del usuario), una red
semántica conceptual (donde existen relaciones jerárquicas y asociativas) y un espacio
conceptual donde se enfatiza la idea de dominio algebraico, definiendo las relaciones entre
términos con mayor precisión que en los tesauros habituales. (Moreiro, 88)
Son tesauros generados en un entorno de interoperabilidad, cuyo funcionamiento implica
relacionarse con analizadores morfológicos, sintácticos y semánticos, bancos de datos
terminológicos, bases de datos de conocimiento y ontologías.
Es difícil encontrar un ejemplo de este tipo de tesauro en estado puro, pero recomendamos
consultar el tesauro sobre arte y arquitectura de la Fundación Getty, que posee muchas de las
características anteriormente descritas.
Ejemplo:
Art & Architecture Thesaurus Online / Getty Foundation
Tesauros de verbos
La inclusión de formas verbales en los tesauros, que tradicionalmente se han sustentado en los
sustantivos, permitiría optimizar la indización y por lo tanto la recuperación de documentos de
áreas del conocimiento más abstractas (por ejemplo la Informática) o de documentos que no
tienen una estructura o temática definidas o incluyen información difícil de representar con los
descriptores habituales (por ejemplo las imágenes en movimiento).
Sumar la categoría verbal aporta riqueza semántica a la representación y recuperación de la
información, puesto que las estructuras verbales se pueden relacionar con una determinada
relación conceptual en un tesauro. Por ejemplo, si aislamos las formas verbales ?procede de?
o ?venir de? por un lado, y ?se encuentra en? o ?se localiza en? por otro lado, permitirían
definir una relación de tipo asociativa de procedencia.
El objetivo de este tipo de herramientas es realizar un análisis léxico-semántico y de
frecuencias de un corpus documental para crear una representación de dominio documental.
La función principal de los verbos en un tesauro es la identificación del rol de una asociación
mediante un verbo, con lo cual se multiplica el número de posibles relaciones, singularizando la
estructura conceptual de un dominio determinado. Por ejemplo, no se utilizan los mismos
verbos en los textos médicos que en los legales, por lo tanto las relaciones que se puedan
establecer mediante los verbos analizando corpus documentales de esas temáticas serán
diferentes.
Actualmente no existen ejemplos operativos de tesauros de verbos.
Mapas conceptuales
Son una forma dinámica y visual de representar los contenidos gráficamente. Su desarrollo
original proviene del ámbito educativo y tiene como finalidad la adquisición de nuevo
conocimiento a partir de las estructuras cognitivas ya existentes, posibilitando la asimilación de
los nuevos conceptos en forma de proposiciones.
[NOTA: Es una técnica desarrollada originalmente por Joseph Novak y sus colaboradores de la
Universidad de Cornell a partir de la Teoría del Aprendizaje Significativo de David Ausubel.]
Los mapas conceptuales se estructuran a modo de gráfica cognitiva, donde los nodos (también
llamados puntos o vértices) representan conceptos designados a través de un término y las
palabras de enlace (también llamadas arcos o extremos) representan las relaciones
conceptuales. Si tenemos dos o más términos (designaciones de conceptos) unidos por
palabras para formar una unidad de sentido, como por ejemplo las sirenas son seres
mitológicos, estamos frente a una proposición.
De esta forma, un documento o un ámbito del conocimiento humano se puede representar
como un conjunto de conceptos interrelacionados y dispuestos en forma de grafo.
Ejemplo:
MusicPlasma
Topic maps
Son documentos o conjunto de documentos SGML y XML, interrelacionados en un espacio
multidimensional en el que las localizaciones son topics (temas).
Su construcción está pautada por la norma ISO/IEC 13250-2002 (2a.ed.), la cual describe los
tipos de objetos que forman un topic map y la sintaxis XML de representación e intercambio.
Un topic map está compuesto por: topics (o sea conceptos desde los cuales se puede
navegar), ocurrencias (apariciones o casos de los topics en los documentos) y asociaciones
(relaciones entre los topics).
Los topic maps son utilizados como herramientas para la gestión y la optimización de la
recuperación de información. Como ámbitos de aplicación más frecuentes tenemos la
navegación (ya que muestra todos los conceptos relacionados con el concepto central), la
visualización de resultados de búsquedas (como árbol de hipervínculos, browser o gráfico) y la
mejora de la recuperación de información en sí misma a partir de los mecanismos de inferencia
y declaración de types (tipologías de topics).
Ejemplo:
Techquila's Topic Map World Topic Map
Folksonomías
También llamadas sistemas de clasificación colectiva, son una forma de organización de la
información mediante la asignación de palabras clave a documentos y recursos de información
de forma colaborativa y colectiva.
Esta herramienta documental difiere bastante de los lenguajes documentales tradicionales, y
aún de los de nueva generación pero basados en una estructura jerárquica de conceptos,
puesto que la asignación de las palabras clave, llamadas tags o etiquetas, es una tarea
cooperativa teniendo como única base el conocimiento propio de los usuarios o las etiquetas
anteriormente asignadas libremente por otros usuarios. Dichas etiquetas representan
categorías dinámicas que evolucionan de acuerdo a la participación de los usuarios, lo cual se
diferencia completamente de las categorías temáticas definidas a priori por la mayoría de los
lenguajes documentales habituales.
Según Weiss (2005), el elemento clave y diferenciador de las folksonomías surge de las
condiciones que reúnen las etiquetas:
•
•
•
•
•
•
•
•
•
están hechas por cualquier persona
para crearlos se requiere de aprender pocas pautas
se producen sin beneficio propio
las ventajas de los usuarios crecen con la agregación
no se rompen cuando hay datos incompletos
se presentan en formas de conjuntos y no de jerarquías
no están diseñadas a priori, por lo cual son mas flexibles
no tienen autoría, nadie las centraliza ni controla
son relevantes para los propósitos e intereses de un sitio web determinado
Actualmente la utilización de las folksonomías en sitios tales como Flickr, del.icio.us,
Technorati, Amazon o El Mundo (entre otros medios de comunicación digitales), tiene su
fundamento en la utilización de sistemas de clasificación colectivos y compartidos mediante la
asignación libre de etiquetas. Sin embargo, cabe destacar que dichos vocabularios no crecen
indefinidamente, sino que tienen mecanismos intrínsecos de control, puesto que los usuarios
tienden progresivamente a utilizar las etiquetas usadas por otros usuarios para definir un
contenido, en tanto coincidan con su significado. De esta manera, también se potencian los
términos con más frecuencia de uso, lo que a su vez funciona como evaluador de los
contenidos con más consultas. (Rodríguez Peña, 2005).
[NOTA: Se da el caso de ciertos recursos de información, como los periódicos digitales, donde
las etiquetas no son asignadas por usuarios reales sino que son extraídas automáticamente de
los textos]
Por último, es interesante destacar que las folksonomías son una forma orgánica y democrática
de clasificar la información que circula por Internet, con base en una arquitectura social que
posibilita sumar las colaboraciones individuales para aprovechar el conocimiento de los otros.
Ejemplos:
Nube de términos de las noticias de elmundo.es
Technorati
3. Comentarios finales
El entorno digital está en plena etapa de expansión y consolidación e influye a todos los
ámbitos del conocimiento y por supuesto a sus prácticas. La Documentación no puede evitar
que su praxis se vea influenciada por lo digital, que ha irrumpido con fuerza en el campo de la
representación y recuperación de información.
La creciente consolidación de la Web Semántica y la Web 2.0 con las tecnologías asociadas a
su desarrollo y los cambios en el comportamiento de gestión y recuperación de la información
en contextos digitales, plantea la necesidad de cuestionarse los fundamentos de
estructuración, representación, gestión y uso de las herramientas documentales.
Las herramientas que hemos denominado en el artículo, de nueva generación, tienen la
tendencia a generarse de forma automática o semi automática, buscando así bajar costos de
actualización y mantenimiento.
También es necesaria una revisión y profundización de las estructuras conceptuales, puesto
que cada vez más es prioritario establecer relaciones conceptuales de significación específica
para un dominio concreto del conocimiento. A ello se suma, el requerimiento de enriquecer las
categorías de palabras que pueden utilizarse como palabras clave, dejando atrás la presencia
absoluta de los sustantivos en las herramientas documentales.
Otro aspecto a tener en cuenta, es la representación de dichas estructuras conceptuales,
donde las redes semánticas tales como los mapas conceptuales y topics maps cada vez tienen
más aplicaciones en la recuperación y búsqueda de información.
Por último, es indudable la revolución que significa la gestión y utilización colaborativa de
etiquetas para la tematización o clasificación de documentos y recursos digitales. Esta realidad
ha venido para quedarse, puesto que el crecimiento de documentos y recursos disponibles no
se estancará, y por lo tanto es económicamente inviable el mantenimiento de lenguajes
documentales con predominancia de las estructuras jerárquicas.
Las folksonomías son sistemas de indización abiertos, donde los usuarios crean libremente
etiquetas que retroalimentan el sistema. De esta forma una etiqueta asignada por un usuario en
un determinado momento se transforma en una categoría bajo la cual se agrupan varios
documentos o recursos de información relacionados por el mismo tema, y de esta categoría
también se beneficia el propio servicio que proporciona la infraestructura colaborativa.
4. Bibliografía
Cobo Romaní, Cristóbal;Pardo Kuklinski, Hugo. (2007). Planeta Web 2.0. Inteligencia colectiva
o medios fast food. Grup de Recerca d'Interaccions Digitals, Universitat de Vic.
Flacso México. Barcelona / México DF.
Feliu, J. (2004). Relacions conceptuals i terminologia: anàlisi i proposta de detecció
semiautomàtica. Barcelona: UPF.
García Marco, F. J. (1997). "Clasificación y recuperación de información". EN: Pinto, M. (ed.)
(1997). Manual de clasificación documental . Madrid: Síntesis.p. 247-285
Garrido Arilla, M. R. (2002)."Fundamentos del análisis documental". EN: López Yepes, J.
(coord). (2002). Manual de Ciencias de la Documentación .Madrid: Pirámide. p. 337-357.
Gil Urdaciaín, B. (1996). Manual de lenguajes documentales. Madrid: Noesis.
Lancaster, F. W. (1996). Indización y resúmenes: teoría y práctica. Buenos Aires: EB.
López Yepes, J. (coord). (2002). Manual de Ciencias de la Documentación .Madrid: Pirámide.
Moreiro González, J.A. (2006). La representación y recuperación de los contenidos digitales: de
los tesauros conceptuales a las folksonomías. En: Tendencias en documentación digital /
coord. por Jesús Tramullas Saz. Madrid: Trea.
O?Reilly, T. (2005). Web 2.0: Compact Definition? En: O?Reilly Radar. [Consulta: 4 de
noviembre 2009]
Pinto Molina, M. (2002)."Análisis documental de contenido". EN: López Yepes, J. (coord).
(2002). Manual de Ciencias de la Documentación .Madrid: Pirámide. p. 419-447.
Van Slype, G. (1991). Los lenguajes de indización: concepción, construcción y utilización en los
sistemas documentales .Madrid, Salamanca: FGSR, Pirámide.
Weiss, A. (2005). The power of collective intelligence. En: netWorker, 9(3): 16-23.
© Master en Documentación Digital (IDEC-UPF)
14/11/2010
Descargar