Tesauros

Anuncio
TESAUROS
ÍNDICE
1 INTRODUCCIÓN 2
2 TESAUROS 3
2.1 DEFINICIÓN 3
2.2 RAZONES Y OBJETIVOS DE UN TESAURO 4
2.3 PASADO Y PRESENTE DE LOS TESAUROS 5
2.4 CARACTERÍSTICAS 7
2.5 ESTRUCTURA GENERAL DE UN TESAURO 8
2.6 TIPOS DE TESAUROS 13
2.7 PRESENTACIÓN DE UN TESAURO 14
2.8 DIRECTRICES PARA LA CONSTRUCCIÓN DE TESAUROS 15
3 ELABORACIÓN DE UN TESAURO 17
3.1 ELECCIÓN DE TEMA 17
3.2 RECOPILACIÓN DE LOS TÉRMINOS 17
3.3 NORMALIZACIÓN DEL VOCABULARIO O CONTROL TERMINOLÓGICO Y REDUCCIÓN DEL
VOCABULARIO 18
3.4 ESTABLECIMIENTO DEL ESQUEMA Y LA ESTRUCTURA DE ORGANIZACIÓN DE LOS
TÉRMINOS 19
3.5 REVISIÓN DEL TESAURO 20
3.6 PRESENTACIÓN Y EDICIÓN DE UN TESAURO 20
3.7 MANTENIMIENTO. 21
4 TESAURO AUTOGENERADO. 22
4.1 INTRODUCCIÓN. 22
4.2 DESCRIPCIÓN DE UN TESAURO AUTOGENERADO. 22
4.3 PASADO, PRESENTE DE LOS TESAURO AUTOGENERADOS. 23
1
4.4 EL FUTURO DE LOS TESAUROS AUTOGENERADOS. 24
4.5 TIPOS DE INDIZACIÓN AUTOMÁTICA 26
5 ELABORACIÓN DE UN TESAURO AUTOGENERADO 28
5.1 IDENTIFICACIÓN DEL VOCABULARIO 28
5.2 IDENTIFICACIÓN DE LAS RELACIONES 30
6 TESAUROS MANUALES Y TESAUROS AUTOMÁTICOS 32
6.1 VENTAJAS DE TESAUROS AUTOMÁTICOS. 32
6.2 INCONVENIENTES DE TESAUROS AUTOMÁTICOS. 33
1 INTRODUCCIÓN
Hasta ahora hemos hablado de la motivación para realizar este proyecto y la importancia de los tesauros como
método para la organización y recuperación de la información, pero todavía no tenemos una definición formal
de lo que es un tesauro. A continuación hablaremos de qué es un tesauro, su forma de construcción, elementos
que lo componen junto con más información relevante para llegar a una buena comprensión del concepto.
2 TESAUROS
2.1 DEFINICIÓN
Se pueden definir según su función y según su estructura (Norma ISO 2788, 1986)
− Por su función, se puede definir como un instrumento de control terminológico utilizado para trasponer a un
lenguaje más estricto el idioma natural empleado en los documentos y por los indizadores.
− Por su estructura, es un vocabulario controlado y dinámico de términos que tienen entre ellos relaciones
semánticas y genéricas y que se aplica a un dominio particular del conocimiento.
Otra definición dada por Alan Gilchrist y Jean Aitchison (Thesaurus construction and use, 1997) es:
Vocabulario de un lenguaje controlado de indización organizado formalmente, de manera que las relaciones
entre los conceptos se establezcan a priori, para ser usadas en sistemas de recuperación de información.
Y por último otra definición, para que veamos que todas ellas se engloban dentro de términos parecidos.
Del conjunto de definiciones se desprende que un tesauro es un vocabulario controlado para representar de
manera unívoca el contenido de los documentos y de las preguntas, así como ayudar al usuario en el
tratamiento de la información.
A continuación se explicará la evolución de los tesauros para poder llegar a comprender toda su utilidad.
2.2 RAZONES Y OBJETIVOS DE UN TESAURO
A continuación vamos a comentar las principales razones que justifican la construcción y utilización de
tesauros:
2
1. Crear un mapa del campo/conocimiento.
2. Crear un vocabulario controlado para dicho campo.
3. Asegurar que para un concepto sólo se utilizará un término, pero se contemplan los sinónimos.
4. Facilitar a los usuarios la localización de nuevos conceptos mediante las relaciones del sistema.
5. Poder restringir o ampliar los resultados de una búsqueda mediante las relaciones.
Estos principales objetivos son planteados por Foskett, en su artículo Thesaurus (1997). En definitiva, un
tesauro es una herramienta que nos permite clasificar, organizar y recuperar la información en un área
temática determinada.
2.3 PASADO Y PRESENTE DE LOS TESAUROS
Para llegar a comprender la utilidad e importancia de estos es parte fundamental e interesante recodar algunos
hitos de su evolución.
En sus comienzos (Siglo XVIII) los desarrollos sobre la organización de la información habían estado
subordinados a otros intereses como por ejemplo la ordenación de la bibliografía.
En 1852 se publicó por primera vez el conocido como tesauro literario de Rodget.
En 1876 Charles Ammi Cutter expuso varias teorías acerca del acceso temático de la información. Estas
teorías se unieron a la introducción por parte de Cutter de una clase de lenguaje documental. Este hecho se
considera como uno de los precursores más inmediatos de los lenguajes documentales, el tesauro.
A partir del siglo XIX es cuando se renueva la idea sobre la organización o lenguaje documental y se
comienzan a realizar las primeras obras en torno a este nuevo concepto.
Durante el siglo XX, estos nuevos conceptos (los lenguajes documentales) que habían estado surgiendo a lo
largo del siglo XIX se consolidan y desarrollan.
En 1948 fue cuando Bernier definió tesauro documental como herramienta conceptual de relaciones entre
términos de tipos postcoordinados. En 1957 Bernier y Heumann propusieron el uso del tesauro para organizar
el vocabulario en sistemas de recuperación de la información.
En este momento (los años 50) fue cuando se comenzó a tratar a los tesauros como herramientas
documentales. Estas herramientas documentales fueron perfeccionándose con el paso del tiempo hasta llegar a
ser un sistema de control terminológico.
Los primeros desarrollos prácticos enfocados a la recuperación conceptual se produjeron en los años 80. Estos
desarrollos comenzaron en Estados Unidos y su finalidad era la gestión de la información de grandes
instituciones de forma más automática. Ejemplo de estas instituciones fueron la API−CASI (American
Petroleum Institute) la cual en 1982 comenzó el desarrollo que finalizaría en 1985 con éxito, Este ha sido
considerado como el primer desarrollo de los sistemas automáticos de indización.
En España a grandes rasgos no existieron casi referencias a los tesauros hasta finales de la década de los 70. A
partir de ese momento se consolidó su utilización y se empezaron a desarrollar en mayor cantidad.
2.4 CARACTERÍSTICAS
3
Un tesauro, en base a su definición, debe presentar las características siguientes (Curras, Emilia. Tesauros):
• Ha de ser un lenguaje especializado.
• Debe estar normalizado, lo cual se realiza en un proceso por lo que el tesauro ha de estar
post−controlado.
• Las distintas unidades lingüísticas que lo componen como consecuencia de tratarse de léxicos
dedicados a un tema en concreto, adquieren la categoría de términos. Estos son convertidos en
palabras clave en el sentido de que determinan el tema de que trata un documento.
• Este conjunto de palabras clave que forman el lenguaje especializado se relacionan entre sí, bien sea
con una estructura jerárquica, de manera asociativa, o bien por semejanzas de equivalencia que
pudieran existir entre ellas.
• Dichas relaciones se podrán realizar con métodos de precoordinación y/o métodos de
postcoordinación.
• Una característica que se deriva de la tercera condición es que los tesauros hacen referencia a
lenguajes terminológicos, los cuales se emplean con fines documentalistas, y como consecuencia de
esto se convierten en los lenguajes empleados en los procesos de indización o clasificación y en los
procesos de recuperación de la información.
• Otra característica no menos importante es que deben de ser dinámicos, lo que significa que deben
poder permitir la introducción y supresión de términos con el fin de poder mantenerlo actualizado.
• Han de servir para convertir el lenguaje natural en lenguaje normalizado, formal, apto para controlar
la información contenida en el documento.
• Por último y como punto importante, han de servir de nexo de unión entre el documento y el usuario,
donde la figura del documentalista, es el eslabón fundamental.
2.5 ESTRUCTURA GENERAL DE UN TESAURO
Para comprender el funcionamiento de un tesauro vamos a realizar una explicación más a fondo de la
estructura del mismo. Los elementos principales que lo componen son los términos y las relaciones entre
ellos.
Los términos son los siguientes:
• Unidades Lexicales:
Estas pueden ser de las siguientes categorías: grupo de descriptores, que agrupan los términos de indización
bien por campos o por clases de términos o facetas.
• Descriptores:
Son palabras o expresiones del lenguaje natural retenidas por el constructor del tesauro para designar los
conceptos representativos del documento.
Los descriptores pueden estar compuestos por varias palabras. Si cada una de las palabras que conforma el
descriptor se encuentra en el tesauro como un término compuesto se le denomina descriptor precoordinado.
4
Normalmente se utilizan este tipo de descriptores cuando se utilizan solos con mucha frecuencia.
Si por el contrario los términos que componen a nuestro descriptor compuesto varían su significado
utilizándolos como descriptores simples, la combinación se realiza en la indización y por lo tanto se
denominarán postcoordinados.
• No Descriptores:
Son sinónimos o cuasi−sinónimos de los descriptores o términos que designan en el lenguaje de uso conceptos
afines a los que cubren los descriptores. Los no descriptores no pueden ser utilizados para la indización de
documentos, pero cada uno de ellos se reenvía a otro descriptor para representar los conceptos
correspondientes.
Las relaciones que hay entre los términos de un tesauro son:
• Relaciones de equivalencia:
Una relación de equivalencia es la relación entre descriptores o términos preferidos y los no descriptores o
términos no usados en la indización referentes a un mismo concepto. Esta relación cubre dos tipos de
términos: los sinónimos y los cuasi−sinónimos.
Los sinónimos son términos cuyo significado puede considerarse igual, por lo que son intercambiables y
tienen diferente origen lingüístico.
Los cuasi−sinónimos son términos cuyo significado es considerado diferente en el uso común, pero son
tratados como sinónimos en la indización.
• Relaciones jerárquicas:
Una relación jerárquica es la relación vertical entre todos los descriptores de una misma clase, expresada en
términos de subordinación de los conceptos. Estas relaciones se utilizan durante la búsqueda para enriquecer
la formulación de la pregunta, añadiendo a la búsqueda uno o más descriptores superiores o inferiores para
concretar la más.
• Relaciones asociativas :
Indican relación o uniones en el significado de los descriptores. Son relaciones simétricas entre dos
descriptores, que son susceptibles de evocarse mutuamente por asociación de ideas. Las relaciones asociativas
son las más difíciles de definir.
Otro componente que tiene el tesauro son las Notas de Alcance:
Se usan para limitar el uso de los descriptores, para escribir un posible sentido del término cuando éste tiene
diferentes significados, pues es usado en diferentes disciplinas. No forma parte del descriptor, aunque
aparezca en el tesauro.
Las notas de alcance deben ser:
• Relevantes.
• Bien formadas.
En definitiva, estas notas de alcance son anotaciones sobre los términos con el fin de aclarar y que el usuario
5
no tenga dudas a la hora de seleccionar un término.
Las siglas empleadas para expresar estas relaciones son las siguientes:
Siglas
Significado
Siglas (inglés)
Descripción
(español)
SN
NA
Nota de alcance
USE
UF
USE
UP
Término Preferido
Término no preferido
BT
TG
Término genérico
NT
TE
Término específico
RT
TR
Término relacionado
No es ningún tipo de relación si no anotación
útiles para la comprensión de los tesauros.
Siglas utilizadas en la relación de equivalencia.
Siglas utilizadas en la relación de equivalencia.
Estas siglas corresponden a las relaciones
verticales o de jerarquía.
Estas siglas corresponden a las relaciones
verticales o de jerarquía.
Por último esta sigla corresponde a la relación
asociativa, y sólo existe una clase de siglas para
este tipo ya que es simétrica.
Y por último vamos a poner unos ejemplos aclaratorios.
Esta es una representación gráfica de términos con sus relaciones del tesauro que utilizamos en nuestro
proyecto.
A continuación pondremos un ejemplo de una nota de alcance:
AGALLAS
SN: 01Estructura resultante de la
SN: 02hipertrofia de tejidos vegetales causada
SN: 03por un insecto, donde se desarrollan sus
SN: 04larvas. Usar el término BRANQUIAS para
SN: 05referirse al órgano respiratorio de los
SN: 06peces, que recibe también el nombre de
SN: 07"agallas".
BT: ZOOLOGÍA
RT: INSECTA
RT: LARVAS
Vemos como esta nota de alcance aclara que este término no lo utilizamos para referirnos a branquias y en
qué caso lo tendremos que utilizar.
6
2.6 TIPOS DE TESAUROS
En cuanto a los tipos de tesauros se pueden percibir desde dos enfoques:
♦ Tesauro facetado.
Combina por un lado la clasificación facetada o sistemática, junto con un tesauro alfabético. Los documentos
se agrupan por clases o por puntos de vista.
♦ Tesauro por campos.
Son aquellos que agrupan los términos por temas o campos de información.
En cuanto a la estructura del tesauro, pueden darse origen a tres tipos de tesauros.
• Tesauro lineal.
Este tipo de estructura de tesauro está compuesto por una serie de palabras sin conexiones entre ellas. Puede
denominarse vocabulario simple.
• Tesauro absorbente.
Este otro está construido en forma ramificada, así cada descriptor está asociado con un término genérico y
otros descriptores ascendente o descendentemente.
• Tesauro reticular.
El tesauro reticular está construido con descriptores entrecruzados en forma de red. Cada descriptor puede
tener varios descriptores genéricos y específicos y la información generada será más completa.
2.7 PRESENTACIÓN DE UN TESAURO
En lo referido a la presentación del tesauro, o lo que es lo mismo a la manera de mostrar el tesauro final
tenemos los siguientes tipos:
• Presentación alfabética.
En este tipo de presentación los descriptores y no descriptores se encuentran en una misma secuencia
alfabética, acompañados de sus relaciones.
• Presentación sistemática o jerárquica.
Esta presentación consta de dos partes; una de ellas contiene las categorías o jerarquías y por otra parte tienen
un índice alfabético.
• Presentación gráfica.
En esta presentación los descriptores y no descriptores están dispuestos como una figura que permite al
usuario asociar los términos que se encuentran relacionados, mostrando sobre todo las relaciones jerárquicas
existentes entre los descriptores. Esta representación puede ser con árboles o con flechados.
• Presentación permutada.
7
La presentación permutada alfabetiza los descriptores por cada una de las palabras que lo compone,
apareciendo el descriptor tantas veces como número de palabras lo compone.
2.8 DIRECTRICES PARA LA CONSTRUCCIÓN DE TESAUROS
Las normas existentes para el diseño y construcción de un tesauro son esenciales y necesarias a la hora de
elaborar uno en cualquier área del conocimiento.
Para los tesauros monolingües existen dos importantes normas internacionales:
• La norma ANSI Z39.19:2005 y la correspondiente española la UNE 50−106−90. Proporciona reglas y
recomendaciones para la normalización de los términos, definiendo sus tipos de relaciones como son
la jerárquica, la asociativa y la de equivalencia.
También define sus tipos de presentaciones, la alfabética, jerárquica y la gráfica y el tratamiento de los
términos, desde su verificación hasta su admisión o supresión.
• UNE 50−125−1997, en la que vienen desarrolladas las directrices para el establecimiento y desarrollo
de los tesauros multilingües, equivalente a ISO 5964:1985.
3 ELABORACIÓN DE UN TESAURO
Para el diseño y la elaboración de un tesauro se deben de seguir una serie de etapas establecidas. Éstas se
encuentran plasmadas en la norma UNE 50−106−90 (Normativa para la construcción de un tesauro
comentada anteriormente). Para la indización la norma a seguir es UNE 50−106−91. Además existen otras
recomendaciones otorgadas por Aitchison en su manual práctico de Uso y construcción de tesauros. Con todo
esto detallamos las fases a seguir.
3.1 ELECCIÓN DE TEMA
En el proceso de la construcción manual de un tesauro lo primero que se debe hacer es definir los límites o
área temática en la que se va a desarrollar el tesauro. Una vez elegida la temática general y las periféricas, el
dominio será dividido en subáreas.
3.2 RECOPILACIÓN DE LOS TÉRMINOS
En esta segunda fase del proceso nos debemos centrar en la recogida de los términos para nuestro tesauro.
Para eso tenemos que plantearnos qué fuentes consultar, pudiendo ser por ejemplo enciclopedias, manuales,
libros de texto, artículos o también otros tesauros. Estas fuentes se pueden dividir en tres grupos:
• Fuentes Personales, especialistas en el dominio, por ejemplo.
• Fuentes documentales, como artículos o libros relacionados con el tema.
• Tesauros o instrumentos de representación del conocimiento en base al área en el que nos
encontramos.
Aquí vemos como el proyecto empieza a coger cuerpo, ya que nosotros nos basamos en dos de las principales
fuentes para desarrollar nuestro tesauro; por un lado un tesauro existente y por otro artículos relacionados en
la materia.
Para la recopilación de esta información se pueden utilizar dos métodos distintos como son el deductivo o el
8
inductivo.
• Método deductivo. En este método, se construye el tesauro antes del inicio del análisis de los
documentos.
• Método inductivo. En este otro, los descriptores se determinan conforme se realiza el análisis de los
documentos y no con un tesauro previamente construido como sucede con el método deductivo.
3.3 NORMALIZACIÓN DEL VOCABULARIO O CONTROL TERMINOLÓGICO Y REDUCCIÓN DEL
VOCABULARIO
En esta fase, se identificaran los diferentes términos que designan un mismo concepto y se seleccionará de
entre ellos cuál será el término preferido y cuáles se considerarán los no preferidos. También se comprobará
que los futuros descriptores no tengan varios términos, evitando ambigüedades.
En este paso también tenemos que evitar los términos duplicados (eliminando los no necesarios) y el control
gramatical de género y número.
En definitiva lo que se busca es fijar una terminología inequívoca. Con inequívoca nos referimos a que supere
las sinonimias y polisemias, es decir, que estén controladas. También deberá eliminar los términos que se
quedan fuera de nuestro alcance.
3.4 ESTABLECIMIENTO DEL ESQUEMA Y LA ESTRUCTURA DE ORGANIZACIÓN DE LOS TÉRMINOS
En este proceso se tendrá primero que marcar una organización esquemática para dividir o agrupar las
categorías a través de criterios como son los temas o materias, tareas o funciones, etc.
Una vez completada la fase de la recopilación y normalización del vocabulario (términos ya recogidos), estos
términos tienen que pasar a ser los descriptores y no descriptores del tesauro. Además se deberán añadir las
notas de alcance.
Al haber concluido con los elementos del tesauro, se deberán establecer las relaciones semánticas entre los
términos. Entre estas relaciones se encuentran las ya comentadas anteriormente: relaciones de equivalencia,
jerárquica y asociativa.
3.5 REVISIÓN DEL TESAURO
Una vez definidos todos los elementos que componen a los tesauros como son, los términos y las relaciones, y
antes de dar forma a todos estos elementos se deberán realizar pruebas para ver que nuestro tesauro es al
mismo tiempo robusto, útil y correcto.
3.6 PRESENTACIÓN Y EDICIÓN DE UN TESAURO
Por último hay que elegir el tipo de presentación y más tarde realizar el paso final; la edición del tesauro.
Los términos que componen el tesauro junto con sus relaciones se pueden representar de distintas formas.
Primero se elegirá la tipología del tesauro, que puede ser elegida de entre dos fundamentales; el facetado o por
campos, y también su estructura entre lineal, absorbente o reticular.
Una vez completado este paso, lo que queda es la presentación del tesauro. Como anteriormente se ha
explicado hay varios tipos de representación. Entre los más comunes se encuentran la presentación alfabética,
la presentación jerárquica y por último la presentación gráfica.
9
Como complemento muy conveniente emerge la realización de un índice permutado. En este índice estarán
todos los descriptores en orden alfabético tantas veces como términos compongan a estos descriptores.
Una vez realizados todos los pasos anteriores se procede a la construcción de la primera edición. Cuando el
tesauro ya haya sido editado se podrán realizar recomposiciones, correcciones y ampliaciones según se desee.
3.7 MANTENIMIENTO.
Una vez que el tesauro ha sido diseñado e implementado para usarse en un sistema de recuperación, este
deberá ser mantenido y actualizado para asegurar su validez y efectividad a lo largo del tiempo, es decir, que
el tesauro deberá estar completamente al día de los cambios que se producen, en concreto de los términos que
pasan a formar parte de nuestra área temática. Al ir añadiendo todos estos nuevos términos, la magnitud del
tesauro va aumentando, ya que éste todavía conserva la información de los viejos documentos. Todo esto
provoca que las actualizaciones sean lentas y la realización dé mucho trabajo para la revisión y modificación
continua de este tesauro.
Con lo anteriormente expuesto, concluimos que una forma de enfocar la elaboración de los tesauros podría ser
a través de una automatización de los mismos. Estos tesauros automáticos o autogenerados los explicaremos a
continuación.
4 TESAURO AUTOGENERADO.
4.1 INTRODUCCIÓN.
A la vez que aumentaba la cantidad de información iba aumentando la necesidad de herramientas de control y
recuperación de la información. Todo esto ha confirmado la necesidad de los procesos de indización
automática de documentos debido a la palpable diferencia de tiempo entre un proceso automático y otro
manual, por un lado, y al ahorro de costes por otro.
4.2 DESCRIPCIÓN DE UN TESAURO AUTOGENERADO.
Un tesauro autogenerable es el resultado de la automatización total o parcial del proceso de elaboración de un
tesauro. Estos tesauros pueden poseer unas características especiales que son:
• Monotemática: debe estar englobada en una determinada área temática (característica general de todos
los tesauros).
• Gestión de descriptores: realización de un control sobre los sinónimos, genéricos, específicos y
relacionados de un descriptor, todo ello para que la información obtenida sea más completa.
• Ha de tener capacidad de indización automática de texto libre a nivel morfológico, sintáctico y
semántico.
• Capacidad de actualización automática.
• Capacidad de recuperación normalizada: las consultas de información que se realizan se modificarán
con el fin de conseguir más información.
• Capacidad de recuperación por aproximación temática: la búsqueda no se realizará sólo sobre el tema
específico, sino que también abarcará los temas que estén relacionados.
4.3 PASADO, PRESENTE DE LOS TESAURO AUTOGENERADOS.
10
El comienzo en la automatización de la construcción de tesauros no surgió hasta los años 50, cuando se
empezó a ensayar con distintos métodos para la creación semiautomática de tesauros.
Los primeros sistemas fueron detectores de sustantivos dentro de textos. Éstos solo eran eficientes en campos
muy limitados. Ejemplos de los primeros sistemas fueron AIPIA, un método de indización que se utiliza
todavía en nuestros días en ámbitos como la industria del aceite o el turismo.
También existen otros ejemplos como el sistema de información del API, ya comentado anteriormente,
aplicado en empresas petroquímicas desde los años 70. Estos sistemas tenían todavía deficiencias. Un ejemplo
de estas deficiencias es que las únicas relaciones que podía detectar eran las asociativas.
4.4 EL FUTURO DE LOS TESAUROS AUTOGENERADOS.
Las tendencias en los últimos años han ido cambiando, ya que se han producido grandes avances a nivel de
hardware y en las tecnologías de clasificación. Todos estos avances están ayudando a que se realicen
herramientas capaces de ayudar en la construcción automática. En definitiva, lo que se intenta es abaratar y
facilitar su construcción. Estas tendencias se han traducido en las siguientes propuestas:
• Mejora del estándar clásico (ISO 2788) sobre tesauros.
• Inclusión de relaciones a documentos y relaciones circunstanciales localizadas en corpus concretos.
Esta idea surgió en los trabajos de grupos de investigación alemanes liderados por H. Holger y S.
Pepper.
• Incluir como descriptores otros elementos distintos a los sustantivos, como adjetivos o verbos.
• Aumento de la tipología de relaciones entre conceptos. Se propone un aumento de la variedad de tipos
de relaciones para mejorar la recuperación.
• Se complementa la estructura del tesauro con otros aspectos como la inclusión de vistas (facetas) diferentes
que suponen la ampliación del tesauro.
• Se trasladan los modelos propios de la Ingeniería del Software a las estructuras de recuperación mediante
tesauros. Esto supondrá una ventaja en los dominios más complejos beneficiados por el alto nivel de
abstracción que nos dan estos modelos.
• Otra de las ramas por las que se está experimentando para el desarrollo de estos tesauros automáticos es la
intervención de la Inteligencia Artificial.
La Inteligencia Artificial se utiliza para intentar conseguir una cierta aproximación a las capacidades tanto
cognitiva como lingüística de los humanos. Los proyectos actuales de indización automática se caracterizan
por la estrecha colaboración que se está desarrollando entre los sistemas de Inteligencia Artificial y la gestión
digital de los documentos. Algunos ejemplos de programas de indización automática son los siguientes:
• LEXIWARE de Lexiquest http://www.lexiquest.com. Mejorar los resultados mediante la adición de
texto a los análisis de datos.
• OINGO, de applied semantics http://appliedsemantics.com
• SPIRIT, comercializado en un principio con Systex y luego por Sport Technologies SIG
http://www.t−gid.com. Motor de búsqueda semántica, Difusión selectiva de información,
Categorización automática.
En definitiva se puede concluir que la solución no viene del desarrollo de sólo una de estas vías, si no de la
11
unión e integración de varias de éstas.
4.5 TIPOS DE INDIZACIÓN AUTOMÁTICA
Vamos a describir los distintos procedimientos a través de los cuales se pueden realizar tesauros automáticos.
Esta división se realiza en función de dos aspectos. La primera división se realiza sobre la forma de obtención
de los términos y el grado de automatización del mismo:
• Indización asistida por ordenador:
La obtención de los términos se realiza intelectualmente, y el almacenamiento y mantenimiento se realiza a
través de un soporte informático.
• Indización semiautomática:
El sistema informático es el encargado de la extracción de los conceptos pero los términos son propuestos por
una persona.
• Indización automática:
El sistema informático realiza la extracción de los conceptos y valida su representación como descriptores o
términos no preferidos.
La otra división se rige según los sistemas de indización automática utilizados, que son los siguientes:
• El primer método es la indización automática a partir de una colección de documentos.
La idea es usar una colección de documentos como fuente para la construcción del tesauro. Se asume la idea
de que los textos disponibles conforman una muestra muy completa del área elegida. Se deben aplicar
procedimientos estadísticos para identificar los términos importantes así como sus relacionas más
significativas. Hasta que sean descubiertos métodos más directos, los estadísticos continuarán siendo los más
usados.
• Construcción a partir de la mezcla de tesauros existentes.
En este método, como ya hemos explicado, si existen dos tesauros del mismo área temática se pueden unir
dando como resultado otro tesauro más completo.
Un ejemplo de este método fue el aumento del tesauro MeSH (Medical Subject Headings) usando otro tesauro
como era el MEDLINE.
• Construcción a partir de los usuarios.
La idea es utilizar los conocimientos de los usuarios. Estos métodos utilizan distintos tipos de operadores para
concretar o generalizar la búsqueda. Estos operadores pueden ser OR, AND, etc. Entonces el sistema será
capaz de capturar este conocimiento y utilizarlo para conformar un tesauro, por lo que este método requiere
una considerable interacción con la población usuaria. Un ejemplo de ello es la base TEGEN, sistema de
generación de un tesauro diseñado por Guntzer en 1988.
5 ELABORACIÓN DE UN TESAURO AUTOGENERADO
12
La elaboración de un tesauro autogenerado o automático es un proceso similar a la construcción de un tesauro.
La única diferencia es que, de forma parcial o total, los pasos están automatizados.
5.1 IDENTIFICACIÓN DEL VOCABULARIO
En la primera parte de la elaboración de un tesauro autogenerado, el primer paso que hay que dar es la
identificación del vocabulario, y lo más significativo en relación a este tema es lo siguiente:
• Corpus Documentales.
Estos corpus son conjuntos de documentos de determinadas áreas que sirven para hacer estudios lingüísticos.
La mayoría de los sistemas para la creación automática de tesauros funcionan mejor cuanto mayor sea el
corpus, o cuanto más restringido sea el área de estudio. Estos corpus documentales sirven para identificar el
vocabulario característico del área. Los corpus léxicos o documentales más importantes son: BNC (British
Nacional Corpus) en inglés y CREA en español.
• Tokenizador.
Una de las cuestiones que debe resolver un sistema de indización, independientemente de que su finalidad sea
recuperar información o construir un tesauro, es saber qué unidades de información debemos guardar. Esta
información se refiere a que constituye un registro o un término.
• Normalización.
La normalización o stemming es un proceso mediante el cual se pretende unificar en una única familia de
palabras aquellos términos que están relacionados semánticamente. Para normalizar se sigue un proceso en el
que se unifican bajo una forma normalizada las distintas variantes de términos flexionadas y derivadas.
• Filtrado.
El filtrado es un paso previo a la indización automática. Con esto se consiguen varios fines:
− Reducir el tiempo dedicado a la indización, mediante la reducción del texto.
− Control de los términos.
• Los método tradicionales son el filtrado manual, normalización a mayúsculas y la supresión de
espacios en descriptores coordinados.
• Indización de la información.
En principio, la indización automática siempre es por extracción, es decir, que los términos que se relacionan
han sido extraídos de los documentos. Sin embargo, hay sistemas basados en tesauros en los que se han
realizado desarrollos que permiten indizar con términos no presentes en los documentos. Esta indización se
denomina por asignación.
5.2 IDENTIFICACIÓN DE LAS RELACIONES
Una vez obtenido el vocabulario, el siguiente paso es crear las relaciones entre términos basándose en dos
tipos de herramientas; o bien la estadística o bien las herramientas de Procesamiento de Lenguaje Natural
(PLN).
13
• Estadística.
Se basan en la pauta y el número de apariciones de un término o grupo de términos en los documentos de un
corpus. Entre los desarrollos basados en los algoritmos estadísticos se encuentran los siguientes:
− Uno de ellos son los de agrupación en clases (k−means por ejemplo). Éstos sólo resultan eficaces en
términos concretos. Las relaciones que dan tienen una semántica pobre, del tipo el término A está relacionado
con el término B.
• PLN (Procesamiento del Lenguaje Natural).
Existen tres grandes corrientes en las que la inclusión de formas verbales en la indización y construcción de
los tesauros mediante la utilización de recursos lingüísticos y el uso del PLN:
− Utilización de clasificaciones verbales, para mejorar la recuperación.
− Identificación de estructuras verbales que indiquen a priori las relaciones clásicas de los tesauros;
principalmente jerarquía, asociación, equivalencia.
− Otra tendencia ha sido la utilización de los verbos para la desambiguación de los sustantivos. El objetivo es
determinar el sentido correcto (en nuestro contexto) de aquellas palabras que tienen más de un significado
mediante la utilización de los verbos.
6 TESAUROS MANUALES Y TESAUROS AUTOMÁTICOS
Una vez comprendidas las diferencias existentes entre ambos y bien definida la situación en la que nos
encontramos, se va a contrastar directamente la utilización de unos respecto de los otros.
6.1 VENTAJAS DE TESAUROS AUTOMÁTICOS.
Existen incuestionables beneficios a la hora de elegir un sistema de construcción automático de tesauros frente
a uno manual y son los siguientes:
• Mayor actualización.
Estos sistemas automáticos son mucho más rápidos a la hora de la introducción de términos y relaciones; son
muy útiles en los ámbitos de rápida evolución.
• Menor tiempo y menor coste de construcción.
A la hora de construir un tesauro, todo el proceso lleva una gran cantidad de tiempo y cuesta mucho
mantenerlo. Por otro lado los sistemas automáticos tienen un elevado coste de construcción pero una vez que
están desarrollados la construcción de tesauros automáticos será muy sencilla.
• Mejor reutilización del software.
Una vez desarrollada una herramienta para la construcción de tesauros en un determinado área, reutilizarlos
para otras áreas distintas será fácil y muy útil.
• Mayor consenso.
A la hora de introducir nuevos elementos en los tesauros, esta decisión se basará en sistemas estadísticos
14
siempre objetivos y nunca estarán sustentados sobre distintas escuelas de pensamientos.
• Buenas perspectivas de importación y exportación de resultados.
Esto quiere decir que la difusión del tesauro será mucho más elevada y sencilla al encontrarse en formato
electrónico.
• Mejora de la indización y recuperación de documentos.
Se facilita la acotación o expansión de las búsquedas a través de las relaciones jerárquicas del tesauro.
6.2 INCONVENIENTES DE TESAUROS AUTOMÁTICOS.
Las dificultades e inconvenientes a la hora de construir los tesauros automáticos son las siguientes:
1. Problemas en la extracción del vocabulario y en la interrelación entre los elementos del tesauro. Estos
problemas son los siguientes:
• Problemas con la selección inicial del vocabulario
Este problema se produce ya que no hay un sistema experto y la máquina no tiene la capacidad cognitiva que
tienen los humanos. Esto se intenta paliar con métodos de análisis de texto eficaces sin que la máquina los
comprenda.
• Otro de los problemas es la discriminación de elementos.
Uno de ellos es la discriminación de los términos que no sean propios del dominio. El segundo de ellos es la
elección entre descriptores y términos no preferidos. A través de la estadística se intenta la realización de esta
elección pero no son 100% fiables.
• Problema de la normalización de los elementos del tesauro.
Una vez elegido el vocabulario de nuestro tesauro hay que normalizar los términos. Estos términos deberán
aparecer en el tesauro en su forma canónica. Debido a que en los textos no suelen aparecer en esta forma se
utiliza herramientas de ayuda como los stemmers. En este momento la fiabilidad de estos stemmers todavía no
es del cien por cien.
2. Problemas a la hora de relacionar los distintos descriptores.
• Introducción de términos (en las jerarquías) que no se encuentran en el vocabulario.
En un sistema automático es muy difícil lograr una abstracción tal, que si tenemos los términos zapato, bota y
sandalia sepa que es conveniente añadir el descriptor calzado, jerárquicamente superior a los anteriores.
• Dificultad a la hora de establecer ciertas relaciones.
En un texto las relaciones obvias como que un Seat es un coche o que Edding es un rotulador no suelen
aparecer y los sistemas automáticos no son capaces de asociarlos.
• Otro de los problemas con las relaciones en palabras polisémicas.
15
Otros problemas se pueden dar a la hora de tratar con palabras polisémicas, en concreto a la hora de establecer
relaciones. Por ejemplo un pez está relacionado con un banco de peces y un banco con una cuenta corriente
entonces relacionará pez con cuenta corriente.
25
RT
USE
UF
RT
NT
NT
NT
BT
BT
INSECTOS ÚTILES
ABEJAS
ABEJA REINA
APICULTURA
COLMENA
ABEJA AFRICANIZADA
BT
INSECTA
Insecto
NT
BT
NT
16
Descargar