Tesauros

Anuncio
LOS LENGUAJES COMBINATORIOS: EL TESAURO
1. Los lenguajes documentales.
Los lenguajes documentales formalizan los datos contenidos en los documentos y en las consultas de los
usuarios de los sistemas de información. Lenguaje intermediario o metalenguaje, el lenguaje documental es,
de hecho, una herramienta puente entre los usuarios y las informaciones contenidas en los textos que busca.
Para Van Slype, un lenguaje documental es "todo sistema de signos que permita representar el contenido de
los documentos con el fin de recuperar los documentos pertinentes en respuesta a consultas que tratan sobre
ese contenido."
Se consideran lenguajes documentales:
a) los lenguajes de indización, denominados también lenguajes de estructura combinatoria, que permiten
representar el contenido de los documentos y de las consultas de forma analítica; son ejemplos de este tipo los
tesaurus, los léxicos, los índices, etc.
b) los lenguajes de clasificación o de estructura jerárquica, utilizados para representar el contenido de forma
sintética; aquí podemos citar las clasificaciones, numéricas o jerárquicas, las listas de encabezamientos de
materia, etc.
2. Terminología de los lenguajes documentales
descriptor
índice
índice permutado
lenguaje de clasificación
lenguaje de indización
lenguaje documental
lenguaje libre
lenguaje controlado
término no descriptor
nota
palabra clave
sistema de clasificación
término asociado
término específico
término genérico
término de indización
tesaurus
sinónimo
3. Los lenguajes de indización
Los lenguajes de indización comprenden los lenguajes libres, basados en la indización en lenguaje natural de
los documentos, y expresados por medio de las listas de palabras clave y de descriptores libres; y los lenguajes
controlados, basados en la representación unívoca de conceptos y términos, y expresados principalmente
mediante el tesauro.
LENGUAJES DE ESTRUCTURA COMBINATORIA: Surgen como reacción a los jerárquicos. Admiten
1
la jerarquía, pero no la consideran fundamental.
−Listas de encabezamientos de materias.
−Léxico de unitérminos: listas de palabras unitérminos.
−Glosarios: Listas alfabéticas de descriptores. Todo lo más controlan la sinonimia entre los descriptores de la
lista.
−Tesauro: glosario de descriptores, pero no exclusivamente alfabetizados, sino que presentan muchos mas
recursos.
El tesauro es una especie de lista de términos que muestra la equivalencia entre los términos del L.N. y
aquellos términos normalizados y preferentes del L.D., así como las relaciones semánticas que existen entre
otros términos.
a) Estructura en paralelo
b) Flexibilidad máxima en todos los sentidos. (De utilización de combinaciones ilimitadas). La estructura
nunca cambia ya que no hay jerarquía. Con 4 descriptores, p.e., se podrían hacer 4 x 3 x 2 x 1 = 24
combinaciones.
c) Redactados en lengua natural. No se utilizan códigos de ningún tipo. Son fácilmente manejables por los
usuarios desconocedores del sistema. Aunque son lenguajes documentales, no son libres, no se puede acceder
con cualquier palabra; el lenguaje está controlado, aunque no codificado.
d) Fácil puesta al día.
e) Fácil informatización.
f) Postcoordinación: en cuanto que el usuario es quien combina los elementos.
Inconvenientes:
1.− La dispersión que existe de lenguajes combinatorios. Cada institución tiene su propio lenguaje
combinatorio. No hay normalización internacional en la materia.
2.− La necesidad de que sean aplicadas a campos especializados. Así, no sirven para aplicar a una Biblioteca
Nacional, pues abarca muchos campos.
3.− Con las numerosas combinaciones se obtienen ruidos (falsas combinaciones), y cuantos mas descriptores
haya, mas falsas combina-ciones pueden darse. Esto solo se evita utilizando el lenguaje sintáctico. Su mayor
deficiencia es la incapacidad de ofrecer una estructura sintáctica para combinar los conceptos.
Son los lenguajes que tienen probada mayor eficacia, tanto a nivel experimental como práctico. Cada medio
debería crear su propio lenguaje combinatorio modelo.
Tipología de los lenguajes combinatorios
Los lenguajes combinatorios, utilizan escasa codificación artificial, normalmente, la propia de la lengua
natural; constan de un vocabulario controlado y tienen estructuras paralelas, es decir, las materias unitérminos
o descriptores, están normalizados y se sitúan en bandas semánticas homogéneas.
2
Dentro de la tipología de los lenguajes combinatorios podemos distinguir entre los léxicos documentales y los
tesauros. Los léxicos documentales son glosarios de términos normaliza-dos y, generalmente, ordenados
alfabéticamente en forma de vocabulario. Entre estos léxicos documentales podemos diferenciar los
siguientes:
1. Alfabético de materias: son encabezamientos de palabras o frases expresivas de los conceptos. No es lo
mismo que una ordenación alfabética de palabra ya que exige uniformidad y se procurarás reducir las materias
a un mismo denominador común para valernos también de referencias del tipo "Véase" o "Véase también".
2. Unitérminos: en este léxico todas las palabras claves se presentan en una lista alfabética en la que los
unitérminos seleccionados tienen el mismo valor. Su ventaja es que a cada unitérmino le corresponde una
ficha dividida en diez columnas que indican el lugar que ocupara la última cifra del número del documento. El
unitérmino reemplaza las fichas "materias" por una única ficha general de materia.
3. Glosario de palabras−claves. Es un léxico documental basado en la aceptación de términos
precoordinados, con lo que se evita la aparición de falsos conceptos, como puede ocurrir
con los unitérminos, al aislar el concepto de la propia idea del documento.
EL TESAURO.
Etimológicamente tesoro en griego, fue empleada por primera vez para designar una lista de términos por
Peter Mark Roget en 1852 (publicó entonces su Tesauro de las frases y palabras inglesas). En el prólogo
decía que la obra se destinaba a poetas y escritores para que localizasen las palabras que necesitaran en sus
composiciones, en verso o en prosa.
Era una especie de diccionario cuyo objetivo consistía en sugerir palabras a la hora de redactar. Pero no un
diccionario común, si no más parecido a la parte ideológica del diccionario de Casares, que tiene una primera
parte con una lista de palabras que remiten a otros términos (sinónimos, etc ...)
Luego se hicieron Thesauri lingüísticos sobre otras lenguas y diversos campos.
Cien años después, mediado el S. XX, los países anglosajones comenzaron a utilizar la voz Tesauro en sentido
documental. El objetivo de estos tesauros documentales no era sugerir un término al usuario como finalidad
de la búsqueda, si no sugerir términos para buscar o recuperar datos. Su fin es, por tanto, recuperar
documentos a través del lenguaje.
Un Tesauro no es un diccionario por:
1.− En los diccionarios no se admiten palabras compuestas. En un tesauro puede haber descriptores de 4 ó 5
palabras.
2.− Un tesauro no da definiciones, lo que si hacen los diccionarios. El Tesauro sitúa contextualmente al
descriptor.
3.− Varias acepciones de un mismo concepto en una palabra (polisemia) perjudica a la recuperación, en un
diccionario aparecen todas las acepciones.
4.− En el diccionario hay orden alfabético. En el Tesauro la disposición no es globalmente alfabética. Se
encuentran alfabetizados dentro de cada contexto independiente y semántico.
Un tesauro no es un índice.
3
− El objetivo de un índice de un libro es, p. e., remitir a una página, por lo tanto, detrás de cada palabra−clave
debe aparecer un código numérico o alfanumérico, cosa que no ocurre en los tesauro (no aparece código). El
tesauro puede tener un índice que remite al propio tesauro, pero nunca se le puede considerar como un índice
de la base de datos.
El tesauro sirve para establecer la estrategia de búsqueda. Primero hay que decidir lo que se quiere, luego
hay que intentar expresar lo que se quiere. Par esto sirve el tesauro. Puede incluso indicar términos que ni
siquiera se han pensado. En un tesauro además puede haber términos que no remiten a nada (piensan en el
futuro).
Podemos entender el tesauro como una lista de términos normalizados, es decir, controlados, y relacionados
semánticamente entre sí, que representan las relaciones entre los conceptos que los términos expresan. Por
ello, un tesauro no puede contener términos ambiguos. Por ejemplo, el término [operación] por sí mismo sería
inaceptable: hay muchos tipos de operaciones; pero, en cambio, sí pueden incluirse términos con operación
matemática u operación quirúrgica que traducen, respectivamente, conceptos bien distintos, uno en el ámbito
de las matemáticas y el otro en el de la medicina.
Un tesauro organiza pues los conceptos por grupos o dominios semánticos, que son los conceptos de más alto
nivel. Lo que a su vez implica que el tesauro es el reflejo del contenido semántico de las bases documentales a
las que se aplica. Justamente por este motivo no existe un tesaurus universal: hay más de 2000 publicados,
algunos más especializados y otros más enciclopédicos.
Chaumier subraya que el tesauro es un medio, no un fin en sí mismo y menciona la definición formulada por
Lévery: "El tesauro es un puente entre el lenguaje del informado (el documentalista) y el lenguaje del no
informado (el usuario)."
Hay distintos factores que intervienen en la forma de un tesaurus:
a) el área temática cubierta; puede tratarse de un conjunto de disciplinas conexas o bien una materia muy
específica
b) la cobertura, el alcance o ámbito de aplicación; en el caso de que un sistema documental contemple más de
una lengua, por imperativos de intercambio internacional entre centros o sistemas con los mismos o parecidos
intereses temáticos, se elaboraran tesaurus multilingües. Se puede consultar cada término de indización en la
lengua de partida y buscar sus equivalencias en cada una de las otras lenguas.
FUNCIONES DEL TESAURO
1.− Normalización lingüística. Es un lenguaje convencional= creado a partir de criterios arbitrarios (del
documentalista), pero siempre que esté justificado.
2.− La inducción. (Otros lenguajes documentales no la cumplen). Es la sugerencia lógica de
concepto−referencia. El mecanismo de inducción se genera a través de las relaciones paradigmáticas del
tesauro − un descriptor relacionado con todos los demás; los rectores de un descriptor hacia otros.
Los tesauros se caracterizan por tres aspectos:
• el contenido
• la estructura
• la función
El contenido: relaciones entre términos
4
La unidad básica del tesauro es el descriptor; los descriptores representan conceptos contenidos en los
documentos (indización de entrada) y están autorizados para las indizaciones; sirven, por lo tanto, para indizar
los documentos. En cambio, los términos no descriptores son sinónimos de algún descriptor y remiten al
usuario (indización de salida) al término descriptor.
La relación unívoca que se da entre un concepto y un término asegura la normalización de los descriptores;
hay conceptos que se expresan mediante un solo término en singular como, por ejemplo, informatica; otros, en
que se suelen usar plurales lexicalizados; tal sería el caso de telecomunicaciones, herbicidas; y aún hay otros
en que utilizaremos sintagmas de distintos tipos:
• análisis de sistemas
• personal de servicios
• lenguaje de programación
• documentación terminológica
• comunidad virtual
• investigación y desarrollo
Los términos pueden acompañarse de notas explicativas que precisan datos sobre el suo de tal o tal término,
contextos, origen, limitaciones, explicitaciones de una abreviatura, exclusión de un posible sentido, etc. Se
usarán siempre que la descripción no sea lo suficientemente explícita.
Todos los términos descriptores se relacionan semánticamente en tres dimensiones:
• la sinonimia
• la hiponimia
• la asociación
a) La sinonimia o relación de equivalencia entre el término descriptor y el sinónimo no descriptor. desde el
punto de vista del contenido de una información, prácticamente podemos considerar a tot término no
descriptor como un sinónimo, aunque se puede distinguir los sinónimos lingüísticos de los sinónimos
documentales.
Esta relación se expresa de forma circular:
DESCRIPTOR
UP
SINÓNIMO NO DESCRIPTOR
SINÓNIMO
USE DESCRIPTOR
Ejemplos
COSTES DE PRODUCCIÓN
UP
COSTES INDUSTRIALES
COCHES
UP
TURISMOS
COU
UP
CURSO DE ORIENTACIÓN UNIVERSITARIA
5
TASA DE NATALIDAD
UP
ÍNDICE DE NATALIDAD
CÁMARAS SLR
UP
CÁMARAS REFLEX DE UN OBJETIVO
b) La hiponimia y la hiperonimia. Relaciones de jerarquía, llamadas también de genericidad, que tienen una
relación recíproca de especificidad: relaciones entre términos genéricos y términos específicos, entre las
categorías y sus elementos; podemos señalar tambien las relaciones partitivas por medio de las cuales se
identifican las partes y el todo. Se suelen expresar gráficamente de modo vertical.
Los distintos tipos de términos se acompañan de formas codificadas:
TG
TE
TA
N
Término genérico
Término específico
Término asociado
Notas
Ejemplos:
CRÉDITOS
TE
CRÉDITOS AGRARIOS
INDICE DE PRECIOS
TG SISTEMAS DE PRECIOS
TE
INDICE DE PRECIOS AGRARIOS
TE
INDICE DE PRECIOS DE EXPORTACIONES
TE
INDICE DE PRECIOS DE CONSUMO
TE
INDICE DE PRECIOS INDUSTRIALES
INDICE DE PRECIOS AGRARIOS
TG INDICE DE PRECIOS
CÁMARAS FOTOGRÁFICAS
TG CÁMARAS
TE
CÁMARAS MINIATURA
TE
CÁMARAS PANORÁMICAS
TE
CÁMARAS REFLEX
c) La asociación. Relaciones asociativas de tipo temático entre términos, que implican una remisión entre
términos descriptores próximos, sin que conlleven relación de genericidad o de equivalencia. Se expresan
gráficamente de modo horizontal.
Ejemplos:
INDICE DE PRECIOS AGRARIOS
TG INDICE DE PRECIOS
6
TA
TA
PRECIOS AGRARIOS
SECTOR AGRARIO
ALGODÓN
TG CULTIVOS INDUSTRIALES
TA INDUSTRIA DEL ALGODÓN
TA PRODUCTOS INDUSTRIALES
FOTOGRAFÍA
TA CÁMARAS
BUCEO
TA CÁMARAS SUMERGIBLES
PARTES DEL TESAURO
Tiene que tener cuatro partes:
1.− Introducción:
a) Acotación extensional e intencional del Tesauro.
Límites de profundidad en la descripción: hasta qué banda de profundidad llegamos y en qué disciplinas
entraremos para hacerlo (interdisciplinariedad).
b) Explicar el método utilizado en la construcción.
c) Los términos, conceptos y relaciones paradigmáticas deben ser explicadas.
2.− Segunda parte (primera del tesauro). (sólo 2−3−4 págs.)
Se puede denominar de cualquiera de estas formas:
− Clasificación de macrodescriptores.
− Clasificación de Top terms.
− Clasificación previa.
− Clasificación general.
Contenido: Relación de los grandes encabezamientos en que está dividido el Tesauro. es una parte breve. Para
buscar un descriptor hay que mirar primero estos macros para ver dónde puede estar incluido.
Macrodescriptor: etiqueta de una familia terminológica. No es la etiqueta general, sino un tesauro de bolsas
terminológicas ð los submacrodescriptores (etiquetas de varios descriptores).
Esta clasificación tiene como fin presentar al usuario todas las familias de términos del tesauro y en poco
tiempo.
7
Según la UNESCO una macro no debe englobar más de 50 términos porque sería complicado su manejo.
Es la clasificación intelectual de todos los términos. Se puede hacer antes, durante y después de tener los
términos del tesauro.
Es la parte más estable del tesauro y la más difícil de hacer.
3. TERCERA PARTE(segunda del tesauro):
Se puede llamar área, parte, tesauro, categórica (de categorías), facetada (de facetas), jerárquica, sistemática.
Contenido: Un desarrollo específico de los macrodescriptores. Tiene unidades de contenido conceptual o
facetas.
Cada faceta tiene un término superior (que no es macrodescriptor o topterm), es decir: un encabezamiento que
se podría llamar SUBMACRODESCRIPTOR (MIDDLE TERM en inglés).
Las FACETAS corresponden a familias de términos, p.e. en la faceta mamífero se encontrarían todos los
mamíferos, pero si hay demasiados la faceta estaría subdividida en subfacetas, p.e. mamíferos terrestres.
Dentro de cada familia conceptual es donde hay que efectuar la búsqueda. Hay que ver cuáles son los
términos más amplios, los más específicos, los más asociados al término que buscamos.
Es la parte más importante del tesauro. Tanto la primera como la tercera parte tienen como objetivo enviar
a la segunda.
CUARTA PARTE (tercera del tesauro): El Tesauro alfabético.
Esta parte del tesauro repite la lista de los descriptores clasificados en orden alfabético. La presentación de la
información que figura bajo cada término corresponde al modelo recomendado por el UNISIST en sus
"Principios directores para el establecimiento y el desarrollo de Thesauri monolingües destinados a la
recuperación documental" (ISO 2788).
El tesauro alfabético se deriva del tesauro clasificado del que recoge todas las relaciones jerárquicas.
QUINTA PARTE: INDICES DEL TESAURO.
Lista/s alfabetizada de palabras−clave. Se pueden localizar por orden alfabético.
Puede incluirse si interesa un índice geográfico, histórico, de fórmulas químicas, de cronologías... El nº de
índices depende de las necesidades de la base de datos. Pero siempre debe haber un índice que es el índice
permutado (lista de los descriptores que están en la segunda parte alfabetizados globalmente) (Es
obligatorio).
Se le llama permutado porque hay descriptores compuestos, y éstos no pueden ser alfabetizados de forma
simple, y dan lugar a entradas por cada una de las palabras que los componen.
La permutación se usa para poder buscar un descriptor compuesto, por cualquiera de sus componentes. Los
términos aparecen en una columna central con truncados a la izquierda y derecha por orden alfabético.
Por esta razón, un descriptor compuesto se repite tantas veces en el índice como términos tenga (este índice es
esencial). El índice permutado completa el tesauro alfabético, dando acceso a los descriptores compuestos por
8
el segundo, tercero o siguientes elementos. En el tesauro alfabético, el término sólo aparece bajo el primero de
estos elementos, mientras, en este índice, se encuentra bajo todos ellos, incluyendo el primero.
Numeración: Aparece el nº de la familia terminológica: todos los términos dependientes de un macro tendrán
el mismo nº.
Cualquiera que sea el método de confección del tesauro, hará falta:
− Señalar los homónimos.
− " " sinónimos.
− Eliminar las nociones demasiado específicas.
− Establecer relaciones semánticas.
MÉTODOS DE CONSTRUCCION DE THESAURI.
Las normas ISO describen tres métodos:
1) Método analítico.
2) Método global.
3) Método mixto − directo.
− inverso.
1) Método analítico (o a posteriori).
Consiste en partir de la indización de una muestra real de documentos de una determinada materia como
artículos, libros, revistas,... ( Los descriptores provienen de una experiencia indizadora: es un método
empírico). Con esta muestra obtenemos un repertorio de palabras clave. Esto permite una utilización real y
directa.
El inconveniente es su constante puesta al día.
2) Método global (sintético o a priori).
Es un método especulativo: se crea la superestructura a priori, y mediante terminologías, otros thesauri, etc se
van rellenando las facetas. Obtenemos una visión mucho mas global del campo del tesauro.
El riesgo deriva de si el documento a introducir está representado o no.
3) Método mixto.
Es una combinación de los dos anteriores.
a) Directa: partimos del global e introducimos el analítico.
b) Inversa: partimos del analítico e introducimos el global: partimos de la indización de documentos y después
elaboramos una clasificación global. Podemos utilizar clasificaciones externas. Desde una muestra real
9
pasamos a especular.
En cualquier caso, sea cual sea el método, todos deberían seguir las siguientes recomendaciones:
1. Acotación del campo documental y terminológico.
2. Selección de la muestra documental: que consiste en seleccionar los documentos mas representativos, así
como otros tesauros, diccionarios, y demás documentos, generales y especializados, de interés respecto al
campo elegido.
3. Indización de la muestra: el repertorio terminológico que de ella salga será el basamento del tesauro. En
esta fase no hay que tener en cuenta la existencia de términos repetidos, sinónimos, etc.
4. Clasificación general de los descriptores: esta fase consiste en definir cual va a ser la estructura básica del
tesauro para lo cual se dividirán en bloques, por afinidad semántica, los descriptores. A cada una de estas
facetas que creemos las denominaremos Top−Terms.
5. Verificación del repertorio terminológico: antes de aceptar como valido un término de la indización de la
muestra hay que verificarlo respecto a tres criterios:
a) El índice de pertinencia: representa la adecuación del término seleccionado al tesauro en elaboración. El
índice de pertinencia se halla mediante la pregunta de inclusión lógica todo X pertenece a N?, siendo X un
predescriptor y N el campo documental previamente elegido. Si la respuesta es positiva el descriptor pasa a la
siguiente fase, si no hay varias opciones: rechazarlo, reconvertirlo o codificarlo. En caso de desconocimiento
del término superior podemos acudir a la frecuencia de repetición del término o a la consulta en otros centros
de documentación o tesauros del mismo campo.
b) El índice de profundidad: que es ante todo pertinencia ya que podemos considerar no pertinente un
descriptor demasiado profundo o demasiado general.
c) El índice de relevancia: que consiste en definir la acepción correcta del término, de tal forma que
eliminemos la posible ambigüedad o carencias del término.
6. Alfabetización y ubicación de los descriptores en sus facetas: en este apartado correspon-de colocar cada
uno de los descriptores en su faceta correspondiente para rellenar la estructura de la que hablábamos antes,
cuando citábamos los Top−Terms.
Aquí puede ocurrir que dudemos de la ubicación de un descriptor en una faceta y no encol1tremos ninguna
donde ubicarlo. En este caso podemos optar por colocarlo en alguno de los índices auxiliares o intentar
codificarlo para recuperarlo mediante referencias cruzadas. O que dudemos respecto a la posible ubicación de
un descriptor bajo facetas distintas. Este hecho se suele producir por una clasificación errónea en sus facetas o
por ambigüedad en el descriptor.
7. Enriquecimiento y expansión de la muestra y nivelación de las facetas: se trata de incluir ya la totalidad de
los descriptores que consideremos que debe contener el tesauro y el nivelar las facetas para intentar que los
top terms no queden con un número de des-criptores muy inferior o muy superior unos respecto de otros.
8. Búsqueda y control de sinónimos dentro y entre las facetas.
9. Inserción de las notas aclaratorias.
10. Establecimiento de las relaciones de amplitud y especificidad.
10
11. Establecimiento de las relaciones asociativas; teniendo en cuenta que han de estar basadas en bandas
semánticas simétricas y lineales.
12. Elaboración de los índices auxiliares.
ACCIDENTES QUE PUEDEN OCURRIR EN LA ESTRUCTURA DE UN TESAURO
− Resultado de la indización son palabras clave, pero no todas son descriptores.
− Descriptor: término usado siempre en la indización para representar un concepto dado, conocido también
como término preferente.
− No−descriptor: sinónimo o cuasi sinónimo de un descriptor. Los no−descriptores no se asignan a los
documentos, pero pueden servir como puntos de entrada en un índice dirigiendo al usuario mediante una
instrucción (p.e.: Ver o Véase o Use) al descriptor. Se llaman también términos no preferentes.
Tipos de accidentes:
1.− Polisemia: muchos significados para un sólo término. Siempre hay que evitarla. debemos procurar que
cada término dirija a un solo significado. Juega a favor de la economía lingüística. Control de la polisemia en
un tesauro:
a) a cada término se le añade un calificador o nota de alcance<.
/RESISTENCIA/ (electricidad)
/CUBIERTA/ (barco)
b) por contexto: en el índice permutado aparece el nº que nos indica el macro de pertenencia:
34 500 /CERÁMICA/
c) Por transformación sintagmática
/RESISTENCIA ELÉCTRICA/ /CUBIERTA DE BARCO/
d) Mediante un sinónimo: ante el término que ofrece polisemia
/CUBIERTA/ USE /NEUMÁTICO/: no ofrece polisemia.
2.− Sinonimia: hay dos tipos de sinónimos
2.1. lingüísticos.
2.2. documentales o cuasi sinónimos:
Cesium Caesium Cesio (variante ortográfica).
2.1. Lingüísticos. Tipos
a) Variante ortográfica.
11
b) Transliteración de distintos alfabetos.
Ejem.: del chino o cirílico al español.
Mao−ZE−dong
Mao − Tse − tung.
Jomeini − Khomeini.
c) Variantes históricas.
Musulmanes − Mahometanos.
d) Variantes científicas.
Tungsteno = Wolframio
e) Traducciones y préstamos lingüísticos.
Interviu, Entrevista, Interview.
Ejem.: CC de la información: documentación en el extranjero.
2.2. Sinónimos documentales.
Son sinónimos:
a) Términos juzgados demasiado generales o específicos son considerados cuasi sinónimos.
Ejem.: Gran Angular y ð
Fotografía ð = Cuasi sinónimos
Ejem.: El Egido − Andalucía
b) Términos variantes de una misma raíz. Se recopilan variantes de la misma raíz como englobador de todos
los demás.
Documento
Documentalista Use /documentación/.
Documentación
c) Términos antónimos: Son los que significan conceptos opuestos. Pueden dar pie a cuasisinonímias.
Ejem.: Estabilidad − inestabilidad.
Guerra − Paz.
RELACIONES INTERCONCEPTUALES ENTRE DESCRIPTORES
12
El área categorial o facetada del tesauro es el conjunto global de descriptores dispuestos semánticamente.
Hay que estudiar pues la forma de disponer esos descriptores en ese área categórica.
En los tesauro internacionales (con normas ISO−Ginebra) deben aparecer cuatro tipos de operadores de
relación o semánticos, con el fin de que desde un descriptor el usuario pueda llegar a todos los demás. Se trata
de construir una gran telaraña con todos los términos del tesauro.
Se considera siempre la inmediatez semántica: las relaciones son siempre inmediatas.
OPERADORES
El tesauro logra su expresión a través de los operadores que saltan de campo en campo semántico.
Equivalencias entre abreviaciones normalizadas:
UNE
USE
UP Usado por
TG Término
genérico
TE Término
específico
TA Término
asociado
NA Nota de
alcance
ISO
USE
UF Used for
AFNOR
EM Employer
EP Employé pour
TG Terme
BT Broader Term
générique
NT Narrower
TS Terme
Term
spécifique
RT Related Term
TA Terme associé
SN Scope Note
NA Note
d'application
1.− Operadores de JERARQUÍA (Son 2)
Establecen relaciones de amplitud y de especifidad entre dos o más descriptores (función inductiva).
El tesauro permite llegar a descriptores de contenido más amplio a más concreto y viceversa.
En las relaciones jerárquicas, entre un archisemema y su clase de equivalencia se establece una relación
recíproca e inversa. El archisemema será siempre término genérico de cada uno de los términos de su clase de
equivalencia. Y a su vez, cada término de una clase de equivalencia será término específico de su
archisemema.
Ejemplo: Caballo
TG Mamífero
Mamífero
TE Caballo
El operador de jerarquía aparece siempre con la sigla T.G. (Término Genérico), y T.E. (Término específico),
en inglés B.T. (Broader term) y N.T. (Narrow term).
El operador de jerarquía remite a otro inmediato, y ésto es obligatorio.
13
EJEMPLO: − Gran angular ð = De T.E. a T.G.
− Objetivo fotográfico ð
− Fotografía ð = De T.G. a T.E.
/CUENCA/
T.G. / CASTILLA−LA MANCHA/
T.E. /TARANCÓN/
2.− Operadores ASOCIATIVOS (relaciones no jerárquicas).
Su función es poner en relación descriptores que no tienen jerarquía entre ellos, ni tampoco sinonimia.
(P.e. cuando remite de un medio de comunicación a otro; TV. y Radio no son jerárquicos, ni uno incluye al
otro). Relaciona mecánicamente. Orienta y sugiere al usuario otros términos. Se usa cuando hay proximidad
de significado.
Para que pueda entrar en funcionamiento entre dos descriptores, éstos no pueden ser ni jerárquicos ni
sinónimos.
Se expresan por: T.R. (Término relacional)
R.T. (Related term)
T.A. (Término asociado) Países francófonos.
Son los términos más vivos del tesauro.
− Cuando presentan sinonimia dos términos, no se consideran asociados.
− Si hay alguna jerarquización entre ellos tampoco se consideran asociados.
Así: brazo no asocia con hombro.
− Son jerárquicos las especies y las clases. es fácil de estructurar, por más que pueda existir la polijerarquía:
/TORO BRAVO/−−−−−/GANADERÍA/
−−−−−−/TAUROMAQUIA/
RELACIONES ASOCIATIVAS
Se dan entre los términos asociados, cuando existe una fuerte gravitación de significado, por más que sea de
tipo intuitivo muchas veces.
Entre los términos relacionados tiene que haber reciprocidad.
a) Asociación entre una disciplina y el objeto que estudia.
14
/SISMOGRAFÍA/ /TERREMOTO/
b) Podemos asociar operaciones y procesos con la gente y el instrumento que los produce.
/DOCUMENTALISTA/ DOCUMENTACIÓN/
/GASOLINA/ /TRANSPORTE/
/VELOCIDAD/ /VELOCÍMETRO/
c) También asociaremos una ocupación y a la persona ocupada.
/PERIODISTA/ /PERIODISMO/
/DEPORTISTA/ /DEPORTE/
d) Una acción y un producto de la acción.
/VIOLENCIA/ /VÍCTIMA/
e) Una acción y su sujeto paciente o pasivo.
/DOCUMENTACIÓN/−−−/DOCUMENTALISTA/−−−/DOCUMENTO/
f) Un concepto y sus cualidades o propiedades.
/AGUA/ /HUMEDAD/
g) Conceptos relacionados con sus orígenes.
/AGUA/ /MANANTIAL/
/GASOLINA/ /PETRÓLEO/
h) Efectos asociados o causas.
/HERIDO/ /ACCIDENTE/
/CONTAMINACIÓN/ /HUMO/
i) Cosas y acciones y su antiagente.
/PESTICIDA/ /INSECTO/
j) Materias primas y sus productos derivados.
/PETRÓLEO/ /GASOLINA/
/ORO/ /JOYA/
k) Acción y propiedad asociada.
15
/INFORMATIZACIÓN/ /RECUPERACIÓN AUTOMÁTICA/
l) Un concepto y su antónimo:
/GUERRA/ /PAZ/
3.− Operadores de SINONIMIA o PREFERENCIALES. Son dos:
− Uno ejecuta una función directa, y el otro inversa.
− La función de estos operadores es dar al usuario una sola posibilidad de acceso a un concepto.
P.e. América Latina se puede expresar por varios sinónimos. Todos podrían estar en la Base de Datos, pero
induciría a distorsión. Así, si se piden datos sobre Hispanoamérica.
La función del tesauro es relacionar todos los términos sinónimos que hay en una Base de Datos y luego
ofrecer una sola posibilidad de acceso.
Siglas: USE
U.P. (usado por) U.F. (used for)
Estas relaciones tienen por objeto el control de los sinónimos y los cuasi−sinónimos.
Ejemplo: AYUNTAMIENTO
UP Gobierno Municipal
Gobierno municipal USE AYUNTAMIENTO
4.− OPERADOR DEFINITORIO:
Su objeto es aclarar o dar un único sentido al descriptor dentro del tesauro. Es un operador útil para
restringir la búsqueda mediante una palabra−clave, puesto que da un único sentido. Es la nota de alcance, y
no es un descriptor.
Su sigla N.A. (nota de alcance, o nota aclaratoria).
S.N. (Scope note).
EJEMPLO descriptor /DERECHO DE LA INFORMACION/
U.P. Legislación de la información ð Esto queda eliminado
" Leyes sobre información ð no se puede utilizar.
Si por ejemplo, el usuario pidiera /Legislación de la información/, la pantalla le diría USE Derecho de la
información.
El usuario ya sabe la posibilidad de entrar en el concepto. El tesauro a continuación da el único sentido.
El N.A. (nota de alcance)
16
N.A. sólo legislación sobre prensa escrita (p.e.)
Estos operadores pueden estar o no, según si ha sinónimos o están claros los descriptores.
Luego aparecería el T.G. (si lo hay), tiene que ser la jerarquía inmediata superior, y luego el T.E. (la jerarquía
inmediata inferior).
T.G. (p.e.) T.G. DERECHOS HUMANOS.− Este operador sugiere al usuario que consulte derechos humanos
que es más amplio.
T.E. Sugiere consultar datos más concretos, por ejemplo Derecho de réplica, Derecho de rectificación.
El tesauro induce a pensar posibilidades.
Finalmente, el tesauro sugiere el T.R., descriptores que tienen una relación evidente, campos cercanos, por
ejemplo:
Derecho a la información
Deontología de la información.
Todo esto sería el estudio semántico del descriptor. Este estudio debe estar hecho en cada uno de los
descriptores.
Los accidentes lingüísticos en el uso del tesauro
Tanto en la construcción como en el manejo del tesauro podemos encontrar diversos accidentes lingüísticos
que, si bien en un principio pueden confundirnos o llevarnos a error, son facilmente evitables. Estos
accidentes pueden darse tanto en el significante como en el significado.
Desde el significante destacaremos la homofonía y la homografía. El primero, es un accidente de escasa
relevancia toda vez que supone la existencia de palabras que con distinta significación suenan de la misma
forma; por ejemplo, aya y haya. Y que a la hora de recuperar no tiene porque presentarse ningún problema,
puesto que los ordenadores fónicos están aún muy poco desarrollados. La homografía significa que hay
palabras que con distinta significación se escriben de la misma forma. Ejemplo: solar, como sustantivo
(terreno), solar, como adjetivo (rayo solar) o como verbo (solar, de poner un suelo). Estos accidentes se
pueden evitar, para no llevar a confusión, bien mediante notas de alcance. Bien mediante la búsqueda de
sinónimos mas específicos o bien por anexión de calificadores.
En cuanto al significado hemos de destacar: la polisemia y la sinonimia. La polisemia consiste en que un
mismo significante puede tener diversos significados.
p.e.: cubierta (puede ser de barco, de neumático, etc.). La polisemia también se puede evitar, bien con una
nota de alcance, bien por utilización de sinónimos o por transformación sintagmática.
La sinonimia implica la existencia de diversos significantes con un solo significado. Esta puede venir causada
por distintos modos: por variante ortográfica (Ejemplo: Gorbachev, Gorbachov; Jomeini, Khomeini). Por
variante científica (Ejemplo: Documentación, Information Science; Ciencias de la Información,
Comunicación de masas). O por variante histórica, muy común cuando trabajamos con información de
actualidad. p.e.: CEE, CE, Mercado Común; concertación social, acuerdo social).
La cuasi−sinonimia es otro de los accidentes lingüísticos con los que nos podremos encontrar fácilmente en
17
un tesauro; ésta, sin embargo, es mas un fenómeno documental que otra cosa y se produce siempre por
términos variantes de un mismo concepto (Documental, documentario, documentativo...), por antonimia
(Libertad de prensa, en vez de censura de prensa) o por la existencia de términos que se juzgan demasiado
concretos en un tesauro.
En si, los sinónimos no son perjudiciales en un tesauro; es mas, podríamos decir que, siempre que estén
controlados son beneficiosos ya que amplían los caminos de inducción en la búsqueda documental.
Modelo de estructura de un descriptor
DESCRIPTOR
NA Nota de alcance
UP
Sinónimo, no descriptor
TG TÉRMINO GENÉRICO
TE
TÉRMINO ESPECÍFICO
TA TÉRMINO ASOCIADO
Sinónimo, no descriptor
USE
DESCRIPTOR
18
Descargar