LOS LENGUAJES COMBINATORIOS: EL TESAURO 1. Los lenguajes documentales. Los lenguajes documentales formalizan los datos contenidos en los documentos y en las consultas de los usuarios de los sistemas de información. Lenguaje intermediario o metalenguaje, el lenguaje documental es, de hecho, una herramienta puente entre los usuarios y las informaciones contenidas en los textos que busca. Para Van Slype, un lenguaje documental es "todo sistema de signos que permita representar el contenido de los documentos con el fin de recuperar los documentos pertinentes en respuesta a consultas que tratan sobre ese contenido." Se consideran lenguajes documentales: a) los lenguajes de indización, denominados también lenguajes de estructura combinatoria, que permiten representar el contenido de los documentos y de las consultas de forma analítica; son ejemplos de este tipo los tesaurus, los léxicos, los índices, etc. b) los lenguajes de clasificación o de estructura jerárquica, utilizados para representar el contenido de forma sintética; aquí podemos citar las clasificaciones, numéricas o jerárquicas, las listas de encabezamientos de materia, etc. 2. Terminología de los lenguajes documentales descriptor índice índice permutado lenguaje de clasificación lenguaje de indización lenguaje documental lenguaje libre lenguaje controlado término no descriptor nota palabra clave sistema de clasificación término asociado término específico término genérico término de indización tesaurus sinónimo 3. Los lenguajes de indización Los lenguajes de indización comprenden los lenguajes libres, basados en la indización en lenguaje natural de los documentos, y expresados por medio de las listas de palabras clave y de descriptores libres; y los lenguajes controlados, basados en la representación unívoca de conceptos y términos, y expresados principalmente mediante el tesauro. LENGUAJES DE ESTRUCTURA COMBINATORIA: Surgen como reacción a los jerárquicos. Admiten 1 la jerarquía, pero no la consideran fundamental. −Listas de encabezamientos de materias. −Léxico de unitérminos: listas de palabras unitérminos. −Glosarios: Listas alfabéticas de descriptores. Todo lo más controlan la sinonimia entre los descriptores de la lista. −Tesauro: glosario de descriptores, pero no exclusivamente alfabetizados, sino que presentan muchos mas recursos. El tesauro es una especie de lista de términos que muestra la equivalencia entre los términos del L.N. y aquellos términos normalizados y preferentes del L.D., así como las relaciones semánticas que existen entre otros términos. a) Estructura en paralelo b) Flexibilidad máxima en todos los sentidos. (De utilización de combinaciones ilimitadas). La estructura nunca cambia ya que no hay jerarquía. Con 4 descriptores, p.e., se podrían hacer 4 x 3 x 2 x 1 = 24 combinaciones. c) Redactados en lengua natural. No se utilizan códigos de ningún tipo. Son fácilmente manejables por los usuarios desconocedores del sistema. Aunque son lenguajes documentales, no son libres, no se puede acceder con cualquier palabra; el lenguaje está controlado, aunque no codificado. d) Fácil puesta al día. e) Fácil informatización. f) Postcoordinación: en cuanto que el usuario es quien combina los elementos. Inconvenientes: 1.− La dispersión que existe de lenguajes combinatorios. Cada institución tiene su propio lenguaje combinatorio. No hay normalización internacional en la materia. 2.− La necesidad de que sean aplicadas a campos especializados. Así, no sirven para aplicar a una Biblioteca Nacional, pues abarca muchos campos. 3.− Con las numerosas combinaciones se obtienen ruidos (falsas combinaciones), y cuantos mas descriptores haya, mas falsas combina-ciones pueden darse. Esto solo se evita utilizando el lenguaje sintáctico. Su mayor deficiencia es la incapacidad de ofrecer una estructura sintáctica para combinar los conceptos. Son los lenguajes que tienen probada mayor eficacia, tanto a nivel experimental como práctico. Cada medio debería crear su propio lenguaje combinatorio modelo. Tipología de los lenguajes combinatorios Los lenguajes combinatorios, utilizan escasa codificación artificial, normalmente, la propia de la lengua natural; constan de un vocabulario controlado y tienen estructuras paralelas, es decir, las materias unitérminos o descriptores, están normalizados y se sitúan en bandas semánticas homogéneas. 2 Dentro de la tipología de los lenguajes combinatorios podemos distinguir entre los léxicos documentales y los tesauros. Los léxicos documentales son glosarios de términos normaliza-dos y, generalmente, ordenados alfabéticamente en forma de vocabulario. Entre estos léxicos documentales podemos diferenciar los siguientes: 1. Alfabético de materias: son encabezamientos de palabras o frases expresivas de los conceptos. No es lo mismo que una ordenación alfabética de palabra ya que exige uniformidad y se procurarás reducir las materias a un mismo denominador común para valernos también de referencias del tipo "Véase" o "Véase también". 2. Unitérminos: en este léxico todas las palabras claves se presentan en una lista alfabética en la que los unitérminos seleccionados tienen el mismo valor. Su ventaja es que a cada unitérmino le corresponde una ficha dividida en diez columnas que indican el lugar que ocupara la última cifra del número del documento. El unitérmino reemplaza las fichas "materias" por una única ficha general de materia. 3. Glosario de palabras−claves. Es un léxico documental basado en la aceptación de términos precoordinados, con lo que se evita la aparición de falsos conceptos, como puede ocurrir con los unitérminos, al aislar el concepto de la propia idea del documento. EL TESAURO. Etimológicamente tesoro en griego, fue empleada por primera vez para designar una lista de términos por Peter Mark Roget en 1852 (publicó entonces su Tesauro de las frases y palabras inglesas). En el prólogo decía que la obra se destinaba a poetas y escritores para que localizasen las palabras que necesitaran en sus composiciones, en verso o en prosa. Era una especie de diccionario cuyo objetivo consistía en sugerir palabras a la hora de redactar. Pero no un diccionario común, si no más parecido a la parte ideológica del diccionario de Casares, que tiene una primera parte con una lista de palabras que remiten a otros términos (sinónimos, etc ...) Luego se hicieron Thesauri lingüísticos sobre otras lenguas y diversos campos. Cien años después, mediado el S. XX, los países anglosajones comenzaron a utilizar la voz Tesauro en sentido documental. El objetivo de estos tesauros documentales no era sugerir un término al usuario como finalidad de la búsqueda, si no sugerir términos para buscar o recuperar datos. Su fin es, por tanto, recuperar documentos a través del lenguaje. Un Tesauro no es un diccionario por: 1.− En los diccionarios no se admiten palabras compuestas. En un tesauro puede haber descriptores de 4 ó 5 palabras. 2.− Un tesauro no da definiciones, lo que si hacen los diccionarios. El Tesauro sitúa contextualmente al descriptor. 3.− Varias acepciones de un mismo concepto en una palabra (polisemia) perjudica a la recuperación, en un diccionario aparecen todas las acepciones. 4.− En el diccionario hay orden alfabético. En el Tesauro la disposición no es globalmente alfabética. Se encuentran alfabetizados dentro de cada contexto independiente y semántico. Un tesauro no es un índice. 3 − El objetivo de un índice de un libro es, p. e., remitir a una página, por lo tanto, detrás de cada palabra−clave debe aparecer un código numérico o alfanumérico, cosa que no ocurre en los tesauro (no aparece código). El tesauro puede tener un índice que remite al propio tesauro, pero nunca se le puede considerar como un índice de la base de datos. El tesauro sirve para establecer la estrategia de búsqueda. Primero hay que decidir lo que se quiere, luego hay que intentar expresar lo que se quiere. Par esto sirve el tesauro. Puede incluso indicar términos que ni siquiera se han pensado. En un tesauro además puede haber términos que no remiten a nada (piensan en el futuro). Podemos entender el tesauro como una lista de términos normalizados, es decir, controlados, y relacionados semánticamente entre sí, que representan las relaciones entre los conceptos que los términos expresan. Por ello, un tesauro no puede contener términos ambiguos. Por ejemplo, el término [operación] por sí mismo sería inaceptable: hay muchos tipos de operaciones; pero, en cambio, sí pueden incluirse términos con operación matemática u operación quirúrgica que traducen, respectivamente, conceptos bien distintos, uno en el ámbito de las matemáticas y el otro en el de la medicina. Un tesauro organiza pues los conceptos por grupos o dominios semánticos, que son los conceptos de más alto nivel. Lo que a su vez implica que el tesauro es el reflejo del contenido semántico de las bases documentales a las que se aplica. Justamente por este motivo no existe un tesaurus universal: hay más de 2000 publicados, algunos más especializados y otros más enciclopédicos. Chaumier subraya que el tesauro es un medio, no un fin en sí mismo y menciona la definición formulada por Lévery: "El tesauro es un puente entre el lenguaje del informado (el documentalista) y el lenguaje del no informado (el usuario)." Hay distintos factores que intervienen en la forma de un tesaurus: a) el área temática cubierta; puede tratarse de un conjunto de disciplinas conexas o bien una materia muy específica b) la cobertura, el alcance o ámbito de aplicación; en el caso de que un sistema documental contemple más de una lengua, por imperativos de intercambio internacional entre centros o sistemas con los mismos o parecidos intereses temáticos, se elaboraran tesaurus multilingües. Se puede consultar cada término de indización en la lengua de partida y buscar sus equivalencias en cada una de las otras lenguas. FUNCIONES DEL TESAURO 1.− Normalización lingüística. Es un lenguaje convencional= creado a partir de criterios arbitrarios (del documentalista), pero siempre que esté justificado. 2.− La inducción. (Otros lenguajes documentales no la cumplen). Es la sugerencia lógica de concepto−referencia. El mecanismo de inducción se genera a través de las relaciones paradigmáticas del tesauro − un descriptor relacionado con todos los demás; los rectores de un descriptor hacia otros. Los tesauros se caracterizan por tres aspectos: • el contenido • la estructura • la función El contenido: relaciones entre términos 4 La unidad básica del tesauro es el descriptor; los descriptores representan conceptos contenidos en los documentos (indización de entrada) y están autorizados para las indizaciones; sirven, por lo tanto, para indizar los documentos. En cambio, los términos no descriptores son sinónimos de algún descriptor y remiten al usuario (indización de salida) al término descriptor. La relación unívoca que se da entre un concepto y un término asegura la normalización de los descriptores; hay conceptos que se expresan mediante un solo término en singular como, por ejemplo, informatica; otros, en que se suelen usar plurales lexicalizados; tal sería el caso de telecomunicaciones, herbicidas; y aún hay otros en que utilizaremos sintagmas de distintos tipos: • análisis de sistemas • personal de servicios • lenguaje de programación • documentación terminológica • comunidad virtual • investigación y desarrollo Los términos pueden acompañarse de notas explicativas que precisan datos sobre el suo de tal o tal término, contextos, origen, limitaciones, explicitaciones de una abreviatura, exclusión de un posible sentido, etc. Se usarán siempre que la descripción no sea lo suficientemente explícita. Todos los términos descriptores se relacionan semánticamente en tres dimensiones: • la sinonimia • la hiponimia • la asociación a) La sinonimia o relación de equivalencia entre el término descriptor y el sinónimo no descriptor. desde el punto de vista del contenido de una información, prácticamente podemos considerar a tot término no descriptor como un sinónimo, aunque se puede distinguir los sinónimos lingüísticos de los sinónimos documentales. Esta relación se expresa de forma circular: DESCRIPTOR UP SINÓNIMO NO DESCRIPTOR SINÓNIMO USE DESCRIPTOR Ejemplos COSTES DE PRODUCCIÓN UP COSTES INDUSTRIALES COCHES UP TURISMOS COU UP CURSO DE ORIENTACIÓN UNIVERSITARIA 5 TASA DE NATALIDAD UP ÍNDICE DE NATALIDAD CÁMARAS SLR UP CÁMARAS REFLEX DE UN OBJETIVO b) La hiponimia y la hiperonimia. Relaciones de jerarquía, llamadas también de genericidad, que tienen una relación recíproca de especificidad: relaciones entre términos genéricos y términos específicos, entre las categorías y sus elementos; podemos señalar tambien las relaciones partitivas por medio de las cuales se identifican las partes y el todo. Se suelen expresar gráficamente de modo vertical. Los distintos tipos de términos se acompañan de formas codificadas: TG TE TA N Término genérico Término específico Término asociado Notas Ejemplos: CRÉDITOS TE CRÉDITOS AGRARIOS INDICE DE PRECIOS TG SISTEMAS DE PRECIOS TE INDICE DE PRECIOS AGRARIOS TE INDICE DE PRECIOS DE EXPORTACIONES TE INDICE DE PRECIOS DE CONSUMO TE INDICE DE PRECIOS INDUSTRIALES INDICE DE PRECIOS AGRARIOS TG INDICE DE PRECIOS CÁMARAS FOTOGRÁFICAS TG CÁMARAS TE CÁMARAS MINIATURA TE CÁMARAS PANORÁMICAS TE CÁMARAS REFLEX c) La asociación. Relaciones asociativas de tipo temático entre términos, que implican una remisión entre términos descriptores próximos, sin que conlleven relación de genericidad o de equivalencia. Se expresan gráficamente de modo horizontal. Ejemplos: INDICE DE PRECIOS AGRARIOS TG INDICE DE PRECIOS 6 TA TA PRECIOS AGRARIOS SECTOR AGRARIO ALGODÓN TG CULTIVOS INDUSTRIALES TA INDUSTRIA DEL ALGODÓN TA PRODUCTOS INDUSTRIALES FOTOGRAFÍA TA CÁMARAS BUCEO TA CÁMARAS SUMERGIBLES PARTES DEL TESAURO Tiene que tener cuatro partes: 1.− Introducción: a) Acotación extensional e intencional del Tesauro. Límites de profundidad en la descripción: hasta qué banda de profundidad llegamos y en qué disciplinas entraremos para hacerlo (interdisciplinariedad). b) Explicar el método utilizado en la construcción. c) Los términos, conceptos y relaciones paradigmáticas deben ser explicadas. 2.− Segunda parte (primera del tesauro). (sólo 2−3−4 págs.) Se puede denominar de cualquiera de estas formas: − Clasificación de macrodescriptores. − Clasificación de Top terms. − Clasificación previa. − Clasificación general. Contenido: Relación de los grandes encabezamientos en que está dividido el Tesauro. es una parte breve. Para buscar un descriptor hay que mirar primero estos macros para ver dónde puede estar incluido. Macrodescriptor: etiqueta de una familia terminológica. No es la etiqueta general, sino un tesauro de bolsas terminológicas ð los submacrodescriptores (etiquetas de varios descriptores). Esta clasificación tiene como fin presentar al usuario todas las familias de términos del tesauro y en poco tiempo. 7 Según la UNESCO una macro no debe englobar más de 50 términos porque sería complicado su manejo. Es la clasificación intelectual de todos los términos. Se puede hacer antes, durante y después de tener los términos del tesauro. Es la parte más estable del tesauro y la más difícil de hacer. 3. TERCERA PARTE(segunda del tesauro): Se puede llamar área, parte, tesauro, categórica (de categorías), facetada (de facetas), jerárquica, sistemática. Contenido: Un desarrollo específico de los macrodescriptores. Tiene unidades de contenido conceptual o facetas. Cada faceta tiene un término superior (que no es macrodescriptor o topterm), es decir: un encabezamiento que se podría llamar SUBMACRODESCRIPTOR (MIDDLE TERM en inglés). Las FACETAS corresponden a familias de términos, p.e. en la faceta mamífero se encontrarían todos los mamíferos, pero si hay demasiados la faceta estaría subdividida en subfacetas, p.e. mamíferos terrestres. Dentro de cada familia conceptual es donde hay que efectuar la búsqueda. Hay que ver cuáles son los términos más amplios, los más específicos, los más asociados al término que buscamos. Es la parte más importante del tesauro. Tanto la primera como la tercera parte tienen como objetivo enviar a la segunda. CUARTA PARTE (tercera del tesauro): El Tesauro alfabético. Esta parte del tesauro repite la lista de los descriptores clasificados en orden alfabético. La presentación de la información que figura bajo cada término corresponde al modelo recomendado por el UNISIST en sus "Principios directores para el establecimiento y el desarrollo de Thesauri monolingües destinados a la recuperación documental" (ISO 2788). El tesauro alfabético se deriva del tesauro clasificado del que recoge todas las relaciones jerárquicas. QUINTA PARTE: INDICES DEL TESAURO. Lista/s alfabetizada de palabras−clave. Se pueden localizar por orden alfabético. Puede incluirse si interesa un índice geográfico, histórico, de fórmulas químicas, de cronologías... El nº de índices depende de las necesidades de la base de datos. Pero siempre debe haber un índice que es el índice permutado (lista de los descriptores que están en la segunda parte alfabetizados globalmente) (Es obligatorio). Se le llama permutado porque hay descriptores compuestos, y éstos no pueden ser alfabetizados de forma simple, y dan lugar a entradas por cada una de las palabras que los componen. La permutación se usa para poder buscar un descriptor compuesto, por cualquiera de sus componentes. Los términos aparecen en una columna central con truncados a la izquierda y derecha por orden alfabético. Por esta razón, un descriptor compuesto se repite tantas veces en el índice como términos tenga (este índice es esencial). El índice permutado completa el tesauro alfabético, dando acceso a los descriptores compuestos por 8 el segundo, tercero o siguientes elementos. En el tesauro alfabético, el término sólo aparece bajo el primero de estos elementos, mientras, en este índice, se encuentra bajo todos ellos, incluyendo el primero. Numeración: Aparece el nº de la familia terminológica: todos los términos dependientes de un macro tendrán el mismo nº. Cualquiera que sea el método de confección del tesauro, hará falta: − Señalar los homónimos. − " " sinónimos. − Eliminar las nociones demasiado específicas. − Establecer relaciones semánticas. MÉTODOS DE CONSTRUCCION DE THESAURI. Las normas ISO describen tres métodos: 1) Método analítico. 2) Método global. 3) Método mixto − directo. − inverso. 1) Método analítico (o a posteriori). Consiste en partir de la indización de una muestra real de documentos de una determinada materia como artículos, libros, revistas,... ( Los descriptores provienen de una experiencia indizadora: es un método empírico). Con esta muestra obtenemos un repertorio de palabras clave. Esto permite una utilización real y directa. El inconveniente es su constante puesta al día. 2) Método global (sintético o a priori). Es un método especulativo: se crea la superestructura a priori, y mediante terminologías, otros thesauri, etc se van rellenando las facetas. Obtenemos una visión mucho mas global del campo del tesauro. El riesgo deriva de si el documento a introducir está representado o no. 3) Método mixto. Es una combinación de los dos anteriores. a) Directa: partimos del global e introducimos el analítico. b) Inversa: partimos del analítico e introducimos el global: partimos de la indización de documentos y después elaboramos una clasificación global. Podemos utilizar clasificaciones externas. Desde una muestra real 9 pasamos a especular. En cualquier caso, sea cual sea el método, todos deberían seguir las siguientes recomendaciones: 1. Acotación del campo documental y terminológico. 2. Selección de la muestra documental: que consiste en seleccionar los documentos mas representativos, así como otros tesauros, diccionarios, y demás documentos, generales y especializados, de interés respecto al campo elegido. 3. Indización de la muestra: el repertorio terminológico que de ella salga será el basamento del tesauro. En esta fase no hay que tener en cuenta la existencia de términos repetidos, sinónimos, etc. 4. Clasificación general de los descriptores: esta fase consiste en definir cual va a ser la estructura básica del tesauro para lo cual se dividirán en bloques, por afinidad semántica, los descriptores. A cada una de estas facetas que creemos las denominaremos Top−Terms. 5. Verificación del repertorio terminológico: antes de aceptar como valido un término de la indización de la muestra hay que verificarlo respecto a tres criterios: a) El índice de pertinencia: representa la adecuación del término seleccionado al tesauro en elaboración. El índice de pertinencia se halla mediante la pregunta de inclusión lógica todo X pertenece a N?, siendo X un predescriptor y N el campo documental previamente elegido. Si la respuesta es positiva el descriptor pasa a la siguiente fase, si no hay varias opciones: rechazarlo, reconvertirlo o codificarlo. En caso de desconocimiento del término superior podemos acudir a la frecuencia de repetición del término o a la consulta en otros centros de documentación o tesauros del mismo campo. b) El índice de profundidad: que es ante todo pertinencia ya que podemos considerar no pertinente un descriptor demasiado profundo o demasiado general. c) El índice de relevancia: que consiste en definir la acepción correcta del término, de tal forma que eliminemos la posible ambigüedad o carencias del término. 6. Alfabetización y ubicación de los descriptores en sus facetas: en este apartado correspon-de colocar cada uno de los descriptores en su faceta correspondiente para rellenar la estructura de la que hablábamos antes, cuando citábamos los Top−Terms. Aquí puede ocurrir que dudemos de la ubicación de un descriptor en una faceta y no encol1tremos ninguna donde ubicarlo. En este caso podemos optar por colocarlo en alguno de los índices auxiliares o intentar codificarlo para recuperarlo mediante referencias cruzadas. O que dudemos respecto a la posible ubicación de un descriptor bajo facetas distintas. Este hecho se suele producir por una clasificación errónea en sus facetas o por ambigüedad en el descriptor. 7. Enriquecimiento y expansión de la muestra y nivelación de las facetas: se trata de incluir ya la totalidad de los descriptores que consideremos que debe contener el tesauro y el nivelar las facetas para intentar que los top terms no queden con un número de des-criptores muy inferior o muy superior unos respecto de otros. 8. Búsqueda y control de sinónimos dentro y entre las facetas. 9. Inserción de las notas aclaratorias. 10. Establecimiento de las relaciones de amplitud y especificidad. 10 11. Establecimiento de las relaciones asociativas; teniendo en cuenta que han de estar basadas en bandas semánticas simétricas y lineales. 12. Elaboración de los índices auxiliares. ACCIDENTES QUE PUEDEN OCURRIR EN LA ESTRUCTURA DE UN TESAURO − Resultado de la indización son palabras clave, pero no todas son descriptores. − Descriptor: término usado siempre en la indización para representar un concepto dado, conocido también como término preferente. − No−descriptor: sinónimo o cuasi sinónimo de un descriptor. Los no−descriptores no se asignan a los documentos, pero pueden servir como puntos de entrada en un índice dirigiendo al usuario mediante una instrucción (p.e.: Ver o Véase o Use) al descriptor. Se llaman también términos no preferentes. Tipos de accidentes: 1.− Polisemia: muchos significados para un sólo término. Siempre hay que evitarla. debemos procurar que cada término dirija a un solo significado. Juega a favor de la economía lingüística. Control de la polisemia en un tesauro: a) a cada término se le añade un calificador o nota de alcance<. /RESISTENCIA/ (electricidad) /CUBIERTA/ (barco) b) por contexto: en el índice permutado aparece el nº que nos indica el macro de pertenencia: 34 500 /CERÁMICA/ c) Por transformación sintagmática /RESISTENCIA ELÉCTRICA/ /CUBIERTA DE BARCO/ d) Mediante un sinónimo: ante el término que ofrece polisemia /CUBIERTA/ USE /NEUMÁTICO/: no ofrece polisemia. 2.− Sinonimia: hay dos tipos de sinónimos 2.1. lingüísticos. 2.2. documentales o cuasi sinónimos: Cesium Caesium Cesio (variante ortográfica). 2.1. Lingüísticos. Tipos a) Variante ortográfica. 11 b) Transliteración de distintos alfabetos. Ejem.: del chino o cirílico al español. Mao−ZE−dong Mao − Tse − tung. Jomeini − Khomeini. c) Variantes históricas. Musulmanes − Mahometanos. d) Variantes científicas. Tungsteno = Wolframio e) Traducciones y préstamos lingüísticos. Interviu, Entrevista, Interview. Ejem.: CC de la información: documentación en el extranjero. 2.2. Sinónimos documentales. Son sinónimos: a) Términos juzgados demasiado generales o específicos son considerados cuasi sinónimos. Ejem.: Gran Angular y ð Fotografía ð = Cuasi sinónimos Ejem.: El Egido − Andalucía b) Términos variantes de una misma raíz. Se recopilan variantes de la misma raíz como englobador de todos los demás. Documento Documentalista Use /documentación/. Documentación c) Términos antónimos: Son los que significan conceptos opuestos. Pueden dar pie a cuasisinonímias. Ejem.: Estabilidad − inestabilidad. Guerra − Paz. RELACIONES INTERCONCEPTUALES ENTRE DESCRIPTORES 12 El área categorial o facetada del tesauro es el conjunto global de descriptores dispuestos semánticamente. Hay que estudiar pues la forma de disponer esos descriptores en ese área categórica. En los tesauro internacionales (con normas ISO−Ginebra) deben aparecer cuatro tipos de operadores de relación o semánticos, con el fin de que desde un descriptor el usuario pueda llegar a todos los demás. Se trata de construir una gran telaraña con todos los términos del tesauro. Se considera siempre la inmediatez semántica: las relaciones son siempre inmediatas. OPERADORES El tesauro logra su expresión a través de los operadores que saltan de campo en campo semántico. Equivalencias entre abreviaciones normalizadas: UNE USE UP Usado por TG Término genérico TE Término específico TA Término asociado NA Nota de alcance ISO USE UF Used for AFNOR EM Employer EP Employé pour TG Terme BT Broader Term générique NT Narrower TS Terme Term spécifique RT Related Term TA Terme associé SN Scope Note NA Note d'application 1.− Operadores de JERARQUÍA (Son 2) Establecen relaciones de amplitud y de especifidad entre dos o más descriptores (función inductiva). El tesauro permite llegar a descriptores de contenido más amplio a más concreto y viceversa. En las relaciones jerárquicas, entre un archisemema y su clase de equivalencia se establece una relación recíproca e inversa. El archisemema será siempre término genérico de cada uno de los términos de su clase de equivalencia. Y a su vez, cada término de una clase de equivalencia será término específico de su archisemema. Ejemplo: Caballo TG Mamífero Mamífero TE Caballo El operador de jerarquía aparece siempre con la sigla T.G. (Término Genérico), y T.E. (Término específico), en inglés B.T. (Broader term) y N.T. (Narrow term). El operador de jerarquía remite a otro inmediato, y ésto es obligatorio. 13 EJEMPLO: − Gran angular ð = De T.E. a T.G. − Objetivo fotográfico ð − Fotografía ð = De T.G. a T.E. /CUENCA/ T.G. / CASTILLA−LA MANCHA/ T.E. /TARANCÓN/ 2.− Operadores ASOCIATIVOS (relaciones no jerárquicas). Su función es poner en relación descriptores que no tienen jerarquía entre ellos, ni tampoco sinonimia. (P.e. cuando remite de un medio de comunicación a otro; TV. y Radio no son jerárquicos, ni uno incluye al otro). Relaciona mecánicamente. Orienta y sugiere al usuario otros términos. Se usa cuando hay proximidad de significado. Para que pueda entrar en funcionamiento entre dos descriptores, éstos no pueden ser ni jerárquicos ni sinónimos. Se expresan por: T.R. (Término relacional) R.T. (Related term) T.A. (Término asociado) Países francófonos. Son los términos más vivos del tesauro. − Cuando presentan sinonimia dos términos, no se consideran asociados. − Si hay alguna jerarquización entre ellos tampoco se consideran asociados. Así: brazo no asocia con hombro. − Son jerárquicos las especies y las clases. es fácil de estructurar, por más que pueda existir la polijerarquía: /TORO BRAVO/−−−−−/GANADERÍA/ −−−−−−/TAUROMAQUIA/ RELACIONES ASOCIATIVAS Se dan entre los términos asociados, cuando existe una fuerte gravitación de significado, por más que sea de tipo intuitivo muchas veces. Entre los términos relacionados tiene que haber reciprocidad. a) Asociación entre una disciplina y el objeto que estudia. 14 /SISMOGRAFÍA/ /TERREMOTO/ b) Podemos asociar operaciones y procesos con la gente y el instrumento que los produce. /DOCUMENTALISTA/ DOCUMENTACIÓN/ /GASOLINA/ /TRANSPORTE/ /VELOCIDAD/ /VELOCÍMETRO/ c) También asociaremos una ocupación y a la persona ocupada. /PERIODISTA/ /PERIODISMO/ /DEPORTISTA/ /DEPORTE/ d) Una acción y un producto de la acción. /VIOLENCIA/ /VÍCTIMA/ e) Una acción y su sujeto paciente o pasivo. /DOCUMENTACIÓN/−−−/DOCUMENTALISTA/−−−/DOCUMENTO/ f) Un concepto y sus cualidades o propiedades. /AGUA/ /HUMEDAD/ g) Conceptos relacionados con sus orígenes. /AGUA/ /MANANTIAL/ /GASOLINA/ /PETRÓLEO/ h) Efectos asociados o causas. /HERIDO/ /ACCIDENTE/ /CONTAMINACIÓN/ /HUMO/ i) Cosas y acciones y su antiagente. /PESTICIDA/ /INSECTO/ j) Materias primas y sus productos derivados. /PETRÓLEO/ /GASOLINA/ /ORO/ /JOYA/ k) Acción y propiedad asociada. 15 /INFORMATIZACIÓN/ /RECUPERACIÓN AUTOMÁTICA/ l) Un concepto y su antónimo: /GUERRA/ /PAZ/ 3.− Operadores de SINONIMIA o PREFERENCIALES. Son dos: − Uno ejecuta una función directa, y el otro inversa. − La función de estos operadores es dar al usuario una sola posibilidad de acceso a un concepto. P.e. América Latina se puede expresar por varios sinónimos. Todos podrían estar en la Base de Datos, pero induciría a distorsión. Así, si se piden datos sobre Hispanoamérica. La función del tesauro es relacionar todos los términos sinónimos que hay en una Base de Datos y luego ofrecer una sola posibilidad de acceso. Siglas: USE U.P. (usado por) U.F. (used for) Estas relaciones tienen por objeto el control de los sinónimos y los cuasi−sinónimos. Ejemplo: AYUNTAMIENTO UP Gobierno Municipal Gobierno municipal USE AYUNTAMIENTO 4.− OPERADOR DEFINITORIO: Su objeto es aclarar o dar un único sentido al descriptor dentro del tesauro. Es un operador útil para restringir la búsqueda mediante una palabra−clave, puesto que da un único sentido. Es la nota de alcance, y no es un descriptor. Su sigla N.A. (nota de alcance, o nota aclaratoria). S.N. (Scope note). EJEMPLO descriptor /DERECHO DE LA INFORMACION/ U.P. Legislación de la información ð Esto queda eliminado " Leyes sobre información ð no se puede utilizar. Si por ejemplo, el usuario pidiera /Legislación de la información/, la pantalla le diría USE Derecho de la información. El usuario ya sabe la posibilidad de entrar en el concepto. El tesauro a continuación da el único sentido. El N.A. (nota de alcance) 16 N.A. sólo legislación sobre prensa escrita (p.e.) Estos operadores pueden estar o no, según si ha sinónimos o están claros los descriptores. Luego aparecería el T.G. (si lo hay), tiene que ser la jerarquía inmediata superior, y luego el T.E. (la jerarquía inmediata inferior). T.G. (p.e.) T.G. DERECHOS HUMANOS.− Este operador sugiere al usuario que consulte derechos humanos que es más amplio. T.E. Sugiere consultar datos más concretos, por ejemplo Derecho de réplica, Derecho de rectificación. El tesauro induce a pensar posibilidades. Finalmente, el tesauro sugiere el T.R., descriptores que tienen una relación evidente, campos cercanos, por ejemplo: Derecho a la información Deontología de la información. Todo esto sería el estudio semántico del descriptor. Este estudio debe estar hecho en cada uno de los descriptores. Los accidentes lingüísticos en el uso del tesauro Tanto en la construcción como en el manejo del tesauro podemos encontrar diversos accidentes lingüísticos que, si bien en un principio pueden confundirnos o llevarnos a error, son facilmente evitables. Estos accidentes pueden darse tanto en el significante como en el significado. Desde el significante destacaremos la homofonía y la homografía. El primero, es un accidente de escasa relevancia toda vez que supone la existencia de palabras que con distinta significación suenan de la misma forma; por ejemplo, aya y haya. Y que a la hora de recuperar no tiene porque presentarse ningún problema, puesto que los ordenadores fónicos están aún muy poco desarrollados. La homografía significa que hay palabras que con distinta significación se escriben de la misma forma. Ejemplo: solar, como sustantivo (terreno), solar, como adjetivo (rayo solar) o como verbo (solar, de poner un suelo). Estos accidentes se pueden evitar, para no llevar a confusión, bien mediante notas de alcance. Bien mediante la búsqueda de sinónimos mas específicos o bien por anexión de calificadores. En cuanto al significado hemos de destacar: la polisemia y la sinonimia. La polisemia consiste en que un mismo significante puede tener diversos significados. p.e.: cubierta (puede ser de barco, de neumático, etc.). La polisemia también se puede evitar, bien con una nota de alcance, bien por utilización de sinónimos o por transformación sintagmática. La sinonimia implica la existencia de diversos significantes con un solo significado. Esta puede venir causada por distintos modos: por variante ortográfica (Ejemplo: Gorbachev, Gorbachov; Jomeini, Khomeini). Por variante científica (Ejemplo: Documentación, Information Science; Ciencias de la Información, Comunicación de masas). O por variante histórica, muy común cuando trabajamos con información de actualidad. p.e.: CEE, CE, Mercado Común; concertación social, acuerdo social). La cuasi−sinonimia es otro de los accidentes lingüísticos con los que nos podremos encontrar fácilmente en 17 un tesauro; ésta, sin embargo, es mas un fenómeno documental que otra cosa y se produce siempre por términos variantes de un mismo concepto (Documental, documentario, documentativo...), por antonimia (Libertad de prensa, en vez de censura de prensa) o por la existencia de términos que se juzgan demasiado concretos en un tesauro. En si, los sinónimos no son perjudiciales en un tesauro; es mas, podríamos decir que, siempre que estén controlados son beneficiosos ya que amplían los caminos de inducción en la búsqueda documental. Modelo de estructura de un descriptor DESCRIPTOR NA Nota de alcance UP Sinónimo, no descriptor TG TÉRMINO GENÉRICO TE TÉRMINO ESPECÍFICO TA TÉRMINO ASOCIADO Sinónimo, no descriptor USE DESCRIPTOR 18