MODULO 2 Los lenguajes documentales Evolución histórica del concepto "lenguaje documental" El concepto moderno de lenguaje documental aparece a finales del siglo XIX en las aportaciones de Melvin Dewey, autor de la clasificación decimal (DDC= Decimal Dewey Classification) y Charles Cutter, autor de un catálogo diccionario apareciendo ambas en 1876 siendo el exponente de dos sistemas documentales: 1. La lista de encabezamientos de materia (Cutter) 2. Las clasificaciones (Dewey) No obstante, la evolución de los lenguajes documentales es consecuencia de la evolución del conocimiento humano. Desde los orígenes de la biblioteca, el hombre vio la necesidad de ordenar, clasificar o establecer algún modelo que le permitiera encontrar de manera rápida y directa la información que lo obligó a crear estructuras de organización que representan el conjunto de los documentos agrupados bajo diferentes características Vickery, en una conferencia en Gran Bretaña 1957, dedicada al empleo de las clasificaciones para la búsqueda de información, señaló que la indización se aplicaba en Sumeria hace 3000 años, donde se han hallado tablas de arcilla en las que se indicaba algún síntoma de enfermedad y se enumeraban todas las enfermedades a las que podía corresponder. En el siglo IV, la biblioteca de Alejandría con 700000 volúmenes, necesitaba un ordenamiento y se establecieron como paradigmas de organización los llamados cánones, modelos bajo los cuales se agrupaban las obras del fondo de la biblioteca y se correspondían con el autor más representativo de cada temática. Con la desintegración del imperio Romano, en el siglo III y la destrucción de la Biblioteca de Alejandría la información queda en los monasterios, en manos de los clérigos. La misma fue aumentando con el trabajo realizado por los copistas y comienza una clasificación de los fondos por materias específicas, Otros fenómenos culturales como el Renacimiento y el Descubrimiento de América, marcan una nueva concepción del mundo, a su vez la rivalidad entre las bibliotecas de la Universidad y las clericales impulsan el desarrollo de las manifestaciones científicas de ese momento. En 1440 con la creación de la imprenta, la propagación del conocimiento en soporte papel permite la multiplicación de la información cubriendo las necesidades de los interesados. A partir todo el desarrollo científico, (Leonardo de Vinci, Copérnico (separa ciencia de teología) Bacon (Creación de sociedades de sabios prolongación de las universidades, Galileo retoma teoría de Copérnico, Descartes Newton: leyes de movimiento) repercute en la actividad informativa que afronta nuevos problemas en el almacenamiento de la información. La clasificación de la información por autor, título y materia comienza a ser insuficiente ante la interdisciplinariedad de las ciencias. En 1859 con la aparición de la teoría de la evolución de las especies. (Darwin) surge una clasificación sistemática sobre los seres vivos, A partir de esta nueva concepción sistemática del mundo , Melvin Dewey (1851-1931) crea el Sistema Decimal para la clasificación sistemática de los fondos bibliotecarios, influyendo en todos los sistemas de clasificación posteriores y Charles Cutter propone normas para la construcción de encabezamientos alfabéticos de materias. dando origen a los Encabezamientos de Materia. Lo más importante, es el nacimiento de una nueva expresión lingüística dentro de la actividad informativa: los sistemas de clasificación jerárquica. Mediados Siglo XX: el crecimiento del conocimiento hace que la necesidad de búsqueda de información a partir de nuevas combinaciones de elementos no sea posible dentro de expresiones precoordinadas de los sistemas jerárquicos y alfabéticos, esto da lugar a la búsqueda de expresiones lingüístico documentarias con mayor capacidad expresiva, dando lugar a los llamados lenguajes tipo descriptor que tuvieron su origen en la simple extracción de palabras clave (palabras sueltas / unitérminos), después devinieron listas de términos autorizados (descriptores), estructurados a partir de relaciones semánticas. Fin siglo XX: Aparecen los lenguajes tipo descriptor, estructurados en forma de tesauros, siendo los más utilizados. Lenguajes Documentales: Algunos conceptos Van Slype: “todo sistema de signos que permita representar el contenido de los documentos con el fin de recuperar los documentos pertinentes en respuesta a consultas que tratan sobre ese contenido. El lenguaje documental no se refiere, pues, a otros criterios utilizados en la búsqueda documental: autor del documento, lengua del texto, fecha de publicación...” Gil Urdician: “Sistema artificial de signos normalizados, que facilitan la representación formalizada del contenido de los documentos para permitir la recuperación, manual o automática, de información solicitada por los usuarios” Amat (1989): “conjunto de términos o frases nominales utilizados para representar el contenido de un documento con el fin de permitir su recuperación” Courrier: “lenguaje artificial que permite generar la representación formalizada de documentos y demandas relacionadas con un grupo de usuarios a fin de destacar los documentos que responden a las demandas”. Son herramientas que se utilizan para transmitir el contenido de los documentos de una unidad información con el objeto de facilitar su recuperación, permitiendo usar un vocabulario normalizado en las tareas de tratamiento y recuperación de la información Así pues, los lenguajes documentales son artificiales; proceden del análisis documental e influyen sobre él -normalizan y son normalizados-; y permiten la comunicación entre el usuario y la información, dirigiéndolo hacia el documento pertinente. Lenguaje documental es un instrumento de descripción de los documentos en un sistema de información, transforma la información relativa a los documentos en datos manipulables para favorecer el control y la validación de los datos. Lenguajes Documentales: Principios El lenguaje documental tiene determinados principios para evitar las dificultades en el momento de la recuperación documental. En toda unidad de información es fundamental evitar el ruido y el silencio documental. Cuando se prepara una frase documental con objeto de recuperar un conjunto de documentos que contienen la información expresada en la frase, aquellos que no se recuperan, aunque existan en el archivo, son los productores del silencio documental, mientras que los que se recuperan sin haber sido solicitados producen el ruido documental. No puede ser redundante. La redundancia es una característica del lenguaje natural y se define como superfluidad de palabras. Por tal motivo los lenguajes documentales están regidos por el principio de entropía que corresponde a la mayor cantidad de información aportada por un solo signo o mensaje. Su organización debe ser sencilla. El mismo lenguaje documental debe contener explicaciones sobre su uso y aplicación. Debe ser unívoco, por tal motivo se denomina lenguaje controlado, no posee la ambigüedad del lenguaje natural. Controla la homonimia, la sinonimia y la polisemia. Sinonimia: Coincidencia en el significado entre dos o más vocablos. Homonimia: Igualdad de pronunciación de dos o más palabras que poseen distinto significado. Polisemia: Reunión de varios significados en una misma palabra. Lenguajes Documentales: Objetivos y funciones El lenguaje documental interviene en dos fases del proceso documental, en el momento de la descripción y en el de la recuperación de la información, y sirve de puente, entre la información que contienen los documentos y la que solicitan los usuarios; el objetivo en dichas operaciones es facilitar la recuperación del documento, reduciendo el esfuerzo y gasto de tiempo, El lenguaje documental tiene la capacidad de representar sin ambigüedad los contenidos documentales y permite cumplir con dos objetivos: el de normalización de la indización tanto en la fase de entrada (cuando se indizan los documentos) como en la etapa de salida o recuperación (cuando se indizan las preguntas de los usuarios), y el de inducción, dado que el usuario tiene un instrumento de consulta que le guía a utilizar unos determinados términos para el concepto requerido, proporcionándole además otros que pueden también interesarle para su búsqueda Lenguajes Documentales: Tipología (Según Gil Urdician) Los lenguajes documentales se pueden clasificar en función de tres características, ESTRUCTURA - COORDINACIÓN - GRADO DE CONTROL DEL LENGUAJE Jerárquica Pre-coordinados Libres Combinatorias Post-coordinados Controlados Sintáctica ESTRUCTURA Desde el punto de vista de su estructura (relaciones y conexiones que se establecen entre los elementos) se reconocen 3 tipos: 1. Estructura Jerárquica 2. Estructura Combinatoria 3. Estructura Sintáctica Estructura jerárquica También denominada Arbórea o Sistemática: (CDU-CDD) la característica del lenguaje documental de estructura jerárquica es que todos los conceptos dependen de uno superior de significado más genérico, que a su vez se integra en otro superior y así sucesivamente llegando a un tronco común de donde dependen las ramas (arbórea) Cada concepto se halla representado por un símbolo (numérico, alfabético, alfanumérico, etc.) y entre los elementos se establecen relaciones de subordinación, co subordinación o ambas clases de relaciones Subordinación: clasificación de algunos conceptos como inferiores en orden con respecto a otros Cosubordinación: relación que se establece entre los miembros pertenecientes a un mismo nivel de jerarquía 5 MATEMÁTICA CIENCIAS NATURALES 51 Matemática 52 Astronomía 58 Botánica 512 Aritmética 53 Física 512 Algebra 530 Leyes y principios básicos de Física 531/534 Mecánica Estructura combinatoria o asociativa Estos lenguajes de estructura combinatoria se presentan como una lista de términos representativos y permiten la libre combinación entre los mismos, de acuerdo a las necesidades de indización. Los términos se combinan libremente entre si. Por ejemplo: Los tesauros y los léxicos documentales Intersección de categorías: D A B C Estructura sintáctica A esta estructura pertenecen los lenguajes que recurren a una sintaxis mediante la cual se pueden representar y poner en relación los contenidos de los documentos. Constan de un conjunto de descriptores y, además de una gramática que excluye la ambigüedad al relacionar los conceptos. Surgieron cuando no había herramientas para el almacenamiento masivo; según su complejidad, se pueden diferenciar dos tipos: - lenguajes sintácticos de gramática simple y - lenguajes sintácticos de gramática elaborada. De momento están en fase de experimentación, y los que han aparecido no han tenido éxito: el Syntol (Syntagmatic Organization Language) surgió a finales de los años sesenta, de mediados de los años setenta es el PRECIS (Preserved Context Index System) ideado por Derek Austin, lenguaje articulado de encabezamientos de materia que tuvo muy buena acogida. COORDINACIO N Según la coordinación de los términos, los lenguajes pueden ser precoordinados o postcoordinados. Si los términos se combinan en el momento de la descripción, el lenguaje será precoordinado, y si lo hacen en el momento de la recuperación, se tratará de un lenguaje postcoordinado Lenguajes precoordinados Son las clasificaciones y las listas de encabezamientos de materia (lenguaje utilizado para la indización de materias). En estos sistemas las distintas nociones o conceptos que se unen para expresar una materia o un tema se introducen en el momento de la indización en un orden previamente establecido y la recuperación habrá de hacerse secuencialmente, siguiendo ese orden. En síntesis, la combinación de los términos se realiza en el momento de la descripción Lenguajes postcoordinados Son los tesauros (lenguaje utilizado para la indización por descriptores). Los conceptos que se extraen en la indización para expresar el tema o los temas del documento tienen todos la misma categoría y no expresan ningún orden. La combinación de conceptos se realiza en la fase de recuperación por medio de operadores boléanos. En este caso, la combinación de los términos se realiza en el momento de la recuperación CONTROL Dependiendo del control ejercido sobre el vocabulario, los lenguajes pueden organizarse en dos categorías: libres y controlados. Lenguajes libres Se componen de un vocabulario no predefinido que se va generando a partir del proceso de indización. Son vocabularios cuya entrada (temas) están tomados del lenguaje natural (el usado por el autor del documento). Poseen demasiada ambigüedad semántica. Los lenguajes libres no son propiamente lenguajes documentales puesto que para que reciban este nombre el vocabulario ha de estar controlado. Ejemplos: listas de descriptores libres y listas de palabras clave. Lenguajes controlados Son los demás tipos de lenguajes documentales: tesauros, listas de encabezamientos de materia y clasificaciones. Presentan un vocabulario previamente elaborado, y admiten un limitado número de modificaciones en el momento de su utilización. Son aquellos que controlan las ambigüedades propias del lenguaje, tanto para la representación como para la búsqueda y recuperación de la información (sinonimia, polisemia, homonimia). También se realiza el control a nivel de relaciones semánticas (equivalencia, jerárquica, asociativa...) En conclusión, el vocabulario controlado es más práctico: proporciona al usuario un punto de búsqueda, en vez de dos o más, y reduce la posibilidad de que la búsqueda sea incompleta. Sin embargo, puede perderse alguna información. Lenguajes documentales: definición y características Lista de palabras clave Constituida por una colección no ordenada de palabras significativas, también denominadas no vacías extraídas de forma automática por el ordenador, a partir del título, del resumen y cada vez más del texto completo de los documentos. Ej: biblioteca; servicio; documentación; documental La mayoría de las veces es monolingüe. Puede contener palabras de 2 o más lenguas pero sin equivalencias entre las palabras de las distintas lenguas. Los términos no tiene relación unos con otros por ende no tienen control terminológico. Lista de descriptores libres Constituida por una colección no ordenada de conceptos destacados, por un proceso intelectual, a partir de los documentos registrados dentro de un sistema documental dado. Estos conceptos son expresados por palabras o expresiones extraídas de los documentos, o propuestos por los documentalistas sin verificar si existen previamente en una lista establecida a priori. Generalmente son monolingües Ejemplos: biblioteca; servicio de documentación; servicio documental. Clasificaciones Representan el tema a través de la notación (números) con el objeto de dar a las obras una ubicación física en la biblioteca Lenguaje codificado de forma numérica, alfabética o alfanumérica que describe de manera sintética el contenido de los documentos. Lista de encabezamientos de materia Traduce el tema de la obra desde términos alfabéticos en lenguaje natural (el del documento) a términos controlados que figuren en la lista utilizada, es decir, son listas alfabéticas de conceptos en lenguaje controlado, donde cada concepto ocupa su posición, por lo tanto, distintos conceptos no tiene la misma categoría. Son sistemas rígidos de alto control terminológico, Tesauros Lista estructurada de conceptos destinados a representar de manera unívoca el contenido de los documentos y de las consultas dentro de un sistema documental determinado y a ayudar al usuario en la indización de los documentos. Los conceptos son extraídos de una lista finita establecida a priori. Sólo se pueden utilizar los términos de dicha lista para indicar los documentos y las consultas. La ayuda al usuario la proporciona la propia estructura. Puede ser mono o multilingüe, relaciona los conceptos equivalentes en distintas lenguas.