INDIZACIÓN I GUÍA DE AUTOAPRENDIZAJE MARTHA BERMUDEZ CHÁVEZ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ Guía de autoaprendizaje Indización I Modalidad de Educación Abierta y a Distancia Martha Bermúdez Chávez Secretaría de Educación Pública Dirección General de Educación Superior Escuela Nacional de Biblioteconomía y Archivonomía México, 2002 Secretaría de Educación Pública Subsecretaría de Educación Superior e Investigación Científica Dirección General de Educación Superior Escuela Nacional de Biblioteconomía y Archivonomía Indización I (Serie guías de autoaprendizaje) Modalidad de Educación Abierta y a Distancia México 2002 Asesor pedagógico: Ramón Mondragón Sánchez Revisor de contenido: Oscar Arriola Navarrete Colaboradores: Laura Guillermina Trejo Moreno, Karla Alemán Salazar, Jovany Martínez Morales Producción editorial: Ivonne Bautista Carmona GUÍA DE AUTOAPRENDIZAJE INDICE Introducción......................................................................................................................... 6 Objetivo general de la asignatura....................................................................................... 7 UNIDAD I ANTECEDENTES HISTÓRICOS DE LA INDIZACIÓN......................................................8 1.1 Antecedentes de la indización...................................................................................... 8 1.2 Diferentes definiciones de indización........................................................................... 11 1.3 Relación entre indización, resúmenes y búsqueda de la información........................ 15 1.4 Objetivo de la indización............................................................................................... 18 1.5 Principios de la indización.............................................................................................20 UNIDAD II PROCESO DE LA INFORMACIÓN....................................................................................23 2.1 Etapas de la indización..................................................................................................24 2.2 Normas de la indización................................................................................................29 2.3 Organización internacional de normalización (ISO).....................................................31 UNIDADD III LENGUAJES DE INDIZACIÓN...........................................................................................39 3.1 Concepto de lenguaje documental...............................................................................39 3.2 Historia del lenguaje documental..................................................................................42 3.3 Características y componentes de un lenguaje documental.........................................43 3.3.1 Partes componentes del lenguaje documental.........................................................44 3.4 Principios del lenguaje documental...............................................................................45 3.5 Funciones del lenguaje documental.............................................................................46 3.6 Tipos de lenguaje documental......................................................................................48 4 INDIZACIÓN I 3.6.1 Lenguajes naturales de indización................................................................................50 3.6.2 Vocabularios controlados.................................................................................................52 UNIDAD IV SISTEMAS DE INDIZACIÓN................................................................................................58 4.1 Indices post-coordinados..............................................................................................59 4.2 Índices pre-coordinados............................................................................................... 60 4.3 Sistemas híbridos..........................................................................................................61 4.4 Indización por materia...................................................................................................62 4.4.1 Indización alfabética por materias.............................................................................63 4.5 Indización por unitérminos............................................................................................64 4.6 Indización por descriptores...........................................................................................65 4.7 Indización por epígrafes................................................................................................67 4.8 Keyword in context (KWIC)...........................................................................................68 4.9 Keyword aut context (KWOC)...................................................................................... 70 4.10 Keyword and context/palabra clave y contexto (KWAC)...........................................71 4.11 Tesauros o vocabularios post-controlados................................................................. 72 Obras recomendadas......................................................................................................... 88 Evaluación........................................................................................................................... 90 Glosario............................................................................................................................... 93 5 GUÍA DE AUTOAPRENDIZAJE INTRODUCCIÓN Estimado alumno del Sistema de Educación a Distancia: herramientas de observación local, nacional o internacional, con los recursos manuales y/o automatizados y las posibilidades de las nuevas tecnologías, de acuerdo a la institución en que te desenvuelvas. Conforme abundes tus conocimientos de la materia, se te aclararán los conceptos. Nos corresponde ahora estudiar la asignatura Indización I, tema de gran interés para nosotros bibliotecarios con vocación de ayudar al usuario. La indización es una técnica de análisis documental, cuya aplicación da como resultado una contribución significativa a la comunicación y flujo de la información. Es importante su dominio, porque ello te permitirá especializarte dentro de los sistemas de información, debiendo desarrollar una gran capacidad para así tener oportunidad de competir en un mercado internacional, ante tendencias globalizadoras, dentro del campo. Los estudiantes, futuros indizadores, necesitan entender cómo producir resúmenes e índices, las dos principales herramientas del análisis de la información, el por qué de la Indización y dónde aplicarla. Los resúmenes y la Indización son los elementos vitales de unión en la comunicación entre el que origina la información y el que la utiliza. La Indización y la elaboración de resúmenes, son dos procesos paralelos, prácticas y procedimientos que los organizadores de la información establecen; es necesario que tanto el lector, como el manejador de ésta conozcan la relación que existe entre esos dos procesos, así como el de búsqueda dentro de una solicitud de información, para seleccionar y aplicar las técnicas de indización y resúmenes más apropiadas. El almacenamiento de estos dos procesos, generalmente se realiza a través de sistemas computarizados, este aspecto no se considerará en esta guía, tampoco la técnica para elaborar resúmenes. El trabajo del indizador asume el manejo básico de lo que son las labores de catalogación y clasificación por parte de los usuarios, lo cual llevará al mejor entendimiento de la organización del conocimiento. Jennifer Rowley (Abstracting and... London, 1988) p. viii, dice que los usuarios deben estar familiarizados con la descripción de los documentos, la formulación de los encabezamientos de autor, el arreglo alfabético de los encabezamientos de materia y los esquemas de clasificación, puntos que se deben tomar en cuenta cuando se trabaja con los usuarios, dentro de un centro de información. Nos dice Lancaster (Indexing... Illinois, 1991) p. ix que los principios que se utilizan para la elaboración de los catálogos de bibliotecas, son los mismos que los desarrollados por los índices y resúmenes a publicaciones periódicas y que están muy relacionados al control de vocabulario, por esta razón incluimos un capítulo sobre la relación que existe entre la Indización, la elaboración de los resúmenes y la búsqueda de información en un sistema automatizado de recuperación de la información. La utilidad práctica que nos da el autor, es conocer como se desarrolla la indización y la elaboración de resúmenes, tal como se realiza en los índices y “abstracts” (resúmenes) a publicaciones periódicas, que tú ya debes conocer, o habrás de conocer al término del estudio de esta asignatura. Aunque es una técnica, ser indizador implica tener las habilidades intelectuales para resolver los problemas dentro de la labor profesional, además de una actitud inquisitiva e innovadora que te permita la actualización permanente de tu profesión, de aquí la importancia de la materia. Si logras definir rápidamente lo que es la Indización, sabes lo que es un lenguaje de indización y lo que debes hacer al aplicar tu criterio, además de las normas que deberás seguir en el procedimiento, cuando vas a indizar, puedes sentirte satisfecho. Pero es aconsejable reforzar lo aprendido con una práctica constante de la indización. El procedimiento de la indización, te permitirá ordenar técnicamente los materiales documentales que posea una unidad/sistema de información, a fin de hacerlos recuperables, además de la utilización de las normas, políticas y 6 INDIZACIÓN I OBJETIVO GENERAL DE LA ASIGNATURA El objetivo general de la asignatura es hacerte llegar el conocimiento por medio del cual puedas explicar y aplicar el proceso de análisis documental y los fundamentos de los lenguajes documentales, así como sus diferentes tipos. Al término de ésta, serás capaz de: - Saber qué es la Indización - Definirla - Conocer los antecedentes de la Indización y su objetivo - Conocer los procedimientos para indizar y sus normas - Conocer los diferentes sistemas de indización que existen - Saber qué son los lenguajes documentales, sus funciones y sus componentes - Distinguir los diferentes tipos de lenguajes que se utilizan en la indización - Conocer los tipos de índices que se han desarrollado a través de los diferentes lenguajes de indización. Se consideró necesario incluir algunas lecturas en inglés, para apoyarte en la identificación y unificación del lenguaje documental empleado en el ámbito Global. 7 GUÍA DE AUTOAPRENDIZAJE UNIDAD I ANTECEDENTES HISTÓRICOS DE LA INDIZACIÓN 1.1 ANTECEDENTES DE LA INDIZACIÓN HISTORY1 “Although scholars might argue about the exact meaning of the diminutive membranalum, there in no doubt that index and SILLYBOS meant the little parchment titletags that hung down from the papyrus roll the identify work on a library shelf [Witty, 1973, 193]. In ancient times, indexes were not numerous as they are today. Before printing, there were few books; reading was an uncommon skill. People memorized the Bible and the Koran and sere able to recite long passages from them. The English use of index as explained by Wheathley (1879, 8-9) is nominative rather than accusative and generally means ‘table of contents’ or ‘literary guide’. Shakespeare often uses the word, as when Iago in Otello refers to “an index and obscure prologue to the history of lust and foul thoughts.” In Richard III, Queen Margaret alludes to “The flattering index to direful pageant.” In the same play. Buckingham threatens : The first special index was made for the Bible. According to Busa (1971) biblical concordances were probably in existence in the seventh and the eighth centuries. The word index, as Henry Wheathley (1879) discusses in the pioneering work What Is an Index? Was first used for the Romans to denote a discovery, a discloser, an informer. When used in relation to literature, index meant a catalog, a list, a inscription, or even a title of a book. Seneca refers to an index (i.e., list) of philosophers. Cicero, when writing to Atticus, asks that he be sent two clerks to repair his books an requests that they bring along some parchment on which to make indexes. Francis J. Witty takes issue with Wheathley’s interpretation and claims that the correct translation of Cicero´s letter should be: “and bid bring a bit of parchment from which titletags (indices) are made. You Greeks, I believe, call them SILLYBOI [ 1973, 193; Witty´s parentheses and italics]. “Witty continues, 1 I´ll sort occasion As index to the story we late talk´d of, To part the Queen’s proud kindred from the King. In about the seventeenth century, scholarly books appeared with indexes. Thus, in Speed’s History of the Great Britaine (1611) There is an 2Index of Alphabetical Table containing the principal matters in this history.” Sobell´s Acts and Ordinances of Parliament, 1640- 1656 has “An Alphabetical Table of most material contents of whole book” preceded by “An index of the general titles comprised in the ensuing table.” Boeko, Harold: Indexing concepts and methods (Library and Information Scince). 8 INDIZACIÓN I In the twentieth century, many changes occurred in subject indexing and cataloging. However, to detail these developments would carry us too far into the history of the subjects ; so it seems logical to end this brief historical review with the reference to Cutter, who ushers in the modern period of library indexing and cataloging practices. Originally, the words index and table were used interchangeably. By the middle of the seventeenth century, the former dominates. In present English usage, the word table is reserved for the initial guide, in page-number order, the contents of a book as defined by chapter beadings — that is, the table o of contents. The word index now refers to the alphabetized or classified entries usually found at the back of a book. Word such as inventory, register, calendar, catalog, syllabus, and summary are no longer synonymous with index. We conclude with some current definitions from the ANSI 1968 Standard. An index is A systematic guide to items contained in, concepts derived from, a collection. . These items or derived concepts are represented by entries in a known or stated searchable order, such as alphabetical, chronological, or numerical. William Frederick Poole is credited with the invention of the modern index to journal articles. Poole’s Index (1882), created entries from keywords in the titles of the articles indexed.. Not only is Poole´s index a forerunner of the present day Wilson indexes but also anticipates the Keyword- in-Context (KWIC) concordance of Hans Peter Luhn (1960). In 1880, John Shaw Billings , of the U.S. Army Medical Library, prepared the first index catalog for medical literature. Four years earlier , Charles Ammi Cutter codified subject cataloging principles in his Rules for a Printed Dictionary Catalog (1876). Indexing is the process of analyzing the informational content in the language of the indexing system. It involves selecting indexable concepts in a document; and expressing these concepts in the language of the indexing system (as index entries); an ordered list. And indexing system is the set of prescribed procedures (manual and/or machine) for organizing the contents of records of knowledge for purposes of retrieval and dissemination. ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ Nos dice Donald B. Cleveland (Introduction to... Englewood, Co, 1990, p. 10), que en los años 40´s, debido a la proliferación de la información, se desarrolló una sociedad de especialistas que demandaban un análisis profundo, rápido y efectivo de la información registrada, con millones de documentos. El autor califica esto como “contaminación de la información”, que puso una gran tensión sobre los mecanismos tradicionales del manejo de ella, debido al cambio tecnológico desarrollado en los microformatos y las herramientas de transferencia de comunicación, la televisión, el desarrollo de las computadoras y las técnicas de reproducción. Surgió el movimiento de la documentación que se diseminó de Europa; a partir de este momento; los bibliotecarios piensan que lo único que ellos necesitan es la rapidez de las computadoras y el desarrollo de las mismas; posteriormente se dan cuenta que los problemas que implicaba el manejo de la información, continuaban y que la ayuda que les podían proporcionar las computadoras, significaba sólo el cometer los mismos errores, nada más que a mayor velocidad. Nos dice el autor, que esto se debe a la profunda complejidad del hombre; los bibliotecarios apenas empiezan a entender y 9 GUÍA DE AUTOAPRENDIZAJE apreciar los problemas de los usuarios y sus necesidades individuales, también a darse cuenta que la importancia de un documento particular es de juicio particular y no una constante universal y que un usuario promedio no existe, ni nunca existirá. carecía de divisiones, o que las incluía en una estructura jerárquica simple, de dos o tres niveles (encabezamiento principal y modificador, o encabezamiento principal, subencabezamiento y modificador), con los términos o fases en cada nivel, usualmente arreglados en orden alfabético. Los problemas de la Indización, según Cleveland, son la clasificación y las técnicas de búsqueda: ¿cómo buscan los científicos la información? ¿cómo lo hacen los nocientíficos? Los bibliotecarios apenas se están dando cuenta que un sistema de información tiene que ir más allá de los simples documentos y sus contenidos; que más que nada, tiene que ver con la conducta humana. Dale B. Baker de la NFAIS (National Federation of Abstracting and Information Services) en las lecturas memoriales, 19691983, de la Federación, (Abstracting...Arlington, VA., 1983 ) p. 45, nos dice que fue entre 1958 y 1982, cuando los indizadores trabajaron duramente para hacer frente a la “crisis de la información” en ciencia y tecnología (particularmente debido al Sputnik) El fuerte crecimiento de las ciencias físicas y la investigación y el desarrollo en las ciencias sociales hizo que en estos años los servicios de indización y resúmenes fueran usados como nunca antes, por más gente. La Enciclopedia (Encyclopedia of Library... New York, c1974, v. 11 ) nos dice que los índices comúnmente conocidos, son tan viejos, posiblemente como lo es la escritura. Los primeros índices fueron los referidos a los de nombres personales o a la ocurrencia de las palabras en un texto indizado (conocidos como concordancias), más que a un concepto o una materia. Los índices por palabra fueron usados frecuentemente con escritos religiosos, constituyendo así una herramienta importante en las interpretaciones místicas del Talmud. La mencionada enciclopedia indica que los índices por “tópico” se encuentran más frecuentemente, empezando con la literatura del siglo XVIII, pero la selección de términos y aún el orden de entradas en el índice, permaneció de forma casual por largo tiempo. No fue sino hasta finales del siglo XIX, que con el desarrollo de la taxonomía en la documentación y la ciencia bibliotecaria, que la Indización por materia empezó a ser ampliamente difundida y también más sistemática. Concordando con lo que nos dice Dale B. Baker, la Enciclopedia antes mencionada (op. cit., v. 11, p.289) nos dice que la actitud de los editores, bibliotecarios y usuarios de la información, cambió como resultado de la “explosión de la información”. Durante e inmediata a la terminación de la II Guerra Mundial, repentinamente, fue dramático el incremento y cantidad de la información que tenía que ser procesada y diseminada, aunada al dramático decremento en el tiempo disponible para procesar y diseminar dicha información; esto llevó a un esfuerzo y atención muy especial en la práctica de la Indización. El movimiento, llevado a cabo por bibliotecas, editores, gobierno e industria y especialmente por grupos profesionales en las ciencias, condujo al “boom” del procesamiento de la información y paralelamente al procesamiento electrónico de la información, los dos campos muy relacionados. La misma enciclopedia nos dice que en los pasados 100 años, el índice por materia más usado, consistía de una lista de términos que 10 INDIZACIÓN I 1.2 DIFERENTES DEFINICIONES DE INDIZACIÓN La International Encyclopedia of information and library science (London, 1977, p. 169) nos dice que la Indización es el análisis del contenido de un documento (libro, folleto, audiovisual o artículo, dentro de un sistema de recuperación de información), o colección de documentos; traduciendo los resultados del análisis, en términos que se usarán en un índice. También, es un grupo organizado de esos términos, que permiten la localización y recuperación de la información. lo cual tiene que realizar diferentes procesos, que a su vez, generan un conjunto de ficheros. Precisamente uno de los procesos mas importante que se realiza es la indización. Con frecuencia la indización y la búsqueda se considerarán como operaciones paralelas. Es decir, la indización como un proceso que se realiza con los documentos, y la búsqueda como un proceso que se realiza con las solicitudes. Esta consideración no es correcta. Por eso es necesario enfatizar que la indización es un proceso que se aplica tanto a los documentos que van a formar parte de la colección del sistema, como a las solicitudes de búsqueda que formulan los usuarios para recuperar determinada información relevante a sus intereses. Es importante que distingas la diferencia de lo que es un índice común; éste es, según la misma enciclopedia, una lista de tópicos, nombres de personas, lugares, etc., mencionados en un libro o series de libros, indicando en qué lugar o lugares, aparecen éstos, en el documento fuente, usualmente ordenado por el número de página (algunas veces con un símbolo adicional denotando una posición o una página), aunque a veces, por sección o por número de entrada. También es conveniente aclarar que el proceso de indización con frecuencia se utiliza en los diferentes departamentos de un centro de información como un medio de control operativo; por ejemplo, se pueden Indexar los catálogos de editoras en una sección de adquisición. Los índices, según la mencionada enciclopedia, pueden incluir entradas o asientos por autor personal, autor corporativo, nombre geográfico, materias, títulos, primeras líneas; citas, abreviaturas; acrónimos e iniciales; referencias; números y fechas. Ejemplos de índices lo constituyen el índice de un catálogo clasificado en una biblioteca u otra colección similar; un índice a un grupo de publicaciones periódicas y un índice a una publicación periódica individual, libro u otro documento. Nos dice la enciclopedia que aunque los índices, fuera de los numéricos y por fecha, son ordenados usualmente por alfabeto, hay ejemplos de índices clasificados alfabéticamente, como el “Engineering Index”. Aspectos Básicos La indización de los documentos es un proceso complejo que parte del procesamiento de la información, por medio de la cual se representan en algún portador material características esenciales de los documentos que permiten su posterior recuperación sin tener que revisar toda la colección. El portador material es el medio material donde se registran los datos de los documentos, los medios portadores son de distinta índole de acuerdo con el tipo de procesamiento, almacenamiento y recuperación que utilice el sistema. En el apartado anterior se explicó que la principal función de un sistema de información es poner a disposición de los usuarios la información relevante (1) a sus intereses, para Algunos autores también los clasifican en discontinuos, discretos y continuas. Por 11 GUÍA DE AUTOAPRENDIZAJE un número dado de términos que representan las características de dicha materia. ejemplo, las fichas catalográficas y las fichas de coincidencia óptica son ejemplos de portadores discretos, y las bandas magnéticas, los discos magnéticos y las películas son portadores continuos. El conjunto de datos que describe los aspectos esenciales que permiten recuperar un documento conforma lo que en este texto se designará con el nombre de Registro de Datos (RD), el cual actúa como sustituto y representante del documento. La indización podrá comportar distintos niveles de profundidad dependiendo de que se realice a partir del título del documento, sobre el resumen o sobre el mismo texto del documento original. La elección de aplicar unos u otros sistemas viene determinada por diversos factores tales como el número y la cualificación del personal disponible, los medios económicos, el volumen y naturaleza del material a analizar, etc. Indización En el proceso de indización son varias las etapas que han de realizarse. Rowley las resume en tres: La operación de indexar es definida por la UNESCO en su programa Unisist desde un noble punto de vista: como proceso consiste en describir y caracterizar un documento con la ayuda de representaciones de conceptos contenidos en dicho documento; desde el punto de vista de su finalidad, como la operación destinada a permitir una búsqueda de informaciones contenidas en un fondo documental. Para Neet indexar es analizar los documentos y aislar, en la riqueza del lenguaje natural empleado por los autores, todos los conceptos esenciales o pertinentes que deben ser retenidos en vista de búsquedas posteriores. - Familiarización con el contenido y materia del documento. - Fases del análisis, donde el indizador decidirá qué materias representan el tema principal del documento y por tanto deben ser indexadas, y por último, - La selección de términos representativos que expresen sin ambigüedad el contenido del documento. Algunos teóricos, como por ejemplo Van Dijik y Van Slype, incluyen una cuarta fase correspondiente al lenguaje documental. Coll Vinent define la indización como el acto de retener una o más nociones que representan al contenido de un documento y adecuarlas al lenguaje natural o documental determinado, previamente escogido por el analista. Como se puede observar, y en líneas generales se distinguen dos tipos de lenguajes, el llamado lenguaje natural y por otro lado el lenguaje documental. El primero, lenguaje natural, es aquel en el que esté inscrito el documento y del que se extraen términos de indización. Se trata de un lenguaje simple en su utilización, pero en ocasiones ambiguo debido a los distintos significados que tienen algunos vocablos. El segundo, lenguaje documental, es aquel que se define antes de comenzar la indización e incluye un vocabulario artificial y estereotipado, compuesto por un lista de términos García Gutiérrez afirma que se trata de una técnica del tratamiento documental utilizada para la descripción del Contenido de documentos o demandas documentales que posibilita la elaboración de estrategias de recuperación mediante conceptos o materias. En suma, es la operación a través de la cual se expresa la materia principal de un documento o demanda documental, mediante 12 INDIZACIÓN I pequeños y simples seleccionados del propio documento para su identificación. Este sistema fue una etapa conceptual importante en el camino hacia la indización basada en los conceptos, es decir, en la indización de descriptores. normalizados y sus respectivas relaciones. Para Van Slype es el sistema de signos que permite representar el contenido de los documentos pertinentes en respuesta a consultas que tratan sobre ese contenido. Este autor distingue dos tipos de lenguajes documentales: los lenguajes de indización, denominados también combinatorios y que son los que permiten representar el contenido de los documentos y de las consultas de forma analítica, y los lenguajes de clasificación utilizados para representar el contenido de forma sintética. El profesor García Gutiérrez define el término descriptor como la palabra-clave extraída por y para la indización de un vocabulario documental establecido en lengua natural. Todo descriptor ha debido ser previamente palabra-clave y constituir el máximo rango diferencial en la fisonomía de los contenidos documentales, por tanto podríamos decir que los descriptores son palabras claves, normalizadas y seleccionadas, dentro del lenguaje natural de acuerdo a ciertas reglas, para formar un vocabulario particular y depurado artificialmente de sinonimias, polisemias y homonimias, mediante referencias cruzadas y notas. Los descriptores forman un lenguaje de recuperación de información especializado cuya gramática consiste, en el mas simple de los casos, en un método para elaborar modelos y solicitudes de búsqueda, mediante la correlación de descriptores relevantes. En íntima conexión con los lenguajes documentales se encuentran los sistemas de indización, es decir, los procedimientos prescritos para organizar el contenido de los registros de información con el propósito de alcanzar una correcta recuperación y difusión. Estos sistemas pueden agruparse en tres categorías dependiendo de que la indización se efectúe sobre las palabras (indización por unitérminos), los conceptos (indización por descriptores) o los temas (indización por materias). M. Taube definió la indización coordinada como un método de analizar materiales de información, de tal manera, que la recuperación se realiza por las operaciones lógicas del producto, suma y complementariedad sobre los códigos almacenados. En 1955 desarrolló el llamado sistema UNITERM, de extrema aplicación desde entonces. Este sistema consiste en una palabra clave que puede tener una referencia o una nota indicativa que ayuda a eliminar la sinonimia. Sin embargo, no mantiene referencias que especifiquen otro tipo de relaciones. Los uniterms pueden expresar ideas simples, nombres propios, geográficos o comerciales, todos ellos con un rango jerárquico igual, y ninguno ocupando posición conceptual superior con respecto al otro cualquiera. El vocabulario se desarrolla en el mismo proceso de utilización y no de antemano. Se trataba pues, de vocablos Este sistema de indización supuso un gran avance en la descripción característica de los documentos, además de procurar a los usuarios, tal y como expone Silva, una especie de liberación al brindárseles la oportunidad de salir de los laberintos esotéricos de la CDU para permanecer en el terreno de sus propias terminologías. Noel Angulo Marcial (Manual de tecnología... México, 1996), p. 104, nos dice que la Indización es “una actividad propia del análisis documental; consiste en identificar y representar el contenido de un documento, utilizando términos de un vocabulario controlado o palabras del lenguaje natural en combinación con procedimientos sintácticos. El contenido se puede expresar por medio de unitérminos, descriptores, palabras clave o encabezamientos de materia”. 13 GUÍA DE AUTOAPRENDIZAJE Representar el contenido de un documento a través de términos indizados o a través del lenguaje natural, lleva a elaborar un mini resumen, por esto a la Indización se le enlaza con la elaboración de ellos; lo importante es la recuperación de la información en forma efectiva. Por medio de la Indización se va a lograr un mejor acceso a la información por materia, dentro de un sistema en línea; esta es la aportación que da F. W. Lancaster (Indexing..., Illinois, USA., 1991) p. Ix Recuerda que lo importante es que quede muy clara en tu mente, la diferencia de todos estos vocablos, porque de esto dependerá que te conviertas en un buen indizador. 14 INDIZACIÓN I 1.3 RELACIÓN ENTRE INDIZACIÓN, RESÚMENES Y BÚSQUEDA DE LA INFORMACIÓN Porque la indización viene a ser un tipo de los resúmenes que se elaboran de los documentos, para facilitar la recuperación de la información, te vamos a pedir que observes el siguiente cuadro, en donde se presentan cinco aspectos, uno de ellos es la Indización. El cuadro está en inglés, porque es el idioma que más se maneja y es importante que tu te familiarices con su uso, aún más si tú como administrador, decides utilizar los términos en español. Generalmente cuando indizamos utilizamos, si no el lenguaje natural, un vocabulario controlado que generalmente es un Tesauro; al respecto, es recomendable la búsqueda de uno apropiado, de acuerdo al área que se maneje en nuestro centro; muchas veces estos tesauros no existen en el idioma español, o si deseamos realizar la traducción, nos encontramos con el problema de la semántica, que ocasiona demasiados dolores de cabeza a los bibliotecarios, aún que estos problemas van siendo superados por la tecnología de las computadoras. Indización (Selectiva) PUBLIC OPINION TELEPHONE SURVEYS UNITED STATES ATTITUDES MIDDLE EAST Indización (Exhaustiva) PUBLIC OPINION TELEPHONE SURVEYS UNITES STATES ATTITUDES MIDDLE EAST ISRAEL EGYPT ARAB NATIONS PALESTINE LIBERATION ORGANIZATION PEACE CONFERENCES PEACE PALESTINIAN STATE FOREIGN AID POLITICAL LEADERS Título Nationwide public opinion survey of U.S. attitudes on the Middle East Resumen (Abstract) breve A telephone survey held in 1985 presents views on such matters as:U.S. aid to Israel and to Egypt; whether the U.S. should side with Israel, the Arab nations, or neither; whether the PLO should participate in a peace conference; and whether an independent Palestininan State is a prerequisite for peace. Resumen (Abstract) expandido Telephone interviws were conducted in 1985 with 655 Americans sampled probabilistically. Answers were obtained to the following questions: is the establishment of a Palestininan State essential for peace; should U.S. aid to Israel and Egypt be reduced; sould the U.S. participate in a peace conference that içncludes the PLO; should the U.s. favor neither Israel nor the Arab nations but maintain friendly relations with both? Opinions were also expressed on major Middle East leaders (Hussein, Arafat, Peres, Mubarak, Fahd, Assad), especially their peace efforts, and whether or not respondents felt they had enough information on the various national groups in the region. 15 GUÍA DE AUTOAPRENDIZAJE Para indizar, una de las más importantes propiedades de la representación de la materia, es la longitud. En el cuadro anterior, a la izquierda puedes ver varias representaciones del contenido de un artículo en la forma de un texto narrativo; a la derecha, dos representaciones en forma de lista; los términos indizados. representación, así será su recuperabilidad. Lo mismo aplica a la Indización; un índice exhaustivo proveerá una especificidad en la materia y sus puntos de acceso. Nos dice Cleveland (op. Cit., p. 16), que la Indización, los resúmenes y la búsqueda, en un sistema de recuperación de la información, no existen independientes, sino que están interrelacionados para formar las bases del sistema que nos ocupa. Los índices y los resúmenes no tienen significado hasta que son usados en una búsqueda; inversamente, una búsqueda, sin estos indicadores de contenido, pone al usuario en la necesidad de revisar los documentos, uno por uno. El diagrama siguiente explica esto: Al respecto te podemos decir que entre más información se de al elaborar un resumen, más claramente la representación indicará el alcance del artículo y podrá determinar el usuario, si lo que va a consultar satisface sus necesidades de información y serán más los puntos de acceso. Podemos decir, que según sea incrementada la longitud de Documento Herramientas De Indización Resumen Indice Patrón Las líneas punteadas indican el camino tomado por el usuario, quien esencialmente trabaja atrás de lo realizado por la Indización y el servicio de Resúmenes. El usuario puede también utilizar herramientas de indización (tesauros o listas de clasificación), no presentadas en el diagrama. Observa la línea del usuario, del índice, al resumen. Los resúmenes son también aprovechados por un índice, especialmente si los resúmenes tienen un arreglo clasificado. La naturaleza de estas relaciones, se ve reflejada en la satisfacción del usuario con el Sistema. Por ejemplo, el tiempo que toma conseguir una información dentro del mismo; 16 INDIZACIÓN I si éste, es largo, se reflejará en el descontento del usuario, ya sea, si está utilizando un sistema manual o uno automático. Esta lista de términos se considera de hecho, como un mini-resumen y serviría a este propósito, si todos los términos fueran reunidos juntos en un índice publicado para representar un documento recuperado, de ciertas bases de datos, como resultado de una búsqueda por computadora. Lancaster nos dice que por medio de la Indización, el especialista expresa el contenido de un documento usando uno o varios términos indizados, usualmente seleccionados de un vocabulario controlado. Estos términos, asignados por un indizador, sirven como punto de acceso para localizar y recuperar un título en una búsqueda por materia, a través de un índice publicado o una base de datos. Si hablamos de un índice impreso, uno puede encontrar un título bajo cualquiera de los términos mencionados; en un sistema de recuperación de información por computadora, el artículo, por supuesto puede ser encontrado por cualquiera de los términos o por una combinación de ellos. El ejemplo que sigue te explicará más lo anterior: § Centros de Información § Recursos compartidos § Catálogos de unión § Catalogación cooperativa § Redes en línea § Préstamo interbibliotecario. 17 GUÍA DE AUTOAPRENDIZAJE 1. 4. OBJETIVO DE LA INDIZACIÓN Al revisar la literatura en el terreno de la Indización, podemos concluir que el propósito de la técnica de Indización es el ahorro del tiempo. La sociedad necesita contar, para ahorrar tiempo, con índices bien elaborados, resúmenes, así como revisiones a la literatura. Es importante lo que menciona Donald B. Cleveland (op. cit. p. xiii), cuando nos dice que debido al avance de la tecnología en el terreno de las computadoras, esto ha hecho que la recuperación de la información automatizada, nos lleve a tratar de encontrar una lista de registros por computadora en nanosegundos; sin embargo, lo más importante es la información en esos registros, la validez y cobertura de esa información y esta labor recae firmemente en la pericia y habilidad de los indizadores y las personas encargadas de elaborar los resúmenes. Nos dice Coll (Ibid. p. 63), que el objetivo de la Indización es “hacerse con un lenguaje y unas expresiones tales que tengan la virtud, en razón de su significado estricto, por sinonimia, por asociación o por cualquier otro sistema, de suscitar un proceso mnemotécnico en el utilizador que le ayude a formular mejor su pregunta y que le facilite en definitiva encontrar aquello que le interesa”. Y Lancaster, (op. cit., p.1) dice, que el propósito principal de la Indización y los resúmenes, es construir representaciones de material impreso en forma adecuada, para su inclusión en cierto tipo de bases de datos, que pueden ser en forma impresa como por ejemplo el “Chemical Abstracts” o el “Engineering Index”, en un sistema de recuperación electrónica, en cuyo caso la base de datos vendrá a ser, a menudo, un equivalente al de un servicio impreso, o en forma de tarjetas, como el catálogo convencional de una biblioteca. Dentro de los principios administrativos del qué, cómo y porqué, la Indización se encuentra dentro de los del cómo; la función documental, en contraposición a la función de una biblioteca, será la búsqueda de documentos pertinentes y el suministro de resúmenes y de textos. 18 INDIZACIÓN I ACTIVIDAD DE APRENDIZAJE Busca y consulta 5 índices de publicaciones periódicas. Los más conocidos en el área técnica es el “Chemical Abstracts”, pero vamos a dejar que tú selecciones los títulos, de acuerdo al área que manejes. Si te es difícil consultar los índices, puedes revisar los ejemplos que da Cleveland, en las páginas 168-184, de la siguiente referencia: CLEVELAND, DONALD B. AND ANA D. CLEVELAND. Introduction to indexing and abstracting.—2nd ed. Englewood, CO. : Libraries Ultd., 1990 y contesta para cada título lo siguiente: 1. Título del índice:_____________________________________________________ Tipo de arreglo____________________________________________________ Menciona 5 Características del índice ___________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ _____________________________________ Tus comentarios: ___________________________________________________________________________________________________________________________________________________________________________________________________________________________________________ _____________________________________ Consulta por favor la introducción, al inicio de dichos índices, para que conozcas la respuesta a estas preguntas. ENVÍA A TU ASESOR 19 GUÍA DE AUTOAPRENDIZAJE 1.5 PRINCIPIOS DE LA INDIZACIÓN Como la Indización es la determinación subjetiva por parte del indizador, de la materia contenida en el documento y cada mente es diferente ¿cómo hace un indizador para expresar en palabras lo que contiene el documento? El lenguaje es ambiguo y en ocasiones metafórico, por lo que el indizador debe tomar las mejores decisiones para realizar la tarea; estas decisiones son referidas a un criterio y distintas tanto para el usuario que necesita la información, como para cada persona que va a leer ese documento; el indizador pues, va a formarse una imagen mental de lo que está diciendo el autor y expresarlo en palabras obtenidas de una lista establecida, que Cleveland (op. cit., p. 107), la llama “Lista de Conceptos”. Esta lista debe ser lo más completa posible, pero concisa y los descriptores así utilizados, van a ser filtrados de esa lista. Lo importante es que esta asignación de términos, sea correcta. como Belkin y otros, en (Ask for..., 1982, pp. 61-71; 145-164), comparan el conocimiento de un investigador como en “un estado anómalo”, respecto al conocimiento coherente de los autores. Estudiando la estructura de la información, Cleveland (Op. cit., p. 14), nos dice que Shannon y Weaver en (The mathematical... Illinois , 1949, p. 14), proponen que uno de los niveles en que puede estudiarse la transferencia de la información, es el técnico, que es la transferencia de símbolos distintos, de un transmisor, a un receptor, traduciéndose esto en ¿qué tan exacta es esa transferencia? El segundo nivel es el semántico, o sea el significado del mensaje y el tercero está relacionado con los resultados de dicha transferencia, y la reacción de los usuarios. Los siguientes factores son los que un indizador tiene que tomar en cuenta para realizar una buena indización, según nos lo marca Donald B. Cleveland. Surgen aquí términos difíciles de conceptualizar, por ejemplo en la regla que dice “indizar todas las materias importantes”, aparece una pregunta: ¿qué es lo importante? en relación a esto, es necesario descubrir en cada palabra, en cada frase, el sentido en que el autor escribe y realizar la labor de acuerdo a las políticas establecidas por el Centro y las necesidades de los usuarios. SELECCIÓN DE TÉRMINOS.- Los indizadores deben asegurarse que todos los términos correctos, han sido seleccionados y también excluir los que no se necesiten, esto porque si se incluyen los términos incorrectos, esto llevará al usuario a información que no requiere y por otro lado no encontrará la información requerida, si se dejaron a un lado términos importantes. El indizador deberá adivinar, en cierta forma lo que el usuario necesita y cómo éste reacciona a las entradas indizadas. La indización por materia es un proceso difícil, así lo dicen los especialistas en la materia. Términos como about, boutness, covers, concept y conceptual analysis ,related to, appropriate for, related to y aún en español, como los términos ya estudiados, han dado lugar a un sinnúmero de estudios linguísticos, filosóficos y hasta de probabilidad y no han sido definidos precisamente; así nos lo dice Lancaster (op. cit., p. 11); nos dice también que el fin último del proceso de la Indización es la recuperación de la información, pero esto se puede complicar de tal manera, que autores El término ideal seleccionado, reflejará lo que trata el documento, es suficientemente preciso y amplio para identificar el material relacionado. En este punto puede decirse que un buen Thesaurus ligará los términos relacionados a través de relaciones semánticas y jerárquicas, uniéndolos con 20 INDIZACIÓN I “referencias cruzadas”, “términos calificados” y “notas de alcance”. genéricos recuperarán un gran número de documentos relacionados también a la solicitud de búsqueda; si los descriptores usados son paralelos a los conceptos de la materia del documento y reflejan estos conceptos precisamente, entonces podemos decir que la indización es específica; esta misma viene a ser menos precisa y menos paralela a los conceptos exactos, cuando los descriptores refieran a un rango más amplio, por ejemplo, GATOS es un término más específico que ANIMALES, si el usuario usa el término ANIMALES, recibirá mucha información sobre toda clase de animales, pudiendo incluir lo que él solicita; el término GATOS, es un término más preciso. Por supuesto, que a un lenguaje de indización más específico, se tendrá un vocabulario más amplio, con descriptores de más potencial. PUNTOS DE ACCESO.- Las entradas son términos que dan al usuario acceso a la información contenida en una base de datos, si se tiene un sistema automatizado. El término puede ser uno que fue usado al indizar, o puede dirigir al usuario al término apropiado. Las relaciones establecidas por las entradas, con los términos permitidos, son importantes para llevar a cabo una indización y también lograr éxito en una búsqueda. Las entradas a menudo son casi sinónimos de términos aceptados, cambios, o pluralizaciones; algunas veces éstas son coloquiales, de modo que las referencias cruzadas, conducen a términos más formales. PROFUNDIZACIÓN DE LA INDIZACIÓN.La selección del descriptor siempre va a estar influenciada por la profundidad del índice o por la exhaustividad; esto significa simplemente, el número de tópicos que serán cubiertos en la indización de un documento o la cantidad de detalle cubierto en cada tópico particular. Supongamos que tenemos un documento que cubre 5 tópicos. Si nosotros reconocemos los 5 tópicos durante el proceso de análisis y asignamos descriptores para representar estos 5 tópicos podemos entonces decir que la indización de este documento ha sido completa y que hemos indizado con profundidad. A más profundidad, más términos indizados; por supuesto algunos documentos simplemente no contienen muchas ideas diferentes, la indización a profundidad no producirá muchos términos, no importa que tan exhaustiva sea. PESO AL ASIGNAR DESCRIPTORES.Los indizadores están de acuerdo que no todos los descriptores asignados a un documento son igualmente importantes para reflejar el contenido de ellos; algunos términos son absolutamente necesarios y describen la verdad principal del documento, pero los indizadores temen asignar descriptores a lo que puede ser de importancia menor; aún más, el investigador no conoce la importancia de muchos descriptores hasta que el documento es analizado. Para ayudar a resolver este problema, se propuso el concepto de peso, al asignar los descriptores. Por medio de este concepto, se asigna un valor al término, en cierta clase de escala, para identificar la importancia relevante. La técnica se basa en la frecuencia de la ocurrencia de palabras, utilizando el conteo de las palabras a manera de un modelo estadístico. Por ejemplo, varias técnicas tienden a relacionar la frecuencia de ocurrencia de las palabras en un documento particular, a la frecuencia de ocurrencia de estas palabras en la colección, como un todo, o a un lenguaje natural. La idea es que las palabras en el documento, sean pesadas (medidas), de acuerdo a como ellas varían la frecuencia PRECISIÓN EN LA INDIZACIÓN.- Esto se refiere a las relaciones genéricas entre los términos indizados. A término más específico, más precisos serán los resultados, por ejemplo, muchos de los documentos recuperados estarán relacionados a la solicitud de investigación; por otro lado, términos más 21 GUÍA DE AUTOAPRENDIZAJE normal de ocurrencia. Si hay un incremento en la frecuencia, entonces el concepto debe tener un término con significado (fuerte). Una utilidad aplicable a la asignación específica de términos, es indizar de acuerdo a la especificidad del autor, si el escritor habla sobre GATOS, entonces el indizador no tiene porque aplicar otro concepto, sino el de GATOS. ACTIVIDAD DE APRENDIZAJE Te pediremos que consultes la siguiente referencia, para que puedas dar las definiciones de los siguientes términos y mandárselas a tu ASESOR. ANGULO MARCIAL, NOEL.—Manual de tecnología y recursos de la información.—México : IPN, 1996.—262p. Indización ___________________________________________________________ Unitérminos__________________________________________________________ Descriptores__________________________________________________________ Palabras clave_________________________________________________________ Encabezamientos de Materia_____________________________________________ ENVÍA A TU ASESOR 22 INDIZACIÓN I UNIDAD II PROCESO DE LA INFORMACIÓN veces único componente es el conjunto de términos sustantivos (elementos léxicos) que actúan como pistas para encontrar la materia del documento. Estos términos pueden ser suplidos por ciertas indicaciones de las relaciones entre ellos (elementos sintácticos). Ej. La adición de facetas indicadoras, implícitas o explícitas, o por ciertas herramientas sintácticas como el catálogo alfabético por materia. ¿Cómo se hace un índice? ¿Cómo puede uno aprender a indizar un libro o un documento? Cleveland nos dice (Op. cit.) p. 100) que la Indización es más un arte que un procedimiento formal, lo primero que hay que hacer es estudiar los índices existentes, lo que va a permitir aprender lo que debe ser un índice, aunque ellos varían mucho en su forma, características y calidad, en la forma de presentar su información y/o al editarlos; también en la forma de presentar sus encabezamientos y subencabezamientos, igual que sus indicadores de colocación y la información bibliográfica. Muchas veces, las indicaciones para usar el índice no existen o son muy pobres, por lo que el usuario tiene que descubrir cómo usarlo a través de ensayo y error. La indización de materia o temática es la más importante y la que se estudiará con más detalle en este texto. En la unidad cuatro se explicarán más ampliamente los lenguajes de recuperación de la información. No obstante, como en las explicaciones que a continuación se ofrecen hay que hacer referencia a los lenguajes de recuperación de la información (LRI) se ha considerado conveniente adelantar su definición. Nos dice Cyril Cleverdon (Factors determining... Cranfield /England/, 1966), que la descripción indizada de un documento es la mención condensada, a veces muy condensada de su contenido; su principal y a 23 GUÍA DE AUTOAPRENDIZAJE 2.1 ETAPAS DE LA INDIZACIÓN Nos dice Coll-Vinent que en el Informe de Vid al UNISIST: Informe realizado por la Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura y el Consejo Internacional de Uniones científicas, UNESCO /s. a./, Van Dijk y Van Slipe señalan cuatro etapas en la elaboración de la Indización: 1. Conocimiento del contenido conceptual del documento 2. Extracción de los conceptos contenidos en el documento en lenguaje natural 3. Reducción de estos conceptos al lenguaje documental cuando proceda 4. Búsqueda de otros conceptos pertinentes unidos a los primeros por relaciones jerárquicas o asociativas. por las razones obvias que de no hacerlo, causarán que el documento no esté accesible Una vez que es completado el registro bibliográfico, seguiremos con el análisis más de cerca. Para algunos documentos, bastará con revisar los encabezados, para otros será necesario leerlos completamente, y otros más deberán ser leídos más de una sola vez. Por supuesto que el análisis de contenido puede ser afectado por la situación ambiental de la Institución. El proceso puede ser limitado por el tiempo disponible para realizarlo, aunque este mismo dependerá de la naturaleza del documento y de la experiencia del indizador. El factor más importante al indizar, serán las políticas de indización del Centro y si éstas no existen, el indizador deberá definir sus propias políticas, que tendrán que ver con la selección de ciertos indicadores y el rechazo de otros. Una vez familiarizados con el contenido del documento, los indizadores deben decidir qué aspectos deberán ser enfatizados y cuáles no; tomarán notas de los conceptos, sacados directamente del texto, o diseñar un vocabulario propio, o una combinación de las dos. Donald B. Cleveland ( Introduction to... Englewood, U.S.A., 1990), nos dice que el primer paso en el proceso de la indización, es decidir si vale la pena indizar el documento; éste es revisado superficialmente para ver si llena los criterios para ser indizado. Un juicio de valor será el que llene los objetivos y políticas de la agencia indizadora. Las necesidades del usuario también afectarán el proceso, en relación a la profundidad y la especificación del índice, además del número de términos que sea permitido asignar, de acuerdo a las políticas del Centro. Pero, ¿de dónde vienen estos conceptos? Los títulos y subtítulos dan pistas importantes sobre el contenido del documento, aunque con limitaciones, los títulos constituyen el primer paso para determinar el contenido del documento. Los resúmenes constituyen otra fuente de importancia, especialmente si fueron hechos con calidad. La mayoría de las palabras en el resumen, son de peso para determinar el contenido. Estudios realizados sobre los resúmenes han permitido afirmar que estas unidades no deben ser únicas determinantes del contenido de los documentos, porque como ya se dijo, no todos cubren los requisitos de calidad. La siguiente decisión es qué partes del documento serán indizadas y cuáles no, para pasar a decidir sobre la exhaustividad con la que deberá ser tratado. El siguiente paso será el registro de la información bibliográfica. Un buen registro bibliográfico puede ser presentado en forma resumida y con un formato consistente. Generalmente, la forma bibliográfica será especificada por reglas de formato y estas reglas deben seguirse estrictamente. Debe cuidarse que la información sea registrada en forma correcta, 24 INDIZACIÓN I Etapas de la indización. alcanzar, simplemente por tratarse de una actividad humana y como tal realizada por un simple imperfecto. De lo señalado en párrafos precedentes, ya es posible deducir cuáles son los pasos a seguir por el analista para indicar un documento, cualquiera que sea el lenguaje documental que se haya decidido utilizar. Las razonables garantías para lograr fidelidad en el proceso del análisis, pueden ser clasificadas en dos grupos: En primer lugar deberá estudiarse el contenido del documento después se procederá a extraer los conceptos significativos en el lenguaje natural que se encuentran. Posteriormente, debe procederse a Ia conversión de tales conceptos a lenguaje documental, sin perjuicio de que pudieran coincidir ambos lenguajes en muchos casos. Finalmente, deberá hacerse una búsqueda de otros conceptos, ajenos o no al texto, vinculados a los conceptos significativos por determinadas relaciones semánticas. El primero apunta al método utilizado. Se tendrá oportunidad de analizar los distintos métodos de análisis documental a fin de adquirir los criterios aplicados en la elección de uno de ellos la que no es indiferente desde su punto de vista de los resultados. Es posible que un análisis documental exhaustivo distorsiona el contenido del documento primario, lo que no ocurrirá en caso de elegirse el método apropiado. Sin embargo, cualquiera que sea el método utilizado por el analista, existen ciertos principios o normas mínimas que deben ser respetados para darle credibilidad a Ia investigación. Sin pretender aseverar algo novedoso, surgen reglas para esta labor, que el propio sentido común obliga a acatar. Tales reglas son: La última etapa es especialmente compleja, pues en las anteriores el analista se ha limitado a depurar el contenido del documento, pero ahora se le exige una labor cualitativarnente distinta. En efecto, la búsqueda de otros conceptos cuya denotación ayudará a configurar una red de relaciones entre todos ellos, implica a nuestro juicio, configurar una nueva estructura del documento. Se debe pensar el enorme desafío que éste implica, considerando que en esta nueva estructura, el documento secundario, debe ser absolutamente fiel al contenido del documento original pues esta es la única forma en que puede constituir una ayuda eficaz a la recuperación de Ia información analizada. Objetividad: Este concepto debe guiar toda labor de análisis para que ésta tenga valor informativo y documental. Con ello se destaca que la opinión personal del analista no debe interferir ni dejarse ver en la selección de las palabras. Uniformidad o normalización: El trabajo de indización debe responder a criterios uniformes, a un mismo método de trabajo, sea que se realice en forma individual o través de un equipo de analistas. ¿Existe algún método que garantice una absoluta fidelidad del documento secundario con respecto al documento primario? En otras palabras, ¿en qué medida es posible confiar que la labor del analista no alterará el texto de su trabajo, convirtiendo en algo inútil su labor? Criterio: Este aspecto resulta quizás un tanto polémico, porque se trata de un imperativo común a cualquier actividad humana. Sin embargo, existen importantes razones para dedicarle especial atención en la labor documental. El analista documental se ve enfrentado a dos fuerzas contrapuestas, Solo es posible dar adecuada respuesta a estas interrogantes teniendo en consideración que la perfección absoluta es imposible de 25 GUÍA DE AUTOAPRENDIZAJE de cuyo adecuado equilibrio depende el éxito de su actividad. Por una parte debe ser satisfecha la demanda de amplitud en la selección de los términos. Esto quiere decir que debe tenerse presente la inmensa gama de posibles preguntas que brinda un tema. 4) Indización exhaustiva: Abarca todo el texto del documento, cubriendo prácticamente frase por frase en un análisis profundo. Puede llegar a convertirse en una especie de reformulación del documento. Ello obliga a considerar términos lo suficientemente amplios como para permitir la recuperación de información con distintos tipos de preguntas. 5) Indización selectiva: Retiene solo la información útil a los usuarios de la unidad documental, atendido el campo específico de sus intereses. Según el sistema utilizado: En oposición a lo anterior, está la exigencia de pertinencia en la elección de los vocablos. En efecto, la respuesta hallada a la pregunta debe tener la precisión suficiente que evite el acceder a información no requerida, producto de la excesiva amplitud de los términos elegidos. Como se ve, exigencias antagónicas, para cuya superación no existe ningún procedimiento mágico, sino que debe ser el criterio del analista el que provea el adecuado equilibrio a estas necesidades. Tipos de indización: La indización presenta las siguientes formas, atendiendo el criterio a través del cual se le analice: Según el nivel del grado de profundidad: 1) Indización genérica: Aquella a través de la cual se identifican los principales campos informativos cubiertos por un documento, los que generalmente son múltiples. Se distingue así de la clasificación que es cínica, que identifica el tema principal del documento. 2) Indización intermedia: Identifica aquellos temas significativos en términos más o menos generales del conjunto de temas tratados en un documento. 3) 1) Indización manual: Como su nombre lo indica, esta indización se lleva a cabo por equipos de expertos documentalistas y profesionales del campo temático cubierto por los documentos. 2) Indización automática: Es aquella que se realiza mediante la introducción al computador del texto, o por lo menos de un resumen. El programa respectivo actuará enseguida sobre estos e identificará los términos significativos. Los métodos de identificación son múltiples, así por ejemplo, esta labor puede ser realizada por el programa comparando los términos del texto o resumen y los descriptores de un lenguaje documental. De este modo, cada vez que uno de los términos recogidos por el lenguaje documental implementado aparece en el documento, este es indicado. Como es obvio, este sistema requeriría que el lenguaje natural y el documental se aproximaran mucho. Otros métodos, basados en análisis estadísticos, determinan los términos a indicar sobre la base de la frecuencia con que ellos aparecen en los documentos. Se debe indicar al programa, cual debe ser a frecuencia de las palabras para ser retenidas. Este método es el más eficaz que el anterior, pero tiene el grave inconveniente de considerar cada Indización en profundidad: A través de este tipo de indización se identifican todos los temas tratados de informativo, describiéndolos en profundidad. 26 INDIZACIÓN I término aisladamente por el que permite saber únicamente si un objeto o concepto figuran en el documento sin precisar su valor informativo. la información, aún cuando el usuario busque en el lugar incorrecto dentro del índice. Los términos en la lista de conceptos son comparados contra el Tesauros u otra lista de autoridad, con la meta de encontrar los descriptores finales permitidos en el lenguaje de indización prescrito del Sistema. Actualmente existen métodos sintéticos, que analizan las frases de acuerdo a reglas de gramática previamente introducidas en la memoria de la computadora. Este sistema tomaa en cuenta, por lo menos, las posiciones relativas de las palabras para seleccionar los términos a indicar, con lo que se aproxima a las operaciones realizadas por el ser humano, no obstante, resulta difícil de programar. La última etapa en el proceso de Indización es la que Cleveland (op. cit., 109) llama “Reexaminación”, o sea el análisis de lo que se ha hecho e incluye: ¿los descriptores finales asignados, cubren todos los conceptos importantes del documento?, ¿éstos podrán usarse para recrear su significado? Otro elemento a ser considerado es el texto del documento, así como la introducción, el resumen y la conclusión. La introducción explica lo que se va a decir y el sumario y la conclusión explica lo que se ha dicho. Lancaster propone el análisis conceptual como una etapa del proceso de la Indización y consiste en decidir lo que el documento contiene, lo que cubre. Una indización efectiva implica decidir, no sólo lo que el documento contiene, sino también porqué puede ser de probable interés a un grupo particular de usuarios; con esto se puede decir que no hay un conjunto de términos indizados “correcto”, para cada documento (Lancaster, opus. cit., p. 8) La sección de los encabezados, también deben ser examinados, ya que constituyen los títulos menores del documento. También las primeras y últimas oraciones, ya que éstos llevan el mensaje de los párrafos. Otros elementos son la historia del tema tratado, que se incluye en el texto; la metodología, las fuentes, cartas, diagramas, gráficas, fotografías y otros materiales ilustrativos pueden ser significativos para el contenido del documento; otro elemento más, son las referencias, porque éstas son indicadoras del contenido y por último los nombres de los autores pueden ser claves para determinar el contenido, especialmente si son reconocidos como autoridades en la materia. De esta manera, al aplicar un término, el indizador debe preguntarse las siguientes cuestiones: ¿Qué cubre el documento? ¿Por qué sería anexado a nuestra colección? ¿Qué aspectos serían de interés a nuestros usuarios? Una vez determinando de lo que trata el documento, los conceptos deben ser identificados y expresados en palabras y debe prepararse una lista de posibles descriptores para desarrollar el siguiente paso, que será convertir dicha lista en una lista aceptada. Si se usa un vocabulario controlado, esto implica usar una lista de autoridad, para hacer la conversión, o sea, traducir los conceptos dentro de una terminología standard, encontrar La forma de asignar términos a un documento es ubicarse dentro de la especialidad de nuestro centro, a más especialización de sus usuarios, la indización va a ser desarrollada a un nivel más profundo, de acuerdo a los intereses del grupo. Los indizadores necesitan conocer más que es lo que significa la indización; ellos deben estar familiarizados con los intereses de la 27 GUÍA DE AUTOAPRENDIZAJE demasiado grande, tan grande como todo el número de palabras significativas usadas dentro del texto. comunidad y sus necesidades de información. Sería deseable, que ellos no trabajaran “atrás de los escenarios”, sino inclusive en el área de Consulta. La National Library of Medicine de los E UA., sigue algunas reglas después de aplicar las etapas en la Indización, éstas son: Los procedimientos de indización conllevan un ahorro de tiempo para el investigador, por lo que su función será indicar la ausencia de registros relevantes a la solicitud. Teóricamente, nosotros podemos encontrar los artículos relevantes en una búsqueda exhaustiva, asumiendo que somos capaces de reconocer lo que es relevante al momento de verlos, dentro de toda la colección. Puesto que esto es imposible económicamente, el tamaño de la colección a ser examinada se reduce a una clasificación que coloca el término dentro de un contexto más general. Ejemplo: el reconocimiento de similitudes útiles entre documentos y el establecimiento de grupos de documentos útiles, basados en estas similitudes. Así, se asignan documentos subrogados, asignados a un número limitado de clases, de acuerdo a cierto criterio en particular, que es la materia que cubren (aunque en la indización a través de computadora, realizando un escaneo completo de todo el texto, éste “número limitado”, la clasificación, puede convertirse en 28 * Consistencia al aplicar las reglas * Imparcialidad, resumida a: todos los conceptos básicos del documento, sin excepción. * Especificidad, antepuesta a los términos genéricos * Multiplicidad, criterio amplio y generoso a la hora de retener todas las palabras clave. * Veracidad, referida a adecuar perfectamente las palabras clave, al contenido, siendo su reflejo exacto. * Criterio, pertinencia y exhaustividad. Debe indizarse todo lo que sea importante y solamente lo que en verdad lo sea. INDIZACIÓN I 2.2 NORMAS DE LA INDIZACIÓN Una norma, nos dice Coll-Vinent (op. cit., p. 42), es un dato de referencia que servirá de base acordada para solucionar problemas repetitivos y que se identifica por las siglas que les asignan las autoridades que la ponen en circulación. En dichas reglas va incluida normalmente la abreviatura correspondiente a la autoridad indicada, la materia de que trata, el número de orden y año de aprobación o revisión”. cit., p. 55) recomienda que “Un análisis debe procurar que surjan los puntos esenciales del artículo o de la obra original”; “destaca sus elementos nuevos y sus conclusiones para que el lector esté en condiciones de decidir si debe o no consultar el original”. Cuando dicho original no se encuentre inmediatamente disponible, el análisis puede ser bastante detallado como para reemplazar la lectura del texto. “La normalización hace posible el intercambio de documentos entre centros de documentación de distintos países y centraliza toda la documentación relativa a un tema determinado lo cual facilita enormemente su búsqueda. El lenguaje normalizado hace posible o menos difícil la homologación incluso y sobre todo cuando los documentos están escritos es distintas lenguas.” El mismo autor nos dice que la NASA aconseja a los autores de resúmenes que presenten junto con su análisis, las preguntas siguientes: -¿Qué es lo que se hizo? -¿Por qué se hizo? -¿De qué modo fue hecho? También se dice que “en una operación eminentemente intelectual como es la de resumir un texto y en la que entra en juego, como factor decisivo, la capacidad analítica y de síntesis del autor del resumen, es difícil dar normas que sean universalmente válidas. Los resúmenes analíticos, se lee en el informe UNISIST (Informe realizado por la organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura y el Consejo internacional de Uniones Científicas, UNESCO /s. a./, citado por Coll-Vinent (op. cit., p. 54), no se presentan tan fácilmente a la normalización. El contenido de los resúmenes solo puede ser tratado con recomendaciones estilísticas y semánticas de carácter general que no implican nada similar a un orden rígidamente estructurado de presentación de datos. Solo la forma y la presentación externa es susceptible de normalización para facilitar el fichaje y la consulta”. -¿Cuáles son los resultados? La OIN (Organización Internacional de Normalización) publicó en noviembre de 1962 una recomendación (Recomendación ISO R 214 Análisis y Resúmenes de autores) con lo siguiente: “un análisis debe procurar que surjan los puntos esenciales del artículo o de la obra original; destaca así sus elementos nuevos y conclusiones”. Es un óptimo ejercicio de redacción que ha de respetar tres objetivos básicos: precisión y lealtad al pensamiento del autor, y simplicidad en la expresión, es decir, brevedad. No hay que transcribir frases y citas del texto que se resume. No valen citas parciales y entresacadas del contexto. Es la manera de traicionar el mensaje y es además una maniobra poco honesta. La concisión se consigue mediante el rigor mental y el vigor de la redacción. La Organización Internacional de Normalización (OIN), nos dice Coll-Vinent, (op. 29 GUÍA DE AUTOAPRENDIZAJE ACTIVIDAD DE APRENDIZAJE Investiga si se han reformado las normas existentes de 1993 a la fecha, qué ha hecho el UNISIST con relación a esto y si existen nuevas normas o nuevos acuerdos. Escribe un reporte y envía a TU ASESOR. 30 INDIZACIÓN I 2.3 ORGANIZACIÓN INTERNACIONAL DE NORMALIZACIÓN (ISO) La norma ISO es un estándar internacional que describe los procedimientos para indizar documentos, la cual nos hace referencia a unas definiciones para entenderlas a nivel internacional. Estas normas ISO indican que la indización consiste en tres fases: a) Examinando el documento y estableciendo esos contenidos de temas. b) Identificando los conceptos principales presentes en el tema. c) de Programa General de Información y recoge las actividades de la UNESCO en el área de información científica y técnica, documentación, bibliotecas y archivos. Estas diferentes acciones se conocen bajo el título de UNISIST y designan el conjunto de métodos, reglas y normas necesarias para la creación de sistemas y servicios de información compatibles y su interconexión en un sistema mundial de información científica. Las normas para indizar un documento están íntimamente asociadas con los procedimientos, sin embargo, Cleveland (Op. cit., p. 100), señala dos aspectos que deben estar presentes al indizar: uno es que no necesariamente el seguir rígidamente las reglas, nos va asegurar consistencia total de aplicación, por todo lo que hemos visto anteriormente, y segunda: que los indizadores no pueden controlar el lenguaje de una materia, así que tendrán que ajustarse a los cambios del mismo dentro de un grupo de usuarios. Lo importante en este aspecto, será el control del uso de esos cambios por los indizadores, siendo deseable que se tenga un registro escrito de ellos, aunque también lo será, considerar que es imposible tener una lista de reglas para cada caso, si esto fuera posible, nos dice Cleveland, el proceso de indización, desde hace mucho tiempo estaría automatizado en su totalidad. Expresando estos conceptos en los términos de lenguaje de indización. Esta norma se utiliza para indizar un documento impreso o no impreso, donde se tiene que realizar una lectura extensa identificando los conceptos que describen el documento pero siempre seleccionándolos de acuerdo al tipo de usuario. Estas normas nos indican que la indización se puede realizar de manera exhaustiva o específica de acuerdo a las necesidades de los usuarios, no existiendo un límite de términos, siempre utilizando los necesarios que representen el contenido intelectual del documento. Nos indican que la persona que realiza la indización debe saber las marcas, significados, pero sobre todo saber manejar las herramientas para indizar, como por ejemplo los tesauros, encabezamientos de materia, así como también es necesario que el indizador tenga la experiencia y cualidades necesarias para realizar este proceso. Por ejemplo, ¿los científicos tienen una diferente apreciación de lo que lo hacen los artistas, o los que trabajan con las ciencias sociales? Las enciclopedias deben ser indizadas de diferente manera que los artículos de periódicos o películas; las diferentes materias tienen formatos, estructuras y usuarios diferentes, haciendo que sea extremadamente difícil poner reglas, al momento de la Indización. También le corresponde un papel importante al UNISIST, que es el programa intergubernamental de cooperación en materia de información científica y tecnológica. Fue creado en el año de 1976 con la denominación 31 GUÍA DE AUTOAPRENDIZAJE Documentation- Methods for examining documents determining their subjects, and selecting indexing terms. analysis of users’ enquiries and their translation, for retrieval purposes, into the controlled terms of an indexing language! and it could function as guidance to abstractors during the preparation of abstracts. It should be borne in mind, however, that although these tasks are analogous they are not identical. Scope and field of application This International Standard describes recommended procedures for examining documents, determining their subjects, and selecting appropriate indexing terms It is restricted to these preliminary stages of indexing, and does not deal with the practices of any particular kind of indexing system, whether pre-coordinated or post-coordinated. It also describes general techniques for document analysis which should apply in all indexing situations, These methods are. however, especially intended for indexing Systems in which the subjects of documents are expressed in summary form, and where concepts are recorded in the Terms of a controlled indexing language. In this context, a controlled language usually refers to a subset of terms selected from natural language, and regulated, for example, by a thesaurus. These methods would apply, however, to Systems in which concepts are represented for retrieval purposes by symbols chosen from the schedules of a classification scheme. This international standard is intended to promote standard practice. A. Within an agency or network of agencies; B. Between different indexing agencies, especially those which exchange bibliographic records. References ISO 2788 documentation, guidelines for the establishment and development of monolingual thesauri. ISO 5964, documentation, guidelines for the establishment and development of multilingual thesauri. The techniques described in this International Standard can be employed by any agency in which human indexers analyze the subjects of documents and express these subjects in indexing terms. They do not apply to agencies which employ those automatic indexing techniques in which terms Occurring in texts are organized into sets or classes according to criteria which can be established by a computer, for example frequency of occurrence and/or adjacency in the text, although the aims of these Systems are the same. Definitions For the purposes of this international standard, the follow definitions apply. Document: any item, printed or otherwise, which is amenable of cataloguing or indexing. Note: this definition refers not only to written and printed materials in paper or microform versions ( for example books, journals, diagrams, maps), but also so non-print media ( for examples machine-readable records, films, sound recordings), and three dimensional objects or realia used as specimens. This International Standard is intended primarily as a guide to indexers during the stages of document analysis and Concept identification. It may also be helpful for the 32 INDIZACIÓN I (for example by stating the form, publisher, date, etc.), although these factors may be included in a subject index if this information would enable a user to determine more accurately whether or not a given document is likely to be relevant to his enquiry. Concept: a unit of thought. The semantic content of a concept can by re-expressed by a combination of other and different concepts, which may vary from one language or culture to another. Subject: any concept or combination of concepts representation a theme in a document. During indexing, concepts are extracted from documents by a process of intellectual analysis, then transcribed into indexing terms. Both analysis and transcription should be performed with the aid of indexing tools such as thesauri and classification schemes. Indexing term: the representation of a concept in the form of either. - A term derived from natural language, preferably a noun or noun phrase, or - A classification symbol. Essentially, indexing consist of the following three stages, although these tend to overlap in practice. Note: an indexing term can consist of more than one word. In a controlled indexing language, a term is designed either as a preferred term or as a non preferred term. Examining the document and establishing its subject content; Identifying the principal concepts present in the subject; Preferred term: a term used consistently when indexing to represent a given concept; sometimes known as descriptor. Expressing these concepts in the terms of the indexing language. Non-preferred term: the synonym or quasisynonym of a preferred term. Each of these stages, together with a section on quality control, is considered below in clauses 5 to 8. A non-preferred term is not assigned to documents but is provided as an entry point an index, the user being directed by an instruction ( for example USE or SEE) to the preferred term; sometimes known as nondescriptor. Examining the document The thoroughness with which a document can be examined depends to a large extent upon its physical form. Two different cases can be distinguished, i.e. printed and non-print documents. Index: ( plural indexes): an alphabetical or systematic listing of subjects which refers to the position of each subject in a document or collection of documents. Printed documents represent the usual case in libraries and information centres where the stock consist largely of monographs, journals, reports, conference, proceeding etc. Ideally, full understanding of these documents depends; upon an extensive reading of the texts. A complete reading is often impracticable, ‘nor is it always necessary, but the indexer should ensure that no useful Indexing: the act of describing or identifying a document in terms its subject content. Operation and purpose of indexing Indexing is not concerned with the description of a document as a physical entity 33 GUÍA DE AUTOAPRENDIZAJE Agencies should establish check lists of those factors which are recognized as important in the field covered by the index. information has been overlooked. Important parts of the text need to be considered carefully, and particular attention should be paid to the following: The questions listed below illustrate general factors which such I a check-list should establish: a) The title. b) The abstract, if provided; c) The list of contents; a) d) The introduction, the opening phrases of chapters and paragraphs, and the conclusion; Does the document deal with the object affected by the activity? b) Does the subject contain an active concept (for example an action, an operation, a process, etc.)? c) Is the object affected by the activity identified? d) Does the document deal with the agent if this action? e) Does it refer to particular means for accomplishing the action ( for example special instruments, techniques or methods)? f) Were these factors considered in the context of a particular location or environment? g) Are any dependent or independent variables identified? h) Was the subject considered from special viewpoint not normally associated with that field of study ( for example a sociological study of religion)? e) f) Illustrations, diagrams, tables and their captions; Words or groups of words which are underlined or printed in an unusual typeface. All these elements should be scanned and assessed by the indexer during his study of the document. Indexing from the title atone is not recommended. and an abstract, if available, should not be regarded as a satisfactory substitute for an examination of the text. Tittles may be misleading; both titles and abstracts may be inadequate; in many cases neither is a reliable source of the kind of information needed by an indexer. Non-print documents, such as audio-visual, visual and sound media. including realia, call for different procedures. It is not always possible in practice to examine a record in its entirety (for example by running a film). Indexing is then usually carried out from a title and or synopsis, though the indexer should be allowed to view or hear a performance of the medium it the written description is inadequate or appears to be inaccurate. These are offered as examples of general factors which are likely to apply in any subject field. Others questions may need to be formulated within a special discipline. The indexer does not necessarily need to represent, as indexing terms, all the concepts identified during the examination of the document. The choice of those concepts which should be selected or rejected depends on the purpose for which the indexing terms will be used. Various kinds of purpose can be identified, ranging from the production of Identification of concepts After examining the document, the indexer should follow a systematic approach to the identification of those concepts which are essential elements in a description of its subject. 34 INDIZACIÓN I printed alphabetical indexes to the mechanized storage of data elements for subsequent retrieval by computer or other means. The identification of concepts may also be affected (as noted above by the item being indexed. For example, indexing derived from the texts of books, journal articles, etc. is likely to differ from that derived from abstracts or synopses The two characteristics of an index most likely to be affected by these matters are exhaustivity and specificity. restates the principal function of indexing. Within this context, the indexer should. Exhaustivity refers to the number of factors (such as those associated with the questions in 6.1) which are represented by the terms assigned to a document by the indexer. a) Choose concepts which would be regarded as most appropriate by a given community of users, bearing in mind the purpose of the index. b) if necessary, modify both indexing tools and procedures as a result of feedback from enquiries. Such modification should not be taken to a point where the structure or logic of the indexing language is distorted. No arbitrary limit should be set to the number of terms or descriptors which can be assigned to a document. This should be determined entirely by the amount of information contained in the document, related to the expected needs of the users of the index. The imposition of an arbitrary limit is likely to lead to some loss of objectivity in indexing, and to the distortion of information which would be of value during retrieval. If it is necessary within a given agency to limit the number of terms, the selection of concepts should be guided by the indexer’s judgment concerning the role of each concept in expressing the overall subject of the document. An indexer who follows the procedures outlined above should be able to identity all the concepts in a document which have potential value for the users of an information system. In some cases two or more themes within the field covered by an index occur independently in the same document. These should be treated separately, and if necessary by different subject specialists. The breadth of interest covered by an index should not be interpreted too narrowly. With the growth of information networks it needs to be borne in mind that the indexing data created initially for one group of users (for example scientists or technologists) could usefully be studied by other groups of users (for example economists) With this potential use in mind, it is recommended that indexers of scientific and technical literature for example, should not overlook other facets of a subject, for example its social or economic aspects. Specificity refers to the extent to which a particular concept which occurs a document is specified exactly in the indexing language. Loss of specificity occurs when a particular concept is represented by a term with more general meaning. Concepts should be identified as specifically as possible. More general concepts ;may be preferred in some circumstances, depending upon the following factors: In selection concepts, the main criterion should always be the potential value of a concept as an element in the expression of the subject of the document and in its retrieval. In making the choice of concepts, the indexer should bear mind the questions, as far as these can be known, which may be put to the information system. In effect, this criterion A. the extent to which the indexer considers that over-specificity might adversely affect the performance of the indexing system. An indexer may decide, for example, that very specific models of equipment may be represented by more general terms 35 GUÍA DE AUTOAPRENDIZAJE such as the name of the maker and perhaps of the family of models, especially ~hen these concepts occur only in the fringe areas of the subject field covered by the index. concepts are represented by classification symbols it needs to be understood that these marks usually indicate a wider or a narrower context (i.e. a main class) which may not be entirely appropriate for the document in hand. B. the weight attached to a concept by the author. If the indexer considers that an idea is not fully developed, or is referred to only casually by the author, indexing at a more general level may be justified. If in indexing language incorporates a thesaurus the number of terms assigned to the document, and the multiplicity of entries, can be reduced without loss, since generic and other a priori relationships can be established directly from the thesaurus itself. When using a thesaurus, the most specific term available should be selected to represent a given concept. Selection of indexing terms When concepts are being translated into indexing terms, the indexer should observe the following practices (see also the annex): Some indexing Systems employ roles, links, weights, etc. The indexer should be familiar with any special rules associated with these mechanisms. A. Concepts which are already represented in the indexing language should be translated into their preferred terms. In practice. the indexer will frequently encounter concepts which are not classification scheme. Depending upon the system in use, there concepts may be handled in various ways, for example: B. Terms which represent new concepts should be checked for accuracy and acceptability in reference tools such as the following: - dictionaries and encyclopedias recognized as authorities in their fields - thesauri, especially those constructed in accord-ante with ISO 2786 or ISO 5964; - classification schemes. a) Expressed by terms or descriptors which are admitted into the index language immediately; b) Represented temporarily by more general terms, the new concepts being proposed as candidates for later addition. Quality control Subject specialists especially those with some knowledge of indexing or documentation, may also be consulted. The quality and consistency of indexing depend upon factors such as: The indexer should be familiar with these tools and their working rules and procedures. In particular, he or she should be aware that these tools may impose certain constraints. For example, a prescribed list of subject headings, or the schedules of a classification scheme, may not permit the exact representation of a concept encountered in a document. if a) the qualifications and expertise of the indexer; b) the quality of the indexing tools. In an ideal situation, the indexing terms assigned to a document and the level of exhaustivity attained’ during indexing should 36 INDIZACIÓN I documents he is indexing. He should understand the terms encountered in documents as well as the rules and procedures of the specific indexing language. be consistently the same regardless of the indexer employed. These factors should, furthermore, remain relatively stable throughout the lifetime of a particular indexing system. It is not always possible to achieve this standard of consistency in practice, but the goal of consistency, and hence predictability, is an important factor in the performance of an indexing system, especially when information is exchanged between different agencies in a network. Agencies handling documents in foreign languages should have recourse to language specialists. Quality of indexing can be achieved more effectively if indexers also have direct contact with users. They could then, for example, determine whether certain terms or descriptors are likely to produce false combinations and so create irrelevant output. Complete impartiality on the part of the indexer is a necessary factor in achieving indexing Consistency. Subjective judgment in the identification of concepts and the choice of indexing terms will inevitably affect the performance of the indexing system. Consistency is more difficult to achieve within a large indexing team, or when indexing is performed by teams of indexers working in different locations, as in a decentralized system. In these situations, a centralized checking stage, with feedback to indexers, is recommended. The quality of indexing also depends upon the hospitality of the indexing language employed. This should freely admit new terms or changes in terminology, and also respond to flew needs of its users. A policy of frequent updating is regarded as essential. Where possible, indexing quality should be tested by analysing retrieval results, for example by calculating recall and precision ratios. The indexer should have adequate knowledge of the field covered by the 37 GUÍA DE AUTOAPRENDIZAJE ACTIVIDAD DE APRENDIZAJE Resuelve la siguiente pregunta con respecto a la norma ISO 5963. 1. ¿cuál es el alcance y campo de aplicación de la norma ISO 5963? Envía a tu asesor 38 INDIZACIÓN I UNIDAD III LENGUAJES DE INDIZACIÓN 3.1 CONCEPTO DE LENGUAJE DOCUMENTAL recuperación de documentos o de la información contenida en los documentos. Dicha recuperación puede llevarse a cabo por diferentes vías: a partir del nombre del autor de la obra, del título o del tema que trate. Georges Van Slype (Los lenguajes...Madrid, 1991), p. 21, nos proporciona dentro del contexto del documentalista, la siguiente definición de lenguaje documental: “... todo sistema de signos que permita representar el contenido de los documentos con el fin de recuperar los documentos pertinentes en respuesta a consultas que tratan sobre ese contenido. El lenguaje documental no se refiere pues, a otros criterios utilizados en la búsqueda documental: autor del documento, lengua del texto, fecha de publicación...” La información que ofrecemos en este manual va destinada a la recuperación en base al contenido conceptual del documento. El procedimiento seguido para conseguirlo con eficacia se denomina indización, que consiste en el análisis e identificación de los conceptos del documento, la selección de aquellas nociones que representen con mayor fidelidad la información que contiene y su traducción a un lenguaje documental. Nos dice que hay dos tipos principales de lenguajes documentales: La principal característica de los lenguajes documentales es el control terminológico, que permite la representación de los conceptos derivados de la indización sin ambigüedades, garantizando el empleo de los mismos términos para expresar los mismos conceptos. Los lenguajes de Indización denominados también lenguajes combinatorios, que permiten representar el contenido de los documentos y de las consultas de forma analítica, es decir enumerando los conceptos y/o palabras. Es posible definir el lenguaje documental desde un punto de vista exclusivamente pragmático, como útil al servicio de la recuperación de información, pero hay que considerar que en su composición intervienen elementos teóricos, pragmáticos y normativos que deben estar presentes en su conceptuali- Los lenguajes de clasificación utilizados más generalmente para representar este contenido, en forma sintética. El objetivo fundamental de todo centro de documentación o biblioteca es facilitar la 39 GUÍA DE AUTOAPRENDIZAJE zación. Hay que tener también en cuenta que, por tratarse de una disciplina en formación, está sometida a los cambios inherentes a su evolución. el lenguaje documental supone la previa existencia de un vocabulario estereotipado antes de comenzar la indización, la cual consiste en tal caso, en traducir el lenguaje natural del autor y acomodarlo al lenguaje documental. Podemos considerar al lenguaje documental como todo sistema artificial de signos normalizados, que facilitan la representación formalizada del contenido de los documentos para permitir la recuperación, manual o automática, de información solicitada por los usuarios. En el lenguaje documental el concepto “reunión de personas que se agrupan...” será representado por un solo término que puede ser una abreviatura o incluso un número de un código. Habrá una sola expresión para traducir el concepto consultado y aumentará en gran medida la seguridad de encontrarlo. Las primeras manifestaciones de los lenguajes documentales datan de finales del siglo XIX, cuando aparecen las clasificaciones bibliográficas. Estas clasificaciones, inspiradas en la lógica y en los sistemas filosóficos del conocimiento, se fundan en el principio de preordinación y son de carácter enciclopédico. El autor menciona (op. cit., p. 71), que el “lenguaje documental es, simplificadamente, un conjunto de términos convencionales que representan el contenido de un documento. Dicho conjunto (descriptores, palabras clave) forma lo que llamaremos un “léxico documental”. Estos léxicos se presentan ya como simples listas alfabéticas de palabra– clave (diccionarios de términos normalizados recomendados para el resumen o la indización de documentos), ya como clasificaciones particulares en las que el sitio de cada palabraclave indica determinadas relaciones semánticas privilegiadas. El concepto moderno de lenguaje documental se consolidó en el siglo XX cuando Cutter introdujo el lenguaje de encabezamientos de materia, basado en los principios de especificidad y de entrada directa, que señala el comienzo del desarrollo de lenguajes documentales especializados. Los lenguajes especializados nacieron como respuesta a la dispersión del conocimiento, que obligó a una creciente especialización de los contenidos. Se crearon múltiples tesauros sectoriales, que resolvieron el problema de organizar los fondos documentales a escala institucional, pero esa misma diversificación trajo consigo un problema de compatibilidad entre los lenguajes y, como consecuencia, entre los centros de documentación y bibliotecas que los utilizaban. El lenguaje documental supone una traducción y hasta cierto punto un artificio (es, de hecho, un lenguaje artificial) y una sofisticación realizada del lenguaje en que está escrito el documento. Algunos autores consideran a la palabra-clave como una expresión típica... del lenguaje documental. Concordando con el autor en su discrepancia, te diremos que la palabra clave, por definición, se extrae del mismo texto y es una palabra que forma parte de él. Otra cosa es el conjunto de palabras-clave o descriptores que forman un Tesauros. Algunos especialistas son de la opinión de que en el proceso histórico evolutivo, se tiende de nuevo hacia el enciclopedismo temático, lo que podría significar un movimiento cíclico en la evolución de los lenguajes documentales. La expresión “lenguaje de Indización”, como también se le llama, es definida generalmente, como todas las palabras permitidas, ya sea para describir un documento específico, o Coll Vinent en su (Teoría y práctica...Barcelona, 1978) p. 62 nos dice que 40 INDIZACIÓN I usuario a los términos controlados, que pudieran ser usados por el indizador. Estos términos indicadores, junto con los permitidos, constituyen lo que se llama “Entradas del Vocabulario”. construir una pregunta, para investigar un documento archivado, acompañado con reglas que describan cómo van a ser usados los términos y qué relación hay entre ellos. En otras palabras, el vocabulario de un lenguaje de Indización, es la lista de palabras permitidas en ese lenguaje de indización; es la serie completa de términos en el lenguaje natural, que son utilizadas en la colección de documentos y de esta manera, son necesarios como claves de entrada al archivo del registro del conocimiento. La lista incluye todos los sinónimos requeridos que son usados en el proceso de indización. Un lenguaje de indización es más que una lista de términos indizados que son aceptables por los usuarios; un lenguaje de indización también contiene mecanismos para estructurar y usar esos términos. El propósito de estructurar esos mecanismos es minimizar la ambigüedad de términos aislados del vocabulario que pueden estar fuera de contexto. En la situación ideal, los mecanismos reducen la oscuridad y redundancia de un vocabulario general, pero que al mismo tiempo, no reducen la eficacia del vocabulario personal del usuario. Esto no significa que todos los términos en la lista puedan ser usados para mantener actualizada la indización de los documentos; algunas palabras sirven para conducir al 41 GUÍA DE AUTOAPRENDIZAJE 3.2 HISTORIA DEL LENGUAJE DOCUMENTAL Para Cleveland (op. cit., p. 3) no hay duda de que la Indización y los resúmenes son tan antiguos como la escritura. En los primeros tiempos la gente de negocio, los escolares, los trabajadores del gobierno, los oficiales religiosos y los literatos, reconocieron la necesidad de organizar el conocimiento escrito que ellos generaban. De tiempo en tiempo esta misma gente propuso sistemas de clasificación y esquemas de arreglo de documentos en las áreas de filosofía, lógica, psicología y matemáticas. tiempo, las obras no literarias empezaron a tener encabezados de capítulos o sumarios, que en un sentido fueron índices de contenido; un ejemplo de esto fue la Biblia de los primeros siglos, a la que posteriormente le hicieron índices y concordancias, pero la Indización en el sentido moderno apareció hasta que el concepto de alfabetización fue desarrollado. Witty, Francis (Early indexing techniques... 1966, pp. 141-148) nos dice que no tuvimos un índice alfabético, sino hasta la Edad Media y en el Vaticano no se vio sino hasta el S. XIV. En la tercera centuria antes de Cristo, el griego Calimaco hizo una lista como guía a la información de los miles de rollos de papiro de la Biblioteca de Alejandría. En este mismo Alrededor del año 900 d. C., al menos una enciclopedia fue ordenada alfabéticamente aunque muchos trabajos de este tipo tenían un arreglo clasificado. 42 INDIZACIÓN I 3.3 CARACTERÍSTICAS Y COMPONENTES DE UN LENGUAJE DOCUMENTAL El lenguaje documental nos dice Blanca Gil Urdiciain (Op. cit., p. 18- 20) “es considerado como objeto de estudio de la lingüística documental, cuyas bases teóricas proceden de ramas del conocimiento tales como la lingüística general, la semántica, especialmente la estructural, la sintaxis o gramática, la terminología u onomasiología, la lexicología y la lingüística textual, entre otras” principales características, que permiten advertir las bases pragmática y normativa en las que se asienta. El lenguaje documental es considerado como objeto de estudio de la lingüística documental, cuyas bases teóricas proceden de ramas del conocimiento tales como la lingüística general, la semántica, especialmente la estructural, la sintaxis o gramática, la terminología u onomasiología, la lexicología y la lingüística textual, entre otras. Esta calidad del lenguaje documental del objeto de la lingüística documental es, sin duda, un fundado argumento en favor del establecimiento de esta como disciplina autónoma, al igual quo el hecho de que tenga su campo definido, todo ello no justifica, sin embargo, la categorización de la Lingüística documental como disciplina independiente. También dice que la principal característica de la ciencia del texto es que respeta el análisis del documento, no se limita a los aspectos lingüísticos sino que tiene en cuenta la materia de referencia, de ahí su interdisciplinariedad.; y se sirve del lenguaje artificial para representar y recuperar la información pertinente del texto, lenguaje que tiene su origen en el proceso de análisis. El principio de funcionamiento de un lenguaje de indización, nos dice Georges Van Slype (Op. cit., p. 22), es la indización coordinada o sea un lenguaje combinatorio, en el sentido de que los conceptos y/o palabras utilizadas para representar el contenido de los documentos, podrán en el momento de la búsqueda documental, ser libremente combinados entre sí para formular las consultas que permitirán recuperar esos documentos. La coordinación entre los elementos que constituyen la indización se hace a posteriori, en el momento de la indización y de la búsqueda, y no a priori, en el momento de la construcción del lenguaje documental, como es el caso de los lenguajes de clasificación. Por este motivo, se dice que la indización a través de un lenguaje combinatorio se efectúa siguiendo el principio de la post-coordinación. Por una parte, el hecho de que el lenguaje documental es anterior al nacimiento de la lingüística documental como disciplina a este respecto, recordamos las palabras de Otlet cuando escribía que no se debe confundir el objeto de una ciencia con la ciencia que trata de ese objeto - por otra parte, no parece posible considerar la lingüística documental, que no es lingüística aplicada y que tiene como campo de estudio el lenguaje artificial, como una rama en formación de la lingüística general, que se ocupa del lenguaje natural. El lenguaje documental, objeto o no de la lingüística documental, tiene conexiones con diversas ramas del conocimiento, entre otras: con la inteligencia artificial, la lógica, y, en la medida en que el proceso documental es un proceso de comunicación, y el lenguaje documental es mediador en ese proceso, se le pueden atribuir relaciones con la teoría de la comunicación y con la teoría de la información. Es evidente, por otra parte, la existencia de influencias de las especialidades mencionadas al comienzo del epígrafe Características del lenguaje documental Previa consideración de las posibles relaciones del lenguaje documental con determinadas disciplinas, examinamos sus 43 GUÍA DE AUTOAPRENDIZAJE (semántica, especialmente la estructural, sintaxis, lingüística textual, etc.) con el lenguaje documental. De entre ellas destacan las que ejercen el estructuralismo lingüístico y la lingüística textual. 3.3.1 Partes componentes del lenguaje documental El lenguaje documental es un lenguaje no natural, aunque utiliza los signos de este. Esos signos adquieren valor semántico por medio de su normalización y de las reglas morfosintácticas que lo articulan. Son precisamente esas reglas las quo le dan categoría de lenguaje. Existen conexiones entre el lenguaje documental y el estructuralismo lingüístico en la medida en que este se ocupa de las unidades mínimas de la lengua, interesándose más por las relaciones existentes entre ellas que por esas unidades en sí mismas. Siendo el lenguaje documental concebido como conjunto de unidades significativas organizadas bajo determinada estructura, es obvio que el método estructuralista puede ser utilizado para la creación de relaciones artificiales entre los términos componentes de ese lenguaje. Sobrevilla a través de Lancaster dice que los elementos que componen un lenguaje de Indización, son los siguientes: Vocabulario es decir, un conjunto dado de términos. Sintaxis (los aspectos propios de la estructura gramatical de los términos que conforman el vocabulario. A finales de los años 60 surge la lingüística textual, también denominada ciencia del texto o análisis del discurso, que supone un cambio total en las concepciones del análisis del lenguaje en su aspecto semántica. Sus precursores Petofi y Van Dijk, centran la atención en el análisis global del texto, a diferencia de las gramáticas precedentes, dedicadas al estudio de unidades menores: palabras o frases. Reglas que guían hacia el conocimiento, control y previsión de los cambios que pudieran darse en el uso de los términos.” Como en los dos primeros elementos, no es necesario explicar, sólo diremos con relación al tercero, que está muy ligado a la sintaxis, aunque aquí se tiende a considerar el “sentido”, la “acepción” y el valor significativo de los términos, a través de su historia. La principal característica de la ciencia del texto es que respeta el análisis del documento, no se limita a los aspectos lingüísticos sino quo tiene en cuenta la materia do referencia, de ahí su interdisciplinariedad. El análisis documental que comparte estas características, tiene evidentes connotaciones con la lingüística textual: en ambas el objeto de análisis es tanto la macroestructura del documento, como sus microestructuras; las dos disciplinas se sirven de la lengua para la desestructuracion textual, con la diferencia de que la ciencia del texto se sirve del lenguaje natural y el análisis documental utiliza el lenguaje artificial para representar y recuperar la información pertinente del texto, lenguaje que al propio tiempo tiene su origen en ese proceso de análisis. Los signos del lenguaje natural son las palabras, que representan nuestro conocimiento de la realidad, el lenguaje documental se sirve de ellas y, en ocasiones, las reemplaza por símbolos cargados de significado preciso de forma que lleva a cabo la representación del documento en virtud de una correspondencia analógica. Esta representación convencional tiene lugar cuando simboliza los elementos constitutivos del lenguaje de descripción (metalenguaje) por medio de instrumentos visuales de representación -la notación simbólica-; este es el caso de los sistemas de clasificación, que por el procedimiento de notación representan ideas de manera unívoca a través de números ordinales. 44 INDIZACIÓN I 3.4 PRINCIPIOS DEL LENGUAJE DOCUMENTAL En razón de su propia naturaleza, el lenguaje documental no puede ser redundante. Si consideramos además sus fines, comprendemos que debe estar dotado de una sencilla organización. lento, como consecuencia, es necesario utilizar la misma palabra para expresar dos o más ideas. Ello da lugar a la homonimia: el mismo término se utiliza en diferentes sentidos en diferentes disciplinas, lo que produce distorsiones en la comunicación. La sinonimia es otro accidente lingüístico habitual en el lenguaje documental, que debe ser reconocido y, o bien eliminado o, preferentemente, controlado. El lenguaje documental, surgido de un proceso selectivo de la documentación, no deja lugar para la reiteración de términos, su eficacia aumenta a medida que la redundancia es eliminada. Por todo ello, este lenguaje debe regirse por el principio de entropía que, como concepto opuesto a la redundancia, se corresponde con la mayor cantidad de información aportada por un solo signo o mensaje. Precisamente el carácter ontrópico del lenguaje documental es lo que le diferencia del natural que, por el contrario, es asimétrico, porque la lengua es fundamentalmente oral y requiere mucha redundancia. La reiteración de significantes se justifica a que por el hecho de que facilita la recepción do los mensajes, a pesar de la interferencia de los ruidos. El lenguaje controlado tiene como misión suministrar la redundancia del lenguaje natural, lo que hay que tener presente en el momento de su elaboración. El lenguaje documental ha de ser unívoco, por ello se llama controlado, no puede permitirse la ambigüedad del lenguaje natural. Derivados de esos accidentes surge la ambigüedad, que crea dificultades estrechamente relacionadas con la aplicación de un lenguaje artificial a la recuperación de documentos. Se trata el ruido y silencio documentales, que se oponen a la relevancia de la indización. Cuando se prepara una frase documental con objeto de recuperar un conjunto de documentos que contienen la información expresada en la frase, aquellos que no se recuperan, aunque existan en el archivo, son los productores del silencio documental, mientras que los que se recuperan sin haber sido solicitados -porque responden solo parcialmente al perfil de búsquedasconstituyen el ruido documental. Solo el logro de la deseable entropía puede evitar estos inconvenientes y facilitar una recuperación eficaz de la información. En comparación con el crecimiento de las ideas, el desarrollo del lenguaje natural es 45 GUÍA DE AUTOAPRENDIZAJE 3.5 FUNCIONES DEL LENGUAJE DOCUMENTAL Al lenguaje documental se le reconoce un carácter mediador en los procesos de resumen e indización al controlar la posible ambigüedad entre términos por la reducción considerable del volumen de términos del lenguaje natural, no tomando en consideración más que los sustantivos o los sintagmas nominales (Gil Urdiciain, op. cit., p. 21)seleccionando de entre ellos un solo término entre dos o más nociones consideradas como sinónimas. lenguaje natural no tomando en consideración mas que los sustantivos o los sintagmas nominales, seleccionando además, de entre ellos, un solo término entre dos o mas nociones consideradas sinónimas. En virtud de estas características, se le reconoce un carácter mediador en los procesos de resumen e indización al controlar la posible ambigüedad entre términos. En la fase de descripción, tras la lectura e identificación de los conceptos contenidos en los documentos, se representan mediante un lenguaje documental, que proporciona un vocabulario unívoco que favorece la coherencia del análisis y permite traducir los conceptos en términos normalizados. Nos dice Gil Urdiciain que Van Slype (Los lenguajes..., op. cit., p. 161) considera que los lenguajes de indización pueden intervenir en seis momentos diferentes del proceso de búsqueda: § Selección de los sistemas documentales que se van a interrogar § Enunciado de los conceptos de la pregunta, en lenguaje natural § Traducción de un lenguaje de indización § Formulación de la ecuación § Extensión asistida por el ordenador § Apreciación final de la pertinencia Su objetivo primordial se cumple, sin embargo, en la segunda fase del proceso, suministrando el vocabulario de los conceptos de la demanda. El lenguaje documental proporciona una base para efectuar búsquedas al nivel de generalidad o especificidad deseados. En este sentido, se le puede considerar un lenguaje intermediario o metalenguaje en la medida en que sirve de puente entre las informaciones contenidas en los documentos y las informaciones solicitadas por los usuarios. El lenguaje documental interviene en dos fases del proceso documental, en el momento de la descripción y en el de la recuperación de la información. El objetivo de dichas operaciones es el de facilitar la recuperación de la documentación reduciendo el esfuerzo y gasto de tiempo del usuario. El lenguaje documental tiene capacidad para representar los mensajes contenidos en los documentos, lo que le permite cumplir dos objetivos fundamentales, el de normalización y el de inducción, estando encaminadas a este último todas las demás funciones que desempeña a lo largo del proceso documental. Además de las mencionadas funciones, el lenguaje documental es de gran utilidad para la ordenación o archivo de documentos. Resuelve igualmente problemas planteados por el multilingüismo, como en el caso de los tesauros multilingües, que sirven de puente a diferentes lenguas, o en el caso de los lenguajes de clasificación, fundados en la simbolización numérica, que los hace independientes de toda lengua y constituyen una escritura comprensible en todos los idiomas, de ahí su fácil empleo internacional. El lenguaje documental reduce considerablemente el volumen de términos del Por ejemplo, un documento cuyo tema sea los métodos de detección de ruido radio46 INDIZACIÓN I eléctrico- galáctico por medio de radiotelescopios terrestres sobre satélites, tendrá una indización, a través de los siguientes descriptores: radiotelescopio; observatorio terrestre; estación especial; detección; ruido radio-eléctrico; galaxia. La recuperación, podrá ser hecha, seleccionando una combinación de cualquiera de los descriptores antes mencionados, por ejemplo: 47 § Radiotelescopio y ruido eléctrico § Estación espacial, radiotelescopio y galaxia § Observación terrestre y estación espacial § Ruido radio- eléctrico GUÍA DE AUTOAPRENDIZAJE 3.6 TIPOS DE LENGUAJE DOCUMENTAL Otro factor importante para definir los tipos de índices disponibles es el arreglo. Casi todos están ordenados alfabéticamente, clasificados o una combinación de los dos e históricamente el arreglo por clasificación ha sido el predominante y es el sistema que predomina en la actualidad. Documentación, Bibliografía y Archivística, para cuyas necesidades de descripción ofrece posibilidades concretas. En relación con el Análisis formal, el Lenguaje documental completa el proceso técnico de catalogación dotando al soporte de la descripción de puntos de acceso temáticos. Van Slype (op. cit., p. 22) nos dice que los tipos de lenguajes documentales, (de indización, o combinatorios), se basan esencialmente en el nivel de normalización de su terminología. Existen diversos criterios de tipificación de los lenguajes documentales, los más generalizados son: el de control, el de coordinación de los términos y el estructural. Dependiendo del control ejercido sobre el vocabulario, los lenguajes pueden organizarse en dos categorías: libres y controlados (figura 1)* La variada tipología del Lenguaje documental le convierte en elemento de apoyo a disciplinas como la Biblioteconomía, Figura 1. Tipología de los lenguajes documentales en función del control ejercido sobre su vocabulario Control Libres Controlados Listas descript. Libres CIasificac, tesauros,... Los lenguajes libres, fundados en el principio de post-coordinación, se componen de un vocabulario no predefinido que se va generando a partir de la realización de procesos de indización. A excepción de las listas de descriptores libres y las de palabras clave, los demás lenguajes entran dentro de la categoría de controlados, que presentan un vocabulario previamente elaborado y que admiten un limitado número de modificaciones en el momento de su utilización. Las listas de descriptores libres, la forma mas habitual de materializar el lenguaje libre, ordenan alfabéticamente cada entrada, sin hacer referencia a las demás, por lo que la búsqueda de documentos que traten sobre varios conceptos debe realizarse por medio de la preagrupación para cada uno de dichos conceptos, de un conjunto tan grande como sea posible de esos términos sinónimos o polisemicos, con el fin de poder recuperar la mayor cantidad de documentos pertinentes. El lenguaje libre se caracteriza por su ambigüedad semántica muy grande, en el cada concepto puede expresarse por una serie de sinónimos y de paráfrasis, y cada palabra puede designar varios conceptos (polisemia). Aunque el lenguaje libre presenta dificultades en el momento de la recuperación de información, aventaja al controlado en lo que se refiere a su utilización en los procesos de indización, al no necesitar, como aquel, traducir los conceptos en descriptores de un tesauro o en las materias que conforman una lista de encabezamientos. * Gil Urdiciain, Blanca. Manual de Lenguajes Documentales. --Madrid : Noesis, 1996. 269p. ISBN 84-87462-24-3 48 INDIZACIÓN I Existe abundante literatura acerca de las ventajas y desventajas que conlleva el uso del lenguaje libro y del controlado. Del análisis comparativo de uno y otro podemos concluir que el lenguaje controlado neutraliza las deficiencias del lenguaje libre y viceversa, por ello muchas bases de datos combinan la utilización de ambos en las distintas fases del tratamiento documental. en que se combinan los elementos que los componen. Si los términos se combinan en el momento de la descripción, el lenguaje será precoordinado, y si lo hace en el momento de la recuperación, se tratará de un lenguaje postcoordinado. Van Slype, con un planteamiento pragmático, denomina lenguajes de clasificación a los precoordinados y lenguajes de indización a los postcoordinados; ambos tipos representan el contenido del documento de forma sintética y analítica, respectivamente. La sistematización de los lenguajes documentales según el criterio de coordinación (figura 2) se realiza en función del momento Figura. 2. Tipología de los lenguajes documentales según el criterio de coordinación. Precoordinados Coordinación Clasificaciones Listas do encabezamientos de materia Listas de descriptores libres Postcoordinados Listas de palabras clave Tesauros mayor capacidad para rechazar los documentos irrelevantes en el momento de la recuperación porque las relaciones que se crean mediante el Algebra de Boole son genéricas y no impiden las tienen las falsas combinaciones. Como contrapartida, los postcoordinados tienen la ventaja de dar respuesta a necesidades de indización reales. En los sistemas precoordinados los términos están unidos de acuerdo con unas reglas sintácticas establecidas por el propio lenguaje. Los postcoordinados carecen de sintaxis: salvo excepciones, su vocabulario consiste en términos simples o unitérminos que se pueden conectar en el momento de la recuperación por medio de una sintaxis booleana. Atendiendo a los procedimientos seguidos para relacionar los conceptos al recuperar la información, podemos concluir que en los lenguajes precoordinados la relación entre los términos es gramatical, mientras que en un lenguaje postcoordinado la relación es lógica. Combinando las características de control y coordinación, Courrier2 la existencia de cuatro tipos principales de lenguajes documentales (figura 3). Los lenguajes precoordinados contribuyen mejor que los postcoordinados conseguir precisión en la búsqueda, es decir tienen 2 49 COURRIER, Y. Analyse et langage documentaires. Doctamentaliste, v.13, n0 5-6 (1976), p.183. GUÍA DE AUTOAPRENDIZAJE Figura 3- Tipificación de los lenguajes documentales, según Courrier Precoordinados Postcoordinados libres Sistema Precis controlados Clasificaciones Sistema Unitérmino Listas de encabezamientos de materia En cuanto a la estructura, se reconoce la existencia de tres tipos; jerárquica, combinatoria y sintáctica. Los lenguajes de estructura jerárquica organizan sistemáticamente el conocimiento es decir, agrupan las materias en áreas categoriales. A la estructura jerárquica responden determinadas clasificaciones en las que la dependencia de un concepto con respecto a otros se refleja por medio de códigos alfabéticos, numéricos o alfanuméricos que facilitan su localización en la estructura arborescente. Tesauros que los componen entre sí, según las necesidades de indización. Los léxicos documentales y los tesauros corresponden a esta categoría, Si bien es cierto que en la organización multidimensional de los tesauros participa también la estructura jerárquica en concreto en la presentación sistemática. A la estructura sintáctica pertenecen los lenguajes que recurren a una sintaxis mediante la cual se pueden representar y poner en relación los contenidos de los documentos. Presentados de forma esquemática, los lenguajes documentales, en función de su estructura, pueden ser: Los lenguajes de estructura combinatoria permiten la libre combinación de los términos Figura 4 Tipología de los lenguajes documentales en función de su estructura. jerárquica Estructura Combinatoria Sintáctica clasificaciones jerárquicas léxicos documentales Tesauros de gramática simple de gramática elaborada El texto de Blanca Gil Urdiciain da un esquema más completo de la tipología del lenguaje documental, que vienen a constituir los sistemas de indización que estudiarás en el siguiente capítulo de esta guía, ahora lo que tú debes profundizar son las características de todas estas herramientas que se utilizan en la indización, por lo que pasaremos a lo siguiente: 3.6.1 Lenguajes naturales de indización Los “Sistemas de términos derivados”, son llamados a veces “lenguaje natural”, o “Indización de texto libre”, porque el sistema permite al indizador seleccionar los términos a ser usados, directamente del texto que va a ser indizado, o en sistemas automatizados, 50 INDIZACIÓN I los términos son seleccionados por la computadora. A este proceso se le llama también “Indización por Extracción”. Desventajas del lenguaje natural.- Aunque existen grandes variaciones en los diferentes lenguajes de indización para bases diferentes de datos, una desventaja la constituye el que las palabras son seleccionadas opcionalmente, por el indizador, y cuando lo está haciendo por primera vez, puede escoger libremente todas las palabras que cree necesario para llegar al significado del contenido del documento. Obviamente los indizadores dependen de su propia experiencia y conocimiento del significado de las palabras dentro del texto; auxiliándose con diccionarios y thesaurus generales para las definiciones. Esto significa que el vocabulario tiende a crecer, acorde a los nuevos documentos que van añadiéndose al sistema; según sean indizados más y más documentos, las definiciones del indizador se amplían o se especifican, de manera que la selección y uso de las palabras, se controlan solamente por un sentido de disciplina, por parte del indizador. Ésta es la función del punto de vista del indizador. Por ejemplo, un general en la armada usará la palabra “base”, en un sentido totalmente diferente que un jugador de béisbol. Lancaster (Indización...,op. cit. p. 200) indica que la expresión lenguaje natural es sinónima de discurso común, esto es, el lenguaje comúnmente utilizado en la escritura y en la conversación, y que es lo opuesto de “vocabulario controlado”; se considera un sinónimo de “texto libre” porque en el contexto de la recuperación de la información la expresión usualmente se refiere a las palabras plasmadas en textos impresos. Un “texto libre” puede estar formado de: La indización con lenguaje natural puede ser empleada en las búsquedas de bases de datos y en la producción de índices impresos. Nos dice J. Rowley (op. cit., p. 89), que existe un debate sobre los méritos relativos en el uso del lenguaje natural y el controlado para fines de indización; una escuela de pensamiento dice que el único camino adecuado para indizar es el lenguaje controlado, mientras que otra escuela prefieren explotar todas las oportunidades que ofrece los sistemas computarizados a través del lenguaje natural, aún sacrificando la calidad de la indización. Según crezca el vocabulario libre, las relaciones entre su expansión y el crecimiento de la colección, es clara. Cuando la colección de documentos es interpretada de forma diferente y no hay ningún control de vocabulario, viene un completo caos, haciendo que el índice se vuelva inútil. Concluyendo entonces, que aunque se utilice un lenguaje natural, éste debe ser controlado de alguna manera, por ejemplo, puede ser relacionado indirectamente a un tesauro. Los indizadores pueden indizar con palabras sacadas directamente del texto, sin seguir estrictamente el vocabulario controlado de un tesauro, pero los usuarios, al hacer una búsqueda, pueden usar un tesauro para encontrar los términos que necesitan, para identificar la información relevante. Para Rowley un primer obstáculo para hablar sobre los lenguajes naturales, es la dificultad para identificar qué es lo que constituye un lenguaje natural de indización. El lenguaje de indización es el de los documentos que son indizados; éste es estático, de acuerdo a como la colección de documentos permanece estática; tan pronto un nuevo conjunto de documentos es anexado a la colección, los términos en el lenguaje cambian, para acomodar los nuevos términos en el nuevo grupo de documentos y aunque una lista de términos pueda imprimirse en cualquier momento para especificar el lenguaje de indización para ese grupo de documentos, pues entonces, tendrán un lenguaje de indización diferente, aunque los documentos cubran la misma área. En los sistemas automatizados de recuperación de información, se diseñan cada 51 GUÍA DE AUTOAPRENDIZAJE día más, las bases de datos que utilizan el lenguaje natural, porque simplifican la tarea de búsqueda y ponen la capacidad en las computadoras. (Cleveland, op. cit., p. 79) Un vocabulario controlado es una lista consistente de palabras que deben seguirse cuando se está indizando; una búsqueda se establece, usando la misma lista de palabras. Una aplicación de la indización a través del lenguaje natural es la producción de índices basados en las palabras de los títulos, como los índices KWIC La meta del vocabulario controlado es mejorar la relación entre el indizador y el usuario; aquél examina el documento, filtra mentalmente a través del propósito del autor; y selecciona los términos del tesauro que representan los conceptos apropiados y las relaciones, como él las interpreta. El usuario aprovecha el índice con esos conceptos y términos personales. La función del mecanismo del tesauro es conducir eventualmente por el mismo camino tanto al indizador como al usuario. 3.6.2. Vocabularios Controlados a) Necesidad de un control de Vocabulario El control de vocabulario trata de superar el problema de los sinónimos y relaciones genéricas, la imprecisión semántica, un vocabulario constantemente cambiando y la variedad del lenguaje; todo esto subraya la necesidad del control de vocabulario. El control de vocabulario es una actividad compleja y uno de los aspectos más importantes de la Indización. Comparándolo con el lenguaje documental, éste supone una traducción y hasta cierto punto un artificio (es, de hecho, un lenguaje artificial) y una sofisticación realizada con el lenguaje en que está escrito el documento. Algunos autores consideran a la palabra-clave como una expresión típica del lenguaje documental. Concordando con el autor en su discrepancia, te diremos que la palabra clave, por definición, se extrae del mismo texto y es una palabra que forma parte de él, otra cosa es el conjunto de palabras clave o descriptores que forman el Tesauro. Dos conceptos que han dudado lugar a discusión, son los referidos a la utilidad del control de vocabulario en lo que concierne a la apropiada inclusión de los términos seleccionados en el índice. Para Cleveland (opus. cit., p. 80), esto constituye la garantía, él la da como “garantía literaria” y la “garantía del usuario”. Un término en un índice de un libro o en una lista de vocabulario controlado, tiene garantía literaria, si hay suficiente literatura sobre el tópico representado por esa palabra. Si existe literatura importante y la palabra no es incluida en la lista de vocabulario controlado, esta materia particular es incluida en la literatura, bajo un término más genérico. La garantía del usuario es un concepto similar, ya que decimos que un término es garantizado, si éste será usado de manera regular por los usuarios del índice en su búsqueda de información. La garantía del usuario es una clave para diseñar un control de vocabulario y requiere que el diseñador conozca como son los usuarios. A continuación damos un repaso general a las características y funcionamiento de los distintos lenguajes documentales y en los siguientes apartados se tratarán aquellos más significativos dentro de cada uno de los tipos mencionados anteriormente. Se presta mayor atención, no obstante, a los que se utilizan más comúnmente en nuestra área geográfica: las Listas de encabezamientos de materias, la Clasificación Decimal Universal y los tesauros. El uso combinado de los dos primeros procedimientos beneficia las tareas de clasificación y recuperación, por ello se utilizan 52 INDIZACIÓN I juntos en bibliotecas. Los tesauros combinan las características de los sistemas anteriores, al concebir en su estructura índices alfabéticos y sistemáticos. indización preparada de antemano y concebida en función de búsquedas hipotéticas. Tanto el lenguaje de unitérminos como el de descriptores -términos compuestos definidos por Mooers como uniconceptos-, están compuestos por listas de conceptos sin más estructuración que la organización alfabética bajo la que se presentan. Son el resultado del análisis de documentos que permiten la descripción posterior de otros materiales. Las listas de descriptores libres no limitan la incorporación de nuevos conceptos. Listas de palabras clave Listas no estructuradas (salvo su ordenación alfabética) de conceptos que han sido seleccionados por métodos automáticos, para describir el contenido de los documentos analizados. El método de determinación de las listas es singular en cada documento de modo que no permiten la descripción de otros materiales. Los partidarios de la utilización del lenguaje libre Chastinet y Salton, entre otros- apuntan la ventaja de su valor informativo intrínseco: se trata a menudo de términos muy específicos y actuales que permiten seguir de cerca la evolución terminológica de un dominio en particular. A esta ventaja añaden otras como el ahorro que supone no tener que elaborar y mantener un lenguaje documental, etc. Sus detractores señalan como principal desventaja la ausencia de control eficaz a causa de la ambigüedad del lenguaje natural. El usuario esta sometido a las variaciones gramaticales de un mismo término y a las expresiones sinónimas de un mismo concepto. Clasificaciones Presentan una distribución sistemática de conceptos en diversas categorías o clases, de tal manera que cada materia tiene un lugar predefinido. Se trata de un lenguaje codificado de forma numérica, alfabética o alfanumérica que pretende ser la descripción sintética del contenido de los documentos. Su utilización es habitual en bibliotecas por su carácter enciclopédico. Se le reconoce como inconveniente su falta de operatividad por la rigidez de su estructura. Listas de encabezamientos de materia Listas de descriptores libres Concebidas en función de búsquedas secuenciales en archivos manuales e informatizados, presentan una estructura asociativa o combinatoria. El reconocimiento del hecho de que los encabezamientos de materias se prestan mal a la recuperación automática, llevó a Taube a sustituir el encabezamiento, compuesto generalmente por elementos unitarios no relacionados entre ellos, por el sistema unitérmino, basado en el principio de postcoordinación, que permite la elección del término de indización en respuesta a necesidades de información reales. Los procedimientos precoordinados, por el contrario, tratan de expresar el tema de un documento de manera clara y precisa, pero el indizador está obligado a aceptar una Un encabezamiento de materia trata de representar el o los temas de un documento con la ayuda de una serie de términos expresados en lenguaje natural y relacionados entre ellos. El encabezamiento procede, por lo tanto, de la preordenación de términos en vista de búsquedas en los ficheros alfabéticos de materias. De hecho, el uso de las listas de encabezamientos se materializa en los catálogos diccionarios que se utilizan en bibliotecas, en donde se realiza una práctica 53 GUÍA DE AUTOAPRENDIZAJE generalizada: la combinación de una clasificación y un catálogo alfabético de materias. Las bibliotecas pueden concebir su catálogo de tal manera que concuerde con su sistema de clasificación. conceptos de que consta la frase según la relación que queramos establecer entre los descriptores. Los lenguajes de estructura sintáctica aparecen en un momento en que no había herramientas para el almacenamiento masivo, lo que los abocó al desuso. Hoy en día existen dos tendencias con respecto a ellos, la de aquellos que no los consideran de utilidad y la de quienes apuestan por un futuro prometedor. Quizás en la actualidad, sin estar sometidos a los condicionantes informáticos y teniendo en cuenta que los sistemas de tratamiento en texto libre se basan en sus mismos principios, y son comúnmente aceptados por la comunidad científica, podría replantearse su aplicación en los sistemas documentales. Tesauros Lenguaje postcoordinado de estructura combinatoria, está constituido por listas estructuradas de conceptos -descriptores- que posibilitan la descripción analítica del contenido de los documentos. El control terminológico en un tesauro es muy alto, y los descriptores se conciben de tal forma que los conceptos de los documentos pueden ser expresados independientemente los unos de los otros. b) Características de un vocabulario controlado Para evitar ambigüedad y alteraciones de sentido, el tesauro se forma en base a uniterminos y descriptores compuestos, ya que la univocidad de ciertos conceptos precisa que el sustantivo vaya acompañado por un adjetivo. Cleveland, (op.cit.,p.80-81), nos da como características las siguientes: Representa la estructura conceptual general de una materia y presenta una guía al usuario del índice. Lenguajes de estructura sintáctica Constituidos por términos susceptibles de conectarse entre si en base a una sintaxis mas o menos compleja que determina la subdivisión de estos lenguajes en sintácticos simples o elaborados. Los términos derivan lo más posible del vocabulario de uso, es decir, reflejan el vocabulario de la literatura y el uso técnico que hace de ellas, el usuario. La precisión es necesaria para la adecuada recuperación Los lenguajes de estas características se fundamentan en el establecimiento de unas reglas gramaticales mas o menos complicadas, que van desde la creación de indicadores de rol, que representan el papel sintáctico de cada descriptor en la frase documental, hasta el establecimiento de sistemas de nexos, que asocian los diferentes Emplea un número considerable de frases precoordinadas para reducir desvíos (false drops) * al mínimo. Por ejemplo, por precoordinación, en el término: “Venetian blinds”, no habrá falsos desvíos de “Blind venetians” en un documento. * Suple un vocabulario estándar controlando sinónimos y casi sinónimos para aumentar la consistencia del vocabulario, ésta es la primera función, además provee un mecanismo que asegura que solo un término de la lista de términos similares será usado para indizar un concepto dado. Los autores sobre el tema utilizan mucho esta palabra, cuya traducción nosotros hemos aplicado como desvíos, a un orden alfabético diferente, muy separado del concepto principal, como lo ilustra el ejemplo. 54 INDIZACIÓN I que las palabras o términos se acepten inmediatamente y sean accesibles tanto al indizador como al usuario. Donde es necesario define términos ambiguos y distingue homófonos. A través de referencias cruzadas muestra relaciones horizontales y verticales entre ellos. Las desventajas de los vocabularios controlados son que los humanos encuentran difícil estar limitados a las definiciones en su lengua nativa o jerga técnica. Esto quiere decir que los hábitos de lenguaje persisten y arbitrariamente las limitaciones impuestas son resentidas por el usuario Es necesario un vocabulario controlado para representar la pregunta del usuario, con los mismos términos que representan el contenido de los documentos, y así reunir semánticamente términos relacionados con lo cual se puede realizar la búsqueda de manera eficiente y efectiva. Controlando sistemáticamente los sinónimos, se maneja la conducta semántica errática del lenguaje natural. El uso inconsistente de palabras, conduce al fallo parcial en la búsqueda, debido a que es poco probable que el usuario seleccione todos los términos que pudieron haber sido seleccionados por el indizador, o escritor y en muchos casos, el usuario seleccionará los términos usados por el indizador, pero entendiéndolos de diferente manera. Un vocabulario no controlado tiene la ventaja obvia de ser totalmente específico y a menudo sustituye un término para representar otros muchos del autor. Como resultado de esto, se han desarrollado muchas formas de vocabularios controlados, como los esquemas de clasificación, las listas de encabezamientos de materia, los tesauros. El principal requisito para un control de vocabulario es la construcción y mantenimiento de un tesauro, lista de términos o una lista de asociación de palabras que hace 55 GUÍA DE AUTOAPRENDIZAJE ACTIVIDAD DE APRENDIZAJE Elabora un cuadro sinóptico, donde señales el concepto de lenguaje documental, características, componentes, funciones y tipos de lenguaje documental. Envía a tu asesor 56 INDIZACIÓN I Cuestionario de autoevaluación 1. ¿Qué es un lenguaje documental? 2. ¿En qué principios se fundamenta el lenguaje documental? 3. ¿Cómo adquieren valor semántico los signos que componen el lenguaje documental? 4. ¿Señale los objetivos fundamentales del lenguaje documental? 5. ¿En qué fases del tratamiento documental resulta esencial el uso de un lenguaje documental? 6. Atendiendo al criterio de coordinación, ¿a qué tipo de lenguaje documental pertenecen las listas de encabezamientos de materia? 7. ¿En qué principio se funda el lenguaje libre? 8. En función de su estructura, ¿a qué tipo de lenguaje documental pertenecen los tesauros? 9. ¿En qué principio se fundan las clasificaciones bibliográficas? 10. ¿Por qué las listas de descriptores libres entran en la categoría de lenguajes postcoordinados? Envía a tu asesor 57 GUÍA DE AUTOAPRENDIZAJE UNIDAD IV SISTEMAS DE INDIZACIÓN Nos dice J. Rowley (Abstracting...London, 1988) p. 53, que en los sistemas, los lenguajes de indización pueden ser empleados para crear un índice u otra herramienta de búsqueda; de esta manera un sistema de indización será un conjunto de procedimientos prescritos para organizar los contenidos del registro del conocimiento con propósitos de recuperación y diseminación. - Lenguajes pre-coordinados, los que realizan la coordinación antes de la indización o durante la indización. - Lenguajes post-coordinados, los que realizan la coordinación de términos en el momento de la búsqueda, es decir después de la indización. Se ha seleccionado esta clasificación entre las distintas que aparecen en la literatura porque es la que se puede vincular más directamente con la indización y, además, para tener un marco de referencia que facilite estudiar los lenguajes. Clasificación de los lenguajes. Se pueden establecer diferentes clasificaciones de los LRI, pero en este texto se clasificarán, de acuerdo con el rasgo diferencial correspondiente la coordinación de los términos del vocabulario, en dos grandes grupos: 58 INDIZACIÓN I 4.1 INDICES POST-COORDINADOS Los términos pueden ser combinados entre sí de cualquier forma en el momento en que se hace la búsqueda. Nos dice Lancaster (Indización y... 1996) p. 31, que “un sistema de recuperación de información que posibilita que una búsqueda combine los términos de cualquier manera es frecuentemente denominado post-coordinado (otros términos empleados han sido postcombinación o manipulativo)”. Se preserva la multidimensionalidad de las relaciones entre los términos. Todo término asignado a un documento tiene igual peso, ninguno es más importante que otro. Los sistemas post-coordinados surgieron en la década de los 40´s, cuando fueron puestos en práctica mediante el uso de varios tipos de fichas. Un sistema computarizado moderno, funcionando en línea, puede ser considerado como un descendiente directo de esos sistemas manuales. El autor nos dice que un indizador necesita tener una forma de registro de los resultados de la operación de la indización y nos dice que hay 4 posibilidades: J. Rowley (op. cit., p. 104), coloca a los índices post-coordinados en los primeros años de la década de los 50´s, concebidos por Mortimer Taube para el manejo de los reportes de investigación de la Agencia de Servicios de Información Técnica de la Fuerza Armada de los E. U. A. La manera como funcionan estos índices, según Lancaster , es la siguiente: 59 § Anotar en el propio documento § Completar algún tipo de formulario impreso en papel, § Grabar en una cinta de audio; o § Completar un formulario que es mostrado en la pantalla del monitor de video en línea. GUÍA DE AUTOAPRENDIZAJE 4.2 INDICES PRE-COORDINADOS En el capítulo correspondiente a “Indices Pre-coordinados”, puedes encontrar ilustraciones de lo que constituyen los diferentes índices, consúltalas por favor, para que se te aclaren conceptos, la referencia es: Nos dice Lancaster (op. cit., p. 42) que “la flexibilidad asociada a los sistemas poscoordinados se pierde cuando los términos de indización son impresos en papel o en fichas catalográficas convencionales. Los índices impresos y los catálogos en fichas son precoordinados y tienen las siguientes características: LANCASTER:, F. W. Indización y resúmenes: teoría y práctica.—Buenos Aires : EB Publicaciones, 1996 Es difícil representar la multidimensionalidad de las relaciones entre los términos. § Los términos sólo pueden ser listados en una determinada secuencia (A, B, C, D, E,), lo cual implica que el primer término es más importante que los otros. § No es fácil (si no completamente imposible) combinar términos en el momento en que se hace una búsqueda. Nos dice el autor (op. cit. p. 59) que “se ha hecho una distinción entre sistemas coordinados y post-coordinados. En realidad, sin embargo, es probable que un sistema de recuperación de información moderno incorpore características de pre-coordinación, así como recursos de postcoordinación. Alguna pre-coordinación posiblemente exista en el vocabulario utilizado en la indización. Por ejemplo, el descriptor CRECIMIENTO DE LA POBLACIÓN, sacado de un tesauro, representa la pre-coordinación de los términos CRECIMIENTO y POBLACIÓN. En algunos sistemas, el indizador tiene la posibilidad de utilizar ciertos términos como subencabezamientos de otros.Así, él puede crear: La desventaja de los sistemas precoordinados se mejora usando un encabezamiento como subencabezamiento. Ejemplo: Mozambique – Relaciones Económicas CRECIMIENTO ESTADÍSTICA o hasta Mozambique – Relaciones Económicas – Sudáfrica DE LA POBLACIÓN / Finalmente, la persona que hace la búsqueda puede combinar términos libremente en relaciones locas, por ejemplo, “recuperar documentos indizados bajo CRECIMIENTO DE LA POBLACIÓN / ESTADÍSTICA y también bajo AMÉRICA DEL SUR”. Pero sería inusual que el catálogo reuniese toda una secuencia de términos; por ejemplo: Mozambique, Relaciones económicas, Sudáfrica, Trabajadores migrantes, Mineros Nos dice también el autor, que “no hay manera por la cual un índice impreso pueda proporcionar, de forma económica, el nivel de acceso a un documento proporcionado por un sistema de recuperación post-coordinado” (op. cit. p. 43); por otra parte, como los términos deben imprimirse uno tras otro en una entrada (esto es, en una secuencia lineal), los índices impresos se rigen por permutación antes que por combinación. Por ejemplo, la secuencia MOZAMBIQUE, SUDAFRICA, no es la misma que SUDAFRICA, MOZAMBIQUE. Algunos métodos para la producción de índices impresos fueron creados para trabajar con textos y especialmente con palabras que aparecen en los títulos de los documentos. Los métodos más comúnmente usados son el KWIC (Keyword in context /palabra clave en el contexto/, KWOC (Keyword out of context /palabra clave fuera del contexto/ y sus variantes, de los que hablaremos en los siguientes capítulos de esta Guía. 60 INDIZACIÓN I 4. 3 SISTEMAS HÍBRIDOS imperfecto, el empleo conjunto de una palabra clave (para obtener especificidad) y un código temático o geográfico (para obtener contexto) constituye un dispositivo extremadamente poderoso. Por ejemplo, la palabra clave plantas puede significar algo enteramente diferente al ser combinada con un código temático relativo a agricultura o al ser combinada con un código temático a alguna industria. Igualmente la palabra clave asalto, asociada al código geográfico para Líbano, puede indicar una operación de militar; cuando es coordinada con el código geográfico Inglaterra, por otro lado, es más probable que signifique un robo. Además el empleo conjunto de códigos de manera genéricos, códigos geográficos y palabras clave, es extremadamente efectivo para aclarar relaciones, aún cuando esas relaciones no estén especificadas explícitamente. Muchas de las bases de datos que están ahora accesibles en redes en línea, son consultadas con el empleo de combinaciones de términos controlados y palabras clave o frases que aparecen en los títulos o en los resúmenes, permitiendo los últimos mayor especificidad.” Los autores que han estudiado sobre búsquedas en texto libre, llegaron a la conclusión de que el sistema de recuperación ideal, sería una parte de términos controlados, así como una parte de texto libre, surgiendo así los Sistemas Híbridos, descritos desde 1966. De todos los estudios que se realizaron con el sistema, se encontró que en las búsquedas en texto libre, se recuperaron algunos documentos relevantes que no habían sido encontrados por búsquedas con vocabulario controlado y viceversa. Nos dice Lancaster (op. cit., p. 223) que “el término híbrido es utilizado para aludir a cualquier sistema que opere sobre una combinación de términos controlados y lenguaje natural, incluyendo aquellos en que ambos conjuntos de términos son asignados por indizadores humanos y aquellos en que una base de datos puede ser consultada mediante una combinación de términos controlados, asignados por seres humanos y palabras que aparecen en los títulos, resúmenes o texto completo.” Dice el autor que “aunque alguno de los elementos del vocabulario, sea relativamente 61 GUÍA DE AUTOAPRENDIZAJE 4.4 INDIZACIÓN POR MATERIA Jacques Maniez en (Los lenguajes... Madrid, 1992) p. 202, nos dice que “la originalidad de los lenguajes documentales estriba en que el repertorio de términos que los constituyen está destinado a la organización de los documentos en función de su contenido. Son pues, instrumentos de características originales, cuya dificultad es esencialmente semántica Los LRI son los lenguajes artificiales que se utilizan para indexar documentos y las solicitudes de información y tienen tres componentes: - Vocabulario. - Sintaxis. - Reglas para su uso. Fases fundamentales de la indización de material. Blanca Gil Urdiciain (op. cit., p. 31-32), nos dice que las listas de encabezamientos de materia corresponden a la clasificación del lenguaje precoordinado, de estructura asociativa o combinatoria. Son listas alfabéticas de palabras o expresiones del lenguaje natural capaces de representar los temas de los que trata un documento. La indización de materia se realizará a través de una serie de tareas que se agrupan en tres fases: “El bibliotecario/documentalista describe en una ficha o asiento los datos significativos de los documentos: autor, título y materia, que constituyen los puntos de acceso a dichas obras. La ficha representa, por lo tanto, un sustituto del documento, que permite su recuperación. 1) Análisis de contenido 2) Traducción de los términos asignados en el análisis de contenido a los términos índices del vocabulario del lenguaje de indización del sistema. 3) Organización del índice A continuación se relacionan las principales tareas en que realizan dentro de cada una de las fases. Para facilitar la búsqueda, el documentalista elabora listas de materias en base a esas fichas, a las que reemplazan y que, provistas de determinados mecanismos de control, se convierten en un léxico capaz de reunir bajo una palabra o frase uniforme, todos los documentos sobre un tema determinado. 1) Análisis de contenido Se revisa el documento para determinar su contenido. Se toma la decisión sobre qué conceptos claves del contenido van a extraer. Se expresan los conceptos claves extraídos en los términos del autor o el propio indizador. La indización de materia o temática es la más importante y la que se estudiará con más detalle en este texto. 2) Traducción de los términos asignados en el análisis de contenido a los términos índices del vocabulario del lenguaje de indización del sistema. No obstante, como en las explicaciones que a continuación se ofrecen hay que hacer referencia a los lenguajes de recuperación de la información (LRI) se ha considerado conveniente adelantar su definición. Se consulta el vocabulario controlado del sistema. 62 INDIZACIÓN I 3) Organización del índice. de contenido? y ¿se puede establecer una continuidad que vaya del resumen a la clasificación, o son dos operaciones claramente diferentes que inciden cada una en un aspecto distinto del contenido?. Se organizan, de acuerdo con la forma que se haya establecido, los términos utilizados para indizar los documentos de la colección y se obtiene el índice de materia. Cada uno de estas fases puede ser un proceso intelectual realizado por el hombre, o puede ser un proceso total o parcialmente automatizado. 4.4.1 Indización alfabética por materias La mayoría de las explicaciones que se presentan en el desarrollo de los primeros capítulos de este libro se relacionan con la intervención directa del hombre y se deja otro apartado para la indización total o parcialmente automatizada. Hay diferentes clases de índices por materia, el arreglo alfabético es el más común, pero éste puede ser seguir un arreglo clasificado, o ser alfabético y clasificado al mismo tiempo, Generalmente, un arreglo clasificado necesitará uno alfabético como suplemento, ya sea en forma separada, o dentro del mismo, para hacerlo más eficiente. Las dos reglas básicas que estableció fueron las de especifidad y de entrada directa. El índice alfabético se basa en los principios de ordenamiento de las letras del alfabeto y se usa para el arreglo de encabezamientos, referencias cruzadas y términos calificadores* así como encabezamientos principales. Todas las entradas están en orden alfabético, incluyendo términos por materia, nombres de autores y de lugares. Aún las fórmulas químicas son colocadas en arreglo alfanumérico. El principio de entrada directa hace referencia a la conveniencia de usar los encabezamientos compuestos por más de una palabra en la forma en que se presentan en el lenguaje natural, evitando la inversión de los términos que lo componen. Por ejemplo, debe utilizarse el encabezamiento ordenación del territorio, no Territorio-Ordenación. Dentro del análisis del contenido documental se encuentra la condensación (análisis) y la Indización que va a llevar a distinguir el contenido informativo, del contenido temático de un documento y el problema aparece cuando se quiere analizar con precisión qué es la Condensación y que es la Indización, porque aunque éstas definidas por las normas ISO 5122 (1979), la norma AFNOR NF Z44-004 (1963) y la norma UNE 50-112; la Indización por la norma ISO 5963 (1985); la norma AFNOR NF Z47-102 (1978) y UNE –50-121, pues los problemas aparecen: ¿se trata de 2 niveles en el análisis Por supuesto debe tomarse una decisión sobre el orden, por ejemplo cuando tratamos de ordenar símbolos, números y al final letras. Ejemplo: 32 106 A AB Zebra * 63 Una herramienta más usada comúnmente en los tesauros. GUÍA DE AUTOAPRENDIZAJE 4.5 INDIZACIÓN POR UNITÉRMINOS demostró que no era confiable, pues adolecía de todos los problemas para cuya solución fueron creados los vocabularios controlados. Contenidos temáticos que presentaban relaciones muy próximas entre sí, aparecían bajo diferentes unitérminos, además como la colección crecía, se incrementaban los errores, porque el vocabulario también crecía, de acuerdo al crecimiento de la colección, por lo que la manipulación del archivo de “unitérminos” se hizo muy difícil de manejar. El primer remedio a esto fue usar un número limitado de términos pre-coordinados, para los problemas más obvios, por ejemplo, poner junto: “Venetian” y “Blinds”, como “Venetian Blinds” y así evitar el desvío de estos dos unitérminos. Este fue el primer paso para el control del vocabulario, su evolución continuó, hasta que a finales de los años 50, el vocabulario se sistematizó y se convirtió en lo que se conoce como “Tesauros”. La Indización por unitérminos se desarrolló en los inicios de los sistemas automatizados de recuperación de la información; son ejemplos de indización en lenguaje natural. El uso de este tipo se basa en la idea de que los autores usan las palabras que conforman la materia bajo discusión; ellos están comunicando directamente al lector en un lenguaje común entendible, como dicho lenguaje es dinámico y constantemente actual, sin ningún forzamiento, el lenguaje artificial puede constituir una comunicación innecesaria y una barrera entre el autor y el lector. (Cleveland, op. cit., p. 79) Los unitérminos son palabras solas o únicas, como ya dijimos, sacadas de los documentos que se están indizando, de manera que le permite al investigador, postcoordinar; estas palabras no son controladas de ninguna forma. Aunque en un principio dicho sistema fue motivador, el tiempo 64 INDIZACIÓN I 4.6 INDIZACIÓN POR DESCRIPTORES deben utilizarse términos que no están incluidos en la lista, se ofrecen, el próximo subepígrafe, las reglas principales con respecto a la forma en que deben presentarse los descriptores. “La indización por descriptores pertenece al lenguaje documental de estructura asociativa. Menos jerarquizado y más flexible que el lenguaje de clasificación. Es un lenguaje que se presenta como un índice alfabético multidimensional cuyos términos se combinan y se complementan entre sí. Es un lenguaje muy apto, como hemos de ver, para las técnicas documentales, basado en expresiones conceptuales llamadas descriptores. Supone una combinación de términos estudiados a priori y que se distingue del léxico UNITERM en que en éste las palabras permanecen aisladas y en la estructura asociativa se establecen continuas combinaciones y asociaciones. Ejemplo: KENNEDY, DALLAS y OSWALD , son difíciles de disociar y colocadas juntas suscitan fácilmente el recuerdo del hecho que protagonizaron histórica y geográficamente. “lo que interesa señalar del descriptor es que ha de ser fruto de un análisis exigente del texto del cual ha sido extraído. La noción que se reputa especialmente expresiva del contenido, puede ser descrita en principio por tantas palabras como sean necesarias para quitar toda la ambigüedad y riesgo de confusión. Pero un descriptor constituido para una retahila* de vocablos difícilmente puede ser el objetivo de una correcta indización. Las ventajas de los descriptores, aparte de que tengan una significación propia y que sea posible establecer entre ellos relaciones semánticas que facilitan en gran manera la búsqueda, son en opinión de Van Dijk y de Van Slype, las de que permiten a los utilizadores y a los documentalistas: La indización con descriptores corresponde a la indización coordinada, es decir a sistemas postcoordinados. Este tipo de indización permite la recuperación multifacético de la información almacenada, lo cual significa que un documento dado o puede indizarse asignándole tantos descriptores como sea necesario para describir todas las facetas u subfacetas expresadas en su contenido. La recuperación se realiza coordinando en la búsqueda los descriptores que representen al producto lógico de la información solicitada y seleccionando los documentos que respondan a ese producto lógico y, por tanto, a la demanda formulada. Encontrar la designación corriente de un concepto partiendo del lenguaje natural. El descriptor es un vocablo entresacado del texto y aunque junto con otros descriptores integra un lenguaje documental (el Tesauro, por ejemplo), no contiene, diríamos ningún elemento de sofisticación. Encontrar los conceptos bajo los cuales un documento puede ser indizado a partir de un descriptor conocido desde el principio. Y hay menos riesgo de falsas combinaciones del que se da en el lenguaje UNITERM. La gran mayoría de los documentos que se utilizan en este libro para las prácticas de indización con descriptores son fichas con resúmenes informativos de trabajos de ciencia de la información, aunque también hay algunos de la rama de la educación. En el apéndice número 2 aparece una, lista de términos de ciencia de la información que Un primer paso al indizar, es el análisis del texto, al hacer esto, el indizador encontrará * 65 “retahila”, Conjunto de muchas cosas que están o van sucediendo por su orden. GUÍA DE AUTOAPRENDIZAJE un cierto número de palabras especialmente expresivas de su contenido. La selección rigurosa de estas palabras es ya una indización. Reglas sobre la presentación de los descriptores En el libro de indización II se explican con más detalle estas reglas. Además, se pueden consultar otras obras para ampliar sobre este asunto. Depurando el vocabulario y eliminando: adjetivos, adverbios, sinónimos, verbos, de manera que queden prácticamente solo los sustantivos (o las expresiones sustantivadas nos lleva a determinar las llamadas palabrasclave (Key words, mots-clé). En este texto solamente se brindarán las reglas más importantes y necesarias. 1. Forma del término Las desventajas del uso de descriptores, como lenguaje natural es la “dificultad de prever el término de las consultas futuras. Una palabra que hoy está cargada de contenido y cuya sola pronunciación evoca multitud de imágenes y de recuerdos aún vivos, mañana puede no suscitar ninguna asociación.” - utilizar, siempre que sea posible, los sustantivos. Ejemplos EVALUACIÓN en lugar de EVALUATIVO - La dificultad expuesta anteriormente, se resuelve, al menos parcialmente, con el reenvío. La expresión reenvío (RT related term) significa el traspaso de un término, en este caso de una palabra clave a otro de parecido. significado, que aparece como más expresivo en un momento determinado o que en cualquier caso extiende el ámbito comprensivo del primero. Hay vocablos que el transcurso del tiempo convierte en obsoletos y que por este mismo motivo dejan de cumplir la función específica de la palabra clave; y hay palabras que tienen fuertes connotaciones en un contexto histórico o geográfico determinado y no significan nada o muy poco en otro contexto distinto. El reenvío a otra palabra más expresiva se impone en ambos casos. No utilizar verbos. Ejemplos PROGRAMACIÓN en lugar de PROGRAMAR; COMPATIBILIDAD en lugar de COMPATIBILIZAR; AUTOMATIZACIÓN en lugar de AUTOMATIZAR. 2. Número del término - Utilizar el singular para términos que expresan conceptos que no pueden contarse por unidades. Ejemplos: nombre de disciplinas (química, física, etc.) ; procesos ( capacitación, política científica), materiales y propiedades especificas (UREA, PUREZA), nombres propios ( LEY DE NEWTON). 66 INDIZACIÓN I 4.7 INDIZACIÓN CON EPÍGRAFES a) La forma de presentación Los epígrafes generalmente se utilizan en las bibliotecas para preparar los índices de materia (catálogos de materia) de las colecciones de libros. b) El contenido a) Por la forma de presentación los epígrafes pueden ser: En el análisis de contenido de los libros al titulo es el elemento mas importante, pero también es necesario consultar otras partes que brindan información esencial para garantizar una mejor indización, tales como las siguientes. - Título y subtítulo. - Tabla de contenido. - Prefacio. - Información de las contraportadas. Epígrafes simples: formados por una sola palabra. Comparación de epígrafes y descriptores. Es conveniente empezar por señalar que los epígrafes, al igual que los descriptores, son términos que se asignan para expresar al contenido esencial de los documentos. La diferencia está en que los epígrafes forman parte de un vocabulario de un lenguaje precoordinado alfabético y los descriptores pertenecen a los lenguajes postcoordinados. Algunos sistemas no establecen esta diferencia. Por ejemplo el MEDLARS ( medical literature análisis and retrieval system) de la biblioteca nacional de medicina de EU tiene uno de los más grandes sistemas automatizados postcoordinados y denomina a su lenguaje MESH ( medical subject Headings) que significa encabezamientos de materia de medicina o epígrafes de medicina. Por razones obvias, en este texto hay que limitar casi la totalidad de los ejemplos y ejercicios a los títulos de los documentos, pero en la práctica profesional es necesario consultar las otras partes señaladas. En este sentido es muy importante que se realicen algunos ejercicios con los propios documentos. Ejemplos de los principales tipos de epígrafes. Los rasgos esenciales que definen las distintas posibilidades de los epígrafes y los descriptores se pueden apreciar sobre el estudio comparativo de los lenguajes. Al estudiar los epígrafes hay que considerar dos aspectos esenciales: 67 GUÍA DE AUTOAPRENDIZAJE 4.8 KEYWORD IN CONTEXT (KWIC) Los índices KWIC se llaman también Permuted listings of terms (Listas de términos permutados), algunas veces referidos como “KWIC Listings” (Listados KWIC). Nos dice Rowley (op. cit., p. 91, que otro tipo de éstos es el KWIT (Stands for Keyword-in-title) Nos dice Lancaster (Indización..., op. cit., p. 47), que el índice KWIC es el método más simple para la producción de índices impresos por computadora. Trabajan con textos y especialmente con palabras que aparecen en los títulos de los documentos; es un índice por rotación, derivado en su forma más común de los títulos de los documentos. Cada palabra clave que aparece en un título, se convierte en un punto de entrada y es destacada de alguna forma, apareciendo comúnmente resaltada en el centro de la página. Las palabras restantes del título aparecen envolviendo la palabra clave. Su eficiencia radica en que cada palabra clave puede ser vista en su contexto. Te incluimos un ejemplo de entradas de un índice KWIC , reproducido de Kwic Index of Rock Mechanics Literature La lista de términos permitidos da acceso a la segunda, tercera, cuarta o cualquier palabra subsecuente en un término múltiple de palabras (multiple word term). Por arreglo alfabético, estas listas permutadas pueden también agrupar diferentes ramas de la misma materia, que pueden ser dispersadas cuando son asentadas bajo su primer palabra. En una lista permutada, cada palabra en un término múltiple de palabras es traída en turno dentro de la posición de acceso. Así por ejemplo, los siguientes términos de dos palabras, serán listados ambas, bajo sus primeras palabras y bajo sus segundas palabras, la parte de la secuencia que muestra las segundas palabras, dará un grupo alrededor de la palabra Chemistry (Química): Nos dice Lancaster (op,. cit. p. 48) que el programa de computación que genera el índice identifica las palabras clave mediante un procedimiento inverso; que reconoce las palabras que no son palabras clave (figuran en una lista de palabras prohibidas) e impide que sean usadas como puntos de entrada. Las palabras de esa lista tienen función sintáctica (artículos, preposiciones, conjunciones, etc.), pero en sí no tienen contenido temático. El índice KWIC es un método barato para proporcionar cierto nivel de acceso temático al contenido de una colección. Es útil en la medida en que los títulos sean buenos indicadores del contenido (por lo tanto, es probable que funcione mejor para ciertos temas o tipos de materiales que para otros), si bien, en principio no hay motivo para que los índices KWIC no sean derivados de otro texto, por ejemplo, frases de resúmenes o hasta secuencias de encabezamientos de materia. Biological Chemistry (Biología química) Inorganic Chemistry (Química inorgánica ) Como ves, esto no se puede aplicar al idioma español, porque la semántica es diferente, por eso te habíamos mencionado lo de la dificultad del idioma que nos llevaría a recomendar que al momento de trabajar con la indización en tu institución, trataras de trabajar tus índices en el idioma inglés, situación que no sería extraña por la universalidad del idioma inglés. Por ejemplo el título Encyclopedic Dictionary of Library and Information Science bajo un índice KWIC está de la siguiente manera: 68 INDIZACIÓN I science, encyclopedic DICTIONARY of library and information information science. ENCYCLOPEDIC dictionary of library and tionary of library and INFORMATION science. Encyclopedic dic clopedic dictionary of LIBRARY and information science. Ency brary and information SCIENCE. Encyclopedic dictionary of Ii- 69 GUÍA DE AUTOAPRENDIZAJE 4.9 KEYWORD OUT CONTEXT (KWOC) El índice KWOC es similar al KWIC, con la excepción de que las palabras clave que se utilizan como puntos de acceso son repetidos fuera del contexto, destacándose comúnmente en el margen izquierdo de la página, o usadas como si fuesen encabezamientos de materia. Un índice KWOC sería entonces aquel en que la palabra clave usada, como punto de entrada, no se repite en el título, pero es reemplazada por un asterisco (*) o algún otro símbolo. El mismo título usado en el ejemplo de KWIC anterior, ahora en un índice KWOC es: dictionary encyclopedic dictionary of library and information science encyclopedic encyclopedic dictionary of library and information science information encyclopedic dictionary of library and information science library encyclopedic dictionary of library and information science science encyclopedic dictionary of library and information science 70 INDIZACIÓN I 4.10 KEYWORD AND CONTEXT /PALABRA CLAVE Y CONTEXTO/(KWAC) Nos dice Lancaster (op. cit. p. 48) que a los índices KWOC se les llama también índices KWAC difiriendo en que la palabra clave se da como si fuese encabezamiento de materia. El mismo título usado en el ejemplo de KWIC anterior, ahora en un índice KWAC es: dictionary of library and information science. Encyclopedic encyclopedic dictionary of library and information science. information science. encyclopedic dictionary of library and information library and information science. encyclopedic dictionary of science encyclopedic dictionary of library and information Índices de sintaxis permutada: Fue desarrollado para permitir un acceso máximo a través de la combinación de todas las palabras claves asignadas en un título. El mismo título del ejemplo en un índice permutado es: library dictionary science encydopedic library information library dictionary science encyclopedic information encyclopedic science dictionary science information dictionary library science encyclopedic information dictionary information encyclopedic library 71 GUÍA DE AUTOAPRENDIZAJE 4.11 TESAUROS O VOCABULARIOS POST-CONTROLADOS Nos dice Georges Van Slype (op. cit. p. 2324) que “un tesauro es una lista estructurada de conceptos, destinados a representar de manera unívoca el contenido de los documentos y de las consultas dentro de un sistema documental determinado y ayudar al usuario con la indización de los documentos y de las demás consultas.” Aclara sus conceptos con la definición que da la AFNOR: Lista de autoridades compuesta por descriptores y no descriptores que obedecen a reglas terminológicas propias, relacionados entre si por relaciones semánticas (jerárquicas asociativas, o de equivalencia). Esta lista sirve para traducir a un lenguaje artificial, desprovista de ambigüedad, las informaciones expresadas en lenguaje natural” (norma N.F 47-100-diciembre 1981). Un Tesauro de descriptores puede ser monolingüe o multilingüe; en este ultimo caso, el Tesauro incluye asimismo, relaciones entre la expresión de los conceptos equivalentes dentro de las diferentes lenguas”. Los tesauros surgieron para resolver los problemas del uso de vocabularios no controlados en la indización y también fueron el resultado de la reacción de los usuarios para que se les diera un servicio más rápido en materias muy especializadas que día con día van apareciendo. Muchos de los conceptos aplicados a los tesauros surgieron de la experiencia de usuarios en los sistemas automatizados de recuperación de la información. Los tesauros, junto con los esquemas de clasificación y los encabezamientos de materia, son “listas de autoridad”, pero tienen características diferentes. Georges Van Slype hace un estudio comparativo de los lenguajes combinatorios libres y controlados, analizándolos desde el punto de vista de su contenido, su tamaño, sus prestaciones y los costos (costes)* . Los conceptos son extraídos de una lista finita, establecida a priori; solo los términos que figuran en esta lista pueden ser utilizados para indizar los documentos y las consultas; la ayuda al usuario la proporciona la estructura semántica del Tesauro: Fundamentalmente las relaciones de equivalencia, de jerarquía y de asociación. Existen dos formas de realizar el proceso de indización. Ejemplos: ¨ Biblioteca ¨ Genérico : Sistema de información ¨ Específico : Biblioteca pública : Biblioteca escolar * ¨ Servicio de documentación ¨ Equivalente : Sistema documental ¨ Genérico : Sistema de Información ¨ Específico : Agencia de resúmenes ¨ Asociado : Base de datos bibliográficos 1. El análisis intelectual hecho por humanos. 2. Algoritmos de computadora. La indización hecha por un individuo se conoce como indización manual, pero ésta es realizada por la mente, no por las manos. La indización realizada por humanos tiende a ser exhaustiva y específica, lo cual facilita la recuperación exitosa. El software de indización, se utiliza no para analizar el texto, sino para facilitar rutinas sobre formatos, copiar el registro según los descriptores o encabezamientos asignados. Los programas En España se utiliza el término ¨costes¨ que en Latinoamérica usamos como costos. 72 INDIZACIÓN I permiten seleccionar e identificar las etiquetas asignadas para recuperar la información. conocimiento experto se representa por reglas, clases, jerarquías, atributos, proposiciones, posibilidades de intervalos. Los resultados de organización del conocimiento se representan en catálogos, índices y las bases de datos, los cuales se utilizan para la recuperación de la información. Los tres ejemplos más comunes de despliegue de lenguaje natural son los llamados KWIC (Key Word in Context), KWOC (Key Word Out of Context), KWAC (key Word And Context), creados por algoritmos por la computadora. La ventaja de los medios electrónicos es la rapidez en la recuperación la flexibilidad en la búsqueda, en la actualización y en la eliminación de los volúmenes físicos (tarjetas) y los costos que implica su impresión. En los catálogos e índices impresos, las búsquedas son fijadas a algunos elementos previamente establecidos y en los electrónicos el acceso es por cualquier palabra o secuencia de palabras. En los Índices KWIC, se crea una entrada separada para cada una de las palabras claves de un texto. Las palabras clave son arregladas en orden alfabético y con texto en ambos lados. Se utilizan palabras solas o frases tomadas del título o del documento indizado. Los índices KWOC fueron diseñados para imitar el formato más tradicional de los índices en los que un término encabeza una entrada. Los algoritmos fueron utilizados para crear los primeros índices automatizados. Las técnicas automatizadas recurren a análisis estadísticos de ocurrencia de palabras en textos (las palabras términos, frases, citas, pueden ser fuente para localización), utilizando sistemas expertos y la inteligencia artificial Para permitir estas operaciones el Los índices KWAC se desarrollaron para preservar las palabras pares y frases y al mismo tiempo presentar el índice en un formato tradicional con un encabezado a la izquierda. 73 GUÍA DE AUTOAPRENDIZAJE ACTIVIDAD DE APRENDIZAJE Para reafirmar el tema te sugerimos contestar el siguiente cuestionario. 1. Menciona cuales son las dos formas de realizar el proceso de indización. 2. ¿Para qué se utiliza el software de indización? 3. ¿Cuál es la ventaja de los medios electrónicos? 4. Menciona cuales son los tres ejemplos más comunes de despliegue de lenguaje natural y menciona qué significa cada uno de ellos 5. Completa con el número que le corresponde en el paréntesis . A) KWIC ( ) Se desarrollan para preservar las palabras pares y frases y al mismo tiempo presentan el índice en formato tradicional con un encabezado a la izquierda. B) KWOC ( ) Fueron diseñados para imitar el formato más tradicional de los índices en los que un término encabeza una entrada. C) KWAC ( ) Fueron utilizados para crear los primeros índices automatizados. D) KWEC ( ) Se crea una entrada separada para cada una de las palabras claves de un texto, estas palabras son arregladas en orden alfabético y con texto en ambos lados. Se utilizan palabras solas o frases tomadas del título o del documento indizado. Envía a tu asesor 74 INDIZACIÓN I ACTIVIDAD DE APRENDIZAJE Realiza la lectura de los textos que se muestran a continuación, y realiza un resumen identificando cuáles son descriptores y términos que ayuden a identificar el texto. Básate en el siguiente cuadro: Temas que trata unitérminos Encabezamientos de materia Envía a tu ASESOR 75 tesauros GUÍA DE AUTOAPRENDIZAJE La competencia que viene3 Por Ernesto Priani Saiso [email protected] Buena parte de los desarrollos tecnológicos actuales están enfocándose precisamente a la administración del conocimiento. Es decir, a la administración de todos esos recursos de información, para ponerlos disponibles a aquellas áreas y personas que pueden transformarlos en elementos competitivos dentro de la empresa. primer consumo. En suma, las empresas podrían saber con certeza mayúscula cuales son los hábitos de comprar de sus consumidores. Pero ocurre que no utilizan esa información. La razón es simple: esta disgregada en distintas partes de la empresa y no se tiene reunida para llevar acabo el análisis específicos por parte de las áreas de estrategia comercial. Tampoco esa información llega a las áreas de servicio a cliente, para convertirse en un instrumento de venta posterior; es decir, si bien la información existe, no está a disposición de los personas correctas , de la forma más adecuada, para que puedan utilizarla de manera eficaz para obtener un mejor servicio a los consumidores, desarrollar una planeación de negocios con más sustento, administrar de mejor manera los inventarios a la producción, en fin, a la que no se le saca provecho. A cualquier empresario le gustaría tener una bola de cristal en la que pudiera adivinar cual será la siguiente compra que realizarán los consumidores. Esto, como la inservible alarma sísmica en la ciudad de México, sería un instrumento fantástico si funcionara, para tomar las providencias necesarias antes del sismo o, en el caso del empresario, preparar su estrategia de venta, diseñar nuevos productos, en fin hacer lo necesario para satisfacer esta nueva demanda. Obviamente, no existe nada que permita adivinar, sin errores, el pensamiento de los eventuales compradores. Pero lo que si existe es un enorme conocimiento sobre hábitos de compra de los consumidores. Y es un conocimiento con el cual muchas empresas ya cuentan, aunque no lo utilicen y que muchas otras pueden desarrollarlo en menor tiempo, lo que en buena medida los coloca en igualdad de circunstancias, en ese aspecto, dentro del mundo competitivo de hoy. Imaginémonos ahora una empresa que está naciendo pero que no ha decidido dar una especial importancia a la administración del conocimiento. Un ejemplo podría ser un amazon.com o ectoys.com., cuyo negocio corre integradamente sobre web. Si se han efectuado compras en estas empresas, pronto se caerá en la cuenta de que hay un conocimiento permanente de los hábitos de comprar de los consumidores. Si elige un juguete para una edad específica que requiere baterías, por ejemplo, se ofrecen las baterías apropiadas, además de otros juguetes que tienen el mismo En la mayoría de los casos, las empresas llevan un registro de aquello que venden y que incluye datos relativos a las personas o empresas que hace la compra. Al mismo tiempo, si esa misma persona o empresa hizo compras posteriores, es factible que además tenga conocimiento de qué es lo que más necesitan después de haber efectuado su 3 76 La competencia que viene, por Ernesto Priani Saiso, Tecno-educación no. 3 noviembre-diciembre, 1999, Págs. 12 INDIZACIÓN I trabajando sobre todo en materias de procesos y gestión de información, como el caso notable del comercio eléctrico, pero también de los dashboard o tableros digitales y de las aplicaciones hechas ala medida para administrar conocimientos perfil con el que se adquirió. Después de un tiempo se recibe la información sobre juguetes similares y otras opciones de comprar. En el basen se lleva el registro de las compras que el consumidor hace, las estadísticas de salidas de los productos, las relaciones de ventas, y toda esa información se pone a disposición de los distintos miembros de la empresa En otras palabras, esta competencia que viene basada en una gestión inteligente de la información, cuya máxima en adelante serán las necesidades y deseos del mercado , así de fácil y así de difícil. Buena parte de los desarrollos tecnológicos actuales están efectuando precisamente a la administración del conocimiento. Es, decir a la administración de todos esos recursos de información para ponerlas disponibles en aquellas áreas que pueden adminístralos en elementos competitivos dentro las empresas, se está Sin embargo, hay toda vía dos problemas cruciales: la cultura y la educación. Cultura en el sentido de dar valor al conocimiento que se genera, para transformarlo en una ventaja frente a la competencia; y educación para encontrar, dirigir y usar la información. Es decir, se están generando los instrumentos, pero hace falta que alguien les acerque provecho En cualquier caso, en la competencial del futuro, aquel que sepa construir una empresa inteligente y utilice las herramientas que están creando, tal vez alcance a anticipaciones a los dueños de los consumidores 77 GUÍA DE AUTOAPRENDIZAJE Como leer (mejor) en voz alta4 Una guía para contagiar la afición a leer FELIPE GARRIDO que dice puede ser adaptado para servir a quienes se inician como lectores en la edad adulta. Nada más provechoso puede hacerse para mejorar en todos sus órdenes de vida nacional que multiplicar los lectores, fomentar la afición a leer diarios, revistas y, sobre todo, libros. Tarea enorme y difícil en la que mucha gente trabaja y que no puede llevarse a cabo en poco tiempo. Para redactarlo se han aprovechado sugerencias y lecturas, inspiraciones y estudios de escritores, editores, bibliotecarios, promotores, investigadores y maestros. Será injusto no reconocer y agradecer la participación directa o a través de sus publicaciones de, por lo menos, en estricto orden alfabético, Jesús Anaya Rosique, Ana Arenzana, Juan José Arreola, Alejandro Aura, Richard Bamberger, Gabriela Becerra, Gloria Elena Bernal, Gerardo Ciriani, Mireya Cueto, Isabel de la Mora, Alfonso de Maria y Campos, Aureliano García, Carmen García Moreno, Ricardo Garibay, Daniel Goldin, Pilar Gómez, Javier Guerrero, John Man-fling, Carlos Monsivais, José Emillo Pacheco, Carlos Pellicer López, Sebastián PLA, Elena Poniatowska, Becky Rubinstein, Rene Solfs, Elias Trabulse, Arturo Trejo Villafuerte, Jim Trelase y Gabriel Zaid. Este folleto expone algunos argumentos en favor de lo que es el método más eficaz para formar buenos lectores: la lectura en voz alta. Asimismo, ofrece una guía para mejorar esa actividad y facilitar la orientación de las primeras lecturas. Está dirigido básicamente a los padres y a los maestros, que son quienes pueden trabajar con más provecho en la formación de lectores, pero también podría auxiliar a los coordinadores y promotores de Rincones de Lectura, grupos, clubes, centros y talleres de lectura que se formen en escuelas, bibliotecas, casas de la cultura, centros deportivos y de trabajo y cualquier otro lugar donde haya gente que quiera leen. Está escrito atendiendo en primer lugar a las circunstancias de los niños, pero casi todo lo 4 78 Garrido, Felipe. “Como leer (mejor) en voz alta: una guía para contagiar la afición a leer”. En libros de México. no. 46 (ene-mar), 1997. p. 11-19 INDIZACIÓN I Felipe Garrido Centro de Enseñanza para Extranjeros, UNAM Rincones de Lectura, SEP En los últimos años, la mayor parte de los mexicanos ha sido alfabetizada; es decir, ha aprendido a leer y escribir, al menos en forma rudimentaria. En la actualidad, sin embargo, unas doce o trece de cada cien personas mayores de ocho años todavía son analfabetas. Eso significa que, en principio, hay mas de 60 millones de mexicanos capaces de leer y escribir. complicados, donde deberá poner mas esfuerzo, más atención. ¿Qué es leer de a de veras? ¿Quién es un lector auténtico? En primer lugar, es alguien que lee por voluntad propia, porque sabe que leyendo puede encontrar respuestas a sus necesidades de información, de capacitación, de formación, y también por el puro gusto, por el puro placer de leer. Los lectores habituales, sin embargo, son pocos, y los lectores de libros son todavía muchos menos. Relativamente, abundan quienes leen diarios, revistas, fotonovelas, historietas... Se calcula que unos doce millones de personas suelen comprar esta clase de publicaciones. ¿Qué significa el gusto, el placer de leer? Significa que se ha descubierto que la lectura es una parte importante de la vida; que la lectura es una fuente de experiencias, emociones y afectos; que puede consolarnos, darnos energías, inspirarnos, significa que se ha descubierto el enorme poder de evocación que tiene la lectura. Que alguien lea por puro gusto, por el placer de leer, es la prueba definitiva de que realmente es un buen lector, de que tiene la afición de leer. En cambio, se estima que hay apenas poco más de medio millón de compradores de libros. ¿Es malo leer fotonovelas o historietas? No. Lo malo es que alguien no sea capaz de leer nada que vaya más allá de las fotonovelas y las historietas; que no tenga la costumbre de leer un texto más o menos largo, de páginas completas, en lugar de las frases elementales de los globitos, donde no hay espacio para profundizar en las ideas, en la información ni en la naturaleza de los personajes. Hay más de catorce millones de niños en primaria que cada día tienen en las manos por lo menos el libro único de texto. Hay millón y medio de estudiantes de nivel superior si incluimos uno y otro extremos, hay en total unos veintitrés millones de estudiantes que leen y consultan muchos libros de texto. Estas personas, ¿no son lectores? Quien está tan acostumbrado a leer solo fotonovelas, historietas y otras publicaciones por el estilo, que no puede leer textos más extensos y complicados, en realidad nunca ha aprendido a leer de a de veras. En realidad, la mayoría de ellos no lo son. Casi siempre los libros de texto se leen solo por obligación, y por lo mismo se leen mal, sin comprenderlos bien, sin que cumplan con su función mas importante, que sería abrir nuevos horizontes. Por eso la mayoría de los estudiantes, aunque pasen muchos años en la escuela y consulten o lean muchos libros de texto, finalmente no se convierten en lectores auténticos. Leer de a de veras es una tarea que ocupa toda la vida; siempre es posible ser un mejor lector. Cada persona hace, por decirlo así, su propia carrera de lector: comienza con textos sencillos y, poco a poco, a medida que vaya haciendo más lecturas, tendrá el deseo, la necesidad, de ir leyendo textos más Además, al salir de primaria la mayor parte de los niños no tienen libros ni revistas en su 79 GUÍA DE AUTOAPRENDIZAJE casa, ni están acostumbrados a conseguirlos en una biblioteca, de manera que difícilmente pueden seguir leyendo. Para lograr una buena lectura hace falta seguir, sentir y comprender el texto no por palabras sueltas, sino combinando las frases, los párrafos, las secciones o capítulos en unidades de significado cada vez mas amplias, hasta ligar a la comprensión de una obra en su totalidad. Un lector ya formado realiza esta operación de manera inconsciente, pero los lectores que comienzan y los que todavía no son suficientemente expertos necesitan ayuda para acostumbrarse a reconocer las unidades de significado. En consecuencia, pocos estudiantes llegan a leer bien y a aprovechar bien lo que estudian. Pueden repetir las palabras del texto, pueden memorizarlas; pero no pueden comprender ni sentir lo que leen. No han aprendido a relacionar la lectura con sus experiencias y sus emociones. Leen solamente de afuera hacia adentro; no han aprendido a invertir el proceso y leer también de adentro hacia afuera. Y esta es la segunda condición para que alguien sea un lector auténtico: debe entender y sentir lo que lee. Se mejora la lectura cuando se aprende a dar sentido a mas palabras y frases, a mas noticias, sentimientos, emociones e ideas; es decir, cuando se aprende a reconocer con mayor rapidez y profundidad unidades de significado. Esto se consigue al hallar esas palabras y frases, esas noticias, ideas, sentimientos y emociones muchas veces, en contextos diferentes, y a reconocer en ellos conocimientos y experiencias que ya se tienen, ya se han pensado, sentido y vivido. Debe estar acostumbrado a leer de tal manera que no simplemente pase los ojos por encima de las palabras, sino que establezca con la página escrita una relación suficiente para no dejar ninguna duda, para vincularse intelectual y emotivamente con el texto. ¿Cómo puede aprenderse a leer de esta manera? Hay un solo camino: se aprende a leer leyendo. Las habilidades que necesita el lector se forman con la propia lectura. La enseñanza de la lectura no puede reducirse a la simple alfabetización, a la mera adquisición de la habilidad de reconocer las letras y las palabras; debe incluir et desarrollo de la capacidad de entender y sentir el texto, así como de la afición a la buena lectura. Solo quien lee mucho llega a ser buen lector. Los conocimientos, las expectativas y las experiencias de cada persona desempeñan un papel decisivo en esta tarea. Para cada lector, la lectura de un mismo texto se vuelve algo personal. Mejorar la lectura aumenta la capacidad de aprendizaje, favorece el desarrollo del lenguaje, la concentración, el raciocinio, la memoria, la personalidad, la sensibilidad y la intuición. Mejorar la lectura nos muestra la diversidad del mundo y hace mas amplios nuestros horizontes. Mejorar la lectura nos ayuda a vivir mejor. El lector auténtico se reconoce porque lee por su propia voluntad, porque comprende y siente lo que lee, porque le gusta y necesita leer. Leer significa adquirir experiencias e información, ser activo. Se lee atribuyendo a los signos escritos o impresos un sentido; se lee organizando las palabras, las frases y la totalidad de una obra en unidades de significado. Por otra parte, este proceso contribuye enormemente al desarrollo de las facultades del intelecto, las emociones y la imaginación. ¿Cómo pueden formarse buenos lectores? solo si las personas aprenden a leer por su gusto y voluntad; si se aficionan a leer; si logran descubrir que la lectura es, antes que nada, una actividad gozosa, un medio que nos ayuda a entendernos y a entender a los demás. Entonces leerán mejor y podrán recibir los 80 INDIZACIÓN I beneficios de la lectura misma, podrán estudiar, informarse, gozar... Leerán mejor con cualquier propósito y aprovecharon plenamente sus lecturas. Padres, maestros, bibliotecarios y promotores deben conocer las habilidades, gustos y antipatías de sus hijos, alumnos y compañeros, para saber qué deben leerles: deben contar con una variedad de materiales de lectura y tener acceso a un acervo de libros o a una biblioteca apropiados; estar conscientes de sus fallas y de sus logros; trabajar intensamente para hacerse cada vez mejores lectores. Es decir, también ellos deben leer todos los días y buscar que sus lecturas sean cada vez de mayor calidad. ¿Puede sustituirse la lectura con otras actividades? No. Porque la lectura no es solamente una manera de adquirir conocimientos e información; la lectura es un ejercicio de muchas facultades: la concentración, la deducción, el análisis, la abstracción, la imaginación, el sentimiento. Quien no lee deja de ejercitar estas facultades, y no solamente las va perdiendo, sino que también deja de tener muchos buenos ratos. Si usted tiene hijos pequeños o alumnos o puede formar un grupo de lectura, busque un libro fascinante y comience a leer en voz alta usted mismo. Podrá ayudarlos a convertirse en lectores. Reforzara sus lazos de afecto e interés. Tendrá una actividad interna y amistosa con ellos. Tendrán un poderoso instrumento para reforzar Ia unidad de su farnilia o de su grupo. No tendrá de qué arrepentirse. Lo menos que usted puede hacer, si no tiene otras personas con quien leer, es ocuparse de su propia carrera de lector. Casi todo lo aprendemos por imitación: caminar, hablar, leer, echarse clavados o jugar dominó. Si los padres y los maestros leen en voz alta con sus hijos y con sus alumnos; Si los promotores de Rincones de Lectura y de clubes, centros y talleres insisten en esta práctica, les inculcarán a quienes los escuchan, por imitación, Ia curiosidad, el interés, el cuidado, el amor, el gusto por Ia lectura. La lectura voluntaria, la lectura por gusto, por placer, no se enseña como una lección, sino se transmite, se contagia como todas las aficiones. La lectura por gusto se contagia con el ejemplo; leyendo en voz alta. Hay que leer en familia, en la escuela, en la biblioteca, en los lugares de trabajo, de reunión. Hay que leer con la gente que uno quiere y aprecia, en voz alta, por el puro placer de hacerlo. Si los padres leyeran a sus hijos quince minutos cada día; Si los maestros leyeran a sus alumnos quince minutos cada día no para estudiar, sino por gusto, por divertirse; Si lográramos fundar muchos Rincones y talleres de lectura para niños, para jóvenes y para adultos, en todo el país; Si consiguiémos aumentar drásticamente el número de lectores auténticos en México, produzcamos la más importante revolución educativa, cultural y social de nuestra historia. Mientras más temprano entren los niños en contacto con los libros, mejor. Ningún niño es demasiado pequeño para jugar con los libros ni para escuchar lo que se le lea. Nada tiene de malo que los niños jueguen con libros; lo más importante es que se familiaricen con ellos. En todo caso, hay que cuidar que libros se ponen en sus manos. Para leer con los hijos, con los alumnos, con los amigos, con los compañeros de trabajo, hace falta que los padres, los maestros, los bibliotecarios, los promotores de clubes, centros, grupos y talleres de lectura sean ellos mismos lectores, que están interesados en comunicar su gusto por Ia lectura, y dispuestos a dedicar ganas y tiempo a esta actividad. Conviene que los niños muy pequeños se acostumbren a escuchar la voz de los padres y maestros, pues así desarrollaran una actitud 81 GUÍA DE AUTOAPRENDIZAJE positiva hacia los libros. Asociarán la lectura con un momento de calma y seguridad en que se encuentran rodeados de cariño y atención. La lectura en voz alta puede ser una forma de caricia y de arrullo. No presione a los niños ni les pida que estén quietos o callados; permítales reaccionar a Ia lectura; también en Ia escuela pueden reírse o asustarse o asombrarse. Permítales expresarse. Déjelos hablar y escribir si quiere, deles papel, lápices, piezas de madera para que estén ocupados durante la lectura. El arte de escuchar y de comprender lo que se escucha se desarrolla con el tiempo. No espere resultados de un día para otro. Hay más de tres millones de niños que asisten a centros de educación preescolar todos los días, estos niños deberían estar en contacto con libros y con otros materiales impresos, en la escuela y en el hogar lea con sus hijos o con sus alumnos o sus compañeros libros que le interesen y le gusten, y que usted intuya que pueden entretener y gustar a sus hijos o a sus alumnos de inmediato, Sin complicaciones. Si un libro le aburre a usted, o a los demás es probable es que fastidie también a los niños y a los lectores menos experimentados. Empiece leyendo textos cortos y vaya amarrándolos poco a poco para que aumente la capacidad de atención de quienes no escuchan. Cuando llegue a libros más extensos, lea una parte por día hasta terminarlos. No empiece a leer una obra sin conocerla; podría suceder que a media lectura descubra que no es suficienternente interesante o que resulta inconveniente para determinado grupo. Si finalmente un libro termina por ser aburrido, déjelo de lado. La lectura debe ser, sobre todas las cosas, una ocupación gozosa. No tema experimentar con otros libros que usted crea interesantes. Lea en voz alta a sus hijos o a sus alumnos con la mayor frecuencia posible. Lo ideal es que la lectura, como las comidas, sea todos los días. En los Rincones, los talleres y los grupos de lectura las sesiones deben ser al menos una vez por semana, pues la repetición, la frecuecia de una actividad es lo que va formando un hábito, una afición. Trate de dar expresión a la voz, para que se comprenda el sentido de la lectura. Dramatice un poquito los diálogos. Ajuste el ritmo a la acción de la historia. Subraye ligeramente los sentimientos expresados. Siga el sentido que marcan los signos de puntuación. En los momentos más emocionantes, lea más despacio o más de prisa, sin que haga falta, para crear una atmósfera de suspenso y acrecentar el interés. Ajuste el ritmo, el tono y el volumen a las necesidades del relato. No tenga prisa por terminar. (Es posible que, al principio, todo esto le cueste trabajo. No se desespere. Siga leyendo en voz alta. Como práctica, cada ves lo va a hacer mejor. Trate de establecer un momento fijo para la lectura en voz alta. Después de Ia merienda o antes de dormir, en Ia casa. Al comenzar o al terminar Ia jornada, en la escuela. El tiempo de lectura se ira convirtiendo en un momento especial, previsible y esperado. Leer juntos, comentar lo que se lee, ayudar a todos a comprender las lecturas y a expresarse. El gusto por Ia lectura no es un problema exclusivo de los maestros de español ni de literatura. Es una oportunidad y una necesidad de todos los maestros y de todos los padres de familia, porque casi todo lo aprendemos leyendo. El gusto por Ia lectura no es un problema exclusivo de las mamás y de las maestras. Los niños necesitan asociar la lectura también con los papás y con los maestros Para dar la entonación, el volumen y el ritmo que cada lectura necesite, lo más importante es haberla comprendido. Con las inflexiones 82 INDIZACIÓN I de la voz, con las pausas, con el ritmo se le da intención a la lectura y se hace comprensible el texto. preocupaciones y problemas, que les permitan identificarse con los personajes, proyectar sus propios deseos y esperanzas. Libros que se ocupen de explorar las necesidades fundamentales de los seres humanos compañía, seguridad, amor-, que provoquen emociones, ofrezcan experiencias y ejerciten el intelecto. Siempre que salga, tenga un libro a la mano, sobre todo si va con niños. Los viajes, las salas de espera, los transportes públicos, las colas pueden ser lugares y ocasiones propicios para leer. Una persona alfabetizada -niño o adulto puede repetir cada palabra de una pagina sin entender lo que dice, como sucede cuando leemos sobre una materia o en una lengua que desconocemos. Esa clase de lectura desalienta a cualquiera y no sirve de nada. Ponga el ejemplo. Si a los demás les gusta leer, lo imitaran; aprenderán a tratar los libros, a leer con sentido, a compartir su interés, su entusiasmo y su curiosidad. Aprenderán a hablar y a escribir sobre lo que escuchan y lo que leen. Responda con buen ánimo y detalladamente toda pregunta que suscite la lectura. Muchos niños -y adultos- no leen libros porque los primeros dos o tres que trataron de leer fueron demasiado difíciles para ellos. La influencia del ambiente familiar y escolar es decisiva para los intereses de los jóvenes. Es muy importante Ia cantidad y el tipo de libros a que tiene acceso el niño. Mientras mayor sea Ia variedad, mejor para ellos. La lectura de obras literarias ejerce una gran influencia en el desarrollo del lenguaje; es el único medio para formar el buen gusto de los lectores, y un recurso invaluable para explorar y conocer, en su sentido más amplio, la naturaleza de los seres humanos. Muchos niños -y adultos- no leen libros porque no saben leer bien, porque no entienden lo que leen; y no pueden leer bien ni entender lo que leen porque no van leyendo suficientes libros. Hay que romper este circulo vicioso ayudándolos a que encuentren lecturas a su alcance, que tengan interés y sentido para ellos. Leer es un modo de madurar fisiológica y culturalmente. Los libros más difíciles no forman los mejores lectores Si no se leen a su debido tiempo. Los mejores lectores son los que han leído más libros, en un camino de superación, leyendo materiales que tengan cada vez mayor calidad. Los mejores lectores son quienes han tenido mayor oportunidad para disfrutar libros suficientemente accesibles, que les han dado más confianza y seguridad. Esos lectores ya se irán ocupando de libros cada vez más difíciles. En ningún lugar el lenguaje se utiliza de manera más amplia, más rica, más compleja, más llena de significados que en las obras literarias. Un lector que no disfruta los cuentos, las novelas, los ensayos, el teatro y Ia poesía es Un lector a medias. La posibilidad de reconocer o de proyectar en los personajes de ficción necesidades y deseos reprimidos en la vida real desempeña un papel decisivo en el interés por un libro, para todo lector el suspenso, una trama emocionante, el humor, Ia intensidad y Ia agilidad del libro son siempre importantes para los niños y para los jóvenes. En general, un libro es más difícil de leer mientras tenga más niveles de significado, más pianos descriptivos y narrativos; mientras profundicen más en los temas que toca. Para interesar a los lectores en formación, hay que buscar libros que correspondan a su nivel, que les interesen, que traten de sus Lo más importante es cuidar que la lectura sea interesante: que responda a los intereses 83 GUÍA DE AUTOAPRENDIZAJE básicos de los lectores y se pueda entender Nadie encontrará interesante lo que no entiende. puede escribir quien no es capaz de expresarse hablando. Lea fragmentos a sus hijos, sus alumnos, sus compañeros, y luego deje que ellos terminen por su cuenta. Una clasificación sencilla de los intereses fundamentales de los lectores es la siguiente: 1) los que prefieren lo fantástico, lo mágico, lo maravilloso; 2) los que se inclinan por el realismo y rechazan las fantasías; 3) los interesados en los aspectos intelectuales, los razonamientos y el sentido moral; y 4) los que encuentran placer en el lenguaje mismo. Estos intereses pueden encontrarse combinados en cada lector Participe en las lecturas de sus hijos, sus alumnos, sus compañeros. Platique con ellos acerca de lo que han leído y sobre sus experiencias como lectores. Haga que, en una historia, sus hijos, sus alumnos, sus compañeros lean las partes de los diferentes personajes y del narrador lea con ellos de esta manera las obras de teatro. Acostumbre a sus hijos, sus alumnos, sus compañeros a visitar, conocer y utilizar las bibliotecas y las librerías. Es importante que los lectores incipientes aprendan a poner en tela de juicio lo que leen. Una lectura científica puede y debe desarrollarse desde muy temprana edad. Llegado el momento, estimule en sus hijos, sus alumnos, sus compañeros, la lectura personal, en silencio. Un ejercicio de utilidad probada en escuelas y talleres de lectura es el siguiente: el maestro o el coordinador cuenta Ia tercera parte de una historia. En seguida lee en voz alta unas cuantas páginas. A continuación pide que cada quien continué con la lectura en silencio. Unos diez o quince minutos antes de terminar Ia clase o Ia cesión se organiza una discusión sobre como puede concluir Ia historia y cada quien propone un final. La cantidad de libros leídos es el factor decisivo en la pedagogía de Ia lectura. Mientras más libros diferentes y de calidad se lean, mejores serán los lectores. Un libro de calidad significa un libro que exige un esfuerzo del lector; pero es importante que ese esfuerzo no sea desmedido, que este al alcance de quien lee. Anime al niño y al adulto para que tenga su pequeña o su gran biblioteca personal, con libros regalados y con libros que cada quien, incluso los niños, debe comprar con su propio dinero. ¿Cual es el final que imaginó el autor? Para descubrirlo, cada quien termina de leer en casa. Una o dos semanas después se vuelve a discutir el texto en grupo. Lo habitual es que Se haya leído con interés y que todo el mundo participe con entusiasmo, pues cada quien tiene algo que decir. Conviene que usted hable con sus hijos, sus alumnos, sus compañeros; que les cuente historias; que lea con ellos en voz alta todas las veces que sea posible, que les permita hablar, contar historias, leer con usted. Hablar y escribir, escuchar y leer son actividades íntimamente relacionadas. No puede leer quien no comprende lo que se le cuenta. No Vale la pena repetirlo: a leer se aprende leyendo. Únicamente Ia lectura de libros nos enseña a reconocer las unidades de significado. Únicamente Ia lectura de libros, de muchos libros, forma a los buenos lectores. 84 INDIZACIÓN I Los lectores de libros disponen de treinta a cuarenta veces más palabras -para pensar, para expresarse, para comprender- que quienes leen solamente materiales demasiado sencillos. Sus primeros libros deben tener ilustraciones muy llamativas frases cortas, vocabulario sencillo. Los padres y maestros han de estar dispuestos a leerlos una y otra y otra vez, pues los niños no se cansan de escucharlos. A veces los memorizan en parte, y aun por completo. Este ejercicio los ayudara a leer con fluidez. Hace falta que el prestigio de Ia lectura aumente, en toda Ia sociedad. Una vez que esto se haya logrado, nadie seguirá considerando la enseñanza de la lectura como la simple alfabetización, o como algo prescindible, sino como la adquisición de un medio esencial para obtener experiencias e información de modo voluntario y gozoso. Algunas indicaciones útiles para esta etapa: La lectura es una actividad placentera que contribuye de manera muy importante al enriquecimiento espiritual y cultural, a Ia consolidación de la identidad personal y nacional. La lectura es Ia más útil herramienta para el estudio, el trabajo y Ia superación personal. · Señale con el dedo cada palabra que vaya leyendo. Los niños descubrirán quo no solo las ilustraciones son importantes. · Platique con los niños sobre la historia y las ilustraciones. Los dibujos los ayudarán a comprender palabras nuevas. Es importante subrayar Ia relación entre las ilustraciones y el texto. · No presione a los niños para que lean por su cuenta. Eso ya llegará, lo importante es fomentar el amor, el gusto por Ia lectura. Lo importante es quo haya un contacto cotidiano con los materiales de lectura. Felicítelos por cada uno de sus esfuerzos. · Busque libros interesantes, divertidos, emocionantes. Un libro no es apropiado para niños solo por tener muchas ilustraciones y Ia letra grande. Busque libros que un niño pueda preferir a un programa de televisión. · No se preocupe si el niño escucha el relato sin ver el libro lo portante es que el niño esté en contacto con la lectura y Ia disfrute. Ya se ocupará de los libros cuando esté listo para eso. La lectura no es una materia de estudio, sino una herramienta para Ia evocación, una experiencia vital que transforma al lector. Memorizar una lectura no significa comprenderla. La finalidad última de Ia lectura en voz alta es formar buenos lectores, que lean libros por su cuenta. Y lo mejor es empezar temprano. Hay que poner los libros en manos de los niños desde su mas tierna edad. Un libro es un buen juguete. En el camino que va de la lectura de los padres y los maestros a la que el niño sabe por el mismo, pueden distinguirse varias etapas (las recomendaciones de edades son aproximadas; un niño que sea buen lector puede adelantarse a estas indicaciones): 2. La fase de los cuentos fantásticas (de los cuatro a los ocho o nueve años). El niño se interesa sobre todo por lo maravilloso. Al mismo tiempo se aficiona por el ritmo y la rima, por los versos, por los juegos de palabras y las expresiones de lo absurdo. 1. La fase de los libros ilustrados (desde el nacimiento hasta los cuatro o cinco años). Después de los tres o cuatro años, el niño comienza a interesarse en Ia trama de los cuentos, y hay que contárselos y leérselos. 85 GUÍA DE AUTOAPRENDIZAJE Las recomendaciones de la etapa anterior siguen siendo muy importantes, en esta y en la etapa siguiente. y disfrute Ia lectura. Que lea con sentido e interés. Que se tenga confianza y se sienta seguro. Que lea diariamente. 3. La fase de las historias realistas (de los siete u ocho años de los ocho a los once o doce años). El niño comienza a orientarse en el medio circundante y va interesándose cada vez más en las aventuras, las historias de animales, los lugares remotos, las costumbres exóticas. 5. La fase de crecimiento hacia la madurez (de los trece o catorce a los dieseis o diecisiete años). El niño -ya adolescente, mas biencomienza a descubrir su realidad interior, a tomar conciencia de su persona, a planear el futuro y a establecer una escala de valores propia. En esta etapa y en la anterior el niño empieza a tomar algunos libros por su cuenta; es importante que le permitan sentirse confiado y seguro como lector. El vocabulario debe ser sencillo y las frases cortas, pero no olvide que cualquier niño de esta edad que vea televisión puede comprender más de dos mil palabras. Si un libro es demasiado elemental le parecerá aburrido. Distinga los libros que se deben leer al niño y los que el puede leer solo. Los primeros podrían ser más difíciles. · · Surge una amplia gama de intereses de lectura, desde el gusto por los usos del lenguaje mismo hasta la política, la historia, el teatro, la poesía y el futuro de Ia humanidad. · Las ilustraciones pierden importancia frente al texto; lo complementan y contribuyen a su interés, pero no son ya el elemento primordial. Supongamos que esta guía ha sido convincente y usted quiere leer en voz alta con sus hijos, con sus alumnos. ¿Con qué libros comenzar? Con los que le gusten a usted mismo, los que disfrute cuando niño. Los que estimulan la autoestima del niño. Los que se refieren a sus temores y sus conflictos, como la necesidad de temerá o el miedo a la oscuridad y a la soledad. Intercambie información con otros padres, con otros maestros. 4. La fase de las narraciones heroicas (de los once o doce años a los catorce o quince). El niño va adquiriendo conciencia de su personalidad y se identifica con los personajes heroicos. Le interesan las hazañas físicas, espirituales e intelectuales, así como las historias sentimentales · · El niño que comienza a leer por su cuenta seguirá disfrutando los libros bien ilustrados. No lo abandone; siga leyéndole en voz alta. Si encuentra un buen libro, regálelo, recomiéndelo, delo a conocen Recuerde que un buen lector se forma más fácilmente si está rodeado de otros lectores. Los maestros y los padres tienen que hacerse lectores ellos mismos. Es probable que ahora también le quiera leer en voz alta. Téngale paciencia. No sea exigente. No quiera corregir cada uno de sus errores; nada mas desalentador que una lectura interrumpida continuamente. No importa que vacile, se salte alguna palabra o la lea mal. Recuerde Ia importancia de leer literatura: cuentos, poesía, teatro, leyendas, novelas. Cuando está organizado en forma literaria, el lenguaje tiene un uso muy distinto que cuando lo empleamos para satisfacer las necesidades inmediatas de Ia vida de todos los días, y esa Leer mas aprisa no es leer mejor. Lo importante es que el niño comprenda 86 INDIZACIÓN I clase de organización es Ia que el niño necesitará dominar para enfrentarse a las exigencias de estudio, de pensamiento, de información, o de experiencia que encontrará en su vida como adolescente y como adulto. los cuentos tradicionales, las leyendas, las obras clásicas, pero busque también autores y libros nuevos. Los editores mexicanos tienen un interés creciente en Ia literatura infantil y han publicado cada vez más libros para niños. Hay muchas sorpresas esperándolo. Asemeje a las libretas y a las bibliotecas. Hágalo con espíritu de aventura. Aproveche 87 GUÍA DE AUTOAPRENDIZAJE OBRAS RECOMENDADAS AMAT NOGUERA, N. Documentación científica y nuevas tecnologías de la información. Madrid; Pirámide, I987~ Abstracting and indexing services in perspective . Miles Conrad Memorial Lectures, 1969-1983, conmemorating the 25th Anniversary of the National Federation of Abstracting and Information Services /Edit. By M. Lynne Neufeld /et al/.—Arlington, Va : Information Resources Press, 1983.—300p. AITCHISON, JEAN.—Tesauro de la UNESCO; lista de estructura de descriptores para la indización y la recuperación bibliográfica en las esferas de la educación, la ciencia, las ciencias sociales, la cultura y la educación. ANGULO MARCIAL, NOEL.—Manual de tecnología y recursos de la información.—México : IPN, 1996.—262p. BORKO, HAROLD.—Indexing, concepts and methods.—New York : Academic Press, 1978.— 61p. CLEVELAND, DONALD B.—Introduction to indexing and abstracting / 2nd ed.—Englewood, U.S.A. : Libraries Unltd, 1990.—329 p. CLEVERDON, CYRIL.—Factor determining the performance of indexing systems.— /s. l./ : ASLIB ; Granfield, 1966.—2v. ——, JACK MILLS and MICHAEL KEEN.— ASLIB Cranfield Research Project : factors determining the performance of indexing systems. v. 1: Design.—Cranfield : National Science Foundation, 1966.—120p. CROW, J. D. Study of the feasibility of indexing works subjective view-point. Doctoral Thesis.— Berkeley : University of California, 1986 COLL-VINENT, ROBERTO.—Curso de documentación asistido por ordenador/ 2 ed. amp.— Madrid : Dossat , 1993.—545 p. COYAUD, M. introduction a I’dtude des langages documenraires. Paris: Klincksieck, 1966. ----- Teoría y práctica de la documentación.—Barcelona : A.T.E., 1978.—432p. Encyclopedia of Library and Information Science. v. 1 / Executive editors: Allen Kent, Harold Lancoud and Jay E. Daily.—New York Marcel Dekker, c1974 GARCIA GUTIRREZ, A. Lingüística documental: Aplicación a la documentación de la comunicación social Barcelona: Mitre, 1984. GIL URDICIAIN, BLANCA.—Manual de lenguajes documentales.—Madrid : Noesis, 1996.— 269p. 88 INDIZACIÓN I International Encyclopedia of Information and library science /Edit. By John Feather and Paul Sturges.—London : Routledge, 1977.—492p. LANCASTER, FREDERICK WILFRED.—Indexing and abstracting in theory and practice.— Illinois, U.s.S. : Univ. of Illinois, Graduate School of Library and Information Science, 1991.— 328p. - - - - - Indización y resúmenes . teoría y práctica /Trad. De Elsa E. Barber. -— Buenos Aires : EB Publicaciones, 1996.—337p. - - - -- Vocabulary control for information retrieval.—Washington, - U.S.A. : Resources Press, 1972 MANIEZ, JACQUES. – Los lenguajes documentales y de clasificación : concepción construcción y utilización en los sistemas documentales ; trad. del francés: Francisco Javier Alvarez García, Juan Francisco Herranz Navarra, Margarita Ramírez Reyes.—Madrid : Fundación Sánchez Ruipérez, 1993.—230p.—(Bibl. Del Libro ; 56) MARON, M. E.—On indexing retrieval and the meaning of about. Journal of the American Society for Information Science, 28, 1977:38-43 PRESCHEL, B. M.— Indexer consistency in perception of concepts and in choice of terminology.—New York : Columbia Univ. School of Library Service, 1972 ROWLEY, JENNIFER. —Abstracting and indexing ; 2nd ed.—London : Clive Bingley, 1988.— 181p. SHANNON, CLAUDE E. And WARREN, WEAVEN.—The mathematical theory of communication.—Urbana : The Univ. of Illinois, 1949 —/s. p. i./ SLYPE, GEORGES VAN.—Los lenguajes de indización : concepción, construcción y utilización en los sistemas documentales / George Van Slype / Trad. Del francés. Pedro Hipolo, Félix de Moya.— /Madrid/ : Fundación Germán Sánchez Ruipérez, 1991 SOBREVILLA LUNA, JORGE.—El análisis facetado en la estructuración de vocabularios de indización /Tesis, UNAM, Lic. en Bibliotecología, 1981.—/Sin .pág../ 89 GUÍA DE AUTOAPRENDIZAJE EVALUACIÓN Responde lo que a continuación se indica: 1. En función de su estructura, los Lenguajes Documentales son: 2. En función del control ejercido sobre su vocabulario, los Lenguajes Documentales son: 3. De acuerdo al criterio de coordinación, los lenguajes Documentales son: 4. Relacione las columnas y anote en el paréntesis el número que corresponda: SON: 1. TESAUROS Libres () 2. ENCABEZAMIENTOS Pre-coordinados () 3. CLASIFICACION 4. PALABRAS CLAVE Controlados () Post-coordinados () Jerárquicos () Combinatorios () 5.¿ Cuál es el alcance y campo de aplicación de la Norma ISO 5963? 6. ¿Qué es la identificación de Conceptos? 7. ¿Cuáles opciones se manejan cuando no existen los términos que representen el tema de un documento? 8 . Explique qué es Exahustividad y Especificidad en la indización. 9. Anote el significado de las siguientes relaciones: XX _________________________________ USE _________________________________ TT _________________________________ UF __ _______________________________ 90 INDIZACIÓN I V _________________________________ RT _________________________________ NT _________________________________ X _________________________________ v.a. _________________________________ BT _________________________________ 10. Determine el tema (s) y asigne los encabezamientos que describan el contenido intelectual de los siguientes títulos: Terminología contable: lexicografía y vocabulario ingles-español La confección de objetivos para la enseñanza 11. Lea el texto anexo y a) Represente gráficamente la multidimensionalidad de las relaciones b) Indice de acuerdo a lo siguiente: Temas que trata EJ 315 603 Unitérminos IR 513 756 Management Education for Archivists, Information Managers, and Librarians: Is There a Global Core? Evans, G. Edward Education for information: the international Review of Education and Training Library and Information Science: v2 n4 p295-307 Dec 1984. Descriptors: ·Administrator Education; Business Administration Education; *Content Analysis Curriculum; *global Approach; higher Education; instructions Materials; * Librarians 91 Encabezamientos de materia GUÍA DE AUTOAPRENDIZAJE Standards; text book evaluation; textbooks Identifiers: American Assembly Collegiate School of Business; * Archivist; *core collections, United States. Reports on an analysis of 35 American management textbooks that identifies 17 core concepts for rnanagement courses for information professionals. Each concept accountability, accounting, authority, budgeting, change /innovation / creativity, communication, controlling, decision making, delegation and organization, ethics. Fiscal management, leadership, staffing- is defined in non cultural terms to show that concept should be global. ( author/MBR) Envía a tu asesor 92 INDIZACIÓN I GLOSARIO Descriptores: término o símbolo formulado y/o homologado por un tesauro utilizado para representar sin ambigüedad las nociones que contienen los documentos y las peticiones de recuperación de la información. Lenguaje de indización o lenguaje artificial: en bibliotecología, documentación, conjunto organizado de términos con los que se presenta convencionalmente la materia y permite su recuperación. Pueden ser palabras claras, cifras, letras o símbolos. Palabra, cifra, letra o símbolo, el descriptor no puede expresar una sola noción, y una noción no puede ser expresada por un solo y mismo descriptor. Lenguaje natural: lenguaje sometido a evolución, con el español, ingles, francés y alemán, etc., que se emplea sin restricciones para el entendimiento entre seres humanos. Índice post-coordinado: conjunto de términos simples que el usuario o bibliotecario combina entre si, al buscar información sobre un tema. Hace referencia al lenguaje humano cuyas reglas se han desarrollado con el uso. El glosarlo de la ALA de Bibliotecología y Ciencias de la información lo define como el lenguaje en el que esta escrito un documento. Índice pre-coordinado: en la catalogación por materias, índice en que la combinación de los términos que forman un encabezamiento de materia se hace en el momento de asignar el signo al documento. Organización Internacional de Normalización (ISO): establece la coordinación y unificación de las normas nacionales y sugiere nuevas normas que obtengan prescripciones comunes.6 Indización: acción y efecto de indizar, extracción de conceptos del texto de un documento para expresarlos con la ayuda de un lenguaje, con palabras clave, descriptores o índices de una clasificación.5 Palabra clave: palabra a grupo do palabras escogidas del titulo o del texto de un documento para caracterizar el contenido y facilitar su localización especialmente empleada en los índices. KWAC: índice de títulos de documentos permutados de manera que las palabras significativas, situadas por orden alfabético vayan seguidas del resto del titulo. Referencia cruzada; llamada referencia de un encabezamiento empleada en un catalogo o diccionario a otros que presentan temas análogos o subordinados a ellos, enunciados por la frase véase también o véase además. KWIC: catalogación obtenida, por un ordenador, de títulos de documentos e impresa con palabras claves alineadas verticalmente en posición fija respecto de los títulos o por orden alfabético. Sistema híbrido:Es utilizado para aludir a cualquier sistema que opere sobre una KWOC: índice obtenido por un ordenador, de títulos de documentos e impreso con las palabras clave sobresaliendo a la izquierda del titulo ( en párrafo francés) o bien alineado por la izquierda, pero en línea aparte. 93 5 Martínez de Souza, José. Diccionario de bibliotecología y ciencias afines. 2° ed. Aumentada y actualizada. Madrid : fundación German Sánchez Ruiperez, 1993. 6 Buonocore, Domingo. Diccionario de bibliotecología; términos relativos a la bibliologia, bibliografía, bibliofilia, biblioteconomía, archivología, documentación, tipografía y materias a fines. 2° ed. Buenos Aires : Marymar, 1976. combinación de términos controlados y lenguaje natural, incluyendo aquellos en que ambos conjuntos de términos son asignados por indixadores humanos y aquellos en que una base de datos puede ser consultada mediante una combinación de términos controlados asignados por seres humanos y palabras que aparecen en los títulos, resúmenes o texto completo.7 Tesauro: lista alfabética de palabras clave, utilizadas para la clasificación de la documentación. Repertorio de términos utilizados para representar conceptos de una disciplina o campo especifico del conocimiento, los cuales se presentan en orden alfabético y explicitando conforme a las reglas terminológicas propias, las relaciones semánticas entre ellos. Tratamiento de textos: programas informáticos especialmente estudiado para el manejo de los textos y la obtención de 7 Lancaster, F.W. Indización y resúmenes : teoría y práctica. Buenos Aires : EB publicaciones, 1996 8 Angulo Marcial, Noel. Manual de tecnología y recursos de información. México . Instituto Politécnico Nacional, 1996. documentos dotados de la forma y la grafía adecuadas. Unitérmino:En la indización la mas breve y sencilla palabra utilizable para expresar un concepto puro. Toda palabra independiente o significativa por si misma, utilizada para fines de indización, sin formar parte de un vocabulario controlado.8 Vocabulario: catalogo o lista de palabras situadas por orden alfabético y con definiciones o explicaciones que en los libros suele situarse al final. Vocabulario controlado: aquel que reconoce y abarca sinónimos, diferentes formas de palabra y homógrafos para que el usuario sea conducido a todos los documentos disponibles, cualquiera que sea el sinónimo o la forma de palabra que haya usado, y no sea conducido a documentos irrelevantes. Buchanan. A glossary of indexing terms. AGRADECIMIENTOS La Escuela Nacional de Biblioteconomía y Archivonomía expresa su agradecimiento a Laura Guillermina Trejo Moreno por su destacada y entusiasta colaboración en la revisión y enriquecimiento de los contenidos básicos del programa de Indización I; y a Karla Alemán Salazar y Jovany Martínez Morales por la selección y escaneo relativos a la asignatura, y a la ampliación de las actividades de esta Guía de Autoaprendizaje, con lo que además, fortalecen la vida académica de la Escuela.