Contenido documental

Anuncio
TEMA 1: EL ANÁLISIS DE CONTENIDO: DESCRIPCIÓN SUSTANCIAL E INDIZACIÓN
PROCESO DOCUMENTAL
Entrada Tratamiento Salida
Análisis Recuperación
Docum.
A. Formal A. Contenido
Descr Catalog. Indización Descr. Sustancial
Bibliog. Elab. Resúmenes
Asiento Reg. Bibl. /Documental Catálogo
Resúmenes
Las operaciones de Análisis de Contenido, nacen como respuesta a los problemas que plantea el incremento
incesante de la información documental, y como respuesta también a las nuevas necesidades informativas de
los científicos fundamentalmente. Los investigadores no pueden conocer por sus propios medios todos los
documentos de su interés, y sin embargo necesitan conocerlos, por esta razón los métodos documentales de
identificación de contenidos son el medio más idóneo para satisfacer esas necesidades. Las técnicas de
Análisis de Contenido permiten la recuperación colectiva de documentación permiten la recuperación
colectiva de documentos respondiendo a demandas por campos de conocimiento, por temas, por descriptores
o por palabras clave. Las demandas por campo de conocimiento responden las clasificaciones por tema, las
listas de encabezamientos de materia, por descriptores tesauros, por palabras clave, responden a indización
libre.
Pinto Molina define el Análisis de contenido, como El conjunto de operaciones dirigidas a representar y / o
describir el tema o temas principales de que trata un documento. Al profesional no le basta con identificar un
documento, inserto en una colección a través de su autor, de su título, del año de publicación etc. Necesita,
generalmente saber de que trata, conocer sus aportaciones y resultados, esta tarea, que es eminentemente
intelectual, puede llevarse a cabo en niveles:
• Indización términos significativos
• Resumiendo el documento original.
Se distingue, por tanto, dentro del Análisis de Contenido, las operaciones de indización, también llamada
descripción característica operación que va orientada a poner de manifiesto el tema/ s del documento
entresacando los elementos que lo representen para su posterior localización, y otra operación descripción
sustancial, proceso de resumir, operación de resumir, elaboración de resúmenes encaminada a realizar un
resumen que permita el conocimiento en profundidad del contenido del documento analizado.
El Análisis de Contenido afecta a los documentos en el momento de su análisis, primera fase de tratamiento,
pero incide también en la segunda fase de recuperación, dado que, en el caso de la operación de indización, no
solo se indizan los documentos, sino que habrá de indizar también las preguntas de los usuarios, de manera
que documento y pregunta se representen de la misma forma, de esta manera, de esta manera se puede
conseguir una recuperación optima.
1
Los objetivos del Análisis de Contenido, son:
• Poner de manifiesto el contenido esencial de los documentos originales.
• Seleccionar los principales elementos conceptuales de esos documentos, y representarlos bajo formas
diversas, pueden ser palabras clave, encabezamientos de materia, descriptores, códigos de un sistema de
clasificación.
• La razón última del análisis de contenido, es contribuir a recuperar la información en consonancia con las
demandas de los usuarios.
TEMA 2: LA DESCRIPCIÓN SUSTANCIAL: CONCEPTO Y PROCESO
Lo primero que hay que plantear es la falta en castellano de un término para distinguir la operación o la
actividad del resultado.
Según los Cleveland, resumir, como clasificar e indizar, es el procedimiento dirigido a representar el
contenido de los documentos analizados con el fin de que los usuarios puedan encontrar la información que
necesitan, pero opinan que resumir difiere de clasificar e indizar, por que proporciona parte de la
información que contiene el documento.
Según Mihailov, Chermii, Guiliarevsky, supone proporcionar una breve exposición del contenido de un
documento.
Chaumier dice que la condensación supone la reducción del texto.
Lancaster define el resultado, dice que un resumen es una breve, pero precisa representación del contenido del
documento. El lenguaje del autor, y recogiendo las ideas principales del documento original. Con esta
definición de Lancaster, coinciden Collison, Rowley, y en España Nuria Amat.
Los autores Franceses Boret y Peirot, afirman que el resumen de un texto es una recomposición, una
redacción, en el sentido escolar del término, en cierto modo, un discurso sobre un discurso donde, bajo el
fundamento de una articulación idéntica de arreglos se expresa en un lenguaje nuevo el espíritu y si es posible
el tema del texto analizado.
Antonio García y María Pinto Molina, coinciden en opinar que el resumen, es un nuevo documento que
incluirá todos los aspectos destacados del documento original siguiendo el estilo y la ordenación del
documento original siguiendo el estilo y la ordenación del documento original, y evitando cualquier
apreciación y juicio crítico.
Maria Pinto Molina, define la operación de resumir, como el conjunto de transformaciones que experimentan
los documentos con el trayecto
Los autores franceses Boret y Peirot, afirman que el resumen de un texto es una recomposición, una
redacción, en el sentido escolar del término, en cierto modo un discurso sobre un discurso, donde bajo el
fundamento de una articulación idéntica de argumentos se expresa en un lenguaje nuevo el espíritu y si es
posible el tono del texto analizado.
Antonio García Gutiérrez y Maria Pinto Molina, coinciden en opinar que el resumen es un nuevo documento,
que incluirá todos los aspectos destacados del documento original siguiendo el estilo y la ordenación del
documento original, y evitando cualquier apreciación y juicio crítico. María Pinto Molina define la operación
de resumir como el conjunto de transformaciones que experimentan los documentos en el trayecto que va
desde su primitivo nivel microestructural (o estructura de superficie) a su correspondiente nivel
macroestructural, o estructura profunda, se trata de un proceso de recreación a escala reducida del documento
2
original. Define también el resumen como El resultado de transformación analítico−sintética del contenido del
documento original de extensión reducida y que actúa de intermediario entre este y el potencial usuario.
En un trabajo diferente, da otra definición distinta: Resumen es el resultado del complejo operativo de
resumir, y consiste en la representación abreviada de la macroestructura global del texto original.
En resumen, resumen es un documento nuevo donde se representan de la forma más breve posible, las ideas
principales, o la macroestructura del documento original.
PROCESO PARA ELABORAR UN RESUMEN
Comienza decidiendo si el documento merece ser resumido, normalmente las Bibliotecas, Centros de
Documentación o las Agencias de Resúmenes establecen criterios de selección del material a resumir,
teniendo en cuenta los objetivos y finalidades del centro y teniendo en cuenta también que todo lo que se
publica no es significativo, además de imposible por factor tiempo y dinero el resumirlo todo.
Los indicadores a tener en cuenta para establecer la selección son:
• Interés temáticos de usuarios, se dará prioridad a los trabajos que el servicio de información considere que
va a ser los más solicitados.
• Origen de la publicación, se tendrá en cuenta la calidad y el reconocimiento del autor, así como el prestigio
de la edición o de la revisión profesional.
• Naturaleza del documento, su soporte, originalidad, circulación, accesibilidad, serán factores a considerar
por las responsables de la política de selección, resumiéndose los trabajos de difícil acceso por la lengua o
por el tipo de público que tiene circulación restringida.
• A estos criterios se le aplica al de las razones económicas, se omitirán los trabajos menos prioritarios
Rowley señala como especialmente necesitados de ser resumidos:
• Textos originales de interés para los usuarios del servicio
• Los que supongan una nueva aportación en un determinado campo del saber.
• Informes finales u otros informes que se consideren de importancia fundamental.
• Documentos que contienen una información difícilmente accesible tales como textos extranjeros en lenguas
de poca difusión, información de carácter interno, memorandus y otros de circulación restringida.
• Documentos que contengan avances, revisiones, o análisis significativos.
• Aquellos con información localizada en fuentes fidedignas y acreditadas, tales como las revisiones
profesionales de reconocida reputación.
• Documentos procedentes de organizaciones relacionadas con una agencia de resúmenes, en concreto o con
un cetro de Documentación.
Una vez escogido el material a resumir, el procedimiento pasa por varias fases:
• Fase de confección de la referencia del resumen, resumen que deberá ser completa y normalizada,
siguiendo la norma UNE o la norma ISBD de partes componentes.
• Análisis del documento, opinan estos autores que en esta fase se habrá de disociar lo sustancial de lo
accidental, para poder apreciar las aportaciones del documento, eliminando toda la información secundaria
o irrelevante. Para realizar este análisis, según los Cleveland, hay que tender a cinco indicadores básicos del
documento original.
Objetivos y alcance del trabajo
Metodología
Resultados
3
Conclusiones
Otra información que pueda ser importante
• Fase de redacción del resumen, una vez analizado el documento original.
• Fase de firma, dado que el nombre del resumidor da crédito al resumen.
• Fase de ordenación de resúmenes: Materia, título, autores.
Maria Pinto Molina, coincide básicamente con Los Cleveland, al establecer las etapas de lo que llama proceso
general de resumir, considera la fase de selección de material, como una fase previa, tras esta selección:
• Lectura, q tiene como finalidad la comprensión del texto, que será el punto de partida de la siguiente
etapa.
• Analítica, que tendrá como objetivo el descubrir la estructura profunda del texto (Macroestructura), es
decir, descubrir toda la información esencial para lograr este objetivo, propone como método
segmentar el texto, dividiéndolo en unidades coexionadas, unidades que luego se reducirán y
condensarán.
• Síntesis, definida como el arte de componer la información resultante del análisis, opina que es un arte
por que es el momento más adecuado o más difícil, dado que es prácticamente imposible establecer
uso mecanismos sintetizadores que sean validos.
José Antonio Moreiro, habla de tres etapas:
• Reconocimiento o lectura
• Reducción
• Representación
Reducción es equivalente a análisis y la de representación a la de síntesis. Propone estrategias metodológicas
para identificar las ideas principales de la original, basándose en el análisis lingüístico − semántico del texto.
Propone también estrategias para la reducción del texto semejantes a las propuestas de Maria Pinto Molina, la
segmentación del texto en unidades coexionadas para proceder posteriormente a su reducción y síntesis.
Coll−Vinent y Bernal Cruz, establecen las siguientes etapas:
• Lectura lenta y reposada del documento primario para captar el contenido central de su mensaje.
• Análisis de contenido: Destacar la idea central y establecer un orden jerárquico de las ideas más
importantes.
• Realizar una primera redacción como resultado del análisis anterior recomponiendo mediante síntesis lo
que el análisis descompuso, pero no a base de yuxtaponer los elementos aislados del análisis, sino dándoles
una unidad y un sentido nuevos. En esta fase se redactará un resumen, preocupándose no de la extensión y
si de la fidelidad al texto original.
• Reducción intuitiva eliminando todo aquello que en un examen más exigente se considere más necesario.
Para estos autores, como para maría Pinto Molina, es la fase más difícil, un análisis correcto no garantiza un
resumen correcto, aunque sea un paso previo y necesario, un conjunto de ideas claras que separadas pueden
producir, en la fase de síntesis, una unidad confusa, debido a que la capacidad de síntesis es distinta a la de
Análisis.
Fin Tema 2
TEMA 3: EL RESUMEN: CARACTERÍSTICAS, FUNCIONES Y TIPOS
4
La etapa resumidora culmina con el resumen, en la que se presta especial atención a su estructura o
composición interna, estilo, extensión y algún otro requisito.
En lo que se refiere a la estructura, algunos autores, como Los Cleveland, opinan que el resumen debe tener
un desarrollo lógico, constar de una introducción que albergue la información esencial no recogida en el título.
Un núcleo central, compuesto por párrafos equilibrados y unas conclusiones, completando con la Referencia
Bibliográfica y la sección de firma del resumen. Esta estructura solo es válida para el resumen informativo.
Los Cleveland dicen que la primera frase del resumen es fundamental y debe contener el tipo de información
que permita al lector decidir si sigue leyendo o no. Deberá decir conscientemente de que trata el trata el
trabajo.
En cuanto al estilo, Boret y Peirot dicen que la elaboración de todo resumen debe estar precedidos por unos
criterios:
• Fidelidad al original, debe ser respetado sin omitir partes sustanciales, se evitaran las apreciaciones
personales.
• Precisión: emplear los términos justos evitando la redundancia y repetición.
• Claridad espositiva: Utilizar la terminología apropiada a cada documento de una sintaxis lógica.
• Criterio de entropía: Dar a la frase plenitud de sentido con el mínimo de palabras, de esta forma se ahorrara
tiempo al usuario y costes de edición y almacenamiento.
Maria Pinto pone de relieve la dificultad de compatibilizar estos criterios, porque algunos parecen contrarios,
esto es fundamental en la operación de resumir, el éxito estará en el logro de un equilibrio satisfactorio entre
estos criterios.
María Pinto señala también una serie de características del resumen que coinciden con las de los anteriores en
su mayor parte.
OBJETIVIDAD Fidelidad al original
BREVEDAD Concisión
PERTINENCIA Precisiones anteriores
CLARIDAD Y COHERENCIA Calidad expositiva
Añade otras:
• PROFUNDIDAD : Variará en función de los distintos tipos de resúmenes, cuanto más breve es un
resumen más profundo es, porque ese resumen capta la estructura principal del texto.
• CONSISTENCIA LINGÜÍSTICA: El resumen debe ser inteligible por si mismo, dado que es un
producto textual acabado y autónomo, no debe hacer referencia al resumen que no se comprenda.
• PROXIMIDAD CRONOLÓGICA: Entre las ediciones del documento original y del resumen. El
resumen se hace en el plazo más breve de cuando se publica.
Moreiro también establece una serie de valores que deben considerarse en la redacción del resumen:
• INTROPIA: Supone conseguir economía de signos sin que se altere el mensaje, y que se opone a la
redundancia, que consiste en reiterar los conceptos e introducir palabras u oraciones que resultan inútiles
5
para comprender el mensaje.
• PERTINENCIA: Se considera desde tres puntos de vista:
• Con respecto al documento original: Equivalente a decir que debe ser fiel u objetivo.
• Sistema documental en el que se trabaje: Debe ser homogéneo o normalizado, cada centro tiene sus
reglas de resúmenes.
• Usuarios: Un resumido no deberá perder de vista su objetivo, satisfacer las necesidades de unos
usuarios generalmente particulares, de los que se conocen los interés temáticos, a la hora de resumir,
se darán más datos de aquella parte que se crea de su mayor interés de ese centro concreto.
Para todo tipo de documentos, y de resumidores, en esta etapa se trata de expansionar la estructura perdida o
la idea principal obtenido durante el proceso analítico, aunque esta expansión deberá quedarse en los mismos
niveles de descripción superficial, dado que el resumen debe ser breve, en esta etapa el resumidor pondrá en
juego sus cualidades, habilidades y conocimientos para reconstruir el documento original a escala reducida.
• Mantener al investigador, informando de los desarrollos de su campo temático.
• Superar las barreras del lenguaje, dado que los resúmenes se presentan en lenguas de amplia difusión.
• Ayudar a la búsqueda retrospectiva de la información, dado que muchas bases de datos incluyen junto con
las referencias los resúmenes que ayudan a la selección del texto.
• Constituir el punto de partida para la indización.
Según Moreiro, establece 6 objetivos de los resúmenes:
• Servir de transmisor de información, dado que avisa y explica lo más importante de los documentos.
• Valorar el interés del contenido de los documentos.
• Facilitar la comprensión del original.
• Sustituir al original: Puede sustituirlo o bien cuando el articulo no nos interesa o cuando lo omitimos.
• Utilidad para la recuperación de la información
• Servir de transcodificador y superar las barreras del lenguaje (Maria Pinto).
La mayoría de los autores coinciden con estas finalidades, como es el francés Neet, que las resume en cuatro:
• Auxiliar del lector e investigador.
• Auxiliar de traducción
• Auxiliar de indización
• Auxiliar de búsqueda en línea
TIPOS DE RESUMENES
Los criterios para establecer la tipología de los resúmenes son variados, y además pueden combinarse entre si,
lo que normalmente ningún resumen encajaría en una única categoría.
6
Van Diik y Van Slype, utilizan un criterio cuantitativo, es decir, clasifican los resúmenes según su longitud y
llegan a distinguir hasta 9 tipos, que en orden creciente van desde el título pasando por el resumen telegráfico
hasta el resumen indicativo e informativo. El ultimo resumen sería equivalente al texto original.
Chaumier establece otros criterios, la forma del resumen, que es lo que otros autores denominan estructura
interna que tomo en consideración no solo la cantidad sino la calidad de la información que se transmite e
introduce también el criterio del origen y la autonomía del resumen.
Los Cleveland agrupan los resúmenes atendiendo a tres criterios:
• Estructura Interna
• Propósito Interno o finalidad
• Criterio del autor
A estos criterios, Pinto Molina añade otros:
• Densidad Informativa
• Resumen Indicativa
• Informativo
• Informativo− Indicativo
• Analítico
• Crítico
• Autoría
1. Resumen del autor
• De experto en la materia del documento
• Resumen de profesional
• Lenguaje empleado
⋅ Objetivos, propósito o finalidad de los resúmenes:
• Orientados a la disciplina
• Parciales
• Con fines especiales
• Fuentes Originales
• De documentos Bibliográficos
• Resumen de documentos no bibliográficos
• Forma de presentación de los resúmenes
• Telegráficos
• Discursos
• Tabulares
• Modulares
7
• Según el modo de difusión
• Simultanea
• En revistas de Resúmenes
• En bases de datos
Moreiro establece también una clasificación similar a la de Maria Pinto.
El criterio de los resúmenes mejor es el de densidad informativa (Maria Pinto), estructura interna (Cleveland),
representación macroestructural (Moreiro). Según este criterio, los principales resúmenes que se pueden
considerar son los indicativos y los informativos.
El indicativo es el que capta solo la macroestructura o idea principal del documento original, por tanto su
densidad informativa y su profundidad son máximas. La función principal del resumen indicativo es la de
servir de alerta al usuario anunciándole la existencia del documento y ofreciéndole la información suficiente
para decidir si le vale la pena leer el documento original, pero al limitarse a recoger simplemente la idea
principal y general, normalmente no pueden sustituirle. Su elaboración no es muy costosa para el servicio de
información, porque disminuye el trabajo de informador, quien atenderá solo a los párrafos introducidos y a
los finales que son los que contienen el objeto y las conclusiones del trabajo.
También son costosos, porque disminuyen los gastos de almacenamiento físico y de difusión, al ser su
extensión reducida. Son resúmenes que normalmente no superan las 50 palabras y constan de un solo párrafo,
estos son los resúmenes que forman las bases de datos y son también los resúmenes preferidos por los centros
con presupuestos escasos, y por aquellos centros que realizan muchos análisis o resúmenes.
Informativo, tanto la densidad informativa como la profundidad disminuyen ligeramente con respecto al
resumen indicativo, por consiguiente este resumen con finalidad informativa, ya puede describir
explícitamente todos los aspectos relevantes del documento primario mediante una relación lógica y lineal de
los temas tratados y este resumen expresa lo más significativo acerca de los objetivos perseguidos, los
métodos usados, los resultados alcanzadas. Debido a sus características, el resumen informativo está
capacitado para sustituir al original, pues proporciona a los usuarios datos suficientes para decidir la
conveniencia o no de consultar el original. Estos resúmenes son muy apreciados por los usuarios pero su
producción conlleva un gran consumo de tiempo. La extensión de estos resúmenes debe oscilar entre 100 y
300 palabras en más de un párrafo, estas extensiones son solo aproximadas. La longitud de un resumen
dependerá de la carga informativa del documento original.
RESUMEN INDICATIVO INFORMATIVO
Resumen en el que las partes centrales se representan en plan informativo, mientras que aquellos aspectos de
relevancia se tratan de forma indicativa.
RESUMEN ANALÍTICO
Tiene menor profundidad y menor densidad informativa que los anteriores, por consiguiente más detalles.
Poco habitual en los servicios de resúmenes debido a que por su extensión y características requieres un
mayor consumo de tiempo en su elaboración con carestía consecuente. Oscila entre las 300 y las 500 palabras.
Para algunos autores, el resumen analítico es equivalente al informativo, no existe como tal
independientemente, y otros lo equiparan con el resumen de autor, caso de la UNESCO o Moreiro.
En cuanto al resumen crítico, Maria Pinto Molina precisa que se trata de añadir un párrafo al resumen
documental, valorando el trabajo. Opina que no se puede discutir la eficacia de este resumen crítico o reseñen,
debido a que proporcionan importantes mejores informativos a los usuarios, dado que no solo les transmite el
8
contenido de un documento, sino que evalúa el trabajo y los resultados obtenidos.
El problema que presenta este tipo de documentos secundarios, cuyo nombre más adecuado es el de reseña, es
su elaboración resulta muy gravosa, porque requiere del analista, además de un profundo manejo de la técnica
de resumir un conocimiento exhaustivo de la materia objeto de la investigación para estar en disposición de
analizar, aumentar y evaluar las distintas contribuciones.
El segundo criterio que establecía Maria Pinto Molina, era el criterio de autoría, según este se establecen 3
tipos de resúmenes:
• Resumen Autor
• Resumen Experto
• Resumen de resumidor profesional
VENTAJAS E INCOVENIENTES
El resumen del propio autor del documento original, sistema que se utiliza en todos los casos que el resumen
se difunde a la luz del documento original, suele ser el caso de artículos de revista, actas de congresos, tienen
como ventaja el conocimiento del trabajo. El autor conoce su trabajo con más profundidad que nadie.
Desventaja, no siempre los autores son capaces de ser objetivos con sus propios trabajos y destacan en los
resúmenes, aquellos que les interesa, y no lo que es fundamental.
Otra ventaja sería que generalmente los autores desconocen lo técnica de resumir.
En cuanto a los resúmenes de experto, son resúmenes utilizados con frecuencia e Boletines de resúmenes, e
incluso a veces en las Bases de Datos, hay empresas que en vez de contratar documentos para realizar este
trabajo, lo encarga a expertos a cambio de suscripciones gratis a revistas.
Estos resúmenes tienen la ventaja del conocimiento que el experto tiene de los documentos a resumir, sobre
los que son objetivos y extraer de ellos lo fundamental. Se prestan a convertirse en reseñas con una
valoración, pero tienen el mismo inconveniente, los expertos no lo son en el procedimiento de elaboración de
resúmenes, tanto el de autor como el de experto dejan mucho que desear.
RESÚMENES DE RESÚMENES PROFESIONALES
Estos tienen la ventaja de ser de profesionales y estar bien elaborados, el problema está en que puede no
conocerla finalidad necesaria de la materia que esta resumiendo.
Fin Tema 3
TEMA 4: LA NORMALIZACIÓN Y LA DESCRIPCIÓN SUSTANCIAL
Son muchas y variadas las recomendaciones a los estudiosos, en cuanto a la estilo del resumen, a su forma y a
su presentación externa, es el caso de las recomendaciones de Chaumier, Lancaster, Coll − Vinent y Bernal
Cruz entre otros. Todavía que da mucho animo para definir un modelo de desorden de modelo de desorden
sustancial con el grado deseable de precisión y de fiabilidad, por lo tanto no se puede hablar de una
normalización, sino tan solo de directrices, dado que las organizaciones normalizadoras (ISO, AENOR),
proporcionan tan solo directrices o consejos.
9
Con respecto a la redacción de la síntesis, pues por lo que se refiere al análisis, estas normas solo estipula que
se tengan en cuenta 4 indicadores básicos:
• Objetivos o propósito
• Metodología
• Resultados
• Conclusiones
Semejante es el caso de algunos servicios de resúmenes o instituciones que han publicado instrucciones para
sus resumidores (UNESCO, Chemical Abstracts Service). Un buen resumen será aquel coexionado a nivel
sintáctico o superficial y coherente a nivel semántico o profundo, ambas propiedades son la respuesta lógica a
sus equivalentes en el texto original una vez que este texto original ha sido sometido a las diferentes etapas del
proceso resumidor. La dificultad reside en la definición de un procedimiento que conduzca de manera fiable a
este resultado.
Según Maria Pinto Molina, los progresos en el campo del resumen estarán directamente vinculados a los dos
polos que lo condicionan, el texto, el documento original por un lado, y el resumidor por otro. En este sentido,
considera que el avance en este campo estará por un lado en función de los avances de la ciencia del texto,
puesto que cuanto más se sepa del texto como unidad documental, mayor serán las posibilidades a la hora de
resumirlo, por lo que se refiere al resumidor, los avances también dependerán de la evolución de la sicología
cognitiva, mientras más se sepa de los procesos cognitivos que afectan a la mente humana, mayor serán las
posibilidades de llegar a fijar un procedimiento mediante normalización para elaborar resúmenes. En este
sentido, Moreiro opina que el resumen necesita un análisis interdisciplinar, o que tenga en cuenta factores
psico−lingüísticos, socio − lingüísticos, gramaticales, estilísticos, y hasta literarios para llegar a ser completa
la explicación. La proximidad al mundo del resumen debe ser intercalado dentro de los postulados
fundamentales de las tareas del avance lingüístico.
LA AUTOMATIZACIÓN DE LA DESCRIPCIÓN SUSTANCIAL
Dada la dificultad de esta operación y el crecimiento de su demanda, han proliferado las tentativas de
automatización, se ha empezado a utilizar el ordenador en las distintas etapas del proceso de producción de
resúmenes, tales como en la etapa de entrada de la información, etapa de procesamiento de esa información,
ordenador para la edición y difusión de resúmenes. En la elaboración de estos resúmenes es donde aparecen
mayores dificultades, los resúmenes confeccionados por ordenador automáticamente no satisfacen todavía las
exigencias de los usuarios, por que se quedan en meros extractos, es decir en sucesiones de frases
representativas, pero frases inconexas entre si del documento original, ello porque el ordenador se limita a
extraer frases que contengan unos términos determinados, por ejemplo aquellas frases que hablen de
resultados, conclusiones, objetivos, metodología, o que contengan más términos significativos de la materia
que se dedique el centro donde se elaboran esos resúmenes, términos significativos, que previamente se ha
introducido en la memoria del ordenador y que un texto reconoce cuando procesa un texto. Los problemas de
los sistemas automáticos para generar resúmenes derivan de las dificultades de dos tipos:
• Naturaleza Semántica ( o interpretativa)
• Carácter Sintáctico
En lo que se refiere a la sintaxis, el problema radica en el reconocimiento de las frases por el ordenador, su
identificador es a veces complicada, puesto que todas las frases no son sencillas, sino también existen
oraciones compuestas, subordinadas de distintos tipos etc. El mayor problema para automatizar la operación
10
de resumir deriva de cuestiones semánticas, sabemos que existen en las lenguas muchos significantes con
distintos significados, lo que da lugar a mucha ambigüedad, dado que cada unidad lingüística puede ser objeto
de diversas intenciones por parte del autor y de diversas interpretaciones por parte de un receptor.
Por todo lo expuesto, la descripción sustancial sigue siendo una tarea humana, debido a una dimensión
intelectual importante, aunque confiados en que se profundice en el conocimiento del texto como unidad
documental, de momento la automatizada solo ha tenido una utilidad importante en la edición y en la
impresión en revistas o boletines simultáneamente con el articulo correspondiente o en su almacenamiento en
una base de datos que permita su consulta en línea.
TEMA 5: LA INDIZACIÓN: CONCEPTO Y PROCESO
CONCEPTO
La indización, según la UNESCO con sus principios de la UNISIST, se define desde dos puntos de vista:
• De su proceso
• De su finalidad
DE SU PROCESO: La indización es la operación que consiste en describir las características de un
documento con la ayuda de representar los conceptos contenidos en dicho documento, es decir, en transcribir
al lenguaje documental los conceptos, después de haberlos extraídos del documento mediante el análisis, la
trascripción al lenguaje documental se hace por medio de instrumentos de indización, tales como Tesauros,
Clasificaciones etc.
DESDE SU FINALIDAD: La indización juega un papel fundamental, no solo en la fase de entrada de los
documentos en el sistema documental, sino igualmente en la fase de salida, cuando se formulan las demandas
informativas en los dos procesos se requiere la indización, tanto para analizar los documentos, como las
preguntas de los usuarios.
Neet define la indización como Indizar es analizar los documentos y aislar en la riqueza de la lengua natural
empleada por los autores, todos los conceptos esenciales que deben ser retenidos con vista de búsqueda
posteriores.
García Gutiérrez define indización como una técnica del tratamiento documental utilizada para la descripción
del contenido del documento o demandas documentales que posibilita la elaboración de estrategias de
recuperación mediante conceptos o materias. Dice el mismo autor, que la indización es la mejor fuerza y el
instrumento auxiliar más eficaz de la información científica, interviene en dos momentos del tratamiento
documental:
♦ Registro: Identificar y clasificar los documentos.
♦ Explotación: Identificar y clasificar la demanda, haciendo coincidir mediante uso de lenguajes
coordinados los grupos de documentos e información pertinente con los deseos del usuario.
Maria Pinto Molina, define la indización como la técnica de caracterizar el contenido de un documento y/o de
las demandas documentales, reteniendo las ideas más representativas para vincularlas a unos términos de
indización adecuados, bien procedentes del lenguaje natural empleado por los autores, o de un lenguaje
documental previamente seleccionado.
Rafael Ruiz Pérez, entiende por indización la técnica del tratamiento (análisis y recuperación) utilizada para
la descripción del contenido de un documento, que posibilita la elaboración de estrategias de recuperación
11
mediante conceptos y materias.
En conclusión, el proceso de indización consiste en:
Representación, por medio de palabras, conceptos o temas del contenido
fundamental del documento original o bien del contenido fundamental de las
solicitudes de información del usuario.
El proceso de indización, por lo tanto, es un proceso doble:
♦ Los documentos se indizan una vez que han entrado en el sistema.
♦ Los términos de indización obtenidos se convertirán en datos de un acceso a los contenidos
documentales de una base de datos o de un catálogo o de un motor de búsqueda, permitiendo
la posterior recuperación de los mismos.
En la etapa de recuperación de información, los usuarios se dirigen al sistema solicitando información, para
satisfacerlos es necesario hacer compatible su interés con las características de los documentos, y para ello se
procede a la indización de sus preguntas.
Para que exista esta coordinación o compatibilidad entre la indización de los documentos y de las preguntas,
es útil la aplicación de un lenguaje documental que nos guíe y haga posible que indizadores, documentalistas
y usuarios utilicen la misma terminología o los mismos significantes para los mismos significados, para que
de esa forma la recuperación, fin del proceso de indización, funcione de una manera correcta, se le suele
denominar consistencia de indización.
PROCESO DE INDIZACIÓN
Comprende varias etapas, según Chaumier y Lancaster estas etapas son dos:
• Reconocimiento y extracción de los conceptos informativos.
• Traducción de estos conceptos al lenguaje documental.
La primera es dividida por Rowley en tres:
• Familiarización con el contenido y materia del documento a indizar.
• Etapa de análisis, en esta se decide que materias representa el tema principal del documento y deben ser
indizadas.
• Selección de términos representativos del documento analizado.
Las etapas del doble proceso de indización son 4:
• Recuperación del contenido documental.
• Identificación de las nociones principales.
• Selección de los términos de indización.
• Normalización de los términos de indización.
RECONOCIMIENTO DEL CONTENIDO DOCUMENTAL
Se procederá a la lectura, visionado o audición del documento referidos en las Bibliografías, estos tienen
partes neurálgicas con mayor riqueza conceptual y terminológica, y serán aquellas a las que acuda el indizador
cuando no exista la posibilidad de leer el documento completo, como el caso de la indización de libros, estas
12
partes neurálgicas son el título, sumario, índice de materias, introducción, párrafos entrada capítulos,
conclusiones generales y las de las distintos capítulos, los enunciados de tablas y figuras, frases y términos
destacados, y por último el resumen.
IDENTIFICACIÓN DE LAS NOCIONES PRINCIPALES
A medida que realiza la lectura, el documentalista identifica los conceptos de que trata el documento, y dado
que el autor del documento trabaja en un contexto determinado, interesado identificar los objetivos del análisis
realizado por el autor, la metodología utilizada, los resultados obtenidos y las conclusiones derivadas de esos
resultados. El indizador, además de intentar comprender el documento, tendrá que ponerse en el lugar de los
usuarios potenciales de documento y determinar el contenido informativo mediante la identificación de las
ideas que constituyen la razón esencial de que el documento haya sido publicado, pasando por alto todas las
informaciones superfluas, marginales o precisas, de un modo que pueda evitarse el ruido en la recuperación, y
detectando posibles informaciones implícitas, es decir, informaciones desarrolladas pero sin determinar, lo
que permitirá evitas el silencio en la recuperación.
Una indización correcta se logrará si el indizador se plantea las cinco cuestiones del paradigma de Laswell:
♦ Quien
♦ Que
♦ Cuando
♦ Como
♦ Donde
Respondiendo a estas cuestiones, se obtendrán términos de indización onomásticos, temáticos, cronológicos y
geográficos, para que este proceso se lleve a cabo correctamente, el analista deberá tener un conocimiento
suficiente del tema.
SELECCIÓN DE LOS TÉRMINOS DE INDIZACIÓN
Una vez identificados las nociones principales, y previamente a su extracción, es necesario estudiarlas
basándose en las relaciones entre las posibles palabras clave, pueden ser:
• Sinonimia: Equivalencia
• Antónimos: opuestos
• Pertenecer a una misma cadena, unos conceptos engloban a otros.
Se seleccionan entre los sinónimos uno, el que represente mejor al concepto, entre los antónimos también solo
se selecciona uno. Entre los conceptos de la misma cadena jerárquica, se plantea que los aspectos jerárquicos
están más desarrollados, se eligen, en caso contrario, se prefiere uno mas genérico que lo englobe. Habrá que
procurar evitar los homógrafos, se escriben igual pero con distinto significado.
Hay que componer algunos términos para evitar falsas combinaciones en la recuperación, y posteriormente se
extraen los términos, siempre teniendo presentes los objetivos del Centro de Documentación, las necesidades
de los usuarios, los documentos ya memorizados y los imperativos del sistema documental, dado que cada
centro tiene unas necesidades diferentes, y, sobre todo, unos usuarios distintos la indización puede ser
13
selectiva.
Ej.:
Enseñanza − Política
Historia − Economía
Política Económica
Enseñanza de la Historia
Economía Política
Historia de la Enseñanza
NORMALIZACIÓN
Si el centro que indiza, utiliza un lenguaje documental, es esta fase se introducirán las palabras clave extraídas
por medio del tesauro o lista de encabezamiento de materia, no obstante, independientemente de que se utilice
o no un lenguaje documental, en esta etapa se procede, cuando el documento está en una lengua distinta de la
del centro a la tradición de los conceptos, a la lengua del indizador y a su normalización, para ello el indizador
toma simplemente las designaciones de los conceptos tal y como las encuentra en el documento, y tal y como
las ha traducido, o tal y como las ha enviado el mismo para los conceptos implícitos que ha continuación
procede a normalizarlos, transformando las formas verbales y adjetivas en formas nominales, poniendo el
masculino plural, las formas en femenino y / o singular, desarrollando las siglas etc.
Si consta de un solo término, será sustantivo y será plural, cuando sea contable, en singular solo nombres
abstractos y nombres de disciplinas.
Documento a registrar Demanda del usuario
Indicación ( Análisis del documento, Traducción L.D) Codificación de la pregunta
Almacenamiento Búsqueda en el sistema
En el sistema.
Base de datos Comparación entre los términos (descriptores)
O asignados al documento / pregunta
Catálogo
O
Motor de búsqueda
Respuesta
Fin Tema 5
TEMA 6: LOS PRINCIPIOS Y PARÁMETROS DE LA INDIZACIÓN
La selección de los términos de indización se hará también siguiendo unos principios determinados:
• PRINCIPIO DE PERTINENCIA: También denominado Principio de Relevancia, medido en contexto, en
cuanto al documento que se esta indizando. Un termino de indización es pertinente, paralelamente al grado
de adecuación que tenga con respeto al documento que lo contiene, la frecuencia de repetición de un
termino o de sus sinónimos en un documento, suele ser un indicador correcto para medir la relevancia o
pertinencia, existe una relación directa entre las cotas de relevancia o pertinencia alcanzadas por los
14
términos de indización y la eficacia de estos términos en la recuperación.
• PRINCIPIO DE PROFUNDIDAD: Este factor se mide también en el contexto del documento que se está
indizando y se mide desde dos puntos de vista:
• Extensivo: Aquel del que se extraen términos de indización, estará indizando más profundamente.
• Intensivo: Aquel documento indizado con términos más específicos, estará mas profundamente indizado
que el que contengo términos más genéricos.
La profundidad, desde el punto de vista extensivo o cualitativo, se corresponde con lo que se llama
exhaustividad y la profundidad, desde un punto de vista intensivo o cualitativo, se corresponde a lo que se
denomina especificidad o precisión.
EXHAUSTIVIDAD
Mide la calidad en la elección de los conceptos realmente significativos, es decir que
contienen información pertinente para los usuarios
Una exhaustividad demasiado reducida, hará que no se recupere los documentos relevantes, y por tanto
desciende la tasa de respuesta y aumentan los silencios. Una exhaustividad demasiado alta hará que se
recuperen documentos que no tengan información pertinente sobre los conceptos de la consulta, por tanto hará
que disminuya la pertinencia o la relevancia, y aumente el ruido al aumentar la tasa de respuesta o
exhaustividad.
Depende, fundamentalmente, de la política de indización de centro, del personal disponible, de los medios
económicos, del volumen del material a indizar y la calidad del trabajo de los documentos, especialmente de
su capacidad de juzgar lo que es importante y lo que no lo es, y determinar conceptos implícitos, pero
fundamentalmente deberá depender de la cantidad de información a destacar, es decir la carga informativa del
documento.
ESPECIFICIDAD
Mide la calidad en la elección de los términos de indización de los conceptos incluidos
dentro del documento.
Se distingue:
• Vertical
• Horizontal
VERTICAL: Se refiere a que el termino/s de indización deben situarse en el mismo nivel de precisión del
concepto, o por defecto en el nivel jerárquico inmediatamente superior, una correcta especificidad vertical
hace que aumente la relevancia en la recuperación.
Es también denominado Regla de Precisión, esta la da Ritchter, autor que señala que un termino utilizado para
designar un tema debe tener rigurosamente la misma extensión que el, aunque precisa también que es
necesario indizar a niveles también generales.
HORIZONTAL: Un concepto compuesto debe ser traducido por unos términos de indización compuesto,
antes que por la asociación de palabras clave simple.
Una buena especificidad horizontal, hace disminuir el riesgo de falsas ampliaciones, y por tanto que aumente
la relevancia de la recuperación. Depende, de la política del centro, del personal disponible, de los medios
15
económicos y de la calidad del trabajo del indizador, es decir, conocimiento de la materia y su habilidad para
trasladarnos el conocimiento a conceptos, y estos a términos de indización.
Dependerá, del volumen y de la naturaleza del material a indizar, un artículo de una publicación periódica se
indizara con mayor profundidad desde un punto de vista intensivo que un libro, puesto que se le asignaros
términos más específicos que a este, igualmente una foto se indizara con términos más precisos o específicos
que una colección de ellas, a la que se asignara términos generales que las describen todos.
La exhaustividad y especificidad, están relacionados directamente:
Una mayor exhaustividad implica, generalmente, una mayor especificidad, puesto que la mayor
exhaustividad, permite representar los conceptos más concretos, por el contrario, una menor exhaustividad,
generalmente significa una menor especificidad, puesto que habrá de buscar términos más generales que
abarquen varios conceptos.
La profundidad media de indización utilizada, se sitúa entre 8 y 12 términos de indización y según Chaumier,
el tiempo que se dedique a esta no influye, puesto que si para una profundidad media de indización de 10
palabras clave, el tiempo que se emplea de media es unos 20 minutos.
Van Slype, dice que la indización humana requiere de 5 − 15 Minutos, depende del tamaño del texto a indizar,
su complejidad, profundidad, indización y de lo familiarizado que muestre el indizador con el tema y la
lengua del documento.
Vickery señala que en general los centros, tienden a aumentar el número de términos de indización, debido a
que el incremento del número de documentos analizados exigen un análisis más detallado y requieren unos
términos más específicos, y con ello se profundiza en la indización, tanto desde un punto de vista extensivo o
intensivo.
PRINCIPIO DE UNIDAD DE SENTIDO
Establecido por Ritcher, y se puede formular de dos formas complementarias:
• El término de indización no significa más de un concepto, lo que se refiere a que es indispensable evitar la
homografía y la polisémica.
• El concepto no puede ser representado más que por un término de indización, lo que hace referencia a la
necesidad de controlar la sinonímia, no a la eliminación.
Si no se observa este principio, se generará ruido y silencio en la etapa de búsqueda documental, ruido en el
primer caso si se emplean términos polisémicos y silencio en el segundo caso, si se emplean sinónimos.
Este principio hace referencia a la necesidad de valerse para la indización de un Lenguaje Documental, pero
va más allá, a la carencia de la indización, cuando es utiliza un lenguaje documental, el nivel de coherencia es
inferior al asequible, y oscila entre el 50 y el 80%.
PARÁMETROS DE INDIZACIÓN
Dado que la indización es un proceso doble, cuyo fin es la recuperación de los documentos o de los
contenidos documentales por parte del usuario, se necesita partir de los resultados obtenidos en la
recuperación para proceder a la evaluación y a la corrección, los parámetros de calidad de los sistemas
documentales son varios:
TASA DE COHERENCIA O CONSISTENCIA DE LA INDIZACIÓN
16
Se mide de la manera siguiente:
Dos documentalistas o dos equipos de documentalistas indizan el mismo documento, o conjunto de
documentos por medio de un mismo lenguaje documental, trabajando independientemente, no de otro. Una
vez realizado el trabajo, se cuenta separadamente para cada documento, por una parte el número de términos
de indización idénticos utilizados por los dos documentos y, por otra parte, el número total de palabras clave
diferentes utilizados por los dos analistas, la tasa de coherencia es la ratio (división) entre estos números, si de
los indizadores fueron utilizados 6 términos de indización comunes y un total de 12 diferentes estaríamos ante
una tasa de coherencia del 50 %.
Términos de indización comunes x 100 = %
Términos de indización diferentes
6 = 0,5 X 100 = 50 %
12
Se puede medir de un mismo indizador en dos momentos diferentes la medida regular de la tasa de
coherencia, permite un seguimiento de la calidad de información, un descenso de la cual, refleja un descenso
de calidad, y será preciso indagar las causas de dicho descenso. La coherencia de la indización dependerá de
los siguientes factores:
• Formación indizador
• Experiencia
• Utilización o no de un Lenguaje Documental que le guíe en la indización.
• tiempo que se disponga para realizarla.
• Revisión de esta indización o no.
TASA DE EXHAUSTIVIDAD O TASA DE RESPUESTA
Mide la eficacia de la recuperación, es el resultado obtenido de la ratio (división) entre el número de
documentos relevantes existentes en el sistema.
Número de documentos relevantes encontrados x 100 = %
Número de documentos existentes
Ej.:
45 = 0,75 X 100 = 75 %
6
Si en el momento de la interrogación se encontraran 45 documentos de los 60 relevantes recogidos en ese
centro.
La dificultad de este indicador, radica en conocer el cociente (Número de documentos relevantes por respecto
a una petición determinada existente en un fondo concreto).
Se suele medir estas tasas sobre muestras representativas del fondo documental, en principio una
exhaustividad muy alta en la indización, conduce a una alta respuesta o exhaustividad y también a una alta
17
tasa de ruido.
TASA DE SILENCIO
Es el inverso de la tasa de respuesta. Es el resultado de la ratio (División) del cociente entre el número de
documentos relevantes no encontrados y el número de documentos relevantes existentes, si tenemos un total
de 60 documentos relevantes para nuestra petición, y de ellos no recuperamos 15, tendremos una tasa de
silencio del 25 %.
Número de documentos relevantes encontrados x 100 = %
Número de documentos relevantes existentes
15 = 0,25 x 100 = 25 %
60
En principio, una exhaustividad muy limitada producirá una tasa de silencia muy limitada.
TASA DE RELEVANCIA
Las dificultades para medir la eficacia de recuperación con las tasas anteriores, hizo surgir otro criterio, la tasa
de relevancia, que consiste en la división entre el número de documentos relevantes encontrados y el número
total de documentos recuperados.
Número de documentos relevantes encontrados x 100 = %.
Número total de documentos encontrados
Si recuperamos 60 documentos, de los que 15 coinciden con nuestra petición, estaremos ante una tasa del 25
%.
La tasa de relevancia varía en sentido inverso a la tasa de respuesta o exhaustividad, cuando esta tasa crece, la
de pertinencia o relevancia decrece, si obtenemos una relevancia cercana al 100%, eso quiere decir que
estamos obteniendo prácticamente todos los documentos que nos pueden interesar, pero no solo documentos
relevantes, habrá también mucho ruido, si por el contrario, conseguimos acercarnos a una tasa de relevancia
casi del 100 %, eso quiere decir que solo vamos a obtener documentos relevantes con respecto a nuestra
petición, pero no todos.
No es posible, por tanto, conseguir un sistema que proporcione una total exhaustividad, y a la vez una total
relevancia, por tanto el indizador tendrá que ser consciente de la trascendencia de su tarea sobre la
recuperación y deberá escoger entre favorecer la exhaustividad o favorecer la relevancia, con bastante
frecuencia un usuario estará satisfecho si recupera varios documentos de un tema, siempre y cuando sean
pertinentes, estén en la lengua/s solicitada/s, publicados en unas fechas determinadas y con un nivel de
profundidad determinado, en este caso sería satisfactorio una mayor relevancia y una menor respuesta o
exhaustividad, y para lograrlo el documentalista indizara la petición del usuario de forma específica,
solicitando información sobre los conceptos más concretos de interés para el usuario. En otros casos, un
usuario puede querer todos los documentos que traten un determinado tema, y entonces se buscará una alta
exhaustividad, en detrimento de la relevancia de la respuesta, realizando una indización muy exhaustiva de la
petición del usuario, de la que se extraerán conceptos y también conceptos más generales, existe una relación
entre la relevancia y la exhaustividad en la recuperación y la profundidad dela indización en su doble vertiente
de exhaustividad y especificidad.
18
En principio, una indización en la que es extraen solo los conceptos más específicos, y que estén bien
desarrollados en los documentos, conduce a una baja tasa de exhaustividad, de una mayor tasa de relevancia y,
por tanto, habrá silencio. Al contrario, una indización muy exhaustiva en la que se traten muchos conceptos, y
esos conceptos en sus formas más concretas y en las más generales hace que se incremente la respuesta o la
exhaustividad acosta de la relevancia, cuantos más temas secundarios sean indizados en un documento o en
una demanda de información más documentos, serán recuperados, pero en muchos casos, pero en muchos
casos, serán documentos que solo traten el tema marginalmente, se producirá, por tanto, mucho ruido, por esta
razón la exhaustividad y especificidad de la indización, son responsables, en parte, de la relación inversa
existente, entre la tasa de exhaustividad y la tasa de relevancia.
TASA DE RUIDO
Contrario a la tasa de relevancia.
Número de documentos no relevantes encontrados x 100 = %
Número total de documentos encontrados
Si la tasa de relevancia es de un 25 %, la de Ruido será del 75 %.
Fin tema 6
TEMA 7: SISTEMAS DE INDIZACIÓN
Se entiende como el conjunto de procedimientos preescritos para organizar los contenidos de los registros de
información a fin de su recuperación y difusión.
Como señala María Pinto Molina, un documento engloba, generalmente más de un concepto cuya
yuxtaposición conforma el tema, y esos conceptos se expresan formalmente a través de palabras.
La indización puede llevarse a cabo sobre las palabras, sobre los conceptos o sobre los temas, dando lugar a
tres sistemas de indización:
• Indización por Unitérminos
• Indización por descriptores
• Indización por materias.
INDIZACIÓN POR UNITÉRMINOS.
Indización que se realiza a partir de palabras, es la más sencilla, porque se expresa con mucha facilidad los
conceptos y los temas combinando las mismas palabras, pero presenta también inconvenientes, las palabras
pueden carecer de significación propia o ser ambiguas, y además la combinación de unitérminos puede dar
lugar a falsas combinaciones, y por tanto producir ruido durante la etapa de recuperación.
Esta indización es libre, o derivada del texto, en ella se extraen los términos tal y como figuren en los
documentos.
INDIZACIÓN POR DESCRIPTORES
Indizaciones controladas o asignadas que utilizan un lenguaje documental, los tesauros y las listas de
encabezamiento de materia respectivamente, en estos dos sistemas (Descriptores y materias), los términos
extraídos del documento se traducen por los aceptados en el lenguaje documental que el centro utilice.
19
La utilización de un lenguaje documental, posibilita búsquedas más precisas, dado que los lenguajes que
utilizan guían al usuario en la búsqueda, permitiéndole conocer los términos o expresiones mediante las cuales
se han indizado y almacenado los documentos de su interés.
Tanto en la indización por unitérminos, como en la indización por descriptores, la combinación de las palabras
o de los conceptos para expresar el tema de los documentos, se produce en el momento de la recuperación, y
por ello se llaman sistemas de indización postcoordinados.
Tienen la ventaja de que son más sencillos de utilizar que los precoordiandos, porque todos los unitérminos y
todos los descriptores tienen el mismo rango jerárquico, lo que viene a decir que todos son tratados al mismo
nivel, menos que se trate de una noción de materia geográfica o cronológica por todos ellos se puede
recuperar el documento, la reconstrucción de las materias complejas pasa a ser tarea del que hace la búsqueda.
El sistema de indización por descriptores, tiene ventaja sobre el sistema de unitérminos, porque evita la
posible ambigüedad, porque no se basa en las palabras, sino en los conceptos, cada concepto serán términos
de indización, en algunos casos constará de una sola palabra (sustantivo), y en otra de un sintagma nominal
completo, ello permite evitar las falsas combinaciones, y como dice García Gutiérrez, supone un salto
cualitativo importante, porque se pasa de la indización a partir del significante, la indización a partir del
significado.
En la etapa de búsqueda, el proceso de indización es el mismo que en la etapa de indización, se extraen los
conceptos de la demanda del usuario y se traduce al lenguaje documental, en el caso de que se utilice, pero
además en la indización postcoordinada existe una ultima etapa, que es la formulación de las preguntas bajo la
forma de ecuación, en la indización postcoordinada, da el esfuerzo de síntesis, se ha desplazado hacia la
búsqueda, el indizador se ocupa del análisis, y el que busca dela síntesis, esta formulación se efectúa con la
ayuda de los operadores boléanos, del álgebra lógica, y también con la de cierto número de operadores
sintácticos, como son los operadores de comparación a distancia, el truncado etc, pese a que la indización por
descriptores es, en muchos sentidos superior (favorece la recuperación) a la indización por unitérminos, esta
no solo se ha abandonado, sino que se ha visto potenciada con Internet, sus índices y sus motores de búsqueda
fundamentalmente, también las bases de datos permiten búsquedas a partir de los unitérminos de los
descriptores, encabezamiento de materia en los catálogos, títulos, resúmenes y del texto integro.
La indización por descriptores, es la de mayor uso en las bases de datos, que junto a las referencias suelen
ofrecer los descriptores y el resumen, y la de mayor uso en los Centros de Documentación.
INDIZACIÓN POR MATERIAS
Consiste el la correlación sucesiva de diferentes encabezamientos, cada uno representa un concepto que
expresa el tema/s de un documento, es, por tanto, una indización precoordinada, porque la combinación entre
los conceptos se produce en el momento de la indización, y su principal ventaja es que elimina cualquier
riesgo de falsas combinaciones entre los términos, ya que cada cual ocupa su posición.
Encabezamiento de materia − subencabezamiento de materia − subencabezamiento topográfico −
subencabezamiento cronológico − bibliotecas − automatización − España − 1995− 2000 − Estadísticas.
POSTCOORDINADOS
Automatización/ Bibliotecas / 1.995 − 2000/ Estadísticas.
Indización
Unitérminos
Palabras
Vocabulario
Libre
Coordinación
Postcoordinado
Uso
Motores de
Búsqueda
20
Derivada
(Búsqueda o
recuperación)
Preecoordinado
Bases de datos,
Centros de
Documentación
Catálogos
(Indización)
Bibliotecas
Controlado
Indización por
descriptores
Conceptos
Indización por
materias
Temas
Postcoordinado
(Tesauros)
Controlado (Listas
de Encabezamiento)
Tiene también algún inconveniente, el fundamental es que cuando es necesario expresar varios temas, hay que
utilizar y repetir los mismos conceptos varias veces, lo cual es muy engorroso. Otro problema, podía consistir
en extraer los conceptos a utilizar para componer el tema, no es tan fácil saber ordenarlos correctamente, y
más difícil que el usuario sea capaz de acertar con el orden en que esos conceptos sean situados, y de esa
manera encontrar el documento requerido, esto hace que tradicionalmente la recuperación por medio de
encabezamientos de materia, haya sido complicada, porque solo era posible acceder a las materias por el
encabezamiento principal, las búsquedas tenían que ser realizadas secuencialmente.
Los encabezamientos de materia fueron ideados como descripciones temáticas que el usuario fuese capaz de
identificar más que de formular.
• Biblioteca pública − Automatización − España − 1.995 − 2000 − Estadísticas.
• Biblioteca Universitaria − Automatización − España − 1.995 − 2000 − Estadísticas.
La indización por materias, en las fichas tradicionales, los encabezamientos de materia, se hacen constar en el
asiento principal, al final de la descripción bibliográfica, numerado en cifras arábigas, y en una segunda serie,
antes de los encabezamientos secundarios, relacionados con la catalogación formal y numerados con cifras
romanas, los asientos del catalogo de materias se forman anteponiendo el encabezamiento de materia al punto
de acceso del encabezamiento principal.
Fin Tema 7
TEMA 8 : LA NORMALIZACIÓNY LA AUTOMATIZACIÓN DE LA INDIZACIÓN. LOS ÍNDICES
En cuanto a la normalización de la indización, esta se ha orientado en un doble sentido, en lo que se refiere a
la indización en lenguaje natural, la UNESCO mediante su programa UNISIST, ha desarrollado acciones
encaminadas a aumentar el número de diccionarios científicos y técnicos disponibles, y a fomentar la
normalización de la terminología científica. Por su parte, la ISO ha dictado normas sobre la presentación de
las palabras clave, que serán idénticas a las que rigen para los descriptores.
• palabra clave, si es Unitérmino (una sola palabra).
• Será sustantivo, ante la generalidad de conceptos se elegirá el genero predominante, y si no hay predominio
el masculino.
• En cuanto al número, se elige el plural cuando sea posible, normalmente posible en los sustantivos
contables.
• Como regla general, se elige la forma desarrollada de los nombres.
• Se utiliza la secuencia lineal normal, se evita el realizar inversiones.
• Entre sinónimos, se procura utilizar la expresión más comúnmente usada, y la grafía más frecuente.
Por lo que se refiere a la normalización de la indización, el lenguaje controlado, tanto UNESCO como ISO, y
las organizaciones normalizadores nacionales, han publicado principios de construcción y presentación de
tesauros, también algunos casos, como el Español, aparecen normativas para la redacción de encabezamientos
de materia, como la realizada en 1.991 por la Biblioteca Nacional Española, que se titula Encabezamiento de
21
materia. Normativa para su descripción, publicada por el Ministerio de Cultura en 1.991, estos esfuerzos en
el campo de la indización no son muy efectivos, aun queda bastante por hacer, en cuanto a la normalización,
dado que la misma proliferación de listas de encabezamiento, y sobre todo de Tesauros en las dos últimas
décadas, va contra cualquier normalización y dificulta el intercambio de la información.
INDIZACIÓN AUTOMATIZADA
El método humano de indización es más preciso que el método automático, porque el ser humano tiene la
capacidad de leer en contexto, de improvisar y de adaptarse a lo nuevo, por su menor rapidez y porque
requiere mucho personal, resulta mucho más costoso que el método automático.
Según Van Slype, la indización automática es la operación que consiste en el reconocimiento por el ordenador
de los términos que figuran dentro del título, del resumen, del texto completo, en el caso de que se haya
almacenado en la base de datos, a veces también dentro de la indización humana, y a continuación emplea
estos términos, o bien tan cual, o bien después de transformarlos en otros términos equivalentes o
conceptuales próximos, con el fin de convertirlos en elementos que se incorporan al fichero de búsqueda, y
quedan disponibles para recuperar el documento.
Los sistemas de indización son sistematizados por Antonio García Gutiérrez de la manera siguiente:
• Sistemas de indización automatizada mediante calculo frecuencial: Son los primeros en aparecer, y
consisten en la captación simultanea de los términos de un texto y en contabilizar sus repeticiones dentro
del mismo texto, y con respecto a otros textos ya integrados en memoria. Problemas:
• Solo funcionan bien en campos temáticos, donde la terminología es muy estable y unívoca.
◊ Funcionan muy mal en los ámbitos de las Ciencias Humanas y de las Ciencias
Sociales, por las razones contrarias, se utilizan muchos sinónimos.
◊ El hecho de que un término se repita es síntoma en un 100% de su relevancia, se
pueden encontrar repetidos muchos términos que después no representan conceptos
que estén suficientemente desarrollados, estos métodos estadísticos tienen, sin
embargo, valor si van acompañados de otros recursos semánticos y lógicos.
• Sistemas de indización automatizada que utilizan léxicos para la indización, recursos semánticos o de
contenido: Estos sistemas consisten en utilizar para la indización un listado de términos de mayor o
menos complejidad que estará grabado en la memoria del ordenador y que permitirá comparar los
términos de los documentos con los términos almacenados.
Dentro de este sistema, existen algunos de mayor complejidad que otros, es el sistema más sencillo,
pero también es el menos eficaz, consiste en la utilización de términos Stop, en este caso la memoria
se nutre con partituras del léxico, articulo, preposiciones, conjunciones, adverbios etc. Con este
listado, el ordenador a la hora de indizar un documento omite estos elementos en su lectura lineal, al
contrastar los términos del documento con el fichero de términos Stop, de esta manera se evitan la
extracción de cientos de términos desprovistos de significación, pero obviamente el resto de los
términos existentes en el documento, puede tener significación pero puede no ser relevantes, y por
tanto el problema persiste.
• Introducir en el sistema del ordenador un antidiccionario: Este antidiccionario consistiría en un
glosario negativo. Además de los términos stop (no sustantivo), se inscribirán además, todos aquellos
sustantivos que con total seguridad no interesan para la indización de documentos de manera
determinada, se suele eliminar de algún diccionario o léxico los términos que pueden ofrecer algún
interés y volcar el resto en la memoria del ordenado, de esta manera cuando el ordenador procede a su
memoria lineal del documento, compara los términos del texto con los que se encuentran en el
antidiccionario, solamente cuando ese término esta ausente de ese antidiccionario, el ordenador
22
procede a identificar como posible palabra clave, después se extraerá como palabra clave si su
frecuencia es la que se ha establecido en el sistema. Problemas:
♦ Además de la complejidad que supone la fabricación del antidiccionario, existe una ausencia
en el significado que esa palabra sea relevante sin más.
♦ Los sinónimos aparecen como distintos conceptos.
♦ El usuario no tiene forma de saber cuando vaya a interrogar al sistema, cuales son los
términos que debe utilizar, es decir, los mayores problemas que presenta proviene en que se
basa en la coincidencia de significantes, no de significados, con lo cual en campos con poca
estabilidad temática los resultados son bastante mejorables.
• Utilización de lenguajes combinatorios: Normalmente suelen ser tesauros. Supone la incorporación en
la memoria del ordenador de un glosario de términos útiles, para la indización de campo temático
determinado, aquí se introducen los conceptos que se prevén útiles, y además se dotan de relaciones
entre ellos, de manera que se consideren todos los sinónimos y se relacionen los conceptos
jerárquicamente y de manera asociativa, como realización los lenguajes documentales. Ventajas:
♦ El ordenador podrá considerar ya los distintos sinónimos como un único concepto, y podrá
extraerlo aunque haya recibido diferentes denominaciones.
♦ Mediante este sistema, el ordenador captará solamente aquellos términos admitidos por los
diseñadores del sistema, sin embargo, el hecho de que un concepto figure en un tesauro, que
se utiliza para la indización de un área completa, no significa que en ese concepto sea
relevante en el documento completo que se está indizando, incluso este concepto sea
relevante en el documento completo que se está indizando, incluso este concepto frustrará a
muchos, porque extraen documentos en los que efectivamente se encuentra el concepto
buscado, pero bien sin un desarrollo suficiente, o bien en contexto no deseado, ni siquiera un
tesauro es suficiente para ayudar al ordenador a captar el sentido o importancia significativa,
pero supone un paso adelante respecto a los sistemas anteriores, suponen un problema de
sinonímia y de los términos a utilizar por parte del usuario, ya que este puede consultar el
tesauro antes de realizar la búsqueda. Problemas:
◊ Complejidad para la construcción del tesauro.
◊ Coste elevado.
• Utilización de mecanismos lógicos: Estos pueden ser, por ejemplo, los sistemas de ponderación
conceptual, existe software suministrado con capacidad complementaria, que es la de reconocer la
valoración del concepto extraído en escalas codificadas, aunque la ponderación la realiza
normalmente el ser humano, este sistema permite evitar algunas decepciones al recuperar
información, ya que si la escala valorativa, ya que si la escala valorativa es, por ejemplo del 1 al 10, y
se solicitan conceptos a partir del nivel 8, se recuperan documentos donde ese concepto este bien
desarrollado cuantitativa y cualitativamente.
Hoy en día la investigación camina hacia métodos de análisis basados en la significación, los
desarrollos en el campo de la indización automática vendrán de los avances de la ciencia del texto que
consigan captar y explicar el texto desde el plano de la significación. La forma y la expresión, aunque
importantes, son meros canales para acceder al sentido. Los enunciados, las frases incluso pueden ser
perjudiciales para los resultados del análisis, pues contienen metáforas y en general muchos usos
coyunturales de la terminología que condicionan la condición que un ordenador puede hacer del texto.
Es necesario, por tanto, un método que permita homologar los resultados de los distintos analistas, y
de los sistemas automáticos. Para ello, se tienen que resolver dos cuestiones:
• Que se puedan detectar las propuestas principales del autor en ese documentos.
• Se puedan a continuación seleccionar.
Todos los avances en indización automática deberán abandonar los métodos de estructura lineal
basada en el significado, el ordenador tendrá que ser capaz de seleccionar término, no por su
23
presencia en el texto solamente, sino por su valor en el contexto del documento en que se encuentra y
tendrá que ser capaz también de determinar conceptos con significantes ausentes del texto, es decir,
tendrá que ser capaz de extraer conceptos implícitos en un documento, aunque no se encuentre
nombrados en él.
LOS INDICES
El producto de la indización son los índices. Rouly define los índices como una serie ordenada de
puntos de acceso que conducen desde la información conocida por el usuario a una información
adicional previamente desconocida. Su objetivo será contribuir a la recuperación de los documentos
almacenados. La mayor parte de los índices son alfabéticos, también de materias, de autores, de
lugares, cronológicos ...Entre los principales índices destacan:
KWIC
KWOC
DE CITAS
Key Word in context
Key Word Out of Context
KWIC: Hace aparecer cada palabra significativa normalmente del título o del descriptor, en una lista
alfabética con permutación del título para que la palabra seleccionada esté siempre en la misma
posición precedida y sucesiva por la que forman el contexto.
KWOC : Es un sistema en el que las palabras significativas del título o del descriptor se sitúan en
orden alfabético como encabezamiento que irá en orden normal de presentación.
DE CITAS: Son índices en que cada autor se citan sus propios trabajos y en cada trabajo se añaden
los lista de los nombres y las obras que lo citan.
DIFERENCIA ENTRE ÍNDICE KWIC E INDICE KWOC
Manual de Análisis Documental: fundamentos y procedimientos
Información Documentación.
El análisis Documental Fundamentos y procedimientos.
El Resumen Documental Principios y métodos.
Manual de Infor Y Documentación
Resumen Documental: Principios y métodos.
KWOC
El término significativo se extrae.
ANÁLISIS
Análisis documental: fundamentos y procedimientos.
DOCUMENTACIÓN
Manual de Información y Documentación.
24
DOCUMENTAL
El análisis documental: fundamentos y procedimientos.
El Resumen documental: principios y métodos
Fin Tema 8
TEMA 9: LA DESCRIPCIÓN SUSTANCIAL Y LA INDIZACIÓN DE DOCUMENTOS
VISUALES Y AUDIOVISUALES.
De entre los documentos no bibliográficos, es decir, que no utilizan la escritura como medio de
expresión, se distinguen dos grandes apartados, que se diferencian por la forma en que el receptor
percibe el mensaje del documento:
♦ DOCUMENTOS VISUALES: Son sincrónicos, es decir, presentan toda la información de
una vez.
♦ DOCUMENTOS SONOROS: Son diacrónicos, es decir lineales o secuenciales, presentan la
información a lo largo de un periodo determinado.
Existiría entre ambos, un tipo intermedio, que es el constituido por los documentos audiovisuales que
serían mixtos en su composición, entra a formar parte tanto la imagen como el sonido, y por tanto son
diacrónicos o lineales.
Por lo que se refiere a los documentos sonoros, su tratamiento es similar al que se utiliza para los
documentos bibliográficos, dado que el código de estos documentos es la lengua, y por tanto el mismo
código que el de los documentos bibliográficos. Para resumir o indizar un documento sonoro,
solamente hay que convertir el discurso hablado a discurso escrito, y proceder a continuación con las
mismas técnicas que se utilizan para resumir o indizar documentos bibliográficos.
La única dificultad que presenta los documentos sonoros, es la utilización necesaria de aparatos que
nos permita detener el discurso, dar marcha atrás, volver a escucharlo etc.
Por el contrario, la imagen requiere procedimientos propios para su tratamiento, debido a que el
código distinto al código verbal que utilizamos mayoritariamente para comunicarnos los seres
humanos, en este caso se trata de un código icónico que habrá de traducir el código verbal, y ello
presenta bastantes peculiaridades y complicaciones, la imagen requiere procedimientos propios, por
que esta menos codificada, y contiene en general información menos evidentes o menos concretas.
PECULIARIDADES DE LA IMAGEN
♦ Cualidad sintetizadora o sincrónica: Una imagen es de por si, un resumen, porque como
hemos dicho, la imagen presenta toda la información a la vez.
♦ La imagen es transporte: Es como un espejo, muestra la realidad tal y como es.
♦ Flexibilidad o adaptabilidad: La imagen puede servir para ilustrar en muchos más contextos
que un texto escrito.
♦ Polisémica: Dado que es flexible, es muy propensa a las divergencias interpretativas.
En virtud de la separación existente entre lo que lo imagen denota y lo connota.
CONDICIONANTES DE INDIZACIÓN DE DOCUMENTOS VISUALES Y
AUDIOVISUALES
25
Las imágenes son signos icónicos, aparentemente poco codificados, su interpretación depende de unos
factores:
• Esfera cultural del analista, y del poder evocador que las imágenes le sugieren.
• Del contexto en que se encuadre la imagen: Si pertenece a una serie o reportaje, esa serie condiciona
el análisis de la imagen individual, pues la impregna con significados comunes que no aparecerán
necesariamente en cada una de las imágenes.
• Texto que acompaña a la foto o sonido que acompaña a la secuencia, dado que ambos ayudan a dar
una dirección determinada de interpretación.
METODO DE INDIZACIÓN DE LAS IMÁGENES
El análisis de contenido de una imagen, se articula en dos niveles diferentes:
• ANÁLISIS MORFOLÓGICO: De los aspectos técnicos y compositivos de la imagen, que son
fundamentales a la hora de la recuperación, ya que define el tipo exacto de estructura de la secuencia
o de la foto, y ello determina que sirva o que no sirva para el uso que el especialista gráfico del
periodo o realizador de televisión necesiten.
• ANÁLISIS DEL CONTENIDO PROPIAMENTE DICHO: El primer paso a dar, es traducir ciertos
elementos de esa imagen, desde un código icónico a un código verbal, lo que plantea perdidas de
significado, dado que no existe imágenes de conceptos, sino imágenes de realidades, la dificultad con
la que nos encontramos, es que debemos nombrar aquello que estamos viendo, es decir, traducir
imágenes de realidades concretas a conceptos, y ello supone perdidas de significado, implica que el
análisis de las imágenes, sea siempre completo, porque el paso de un medio a otro supone una
selección dentro de las casi inagotables posibilidades del documento en imagen.
Este análisis tiene como dificultad, que hay que reconocer y nombrar lo que aparece en la imagen,
tarea a veces complicada, porque además se trata de nombrar ese objeto, sin posibilidad de recurrir al
documento, y derivar de los términos que representan a los conceptos seleccionados, como sucede con
los documentos escritos.
En segundo lugar se procederá a una lectura descriptiva de la imagen para identificar lo denotado por
ella, la analogía que existe entre la imagen y el referente que de ella tiene el indizador permite al
observador identificar el contenido. El método de análisis a realizar debe permitir señalar personajes,
lugares, tiempos y acciones, es decir, se debe preguntar quien aparece, que, como, donde y cuando.
En tercer lugar, dado el carácter polisémico de la imagen, se atenderá a la connotación, aquello que no
aparece en la imagen, pero que la imagen sugiere.
En cuarto lugar, atender al contexto, marco de referencia en el que se sitúa la imagen, ese contexto
vendrá indicado por el texto que acompaña a la foto, por el sonido que acompaña a la secuencia, este
limitará en cierta medida las posibilidades interpretativas de la imagen.
En quinto lugar, tras analizar la imagen, su denotación, connotación y contexto, habremos obtenido
unas nociones y conceptos representativos de su contenido que se traducirá en palabras clave de
carácter onomástico, geográfico, cronológico y temático, dentro de las temáticas (abstractos, objetos o
personas, actitudes), para el análisis de la imagen, debido a su complejidad, es de gran utilidad los
formatos que evitan el olvido en la extracción de datos de interés.
Tema Página 41 de 41
26
Descargar