Contenidos del Máster en Documentación Digital Artículo 2.3. El análisis de contenido: procesos, herramientas y perspectivas Autor: Silvia Arano Usuario: Ines Frade Miguez. Tipo de página: Contenido. Fichero: pag205.htm [imprimir] · [exportar a Openoffice] Citación recomendada: Silvia Arano. Artículo 2.3. El análisis de contenido: procesos, herramientas y perspectivas [en línea]. En Cristòfol Rovira; Lluís Codina (dir.). Máster en Documentación Digital. Barcelona: Área de Ciencias de la Documentación. Departamento de Comunicación Audiovisual. Universidad Pompeu Fabra, 2009. http://www.documentaciondigital.org Sumario 1. El contexto del análisis de contenido: el proceso documental 2. El análisis de contenido 2.1. La metodología del análisis de contenido 2.2. Los procesos del análisis de contenido 2.2.1. La clasificación 2.2.2. La indización 2.2.3. La elaboración de resúmenes 2.3. Las herramientas del análisis de contenido: agentes para representar y recuperar la información 2.3.1. L os lenguajes documentales tradicionales 2.3.2. La nueva generación de herramientas documentales 3. Comentarios finales 4. Bibliografía 1. El contexto del análisis de contenido: el proceso documental El proceso documental , llamado también cadena documental o flujo informativo, se define como el "conjunto de fases concatenadas entre sí, a través de las cuales se da entrada y se analiza el documento para extraer de él la información y poder difundirla" . (Garrido 2002: 337) Las fases que lo conforman se orientan al ingreso del documento en una colección, al tratamiento necesario para utilización, y a la salida o difusión de dicho documento. Las fases se concretan por medio de las siguientes operaciones: • • • • Selección/Adquisición/Registro: punto de inicio del proceso documental a partir del cual los documentos se incorporan en la colección de un determinado servicio de información. Organización o Tratamiento: implica el procesamiento técnico del documento, tanto a nivel descriptivo (formal) como temático (de contenido). Recuperación: actividad orientada a obtener ante la eventual consulta de un usuario, una respuesta a partir de la colección que se consulta. Diseminación: al momento de entregar o distribuir la información solicitada y recuperada en un determinado sistema. La organización o tratamiento es sin duda, la operación de mayor trascendencia en el proceso documental pues permite que los usuarios dispongan de los documentos requeridos, lo cual en definitiva es el fin último de la Documentación. Es en la organización o tratamiento donde se obtienen a través del análisis documental los elementos informativos que singularizan al documento con respecto de otros. Sin embargo, el análisis documental no es un fin en sí mismo, puesto que es un medio para resolver el problema ocasionado por la diversidad y cantidad de fuentes documentales existentes. La importancia del análisis documental se ha incrementado con el paso del tiempo, ya que actualmente el usuario dispone de un amplio espectro de documentos que pueden responder a sus necesidades. Esta diversidad y multiplicación de posibles documentos relevantes sitúan al análisis documental como el instrumento que ayuda al usuario a filtrar información en el momento de la recuperación. En definitiva, el análisis documental es una técnica formada por una serie de operaciones de análisis orientadas, valga la redundancia, al análisis y a la recuperación de la información, donde actúan como intermediarias entre el productor y el usuario de la información. El análisis documental implica un tratamiento descriptivo de las características externas (formales) e internas (análisis y representación del contenido) del documento. El análisis descriptivo (o formal) incluye la descripción bibliográfica (o catalogación) y el establecimiento de los puntos de acceso que determinan los nombres (autorías) de los responsables del contenido intelectual o artístico de la obra. La descripción bibliográfica o catalogación colecta elementos tales como autor, título, editorial, fecha de edición, número de páginas, idioma original, etc., y los transfiere según determinadas reglas a un soporte documental (ficha o registro informatizado).La catalogación es realizada de acuerdo a pautas de trabajo establecidas por normativa internacional, lo cual posibilita el intercambio y la interpretación de dicha información a nivel internacional. Las normas de catalogación más difundidas son las ISBD (International Standard Bibliographic Description ) y las Normas de Catalogación Angloamericanas ( AACR, Anglo American Cataloging Rules). Catalogar no es simplemente transcribir en forma mecánica según unas determinadas normas, sino que implica realizar esta recolección de datos de acuerdo a las pautas establecidas dentro de una política de catalogación. Es decir, la trascripción es influida por el tipo de documento que se describe, las características de la comunidad de usuarios a la que se atiende, y los criterios de profundidad y amplitud que se consideren necesarios para cumplir los objetivos del servicio de información. El establecimiento de los puntos de acceso proporciona al documento las entradas necesarias para integrarlo a una colección y luego recuperarlo en un catálogo. Recoge fundamentalmente tanto autores secundarios (personales y corporativos), como también puntos de acceso temáticos ya sea de forma alfabética o sistemática. El análisis de contenido se orienta tanto al análisis como a la representación de las características internas del documento. Por ser el objeto del presente artículo, lo abordaremos con detalle en el siguiente apartado. 2. El análisis de contenido Es la actividad, ya sea intelectual o automática a través de la cual se describen las características internas del documento, o sea, su contenido. Como parte integrante del análisis documental, su objetivo final es brindar los elementos que auxilian al usuario en la selección de documentos relevantes acordes con sus necesidades de información. Para una mejor comprensión de la naturaleza e importancia del análisis de contenido, detallaremos en los siguientes apartados la metodología para realizarlo, los procesos que involucra y las herramientas que utiliza. 2.1. La metodología del análisis de contenido Considerar la existencia de una sola metodología para el análisis de contenido es una tarea difícil, debido a que contempla tres procesos documentales: la clasificación, la indización y la elaboración de resúmenes. Sin embargo a efectos pedagógicos, siguiendo a Pinto Molina (2002), diferenciaremos las fases de lectura/comprensión , análisis y selección , que presentan las siguientes características: • Lectura/comprensión: debido a que el análisis de contenido no se agota en los documentos bibliográficos la autora denomina a esta fase de lectura/comprensión. Es la fase donde el analista despliega diversas estrategias cognitivas (según el tipo de documento que se considere) a fin de comprender el documento que se está analizando. Por ejemplo, si es un documento bibliográfico, la lectura del texto se orienta hacia su comprensión lingüística. • Análisis: en esta fase es cuando el analista decodifica, interpreta las estructuras y representa la información. Este análisis, a su vez, consta de dos partes, la selección y la interpretación. Una vez analizado el documento y aislado aquellas informaciones que consideramos importantes, es cuando mediante la selección se eliminan las frases y/o palabras que no son relevantes en el documento; por ejemplo, los conceptos repetidos. La interpretación de la información relevante nos habilita a asignar un contenido determinado. En esta situación tienen igual importancia todos los componentes que intervienen en la generación de un documento, ya sean de tipo lingüístico, situacional o discursivo. • Síntesis: es la fase final donde se presenta el resultado de la etapa de análisis. Es cuando el analista debe optar por una representación del documento, para lo cual deberá poner en práctica tanto cualidades y habilidades profesionales como conocimientos personales. Para la síntesis, tanto la clasificación como la indización utilizan herramientas documentales para representar el contenido de los documentos denominadas lenguajes documentales. 2.2. Los procesos del análisis de contenido Si bien la finalidad del análisis de contenido es sintéticamente proporcionar elementos descriptivos sobre lo que trata el documento, existen distintos procesos que nos ayudan en la representación de dicho contenido. Los procesos que permiten concretar al análisis de contenido son la clasificación, la indización y la elaboración de resúmenes. 2.2.1. La clasificación La clasificación es una actividad intelectual donde intervienen procesos de análisis, interpretación y reconocimiento, que aplicados a los documentos posibilitan obtener su representación. Dicha representación se materializa en un símbolo (denominado notación o símbolo de clasificación), que permite situar lógicamente al documento en relación a otros documentos y así facilitar su recuperación para un uso futuro. La clasificación utiliza un tipo de lenguaje documental, los llamados sistemas o esquemas de clasificación, que representan una organización del conocimiento humano en base a una división en clases. La aplicación de un sistema de clasificación tiene como resultado una organización sistemática, o sea por temas, de la colección de documentos sobre la cual se aplica. Clasificar implica un esfuerzo de síntesis, ya que en general los sistemas de clasificación solamente permiten representar el tema principal y algunos aspectos, y no todos los conceptos relevantes del documento. 2.2.2. La indización La indización, es el proceso de extraer los términos que muestran el contenido de un documento y luego representarlos por medio de un lenguaje libre o documental para su posterior recuperación. La representación de los conceptos que reflejan el contenido de los documentos se simboliza a través de los denominados términos de indización, que pueden ser tomados del lenguaje libre o natural (entendido como el propio lenguaje que figura y es utilizado en el documento por sus autores) o de un lenguaje controlado (que se toma de un lenguaje documental seleccionado con anterioridad). Los términos de indización se denominan en el campo del lenguaje libre palabras clave y, en el campo del lenguaje controlado encabezamientos de materia o descriptores , dependiendo del lenguaje documental que se utilice (listas de encabezamiento de materia o tesauros respectivamente). El producto de la indización es el conjunto de términos de indización (sean palabras clave, encabezamientos de materia o descriptores) que simbolizan el contenido del documento. La indización como proceso, debe tener en consideración la exhaustividad y la especificidad con que se realiza, pues ambas características inciden en la calidad del producto resultante. Por una parte, la exhaustividad está relacionada con la profundidad con que se indiza un documento. Teóricamente la asignación máxima de términos de indización que realiza un indizador es de 6 a 30, sin embargo en realidad el número de términos de indización asignados es generalmente de 8 a 12. Por otra parte, la especificidad está relacionada con la correspondencia entre los términos de indización seleccionados y los conceptos incluidos en los documentos a los cuales hacen referencia. Esta correspondencia se da tanto en sentido vertical, o sea en relación a los niveles de jerarquía conceptual; como a nivel horizontal, en relación a que a un concepto compuesto se debe corresponder con un término de indización precoordinado antes que con la asociación de términos de indización simples. Tanto la exhaustividad como la especificidad dependen de factores tales como la política y los objetivos de la indización, la calidad del trabajo y la capacidad profesional de los indizadores y las características del lenguaje documental utilizado. 2.2.3. La elaboración de resúmenes La elaboración de resúmenes involucra un proceso de condensación o síntesis del contenido de un documento en el cual se emplea el mismo lenguaje que utiliza el autor del documento, o sea un lenguaje libre. Es el proceso de análisis de contenido más complejo debido a que conlleva el esfuerzo cognitivo de sintetizar el contenido de un documento sin obviar elementos importantes y a la vez reconstruir la estructura de dicho documento en un modelo reducido. El resultado de la elaboración de resúmenes, es un texto breve y conciso, llamado simplemente resumen, resumen documental o abstract , que representa el contenido sintetizado de un documento determinado. Se pueden distinguir dos tipos de resúmenes según la extensión y elementos que incluyen, los indicativos y los informativos . Un resumen indicativo describe el contenido del trabajo original sin detallarlo. Menciona de qué trata el documento, a que hace referencia y solamente adelanta si proporciona información sobre resultados concretos. Su finalidad es fundamentalmente ayudar al usuario a juzgar la utilidad de la lectura del trabajo completo. Su extensión oscila entre 50 y 100 palabras. Un resumen informativo , incluye los enunciados del documento primario, detallando su finalidad, alcance, métodos utilizados en la investigación, resultados de su aplicación, conclusiones y recomendaciones. Se constituye en un anticipo del trabajo original, y en algunos casos puede sustituir su lectura. Su extensión tendría entre 100 y 200 palabras. 2.3. Las herramientas del análisis de contenido: agentes para representar y recuperar la información Para realizar el análisis de contenido es necesario contar con herramientas documentales que actúen como intermediarias en la interacción entre documentos y usuarios. Su función es representar el contenido de los documentos para posibilitar su posterior recuperación. La creciente digitalización del soporte informativo ha marcado un antes y un después en la concepción, elaboración y uso de las herramientas documentales, pudiendo identificar un grupo de herramientas documentales más tradicional y otro de nueva generación. Para dar cuenta de esta evolución, expondremos brevemente ambos conjuntos de herramientas documentales, el tradicional y el de nueva generación, en los siguientes apartados. 2.3.1. L os lenguajes documentales tradicionales Los lenguajes documentales, como ya habíamos avanzado, tienen como función principal la de ejercer de puente entre el mundo de los documentos y el mundo de los usuarios. La intención de dichas herramientas documentales es, a partir del análisis del lenguaje libre utilizado por los autores para escribir sus textos, codificar o traducir su contenido para que pueda ser entendible por la mayoría de las personas. Si bien son diversas las clasificaciones que existen de los lenguajes documentales, coincidimos con la perspectiva amplia de Gil Urdiciaín (1996: 22), en distinguir tres tipologías en base a los criterios de control terminológico (o control de vocabulario), coordinación de términos y estructura: • • • Tipología según control de vocabulario: lenguajes documentales libres (listas de descriptores libres) y lenguajes documentales controlados (sistemas de clasificación, listas de encabezamiento de materia y tesauros). La presencia del control terminológico tiene como principal ventaja la neutralización de las problemáticas relacionadas con la ambigüedad inherente a la lengua humana (presencia de sinonimia, polisemia, etc.). Tipología según coordinación de términos: lenguajes documentales precoordinados (sistemas de clasificación, listas de encabezamiento de materia) y lenguajes documentales poscoordinados (listas de descriptores libres, listas de palabras clave y tesauros). El criterio de coordinación remite al momento de combinación de los elementos que componen la representación. Si la combinación se realiza en el momento de la construcción del lenguaje documental o cuando se están analizando los documentos, estamos ante la precoordinación. En cambio, si la combinación se produce en el momento de la recuperación, estamos ante una poscoordinación. Tipología según la estructura : lenguajes documentales jerárquicos (sistemas de clasificación) y lenguajes documentales combinatorios (tesauros y listas de encabezamiento de materia). El criterio de estructura pone el acento en cuanto a si en el lenguaje documental prevalece la estructuración jerárquica, o por el contrario, los términos se presentan en forma de red donde se relacionan no solamente de forma jerárquica, sino que se existen otro tipo de combinaciones entre ellos. A continuación expondremos brevemente los tres tipos de lenguaje documental más utilizados tradicionalmente: las listas de encabezamiento de materia, los sistemas de clasificación y los tesauros. Listas de encabezamientos de materia (o de epígrafes) Son lenguajes documentales de vocabulario controlado que no responden a una estructuración conceptual, y que generalmente tienen una presentación alfabética. Las listas de encabezamientos de materia tienen un fuerte carácter precoordinado y representan a los conceptos a través de encabezamientos y subencabezamientos. Sin embargo, al no presentar una estructura conceptual, las relaciones que se establecen entre los encabezamientos tienen sólo la finalidad de lograr un control terminológico. En este sentido, se utilizan referencias de véase para el control de sinónimos y equivalencias, y referencias de véase además para indicar las relaciones asociativas o de inclusión con otros encabezamientos. El uso de las listas de encabezamiento de materia para el análisis de contenido generalmente se asocia al ámbito de las bibliotecas de carácter general y público, aunque en España también son utilizadas por las bibliotecas universitarias. El establecimiento de los encabezamientos de materia se asienta sobre los principios de: • • • • • especificidad, elección del encabezamiento más concreto que represente el contenido del documento economía, asignación del menor número posible de encabezamientos lingüístico, uso del lenguaje habitual y en el orden natural de las expresiones, uniformidad, aplicación homogénea de los encabezamientos para denominar a cada materia uso, las reglas de aplicación deben contextualizarse en función de la biblioteca y necesidades de los usuarios La utilización de las listas de encabezamiento de materia para el análisis de contenido, dadas sus características como lenguaje documental, presenta inconvenientes en cuanto a la economía del uso de encabezamientos que dificulta la adecuada representación de contenidos, la dificultad para lograr consistencia entre los indizadores, y debido q que realizan un almacenamiento y por lo tanto una recuperación de la información de un modo secuencial. Actualmente los procesos de construcción y representación de conceptos en las listas de encabezamientos de materia están en revisión, y se constata una tendencia hacia la tesaurización de dichas listas, puesto que comienzan a incorporar una mínima estructuración conceptual. Ejemplos: Lista de Encabezamientos de materia para las Bibliotecas Públicas / Ministerio de Cultura (España) Llista d'encapçalaments de matèria en català / Biblioteca de Catalunya Los sistemas (o esquemas) de clasificación Son lenguajes documentales que organizan en forma lógica una estructura conceptual y la representan mediante símbolos (denominados notaciones o símbolos de clasificación). La estructura conceptual de los sistemas de clasificación se basa en una división en clases, cuyo número es variable dependiendo del sistema (desde diez clases en el Sistema de Clasificación Decimal Universal, CDU, hasta cuarenta y siete, en la Colon Classification ). Las relaciones conceptuales que se establecen en los sistemas de clasificación son jerárquicas, de sinonimia y de equivalencia, y son utilizadas tanto para expresar la estructura conceptual como para realizar el control terminológico. La tipología de los sistemas de clasificación es muy variada. De acuerdo a su cobertura temática puede ser universales o especializados; puede tener bajo, medio o alto nivel de especificidad según la profundidad de los niveles jerárquicos que se incluyan; y también según su estructura pueden clasificarse como enumerativos, pre-facetados o facetados. Generalmente se componen de tablas principales, tablas auxiliares y un índice. La presentación es sistemática y es complementada por un índice alfabético. Las principales críticas a este tipo de lenguaje documental se realizan sobre todo a aquellos sistemas de clasificación con una estructuración enumerativa o pre-facetada. La estructuración enumerativa conlleva extensas tablas de clasificación, con poca flexibilidad de aplicación y altos índices de precoordinación. A su vez, la estructuración pre-facetada, también presenta inconvenientes debidos principalmente al peso excesivo de las relaciones jerárquicas, y también al poco margen de combinación entre notaciones. Una crítica general a los sistemas de clasificación es la poca flexibilidad y agilidad tanto para el almacenamiento como para la recuperación de la información. Debido a ello, tradicionalmente los sistemas de clasificación por su naturaleza sistemática, son vinculados con la ubicación física de los documentos, formando parte de la signatura topográfica. Sin embargo, no es posible descartarlos como elementos importantes en el proceso de recuperación de información, puesto que esta misma naturaleza sistemática ofrece asistencia al usuario en relación a la especificación y expresión de la necesidad de información (permite control de vocabulario, navegación jerárquica, independencia de la lengua, universalidad y especificidad). Ejemplos: Esquema de CDU para ISBN / Ministerio de Cultura (España). Colon classification / S. R. Ranganathan Los tesauros Son lenguajes documentales que organizan de forma semántica un determinado campo del conocimiento, haciendo explícitas las relaciones establecidas entre conceptos y otorgando un significado restringido de los términos que los representan. Las relaciones conceptuales habituales en los tesauros son las de jerarquía, sinonimia y de equivalencia. Los tesauros son una herramienta de control terminológico pues si bien se estructuran en base a conceptos, son lexicalizaciones seleccionadas (o términos) las que representan a dichos conceptos. Los tesauros pueden ser monolingües, monolingües con equivalencias o multilingües, de acuerdo a la cobertura idiomática sobre la que se construya. La forma de presentación del tesauro puede ser alfabética (orden alfabético de descriptores y no descriptores), sistemática (presentación estructurada de descriptores y no descriptores en función de categorías o jerarquías), o gráfica (exponen la estructura semántica de cada campo semántico que cubre el tesauro: estructura arborescente, diagramas de flechas o terminogramas). Se recomienda que al menos se combinen dos de estas formas de presentación en la construcción de los tesauros, de modo que se constituya en una herramienta con más elementos de ayuda para la recuperación de información. En caso de que la presentación no sea alfabética, se debe incluir un índice alfabético para permitir una rápida localización de los términos. Los tesauros son el tipo de lenguaje documental que se asocia en mayor grado con la recuperación de la información. Son reconocidos como las herramientas documentales que logran una mayor precisión en la recuperación, debido al auxilio de su estructuración conceptual y el control terminológico que realizan. Ejemplos: Tesauro de la UNESCO / UNESCO. Eurovoc Thesaurus / European Communities 2.3.2. La nueva generación de herramientas documentales El progresivo desarrollo de la tecnología tanto en el campo de la informática como en el de las telecomunicaciones ha propiciado el desarrollo de Internet, y una de sus tecnologías más flexibles, el World Wide Web (WWW), sector que actualmente se está consolidando en dos vertientes: la Web Semántica y la Web 2.0. La Web Semántica propone ser una extensión de la WWW dotando de significado a los recursos de información y posibilitando la automatización de los procesos. Es decir, lograr que las búsquedas sean sensibles a los distintos significados y contextos de los documentos y recursos en formato digital, y que los procesos de búsqueda y recuperación puedan ser interpretados y transmitidos por programas inteligentes. Para ello es necesario que los recursos de información incorporen puntos de acceso relativos a su semántica, y por lo tanto utilicen lenguajes de marcado y estructuras que lo permitan (XML, metadatos y ontologías). Asimismo, es necesaria la creación de nuevas estructuras conceptuales, por ejemplo las ontologías, para dotar de significados concretos y contextos a las diversas palabras que pueda contener una búsqueda. En cambio la Web 2.0, no se relaciona solamente con los cambios tecnológicos que la propician, sino que se asocia con un cambio de actitud, un giro hacia la construcción colaborativa de conocimiento. Es en este sentido, que si bien se producen cambios en las arquitecturas de información para dar paso al intercambio de conocimientos, con lo cual se afectan los procesos de concepción y gestión de las herramientas documentales, también se modifica el rol de los usuarios, que pasan de ser receptores pasivos a agentes activos en la promoción de espacios abiertos de colaboración e inteligencia colectiva. [NOTA: Tim O\'Reilly en el año 2005 proponía una "definición compacta" de Web 2.0 basada en el uso de las tecnologías: "Web 2.0 applications are those that make the most of the intrinsic advantages of that platform: delivering software as a continually-updated service that gets better the more people use it, consuming and remixing data from multiple sources, including individual users, while providing their own data and services in a form that allows remixing by others, creating network effects through an "architecture of participation," [http://radar.oreilly.com/archives/2005/10/web-20-compact-definition.html] La gestión documental es una más de las prácticas que se han influenciado y vinculado con estos avances, y específicamente el análisis de contenido no puede evitar los condicionamientos tecnológicos en sus tendencias actuales y perspectivas futuras. Estos condicionantes tienen influencia en el objeto del análisis (los documentos), en la forma de llevar a cabo los procesos del análisis de contenido (automatización de procesos, construcción colaborativa, etc.), en las herramientas que se utilizan (con contenidos semánticos), en el comportamiento del usuario (participativo) y en los productos de dicho análisis. La influencia en el objeto del análisis de contenido, los documentos, propicia un crecimiento exponencial de la cantidad de fuentes documentales y una diversificación de su tipología. Esto conlleva a una necesidad de dotar a los documentos en forma rápida y eficaz de descripción, identificación y elementos de localización. Por lo tanto, se requiere de una optimización del análisis de contenido, de forma que sea más consistente y preciso, y ello tiene consecuencias tanto para la metodología con que se llevan a cabo los procesos de dicho análisis, como para el rediseño de las herramientas de gestión y organización de la información, entre las cuales se encuentran los lenguajes y recursos documentales. El usuario no es ajeno a las condicionantes tecnológicas de Internet, y desde su perspectiva surge la necesidad de contar con estructuras de conocimiento que le posibiliten un acceso rápido y amigable a la información digital. Es así que el comportamiento de los usuarios ha cambiado, teniendo muchas veces una implicación directa, a través de la mentada Web 2.0, en la creación, gestión y uso de la información digital. En los apartados siguientes presentaremos las implicancias de las nuevas tecnologías en las herramientas del análisis de contenido. Los tesauros enriquecidos y otras herramientas documentales Recordemos que los tesauros representan la estructuración conceptual de un determinado campo del conocimiento, y proporcionan una organización semántica a través de la explicitación tanto de las relaciones establecidas entre dichos conceptos como del significado de los términos que los representan. Sin embargo, dicha estructuración conceptual, erigida como su principal fortaleza ante otras herramientas documentales, es también su punto débil, puesto que solamente se pueden recuperar los documentos que reproduzcan las relaciones estáticas y predefinidas con las que se ha estructurado el tesauro. Por ejemplo, si analizamos un documento del área de Medicina encontramos que se pueden establecer relaciones entre conceptos, analizando las formas verbales utilizadas en los textos, que van más allá de las consabidas relaciones de jerarquía, equivalencia o asociación utilizadas generalmente en la construcción de los tesauros. Un área de investigación actual en el campo de la lingüística es la detección automática de relaciones conceptuales en los textos a través del uso de las diversas formas verbales. Esta temática es tratada en profundidad en la tesis de Feliu (2004: 118 ) donde se analizan diversos fragmentos de textos de carácter especializado para comprobar si es posible detectar relaciones conceptuales mediante el marcaje de las formas verbales significativas y las palabras que relacionan. Un ejemplo, de los muchos que presenta en su tesis, es el análisis del siguiente párrafo: ?Essencialment es tracta de treballar de manera que (els efectes de la manipulació genètica) puguin ésser diferenciats de (les interaccions).? En dicho párrafo, el término efectes de la manipulación genètica tiene una relación de semejanza negativa con el término interacciones, relación conceptual que es evidenciada por la forma verbal diferenciados de. Actualmente, las tendencias de construcción y mantenimiento de tesauros buscan recoger los avances e inquietudes de investigación de áreas afines como la Lingüística y la Informática, por lo tanto se basan en la aplicación de metodologías provenientes del procesamiento del lenguaje natural y la inteligencia artificial (análisis léxico textual, filtrado de términos mediante algoritmos y obtención e integración de relaciones), realizando un salto cualitativo hacia la conversión en mapas de representación del conocimiento. Esta transformación se basa en la creación de relaciones singulares para cada dominio temático, la utilización de otras categorías gramaticales más allá de las sustantivas para la determinación de descriptores, la inclusión de nuevas categorías relacionales para vincular los recursos de información y las facetas, y el cambio de escenarios posibles para la clasificación y organización de contenidos. Estas nuevas características han hecho surgir formas alternativas a los lenguajes documentales habituales, como son los tesauros conceptuales, los tesauros de verbos, los mapas conceptuales, los topic maps y las folksonomías. Tesauros conceptuales Son redes semánticas en las cuales cada nodo contiene un único concepto semántico que puede tener una serie de descriptores asociados, los cuales también pueden ser identificados en la red de descriptores relacionados según las relaciones básicas de los tesauros: jerárquicas, asociativas o de equivalencia. La denominación tesauro conceptual se basa en la idea de materia (concepto) sobre la cual se determina un modelo de tesauro de relaciones asociativas (donde se aúnan términos y conceptos reales por similitud de sentido en el contexto específico del usuario), una red semántica conceptual (donde existen relaciones jerárquicas y asociativas) y un espacio conceptual donde se enfatiza la idea de dominio algebraico, definiendo las relaciones entre términos con mayor precisión que en los tesauros habituales. (Moreiro, 88) Son tesauros generados en un entorno de interoperabilidad, cuyo funcionamiento implica relacionarse con analizadores morfológicos, sintácticos y semánticos, bancos de datos terminológicos, bases de datos de conocimiento y ontologías. Es difícil encontrar un ejemplo de este tipo de tesauro en estado puro, pero recomendamos consultar el tesauro sobre arte y arquitectura de la Fundación Getty, que posee muchas de las características anteriormente descritas. Ejemplo: Art & Architecture Thesaurus Online / Getty Foundation Tesauros de verbos La inclusión de formas verbales en los tesauros, que tradicionalmente se han sustentado en los sustantivos, permitiría optimizar la indización y por lo tanto la recuperación de documentos de áreas del conocimiento más abstractas (por ejemplo la Informática) o de documentos que no tienen una estructura o temática definidas o incluyen información difícil de representar con los descriptores habituales (por ejemplo las imágenes en movimiento). Sumar la categoría verbal aporta riqueza semántica a la representación y recuperación de la información, puesto que las estructuras verbales se pueden relacionar con una determinada relación conceptual en un tesauro. Por ejemplo, si aislamos las formas verbales ?procede de? o ?venir de? por un lado, y ?se encuentra en? o ?se localiza en? por otro lado, permitirían definir una relación de tipo asociativa de procedencia. El objetivo de este tipo de herramientas es realizar un análisis léxico-semántico y de frecuencias de un corpus documental para crear una representación de dominio documental. La función principal de los verbos en un tesauro es la identificación del rol de una asociación mediante un verbo, con lo cual se multiplica el número de posibles relaciones, singularizando la estructura conceptual de un dominio determinado. Por ejemplo, no se utilizan los mismos verbos en los textos médicos que en los legales, por lo tanto las relaciones que se puedan establecer mediante los verbos analizando corpus documentales de esas temáticas serán diferentes. Actualmente no existen ejemplos operativos de tesauros de verbos. Mapas conceptuales Son una forma dinámica y visual de representar los contenidos gráficamente. Su desarrollo original proviene del ámbito educativo y tiene como finalidad la adquisición de nuevo conocimiento a partir de las estructuras cognitivas ya existentes, posibilitando la asimilación de los nuevos conceptos en forma de proposiciones. [NOTA: Es una técnica desarrollada originalmente por Joseph Novak y sus colaboradores de la Universidad de Cornell a partir de la Teoría del Aprendizaje Significativo de David Ausubel.] Los mapas conceptuales se estructuran a modo de gráfica cognitiva, donde los nodos (también llamados puntos o vértices) representan conceptos designados a través de un término y las palabras de enlace (también llamadas arcos o extremos) representan las relaciones conceptuales. Si tenemos dos o más términos (designaciones de conceptos) unidos por palabras para formar una unidad de sentido, como por ejemplo las sirenas son seres mitológicos, estamos frente a una proposición. De esta forma, un documento o un ámbito del conocimiento humano se puede representar como un conjunto de conceptos interrelacionados y dispuestos en forma de grafo. Ejemplo: MusicPlasma Topic maps Son documentos o conjunto de documentos SGML y XML, interrelacionados en un espacio multidimensional en el que las localizaciones son topics (temas). Su construcción está pautada por la norma ISO/IEC 13250-2002 (2a.ed.), la cual describe los tipos de objetos que forman un topic map y la sintaxis XML de representación e intercambio. Un topic map está compuesto por: topics (o sea conceptos desde los cuales se puede navegar), ocurrencias (apariciones o casos de los topics en los documentos) y asociaciones (relaciones entre los topics). Los topic maps son utilizados como herramientas para la gestión y la optimización de la recuperación de información. Como ámbitos de aplicación más frecuentes tenemos la navegación (ya que muestra todos los conceptos relacionados con el concepto central), la visualización de resultados de búsquedas (como árbol de hipervínculos, browser o gráfico) y la mejora de la recuperación de información en sí misma a partir de los mecanismos de inferencia y declaración de types (tipologías de topics). Ejemplo: Techquila's Topic Map World Topic Map Folksonomías También llamadas sistemas de clasificación colectiva, son una forma de organización de la información mediante la asignación de palabras clave a documentos y recursos de información de forma colaborativa y colectiva. Esta herramienta documental difiere bastante de los lenguajes documentales tradicionales, y aún de los de nueva generación pero basados en una estructura jerárquica de conceptos, puesto que la asignación de las palabras clave, llamadas tags o etiquetas, es una tarea cooperativa teniendo como única base el conocimiento propio de los usuarios o las etiquetas anteriormente asignadas libremente por otros usuarios. Dichas etiquetas representan categorías dinámicas que evolucionan de acuerdo a la participación de los usuarios, lo cual se diferencia completamente de las categorías temáticas definidas a priori por la mayoría de los lenguajes documentales habituales. Según Weiss (2005), el elemento clave y diferenciador de las folksonomías surge de las condiciones que reúnen las etiquetas: • • • • • • • • • están hechas por cualquier persona para crearlos se requiere de aprender pocas pautas se producen sin beneficio propio las ventajas de los usuarios crecen con la agregación no se rompen cuando hay datos incompletos se presentan en formas de conjuntos y no de jerarquías no están diseñadas a priori, por lo cual son mas flexibles no tienen autoría, nadie las centraliza ni controla son relevantes para los propósitos e intereses de un sitio web determinado Actualmente la utilización de las folksonomías en sitios tales como Flickr, del.icio.us, Technorati, Amazon o El Mundo (entre otros medios de comunicación digitales), tiene su fundamento en la utilización de sistemas de clasificación colectivos y compartidos mediante la asignación libre de etiquetas. Sin embargo, cabe destacar que dichos vocabularios no crecen indefinidamente, sino que tienen mecanismos intrínsecos de control, puesto que los usuarios tienden progresivamente a utilizar las etiquetas usadas por otros usuarios para definir un contenido, en tanto coincidan con su significado. De esta manera, también se potencian los términos con más frecuencia de uso, lo que a su vez funciona como evaluador de los contenidos con más consultas. (Rodríguez Peña, 2005). [NOTA: Se da el caso de ciertos recursos de información, como los periódicos digitales, donde las etiquetas no son asignadas por usuarios reales sino que son extraídas automáticamente de los textos] Por último, es interesante destacar que las folksonomías son una forma orgánica y democrática de clasificar la información que circula por Internet, con base en una arquitectura social que posibilita sumar las colaboraciones individuales para aprovechar el conocimiento de los otros. Ejemplos: Nube de términos de las noticias de elmundo.es Technorati 3. Comentarios finales El entorno digital está en plena etapa de expansión y consolidación e influye a todos los ámbitos del conocimiento y por supuesto a sus prácticas. La Documentación no puede evitar que su praxis se vea influenciada por lo digital, que ha irrumpido con fuerza en el campo de la representación y recuperación de información. La creciente consolidación de la Web Semántica y la Web 2.0 con las tecnologías asociadas a su desarrollo y los cambios en el comportamiento de gestión y recuperación de la información en contextos digitales, plantea la necesidad de cuestionarse los fundamentos de estructuración, representación, gestión y uso de las herramientas documentales. Las herramientas que hemos denominado en el artículo, de nueva generación, tienen la tendencia a generarse de forma automática o semi automática, buscando así bajar costos de actualización y mantenimiento. También es necesaria una revisión y profundización de las estructuras conceptuales, puesto que cada vez más es prioritario establecer relaciones conceptuales de significación específica para un dominio concreto del conocimiento. A ello se suma, el requerimiento de enriquecer las categorías de palabras que pueden utilizarse como palabras clave, dejando atrás la presencia absoluta de los sustantivos en las herramientas documentales. Otro aspecto a tener en cuenta, es la representación de dichas estructuras conceptuales, donde las redes semánticas tales como los mapas conceptuales y topics maps cada vez tienen más aplicaciones en la recuperación y búsqueda de información. Por último, es indudable la revolución que significa la gestión y utilización colaborativa de etiquetas para la tematización o clasificación de documentos y recursos digitales. Esta realidad ha venido para quedarse, puesto que el crecimiento de documentos y recursos disponibles no se estancará, y por lo tanto es económicamente inviable el mantenimiento de lenguajes documentales con predominancia de las estructuras jerárquicas. Las folksonomías son sistemas de indización abiertos, donde los usuarios crean libremente etiquetas que retroalimentan el sistema. De esta forma una etiqueta asignada por un usuario en un determinado momento se transforma en una categoría bajo la cual se agrupan varios documentos o recursos de información relacionados por el mismo tema, y de esta categoría también se beneficia el propio servicio que proporciona la infraestructura colaborativa. 4. Bibliografía Cobo Romaní, Cristóbal;Pardo Kuklinski, Hugo. (2007). Planeta Web 2.0. Inteligencia colectiva o medios fast food. Grup de Recerca d'Interaccions Digitals, Universitat de Vic. Flacso México. Barcelona / México DF. Feliu, J. (2004). Relacions conceptuals i terminologia: anàlisi i proposta de detecció semiautomàtica. Barcelona: UPF. García Marco, F. J. (1997). "Clasificación y recuperación de información". EN: Pinto, M. (ed.) (1997). Manual de clasificación documental . Madrid: Síntesis.p. 247-285 Garrido Arilla, M. R. (2002)."Fundamentos del análisis documental". EN: López Yepes, J. (coord). (2002). Manual de Ciencias de la Documentación .Madrid: Pirámide. p. 337-357. Gil Urdaciaín, B. (1996). Manual de lenguajes documentales. Madrid: Noesis. Lancaster, F. W. (1996). Indización y resúmenes: teoría y práctica. Buenos Aires: EB. López Yepes, J. (coord). (2002). Manual de Ciencias de la Documentación .Madrid: Pirámide. Moreiro González, J.A. (2006). La representación y recuperación de los contenidos digitales: de los tesauros conceptuales a las folksonomías. En: Tendencias en documentación digital / coord. por Jesús Tramullas Saz. Madrid: Trea. O?Reilly, T. (2005). Web 2.0: Compact Definition? En: O?Reilly Radar. [Consulta: 4 de noviembre 2009] Pinto Molina, M. (2002)."Análisis documental de contenido". EN: López Yepes, J. (coord). (2002). Manual de Ciencias de la Documentación .Madrid: Pirámide. p. 419-447. Van Slype, G. (1991). Los lenguajes de indización: concepción, construcción y utilización en los sistemas documentales .Madrid, Salamanca: FGSR, Pirámide. Weiss, A. (2005). The power of collective intelligence. En: netWorker, 9(3): 16-23. © Master en Documentación Digital (IDEC-UPF) 14/11/2010