Generación automática de resúmenes.

Anuncio
Generación automática de resúmenes.
Adelina Codina, Fátima Eixau, Pablo Villaplana, Laura Rubio.
1.-Introducción
2.-Proceso de compresión de los textos
3.-Métodos de representación automática en la elaboración de
resúmenes
4.-Métodos de evaluación
5.-PROYECTOS:
The Text Summarition Project
TIDES
SweSum Project
6.-PRODUCTOS:
COPERNIC
SWESUM
7.-Conclusiones
8.-Bibliografía
1.- Introducción
Ante la ingente cantidad de información almacenada en formato electrónico, al
hablar tanto de documentación científica como no científica, la sociedad ha
creado la necesidad de disponer de herramientas que permitan a los usuarios
procesar y representar el contenido de los documentos de forma pertinente y
fiable. Pensemos en el caso de Internet, contenedor de información que
podemos definir como una potente base de datos con un crecimiento diario
espectacular de documentos. No obstante resulta necesario destacar las bases
de datos de documentación científica o revistas electrónicas especializadas.
Las investigaciones en tecnologías de la información van dirigidas a solucionar
los problemas del exceso de información: La obtención, filtrado, clasificación y
extracción de información son ámbitos prioritarios en el campo de la tecnología
lingüística y del Procesamiento del Lenguaje Natural (PLN). Un problema
común que se plantea es la existencia de múltiples documentos sobre un
mismo tema, por lo que sería útil poder destacar y/o resumir las similitudes y
diferencias la información contenida en los documentos de una forma que
satisfaga las necesidades de los usuarios (1). Siendo imprescindible obtener
una adecuada representación del contenido.
La premura del tiempo y los costos elevados que derivan de su ejecución, ante
la inmediatez y la productividad exigidos en la sociedad de la información
permiten desarrollar de forma urgente un sistema de producción automática de
resúmenes. Diferenciamos dos tipos de resumen resultado de la combinación
de las metodológicas para la representación textual, exactamente son:
Resúmenes por extracción, consisten en una colección de términos, frases o
párrafos significativos que son considerados representativos del texto original y
que responden a unos criterios determinados.
Resúmenes por abstracción, consisten en un documento de nueva redacción
como fruto del tratamiento automatizado de la información del documento
original y para ello se precisa la conjugación de varias técnicas que pertenecen
aún al campo de la investigación básica, y con resultados poco satisfactorios.
2.Proceso de comprensión de los textos.
El proceso de comprensión o interpretación semántica del Lenguaje Natural se
aborda con un conjunto de técnicas informáticas para facilitar un procesamiento
del lenguaje y cuyo objetivo es la desambigüación a todos los niveles del
modelo sincrónico del lenguaje(2): morfosintáctico, sintáctico, semántico y
contextual. Los problemas en cada nivel se abordan de manera separada y se
toma la solución de cada uno como entrada para el siguiente con el fin de
simplificarlo.
Pasemos a comentar los niveles de Procesamiento de lenguaje natural (PLN):
a) Nivel morfológico. Se utiliza una técnica que consigue segmentar las
palabras permitiendo el truncamiento de los términos, mediante un analizador
morfológico basado en etiquetadores morfosintácticos capaces de abstraer las
categorías gramaticales léxicas en lugar de palabras por lo tanto facilita la
definición de las gramáticas y el proceso de análisis. Las etiquetas representan
las categorías gramaticales y los rasgos morfológicos y la información de
modo, tiempo y persona para los verbos. Esta primera fase es considerada
base del posterior análisis, y aunque no se consiga eliminar la incertidumbre o
ambigüedad de las frases, se puede utilizar como preprocesador de las
oraciones en PLN.
b) Nivel sintáctico. Se persigue la desambigüación de los términos, es decir del
sentido de las palabras. Este segundo nivel de la investigación puede ser
básica o más compleja. La más básica o superficial bastara para identificar los
componentes estructurales de las frases, sintagma nominal (SN), sintagma
verbal (SV) y sintagmas preposicionales (SP), etc. Un análisis superficial
consiste en dividir una oración en segementos no solapados que se
corresponden con ciertas estructuras sintácticas, sin establecer relaciones
funcionales de las mismas. Un análisis más complejo, especificaría las
relaciones entre los items de un texto (Barzilay,1997): referencia, elipsis,
conjunción, e incluiría marcadores de cohesión léxica que señalen dónde y qué
tipo de vínculos deben establecerse entre los elementos de una frase a través
de la selección de las palabras por reiteración, colocación y también utilizando
técnicas de encadenamiento de términos, en inglés “lexical chains”, referido a
la cohesión pronominal, repetición, equivalencia, para aproximarse a una
coherencia interna del texto y conseguir mayor calidad del resumen. Los
recursos lingüísticos que quedarían resueltos en este nivel son: las anáforas,
las catáforas y los deícticos.
El problema de la anáfora consiste en resolver relaciones de correferencia
existentes entre los sintagmas analizados. La catáfora agrupa los casos donde
la expresión anafórica aparece antes. Los deícticos son marcadores usados
para articular el enunciado o inscribirlo en un determinado discurso, son los
adverbios de tiempo y lugar, demostrativos y pronombres personales. En esta
línea se han desarrollado técnicas automáticas para la eliminación de palabras
vacías, a veces frecuentes en texto y con poca significación para resumen.
Cabe mencionar los necesarios procesos de steming basados en la
combinación de reglas y excepciones de la base de conocimiento, que
permiten controlar la existencia de palabras en distintas formas (tiempos
verbales, plurales...) reduciendo sus variantes a la forma léxica canónica.
c) Nivel semántico. El analizador semántico facilita la aplicación de
procedimientos de razonamiento que asigna significados a las estructuras
creadas por el analizador sintáctico. El problema primordial surge en el nivel
interpretativo del texto, la ambigüedad y la imprecisión del lenguaje, tratará de
resolverse en el tercer nivel. Si se pudiese transformar las estructuras lógicosemánticas en estructuras lógicas, el problema quedaría resuelto, puesto que
las estructuras lógicas son precisamente maleables y sometidas a procesos de
transformación y mecanización. En esta línea de investigación en inteligencia
artificial se combinan varias disciplinas, psicología cognitiva, lingüística y lógica.
El conocimiento semántico se representa mediante redes semánticas,
conceptos simples relacionados entre sí para crear estructuras conceptuales
complejas. Cualquier sistema que pretenda trabajar sobre la información
semántica de un documento precisa un módulo de desambigüación del sentido
de las palabras (Word Sense Diambiguation, WSD); esto incluye bases de
conocimiento sobre los términos y conceptos de cada dominio temático,
recursos como ontologías, recursos léxicos y diccionarios como único modo de
proceder a las interpretaciones. Precisamente es la escasez de estos recursos
léxicos los que obstaculizan la investigación de sistemas de PLN en español.
La aparición de diferentes WordsNet dentro del proyecto EuroWordNet , y en
particular el WordNet español, permitirá el desarrollo de aplicaciones que
puedan incorporar módulos de WSD en sistemas de PLN en español.
d) Nivel contextual o pragmático. Los sistemas de generación automática de
textos extraen parte del resultado final mediante una base de conocimiento,
una vez son identificados los fragmentos pasan al módulo de solución de
problemas donde se resolverá el perfil y el estilo adecuado, dependiendo de los
objetivos a satisfacer. Un módulo organizador del discurso transformará los
segmentos de frases en oraciones bién formadas en lenguaje natural. Y
posteriormente un módulo generador de frases construye el texto final en forma
de párrafos, para ello se insertan puntuaciones y posteriormente se ordenan las
oraciones en párrafos. Un gran precursor de este modelo de resumen es
Borko- Bernier. Debido a la gran proliferación de modelos y métodos en la
investigación de los procesos automatizadores del PLN y sus dosis de
combinación tan numerosas, se hace difícil la clasificación de unos sistemas o
métodos que son híbridos en su mayoría. En realidad se opta por establecer
dos grandes agrupaciones metodológicas para la representación textual según
se trate de métodos de extracción (basados en la estructura superficial) o de
sumarización (basados en la estructura retórica y/o profunda) y finalmente
hablaremos de métodos gráficos y relaciónales.
3. Métodos de representación automática del conocimiento en
la elaboración de resúmenes
Hemos considerado la clasificación en la automatización de resúmenes defendida por
Maria Pinto para explicar las líneas de investigación metodológicas del área de PLN,
agrupadas en tres grandes bloques:
-Métodos de extracción basados en la estructura superficial
-Métodos de sumarización, a medio camino entre resumen y extracto
-Métodos gráficos y relacionales
Pasamos a exponer brevemente las características y diferencias de cada bloque
mencionado.
3.1 Métodos de extracción basados en la estructura profunda
Caracterizados porque abordan el texto como cadenas de caracteres y apenas realizan un
análisis lingüístico. El documento final es un subconjunto de oraciones del texto.
Siguiendo a Paice, estos son los métodos estadísticos de extracción automática:
-Frecuencia de palabras
La selección de palabras clave realizada en atención a la frecuencia de repetición en la
frase.
-Palabras Clave del título
Selección sobre el título y encabezamientos, tras eliminar las palabras vacias.
-Localización de la información o posición en el texto
Lead method: Se considera que en cualquier texto lo importante aparece al
principio (o al final), se seleccionan las n primeras oraciones o párrafos.
Optimum position policy( OPP) : Las posiciones con mayor carga significativa
aparecen en posiciones dependientes del género, se precisa el aprendizaje automático de
las posiciones más prometedoras a nivel de párrafo y oración ( Lin,Hovy,1997 )
-Sintáctico
La extracción relacionada con la estructura sintáctica.
-Palabras temáticas importantes
La identificación de términos claves de contenido más frecuente o con frecuencia alta
en el documento que son escasas en el conjunto de documentos.
-Términos o frases significativas (cue phrases)
La selección se apoya en una lista de términos indicativos que tienen un peso en la
selección de las frases se diferencian tres clases según la relevancia:


Bonus phrases indicadores de términos con peso : Concluyendo.....,en
resumen.....,principalmente......
Stigma phrases indicadores de términos de escaso peso: Dificilmente.....,
imposible.....no..., Null phrases indicadoras de frases irrelevantes para la
selección.:Por contra..
-Relacionales
La extracción de información relevante se consigue utilizando representaciones
semánticas del texto. Por otra parte, Edmundson (4) propone un método lógico
matemático para la asignación de valores numéricos a las frases. Plantea cuatro modos
de selección de frases: palabra clave (key), entrada (cue), título y emplazamiento. Al
evaluar los experimentos se constató que la selección por entrada, título y
emplazamiento tuvieron ventaja frente a los de palabra clave, por tanto se eliminó este
método de selección para resúmenes automáticos.
Otra combinatoria de métodos interesante es la propuesta por ANES (Sistema de
Extracción Automática de Noticias) en base a métodos estadístico/heurístico sobre los
términos, determinando las frases más representativas(5). El análisis estadístico del
corpus documental se realiza a partir de las frecuencias asignándoles un peso a cada
término y un identificador. Utiliza una ecuación de frecuencias para seleccionar las
frases que contienen las ideas principales mediante la suma de los pesos de los términos
que contienen cada frase y el sistema se decide por las que obtienen los pesos mayores.
En cuanto a los resultados del experimento fueron valorados por analistas con la
calificación de medianamente aceptables en cuanto a coherencia y cohesión.
Y por último dentro del grupo de métodos por extracción cabe mencionar el método
llamado de máxima frecuencia ó método de Knowledge Discovery (KD), en que se se
realiza un preproceso de documentos, tratando la eliminación de términos y datos el
texto original queda reducido a una secuencia de palabras, se analiza las máximas
secuencias de palabras más frecuentes para terminar con una clasificación y ordenación
de términos. Este método permite sobre un grupo de documentos encontrar una
frecuencia de palabras que es frecuente en una colección y a la vez de otra secuencia
frecuente mayor.(6) KD es un método que destaca en las técnicas de análisis inteligentes
en bases de datos automatizadas, cuya meta es derivar conocimiento de esas bases de
datos reales, aplicando patrones para la extracción de información.
3.2-Métodos de sumarización
Dado el extraordinario crecimiento exponencial de la información on-line, los usuarios
son víctimas de una sobrecarga informativa. Los sumarios entendidos como una forma
abreviada del contenido del documento pueden aliviar esta situación reduciendo de
manera considerable la información a leer por el usuario o investigador. Los sistemas
basados en la estructura del discurso o retórica incorporan cierto grado de creatividad y
operan sobre las relaciones discursivas de cohesión y coherencia. Presentamos las
siguientes agrupaciones de métodos de sumarización:
-
Métodos basados en la estructura discursiva o retórica
Métodos basados en la estructura profunda
Métodos basados en la estructura discursiva o retórica
Los sistemas basados en la cohesión (Barzilay,1997) relacionan los items de un texto, la
conectividad no estructural, repetición, referencia, cohesión léxica a través de selección
de las palabras.
Los sistemas basados en la coherencia (D.Marcu,1997-1999) consiguen relacionar los
segmentos del texto , los elementos del discurso están conectados a través de la
estructura semántica. Es una aproximación basada en la coherencia interna del texto,
consigue una buena calidad del resumen. Marcu, representa la estructura retórica del
texto y utiliza algoritmos de análisis retórico basado en un corpus compuesto por
marcadores de discurso y fragmentos textuales.
Plantillas
Los sistemas basados en plantillas (Gaizauslas-Wilks 1998) han sido utilizado en
extracción de noticias (prensa económica ), Reuter(Andersen1992-1994), artículos de
información financiera (Chong-Goh 1997), extracción automática de referencias
bibliográficas de patentes a texto completo ( Lawson1996), en este procesamiento del
lenguaje natural se cumplimentan plantillas estructuradas en patrones .
Plantillas Web
Altavista es un ejemplo de sistema de plantillas con frases relacionadas con el tema de
búsqueda para que el usuario escoja la opción más acertada.
Métodos basados en la estructura profunda
Concebido este procedimiento como un sistema experto basado en una red de
conocimientos básicos o redes semánticas representativas del contenido y aplicados al
texto, es un modelo semántico conceptual de generación de sumarios basado en las
teorías cognitivas.
FRUMP (7) es un programa para la generación de sumarios de artículos cortos. Está
cifrado sobre la base de hechos o conocimiento base que se usa para predecir
acontecimientos generales. El analizador textual está dirigido hacia las expectativas y la
interpretación del texto de entrada sobre la base de acontecimientos pronosticados,
realiza una nueva interpretación de la nueva situación y nuevas predicciones. La base de
conocimiento en la que actúa se estructura en guiones que contienen sólo los hechos
destacables que pueden ocurrir en una situación.
Otro sistema basado en inteligencia artificial para el análisis y la comprensión de textos
breves en dominios restringidos, generando representaciones semánticas en forma bien
de extractos o de sumarios es SCISOR (System for Conceptual Information
Summarization Organization and Retrieval) de Rau (8).
Diseñado para procesar noticias cortas on-line sobre un tema del mundo empresarial
(transacciones de empresas y responsabilidad corporativa)extraídas de periódicos o
revistas como el Wall Street Journal. Permite una recuperación conceptual de la
información, de respuestas a cuestiones planteadas en lenguaje natural. Utiliza una
metodología KADS sistema experto de ingeniería del conocimiento, emplea
arquitectura BLACKBOARD o de pizarra para la representación cognitiva técnica de la
información en la resolución de problemas (Niggemeyer)
3.3-Métodos gráficos y relacionales
Salton diseñó un modelo de recuperación, conocido como espacio vectorial en el que las
unidades informativas se representan por grupos o vectores de términos conocidos como
clustering de documentos y pasajes. El sistema SMART permite la descomposición y
estructuración de los documentos, segmentos de longitud: secciones, grupos de frases
adyacentes o frases sueltas. Se establecen relaciones entre textos y pasajes de textos
para generar mapas relacionales que muestren las similitudes de los textos y pasajes que
han superado un determinado valor. Este modelo conlleva tres fases: Identificación del
tema textual, travesía selectiva del texto y extracción de sus partes relevantes, utilizando
las ideas sobre generación, de enlaces hipertextuales, se pueden crear enlaces
intradocumentales entre los párrafos o frases de un texto.
4. Métodos de evaluación
Para valorar y verificar que los modelos tienen un resultado óptimo para conseguir los
objetivos, se necesitará un proceso de evaluación cuya finalidad es detectar errores para
mejorar el modelo. Encontramos que las dificultades en la evaluación son debidas a
varios puntos:
. No existe un único resumen válido para un texto.
. Lenguaje natural producido por una máquina
. Mayor número de personas juzgando incrementa el coste de evaluar.
. La tarea deresumir conlleva compresión(reducción de tamaño) y se necesita
evaluar resúmenes de distintos tamaños.
. Legibilidad (puede no tener relación con la calidad del resumen)
En relación con las expectativas de las tareas:



Respuesta a una pregunta concreta
Nueva información respecto a los documentos previos
Con respecto a un tema concreto (Evento, Persona…)
Actualmente se viene a diferenciar dos métodos para la evaluación de resúmenes
automáticos, hablamos de métodos intrínsecos y métodos extrínsecos.
4.1 Métodos de evaluación intrínsecos
Valoran la calidad del resumen en legibilidad, comprensión, acrónimos, anáforas,
integridad de la estructura, gramaticalidad, estilo impersonal. Valoran la informatividad.
La información que contiene respecto a un resumen ideal e con respecto al texto
original.
4.2 Métodos de evaluación extrínsecos
Evalúan el uso del resumen en relación con otras tareas:
-
Encontrar documentos relevantes en una colección
Decisión tomada leyendo el resumen o el texto original
Sistemas de recuperación de información
Contenidos páginas Web (buscadores)
El Corpus de evaluación es la interfaz para indicar lo relevante que es una oración en el
texto. Se utilizan sistemas de confección de un corpus de evaluación de resúmenes.
Ejemplo: Proyecto Hermes, se puede ampliar esta información visitando la siguiente
URL http://ima.udg.es/~mfuentes/cgi-bin/instruc.html
5.-Proyectos
The Text Summarition Project
TIDES program
SweSum Project
The Text Summarition Project (Universidad de Ottawa)
El proyecto del que hablamos a continuación tiene como funciones generales extraer los
contenidos más importantes de los textos y la aplicación de técnicas para el
procesamiento de textos basado estadísticas y en inteligencia artificial.
The Text Summarition Project ha desarrollado importantes herramientas para el proceso
de lenguaje natural. A través de las investigaciones llevadas a cabo se ha implementado
un sistema que genera resúmenes de textos en inglés técnico. El sistema extrae
automáticamente una proporción reducida del texto, que contiene los puntos más
importantes y significativos del original.
Text Summarition está enfocado de manera que combina el procesamiento del lenguaje
natural (Natural Language Proccesing: NLP) con la inteligencia artificial o aprendizaje
de la máquina (Machine Learning: ML) para obtener un sistema eficiente y robusto.
Con las investigaciones llevadas a cabo en este proyecto se ha conseguido que el
sistema realice eficientemente las siguiente tareas:
1.- Identificación de palabras clave en el texto resumido. Para ello se han aplicado
reglas de identificación de palabras clave en el aprendizaje de la máquina que
veremos más adelante.
2.- Selección de frases significativas o destacables. Para lo que se han utilizado técnicas
basadas en la incidencia de palabras clave.
3.- Producción de un resumen aproximado, utilizando los resultados de la selección de
frases significativas.
Objetivos
El objetivo principal de esta investigación se centra en construir un único sistema capaz
de extraer los conceptos principales del texto. La extracción de estos conceptos se basa
en pulir las propiedades ligüísticas del texto y en la estadística más básica, dando mayor
énfasis al texto original.
En el transcurso de la investigación llevada a cabo en este proyecto se ha adquirido
especial interés en los recursos léxicos de dominio público, en la información léxica, en
el filtrado sintáctico de la información y en los análisis de frecuencia. EL resultado de
todo ello ha sido una aproximación alentadora y válida al objetivo especificado
anteriormente, utilizando tanto sistemas parcialmente manuales como otros
parcialmente automáticos. Las aproximaciones en la generación automática de
resúmenes se desvían en dos direcciones. Por un lado, los sistemas basados en sistemas
clásicos de inteligencia artificial, como por ejemplo la dependencia conceptual. Y por
otro lado, los sistemas que generan resúmenes a partir de la construcción de una
representación del conocimiento o contenido del texto, que permite la selección y
modificación de elementos del texto original.
Por último, los sistemas heurísticos como pueden ser los basados en la ocurrencia,
concurrencia y exclusión de frases no significativas, se pueden incluir en la segunda de
las clases mencionadas, aunque los resultados obtenidos suelen ser bastante menos
aceptables. En las investigaciones llevadas a cabo en este proyecto se propone la
generación de resúmenes basada en el procesamiento superficial del texto original. En
un principio el sistema fue implementado y se comprobó su eficacia, para
posteriormente redireccionar el sistema hacia técnicas de procesamiento de textos, las
cuales permiten al sistema “aprender” de las continuas búsquedas y acciones realizadas
por él en determinadas áreas relacionadas.
Trabajos relacionados
Los criterios que se han seguido a la hora de llevar adelante este proyecto, a partir de
otros trabajos y estudios anteriores, son los siguientes:

Frecuencia y distribución de las palabras en el texto.

Posición de las frases, teniendo muy en cuenta la estructura del texto.

Presencia de palabras clave.

Presencia de indicadores.
Métodos y aproximaciones propuestos
El desarrollo de métodos de computación lingüística (solos o en combinación con
técnicas probabilísticas) han hecho del procesamiento del lenguaje natural un
componente viable en la generación automática de resúmenes. Y actualmente, recientes
trabajos sobre la búsqueda de información y resumen de documentos han incorporado a
las técnicas habituales otras basadas en el conocimiento lingüístico, como por ejemplo
la sintaxis, relaciones y discursos. Sin embargo, en lo concerniente a la cohesión del
texto extraído sigue siendo uno de los apartados que sigue sin ser resuelto de una
manera totalmente eficiente en el área que estamos estudiando.
Técnicas
Summarition Text es un sistema que produce resúmenes como resultado del análisis del
texto en varios niveles:
-
Procesamiento lingüístico del texto que se desea resumir.
Identificación de palabras clave usando las reglas que veremos más adelante.
Selección de frases significativas por la aparición de palabras clave.
Cohesión de la estructura del resumen a partir de la secuencia de frases
extraídas.
Métodos
Procesamiento lingüístico. Este método consiste en obtener la raíz de las formas y
etiquetar cada palabra, para lo cual se utiliza una base de datos léxica (WordNet),
intentando solucionar la ambigüedad de ciertas palabras técnicas. La experiencia en la
identificación de conceptos técnicos en el texto ha diseccionado la investigación hacia el
uso de conocimiento sintáctico y análisis de frecuencia del texto para clasificar las
frases poco importantes y las más significativas dentro de cinco categorías técnicas. Y
en este caso la ambigüedad de las categorías sintácticas se soluciona en base a técnicas
estadísticas aplicadas al texto. En otras palabras, si el dominio del texto se conoce, la
mayoría de los conceptos del texto se pueden buscar en la base de datos terminológica
para ese dominio o categoría técnica, y así solucionar el problema de la ambigüedad de
los conceptos técnicos en un alto grado.
Selección de palabras clave. Posiblemente la extracción de palabras clave sea la parte
más sencilla en la generación de resúmenes. Su identificación se produce a través de la
frecuencia de conceptos candidatos en un corpus extenso. En concreto es este sistema se
ha experimentado con el sistema SMART de la Universidad Cornell. Como alternativa
a este método, si una colección de textos pertenece a un dominio técnico concreto, las
palabras clave se pueden determinar gracias a métodos de aproximación con reglas
inductivas de aprendizaje del sistema, como hemos visto anteriormente.
Determinación de frases significativas. El resumen automático a partir del nivel de las
palabras clave no es capaz de generar una presentación formal del texto. Por ello se
toman frases completas que se combinan con estas palabras clave y con una
consideración más o menos pulida del resumen para alcanzar al objetivo final. Esta
selección se realiza sobre la base de indicadores sintácticos, especialmente
conjunciones, como también con las palabras clave.
Cohesión de la estructura textual del resumen. La mera secuencia de frases extraídas del
texto original es una solución poco efectiva. A pesar de que existen técnicas y nuevas
líneas de estudio en este sentido, como por ejemplo el truncamiento de frases,
Summarition Text no ha conseguido obtener resultados más favorables. Es por ello que
se ha optado por un método aceptable, como es el uso de una estructura de grupos de
frases en un árbol de relaciones. Uno de estos grupos está guiado por elementos que
denotan ejemplificación, otro que denota especialización y otro que engloba aspectos
más generales. Esta aproximación en la selección de frases del texto original y situación
en la estructura del resumen ha sido la solución que mejor resultado ha ofrecido, y por
tanto la que se ha incorporado al sistema.
Evaluación. La evaluación de la calidad de un resumen es una tarea obvia, aunque es un
proceso ambiguo, ya que se ha comentado mucho sobre cuáles son los parámetros a
seguir y si son fiables, ya no solo para evaluar un resumen generado automáticamente
sino también para uno generado manualmente. No obstante, algunos de los criterios que
se siguen en la evaluación de los resúmenes producidos por este sistema son la
precisión, entendimiento, brevedad, contenido extraído del original, etc.
Programa TIDES
Translingual Information Detection, Extraction and Summarization
(TIDES), perteneciente a la Agencia de Proyectos de Investigación para la
Defensa (DARPA) del gobierno estadounidense,TIDES es uno de los
programas de mayor envergadura dentro de la creación automática de
resúmenes, detección y extracción de información multilingüe.
Objetivo: el programa TIDES tiene
como objetivo el desarrollo de una
tecnología
avanzada
de
procesamiento del lenguaje que
permita a los usuarios del idioma
inglés
encontrar
e
interpretar
información crítica en múltiples
lenguajes sin necesidad de su
conocimiento. Ya que los materiales
de
idiomas
extranjeros
están
creciendo en una proporción más
rápida que los materiales del idioma
inglés . el programa TIDES pretende
hacer accesibles y utilizables estos
materiales en el idioma inglés.
La meta del programa es reducir significativamente la cantidad de tiempo que
se tarda en recuperar información multilingüe, extraer la parte importante de
esa información, su resumen e interpretación y la traducción automática en un
nuevo idioma.
TIDES desarrollará la capacidad para recuperar, resumir, extraer información y
traducir la información en múltiples lenguas que usan interfaces de idioma
inglesas. La información puede ser de dos tipos:





Estructurada:
Tablas.
Mapas
Diagramas
Textos publicados.
Sin estructura:



Prosa.
Transcripciones de discursos.
E-mail.
Áreas técnicas del programa:
1.-Área de TRADUCCIÓN AUTOMÁTICA: Aplicaciones encaminadas a la
resolución del problema del desarrollo rápido de la traducción automática
para los nuevos idiomas de interés. TIDES seleccionará varias docenas de
idiomas para la :



Traducción de la pregunta: es la formación de una pregunta del idioma
extranjero en la entrada inglesa.
Traducción del documento.
Refinamiento de la pregunta (usando regeneración de relevancia).la
pregunta de refinamiento es el estrechamiento, ensanchado o elboración
terminológica de la pregunta para el volúmen lingüístico.
2.-Área de ACCESO A LA INFORMACIÓN Y SISTEMAS DE DIRECCION:
Pruebas de la hipótesis de que el acceso a la información y dirección
pueden ser reforzadas substancialmente por interacciones entre los
componentes de serie. Los ejemplos de tales interacciones son:


Descubrimiento del tema y interacción: es el proceso de separar
materiales recuperados de los idiomas múltiples en las categorías de
interés.
Nombre y correlación del evento: incluye el análisis detallado de los
recursos disponibles para identificar nombres de las personas,
corporaciones y organizaciones, fechas, eventos, y para establecer
correlación entre entidades relacionadas.

Resumen del multi-documento: reducir el volumen de información a ser
examinado por un factor típico de 10. También se utiliza el resumen de
documentos múltiples para refinar la pregunta y mejorar el resultado.
El interés se extiende a las interfaces para las preguntas multi-modales en las
conexiones de banda ancha con grandes multi-medios de comunicación de alto
volumen y los datos multi-linguales. El programa TIDES probará varias
hipótesis en esta área:
1. un usuario terminal puede emplear la traducción automática para refinar
una pregunta en un idioma extranjero y mejorar la actuación de la
recuperación un 50%. La identificación de temas coherentes y
consistentes mejorará otro 25%.
2. Pueden extraerse nombres, lugares, eventos, y las entidades
relacionadas de los resultados de una búsqueda multilingüe, pueden
ponerse en correlación y pueden alimentarse para mejorar la actuación
de la recuperación un 25% más.
3. Un resumen multi-documento coherente puede usarse como una
pregunta refinada para actuar en un sistema multilingüe comparable al
uso que se le da en sistemas monolingües.
3.-Área de LAS HERRAMIENTAS Y RECURSOS: desarrollo de herramientas de
análisis del cuerpo (estadístico, híbrido, lingüístico...) de manera que se
habilite el extracto automatizado de gramática y vocabulario de cuerpos
paralelos y comparables en múltiples idiomas.



Desarrollo de herramientas para construir cuerpos paralelos y
comparables de los documentos y herramientas lingüísticas para el
análisis rápido del idioma.
Desarrollo multilingüe de escrito y hablado de recursos idiomáticos de
apoyo a las areas técnicas anteriores.
Desarrollo de arquitecturas para la interoperabilidad de componentes.
El programa TIDES proporcionará la habilidad de expresar una necesidad de
información en inglés, y usará esta pregunta para analizar materiales en una
multitud de idiomas. Recuperará materiales pertinentes, traducirá su volumen al
inglés, nombres exactos de perdonas, eventos..., identificará eventos de interés
y los pondrá en correlación al volumen de una serie de documentos en
múltiples idiomas de manera resumida y traducida. El objetivo es desarrollar,
rápidamente y con precisión , una comprensión de desdoblamiento de
situaciones internacionales para proporcionar interpretaciones oportunas y
validas para la toma de decisiones.
Marco temporal del programa:
El programa TIDES tiene una duración de 5 años con los siguientes objetivos:
· Capacidades del sistema en por lo menos 30 idiomas.
· 80% de la exactitud en correlación de entidad translingual.
· 70% de la exactitud rellenando plantillas multilingües.
· Habilidad de generar resúmenes pregunta específicos de 20 documentos en
por lo menos 4 idiomas.
El año 2003 es el tercer año del programa , pudiendo presentar nuevos
proyectos que serán evaluados por DARPA para su inclusión dentro del
proyecto estando ya cerrados los 15 proyectos.
SweSum Project
SweSum es un proyecto sueco creado por Martin Hassel y Hércules Dalianis
que permite la traducción de textos en danés, inglés, francés, alemán, noruego,
español y sueco. SweSum es accesible a través de internet a través de la URL:
http://swesum.nada.kth.se/index-eng.html
Los métodos de resumen utilizados son:
·Etiquetado en HTML el texto de un periódico sueco etiquetando solo los
comandos de formato del texto.
El resumidor se escribe en Perl que es un cordón (según los autores) excelente
que procesa idiomas.
·Desde el texto procesado se tiene el texto del periódico donde las frases que
están al principio se presupone que contienen más información. De esta
manera se calcula un factor de Posición donde se da más peso a las frases del
principio del documento que a las del final.
La fórmula es : 1/ n donde n es el número de línea, llamado Básico.
·Las etiquetas HTML indican frases con mayor peso(texto intrépido) que las
que contienen menos etiquetas, ya que los diarios titulan etiquetando. El texto
intrépido también indica un cambio nuevo párrafo.
·A las frases con datos numéricos se les da una cuenta o puntuación más alta
que sin valores numéricos.Se anotan frases que contienen palabras clave de
frecuencia lata (tf). Para encontrar estas palabras se necesita usar un
diccionario de clases de palabras. Todo el parámetro se normaliza y se pone
en una función de combinación para obtener la cuenta o peso total de cada
frase dentro del texto.
CUENTA TOTAL: Peso posición Peso intrépido + Peso numérico + Peso Clave
El usuario de Swesum también puede introducir sus propias palabras clave en
el sistema y elegir el tamaño del resumen.
Evaluación del sistema:
Se usó una prueba de campo dentro del armazón (Tecnología del Idioma
Humano). Se dieron a los estudiantes 10 textos de artículos con el propósito de
ver cuanto un texto puede resumirse sin perder coherencia o información
importante. La prueba se realizó leyendo el texto resumido y dando a SweSum
la cantidad de texto original que les gustaría en el resumen, anotando en una
encuesta cuando la coherencia estaba rota o se perdía información. De esta
prueba se concluyó que el sistema funcionaba, al menos, tan bien como los
resumidores en inglés con una coherencia de información del 30%. El uso de
SweSum se explica de manera detallada en el apartado de productos al final de
esta exposición.
6.-PRODUCTOS:
Copernic
COPERNIC SUMMARIZER es un software que permite resumir diversos tipos
de documentos usando algoritmos estadísticos y lingüísticos, de manera que
extrae las frases más relevantes.
Entre sus funciones se encuentra:
Crear resúmenes de cualquier texto incluido PDF: páginas web, PDF, e-mail,
mensajes...
Integrado en las aplicaciones más usuales: se pueden obtener resúmenes
desde aplicaciones como Explorer, Netscape, Adobe Acrobat, Outlook Express,
Eudora, Word..
Resúmenes en tiempo real mientras se navega en Internet: mientras se navega
relaiza en tiempo real un resumen de la página web, de manera que no es
necesario leer toda la página ahorrando tiempo.
Uso de Web Essence: tecnología que automáticamente quita de las páginas
web texto irrelevante, centrándose en los elementos esenciales del texto.
Interface Intuitiva.
Exporta los resultados a una gran variedad de formatos de archivo.
Funcionamiento del programa:
Concepts: aparecen las palabras claves extraídas del documento.
Summary tasks: permite :



Exportar el resumen a diversos tipos de archivo.
Enviar el resumen por e-mail.
Imprimir el resumen.


Encontrar cadenas de texto en el resumen.
Ayuda.
Summary length: permite reducir el texto hasta un 5%, 25%, 50% y crear
resúmenes de 100, 250 o 1000 palabras. Se puede encontrar una demo
en:http://www.copernic.com/en/products/summarizer/index.html#
Swesum
SWESUM (ON-LINE)
Proyecto sueco de resumen on-line de muy fácil utilización, contiene
principalmente dos opciones de resumen: Permite a través de una URL resumir
un documento eligiendo el tipo de texto del que se trata (periódico, académico),
el porcentaje de documento a resumir, idioma etc..La segunda opción permite
resumir textos escribiéndolos o desde el propio ordenador y asignarles
diferentes pesos a la negrita, valores numéricos, palabras clave del usuario...
Microsoft Word Herramienta de resumen
Una de las opciones que nos permite Microsft Word es la de resumir
documentos en este formato de una manera sencilla.
La opción de AUTORESUMEN se encuentra en la barra de Herramientas y las
opciones que permite son:
Resaltar los puntos principales: resalta dentro del documento los puntos que
considera principales.
Crear un documento nuevo para colocar el resumen: coloca el resumen
escogido en otro documento Word.
Insertar un resumen o extracto al principio del documento.
Mostrar solo el resumen sin salir del documento.
En cuanto al tamaño del resumen permite escoger entre diversos tamaños
25%, 10%, 75% del documento original o crear un resumen de menos de 100
palabras, menos de 500 palabras o por oraciones (10 oraciones, 20
oraciones...)
7.-CONCLUSIONES
Del análisis desarrollado sobre necesidades en el procesamiento de la
información en el proceso de recuperación documental y con relación con las
líneas de investigación que se están trabajando desde los grupos de
investigación de las universidades podemos enumerar las siguientes
conclusiones:
1.- El increíble crecimiento de la producción documental ha obligado a
desarrollar herramientas que permitan procesar la información de una forma
eficiente. Para ello se han creado sistemas de producción automática de
resúmenes que permiten a los usuarios procesar y representar el contenido de
los documentos de forma pertinente y fiable.
2.- Actualmente las investigaciones llevadas a cabo han derivado en dos
líneas de trabajo fundamentales, a la hora de obtener los resúmenes de forma
automática. Por definición se van a diferenciar dos tipos de resúmenes, por
extracción y por abstracción.
3.- El procesamiento del lenguaje natural va dirigido a solucionar la
ambigüedad del lenguaje natural a través de técnicas informáticas. Con ello se
pretende solucionar problemas en varios niveles (morfosintáctico, sintáctico,
semántico y contextual).
4.- Los métodos de representación del conocimiento en la generación
automática de resúmenes se encuadra en tres grandes grupos: los métodos de
extracción basados en la estructura superficial, los métodos de sumarización a
medio camino entre el resumen y el extracto, y los métodos gráficos y
relaciónales.
5.- El proceso de evaluación permite clarificar el resultado más o menos
óptimo de la producción automática de resúmenes. Sin embargo es un
procedimiento complejo, que está condicionado por la propia complejidad de la
tarea de resumen (que se puede aplicar no solo al resumen automático sino
también al manual).
6.- Hemos comprobado que la investigación en la generación automática
de resúmenes va paralela a la investigación sobre Procesamiento de Lenguaje
Natural (PLN). Las investigaciones han experimentado un incremento
significativo en la década de los noventa y en estos momentos arroja
resultados prometedores, basándonos en el análisis de los proyectos que se
desarrollaron
podemos afirmar que en el futuro la investigación está
garantizada. Los grandes proyectos americanos (TIDES) y europeos (Proyecto
WordNet) continúan buscando mejoras en los resultados.
Sin embargo, hay que señalar que casi la totalidad de la investigación es en
lengua inglesa pues cualquier sistema que pretenda trabajar sobre la
información semántica de un documento precisa un módulo de desambigüación
del sentido de las palabras(WSD), los recursos léxicos,las ontologías están
orientadas a la desambiguación del sentido de las palabras en ingles . Además
los numerosos recursos supone mayores facilidades en la fase de evaluación
de resultados. Es muy significativo que el idioma de trabajo en que se
desarrolla la investigación es el ingles, por tanto en este campo de
investigación se considera un handicap para los investigadores que utilizan el
español. No obstante en las universidades españolas la investigación en este
campo es en ingles. Sin embargo, la aparición de diferentes WordNets, dentro
del proyecto EurowordNet, permitirá el desarrollo de aplicaciones que podrán
incorporar módulos de WSD en español y un avance en los próximos años para
la investigación desde las universidades lengua española.
8.-Bibliografía
Salvador Climent. Sistemas de resumen automático. Digithum.nº3.
http://www.uoc.edu/humfil/digithum/digithum3/catala/Art_Climent_esp/Climent/climent.html
Programa TIDES
http://www.darpa.mil/iao/TIDES.htm
http://www.darpa.mil/ipto/Solicitations/CBD_9926.html
http://www.darpa.mil/baa/translingual%20information%20detection.html
Programa The Text Summarization Project (Universidad de Ottawa)
http://www.csi.uottawa.ca/~szpak/proposals/text-summ-1996.html#RTFToC1
SweSum project
http://swesum.nada.kth.se/index-eng.html
http://www.nada.kth.se/~hercules/Textsumsummary.html
Pinto ,M. .Automatización de los resúmenes. El resumen documental.
Ed.Fundación German Sánchez Ruipérez,2001.
Segarra, E. Molina A. Pla, F. Sanchis E. Proyecto sobre el desarrollo de un
sistema de comprensión de textos aplicado a la Recuperación de
Información:TUSIR I Jornadas de Tratamiento y Recuperación de información
(JOTRi)
Notas
1. Mani, I. Y Bloerdon, E. Multi-document Sumarization by Graph Search
and Matching.Procedings of American Association for Artificial
Intelligence,1997.
2. Liddy, E.Natural Language Processing En Atheron y Johnson
(Eds),Visualizing Subject Acces for 21st Century Information
Resources.Illinois:University,1998
3. Paice, C.:Constructing literature abstracts by computer:techniquesand
prospects.Information Processing and Management,1990,26,1,171-186
4. Edmundson, H.P; New methods in automatic
extracting.J.Ass.Comput.Mach;1969, 16,2,264-285
5. Brandow,R.;Mitze, K. y Rau, L. Automatic Condensation of Electronic
Publications by Sentence Selection .Information Processing and
Management ,1995,31,5,675-685
6. Ahoen, H. Knowledge Discovery in Documents by Extracting Frecuent
Word Sequences.Library Trends, 1999, 48,1, 160-181
7. Dejong, G.An overview of the FRUMP systems.En W.G. Rehnert, y
M.Ringle (eds),Strategies for Natural Language
Processing.London:Lawrwnce Ealbaum,1982,149-172
8. Rau,L. Organization and Acces in a Conceptual Information
System.Information processing and Management,1987
Descargar