SEPLN39

Anuncio
XXIII Congreso
de la Sociedad Española para el
Procesamiento del Lenguaje Natural
Universidad de Sevilla
10, 11 y 12 de septiembre de 2007
EDITORES
Víctor J. Díaz Madrigal (Univ. de Sevilla)
Fernando Enríquez de Salamanca Ros (Univ. de Sevilla)
COMITÉ CIENTÍFICO
PRESIDENTE
Prof. Víctor Jesús Díaz Madrigal (Universidad de Sevilla)
MIEMBROS
Prof. José Gabriel Amores Carredano (Universidad de Sevilla)
Prof. Toni Badia i Cardús (Universitat Pompeu Fabra)
Prof.ª Irene Castellón Masalles (Universitat de Barcelona)
Prof. Manuel de Buenaga Rodríguez (Universidad Europea de Madrid)
Prof. Ricardo de Córdoba (Universidad Politécnica de Madrid)
Prof.ª Arantza Díaz de Ilarraza (Euskal Herriko Unibertsitatea)
Prof. Antonio Ferrández Rodríguez (Universitat d'Alacant)
Prof. Mikel Forcada Zubizarreta (Universitat d'Alacant)
Prof.ª Ana María García Serrano (Universidad Politécnica de Madrid)
Prof. Koldo Gojenola Galletebeitia (Euskal Herriko Unibertsitatea)
Prof. Xavier Gómez Guinovart (Universidade de Vigo)
Prof. Julio Gonzalo Arroyo (Universidad Nacional de Educación a Distancia)
Prof. José Miguel Goñi Menoyo (Universidad Politécnica de Madrid)
Prof. Ramón López-Cózar Delgado (Universidad de Granada)
Prof. Javier Macías Guarasa (Universidad Politécnica de Madrid)
Prof. José B. Mariño Acebal (Universitat Politècnica de Catalunya)
Prof.ª M. Antonia Martí Antonín (Universitat de Barcelona)
Profª. Raquel Martínez (Universidad Nacional de Educación a Distancia)
Prof. Antonio Molina Marco (Universitat Politècnica de Valencia)
Prof. Juan Manuel Montero (Universidad Politécnica de Madrid)
Prof.ª Lidia Ana Moreno Boronat (Universitat Politècnica de Valencia)
Prof. Lluis Padró (Universitat Politècnica de Catalunya)
Prof. Manuel Palomar Sanz (Universitat d'Alacant)
Prof. Germán Rigau (Euskal Herriko Unibertsitatea)
Prof. Horacio Rodríguez Hontoria (Universitat Politècnica de Catalunya)
Prof. Emilio Sanchís (Universitat Politécnica de Valencia)
Prof. Kepa Sarasola Gabiola (Euskal Herriko Unibertsitatea)
Prof. L. Alfonso Ureña López (Universidad de Jaén)
Prof. Ferrán Pla (Universitat Politècnica de Valencia)
Prof.ª Mª Felisa Verdejo Maillo (Universidad Nacional de Educación a Distancia)
Prof. Manuel Vilares Ferro (Universidade de Vigo)
Revisores Externos
Iñaki Alegria, Laura Alonso Alemany, Kepa Bengoetxea, Zoraida Callejas Carrión, Francisco Carrero, Vicente
Carrillo Montero, Fermín Cruz Mata, Víctor Manuel Darriba Bilbao, César de Pablo Sánchez, Fernando Enríquez de
Salamanca Ros, Milagros Fernández Gavilanes, Ana Fernández Montraveta, Óscar Ferrández, Sergio Ferrández,
Miguel Ángel García Cumbreras, Manuel García Vega, Rubén Izquierdo Beviá, Zornitsa Kozareva, Sara Lana
Serrano, Mikel Lersundi, Lluis Márquez, María Teresa Martín Valdivia, José Luis Martínez Fernández, Germán
Montoro Manrique, Andrés Montoyo Guijarro, Iulia Nica, Francisco Javier Ortega Rodríguez, Jesús Peral Cortés,
Enrique Puertas, Francisco José Ribadas Pena, Estela Saquete Boró, José Antonio Troyano Jiménez, Gloria Vázquez.
COMITÉ ORGANIZADOR
PRESIDENTE
Víctor Jesús Díaz Madrigal
MIEMBROS
Adolfo Aumaitre del Rey
Rafael Borrego Ropero
José Miguel Cañete Valdeón
Vicente Carrillo Montero
Fermín Cruz Mata
Fernando Enríquez de Salamanca Ros
Francisco José Galán Morillo
Carlos García Vallejo
Fco. Javier Ortega Rodríguez
Luisa María Romero Moreno
José Antonio Troyano Jiménez
Preámbulo
El ejemplar número 39 de la revista de la Sociedad Española para el Procesamiento del
Lenguaje Natural contiene los artículos científicos - más los resúmenes de proyectos de
investigación y de demostraciones de herramientas - aceptados por el Comité Científico
para su presentación en el XXIII Congreso de la Sociedad Española para el
Procesamiento del Lenguaje Natural (SEPLN'07). Esta edición del congreso ha sido
organizada por miembros del departamento de Lenguajes y Sistemas Informáticos de la
Universidad de Sevilla en la Escuela Técnica Superior de Ingeniería Informática. El
número de artículos de investigación recibido junto con la continuidad en la celebración
anual del congreso, ésta es la vigésimo tercera edición ininterrumpida, no hacen más
que constatar el interés y la actualidad que disfruta hoy en día la investigación en el
campo de las Tecnologías de la Lengua.
Estas actas recogen 32 artículos científicos que podemos agrupar de forma no categórica
y excluyente en las siguientes áreas temáticas: Análisis Morfosintáctico (4 trabajos),
Búsqueda de Respuestas (2 trabajos), Categorización de Textos (3 trabajos), Extracción
de Información (5 trabajos), Lexicografía Computacional (4 trabajos), Lingüística de
Corpus (4 trabajos), Semántica (4 trabajos), Sistemas de Diálogo (2 trabajos) y
Traducción Automática (4 trabajos). Se recibieron un total de 49 trabajos de los cuales
tan sólo las 32 contribuciones mencionadas (65 por ciento) obtuvieron la aprobación
global del Comité Científico. Cada uno de los trabajos recibidos fue revisado por 3
miembros del Comité Científico. Además, y como viene siendo habitual, en las actas se
incluyen dos resúmenes presentando proyectos de investigación y nueve resúmenes
presentando demostraciones de herramientas de uso específico para tareas relacionadas
con el Procesamiento del Lenguaje Natural.
Esta edición del congreso cuenta con 2 conferencias invitadas a cargo del Dr. D. Antal
van den Bosch (Universidad de Tilburg) y del Dr. D. Anselmo Peñas (Universidad
Nacional de Educación a Distancia). Este año se da la peculiaridad de que durante los
días 11 y 12 de septiembre, en paralelo con el congreso, se celebran las Jornadas de la
Red Temática para el Tratamiento de la Información Multilingüe y Multimodal. En el
seno de dichas jornadas se incluye la conferencia invitada a cargo del Dr. D. Ralf
Steinberger (Joint Research Centre).
No quiero acabar estas líneas sin dar las gracias a los patrocinadores del congreso ya
que sin su apoyo financiero o logístico hubiera sido muy difícil organizarlo. No puedo
tampoco dejar de agradecer el esfuerzo y las facilidades de las que he sido objeto por
parte de todos los miembros del Comité Científico y del Órgano de Gobierno de la
Sociedad. Finalmente, me gustaría acabar recordando a todos mis compañeros del grupo
de investigación ITÁLICA por el trabajo adicional que ha supuesto la preparación de
este evento.
Víctor Jesús Díaz Madrigal
Presidente del Comité de Programa de XXIII Congreso de la SEPLN
Procesamiento del Lenguaje Natural, nº 39, septiembre 2007
ISSN 1135-5948
Sociedad Española para el
Procesamiento del Lenguaje Natural
______________________________________________________________________________________________
ARTÍCULOS
Análisis Morfosintáctico
Desarrollo de un Analizador Sintáctico Estadístico basado en Dependencias para el Euskera
Kepa Bengoetxea y Koldo Gojenola . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Técnicas Deductivas para el Análisis Sintáctico con Corrección de Errores
Carlos Gómez-Rodríguez, Miguel A. Alonso y Manuel Vilares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
A Simple Formalism for Capturing Order and Co-Occurrence in Computational Morphology
Mans Hulden y Shannon Bischoff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
A Note on the Complexity of the Recognition Problem for the Minimalist Grammars with
Unbounded Scrambling and Barriers
Alexander Perekrestenko . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Búsqueda de Respuestas
Paraphrase Extraction from Validated Question Answering Corpora in Spanish
Jesús Herrera, Anselmo Peñas y Felisa Verdejo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Evaluación de Sistemas de Búsqueda de Respuestas con restricción de tiempo
Fernando Llopis, Elisa Noguera, Antonio Ferrández y Alberto Escapa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
Categorización de Textos
Medidas Internas y Externas en el Agrupamiento de Resúmenes Científicos de Dominios Reducidos
Diego Ingaramo, Marcelo Errecalde y Paolo Rosso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Integración de Conocimiento en un Dominio Epecífico para Categorización Multietiqueta
María Teresa Martín, Manuel Carlos Díaz, Arturo Montejo y L. Alfonso Ureña-López . . . . . . . . . . . . . . . . . . . . 63
Similitud entre Documentos Multilingües de Carácter Científico-Técnico en un Entorno Web
Xabier Saralegi y Iñaki Alegria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
Extracción de Información
The Influence of Context during the Categorization and Discrimination of Spanish
and Portuguese Person Names.
Zornitsa Kozareva, Sonia Vázquez y Andrés Montoyo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Studying CSSR Algorithm Applicability on NLP Tasks
Muntsa Padró y Lluis Padró . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Aprendizaje Atomático para el Reconocimiento Temporal Multilingüe basado en TiMBL
Marcel Puchol-Blasco, Estela Saquete y Patricio Martínez-Barco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Alias Assignment in Information Extraction
Emili Sapena, Lluis Padró y Jordi Turmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Evaluación de un Sistema de Reconocimiento y Normalización de Expresiones
Temporales en Español
María Teresa Vicente-Díez, César de Pablo-Sánchez y Paloma Martínez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lexicografía Computacional
Inducción de Clases de Comportamiento Verbal a partir del Corpus SENSEM
Laura Alonso, Irene Castellón y Nevena Tinkova . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
An Open-Source Lexicon for Spanish
Montserrat Marimon, Natalia Seghezzi y Núria Bel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Towards Quantitative Concept Analysis
Rogelio Nazar, Jorge Vivaldi y Leo Wanner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Evaluación Atomática de un Sistema Híbrido de Predicción de Palabras y Expansiones
Sira Elena Palazuelos, José Luis Martín y Javier Macías . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
81
89
97
105
113
123
131
139
147
Procesamiento del Lenguaje Natural, nº 39, septiembre 2007
ISSN 1135-5948
Lingüística de Corpus
Specification of a General Linguistic Annotation Framework and its Use in a Real Context
Xabier Artola, Arantza Díaz de Ilarraza, Aitor Sologaistoa y Aitor Soroa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Determinación del Umbral de Representatividad de un Corpus mediante el Algoritmo N-Cor
Gloria Corpas y Miriam Seghiri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Generación Semiautomática de Recursos
Fernando Enríquez, José Antonio Troyano, Fermín Cruz y F. Javier Ortega . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Building Corpora for the Development of a Dependency Parser for Spanish Using Maltparser
Jesús Herrera, Pablo Gervás, Pedro J. Moriano, Alfonso Muñoz y Luis Romero . . . . . . . . . . . . . . . . . . . . . . . . . .
Semántica
A Proposal of Automatic Selection of Coarse-grained Semantic Classes for WSD
Rubén Izquierdo-Bevia, Armando Suárez y Germán Rigau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Cognitive Modules of an NLP Knowledge Base for Language Understanding
Carlos Periñán-Pascual y Francisco Arcas-Túnez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Text as Scene: Discourse Deixis and Bridging Relations
Marta Recasens, Antonia Martí Antonín y Mariona Taulé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Definición de una Metodología para la Construcción de Sistemas de Organización del Conocimiento
a partir de un Corpus Documental en Lenguaje Natural
Sonia Sánchez-Cuadrado, Jorge Morato, José Antonio Moreiro y Monica Marrero . . . . . . . . . . . . . . . . . . . . . . . .
157
165
173
181
189
197
205
213
Sistemas de Diálogo
Prediction of Dialogue Acts on the Basis of the Previous Act
Sergio R. Coria y Luis Alberto Pineda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
Adaptación de un Gestor de Diálogo Estadístico a una Nueva Tarea
David Griol, Lluís F. Hurtado, Encarna Segarra y Emilio Sanchís . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
Traducción Automática
Un Método de Extracción de Equivalentes de Traducción a partir de un Corpus Comparable Castellano-Gallego
Pablo Gamallo y José Ramom Pichel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
Flexible Statistical Construction of Bilingual Dictionaries
Ismael Pascual y Michael O'Donnell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249
Training Part-of-Speech Taggers to build Machine Translation Systems for Less-Resourced Language Pairs
Felipe Sánchez-Martínez, Carme Armentano-Oller, Juan Antonio Pérez-Ortiz y Mikel L. Forcada . . . . . . . . . . . 257
Parallel Corpora based Translation Resources Extraction
Alberto Simões y José João Almeida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
DEMOSTRACIONES
Una Herramienta para la Manipulación de Corpora Bilingüe usando Distancia Lexica
Rafael Borrego y Víctor J. Díaz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
MyVoice goes Spanish. Cross-lingual Adaptation of a Voice Controlled PC Tool for Handicapped People
Zoraida Callejas, Jan Nouza, Petr Cerva y Ramón López-Cózar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
HistoCat y DialCat: Extensiones de un Analizador Morfológico para tratar Textos Históricos
y Dialectales del Catalán
Jordi Duran, Mª Antonia Martí y Pilar Perea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
MorphOz: Una Plataforma de Desarrollo de Analizadores Sintáctico-Semánticos Multilingüe
Oscar García . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Sistema de Diálogo Estadístico y Adquisición de un Nuevo Corpus de Diálogos
David Griol, Encarna Segarra, Lluis. F. Hurtado, Francisco Torres, María José Castro,
Fernando García y Emilio Sanchís . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
JBeaver: Un Analizador de Dependencias para el Español
Jesús Herrera, Pablo Gervás, Pedro J. Moriano, Alfonso Muñoz y Luis Romero . . . . . . . . . . . . . . . . . . . . . . . . . .
NowOnWeb: a NewsIR System
Javier Parapar y Álvaro Barreiro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
The Coruña Corpus Tool
Javier Parapar y Isabel Moskowich-Spiegel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
WebJspell, an Online Morphological Analyser and Spell Checker
Rui Vilela . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
275
277
279
281
283
285
287
289
291
PROYECTOS
El Proyecto Gari-Coter en el Seno del Proyecto RICOTERM2
Fco. Mario Barcala, Eva Domínguez, Pablo Gamallo, Marisol López, Eduardo Miguel Moscoso,
Guillermo Rojo, María Paula Santalla del Río y Susana Sotelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
Portal da Lingua Portuguesa
Maarten Janssen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
ARTÍCULOS
Análisis Morfosintáctico
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 5-12
recibido 18-05-2007; aceptado 22-06-2007
Desarrollo de un analizador sintáctico estadístico basado en
dependencias para el euskera
Kepa Bengoetxea, Koldo Gojenola
Universidad del País Vasco UPV/EHU
Escuela Universitaria de Ingeniería Técnica
Industrial de Bilbao
{kepa.bengoetxea, koldo.gojenola}@ehu.es
Resumen: Este artículo presenta los primeros pasos dados para la obtención de un analizador
sintáctico estadístico para el euskera. El sistema se basa en un treebank anotado sintácticamente
mediante dependencias y la adaptación del analizador sintáctico determinista de Nivre et al.
(2007), que mediante un análisis por desplazamiento/reducción y un sistema basado en
aprendizaje automático para determinar cuál de 4 opciones debe realizar, obtiene un único
análisis sintáctico de la oración. Los resultados obtenidos se encuentran cerca de los obtenidos
por sistemas similares.
Palabras clave: Análisis sintáctico. Análisis basado en dependencias. Treebank.
Abstract: This paper presents the first steps towards a statistical syntactic analyzer for Basque.
The system is based on a syntactically dependency annotated treebank and an adaptation of the
deterministic syntactic analyzer of Nivre et al. (2007), which relies on a shift/reduce
deterministic analyzer together with a machine learning module that determines which one of 4
analysis options to take, giving a unique syntactic dependency analysis of an input sentence.
The results are near to those obtained by similar systems.
Keywords: Syntactic analysis. Dependency-based analysis. Treebank.
1
Introducción
Este artículo presenta los primeros pasos dados
para la obtención de un analizador sintáctico
estadístico para el euskera. El sistema se basa
en un treebank anotado sintácticamente
mediante dependencias y la adaptación del
analizador sintáctico determinista MaltParser
(Nivre et al., 2007), que mediante un análisis
por desplazamiento/reducción y un sistema
basado en aprendizaje automático para
determinar, en cada paso de análisis, cuál de 4
opciones debe realizar, obtiene un único
análisis sintáctico de la oración. Los resultados
obtenidos se encuentran cerca de otros sistemas
similares.
En el resto del artículo presentaremos en el
apartado 2 el treebank utilizado (3LB) que será
la base del analizador sintáctico, y las
modificaciones
realizadas
para
su
procesamiento de manera automática. El
ISSN: 1135-5948
apartado 3 contextualiza los sistemas de análisis
sintáctico estadístico, presentando el sistema
elegido para este trabajo, que es el analizador
determinista Maltparser. En la sección 4 se
presentan los experimentos realizados junto con
los resultados obtenidos. La sección 5 compara
el trabajo realizado con sistemas similares que
han sido desarrollados. El artículo acaba
presentando las principales conclusiones y
líneas futuras de trabajo.
2
3LB: un treebank anotado
sintácticamente para el euskera
El proyecto 3LB desarrolló corpus anotados a
nivel morfológico y sintáctico para el catalán,
euskera y español (Palomar et al., 2004).
La anotación para el catalán y español está
basada en constituyentes, mientras que el
euskera está anotado mediante dependencias
(Carroll,
Minnen
y
Briscoe,
1998).
Seguidamente se presentarán primero las
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Kepa Bengoetxea y Koldo Gojenola
@@00,06,2,1201,6
Ika-mika
baten
ostean,
funtzionarioak
14:00etan itzultzeko
esan
zien.
(discusión) (de una) (después),(el funcionario) (a las 14) (volver)
(decir) (él a ellos/pasado)
Después de una discusión, el funcionario les dijo que volvieran a las 14:00.
meta
ncmod
detmod
ncsubj
ncmod
xcomp_obj
auxmod
(-,
(gen_post_ine,
(-,
(erg,
(ine,
(konp,
(-,
root,
esan,
Ika-mika,
esan,
itzultzeko,
esan,
esan,
esan)
Ika-mika)
baten_ostean)
funtzionarioak)
14:00etan)
itzultzeko)
zien)
Figura 1: Ejemplo de anotación de una oración.
características generales del treebank original
(apartado 2.1) y la adaptación que se hizo del
treebank para convertirlo a un formato
apropiado para el análisis automático (apartado
2.2).
2.1
2.2
La anotación original del treebank para el
euskera, válida lingüísticamente, plantea varios
problemas a la hora de ser usada en un
tratamiento computacional:
• Fenómenos como la aparición de
palabras repetidas en una misma oración
requieren la explicitación del elemento
oracional correspondiente a cada
aparición de la palabra, no presente en la
anotación original
• Elementos no explícitos. En la anotación
original se permitió la anotación de
elementos nulos correspondientes a
fenómenos
como
la elipsis
o
coordinación. Sin embargo, la gran
mayoría de los analizadores basados en
dependencias actuales no admite la
aparición de elementos que no
corresponden a palabras de la oración.
• Ambigüedad
morfosintáctica.
La
anotación original se hizo enlazando
palabras entre sí. Esta alternativa tiene el
inconveniente de que, siendo cada
palabra morfológicamente ambigua
(cada palabra tiene una media de 2,81
interpretaciones), no se conoce con
certeza cuál es la interpretación correcta.
Aunque el tipo de dependencia que une
dos palabras proporciona información
útil para la desambiguación (por
ejemplo, la dependencia “ncsubj”
generalmente une el núcleo de un
sintagma nominal, normalmente de
categoría nombre, con un verbo), hay un
alto grado de ambigüedad no resoluble
automáticamente. La figura 1 muestra
que las palabras no contienen ningún
tipo de anotación morfosintáctica, a
excepción de las dependencias.
• Términos multipalabra. Al etiquetar el
corpus, los lingüistas no disponían de
una guía sistemática para la anotación de
El treebank 3LB para el euskera
El corpus 3LB (Palomar et al., 2004)
contiene
57.000
palabras
anotadas
sintácticamente. Las características del euskera,
como por ejemplo el orden libre de
constituyentes de la oración, aconsejaron
realizar una anotación mediante dependencias,
de manera similar a la realizada para idiomas
como el checo (Hajic, 1999), aunque también
planteada para idiomas de orden menos libre
como el inglés (Jarvinen y Tapanainen, 1998).
La figura 1 muestra un ejemplo de anotación
de una oración en el corpus 3LB. Básicamente,
la anotación indica el tipo de dependencia
(meta, ncsubj, …) seguida de tres atributos que
representan:
•
Información morfosintáctica útil como
es el caso, o el tipo de oración
subordinada (konp1 en el ejemplo).
Aunque la figura muestra que la
anotación
incluye
una
mínima
información
morfosintáctica,
en
general, la anotación está basada en
palabras. Este hecho supuso un
problema, ya que los analizadores
sintácticos estadísticos requieren el uso
de rasgos morfosintácticos (categoría,
número, caso, …) no presentes en este
corpus original.
•
Núcleo de la dependencia (con el valor
especial root para indicar el núcleo de
la oración).
•
Elemento dependiente.
1
Adaptación del treebank
Oración subordinada completiva.
6
Desarrollo de un Analizador Sintáctico Estadístico basado en Dependencias para el Euskera
P
1
2
3
4
5
6
7
8
9
Forma
Ika-mika
baten_ostean
,
funtzionarioak
14:00etan
itzultzeko
esan
zien
.
Lema
Ika-mika
bat
,
funtzionario
14:00
itzuli
esan
*edun
.
Cat
IZE
IZE
PUNT
IZE
DET
ADI
ADI
ADL
PUNT
Cat+subcat
IZE_ARR
IZE_ARR
PUNT_KOMA
IZE_ARR
DET_DZH
ADI_SIN
ADI_SIN
ADL
PUNT_PUNT
Info
Núcleo
ABS|MG
7
DEK|GEN_oste_INE|NUMS|MUGM|POS 1
_
2
ERG|NUMS|MUGM
7
NMGP|INE|NUMP|MUGM
6
ADIZE|KONPL|ABS|MG
7
PART|BURU
0
B1|NR_HURA|NK_HARK|NI_HAIEI
7
_
8
Dependencia
ncmod
ncmod
PUNC
ncsubj
ncmod
xcomp_obj
ROOT
auxmod
PUNC
Figura 2: Ejemplo de anotación de una oración.
ncmod
ncsubj
ncmod
ncmod
Ika-mika
baten_ostean,
funtzionarioak
14:00etan
xcomp_obj
itzultzeko
esan
zien.
Figura 3: Representación gráfica del árbol de dependencias.
estos elementos, que incluyen elementos
como
entidades,
postposiciones
complejas o locuciones. Esto dio lugar a
que sea difícil emparejar las palabras del
treebank con las de la oración original.
Como ejemplo, la figura 1 muestra que
la postposición compleja “baten ostean”
se ha agrupado en una sola unidad.
Por estos motivos se hizo imprescindible
reetiquetar el corpus para obtener una versión
tratable computacionalmente. Aunque se
realizaron programas de ayuda al reetiquetado,
este proceso fue muy costoso, al ser en su
mayor parte manual, y exigió la revisión
completa del treebank. Las figuras 2 y 3
muestran la oración anterior etiquetada en un
formato
de
dependencias
utilizable
computacionalmente y su representación
gráfica. El formato elegido es el de la
conferencia CoNLL2 (CoNLL 2007), que tiene
las siguientes características:
• Componentes explícitos. Todas las
relaciones deben ser de palabra a
palabra, es decir, no se permite eliminar
o añadir elementos a la oración en el
análisis.
• Es suficientemente versátil para permitir
su conversión a otros formatos de
manera automática, como el formato
2
Penn
(Marcus,
Santorini
y
Marcinkiewiecz, 1993) o el formato
aceptado por el parser de (Collins et al.
1999).
La figura 2 contiene un ejemplo de la
sentencia en el nuevo formato. Este formato
contiene ocho campos: posición (P), forma,
lema, categoría (coarse postag), categoría +
subcategoría, información morfosintáctica,
identificador del núcleo y relación de
dependencia.
3
Análisis sintáctico estadístico
La popularidad de los Treebanks está ayudando
al desarrollo de analizadores sintácticos
estadísticos que empezó con el Penn Treebank
para el inglés (Marcus, Santorini y
Marcinkiewiecz, 1993), para el que se han
desarrollado parsers de referencia (Collins,
1996; Charniak, 2000), que marcan el estado
del arte actual. Aunque las características del
inglés llevaron a una anotación inicial basada
en
constituyentes,
diversos
factores,
fundamentalmente la extensión a idiomas de
características muy diferentes al inglés y
también la dificultad de evaluación de las
estructuras jerárquicas subyacentes, han llevado
a desarrollar modelos sintácticos basados en
dependencias.
El apartado 3.1 examinará brevemente los
analizadores
sintácticos
basados
en
Computational Natural Language Learning.
7
Kepa Bengoetxea y Koldo Gojenola
dependencias. En el punto 3.2 se describirá el
analizador sintáctico de Nivre et al. (2007) que
ha sido usado en el presente trabajo.
paso, se obtiene un único análisis
sintáctico de la oración.
• Técnicas de aprendizaje automático
discriminativas para enlazar historias
con acciones. En este momento el
sistema permite utilizar dos de las
alternativas de aprendizaje automático
más exitosas: aprendizaje basado en
memoria (Memory Based Learning,
Daelemans y Van den Bosch, 2005) y
Support Vector Machines (SVM, Chang
y Lin, 2001).
Este analizador ha sido probado con
multitud de idiomas de diversa tipología,
obteniendo resultados que se acercan al estado
del arte para el inglés, que es tomado
generalmente como referencia y punto de
comparación. En la competición CoNLL de
2007, una versión de este sistema ha quedado
en primera posición, de un total de 20 sistemas
presentados.
3.1 Análisis sintáctico basado en
dependencias
Los analizadores sintácticos basados en
dependencias han sido utilizados en diversos
trabajos, con propuestas que van desde
analizadores que construyen directamente
estructuras de dependencias (Jarvinen y
Tapanainen 1998, Lin 1998) hasta otras que se
basan en las tradicionales estructuras de
constituyentes permitiendo adicionalmente la
extracción de dependencias (Collins 1999;
Briscoe, Carroll y Watson, 2006).
Entre los analizadores estadísticos basados
en
dependencias
podemos
citar
los
experimentos realizados por (Eisner, 1996) y
los trabajos realizados para el turco (Eryiğit y
Oflazer, 2006), que comparte con el euskera la
propiedad de ser un idioma aglutinativo. En
general, los últimos años este tema ha sido
avivado por la competición realizada en la
conferencia CoNLL3 sobre analizadores de
dependencias (CoNLL, 2006, 2007), en la que
se plantea el reto de utilizar diferentes parsers
para analizar un conjunto de treebanks de un
amplio abanico de idiomas.
4
Experimentos y resultados
En este apartado vamos a presentar los
experimentos realizados junto con los
resultados que se han obtenido.
El primer paso consiste en seleccionar los
atributos utilizados para el análisis sintáctico.
Aunque el uso de una mayor cantidad de
información puede en principio ayudar a
mejorar los resultados, el tamaño del corpus
usado (57.000 palabras) es pequeño, por lo que
se pueden presentar problemas de data
sparseness.
El analizador usado permite especificar
distintos tipos de información a utilizar para el
entrenamiento, distinguiendo:
• Información léxica. Se podrá usar tanto
la forma como el lema de cada palabra.
• Información categorial. Se puede
seleccionar tanto la categoría sintáctica
(nombre, adjetivo, verbo, …) como la
subcategoría (nombre común, nombre
propio, …).
• Información morfosintáctica. El euskera
presenta una gran variedad de
informaciones de este tipo, incluyendo
el caso y número para los elementos
integrantes del sintagma nominal, o
información de concordancia con sujeto,
objeto directo e indirecto en verbos, así
como distintos tipos de oraciones
subordinadas. Entre los idiomas
presentados a CoNLL (2007) es el
3.2 Maltparser: un analizador
sintáctico estadístico determinista
El analizador sintáctico determinista de
Nivre et al. (2007) es un sistema independiente
del lenguaje que permite inducir un parser o
analizador sintáctico a partir de un treebank,
usando conjuntos de datos de entrenamiento
limitados. El analizador se basa en:
• Algoritmos deterministas para análisis
de dependencias. Mediante un análisis
por desplazamiento/reducción y un
sistema basado en el uso de una pila y
una cadena de entrada.
• Modelos de características basados en
historia (History-based feature models)
para predecir la acción a realizar. En
este algoritmo concreto, el sistema debe
elegir entre 4 opciones (enlazar dos
palabras con un arco hacia la izquierda,
ídem con arco hacia la derecha, reducir
o desplazar), y para ello hace uso de los
rasgos de la pila y/o de la cadena de
entrada. Aplicando sucesivamente este
3
CoNLL (Computational Natural Language
Learning) shared task on dependency parsing.
8
Desarrollo de un Analizador Sintáctico Estadístico basado en Dependencias para el Euskera
idioma que presenta, de lejos, un mayor
número de rasgos morfosintácticos
(359).
• Etiquetas de dependencia. Se ha
definido un conjunto de 35 etiquetas.
El analizador usado se basa en la técnica de
reducción y desplazamiento utilizando, por
tanto, una pila donde va añadiendo elementos
de la cadena de entrada. Por ello, se pueden
especificar elementos tanto de la pila como de
la cadena de entrada para su uso en la fase de
aprendizaje automático. Además, como el
analizador va construyendo el árbol de
dependencias, también se pueden especificar
rasgos del antecesor o los descendientes de un
elemento de la pila o del primer elemento que
queda sin analizar de la cadena de entrada4.
Especifica
ción
1
p(σ0)
2
d(h(σ0))
3
4
5
p(τ0)
f(τ1)
w(l(σ1))
núcleo, descendiente izquierdo y descendiente
derecho, respectivamente. Estas etiquetas se
pueden combinar para formar especificaciones
más complejas, como en los ejemplos 1-5 de la
tabla 1. Por ejemplo, la especificación número 5
de la tabla hace referencia a la forma del
dependiente más a la izquierda del símbolo que
se encuentra debajo del tope de la pila.
Los datos del treebank se han separado en
una parte para entrenamiento (50.123 palabras)
y otra para la prueba final (gold test, 5.318
palabras5). Los experimentos se han analizado
aplicando la técnica de 10 fold cross-validation
sobre los datos de entrenamiento y finalmente
sobre los datos del gold-test.
Descripción
Categoría del símbolo del
tope de la pila
Etiqueta de dependencia
del símbolo del tope de la
pila con su núcleo
Categoría de la primera
palabra de la cadena de
entrada por analizar
Rasgos morfosintácticos
de la palabra siguiente a la
primera de la cadena de
entrada
Forma de la palabra
correspondiente
al
descendiente más a la
izquierda del elemento
debajo del tope de la pila.
Características
Φ1
Φ2
S(σ1)
S(σ0)
S(τ0)
S(τ1)
S(τ2)
S(τ3)
S(Oσ0
S(Oτ0
ZKσ0))
Zσ0)
Z(τ0)
Z(τ1)
/σ0)
/(τ0)
/(τ1)
GOσ0
Gσ0
GUσ0
GOτ0
Iτ0)
I(σ0)
IKσ0))
Tabla 2. Modelos de características.
Tabla 1: Ejemplos de especificación de
parámetros para el sistema de aprendizaje.
En las pruebas efectuadas se ha querido
valorar la importancia del uso de la información
morfosintáctica
para
el
entrenamiento,
probando si el uso de dicha información mejora
significativamente los resultados obtenidos por
el parser. A la hora de seleccionar los atributos
utilizados por el parser se han especificado los
parámetros de la tabla 2 siguiendo las
especificaciones de la tabla 1. Se han realizado
múltiples pruebas con diferentes clases de
parámetros.
La tabla 2 muestra dos clases de pruebas que
se han realizado. La columna Φ1 presenta la
La tabla 1 muestra un ejemplo de
especificación de los parámetros de aprendizaje
del sistema. Se permite especificar elementos
de la pila (σ) o de la cadena de entrada (τ),
mediante su posición relativa (empezando
desde el cero). Por ejemplo, la especificación 1
hace referencia a la categoría p(art of speech)
del símbolo en el tope de la pila. Las etiquetas
w(ord), L(ema), d(ependencia), h(ead), l(eft) y
r(ight) se refieren a la forma, dependencia, al
4
5
Al ser el análisis de izquierda a derecha, solo el
primer símbolo de la entrada puede tener antecesor o
descendientes.
Debido a errores en la conversión del treebank
original, el número de palabras original se ha visto
reducido respecto al total de palabras del corpus.
9
Kepa Bengoetxea y Koldo Gojenola
combinación de características estándar usada
por Nivre et al. (2007) para una gran variedad
de lenguas. La columna Φ2 muestra la
combinación más exitosa obtenida en el total de
los experimentos, donde se han añadido rasgos
correspondientes a información morfosintáctica.
La tabla 3 muestra cómo el uso de
información morfosintáctica presenta una
mejora de 8 puntos en Labeled Attachment
Score6 (LAS) de Φ1 sobre Φ2.
Φ1
Φ2
10 fold cross-validation average
67,64
75,06
Gold-Test
65,08
74,41
Nº de rasgos
10 fold cross- Gold-test
validation
average (Φ2)
359
75,06
74,41
163
75,13
73,45
Tabla 4. Resultados (LAS) obtenidos al reducir
el número de rasgos morfosintácticos.
5
Comparación con otros trabajos
Este trabajo se enmarca en el ámbito del
análisis sintáctico estadístico basado en
dependencias, cuyo máximo exponente
actualmente son las competiciones CoNLL
2006 y 2007. En cuanto a los resultados
generales, el indicador de asignación de
etiqueta correcta (Labeled Attachment Score,
LAS) conseguido (74,41%) sitúa a nuestro
sistema cerca de los mejores resultados
presentados (76,94%). De hecho, este resultado
iguala a los obtenidos con un único sistema, ya
que el mejor resultado de CoNLL se da al
combinar varios analizadores.
En otro trabajo, Cowan y Collins (2005)
presentan los resultados de aplicar el analizador
de Collins al castellano, que presenta como
novedad una mayor flexión que el inglés. El
trabajo experimenta con el uso de diferentes
tipos de información morfológica, concluyendo
que esta información ayuda a mejorar los
resultados del analizador.
Eryiğit,
Nivre,
y
Oflazer
(2006)
experimentan con el uso de distintos tipos de
información morfológica para el análisis del
turco, comprobando cómo el aumento de la
riqueza de la información inicial aumenta la
precisión. En un trabajo relacionado, Eryiğit y
Oflazer (2006) comprueban que el uso de los
morfemas como unidad de análisis (en vez de
palabras) también mejora el analizador.
Aranzabe, Arriola, y Díaz de Ilarraza (2004)
están desarrollando un analizador sintáctico
basado en dependencias para el euskera. Este
analizador está basado en conocimiento
lingüístico, donde la gramática se ha escrito en
el
formalismo
Constraint
Grammar
(Tapanainen, 1996). No se tienen en este
momento resultados publicados sobre la
precisión y cobertura de este analizador, por lo
que no es posible establecer comparaciones
directas con el sistema aquí presentado.
Tabla 3. Resultados obtenidos (LAS).
Los experimentos anteriores se han realizado
utilizando el corpus en su estado original y
cambiando las especificaciones de los
parámetros. Teniendo en cuenta que el número
de rasgos morfológicos distintos para el euskera
es el mayor de todos los idiomas presentados a
CoNLL (359) hemos pensado en reducir su
número teniendo en cuenta conocimiento
específico del euskera, eliminando algunos
rasgos que se han considerado poco
significativos y unificando rasgos que se
considera que tienen un comportamiento común
de cara al análisis (por ejemplo, un subconjunto
importante de las marcas de caso indican el
mismo tipo de dependencia ncmod, modificador
no clausal, por lo que decidimos agruparlas).
Con esto se espera facilitar la tarea de
aprendizaje y reducir el tiempo de aprendizaje y
análisis. El resultado no muestra una mejoría
(ver tabla 4), al no superar un LAS de 74,41%
obtenido con un mayor conjunto de rasgos,
aunque sí lo hace en cuanto al tiempo de
entrenamiento y de análisis, siendo 3 y 8 veces
más rápido, respectivamente.
Aunque no se ha mostrado en las tablas, se
ha comprobado, en concordancia con los
resultados de Nivre et al. (2007), que el uso de
SVM mejora los resultados de MBL cerca de
un 3%. Por ello, los resultados presentados
corresponden al uso de SVM.
6
Porcentaje de palabras en las que el sistema
predice correctamente tanto su núcleo como la
relación de dependencia existente entre ellos.
10
Desarrollo de un Analizador Sintáctico Estadístico basado en Dependencias para el Euskera
6
Conclusiones
Este artículo ha presentado la preparación del
treebank 3LB para el euskera para su
tratamiento computacional, así como la
adaptación del analizador de Nivre et al. (2007)
al tratamiento del euskera. Este lenguaje
presenta como características principales el
orden libre de constituyentes de la oración y el
uso de información morfosintáctica rica en
comparación con otras lenguas.
El trabajo presentado supone la primera
aproximación al análisis sintáctico estadístico
del euskera, en paralelo con la competición
CoNLL 2007, en la que hemos colaborado en la
fase de preparación de datos.
Se han probado diferentes tipos de
parámetros y algoritmos, obteniendo una
precisión superior al 74%, que se acerca a los
resultados obtenidos por los mejores sistemas
de (CoNLL 2007) para la misma tarea. Se ha
probado que incorporar distintos tipos de
información
morfosintáctica
mejora
notablemente los resultados. Entre las acciones
para continuar esta investigación planteamos:
• Análisis no proyectivo. Los algoritmos
empleados en este trabajo requieren que
las dependencias sean proyectivas, es
decir, no puede haber arcos que se
crucen. El análisis de los datos del
euskera muestra que un 2,9% de las
dependencias en el treebank son no
proyectivas. Para estos casos, Nivre y
Nilsson (2005) plantean un algoritmo
que convierte arcos no proyectivos en
proyectivos. Al ser el algoritmo
reversible, permite volver el treebank a
la configuración inicial después del
análisis sintáctico, para realizar la
evaluación final. Esta conversión
permite usar algoritmos de análisis que
en principio solo son válidos para la
construcción de árboles proyectivos.
• Hemos comprobado cómo una de las
categorías sintácticas que peores
resultados presenta es el nombre (LAS
de 66%). Al ser el nombre una de las
categorías más frecuentes, presenta un
gran porcentaje del total de errores
realizados (cerca del 50% de todos los
errores). Una de las hipótesis que
planteamos es que puede deberse al
hecho de que el nombre es comúnmente
enlazado con el verbo, pero la
dependencia se hace en función del caso
•
•
gramatical, que muchas veces pertenece
a otra palabra7. Por ello estamos
planteando la posibilidad de separar el
caso gramatical como un elemento
distinto, es decir, tomar morfemas como
unidad de análisis. Esta idea aplicada a
la alineación de textos en traducción
automática ha producido mejoras
significativas (Agirre et al., 2006).
Estudio del efecto que tiene el tipo de
corpus en los resultados. El corpus
utilizado dispone de dos clases de
textos: literarios y periodísticos. Aunque
el tamaño reducido del corpus usado no
ha permitido realizar pruebas por
separado para cada uno de ellos, hemos
comprobado que los resultados mejoran
(cerca de un 5%) cuando el corpus de
entrenamiento está formado solo por
textos de un tipo. La ampliación del
treebank, que pasará en breve a tener
cerca de 300.000 palabras, permitirá
realizar estas pruebas con más precisión.
Esto también posibilitará el estudio de la
aportación del tamaño del corpus.
Estudio del efecto de la fase de
desambiguación morfosintáctica. En este
momento, el analizador ha sido probado
con una sola interpretación por palabra,
es decir, la entrada del analizador es
perfecta. La fase de desambiguación
previa introducirá errores que se
acumulan a los del analizador sintáctico.
Aunque los errores de la fase de
etiquetado morfológico no son tan
importantes para otras lenguas, la alta
ambigüedad
del
euskera
(2,81
interpretaciones por palabra, Ezeiza et
al. 1998) supone un reto añadido.
Agradecimientos
Este trabajo está subvencionado por el
Departamento de Industria y Cultura del
Gobierno Vasco (proyecto AnHITZ 2006,
IE06-185).
Bibliografía
Agirre E., A. Díaz de Ilarraza, G. Labaka, y K.
Sarasola. 2006. Uso de información
7
Por ejemplo, en el sintagma nominal “etxe
handi horrekin” (con esa casa grande), la palabra
etxe debe asociarse con el verbo, pero el tipo de
dependencia viene dado por el sufijo –ekin, que
aparece dos palabras más adelante.
11
Kepa Bengoetxea y Koldo Gojenola
morfológica en el alineamiento EspañolEuskara. XXII Congreso de la SEPLN.
Association for Computational Linguistics,
April 2006, Trento, Italy
Aranzabe M., J.M. Arriola, y A. Díaz de
Ilarraza. 2004. Towards a Dependency
Parser of Basque. Proceedings of the Coling
2004 Workshop on Recent Advances in
Dependency Grammar. Geneva.
Ezeiza N., I. Aduriz, I. Alegria, J.M. Arriola, y
R. Urizar. 1998. Combining Stochastic and
Rule-Based Methods for Disambiguation in
Agglutinative Languages, COLING-ACL'98,
Montreal (Canada). August 10-14, 1998.
Briscoe, E., J. Carroll, y R. Watson. 2006. The
Second Release of the RASP System. In
Proceedings of the COLING/ACL 2006
Interactive Presentation Sessions, Sydney.
Eisner J. 1996. Three new probabilistic models
for dependency parsing: an exploration.
Proceedings of COLING-1996, Copenhagen.
Hajič J. Building a Syntactically Annotated
Corpus: The Prague Dependency Treebank.
1998. In: E. Hajičová (ed.): Issues of
Valency and Meaning. Studies in Honour of
Jarmila Panevová, Karolinum, Charles
University Press, Prague, pp. 106-132.
Carroll, J., G. Minnen, y E. Briscoe. 1999.
Corpus annotation for parser evaluation. In
Proceedings of the EACL-99 PostConference Workshop on Linguistically
Interpreted Corpora, Bergen. 35-41.
Chang, C.-C. y Lin, C.-J. 2001. LIBSVM: A
library for support vector machines.
Software
available
at
http://www.csie.ntu.edu.tw/~cjlin/libsvm.
Jarvinen T., y P. Tapanainen. 1998. Towards an
implementable
dependency
grammar.
CoLing-ACL'98 workshop 'Processing of
Dependency-Based Grammars', Kahane and
Polguere (eds), p. 1-10, Montreal, Canada.
Collins M. 1999. Head-Driven Statistical
Models for Natural Language Parsing. PhD
Dissertation, University of Pennsylvania.
Tapanainen P. 1996. The Constraint Grammar
Parser CG-2. Number 27 in Publications of
the Department of General Linguistics,
University of Helsinki.
Collins M., J. Hajic, E. Brill, L. Ramshaw, y
Tillmann C. 1999. A Statistical Parser for
Czech. In: Proceedings of the 37th Meeting
of the ACL, pp. 505-512. University of
Maryland, College Park, Maryland.
Lin D. 1998. Dependency-based Evaluation of
MINIPAR. In Workshop on the Evaluation
of Parsing Systems, Granada, Spain, May,
1998.
CoNLL 2006 y 2007. Proceedings of the
Tenth/Eleventh
Conference
on
Computational Natural Language Learning.
Marcus M., B. Santorini y M. Marcinkiewiecz.
1993. Building a large annotated corpus of
English: The Penn Treebank. Computational
Linguistics, 19 (2), 313--330.
Cowan B. y M. Collins. 2005. Morphology and
Reranking for the Statistical Parsing of
Spanish. Proceedings of the Conference on
Empirical Methods in NLP (EMNLP).
Nivre, J. y J. Nilsson. 2005. Pseudo-Projective
Dependency Parsing. In Proceedings of the
43rd Annual Meeting of the Association for
Computational Linguistics (ACL), 99-106.
Daelemans, W. y A. Van den Bosch. 2005.
Memory-Based
Language
Processing.
Cambridge University Press.
Nivre, J., J. Hall, J. Nilsson, A. Chanev, G.
Eryigit, S. Kübler, S. Marinov, y E. Marsi.
2007. MaltParser: A language-independent
system for data-driven dependency parsing.
Natural Language Engineering, 13(2).
Eryiğit G., J. Nivre, y K. Oflazer. 2006. The
incremental
use
of
morphological
information and lexicalization in data-driven
dependency parsing. In Proceedings of the
21st International Conference on the
Computer Processing of Oriental Languages
(ICCPOL), Springer LNAI 4285.
Palomar M., M. Civit , A. Díaz de Ilarraza , L.
Moreno, E. Bisbal, M. Aranzabe, A. Ageno,
M.A. Martí, y B. Navarro. 2004.
3LB: Construcción de una base de árboles
sintáctico-semánticos para el catalán,
euskera y castellano. XX Congreso de la
SEPLN.
Eryiğit G., y K. Oflazer. 2006. Statistical
Dependency
Parsing
for
Turkish.
Proceedings of EACL 2006 - The 11th
Conference of the European Chapter of the
12
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 13-20
recibido 16-05-2007; aceptado 22-06-2007
Técnicas deductivas para el análisis sintáctico con corrección de
errores∗
Carlos Gómez-Rodrı́guez y Miguel A. Alonso
Manuel Vilares
Departamento de Computación
E. S. de Ingenierı́a Informática
Universidade da Coruña
Universidad de Vigo
Campus de Elviña, s/n
Campus As Lagoas, s/n
15071 A Coruña, Spain
32004 Ourense, Spain
{cgomezr, alonso}@udc.es
[email protected]
Resumen: Se presentan los esquemas de análisis sintáctico con corrección de errores, que permiten definir algoritmos de análisis sintáctico con corrección de errores
de una manera abstracta y declarativa. Este formalismo puede utilizarse para describir dichos algoritmos de manera simple y uniforme, y proporciona una base formal para demostrar su corrección y otras propiedades. Además, mostramos cómo se
puede utilizar para obtener distintas implementaciones de los algoritmos de análisis
sintáctico, incluyendo variantes basadas en corrección regional.
Palabras clave: análisis sintáctico robusto, corrección de errores, esquemas de
análisis sintáctico
Abstract: We introduce error-correcting parsing schemata, which allow us to define
error-correcting parsers in a high-level, declarative way. This formalism can be used
to describe error-correcting parsers in a simple and uniform manner, and provides a
formal basis allowing to prove their correctness and other properties. We also show
how these schemata can be used to obtain different implementations of the parsers,
including variants based on regional error correction.
Keywords: robust parsing, error correction, parsing schemata
1.
Introducción
Cuando se utilizan técnicas de análisis
sintáctico en aplicaciones reales, es habitual encontrarse con frases no cubiertas por la
gramática. Esto puede deberse a errores gramaticales, errores en los métodos de entrada,
o a la presencia de estructuras sintácticas correctas pero no contempladas en la gramática.
Un analizador sintáctico convencional no podrá devolver un árbol de análisis en estos casos. Un analizador sintáctico robusto es aquél
que puede proporcionar resultados útiles para
estas frases agramaticales. Particularmente,
un analizador sintáctico con corrección de
errores es un tipo de analizador sintáctico
robusto que puede obtener árboles sintácticos completos para frases no cubiertas por la
gramática, al suponer que estas frases agramaticales son versiones corruptas de frases
válidas.
∗
Parcialmente financiado por Ministerio de Educación y Ciencia (MEC) y FEDER (TIN200407246-C03-01,
TIN2004-07246-C03-02),
Xunta
de Galicia (PGIDIT05PXIC30501PN, PGIDIT05PXIC10501PN, Rede Galega de Procesamento
da Linguaxe e Recuperación de Información) y
Programa de Becas FPU (MEC).
ISSN: 1135-5948
En la actualidad no existe un formalismo
que permita describir de manera uniforme los
analizadores sintácticos con corrección de errores y probar su corrección, tal y como se
hace con los esquemas de análisis sintáctico
para los analizadores convencionales. En este
artı́culo, se propone un formalismo que cubre
esta necesidad al tiempo que se muestra cómo
se puede utilizar para obtener implementaciones prácticas.
2.
Esquemas de análisis
sintáctico convencionales
Los esquemas de análisis sintáctico
(Sikkel, 1997) proporcionan una manera
simple y uniforme de describir, analizar y
comparar distintos analizadores sintácticos.
La noción de esquema de análisis sintáctico
proviene de considerar el análisis como un
proceso deductivo que genera resultados
intermedios denominados ı́tems. Se parte
de un conjunto inicial de ı́tems obtenido
directamente de la frase de entrada, y el
proceso de análisis sintáctico consiste en la
aplicación de reglas de inferencia (pasos deductivos) que producen nuevos ı́tems a partir
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Carlos Gómez-Rodríguez, Miguel A. Alonso y Manuel Vilares Ferro
de los ya existentes. Cada ı́tem contiene
información sobre la estructura de la frase,
y en cada análisis sintáctico satisfactorio se
obtiene al menos un ı́tem final que garantiza
la existencia de un árbol sintáctico completo
para la frase.
Sea G = (N, Σ, P, S)1 una gramática independiente del contexto2 . El conjunto de
árboles válidos para G, denotado T rees(G),
se define como el conjunto de árboles finitos
donde los hijos de cada nodo están ordenados
de izquierda a derecha, los nodos están etiquetados con sı́mbolos de N ∪Σ∪(Σ×N)∪{},
y cada nodo u satisface alguna de las siguientes condiciones:
• u es una hoja,
• u está etiquetado A, los hijos de u están
etiquetados X1 , . . . , Xn y hay una producción A → X1 . . . Xn ∈ P ,
• u está etiquetado A, u tiene un único hijo
etiquetado y existe una producción A →
∈ P,
• u está etiquetado a y u tiene un único hijo
etiquetado (a, j) para algún j.
A los pares (a, j) les llamaremos terminales marcados, y cuando trabajemos con
una cadena a1 . . . an , escribiremos aj como
notación abreviada para (aj , j). El número
natural j se utiliza para indicar la posición
del sı́mbolo a en la entrada, de modo que la
frase de entrada a1 . . . an pueda verse como
un conjunto de árboles de la forma aj (aj ) en
lugar de como una cadena de sı́mbolos. A partir de ahora, nos referiremos a los árboles de
esta forma como seudoproducciones.
Sea T rees(G) el conjunto de árboles para
una gramática independiente del contexto G.
Un conjunto de ı́tems es un conjunto I tal
que I ⊆ Π(T rees(G)) ∪ {∅}, donde Π es una
partición de T rees(G). Si el conjunto contiene como elemento a ∅, llamaremos a este
elemento el ı́tem vacı́o.
Los análisis válidos de una cadena en
el lenguaje definido por una gramática G
están representados por ı́tems que contienen
árboles sintácticos marcados para esa cade-
na. Dada una gramática G, un árbol sintáctico marcado para una cadena a1 . . . an es
cualquier árbol τ ∈ T rees(G)/root(τ ) = S ∧
yield(τ ) = a1 . . . an . Llamaremos ı́tem final
a todo ı́tem que contenga un árbol sintáctico marcado para una cadena cualquiera. Llamaremos ı́tem final correcto para una cadena
concreta a1 . . . an a todo ı́tem que contenga
un árbol sintáctico marcado para esa cadena.
Ejemplo: El conjunto de ı́tems de Earley (Earley, 1970), IEarley , asociado a una
gramática G = (N, Σ, P, S) es:
IEarley = {[A → α • β, i, j]/A → αβ ∈ P ∧ 0 ≤
i ≤ j}
donde la notación [A → α • β, i, j] usada para
los ı́tems representa el conjunto de árboles de
raı́z A, tales que los hijos directos de A son
αβ, los nodos frontera de los subárboles con
raı́z en los nodos etiquetados α forman una
cadena de terminales marcados de la forma
ai+1 . . . aj , y los nodos etiquetados β son hojas. El conjunto de ı́tems finales en este caso
es
FEarley = {[S → γ•, 0, n]}.
Un esquema de análisis sintáctico es una
función que, dada una cadena a1 . . . an y una
gramática G; permite obtener un conjunto de
pasos deductivos. Los pasos deductivos son elementos de (H ∪ I) × I, donde I es un conjunto de ı́tems y H (que llamaremos conjunto de ı́tems iniciales o hipótesis) contiene un
conjunto {ai (ai )} por cada seudoproducción
asociada a la cadena. Los pasos deductivos
establecen una relación de inferencia entre
ı́tems, de modo que Y x si (Y , x) ∈ D
para algún Y ⊆ Y . Llamaremos ı́tems válidos en un esquema dado a todos aquellos que
puedan deducirse de las hipótesis por medio
de una cadena de inferencias.
Un esquema de análisis sintáctico se dice
sólido si verifica, para cualquier gramática y
cadena de entrada, que todos los ı́tems finales
válidos son correctos. Si verifica que todos los
ı́tems finales correctos son válidos (es decir, si
existe un árbol sintáctico marcado para una
cadena, el sistema puede deducirlo) se dice
que es completo. De un esquema que es a la
vez sólido y completo se dice que es correcto.
Un esquema correcto puede usarse para
obtener una implementación ejecutable de
un analizador sintáctico mediante el uso de
máquinas deductivas como las que se describen en (Shieber, Schabes, y Pereira, 1995;
Gómez-Rodrı́guez, Vilares, y Alonso, 2006)
para obtener los ı́tems finales válidos.
1
Donde N es el conjunto de sı́mbolos no terminales, Σ el alfabeto de sı́mbolos terminales, P el conjunto de reglas de producción, y S el axioma o sı́mbolo
inicial de la gramática.
2
Aunque en este trabajo nos centraremos en
gramáticas independientes del contexto, los esquemas
de análisis sintáctico (convencionales y con corrección
de errores) pueden definirse análogamente para otros
formalismos gramaticales.
14
Técnicas Deductivas para el Análisis Sintáctico con Corrección de Errores
3.
Esquemas con corrección de
errores
da una gramática G, una función de distancia d y una cadena a1 . . . an , el problema del
reconocimiento aproximado consiste en determinar el mı́nimo e ∈ N tal que exista
un árbol aproximado (t, e) ∈ ApT rees(G)
donde t es un árbol sintáctico marcado para
la cadena. A un árbol aproximado ası́ le llamaremos árbol sintáctico marcado aproximado para a1 . . . an .
Análogamente, el problema del análisis
sintáctico aproximado consiste en encontrar el mı́nimo e ∈ N tal que exista un
árbol sintáctico marcado aproximado (t, e) ∈
ApT rees(G) para la cadena de entrada, y encontrar todos los árboles marcados aproximados de la forma (t, e) para la cadena.
Ası́, del mismo modo que el problema
del análisis sintáctico se puede ver como un
problema de encontrar árboles, el problema
del análisis sintáctico aproximado se puede
ver como un problema de encontrar árboles
aproximados, que puede ser resuelto por un
sistema deductivo análogo a los usados para
el análisis sintáctico convencional, pero cuyos
ı́tems contengan árboles aproximados.
El formalismo de esquemas de análisis
sintáctico descrito en la sección anterior no
basta para definir analizadores sintácticos
con corrección de errores que muestren un
comportamiento robusto en presencia de entradas agramaticales, ya que los ı́tems finales se definen como aquéllos que contienen
árboles sintácticos marcados que pertenecen
a T rees(G). Sin embargo, en un análisis sintáctico con corrección de errores,
será necesario obtener ı́tems que representen “análisis aproximados” para frases que
no tengan un análisis sintáctico exacto. Los
análisis aproximados de estas frases agramaticales no pueden pertenecer a T rees(G), pero
deberı́an ser similares a algún elemento de
T rees(G). En este contexto, si medimos la
“similaridad” mediante una función de distancia, podemos dar una nueva definición de
ı́tems que permita generar análisis aproximados, y ası́ extender los esquemas de análisis
para soportar la corrección de errores.
Dada una gramática independiente del
contexto G = (N, Σ, P, S), llamaremos
T rees (G) al conjunto de árboles finitos en los
que los hijos de cada nodo están ordenados de
izquierda a derecha y cada nodo está etiquetado con un sı́mbolo de N ∪ Σ ∪(Σ×N)∪{}.
Nótese que T rees(G) ⊂ T rees (G).
Sea d : T rees (G) × T rees (G) → N ∪
{∞} una función de distancia que verifique
los axiomas usuales de positividad estricta,
simetrı́a y desigualdad triangular.
Llamaremos T reese (G) al conjunto {t ∈
T rees (G)/∃t ∈ T rees(G) : d(t, t ) ≤ e},
es decir, T reese (G) es el conjunto de árboles
que tengan distancia e o menos a algún árbol
válido de la gramática. Nótese que, por el
axioma de positividad estricta, T rees0 (G) =
T rees(G).
Definición 2. (ı́tems aproximados)
Dada una gramática G y una función de distancia d, definimos conjunto de ı́tems aprox
imados como
∞ un conjunto I tal que
I ⊆ (( i=0 Πi ) ∪ {∅})
donde cada Πi es una partición del conjunto
{(t, e) ∈ ApT rees(G)/e = i}.
Nótese que el concepto está definido de
manera que cada ı́tem aproximado contiene
árboles aproximados con un único valor de la
distancia e. Definir directamente un conjunto
de ı́tems aproximados usando una partición
de ApT rees(G) no serı́a práctico, dado que
necesitamos que nuestros analizadores tengan
en cuenta cuánta discrepancia acumula cada
análisis parcial con respecto a la gramática, y
esa información se perderı́a si nuestros ı́tems
no estuviesen asociados a un único valor de e.
Este valor concreto de e es lo que llamaremos
distancia de análisis de un ı́tem ι, o dist(ι):
Definición 1. (árboles aproximados)
Se define el conjunto de árboles aproximados
para una gramática G y una función de distancia entre árboles d como ApT rees(G) =
{(t, e) ∈ (T rees (G) × N)/t ∈ T reese (G)}.
Por lo tanto, un árbol aproximado es el par
formado por un árbol y su distancia a algún
árbol de T rees(G).
Definición 3. (distancia de análisis)
Sea I ⊆ (( ∞
i=0 Πi ) ∪ {∅}) un conjunto de
ı́tems aproximados tal como se ha definido
arriba, y ι ∈ I . La distancia de análisis asociada al ı́tem aproximado no vacı́o ι, dist(ι),
se define como el (trivialmente único) valor
de i ∈ N/ι ∈ Πi .
En el caso del ı́tem aproximado vacı́o ∅,
diremos que dist(∅) = ∞.
Este concepto de árboles aproximados
nos permite definir con precisión los problemas que pretendemos resolver con el análisis sintáctico con corrección de errores. Da15
Carlos Gómez-Rodríguez, Miguel A. Alonso y Manuel Vilares Ferro
4.
Definición 4. (esquema de análisis sintáctico con corrección de errores)
Sea d una función de distancia. Llamamos esquema de análisis sintáctico con corrección
de errores a una función que asigna a cada gramática independiente del contexto G
una terna (I , K, D), donde K es una función tal que (I , K(a1 . . . an ), D) es un sistema
de análisis instanciado con corrección de errores para cada a1 . . . an ∈ Σ∗ . Un sistema
de análisis instanciado con corrección de errores es una terna (I , H, D) tal que I es un
conjunto de ı́tems aproximado con función de
distancia d, H es un conjunto de hipótesis tal
que {ai (ai )} ∈ H para cada ai , 1 ≤ i ≤ n, y
D es un conjunto de pasos deductivos tal que
D ⊆ Pf in (H ∪ I ) × I .
Una función de distancia
basada en la distancia de
edición
Para especificar un analizador sintáctico
mediante un esquema de análisis sintáctico
con corrección de errores, es necesario decidir
primero qué función de distancia utilizar para
definir el conjunto de ı́tems aproximados.
Un esquema correcto obtendrá los análisis
aproximados cuya distancia a un análisis correcto sea mı́nima. Por lo tanto, la función de
distancia debe elegirse dependiendo del tipo
de errores que se quiera corregir.
Supongamos una situación genérica donde
nos gustarı́a corregir errores según la distancia de edición. La distancia de edición o distancia de Levenshtein (Levenshtein, 1966) entre dos cadenas es el número mı́nimo de inserciones, borrados o sustituciones de un único
terminal que hacen falta para transformar
cualquiera de las cadenas en la otra.
Una distancia d adecuada para este caso viene dada por el número de transformaciones sobre árboles que necesitamos para
convertir un árbol en otro, si las transformaciones permitidas son insertar, borrar o cambiar la etiqueta de nodos frontera etiquetados
con terminales marcados (o con ). Por lo tanto, d(t1 , t2 ) = e si t2 puede obtenerse a partir
de t1 mediante e transformaciones sobre nodos correspondientes a terminales marcados
en t1, y d(t1 , t2 ) = ∞ en los demás casos.
Nótese que, si bien en este trabajo utilizaremos esta distancia para ejemplificar la
definición de analizadores con corrección de
errores, el formalismo permite usar cualquier
otra función de distancia entre árboles. Por
ejemplo, en ciertas aplicaciones puede ser útil
definir una distancia que compare todo el
árbol (en lugar de sólo los nodos frontera)
permitiendo la inserción, borrado o modificación de sı́mbolos no terminales. Esto permite detectar errores sintácticos (como por
ejemplo el uso de un verbo transitivo de forma intransitiva) independientemente de la
longitud de los sintagmas implicados.
Definición 5. (ı́tems finales)
El conjunto de ı́tems finales para una cadena de longitud n en un conjunto de ı́tems
aproximados se define como F(I , n) = {ι ∈
I/∃(t, e) ∈ ι : t es un árbol sintáctico marcado para alguna cadena a1 . . . an ∈ Σ }.
El conjunto de ı́tems finales correctos
para una cadena a1 . . . an en un conjunto de ı́tems aproximados se define como
CF(I , a1 . . . an ) = {ι ∈ I/∃(t, e) ∈ ι : t es un
árbol sintáctico marcado para a1 . . . an }.
Definición 6. (distancia mı́nima de análisis)
La distancia mı́nima de análisis para
una cadena a1 . . . an en un conjunto de
ı́tems aproximados I se define como
M inDist(I , a1 . . . an ) = min{e ∈ N : ∃ι ∈
CF(I , a1 . . . an ) : dist(ι) = e}.
Definición 7. (ı́tems finales mı́nimos)
El conjunto de ı́tems finales mı́nimos para una cadena a1 . . . an en un
conjunto de ı́tems aproximados I se define como MF(I , a1 . . . an )
=
{ι
∈
CF(I , a1 . . . an )/dist(ι)
=
M inDist(I , a1..an)}.
Los conceptos de ı́tems válidos, solidez,
completitud y corrección son análogos al caso de los esquemas de análisis convencionales.
Nótese que los problemas de reconocimiento
aproximado y análisis aproximado definidos
con anterioridad para cualquier frase y
gramática pueden resolverse obteniendo el
conjunto de ı́tems finales mı́nimos en un conjunto de ı́tems aproximados. Cualquier esquema con corrección de errores correcto puede
deducir estos ı́tems, dado que son un subconjunto de los ı́tems finales correctos.
5.
Algoritmo de Lyon
Lyon (1974) define un reconocedor con
corrección de errores basado en el algoritmo
de Earley. Dada una gramática G y una cadena a1 . . . an , el algoritmo de Lyon devuelve
la mı́nima distancia de edición a una cadena
válida de L(G).
16
Técnicas Deductivas para el Análisis Sintáctico con Corrección de Errores
En esta sección, usaremos nuestro formalismo para definir un esquema de análisis
sintáctico con corrección de errores para el algoritmo de Lyon. Esto nos servirá como ejemplo de esquema con corrección de errores, y
nos permitirá probar la corrección del algoritmo, implementarlo fácilmente y crear una
variante con corrección regional de errores,
como se verá más tarde.
El esquema para el algoritmo de Lyon
está definido para la función de distancia d
de la sección 4. Dada una gramática independiente del contexto G y una cadena de entrada a1 . . . an , el esquema Lyon es el que nos
proporciona un sistema de análisis instanciado (I , H, D) donde I y D se definen como
sigue:
ILyon
= {[A → α • β, i, j, e]/A → αβ ∈
P ∧ i, j, e ∈ N ∧ 0 ≤ i ≤ j}
donde usamos [A → α • β, i, j, e] como notación para el conjunto de árboles aproximados (t, e) tales que t es un árbol de análisis
parcial con raı́z A donde los hijos directos
de A son los sı́mbolos de la cadena αβ, y
los nodos frontera de los subárboles con raı́z
en los sı́mbolos de α forman una cadena de
terminales marcados de la forma ai+1 . . . aj ,
mientras que los nodos etiquetados β son hojas. Nótese que para definir este conjunto de
ı́tems aproximados se utiliza la distancia d
definida en la sección anterior, que es la que
condiciona los valores de e en esta notación.
El conjunto de pasos deductivos, D, para
el algoritmo de Lyon se define como la unión
de los siguientes:
DDistanceIncreaser =
{[A → α • β, i, j, e] [A → α • β, i, j, e + 1]}
Los pasos Initter, Scanner, Completer y
P redictor son similares a los del algoritmo
de Earley, con la diferencia de que tenemos
que llevar cuenta de la distancia asociada a
los árboles aproximados de nuestros ı́tems.
Nótese que el Completer suma las distancias
en sus antecedentes, dado que su ı́tem consecuente contiene árboles construidos combinando los de los dos ı́tems antecedente, y que
por lo tanto contendrán discrepancias provenientes de ambos.
Los pasos ScanSubstituted, ScanDeleted
y ScanInserted son pasos de corrección de
errores, y permiten leer sı́mbolos no esperados de la cadena a la vez que se incrementa
la distancia. ScanSubstituted sirve para corregir un error de substitución en la entrada,
ScanDeleted corrige un error de borrado, y
ScanInserted un error de inserción.
El conjunto de ı́tems finales y el subconjunto de ı́tems finales correctos son:
F = {[S → γ•, 0, n, e]}
CF = {ι = [S → γ•, 0, n, e]/∃(t, e) ∈ ι : t es
un árbol sintáctico marcado para a1 . . . an }
El paso DistanceIncreaser asegura que
todos los ı́tems finales no mı́nimos son generados (cosa que se requiere para la completitud). En implementaciones prácticas del
analizador, como la propuesta original de
Lyon (1974), normalmente no interesa la
completitud estricta sino sólo el obtener
los análisis de distancia mı́nima, ası́ que el
DistanceIncreaser no es necesario y puede
simplemente omitirse.
Probar la solidez del esquema Lyon es demostrar que todos los ı́tems finales válidos en
sus sistemas de análisis asociados son correctos. Esto se demuestra probando la proposición, más fuerte, de que todos los ı́tems válidos son correctos. Esto se puede demostrar
analizando por separado cada paso deductivo y demostrando que si sus antecedentes son
correctos, el consecuente también lo es.
Para probar la completitud del esquema
Lyon (es decir, que todos los ı́tems finales
correctos son válidos en el esquema), tenemos
en cuenta que dichos ı́tems finales son de la
forma [S → α•, 0, n, e], y lo demostramos por
inducción en la distancia e. El caso base se
prueba partiendo de la completitud del esquema Earley (Sikkel, 1998), y el paso inductivo
DInitter = {
[S → •γ, 0, 0, 0]}
DScanner =
{[A → α • xβ, i, j, e], [x, j, j + 1] [A → αx • β, i, j + 1, e]}
DCompleter =
{[A → α • Bβ, i, j, e1 ], [B → γ•, j, k, e2 ] [A → αB • β, i, k, e1 + e2 ]}
DP redictor =
{[A → α • Bβ, i, j, e] [B → •γ, j, j, 0]}
DScanSubstituted =
{[A → α • xβ, i, j, e], [b, j, j + 1] [A → αx • β, i, j + 1, e + 1]}
DScanDeleted =
{[A → α • xβ, i, j, e] [A → αx • β, i, j, e + 1]}
DScanInserted =
{[A → α • β, i, j, e], [b, j, j + 1] [A → α • β, i, j + 1, e + 1]}
17
Carlos Gómez-Rodríguez, Miguel A. Alonso y Manuel Vilares Ferro
se demuestra mediante una serie de funciones
de transformación de ı́tems que permiten inferir la validez de cualquier ı́tem final correcto
con distancia e + 1 a partir de la de un ı́tem
con distancia e.
6.
Nótese que un esquema finitamente completo es siempre completo, ya que podemos
hacer b arbitrariamente grande.
El esquema Lyon cumple la propiedad de
ser finitamente completo, cosa que se puede
demostrar de forma análoga a su completitud. Por otra parte, es fácil ver que, si
disponemos de una máquina deductiva que
pueda ejecutar esquemas de análisis sintáctico, cualquier esquema con corrección de errores S que sea finitamente completo puede
utilizarse para construir un analizador que
resuelva el problema del análisis sintáctico
aproximado en tiempo finito, devolviendo todos los análisis aproximados válidos de distancia mı́nima sin generar ningún análisis de
distancia no mı́nima. La manera más simple
de hacerlo es la siguiente:
Implementación
Un esquema con corrección de errores
completo permite deducir todos los análisis
aproximados válidos para una cadena dada.
Sin embargo, al implementar un analizador
con corrección de errores en la práctica, no
queremos obtener todos los posibles análisis aproximados (cosa que serı́a imposible en
tiempo finito, dado que hay una cantidad
infinita de análisis). Lo que buscamos, como mencionamos en la definición del problema del análisis sintáctico aproximado, son
los análisis aproximados con distancia mı́nima.
Cualquier esquema correcto que verifique
una propiedad que llamaremos completitud
finita puede adaptarse para resolver el problema del análisis sintáctico aproximado en
tiempo finito, generando sólo los análisis de
distancia mı́nima, si le añadimos algunas
restricciones. Para ello, definiremos algunos
conceptos que nos llevarán a la noción de esquema finitamente completo.
function AnalizadorRobusto ( str:cadena )
: conjunto de ı́tems
b = 0; //máxima distancia permitida
while ( true ) {
computar validItems = v(Boundb (S(G)),str);
finalItems = {i ∈validItems /i es un ı́tem final };
if ( finalItems = ∅ ) return finalItems;
b = b+1;
}
donde la función v(sys,str) computa todos
los ı́tems válidos en el sistema de análisis sys
para la cadena str , y puede implementarse
como en (Shieber, Schabes, y Pereira, 1995;
Gómez-Rodrı́guez, Vilares, y Alonso, 2006).
Es fácil demostrar que, si el problema
del análisis aproximado tiene alguna solución
para una cadena dada (cosa que, bajo nuestra
definición de distancia, siempre sucede), entonces este algoritmo la encuentra en tiempo
finito. En la práctica, podemos hacerle varias
optimizaciones para mejorar el tiempo de ejecución, como utilizar los ı́tems generados en
cada iteración como hipótesis de la siguiente
en lugar de inferirlos de nuevo. Nótese que esta variante de máquina deductiva puede ejecutar cualquier esquema con corrección de errores, no sólo el de Lyon.
Definición 8. (esquema acotado)
Sea S un esquema de análisis sintáctico
con corrección de errores que asigna a cada
gramática G una terna (I , K, D). El esquema acotado asociado a S con cota b, denotado Bb (S), es el que asigna a cada gramática
G el sistema de análisis Boundb (S(G)) =
Boundb (I , K, D) = (I , K, Db ), donde Db =
{((a1 , a2 , . . . , ac ), c) ∈ D : dist(c) ≤ b}.
En otras palabras, un esquema acotado es
una variante de un esquema con corrección
de errores que no permite deducir ı́tems con
distancia asociada mayor que la cota b.
Definición 9. (completitud hasta una cota)
Diremos que un esquema de análisis con corrección de errores S es completo hasta una
cota b si, para cualquier gramática y cadena
de entrada, todos los ı́tems finales correctos
cuya distancia asociada no sea mayor que b
son válidos.
6.1.
Implementación con
corrección regional
Si un analizador con corrección de errores
es capaz de encontrar todos los análisis aproximados de distancia mı́nima para cualquier
cadena dada, como el de la sección 6, se le
llama analizador con corrección de errores
global. En la práctica, los correctores globales
pueden volverse muy ineficientes si queremos
analizar cadenas largas o utilizar gramáticas
Definición 10. (completitud finita)
Diremos que un esquema de análisis con corrección de errores S es finitamente completo si, para todo b ∈ N, el esquema acotado
Bb (S) es completo hasta la cota b.
18
Técnicas Deductivas para el Análisis Sintáctico con Corrección de Errores
con miles de producciones, como es usual en
el procesamiento del lenguaje natural.
Una alternativa más eficiente es la corrección de errores regional, que se basa en aplicar
corrección de errores a una región que rodee
al punto en que no se pueda continuar el
análisis. Los analizadores regionales garantizan encontrar siempre una solución óptima;
pero si existen varias no garantizan encontrarlas todas.
Los algoritmos con corrección regional
basados en estados, como los que se definen
en (Vilares, Darriba, y Ribadas, 2001), suelen
estar asociados a una implementación particular. Los esquemas de análisis sintáctico
con corrección de errores nos permiten definir
analizadores regionales más generales, basados en ı́tems, donde las regiones son conjuntos de ı́tems. Los analizadores regionales
pueden obtenerse de los globales de un modo
general, tal que el analizador regional siempre devolverá una solución óptima si el analizador global del que proviene es correcto y
finitamente completo. Para ello, utilizamos la
noción de función de progreso:
donde la función v’(ded,str,min,max)
computa todos los ı́tems válidos en el sistema deductivo ded para la cadena str con
la restricción de que los pasos deductivos
de corrección de errores sólo se lanzan si al
menos uno de sus antecedentes, ι, verifica que
minProgr ≤ fp (ι) ≤ maxProgr.
Este analizador regional devuelve siempre
una solución óptima bajo la condición de que
S sea correcto y finitamente completo. Para
que además el analizador regional sea eficiente, debemos definir la función de progreso
de modo que sea una buena aproximación de
cuán “prometedor” es un ı́tem de cara a alcanzar un ı́tem final3 .
Una función simple pero adecuada en el
caso del analizador Lyon es fp j ([A → α •
β, i, j, e]) = j, que simplemente evalúa un
ı́tem de acuerdo con su ı́ndice j. Otra alternativa es fp j−i ([A → α • β, i, j, e]) = j − i. Ambas funciones premian a los ı́tems que han llegado más a la derecha en la cadena de entrada, y toman valores máximos para los ı́tems
finales.
7.
Definición 11. (función de progreso)
Sea I un conjunto de ı́tems aproximados.
Una función de progreso para I es una función fp : I → {p ∈ N/0 ≤ p ≤ k}, donde
k es un número natural llamado el progreso
máximo.
Sea S un esquema de análisis sintáctico
con corrección de errores correcto y finitamente completo, y fp una función de progreso
para su conjunto de ı́tems. Podemos implementar un analizador con corrección regional
basado en S de esta manera:
function AnalizadorRegional ( str :cadena )
: conjunto de ı́tems
b = 0; //distancia máxima permitida
maxProgr = 0; //lı́mite superior región
minProgr = 0; //lı́mite inferior región
while ( true ) {
computar validItems = v’(Boundb (S(G)),str,
minProgr,maxProgr);
finalItems = {i ∈ validItems /i es un ı́tem final };
if ( finalItems = ∅ ) return finalItems;
newMax = max{p ∈ N/∃i ∈ validItems /fp (i) = p}
if ( newmaxProgr > maxProgr ) {
maxProgr = newMax; minProgr = newMax;
}
else if ( minProgr > 0 ) minProgr = minProgr−1;
else b = b+1;
}
19
Resultados empı́ricos
Para probar nuestros analizadores y estudiar su rendimiento, hemos usado el sistema descrito en (Gómez-Rodrı́guez, Vilares,
y Alonso, 2006) para ejecutar el esquema
Lyon con corrección global y regional. La función de progreso usada para el caso regional
es la función fp j definida más arriba.
La gramática y frases utilizadas para
las pruebas provienen del sistema DARPA
ATIS3. En particular, hemos usado las mismas frases de prueba utilizadas en (Moore,
2000). Este conjunto de pruebas es adecuado
para nuestros propósitos, dado que proviene
de una aplicación real y contiene frases agramaticales. En particular, 28 de las 98 fras3
Los criterios para determinar una buena función
de progreso son similares a los que caracterizan a una
buena heurı́stica en un problema de búsqueda informada. Ası́, la función de progreso ideal serı́a una tal
que f (ι) = 0 si ι no fuese necesario para deducir un
ı́tem final, y f (ι) > f (κ) si ι puede dar lugar a un
ı́tem final en menos pasos que κ. Evidentemente esta función no se puede usar, pues hasta completar el
proceso deductivo no sabemos si un ı́tem dado puede
conducir o no a un ı́tem final; pero las funciones que
proporcionen una buena aproximación a esta heurı́stica ideal darán lugar a analizadores eficientes. En el
caso degenerado en el que se devuelve f (ι) = 0 para
cualquier ı́tem, la función de progreso no proporciona
ninguna información y el analizador con corrección
regional equivale al global.
Carlos Gómez-Rodríguez, Miguel A. Alonso y Manuel Vilares Ferro
para obtener un analizador más rápido, basado en corrección regional, a partir del mismo
esquema. Los métodos utilizados para obtener estos resultados son genéricos y se pueden
aplicar en otros analizadores.
En la actualidad, estamos trabajando en
la definición de una función que transforma
esquemas convencionales correctos que verifiquen ciertas condiciones en esquemas con
corrección de errores correctos. Esta transformación permite obtener automáticamente
analizadores sintácticos con corrección de errores regional y global a partir de esquemas
convencionales como los correspondientes a
los analizadores CYK o Left-Corner.
es del conjunto lo son. Al ejecutar nuestros
analizadores con corrección de errores, encontramos que la distancia de edición mı́nima a
una frase gramatical es 1 para 24 de ellas (es
decir, estas 24 frases tienen una posible corrección con un solo error), 2 para dos de ellas,
y 3 para las dos restantes.
Dist.
No de
Long.
Ítems med.
Ítems med.
Mejo-
Mı́n.
Frases
Media
(Global)
(Regional)
ra ( %)
70
24
2
2
0
11.04
11.63
18.50
14.50
n/a
37558
194249
739705
1117123
n/a
37558
63751
574534
965137
n/a
0%
65.33 %
22.33 %
13.61 %
n/a
0
1
2
3
>3
Cuadro 1: Rendimiento de los analizadores globales y regionales al analizar frases del conjunto de
prueba ATIS. Cada fila corresponde a un valor de
la distancia mı́nima de análisis (o contador de errores).
Bibliografı́a
Earley, J. 1970. An efficient context-free
parsing algorithm. Communications of
the ACM, 13(2):94–102.
Gómez-Rodrı́guez, C., J. Vilares, y M. A.
Alonso. 2006. Automatic generation of
natural language parsers from declarative
specifications. En Proc. of STAIRS 2006,
Riva del Garda, Italy. Long version available at http://www.grupocole.org/GomVilAlo
Como podemos ver, la corrección regional reduce la generación de ı́tems en un factor
de tres en frases con un único error. En frases
con más de un error, las mejoras son menores:
esto es porque, antes de devolver soluciones
con distancia d+1, el analizador regional genera todos los ı́tems válidos con distancia d.
De todos modos, debe tenerse en cuenta que
el tiempo de ejecución crece más rápido que
el número de ı́tems generados, ası́ que estas
mejoras relativas en los ı́tems se reflejan en
mejoras relativas mayores en los tiempos de
ejecución. Además, en situaciones prácticas
es esperable que las frases con varios errores
sean menos frecuentes que las que sólo tienen
uno, como en este caso. Por lo tanto, los tiempos más rápidos hacen a los analizadores con
corrección regional basados en ı́tems una buena alternativa a los correctores globales.
8.
2006a long.pdf.
Levenshtein, V. I. 1966. Binary codes capable of correcting deletions, insertions,
and reversals. Soviet Physics Doklady,
10(8):707–710.
Lyon, G. 1974. Syntax-directed least-errors
analysis for context-free languages: a practical approach. Comm. ACM, 17(1):3–14.
Moore, R. C. 2000. Improved left-corner
chart parsing for large context-free grammars. En Proc. of the 6th IWPT, pages
171–182, Trento, Italy, páginas 171–182.
Shieber, S. M., Y. Schabes, y F. C. N. Pereira.
1995. Principles and implementation of
deductive parsing. Journal of Logic Programming, 24(1–2):3–36, July-August.
Sikkel, K. 1998. Parsing schemata and correctness of parsing algorithms. Theoretical Computer Science, 199(1-2):87-103.
Sikkel, K. 1997. Parsing Schemata — A
Framework for Specification and Analysis
of Parsing Algorithms. Springer-Verlag,
Berlin/Heidelberg/New York.
Vilares, M., V. M. Darriba, y F. J. Ribadas. 2001. Regional least-cost error repair. Lecture Notes in Computer Science,
2088:293–301.
Conclusiones y trabajo actual
Hemos presentado los esquemas de análisis sintáctico con corrección de errores, un
formalismo que puede utilizarse para definir,
analizar y comparar fácilmente analizadores
sintácticos con corrección de errores. Estos
esquemas son descripciones sencillas y declarativas de los algoritmos que capturan su
semántica y abstraen los detalles de implementación.
En este trabajo, los hemos utilizado para
describir un analizador con corrección de
errores basado en Earley — descrito por
primera vez en (Lyon, 1974) —, para probar su corrección, para generar una implementación deductiva del algoritmo original, y
20
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 21-26
recibido 18-05-2007; aceptado 22-06-2007
A simple formalism for capturing order and co-occurrence in
computational morphology
Mans Hulden
University of Arizona
Department of Linguistics
P.O. BOX 210028
Tucson AZ 85721-0028
USA
[email protected]
Shannon T. Bischoff
University of Arizona
Department of Linguistics
P.O. BOX 210028
Tucson AZ 85721-0028
USA
bischoff@email.arizona.edu
Resumen: Tradicionalmente, modelos computacionales de morfologı́a y fonologı́a
han venido asumiendo, como punto de partida, un modelo morfotáctico donde los
morfemas se extraen de subléxicos y se van concatenando de izquierda a derecha. El
modelo de ‘clase de continuación’ se ha venido utilizando como el sistema estándar
de facto en la creación de diferentes cajas de herramientas de software. Tras estudiar
lenguas de tipologı́a diversa, proponemos aquı́ un modelo de rasgos ampliado. Nuestro modelo consta de varias operaciones diseñadas con el fin de que un buen número
de restrictiones de co-ocurrencia local y global puedan ser descritas de manera concisa. Aparte también sugerimos ciertas formas de implementar estos operadores en
modelos de morfologı́a basados en transductores de estado finito. Palabras clave:
morfologı́a computacional; morfotáctica, unificación de rasgos.
Palabras clave: morfologı́a computacional, morfotáctica, unificación de rasgos.
Abstract: Computational models of morphology and phonology have traditionally assumed as a starting point a morphotactic model where morpehemes are drawn
from sublexicons and concatenated left-to-right. In defining the lexicon-morphotactic
level of a system, this ‘continuation-class’ model has been the de facto standard implementation in various software toolkits. From surveying of a number of typologically different languages, we propose a more comprehensive feature-driven model of
morphotactics that provides the linguist with various operations that are designed
to concisely define a variety of local and global co-occurrence restrictions. We also
sketch ways to implement these operators in finite-state-transducer-based models of
morphology.
Keywords: computational morphology, morphotactics, feature unification.
1.
Introduction
Morphotactics—how morphemes combine
together to make for well-formed words in
languages—can, and is, often treated as an
isolated problem in computational morphological analysis and generation. This has been
particularly true of two-level and finite-state
morphological models, where grammars describe a mapping from an abstract morphotactic level to a surface level. In such models,
the topmost level is often described not only
as a mapping to some lower level of representation, but is also separately constrained to
reflect only legal combinations of morphemes
in a language.
Insofar as morphotactics is seen to be a
problem of expressing combinatorial constraints, it would be desirable to develop a
formalism that would allow for simple desISSN: 1135-5948
criptions of such constraints on combinations
of morphemes as frequently occur in various
natural languages. Such models have indeed
been proposed. By far the most popular model in computational morphology has been
the ‘continuation class’ model (Koskenniemi,
1983; Beesley and Karttunen, 2003) and variants thereof. The underlying assumption—
and the reason for its popularity—is that
a majority of languages exhibit the kind of
morphotactics that is easily expressed through such systems: left-to-right concatenative models where the allowability of a morpheme is primarily conditioned by the preceding
morpheme. This assumption does not always
hold, however, which has led to many proposals and implementations that augment this
model with extensions that provide for expressive power to include some phenomenon
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Mans Hulden y Shannon Bischoff
1
O
ha
otherwise not capturable.
While a variety of such extensions to
the continuation-class model have been
proposed—some quite comprehensive—we
depart entirely from the continuation-class
model in this proposal, and instead propose a
formalism that is based on declarative constraints over both the order and co-occurrence
of individual morphemes.1 This approach to
restricting morphotactics takes advantage
of a fairly restricted set of operations on
feature-value combinations in morphemes.
The formalism allows us express a variety
of non-concatenative phenomena—complex
co-occurrence patterns, free morpheme
ordering, circumfixation, among others—
concisely with a small number of statements.
2.
3
Obj.
j
4p
4
In
∅
5
Fut
∅
6
S
ı́ı́
4p
7
Cl
∅
‘out’
8
Stem
geed
Imp.
‘dig’
hadajı́ı́geed
‘Those guys dug them up’
In the above example, we have a template
consisting of eight slots, where certain classes
of morphemes are allowed to appear—slot 1
for ‘outer’ lexical prefixes, slot 2 for marking
distributive plurals, etc.3
What is noteworthy is the complex cooccurrence constraints that govern the legal
formation of Navajo verbs. To give a few
examples with respect to the above templatic
derivation: 1) the ‘outer’ prefix ha is allowed
with stems that conjugate according to a certain pattern (the so-called yi-perfective), which geed fulfils; 2) the allomorph of the 4th
person subject pronoun ı́ı́ is selected on the
basis of what slots 1 and 2 contain; 3) the
4th person subject pronoun is discontinous in
that a j must also appear in slot 3—without
this, the ı́ı́ in slot 6 signals 3rd person; 4) the
‘classifier’ in slot 7 has four possibilities which together with the stem mode and prefixes
in slots 1 and 2 determine what the subject
allomorph can be.
Navajo is an extreme example of longdistance systematic patterns of co-occurrence
restrictions. Some languages, such as the
American Indian language Koasati, which
features around 30 slots for its verbs, allow
almost any co-occurrence pattern (Kimball,
1991). Nevertheless, a consise formalism for
defining morphotactics needs to include the
possibility of capturing easily the type of patterns Navajo and other similar languages have.
Nonconcatenative phenomena
In the following, we give a few examples
of nonconcatenative morphotactic phenomena that are difficult to capture with only a
continuation-class model of morphotactics in
order to motivate particular features of the
notation we propose.2
2.1.
2
P
da
Pl.
Slot-and-filler morphotactics
The so-called slot-and-filler morphologies
(also called templatic morphologies) tend to
differ from concatenative processes or left-toright agglutinative morphologies in that they
feature abundant, often long-distance, restrictions on the co-occurrence of morphemes.
An example of this type of language is Navajo (and other Athabaskan languages) where
a strict template guides the order of morphemes. Some templatic slots may be empty,
while others are obligatorily filled:
2.2.
Free morpheme ordering
Although less documented among the
world’s major languages, there also exists
languages where certain classes of morphemes can appear in free relative order without
affecting the semantics of a word. Recent
examples of this include Aymara, an American Indian language spoken in the Andean
1
The Xerox xfst/lexc (Beesley and Karttunen,
2003) toolkit is a particularly versatile toolkit that
offers a variety of notational devices to capture the
same phenomena we document here.
2
We exclude two common patterns from this discussion: that of templatic root-and-pattern morphology (as seen in Arabic), as well as reduplication phenomena. These have been extensively treated in the literature and the most efficient solutions seem to treat
these more as phonological phenomena not specified
in the most abstract level of morphotactic description.
3
This simplified model follows Faltz (1998); the
majority of analyses for Navajo assume 16 slots or
more. See Young (2000) for details.
22
A Simple Formalism for Capturing Order and Co-Occurrence in Computational Morphology
region,4 and Chintang, a Tibeto-Burman language, from which the following example is
drawn:
(1)
(2)
(3)
(4)
(5)
(6)
3.1.
u-kha-ma-cop-yokt-e
3nsA-1nsP-NEG-see-NEG-PST
u-ma-kha-cop-yokt-e
kha-u-ma-cop-yokt-e
ma-u-kha-cop-yokt-e
kha-ma-u-cop-yokt-e
ma-kha-u-cop-yokt-e
‘They didn’t see us’
(from Bickel et al. (2007))
Here, examples (1) through (6) are interchangeable and equally grammatical.
A concatenative model where order must
be declared would require extra machinery to
capture this phenomenon.5 As will be seen
below, we will want to capture this phenomenon by simply leaving certain order constraints undeclared, from which the free order
falls out naturally.
3.
Constraining morphotactics
Given these phenomena, we now propose a simple formalism to capture morphotactics. First, we assume the existence of labeled sublexicons containing various morphemes in a given class. Also, we assume that each morpheme can be associated with featurevalue combinations:
Class1
. . . Classn
Morpheme1
. . . Morpheme1
{Subclass}
. . . {Subclass}
OP Feat Value . . . OP Feat Value
..
..
..
.
.
.
Morphemei
. . . Morphemej
OP Feat Value . . . OP Feat Value
That is, we assume that a complete lexicon
is a collection of sublexicons (or classes) that
contain morphemes. These morphemes may
carry any number of feature-value pairs, to
which an operator is associated, and may be
a member of a subclass as well.
4
See Hardman (2001) for examples of the free
morpheme ordering in Aymara. Thanks to Ken Beesley and Mike Maxwell for pointing out these resources
and the phenomenon.
5
Beesley and Karttunen (2003) hint at a solution
that first declares a strict order with contination classes and subsequently ‘shuffle’ the morphemes freely
with a regular expression operator that is composed
after the output of the strictly ordered morphotactic
level.
Order
In a fashion similar to that of the
continuation-class model, we propose that
morphemes are drawn out of this finite number of sublexicons (classes) one at a time.
However, instead of each sublexicon consisting of a statement guiding the choice of the
next sublexicon, the order is to be governed
by a number of statements over the sublexicons using two operators: > and .
The operator C1 > C2 defines the patterns
(languages) where each morpheme drawn out
of the sublexicon named C1 must immediately precede each morpheme drawn out of C2 .
Likewise C1 C2 illustrates the constraint
that morphemes drawn from C1 must precede (not necessarily immediately) those from
C2 . For the sake of completeness, we can also
assume the existence of the reverse variants
< and .
In a templatic morphology, order constraints could simply be a single transitive
statement C1 . . . Cn , and the majority of the grammar would consist of featurebased constraints regarding the possible cooccurrence of morphemes.
Likewise, the examples of free morpheme
order are now easy to capture: let us suppose that there exists a number of prefixes that
have free internal order (such as in the Chintang example above), C1 to Cn , followed by
a number of morphemes with strict internal
ordering, Cx . . . Cy . This could now be captured by the statements:
C 1 Cx
...
Cn Cx
Cx . . . C y
When modeled in this fashion there need not
be any separate statements saying that C1
to Cn occur in free internal order—rather,
this falls out of simply not specifying an order
constraint for those morpheme classes, other
than that they must occur before Cx .
3.2.
Co-occurrence
For defining the possible co-occurrence of
morphemes, we take advantage of the basic
idea of features and feature unification. We
do not assume elaborate feature structures to
23
Mans Hulden y Shannon Bischoff
exist, rather we take unification to be an operator associated with features in the morpheme lexicon, such that conflicting featurevalue pairs may not exist in the same word.
As mentioned, every morpheme in every
sublexicon can carry OP [Feature Value]
combinations, where OP is one of , +, or
−.
3.2.1. Unification
The ‘unification’ operator has the following semantics: a morpheme associated
with [F X] disallows the presence of any other morpheme in the same word carrying a
feature F and a value other than X.
3.2.2. Coercion
The operator + control for co-ocurrence
as follows: an +[F X] combination associated
with a morpheme requires that there be another [F X] combination in the word somewhere
else for the word to be legal.
3.2.3. Exclusion
Similarly, −[F V ] requires that any [F V ]
combination be absent from the word in question.
For the sake of transparency, it is assumed
that a +[F V ] statement can be satisfied by
[F V ].
3.3.
{toA}
ity {fromA}
{toN}
Class {NativeSuffix}
ness {fromN}
{toN}
less {fromN}
{toA}
Constraints
LatinateSuffix >> Stems
NativeSuffix >> LatinateSuffix | Stems
{fromN} > {toN}
{fromA} > {toA}
In the above notation (reflecting an actual
implementation) ic belongs to the head class
LatinateSuffix but also to fromN and toA,
reflecting that the suffix is latinate and changes a noun into an adjective. The relevant
constraints are that latinate suffixes must
follow stems, and that nonlatinate suffixes
must both follow stems and latinate suffixes. The above snippet suffices to capture
the general order constraints with respect to
the strata-based derivational view mentioned
previously.
3.3.2. Feature constraints:
circumfixes
Circumfixes are a classical simple case of
co-occurrence that can be captured using the
feature constraints. To continue with English,
an example of a circumfix is the combination
em+adjective+en, as in embolden. However,
the suffix en can occur on its own, as in redden, while the prefix em cannot.6 This can
be modelled as follows:
Examples
With these tools of defining morphotactics, we can now outline an example from
English derivational morphology using order
constraints and the feature-related operators.
3.3.1. Order constraints
A well-known generalization of English is
that derivational suffixes often change parts
of speech, and so must attach to the proper
part of speech that the preceding morpheme
‘produces.’ Also, prefixes and suffixes are seen
to fall into two strata: an inner stratum of
(mostly) latinate affixes (such as ic and ity,
which attach closest to the stem, and an outer
stratum of (mostly native) affixes (such as
ness and less) (Mohanan, 1986). Assuming
the stem atom, and a vocabulary of suffixes
ic, ity, ness and less, we should be able to
form atom, atomic, atomicity, atomnessless,
among others, but not ∗ atomity, ∗ atomlessity.
Class {LatinatePrefix}
em
+[Circ emen]
Class {Stems}
bold
{toA}
Class {Stems}
atom {toN}
Class {NativeSuffix}
Class {LatinateSuffix}
ic {fromN}
The prefix em is actually modeled to be underlyingly en where the nasal assimilates in place to the
following consonant.
6
24
A Simple Formalism for Capturing Order and Co-Occurrence in Computational Morphology
en
to characterize the regular language where
every instance of the language X is immediately preceded by the language Yi and immediately followed by Zi , for some i. The reader
is urged to consult Yli-Jyrä and Koskenniemi
(2004) for a very efficient method of compiling such statements into automata.
{fromA}
{toV}
U[Circ emen]
Here, the prefix em, carries +[Circ emen], requiring the presence of a feature-value pair
[Circ emen] somewhere else in the derivation. This can be satisfied by the suffix en.
However, this suffix can also surface on its
own since it does not carry the coercion +
operator on the feature-value pair, but only
the unification operator. The interplay between these two operators yields the desired
morphotactics.
4.
4.2.
With the above, we can build [F V ], for
some feature-value combination present in
our grammar, as:
[F V ] ⇒
#Σ∗ ( ∪ +)[F V ]Σ∗
Σ∗ ( ∪ +)[F V ]Σ∗ #
That is, the presence of a [F V ] is allowed
only in the environment where both the left
and right-hand sides do not contain a string
[F Vx ] such that Vx is not V and the operator preceding is either + or .
Implementation
While we wish to remain somewhat agnostic as to the preferred computational models of morphological analysis and parsing,
we shall here outline a possible implementation of the proposed formalism in terms of
finite-state automata/transducers, since these are a popular mode of building morphological analyzers and generators.7
We assume the standard regular expression notations where Σ denotes the alphabet,
L1 ∪L2 is the union of two languages, L is the
complement of language L, # is an auxiliary
boundary marker denoting a left or right edge of a string. Also, in our notation, symbol
and language concatenation is implied whenever two symbols are placed adjacent to each other. Following this, our earlier notation
+[F V ] denotes the language that consists of
one string with five elements concatenated
(we assume F and V to represent features
and values, respectively, and +, −, [, ], {, },
and to be single symbols).
4.1.
Unification
4.3.
Coercion
Similarly, we can build the + operator as
follows:
+[F V ] ⇒ Σ∗ ( ∪ +)[F V ], ( ∪ +)[F V ]
Here, the statement implies that any presence of +[F V ] is allowed only if the string
also contains a similar [F V ] somewhere to its
left or right, where the operator is either +
or .
4.4.
Exclusion
The exclusion (−) operator is built similarly, as:
−[F V ] ⇒
#Σ∗ ( ∪ +)[F V ]Σ∗
Context restriction
Σ∗ ( ∪ +)[F V ]Σ∗ #
This defines the languages where an instance of some string −[F V ], where F and
V are features and values, respectively, is
allowed only if surrounded by strings that do
not contain [F V ] with the operator either +
or .
As an auxiliary notation, we shall assume
the presence of a regular expressions contextrestriction operator (⇒) in the compilation
of automata and transducers as this alleviates the task of defining many morphotactic
restrictions. We take:
5.
X ⇒ Y1 Z1 , . . . , Yn Zn
Order constraints
In order to address the compilation of
the order constraints (<, > and , ), one
would have to make assumptions about the
exactly how the morphemes, features, values,
and class labels are represented as automata.
Supposing every morpheme is followed by
7
A parser for Navajo verbal morphology has been
built this way: converting the contents of a grammar
into regular expressions, and then building automata
that constrain the morphotactic level (Hulden and
Bischoff, 2007).
25
Mans Hulden y Shannon Bischoff
its bundle of features, so that a word on
the morphotactic level is represented as:
M1 {Class}op[F1 V1 ] . . . op[Fn Vn ]M2 {Class} . . .,
where op is one of , +, −, the presence of
a constraint Class 1 Class 2 can be
represented as:
Σ∗ {Class
2
}Σ∗ {Class
1
Hardman, M. J. 2001. Aymara: LINCOM
Studies in Native American Linguistics.
LINCOM Europa, München.
Hulden, Mans and Shannon T. Bischoff.
2007. An experiment in computational
parsing of the Navajo verb. Coyote Papers: special issue dedicated to Navajo language studies, 16.
}Σ∗
that is, the language where no instance of the
string Class 2 precedes Class 1 . The operator can be defined symmetrically.
The immediate precedence Class 1 <
Class 2 can be defined as:
Kimball, Geoffrey D. 1991. Koasati Grammar. Univ. of Nebraska Press, London.
Koskenniemi, Kimmo.
1983.
Two-level
morphology: A general computational model for word-form recognition and production. Publication 11, University of Helsinki, Department of General Linguistics,
Helsinki.
Σ∗ {Class1 }Σ∗ {Σ∗ {Class2 }Σ∗
representing the language where no Class n
string may intevene between a string Class 1
and Class 2 . Note that the brackets { and }
are single symbols in Σ in the above.
6.
Faltz, Leonard M. 1998. The Navajo Verb.
University of New Mexico Press.
Mohanan, Karuvannur P. 1986. The theory
of lexical phonology. Reidel, Dordrecht.
Conclusion
Yli-Jyrä, Anssi and Kimmo Koskenniemi.
2004. Compiling contextual restrictions
on strings into finite-state automata. The
Eindhoven FASTAR Days Proceedings.
We have presented a formalism for specifying morphotactics that allows for separate description of morpheme order and morpheme co-occurrence. These are controlled by
a small number of operators on features, or
classes of morphemes. The order-related operators have the power to state that a class
of morpheme must either precede, or immediately precede some other class of morphemes, while the co-occurrence operators allow
for unification of feature-value pairs, exclusion of feature-value pairs, or coercion, i.e.
expression of a demand that some featurevalue pair be present.
We have also sketched a way to implement the formalism as finite-state automata
through first converting the notation into regular expressions, which can then be compiled into automata or transducers using standard methods.
Young, Robert W. 2000. The Navajo Verb
System: An Overview. University of New
Mexico Press, Alburquerque.
Bibliografı́a
Beesley, Kenneth and Lauri Karttunen.
2003. Finite-State Morphology. CSLI,
Stanford.
Bickel, Balthasar, Goma Banjade, Martin
Gaenszle, Elena Lieven, Netra Paudyal,
Ichchha Purna Rai, Manoj Rai, Novel Kishor Rai, and Sabine Stoll. 2007. Free prefix ordering in chintang. Language, 83.
26
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 27-34
recibido 24-05-2007; aceptado 22-06-2007
A note on the complexity of the recognition problem for the
Minimalist Grammars with unbounded scrambling and barriers∗
Alexander Perekrestenko
Universidad Rovira i Virgili
Grupo de Investigación en Lingüı́stica Matemática
(Research Group on Mathematical Linguistics)
International PhD School in Formal Languages and Applications
Pl. Imperial Tarraco 1, 43005 - Tarragona
[email protected]
Resumen: Las Gramáticas Minimalistas fueron introducidas recientemente como
un modelo para la descripción formal de la sintaxis de los lenguajes naturales. En
este artı́culo, se investiga una extensión no local de este formalismo que permitirı́a
la descripción del desplazamiento optativo ilimitado de constituyentes sintácticos
(scrambling), un fenómeno que existe en muchos idiomas y presenta dificultades para
la descripción formal. Se establece que la extensión de las Gramáticas Minimalistas
con scrambling sin la llamada condición del movimiento más corto (shortest-move
constraint, SMC) y con barreras hace que el problema de reconocimiento para el formalismo resultante pertenezca a la clase NP-hard de la complejidad computacional.
Palabras clave: Sintaxis, análisis sintáctico, Gramáticas Minimalistas, orden de
palabras, scrambling, complejidad computacional, lenguajes formales
Abstract: Minimalist Grammars were proposed recently as a model for the formal
description of the natural-language syntax. This paper explores a nonlocal extension to this formalism that would make it possible to describe unbounded scrambling
which is a discriptionally problematic syntactic phenomenon attested in many languages. It is shown that extending Minimalist Grammars with scrambling without
shortest-move constraint (SMC) and with barriers makes the recognition problem
for the resulting formalism NP-hard.
Keywords: Syntax, parsing, Minimalist Grammars, word order, scrambling, computational complexity, formal languages
1
Introduction
The formalization of the natural language
syntax is important both from the theoretical and practical point view. It allows us to
check the feasibility of the existing syntactic
theories as models of how we process the language and provides a framework for creating
practical applications—grammars and parsing systems. In the formalization of naturallanguage syntax, following classes of grammars usually come into consideration.
Right-liner (regular) grammars. These
∗
This research work has been partially supported
by the Russian Foundation for Humanities as a part
of the project “The typology of free word order languages” (grant RGNF 06-04-00203a). The author
would also like to express his utmost gratitude to the
head of the Research Group on Mathematical Linguistics of the Rovira i Virgili University prof. Carlos
Martı́n Vide for his encouragement and advice.
ISSN: 1135-5948
grammars can only be used for so-called shallow parsing since their capacity to assign
structural descriptions to sentences is too
limited.
Context-free grammars.
While these
grammars can describe a big part of the natural language syntax in the weak sense, they
fail to assign appropriate structural descriptions to sentences containing discontinuous
constituents.
Mildly
context-sensitive
formalisms.
Mildly context-sensitive grammars (MCSG)
were proposed as a mathematical model
of the natural-language syntax that would
be only as powerful as necessary for the
correct description of the existing syntactic
phenomena. The mildly context-sensitive
formalisms best explored today are Treeadjoining Grammars (TAGs) and Minimalist
Grammars (MGs).
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Alexander Perekrestenko
Computationally unrestricted formalisms.
Unification-based syntactic theories with unrestricted structure sharing, such as Headdriven Phrase Structure Grammar (HPSG),
strictly speaking do not belong to the class
of restricted grammars since they are based
on unification formalisms which are Turingequivalent. The problem of the computational universality of the formalism itself is
here solved with the design of grammars that
do not exploit the full power of the formalism.
Whatever the grammar or the class of formalisms, it is crucially important for it to allow parsing in deterministic polynomial time
basing on the length of the input, for otherwise its hight computational complexity (or
incomputability) would disqualify it both as
a feasible mathematical model of the human
language competence and as a technically applicable framework.
2
. . . dass niemand [den Kühlschrank]i [[dem
Kunden] [ti zu reparieren] zu versprechen]
versucht hat;
. . . dass [den Kühlschrank]i niemand [[dem
Kunden] [ti zu reparieren] zu versprechen]
versucht hat;
. . . dass [dem Kunden]j niemand [tj [[den
Kühlschrank] zu reparieren] zu versprechen]
versucht hat;
. . . dass [den Kühlschrank]i [dem Kunden]j
niemand [tj [ti zu reparieren] zu versprechen]
versucht hat;
. . . dass [dem Kunden]j [den Kühlschrank]i
niemand [tj [ti zu reparieren] zu versprechen]
versucht hat.
The string language of scrambled sentences
can be seen as {ni v i | n, v ∈ Σ, i > 0}, it is
context-free. But what matters from the linguistic point of view is not so much the generated language as such, but rather the grammar’s capacity to assign linguistically correct
structural descriptions to the sentences with
scrambling. In (Becker, Rambow, and Niv,
1992) it was proved that unbounded scrambling cannot be derived by linear contextfree rewriting systems (LCFRS) and—as a
consequence—it cannot be derived by setlocal multi-component tree-adjoining grammars (slMCTAG) either.
An important aspect of the unbounded
scrambling is that there are some syntactic
categories, called barriers, beyond which no
constituents can scramble. For German it is
a tensed clause, for example.
Nonlocal vector TAGs with dominance
links and integrity constrains (VTAG-Δ) introduced in (Rambow, 1994) are the only
known TAG-based formalism which allows a
generalized description of scrambling and is
polynomially parsable if some restrictions external to the formalism itself are imposed on
the derivation. In its lexicalized version these
restrictions are satisfied as a consequence of
the lexicalization. Other nonlocal versions of
TAGs do not have acceptable computational
properties. For example, the word recognition problem for nonlocal MCTAGs with
such linguistically meaningful restrictions as
lexicalization, limiting the numbers of trees
in each tree set to two and imposing dominance links on the trees belonging to one set
is NP-complete (Champollion, 2007). This
shows that nonlocality, which seems to be
necessary for the adequate description of un-
Linguistic data
One of the most problematic phenomena
for the formalization of the natural-language
syntax is so-called scrambling, which is a
non-obligatory reordering of syntactic constituents. Originally, the term scrambling
was used to denote the argument permutation observed in the so-called middlefield
(Mittelfelt) in German. This phenomenon
occurs in many other languages as well, for
example, in Japanese, Russian, Turkish, etc.
The descriptionally most problematic class of
this phenomenon is the so-called unbounded
scrambling where the permutating arguments
belong to different verbal heads. In this kind
of scrambling, a linear reordering of the arguments leads to their displacement from the
embedded infinitival clauses into the matrix
clause. Since in theory there is no limit on the
depth of the infinitival clause embedding, we
can have any number of verbal heads with the
arguments “jumping up” to the embedding
clauses from an arbitrarily deeply embedded
infinitival clause, as shown in the example below (all the sentences of this example mean
‘. . . that no-one has tried to promise the customer to repair the refrigerator’):1
. . . dass niemand [[dem Kunden] [[den
Kühlschrank] zu reparieren] zu versprechen]
versucht hat;
1
The sentences are based on the examples from
German in (Rambow, 1994).
28
A Note on the Complexity of the Recognition Problem for the Minimalist Grammars with Unbounded Scrambling and Barriers
– a set B = { n, v, d, c, t, . . .} of base
(syntactic) categories,
– a set of abstract features,
A = { case, num, pers, . . .},
– a set of merge selectors,
M = { = x | x ∈ B },
– a set of move licensees,
E = { −f | f ∈ A },
– a set of move licensors,
R = { +f | f ∈ A },
– a set of scramble licensees,
S = { ∼ x | x ∈ B },
– a set of barrier markers,
I = { x | x ∈ B }.
bounded scrambling, is generally very dangerous for the computational properties of
the formalism.
Another mildly context-sensitive formalism widely studied in the last ten years are
Minimalist Grammars (MG) introduced in
(Stabler, 1997) as a formalization of some
central aspects of the structure-building component of the Minimalist Program, an approach to the description of syntax proposed
in (Chomsky, 1995). In this formalism, discontinuous constituents are described as a
result of the displacement of a part of a
constituent into some other position in the
tree. MGs are weakly equivalent to setlocal MCTAGs. In MGs the locality is
represented as the shortest-move constraint
(SMC) forbidding competitive displacement
of constituents. Lifting this constraint affects
badly the computational properties of the
formalism: for example, canceling the SMC,
but preserving the specifier island constraint
(SPIC) prohibiting movement from within
specifiers, produces a Turing-equivalent formalism (Kobele and Michaelis, 2005). In
(Frey and Gärtner, 2002), a scrambling operator was introduced for MG, but it was restricted by the SMC which made the generalized scrambling description impossible.
In the present paper we show that extending an MG with an unbounded scrambling (i.e., scrambling without SMC) and
with barriers—an analogue to the integrity
constraints in VTAG-Δ—makes the recognition problem for the resulting formalism NPhard.
3
• c is a distinguished element of B, the
completeness category.
• ‘|’ is a special symbol (a bar).
• Lex is a lexicon—a finite set of simple expressions (see Definition 2) over
N onSynt ∪ Syn, each of which is of the
form
τ = Nτ , ∗ , ≺, <, labelτ , with Nτ = {}.
• Ω is the set of the structure-building operations ‘merge’, ‘move’ and ‘scramble’.
In what follows, by [< a, b ] we will denote a
binary tree consisting of the nodes a and b
in this very linear order where the node a
is the head of (“projects over”) the structure
represented by this tree so that the expression
associated with the tree is the same as the one
associated with its head node. In the same
way, by [> c, b ] we will denote a binary tree
consisting of the nodes c and b in this very
linear order where the node b is the head of
the structure represented by the tree:
MGs with unbounded
scrambling and barriers
>
<
Below we will give a definition of unrestricted Minimalist Grammars with unbounded scrambling and barriers which is
based on the original definition of MG in
(Stabler, 1997) and (Michaelis, 2001).
a
b
c
b
A node represented by a single letter will be
called a simple node. All nodes in the above
examples are simple ones. If a node represents a subtree, it will be called a complex
node, as in the following example, where b
in the tree [< a, b ] is a complex node since it
represents its subtree [> c, b ]:
Definition 1 (MGscr
B ) An unrestricted Minimalist Grammar with unbounded scrambling and barriers, MGscr
B , is a tuple
G = N onSyn, Syn, c, |, Lex, Ω, such that
<
• N onSyn is a finite set of non-syntactic
features partitioned into a set of phonetic
(P hon) and semantic (Sem) features.
• Syn is a finite set of syntactic featured
disjount from N onSynt and partitioned
into
a
>
c
b
The argument position to the right of a head
node is called the complement position. Positions to the left of a head node, over which
29
Alexander Perekrestenko
this node projects, are referred to as specifier positions. The maximal projection of a
node a in a given tree is the maximal subtree
headed by this node.
τ is a complex node that displays feature = x,
τ0 displays category x,
τ is like τ except that = x is canceled,
τ0 is like τ0 except that x is hidden.
Definition 2 (Expression) An expression
is a finite, binary, labeled ordered tree
τ = (Nτ , ∗ , ≺, <, labelτ ), where
Nτ is the set of nodes;
is the dominance relation between nodes;
≺ is the precedence relation between nodes;
< is the projection relation between nodes;
labelτ is the leaf-labeling function mapping
the leafs of the tree onto an element from
{M ∗ R? B E ? S ? P hon∗ Sem∗ | } ∪
{M ∗ R? B −I E ? S ? P hon∗ Sem∗ | } ∪
{E ? S ? P hon∗ Sem∗ | B} ∪
{E ? S ? P hon∗ Sem∗ | B −I }
as introduced in the definition of MGscr
B .
An expression is called complex if it has more
than one node; otherwise it is called simple.
As an example of merge we will consider the
derivation of the sentence John likes beer.
Lexicon: = d. = d.v .likes; d.John; d.beer
Derivation:
Step 1:
⇒
= d. = d.v.likes + d.beer
<
= d.v.likes beer|d
Step 2:
+ d.John
<
= d.v.likes beer|d
⇒
>
John|d
<
v.likes beer|d
Definition 5 (move domain)
Dom(move) = { τ | τ is a well-labeled
expression that displays feature +x and
contains exactly one maximal projection τ0
displaying feature −x }.2
An expression τ over Syn ∪ N onSyn is called
well-labeled if each leaf of τ is a string from
Syn∗ P hon∗ Sem∗ (|(B + B −I ))? . The label of
a complex expression is that of its head leaf.
The phonetic yield of an expression is the
concatenation of the phonetic yields of its
subexpressions.
We will be saying that the expression
e = f1 f2 . . . fn−1 | fn , where f1 , f2 , . . . , fn
are features, has or contains these features
and displays feature f1 . We will say that a
syntactic feature f is canceled from the expression e if it is removed from it. We will
also say that a syntactic feature f is hidden
in the expression e if it is moved to the right
of the bar symbol in this expression. To make
notation shorter, we will omit the bar symbol
if there are no features behind it.
Now we will define the structure-building
operations with their domains.
Definition 6 (move operator)
move(τ ) = [> τ0 , τ ], such that
τ displays feature +x,
τ0 is a proper subtree of τ displaying feature
−x,
τ0 is like τ0 except that −x is canceled, and
τ is like τ except that +x is canceled and
the subtree τ0 is replaced by an empty leaf.
The operator move is illustrated below in
the derivation of the subordinate clause what
John likes from John likes what within the
sentence she wonders what John likes.
Lexicon: = d. = d.v.likes; d.John;
d.−wh.what; = v.+wh.c
Derivation:
⇒
<
+wh.c
>
what|d
>
<
c
Definition 3 (merge domain)
Dom(merge) = { τ0 , τ | τ0 and τ are
well-labeled expressions, τ0 displays category
x, and τ displays feature = x }.
John|d
>
<
John|d
v.likes −wh.what|d
<
v.likes λ
We say that a maximal projection τ is a barrier between the maximal projections τ and
τ0 , if τ0 is a proper subtree of τ , τ is a proper
subtree of τ , τ0 has the basic category b, and
τ contains the barrier marker −b.
Definition 4 (merge operator)
merge(τ ) = [< τ , τ0 ], such that
τ is a simple node displaying feature = x,
τ0 displays category x,
τ is like τ except that = x is canceled,
τ0 is like τ0 except that x is hidden;
The restriction that τ cannot contain more than
one movement candidate is the shortest-move condition, as it is used in MG.
2
and merge(τ ) = [> τ0 , τ ], such that
30
A Note on the Complexity of the Recognition Problem for the Minimalist Grammars with Unbounded Scrambling and Barriers
4.2
Definition 7 (scrambling domain)
Dom(scramble) = { τ | τ is a well-labeled
expression that displays category x and
contains at least one maximal projection τ0
displaying feature ∼ x and there is no barrier
between τ and τ0 }.
The idea of the proof
The NP-hardness of the word recognition
problem for MGscr
B will be proved by constructing a grammar G ∈ MGscr
B that generates a language L = L1 ∪ L2 , L1 ∩ L2 = ∅,
where L1 () represents a known NP-complete
problem, i.e., it is NP-hard, and the question
whether a word w ∈ L belongs to L1 or to L2
can be resolved in deterministic polynomial
time. In the proof we will use the 3-Partition
Problem which in known to be (strongly) NPcomplete:
Definition 8 (scrambling operator)
scramble(τ ) = [> τ0 , τ ], such that
τ displays category x,
τ0 is a proper subtree of τ displaying feature
∼ x and there is no barrier between τ and τ0 ,
τ0 is like τ0 except that ∼ x is canceled,
τ is like τ except that subtree τ0 is replaced
with an empty leaf.
Given a set of 3k natural numbers
{n1 , n2 , . . . , n3k } and a constant m,
decide whether this set can be partitioned into k subsets of cardinality
3 each of which sums up to m.
The scrambling so defined operates nondeterministically in the sense that it can displace any appropriate constituent. The difference between scrambling and movement
consists in the fact that scrambling is optional, it allows a competitive displacement
of constituents since it is not restricted by
SMC, and it can be blocked by a barrier.
This problem can be described as a language
L3P = {bm axn1 axn2 . . . axn3k | a, b, x ∈ Σ}
such that it consists of all the words for which
m, n1 , n2 , . . . , n3k represents an instance of
the problem. The word recognition problem
for this language is NP-hard.3
In MGscr
B , scrambling allows syntactic
constituents to move to the left in competitive manner while barriers set boundaries beyond which these constituents cannot move.
This fact can be used to derive a language
Lscr
B containing L3P such that for any word
w ∈ Lscr
B it can be decided in deterministic
polynomial time whether w ∈ L3P or not.
Definition 9 (Language of an MGscr
B )
The language L generated by an MGscr
B
G is the set of the phonetic yields of the
expressions produced from the lexical entries
by applying (some of ) the structure-building
operations, such that these expressions display the completeness category c and neither
they themselves nor their subexpressions
contain move licensees and move licensors
(i.e., all movements have been performed).
4 MGscr
B is NP-hard
4.1 Some preliminaries
4.3
Proving NP-hardness
Let G = N onSyn, Syn, p, |, Lex, Ω be an
MGscr
B where
A problem X is NP-hard if and only if an
NP-complete problem N can be transformed
(“reduced”) to X in polynomial time in such
a way that a (hypothetical) polynomial-time
algorithm solving X could also be used to
solve N in polynomial time.
For a language L, we will denote by
L() the word recognition problem for L.
Let L, L1 and L2 be languages such that
L = L1 ∪ L2 and L1 ∩ L2 = ∅. Let p(w) be
a polynomial-time computable function such
that for any w ∈ L it returns true if w ∈ L1
and f alse otherwise. (For a w ∈
/ L, it can
return either true or f alse.) We will need
following proposition:
• P hon = {a, b, c, d}, Sem = ∅,
• A = { f }, and
• B = { a1 , a2 , a3 , a1 , a2 , a3 , a1 , a2 , a3 ,
b, b , b0 , c1 , c2 , c3 , c1 , c2 , c3 , c1 , c2 , c3 ,
d1 , d2 , d3 , d1 , d2 , d3 , d1 , d2 , d3 , e, g, s,
p }.
The lexicon of the grammar, Lex, consists of
the following entries (organized into groups
3
A language representation of the 3-Partition
Problem was also used in (Champollion, 2007) to
prove NP-hardness for a restricted version of nonlocal
MCTAGs. It should be mentioned, though, that the
relationship between nonlocal MCTAGs and MGscr
B is
not known, so we cannot apply the complexity result
for nonlocal MCTAGs to MGscr
B .
Proposition 1 If L1 () is NP-hard, then L()
is also NP-hard.
31
Alexander Perekrestenko
according to which part of the structure they
generate):
1. (a) = c3 . a3 . ∼ s . a;
= c3 . = b . d3 . d;
(b) = c2 . a2 . ∼ s . a;
= c2 . = b . d2 . d;
(c) = c1 . a1 . ∼ s . a;
= c1 . = b . d1 . d;
2. (a) = c3 . a3 . ∼ s . a;
= c3 . = b . d3 . d;
= a1 . = b . d3 . d;
(b) = c2 . a2 . ∼ s . a;
= c2 . = b . d2 . d;
(c) = c1 . a−b
1 . ∼ s . a;
= c1 . = b . d1 . d;
3. (a) = c3 . a3 . ∼ s . a;
= c3 . = b . d3 . d;
(b) = c2 . a2 . ∼ s . a;
= c2 . = b . d2 . d;
4.
5.
6.
7.
Step 1. The derivation begins with the
lexical entries (1a) generating the following
(sub)tree:
<
The
yield
of
this
subtree
is
a3 >
+.
a(bcbd)
Each
b0 <
b located immec3 >
diately
between
b <
a c and a d (the
d3 >
corresponding
base category is
b0 <
underlined)
is
c3 >
licensed for scramb <
bling to a specifier
d3 . . .
position of a c or
>
g introduced at a
later point in the
b0 <
derivation, since
c3 >
every such b has
b <
the
scrambling
d3 e
licensee ∼ c or ∼ g.
The whole a3 -headed subtree is licensed for
scrambling to the s node to be introduced at
a later point in the derivation, since the a3
node has the scrambling licensee ∼ s.
After that, subtrees headed with a2 and
a1 are generated by the entries (1b) and (1c)
respectively. The generation proceeds in the
same way as in the case of the a3 subtree; the
b nodes are licensed for scrambling to c or g,
and the a2 and a1 subtrees are themselves
licensed for scrambling to s:
= d3 . = b0 . c3 . c;
= e . = b. d3 . d; e;
= d2 . = b0 . c2 . c;
= a3 . = b . d2 . d;
= d1 . = b0 . c1 . c;
= a2 . = b . d1 . d;
= d3 . c3 . c;
= a1 . = b . d3 . d;
= d2 . c2 . c;
= a3 . = b . d2 . d;
= d1 . c1 . c;
= a2 . = b . d1 . d;
= d3 . c3 . c;
= a1 . = b . d3 . d;
= d2 . c2 . c;
= a3 . = b . d2 . d;
(c) = c1 . a−b
1 . ∼ s . a; = d1 . c1 . c;
= c1 . = b . d1 . d; = a2 . = b . d1 . d;
= a1 . g . −f ; = a1 . g . −f ; = a1 . g . −f ;
= g . s;
= s . +f . p;
b . ∼ c . b; b . ∼ c . b; b . ∼ g . b; b . ∼ g . b;
b0 . b
Proposition 2 The language L generated by
the grammar G is a union of two disjoint languages, L = L3p ∪ L , L3p ∩ L = ∅, such that
L3p consists of all the words
<
bm a(bcd)n1 a(bcd)n2 . . . a(bcd)n3k
a1 (b0 c1 bd1 )+
with a, b, c, d ∈ Σ, where m, n1 , n2 , . . . , n3k is an instance of the 3-Partition Problem, as described above, and there exists
a polynomial-time computable function p(w)
such that for any word w ∈ L it returns true
if w ∈ L3p and f alse otherwise; for w ∈
/ L it
returns either true of f alse.
<
a2 (b0 c2 bd2 )+
<
a3
(b0 c3 bd3 )+
The phonetic yield generated at this point
is a(bcbd)+ a(bcbd)+ (bcbd)+ . The derivation
continues to step 2 or 4.
Step 2. Analogously to the previously performed step, subtrees headed by a3 , a2 and
a1 are generated by the entries (2a), (2b) and
(2c) respectively. All of them are licensed for
scrambling to s. The b nodes inside these
subtrees are licensed for scrambling to c or
g. Some of the b nodes introduced in the previously performed step (this restriction is provided by barriers) scramble to some of the c
nodes introduced at the present step:
We will prove the proposition 2 by following
the bottom-up derivation of the language L.
In the illustrations below, the symbols used
in the tree structures are base category symbols.4 The derivation starts at step 1.
4
In the grammar G, the lexical entries are made
in such a way that the phonetic (i.e., terminal) symbols can be obtained by stripping the base category
symbols of indices and bars (except for the zero-yield
entries headed by e, g, s and p).
32
A Note on the Complexity of the Recognition Problem for the Minimalist Grammars with Unbounded Scrambling and Barriers
<
The derivation continues to step 5.
+
a−b
1 ( b c1 b d1 )
Step 5. A subtree headed by s is generated
by the entry (5). The s head takes g as its
complement. Further, some a subtrees generated at previous steps scramble to s:
<
a2 ( b c2 b d2 )+
<
>
a3 ( b
c3 b d3 )+
<
a1
<
or a1
...
The derivation continues to step 3 or 4.
Step 3. Analogously to the previously performed step, subtrees headed by a3 , a2 and
a1 are generated by the entries (3a), (3b) and
(3c) respectively. All of them are licensed for
scrambling to s. The b nodes inside these
subtrees are licensed for scrambling to c or
g. Some of the b nodes introduced in the
previously performed step (this restriction is
provided by barriers) scramble to some of the
c nodes introduced at the present step:
<
>
a1 , a1 , a1 ,
a2 , a2 , a2 ,
a3 , a3 or a3
...
>
<
<
a1 , a1 , a1 ,
a2 , a2 , a2 ,
a3 , a3 or a3
s
g
The derivation continues to step 6.
Step 6. A subtree headed by p is generated by the entry (6). The p head takes s
as its complement. Further, the g subtree
generated at a previous step is moved to the
specifier position of p:
<
a−b
( b’ c1 bd1 )+
1
>
a1 , a1 , a1 ,
a2 , a2 , a2 ,
a3 , a3 or a3
>
<
<
a2 ( b’ c2 bd2 )+
<
g
a3 ( b’ c3 bd3 )+
<
a1
s
...
The language generated by this grammar, L,
is the union of two languages, L = L1 ∪ L1 ,
such that L1 consists of all the words produced with all b and b nodes having scrambled and each c and c head having accepted
exactly one scrambling b or b node, and L1
contains the rest of the words. The language
L1 consists of all the words
The derivation continues to step 2 or 4.
Step 4. A subtree headed by g is generated
by the entries (4). The g head takes as its
complement a1 or a1 (1), or a1 (2). It is licensed for movement to p. Some of the b or b
nodes introduced in the previously performed
step (this restriction is provided by barriers)
scramble to g:
(1)
>
(2)
>
b
>
b
>
b’
...
>
>
<
g
<
b’
g
<
a1 or a1
...
such that for all positive natural numbers k
and m, the multiset {n1 , n2 , . . . , n3k } can be
partitioned into k multisets of cardinality 3,
each of which sums to m. This will be explained following the generation of the words
of the language. On the yield level, each “atripple” a( b cbd)+ a( b cbd)+ a( b cbd)+ generated at the step (2) or (3) receives the
scrambling symbols b from the neighbouring
>
...
b
bm a(bcd)n1 a(bcd)n2 . . . a(bcd)n3k
>
b’
p
<
a1
...
33
Alexander Perekrestenko
5
a-tripple on the right (these symbols are depicted in squares) generated during the previous step and later “gives away” through
scrambling to the neighbouring left a-tripple
the symbols b located between c and d (underlined). Barriers guarantee that these symbols can only scramble to the adjacent tripple. The symbols b scrambling from the leftmost a-tripple are stored as a “counter” at
step (4). In case all b and b symbols have
scrambled and each c and c head have received through scrambling exactly one b or
b , all a-tripples will contain an equal number
of bcd subwords, while the number of these
subwords in each a(bcd)+ member of one and
the same a-tripple may vary. The “counter”
will consist of as many symbols b as there are
bcd subwords in each a-tripple. At step (5),
all the a(bcd)+ members of the a-tripples are
permuted arbitrarily, whereafter the “counter
subword” is moved to the left at step (6).
Each word in L1 contains at least one
following subword in positions to the right
starting from the leftmost occurrence of a:
bb (more than one b have scrambled to the
same c head), ac, dc (omission of scrambling
to a particular c head), cb (b has not scrambled), while no word in L1 follows this pattern. This means that L1 ∩ L1 = ∅, and there
exists a polynomial-time computable function
p(w) such that for any w ∈ L, p(w) = true
if w ∈ L1 and p(w) = f alse otherwise. For a
w∈
/ L, it will return true or f alse.
The language L1 can be seen as a union
of two languages, L1 = L2 ∪ L3 , such that
{n1 , n2 , . . . , n3k } is a proper multiset for L2
(i.e., it contains repeated elements) and a set
for L3 . This means that L2 ∩ L3 = ∅, and—
since the problem whether a given multiset
is a proper multiset or a set can be solved in
deterministic polynomial time—there exists
a polynomial-time computable function q(w)
such that for any w ∈ L1 , q(w) = true if
w ∈ L3 and q(w) = f alse otherwise. For a
w∈
/ L1 , it will return true or f alse.
The language L3 constitutes the unary encoding of the 3-Partition Problem5 whereby
we have proved the proposition 2, which together with the proposition 1 gives us following result:
Conclusions
Since the recognition problem for MGscr
B
is NP-hard, the generalized description of
scrambling is probably impossible in MG, at
least if it is implemented in a straightforward
way. On the other hand, MGs can provide a
convenient framework for the practical implementation of some important results obtainable within the Minimalist Program. For
this reason, a further study of the proposed
MG extensions is important, since a solution
to the scrambling problem can make out of
MGs a powerful formal language tool for the
grammar engineering. Additionally, it could
provide insights into possible ways to tackle
the nonlocality problem in this class of formalisms.
References
Becker, T., O. Rambow, and M. Niv. 1992.
The Derivational Generative Power of Formal Systems or Scrambling is Beyond
LCFRS. Technical Report IRCS-92-38,
University of Pennsylvania, USA.
Champollion, L. 2007. Lexicalized nonlocal MCTAG with dominance links is
NP-complete. In Proceedings of Mathematics of Language 10. To appear.
Chomsky, N. 1995. The Minimalist Program.
The MIT Press, Cambridge, USA.
Frey, W. and H.-M. Gärtner. 2002. On the
Treatment of Scrambling and Adjunction
in Minimalist Grammars. In G. Jäger,
P. Monachesi, G. Penn, and S. Wintner,
editors, Proceedings of Formal Grammar
2002, pages 41–52, Trento, Italy.
Kobele, G. M. and J. Michaelis. 2005. Two
Type 0-Variants of Minimalist Grammars.
In Proceedings of the 10th conference on
Formal Grammar and the 9th Meeting
on Mathematics of Language, Edinburgh,
Scotland.
Michaelis, J. 2001. On Formal Properties
of Minimalist Grammars. Ph.D. thesis,
Potsdam University, Germany.
Rambow, O. 1994. Formal and Computational Aspects of Natural Language Syntax. Ph.D. thesis, University of Pennsylvania, USA.
Proposition 3 The word recognition problem for MGscr
B is NP-hard.
Stabler, E. 1997. Derivational minimalism. In Christian Retore, editor, Logical Aspects of Computational Linguistics.
Springer, pages 68–95.
5
Without loss of generality we consider only positive natural numbers and assume k ≥ 1.
34
Búsqueda de Respuestas
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 37-44
recibido 17-05-2007; aceptado 22-06-2007
Paraphrase Extraction from Validated Question Answering
Corpora in Spanish∗
Jesús Herrera, Anselmo Peñas, Felisa Verdejo
Departamento de Lenguajes y Sistemas Informáticos
Universidad Nacional de Educación a Distancia
C/ Juan del Rosal, 16, E-28040 Madrid
{jesus.herrera, anselmo, felisa}@lsi.uned.es
Resumen: Partiendo del debate sobre la definición de paráfrasis, este trabajo intenta clarificar lo que las personas consideran como paráfrasis. El experimento
realizado parte de una de las distintas campañas que generan cada año grandes
cantidades de datos validados, susceptibles de ser reutilizados con diferentes fines.
En este artı́culo se describe con detalle un método simple –fundamentado en reconocimiento de patrones y operaciones de inserción y eliminación–, capaz de extraer
una importante cantidad de paráfrasis de corpora de Pregunta–Respuesta evaluados.
Se muestra además la evaluación realizada por expertos del corpus obtenido. Este
trabajo ha sido realizado para el español.
Palabras clave: Extracción de paráfrasis, corpus de Pregunta–Respuesta,
definición de paráfrasis
Abstract: Basing on the debate around the definition of paraphrase, this work
aims to empirically clarify what is considered a paraphrase by humans. The experiment accomplished has its starting point in one of the several campaigns that
every year generate large amounts of validated textual data, which can be reused
for different purposes. This paper describes in detail a simple method –based on
pattern–matching and deletion and insertion operations–, able to extract a remarkable amount of paraphrases from Question Answering assessed corpora. An assessment of the corpus obtained was accomplished by experts, and an analysis of this
process is shown. This work has been developed for Spanish.
Keywords: Paraphrase extraction, Question Answering corpus, paraphrase definition
1
Introduction
The main idea of the present work is that,
although several definitions of the concept of
paraphrase have been already made, it is still
important to determine what humans understand when they are said to evaluate if a pair
of statements are related by a paraphrase relationship. For this purpose, it was decided
to obtain a corpus containing pairs of statements that could be paraphrases; these pairs
were be assessed by experts in order to determine if, effectively, there was a paraphrase re∗
We are very grateful to Sadi Amro Rodrı́guez,
Mónica Durán Mañas and Rosa Garcı́a–Gasco Villarrubia for their contribution by assessing the paraphrase corpus. We also would like to thank Claudia Toda Castán for revising this text. This work
has been partially supported by the Spanish Ministry
of Science and Technology within the project R2D2–
SyEMBRA (TIC–2003–07158–C04–02), and by the
Regional Government of Madrid under the auspices
of MAVIR Research Network (S–0505/TIC–0267).
ISSN: 1135-5948
lationship between them. In addition, it was
considered that some corpora could successfully be reused in order to automatically extract these pairs of candidates for paraphrase.
The corpus ed was the corpus of assessed answers –in Spanish– from the Question Answering (QA) exercise proposed in the 2006
edition of the Cross Language Evaluation Forum (CLEF). The experiment accomplished
suggests that with such corpus it is viable
to obtain a high amount of paraphrases with
a fully automated and simple process. Only
shallow techniques were applied all along this
work for this first approach. This method increases the set of proposals for paraphrase obtention given until now, for example: (Barzilay and McKeown, 2001) and (Pang et al.,
2003) used text alignment in different ways to
obtain paraphrases; (Lin and Pantel, 2001)
used mutual information of word distribution to calculate the similarity of expressions,
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Jesús Herrera de la Cruz, Anselmo Peñas y Felisa Verdejo
(Ravichandran and Hovy, 2002) used pairs
of questions and answers to obtain varied
patterns which give the same answer; and
(Shinyama et al., 2002) obtained paraphrases
by means of named entities found in different
news articles reporting the same event.
In section 2 an overview of the experiment
is given. Section 3 describes all the steps accomplished in order to transform the multilingual source corpus in a monolingual corpus of paraphrase candidates, ready to be
assessed. Section 4 describes the activity developed by the assessors and the results obtained; the problems detected in the process
are listed, with suggestions for its improvement; and, finally, some ideas about what humans understand under the concept of paraphrase are outlined. In section 5 some conclusions and proposals for future work are given.
2
tively, paraphrases; their judgements were
used as a voting to obtain this final set. The
output of this assessment process was used
to try to identify what humans understand
under “paraphrase”.
3
Building a corpus for the
experiment
One of the objectives of the experiment was
to determine the best way to obtain a paraphrase corpus from a QA assessed corpus using shallow techniques. It was accomplished
as described in the following subsections.
3.1
The multilingual source corpus
The assessment process of the QA@CLEF
produces a multilingual corpus with its results. This QA corpus contains, for every language involved in the exercise, the following
data: the questions proposed, all the answers
given to every question, and the human assessment given to every answer (right, wrong,
unsupported, inexact) (Magnini et al., 2006).
Our idea was to use this corpus as a source
to obtain a paraphrase corpus in Spanish.
The experiment
Every year, QA campaigns like the ones of
the CLEF (Magnini et al., 2006), the Text
REtrieval Conference (TREC) (Voorhees and
Dang, 2005) or the NII–NACSIS Test Collection for IR Systems (NTCIR) (Fukumoto et
al., 2004) (Kato et al., 2004), generate a large
amount of human–assessed textual corpora.
These corpora, containing validated information, can be reused in order to obtain data
that can be well-spent by a wide range of
systems. The idea, given by (Shinyama et
al., 2002), that articles derived from different
newspapers can contain paraphrases if they
report the same event, made us aware of the
fact that in the QA campaign of the CLEF
the participating systems usually obtain several answers for a certain question; the answers, taken from a news corpus, are related
by the common theme stated by this question. Thus, probably a remarkable number
of these answers will compose one or more
sets of paraphrases. But, is it easy for a
computer program to extract that information? This last question motivated a study of
the corpora available after the assessments of
the Question Answering exercise of the CLEF
(QA@CLEF) 2006 campaign. The first action accomplished aimed at determine if, by
means of simple techniques, a corpus of candidates for paraphrases could be obtained in
a fully automatic way. After it, this corpus
was evaluated by three philologists in order
to detect the exact set of paraphrases obtained, i.e., the candidates that were, efec-
3.2
The Spanish corpus
Since the QA@CLEF is a multiple language
campaign and the scope of our experiment
covered only the Spanish language, we extracted from the source corpus all the questions and assessed answers in Spanish. Thus,
a monolingual Spanish corpus –which is a
subcorpus of the source one– was ready to be
used. The assessed answers were represented
in the format shown in figure 1; for every
answer there is a record in the file consisting of the following fields, from left to right
and separated by tab blanks: the calification
given by a human assessor, the number of the
question, the identification of the run and the
system, the confidence value, the identification of the document that supports the answer, the answer and the snippet from the
indicated document that contains the given
answer.
This format follows the one established for
the QA@CLEF 20061 .
3.3
Extraction of validated data
The first action over the Spanish corpus
was to select the records containing at least
one answer assessed as correct. Thus, only
1
Guidelines of QA@CLEF 2006:
http://clefqa.itc.it/guidelines.html
38
Paraphrase Extraction from Validated Question Answering Corpora in Spanish
Figure 1: Excerpt of the Spanish corpus.
...
R
0065
inao061eses
1.00
EFE19940520−12031
moneda griega
...GRECIA−MONEDA INTERVENCION BANCO CENTRAL PARA SALVAR DRACMA Atenas
, 20 may (EFE).− El Banco de Grecia (emisor) tuvo que intervernir hoy
, viernes , en el mercado cambiario e inyectar 800 millones de marcos
alemanes para mantener el valor del dracma , moneda griega , tras
la liberación de los movimientos del capital el pasado lunes ....
...
human–validated data were considered for
the experiment. From the 200 questions proposed to the systems participating in the
QA@CLEF 2006, 153 obtained one or more
correct answers by one or more systems.
From every selected record, the answer and
the snippet containing it were extracted, because all the textual information liable to
contain paraphrases is included into them.
3.4
not possible to decide what is the more appropriate without a semantic analysis. The
question ¿cuándo murió Stalin? (when did
Stalin dead?) serves to illustrate this situation; it could be transformed into different affirmative forms: fecha en la que murió
Stalin (date in which Stalin die), momento en
el que murió Stalin (moment in which Stalin
died), etcetera. Thus, it was decided to apply the following rule: if a question starts
with the word cuándo, then delete cuándo;
therefore, for the present example, the question ¿cuándo murió Stalin? is transformed
into murió Stalin (Stalin died). This was considered the best approach that could be obtained using only surface techniques. Some
of the 29 rules identified are shown in table
1. This list of rules raises from a research
work over the Spanish corpus described, and
more rules could be identified in future related works with other corpora.
Once applied the previous rules over the
corpus, it was identified a set of monograms
and bigrams that must be deleted when appearing at the beginning of the new statements obtained. The monograms are articles
(“el”, “la”, “lo”, “los”, “las”), and the bigrams are combinations of the verb “ser” (to
be) followed of an article, for example: “era
el”, “es la”, “fue el”. Thus, for example,
once deleted the punctuation signs, the application of rule number 1 from table 1 to the
question ¿qué es el tóner? (what is toner?),
we obtained the following statement: el tóner
(the toner); then, the article “el” is deleted
and the definitive statement is tóner (toner).
Since the techniques used for turning the
questions into their affirmative form were
only at the lexical level, slightly agrammatical statemens were produced. Anyway, most
of the errors consist of a missing article or
relative pronoun. Nevertheless, a human can
perfectly understand this kind of agrammatical statements and, in addition, a lot of sys-
Data transformation and
selection
After it, every answer was turned into its
affirmative version by means of very simple
techniques, following the initial idea of high
simplicity for this work. First of all, punctuation signs were deleted. The most frequent
ones were ¿ and ?. Next, a list of frecuencies of interrogative formulations in Spanish
was made in order to establish a set of rules
for turning them into the affirmative form.
Two transformation operations were applied
by means of these rules: deletion and insertion. These operations affect only to the initial words of the questions. Thus, for example, if the first words of a question are “quién
es”, they must just be deleted for obtaining the affirmative version; but, if the first
words of a question are “qué” + substantive
+ verb, the word “qué” must be deleted and
the word “que” must be inserted after the
substantive and before the verb. Thus, once
deleted the punctuation signs and applied the
previous rule to the question ¿qué organización dirige Yaser Arafat? (what organization leads Yasser Arafat?), its affirmative
form is as follows: organización que dirige
Yaser Arafat (organization leaded by Yasser
Arafat). Some rules are very easy to obtain,
such as the previous one, but some others
are quite difficult; for example, when a question starts with the word cuándo (when), it is
not trivial to transform it into an affirmative
form, because several options exist and it is
39
Jesús Herrera de la Cruz, Anselmo Peñas y Felisa Verdejo
Table 1: Some rules identified for automatic conversion into the affirmative form.
#
1
2
If the first words of the question are:
qué es
qué + substantive + verb
3
a qué + substantive + verb
4
5
quién es
cuántos + list of words + verb
6
7
8
cuándo
nombre
dé
Then:
delete qué es
delete qué
insert que after the substantive and before the verb
delete a qué
insert a que after the substantive and before the verb
delete quién es
delete cuántos
insert número de at the beginning
insert que after the list of words and before the verb
delete cuándo
delete nombre
delete dé
tems do not consider stopwords (where articles and/or relative pronouns are usually
included). These errors can be avoided applying a morphological analysis; but we preserved them, appart from for the sake of simplicity, in order to permit a future study of
the importance of their presence in the corpus. For example: can systems using the corpus accomplish their tasks despite the presence of some grammatical errors in it? If so,
the morphological analysis could be avoided
for building such kind of corpora. At this
point an interesting suggestion arises: campaigns such the Answer Validation Exercise
(AVE) (Peñas et al., 2006), developed for
the first time within the 2006 CLEF, need
an important human effort for transforming
the answers from the associated QA exercise into their affirmative form. Therefore,
the method implemented for this experiment
could e a useful tool for tasks such the AVE.
After turning the questions into there affirmative form, a normalization and filter action was accomplished over the corpus in order to avoid the frequent phenomenon of having a set of equal –or very similar– answers
given by different systems to a determined
question. It consisted of the following steps:
the answer is the same or is a substring
of other string representing the answer
and pertaining to the set of answers for
a determined question, the former one is
eliminated from the set of answers.
After the normalization and filtering, a
first inspection of the corpus obtained was
accomplished in order to determine if more
operations should be done for obtaining paraphrases. At the beginning it may seem that
little work is to be done with the questions in
affirmative form and the answers. But previous works on paraphrase detection suggested
that the longest common subsequence of a
pair of sentences could be considered for the
objectives of this work (Bosma and Callison–
Burgh, 2006) (Zhang and Patrick, 2005).
A first set of tests using the longest common subsequence showed that some anwers
could be exploited to augment the amount
of paraphrases; for example, presidente de
Brasil (president of Brazil) is a reformulation for presidente brasileño (Brazilian president) and, if the largest common subsequence
is deleted from both statements, de Brasil (of
Brazil) and brasileño (Brazilian) are the new
statements obtained, and they are a paraphrase of each other. The problem is that it is
necessary to determine what statements are
good candidates for such operation, and it is
not easy by using simple techniques. In addition, little examples of this kind were found;
thus, no much information could be added.
This is because this operation was not considered for the present work.
1. Lowercase the affirmative version of all
the questions, and all the answers.
2. Eliminate punctuation signs and particles such as articles or prepositions at
the beginning and the end of every statement.
3. For the set of normalized answers associated to every question, eliminate the
repeated ones and the ones contained by
other. That is, if the string representing
3.5
What does not work?
The previous idea about deleting the largest
common subsequence from a pair of strings
40
Paraphrase Extraction from Validated Question Answering Corpora in Spanish
were produced for evaluation.
The assessors were asked to consider the
context of the statements and to admit some
redundancies between the affirmative form of
the question and its answers. For example,
for the affirmative form of the question “¿Qué
es el Atlantis?” (What is Atlantis?), that is
“Atlantis”, four different answers are associated:
in order to find paraphrases made arise the
following intuition: when two texts contain
the same information, if the common words
are deleted, the rest of the words conform
a pair of strings that could –perhaps– be a
pair of paraphrases. The snippets of the corpus were tested to determine if such intuition
was correct. The test consisted of grouping
all the snippets related to every question and,
then, taking every possible pair of snippets
among the ones pertaining to the same group,
deleting the largest common subsequence of
the pair. An examination of the output of
this operation revealed that it was improductive to obtain paraphrases. At this point
the value for the present work of the previous labour accomplished by the QA systems
becomes patently clear, because they filter
information from the snippets and virtually
there is no need to treat it “again”. Therefore it was decided not to use the snippets for
the paraphrase searching, but only the questions into its affirmative form and the different given answers.
3.6
1. “transbordador estadounidense” (american shuttle)
2. “foro marı́timo” (marine forum)
3. “transbordador espacial atlantis” (space
shuttle)
4. “transbordador espacial estadounidense”
(american space shuttle)
As it can be observed, the answer “foro
marı́timo” does not pertain to the same context than the other answers, but “Atlantis”
and “foro marı́timo” were considered a paraphrase, such as “Atlantis” and “transbordador espacial estadounidense”. But “foro
marı́timo” and “transbordador espacial estadounidense” were not, obviously, considered a paraphrase. About redundancies, it
can be observed that “transbordador espacial atlantis” contains “Atlantis”, but both
statements express the same idea, i.e., they
are a semantic paraphrase. In addition, this
example illustrates the affirmation given by
(Shinyama et al., 2002) that expressions considered as paraphrases are different from domain to domain.
The evaluators labeled every single pair
with a boolean value: YES if it was considered that a paraphrase was given between
both statements, and NO on the contrary.
The assessments of the three experts were
used as a votation. Then, for every possible
pair of statements, it was finally decided that
it was a paraphrase if at least two of the labels
given by the assessors to the pair were YES.
Following this criterion, from the 393 candidate pairs of statements, 291 were considered paraphrases, i.e., 74%. The agreement
inter–annotator was of 76%. The three experts labeled simoultaneously with YES 204
pairs, and labeled simoultaneously with NO
48 pairs. Then, a total agreement was given
for 252 pairs, i.e., 86.6% of the ones that were
considered paraphrases.
The final corpus
After applying the operations described in
subsection 3.4 over the validated data from
the Spanish subcorpus, the definitive corpus for this work was ready. It consisted of
groups of related statemens; each group contained the affirmative form of a question and
all the different answers obtained from the
participating systems. Giving some numbers,
this corpus shows 87 groups of statemes for
which 1 answer was given to the question, 47
groups with 2 different answers for the question, 12 groups with 3 answers, 5 groups with
4 answers, 1 group with 1 answer, no groups
with 6 answers and 1 group with 7 answers.
None of the considered questions (see subsection 3.3) received more than 7 different answers.
4
Evaluation of the paraphrase
corpus
The final corpus was assessed by three philologists in order to find real paraphrases among
the candidates.
From every group of related statements in
the corpus, all the possible pairs of statements among those of the group were considered for evaluation. Thus, from
a group of
m related statements, Cm,2 = m
2 pairs must
be evaluated. For the present case, 393 pairs
41
Jesús Herrera de la Cruz, Anselmo Peñas y Felisa Verdejo
4.1
Problems detected and
suggestions for improvement
others when considering the grammatical accuracy of the statements. QA systems sometimes introduce little grammatical errors in their responses, and
this affects the consideration about the
existence of paraphrase. This is more
frequent in answers given to date–type
or location–type questions, because of
the format given to them by the QA
systems. The following two examples illustrate the case: first, in the pair “3
de abril de 1930” (3rd april 1930) and
“3 abril 1930” (3 april 1930), the first
statement is correct but in the second
the prepositon “de” is missing; despite
the fact that it can be perfectly understood, some annotators think that it has
no sense; second, in the pair “lillehammer (noruega)” (lillehammer (norway))
and “lillehammer noruega” (lillehammer
norway), the lacking parentheses in the
latter statement made some annotators
consider that it could be interpreted as
a compound name instead of a pair of
names (the city and its country).
The biggest disagreements between annotators were given in “difficult” pairs such as,
for example: “paı́ses que forman la OTAN
actualmente” (countries that conform the
NATO at the moment) and “dieciséis” (sixteen); this is because, for some people, a
number can not substitute a set of countries
but, for some other people, in a determined
context it can be said, indifferently, for example: “... the countries that conform the
NATO at the moment held a meeting in Paris
last week...” or “... the sixteen held a meeting in Paris last week...”.
This situation suggested the analysis of
the pairs involved in disagreements. From it,
several phenomena were detected. The most
frequent ones are shown in the following list:
• Some errors are introduced by the annotators, because they do not consider accurately the context in which the statements are. As an example, one of the
annotators did not consider the pair “organización que dirige yaser arafat” (organization leaded by yasser arafat) and
“autoridad nacional palestina” (palestinian national authority) a paraphrase
because nowadays Yasser Arafat does
not lead the Palestinian National Authority.
• Another source of disagreement is the
fact that there is not a bidirectional entailment between the two statements of
the pair. The pair “lepra” (leprosy) and
“enfermedad infecciosa” (infectious disease) serves as an example. Leprosy is
a infectious disease, but not every infectious disease is leprosy. Despite of this
fact, some annotators considered that
there is a paraphrase, because under determined contexts both statements can
be used indifferently.
• When one of the statements of the pair
comes from a factoid–type question of
the QA exercise, and its answers are restricted to a date (see (Magnini et al.,
2006) for more information about this
kind of questions and answer restrictions), then “difficult” pairs as the following appear: “murió stalin” (stalin
died) and “5 de marzo de 1953” (5th
March 1953). Some annotators consider that there is a paraphrase but it
is because they infer some words that
are missing in the affirmative form of
the question in order to complete the
overall context of the pair. Thus, for
this pair some annotators actually understand “fecha en la que murió stalin”
(date in which stalin died) instead of
“murió stalin”. This example shows that
some disagreements can be induced by
the transformation into affirmative form.
• Sometimes, errors acquired from the QA
assessment process cause different opinions among the annotators. For example, the pair “deep blue” and “ordenador
de ajedrez” (chess computer) is in the
corpus because the assessors of the QA
exercise considered “ordenador de ajedrez” (chess computer) as an adequate
answer for the question “¿qué es deep
blue?” (what is deep blue?). Despite the
fact that the annotators were asked to
consider all the statements as validated,
those of them who knew that, in fact,
Deep Blue is not a computer devoted to
play chess, did not label the pair as paraphrase.
• Some annotators are more strict than
These problems suggest that the assess42
Paraphrase Extraction from Validated Question Answering Corpora in Spanish
Entailment: whether the meaning of
one text can be inferred (entailed) from
the other.
But these and the other definitions that
can be found for paraphrase can be included
in the simple concept given by (Shinyama et
al., 2002):
Expressing one thing in other words.
This last enunciation is very useful because it is capable to deal with the variety
of human opinions. But it is not restrictive at all. The difficulty when working with
paraphrases lies on its own definition. This
is because of the relatively poor agreement
when different persons have to say if a pair
of expressions can be considered paraphrases.
Thus, paraphrase corpora could be built or
paraphrase recognition systems could be developed, but every single system using such
resources should be capable of discriminating
the usefulness of the supplied sets of paraphrases.
ment process should be improved. Thus, not
only a simple labelling action but a more
complex process should be accomplished.
Two alternative propositions for a better assessment process are outlined here:
1. In a first round, the assessors not only label the pairs but write an explanation for
every decission. In a second round, independent assessors take a definitive decision having into account both the votation among the labels given in the previous round and the considerations written.
2. In a first round, the assessors only label
the pairs and, in a second round, they
discuss the controversial cases, and everyone can reconsider its opinion to relabel the pair; if an agreement is not
reached, the pair and the opinions are
submitted to independent assessors.
In addition, the assessment process should
be supervised in order to homogenize criteria about what kind of little errors should be
considered by the assessors; for example, the
lack of parentheses of prepositions.
Of course, some errors can not be avoided
when applying a fully automated process.
For example, pairs without sense such as
“deep blue” and “ordenador de ajedrez”
(chess computer), that depend on the QA assessment process, can not be identified with
shallow techniques.
4.2
5
Conclusions and future work
The annotated corpora from the assessment
processes of campaigns like the CLEF, the
TREC or the NTCIR, grow year by year.
This human work generates a great amount
of validated data that could be successfully
reused. This paper describes a very simple and little costly way to obtain paraphrases is described, but it is ot the only nor
the more complex issue that can be accomplished. Thus, corpora –aimed at different
applications– could be increased every year
using the newest results of this kind of campaigns. In addition, the rules proposed here
for transforming questions into their affirmative form can be used for automatically building the corpora needed in future AVEs.
Despite the fact that the concept of paraphrase is human–dependant and, therefore, it
is not easy to obtain a high agreement inter–
annotator, it has been showed that a high
amount of paraphrases can be obtained by
means of shallow techniques. Anyway, the
assessment process applied to the paraphrase
candidates corpus can be improved; several
ideas for this have been outlined in this paper. As a result of this improvement, the
agreement inter–annotator should increase
and the percentage of identified paraphrases
should decrease, but hopefully not to the
point in which the proposed method should
be considered useless. In the near future new
models for this assessment process should be
What do humans understand
under paraphrase?
Several methods for recognizing paraphrases
or obtaining them from corpora have been
proposed until now, but a doubt arises: what
is exactly what these methods are recognizing
or obtaining? The definition for paraphrase
is very fuzzy and context–dependant, as seen
here; even more, almost every author gives
a definition of his own; for example, the one
given by (Fabre and Jacquemin, 2000):
Two sequences are said to be a paraphrase of each other if the user of an
information system considers that they
bring identical or similar information
content.
Or the one by (Wan et al., 2006):
[...] paraphrase pairs as bi–directional
entailment,
where a definition for entailment can be
found in (Dagan et al., 2006):
43
Jesús Herrera de la Cruz, Anselmo Peñas y Felisa Verdejo
Bernardo Magnini, Danilo Giampiccolo,
Pamela Forner, Christelle Ayache, Petya
Osenova, Anselmo Peñas, Valentin Jijkoun, Bogdan Sacaleanu, Paulo Rocha and
Richard Sutcliffe. 2006. Overview of
the CLEF 2006 Multilingual Question Answering Track. Working Notes of the
CLEF 2006 Workshop, 20–22 September,
Alicante, Spain.
evaluated, in order to determine the most appropriate one. Appart from the accuracy of
the assessment process, the results obtained
at the present time suggest that it will be interesting to test if paraphrase corpora, as the
one presented in this paper, are really useful
for different applications; and if it is worthwhile to implement more complex techniques
or the little errors produced do not interfere
with the performance of these applications.
This will determine if such corpora should
be obtained every year after evaluation campaings as the one accomplished at CLEF.
B.
References
Pang, K. Knight and D. Marcu.
2003. Syntax–based Alignment of Multiple Translations: Extracting Paraphrases
and Generating New Sentences. NAACL–
HLT.
A. Peñas, Á. Rodrigo, V. Sama and F.
Verdejo. 2006. Overview of the Answer Validation Exercise 2006. Working
Notes of the CLEF 2006 Workshop, 20–22
September, Alicante, Spain.
R. Barzilay and K.R. McKeown. 2001. Extracting Paraphrases from a Parallel Corpus. Proceedings of the ACL/EACL.
W. Bosma and C. Callison–Burgh. 2006.
Paraphrase Substitution for Recognizing
Textual Entailment. Working Notes for
the CLEF 2006 Workshop, 20-22 September, Alicante, Spain.
D. Ravichandran and E. Hovy. 2002. Learning Surface Text Patterns for a Question
Answering System. Proceedings of the
40th Annual Meeting of the Association
for Computational Linguistics (ACL).
Ido Dagan, Oren Glickman and Bernardo
Magnini. 2006. The PASCAL Recognising
Textual Entailment Challenge. MLCW
2005. LNAI. Springer. 3944, Heidelberg,
Germany.
Y. Shinyama, S. Sekine, K. Sudo and R. Grishman. 2002. Automatic Paraphrase Acquisition from News Articles. Proceedings
of HLT, pages 40–46.
Cécile Fabre and Christian Jacquemin. 2000.
Boosting Variant Recognition with Light
Semantics. Proceedings of the 18th conference on Computational linguistics Volume 1, Saarbrucken, Germany.
E.M. Voorhees and H.T. Dang.
2005.
Overview of the TREC 2005 Question
Answering Track. NIST Special Publication 500–266: The Fourteenth Text
REtrieval Conference Proceedings (TREC
2005), Gaithersburg, MD, USA.
Junichi Fukumoto, Tsuneaki Kato and Fumito Masui. 2004. Question Answering Challenge for Five Ranked Answers
and List Answers – Overview of NTCIR4
QAC2 Subtask 1 and 2 –. Working notes
of the Fourth NTCIR Workshop Meeting,
National Institute of Informatics, 2004,
Tokyo, Japan.
Stephen Wan, Mark Dras, Robert Dale, and
Cecile Paris. 2006. Using Dependency–
Based Features to Take the “Para–farce”
out of Paraphrase. Proceedings of the
Australasian Language Technology Workshop 2006, Sydney, Australia.
Yitao Zhang and Jon Patrick. 2005. Paraphrase Identification by Text Canonicalization. Proceedings of the Australasian
Language Technology Workshop 2005,
Sydney, Australia.
Tsuneaki Kato, Junichi Fukumoto and Fumito Masui. 2004. Question Answering Challenge for Information Access Dialogue – Overview of NTCIR4 QAC2 Subtask 3–. Working notes of the Fourth NTCIR Workshop Meeting, National Institute of Informatics, 2004, Tokyo, Japan.
D. Lin and P. Pantel. 2001. Discovery of
Inference Rules for Question Answering.
Natural Language Engineering, 7(4):343–
360.
44
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 45-52
recibido 18-05-2007; aceptado 22-06-2007
Evaluación de Sistemas de Búsqueda de Respuestas con
restricción de tiempo
Fernando Llopis1 , Elisa Noguera1 , Antonio Ferrández1 y Alberto Escapa2
1
Grupo de Investigación en Procesamiento del Lenguaje Natural y Sistemas de Información
Departamento de Sistemas y Lenguajes Informáticos
2
Departamento de Matemática Aplicada
Universidad de Alicante
{elisa,llopis,antonio}@dlsi.ua.es // [email protected]
Resumen: Las investigaciones sobre la evaluación de los sistemas de Búsqueda de
Respuestas (BR) sólo se han centrado en la evaluación de la precisión de los mismos.
En este trabajo se desarrolla un procedimiento matemático para explorar nuevas
medidas de evaluación en sistemas de BR considerando el tiempo de respuesta.
Además, hemos llevado a cabo un ejercicio para la evaluación de sistemas de BR
en la campaña CLEF-2006 usando las medidas propuestas. La principal conclusión
es que la evaluación del tiempo de respuesta puede ser un nuevo escenario para la
evaluación de los sistemas de BR.
Palabras clave: Evaluación, Búsqueda de Respuestas
Abstract: Previous works on evaluating the performance of Question Answering
(QA) systems are focused in the evaluation of the precision. Nevertheless, the importance of the answer time never has been evaluated. In this paper, we developed a
mathematic procedure in order to explore new evaluation measures in QA systems
considering the answer time. Also, we carried out an exercise for the evaluation of
QA systems within a time constraint in the CLEF-2006 campaign, using the proposed measures. The main conclusion is that the evaluation of QA systems in realtime
can be a new scenario for the evaluation of QA systems.
Keywords: Evaluation, Question Answering
1.
Introducción
El objetivo de los sistemas de Búsqueda
de Respuestas (BR) es localizar, en colecciones de texto, respuestas concretas a preguntas. Estos sistemas son muy útiles para los usuarios porque no necesitan leer todo el documento o fragmento de texto para obtener la información requerida. Preguntas como: ¿Qué edad tiene Nelson Mandela?, o ¿Quién es el presidente de los Estados
Unidos?, ¿Cuando ocurrió la Segunda Guerra Mundial? podrı́an ser contestadas por estos sistemas. Los sistemas de BR contrastan
con los sistemas de Recuperación de Información (RI), ya que estos últimos tratan de recuperar los documentos relevantes respecto a
la pregunta, donde la pregunta puede ser un
simple conjunto de palabras clave (ej. edad
Nelson Mandela, presidente Estados Unidos,
Segunda Guerra Mundial,...).
La conferencia anual Text REtrieval Conference (TREC1 ), organizada por el National Institute of Standards and Technology
(NIST), tiene como objetivo avanzar en el
estudio de la RI y proveer de la infraestructura necesaria para una evaluación robusta
de las metodologı́as de la recuperación textual. Este modelo ha sido usado por el CrossLanguage Evaluation Forum (CLEF2 ) en Europa y por el National Institute of Informatics Test Collection for IR Systems (NTCIR3 ) en Asia, los cuales investigan el problema de la recuperación multilingüe. Desde
1999, TREC tiene una tarea especı́fica para
la evaluación de sistemas de BR (Voorhees
y Dang, 2005). En las competiciones CLEF
(Magnini et al., 2006) y NTCIR (F. et al.,
2002) se han introducido también la evaluación de los sistemas de BR. Esta evaluación
consiste en localizar las respuestas a un conjunto de preguntas en una colección de documentos, analizando los documentos de forma
automática.
En estas evaluaciones, los sistemas tienen
hasta una semana para responder al conjunto de preguntas. Esto es un problema en la
evaluación de sistemas de BR porque nor2
1
http://trec.nist.gov
ISSN: 1135-5948
3
http://www.clef-campaign.org
http://research.nii.ac.jp/ntcir
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Fernando Llopis, Elisa Noguera, Antonio Ferrández y Alberto Escapa
Fueron introducidas 40 preguntas con
restricción temporal para los diferentes tipos de preguntas (factoid, definition y list).
Concretamente, fueron introducidas tres tipos de restricciones temporales: FECHA,
PERÍODO y EVENTO. ¿Quién ganó el Premio Nobel de la Paz en 1992? es un ejemplo
de pregunta con restricción de FECHA.
Además, hubieron varias preguntas que no
tenı́an respuesta dentro de la colección. Estas
respuestas son llamadas NIL. La importancia
de éstas es porque los sistemas deben detectar
si hay respuesta dentro de la colección y sino
devolver la respuesta de tipo NIL.
Los participantes tuvieron una semana para enviar los resultados. Esto significa que los
sistemas pueden ser muy lentos, lo cual no es
una caracterı́stica deseable para los sistemas
de BR.
malmente son muy precisos, pero a la vez
muy lentos, y esto hace muy difı́cil la comparación entre sistemas. Por esta razón, el
objetivo de este trabajo es aportar un nuevo
escenario para la evaluación de sistemas de
BR con restricción de tiempo.
Este artı́culo está organizado de la siguiente forma: la sección 2 describe la evaluación
de los sistemas de BR en el CLEF-2006. La
sección 3 presenta una nueva propuesta de
medidas de evaluación para sistemas de BR.
La sección 4 describe el experimento llevado
a cabo en el CLEF-2006 dentro del contexto
de la BR. Finalmente, la sección 5 aporta las
conclusiones y el trabajo futuro.
2.
Evaluación de sistemas de BR
en CLEF-2006
El objetivo en la tarea de BR en el CLEF
es promover el desarrollo de los sistemas de
BR dotando de una infraestructura para la
evaluación de estos sistemas. Esta tarea tiene un creciente interés para la comunidad
cientı́fica. En esta sección nos hemos centrado en describir los principales elementos de
la tarea principal de BR en el CLEF-2006.
Para más información consultar (Magnini et
al., 2006).
2.1.
2.2.
Evaluación de las respuestas
Las respuestas devueltas por cada participante fueron manualmente juzgadas por asesores nativos. En particular, cada idioma se
coordinó por un grupo de asesores. Cada respuesta fue juzgada como: R (correcta) si la
respuesta era correcta y estaba soportada por
los fragmentos de texto devueltos, W (incorrecta) si la respuesta no era correcta, X (inexacta) si la respuesta contenı́a menos o más
información de la requerida por la pregunta
y U (no soportada) si los fragmentos de texto
no contenı́an la respuesta, no fueron incluidos
en el fichero de respuestas o no provenı́an del
documento correcto.
Colección de preguntas
El conjunto de preguntas estaba formado
por 200 preguntas, de las cuales 148 eran preguntas de tipo factoid, 42 de tipo definition
y 10 de tipo list.
Una pregunta factoid realiza la consulta sobre hechos o eventos. Por ejemplo,
¿Cuál es la capital de Italia?. Se consideraron 6 tipos de respuesta esperada
para estas preguntas: PERSONA, TEMPORAL, LOCALIZACIÓN, ORGANIZACIÓN, MEDIDA y OTRAS.
2.3.
Medidas de evaluación
Las respuestas fueron evaluadas principalmente usando la medida de evaluación: accuracy. También, se consideraron otras medidas: Mean Reciprocal Rank (MRR), K1 y
Confident Weighted Score (CWS).
Las preguntas de tipo definition requieren infomación sobre definiciones de gente, cosas u organizaciones. Un ejemplo de
pregunta de este tipo podrı́a ser: ¿Quién
es el presidente de España?. Los tres tipos de respuesta para preguntas de tipo definición están divididos en: PERSONA, ORGANIZACIÓN, OBJECTO
y OTROS.
r
(1)
n
La medida accuracy se define como la proporción de respuestas correctas sobre el total
de preguntas. Solamente se permite una respuesta por pregunta. Esto se obtiene con la
fórmula (1), donde r es el número de respuestas correctas devueltas por el sistema y n es
el número total de preguntas. Esta medida ha
sido usada desde el CLEF-2004. La principal
razón del uso de esta medida es porque normalmente sólo se evaluá una respuesta por
pregunta.
accuracy =
Una pregunta de tipo list requiere información de diferentes instancias de gente,
objetos o datos, como Lista los paises de
Europa de Este.
46
Evaluación de Sistemas de Búsqueda de Respuestas con restricción de tiempo
1 1
M RR =
q
f ari
combinan la precisión y el tiempo de respuesta de los sistemas. Para evaluar el tiempo de
respuesta de los sistemas, hemos llevado a cabo un experimento en el CLEF-2006 aportando un nuevo escenario para comparar sistemas de BR. Observando los resultados obtenidos por los sistemas, podemos argumentar
que este es un prometedor paso para cambiar
la dirección en la evaluación de los sistemas
de BR.
q
(2)
i=1
En la conferencia QA@CLEF-2003, se
usó la medida MRR, ya que en esa ocasión
se permitieron 3 respuestas por pregunta. En
cambio, este año se ha usado como medida
adicional únicamente para evaluar los sistemas que devuelven más de una respuesta por
pregunta. Esta medida asigna el valor inverso
de la posición en la que la respuesta correcta
fue encontrada, o cero si la respuesta no fue
encontrada. El valor final es la media de los
valores obtenidos para cada pregunta. MRR
asigna un valor alto a las respuestas que están
en las posiciones más altas de la clasificación.
Esta medida está definida con la fórmula (2),
donde q es el número de preguntas y f ari es
la primera posición en la cual una respuesta
correcta ha sido devuelta.
Los sistemas de BR devuelven las respuestas sin un orden establecido (simplemente se
usa el mismo orden que en el conjunto de preguntas), aunque es opcional, algunos pueden
asignar a cada respuesta un valor de confianza (entre 0 y 1). Este valor se utiliza para
calcular dos medidas adicionales: CWS y K1.
Estas medidas tienen en cuenta la precision y
la confianza. De cualquier forma, la confianza
es un valor opcional que sólo algunos sistemas
de BR asignan, y solamente estos sistemas
podrı́an ser evaluados con estas medidas. Para más información consultar (Magnini et al.,
2006).
2.4.
3.
Nuevas aproximaciones sobre
la evaluación de los sistemas
de BR
El problema mencionado anteriormente
puede ser reformulado de forma matemática.
Consideramos que la respuesta de cada sistema Si puede ser caracterizada en este problema como un conjunto de pares de números
reales ordenados (xi , ti ). El primer elemento
de cada par representa la precisión del sistema y el segundo la eficiencia. De este modo, la
tarea de BR puede ser representada geométricamente como un conjunto de puntos localizados en un subconjunto D ⊆ R2 . Nuestro
problema puede ser solventado aportando un
método que permita ordenar los sistemas Si
de acuerdo a un criterio prefijado que valore tanto la precisión como la eficiencia. Este
problema es de la misma naturaleza que otros
problemas tratados en la Teorı́a de Decisión.
Una solución a este problema puede ser
obtenido introduciendo un preorden total, a
veces referido como quasiorden, en D. Una
relación binaria en un conjunto D es un
preorden total si es reflexivo, transitivo y si
dos elementos (cualesquiera) de D son comparables entre si. En concreto, podemos definir un quasiorden en D con la ayuda de una
función con dos variables de tipo real f : D ⊆
R2 → I ⊆ R, de modo que: (a, b) (c, d) ⇔
f (a, b) ≤ f (c, b), ∀ (a, b), (c, d) ∈ D.
Nos referiremos a esta función como función de clasificación. Una de las ventajas de
este procedimiento es que la función de clasificación contiene toda la información relativa
al criterio elegido para clasificar los distintos
sistemas Si .
Matemáticamente, todos los elementos
que están situados en la misma posición en
la clasificación pertenecen a una misma curva de nivel en la función de clasificación. Especı́ficamente, las curvas de iso-ranking están
caracterizadas por todos los elementos de D
que completan la ecuación f (x, t) = L, siendo
Limitaciones de las actuales
evaluaciones en BR
En la actualidad, hay varios aspectos en
las evaluaciones de los sistemas de BR que
podrı́an ser mejorados: (1) los participantes
tienen varios dı́as para responder a las preguntas, (2) el tiempo de respuesta no se evaluá, esto causa que los sistemas tengan un
buen rendimiento, pero que sean sistemas demasiado lentos, y (3) la comparación entre
sistemas de BR puede ser difı́cil si tienen diferente tiempo de respuesta. En consecuencia,
el análisis del rendimiento involucra la evaluación de la eficiencia y de la eficacia de los
sistemas de BR.
La motivación de este trabajo es estudiar
la evaluación de los sistemas de BR con restricción de tiempo. Concretamente, hemos
propuesto nuevas medidas de evaluación que
47
Fernando Llopis, Elisa Noguera, Antonio Ferrández y Alberto Escapa
última condición implica que el par (1, 0) deberı́a estar en la última posición.
L un número real en la inversa de f , I.
El procedimiento de clasificación propuesta para evaluar los sistemas en la tarea de
BR es de tipo ordinal. Esto significa que no
se debe hacer una conclusión sobre la diferencia numérica absoluta sobre la diferencia de
los valores numéricos para dos sistemas en la
función de clasificación. La única información
relevante es la posición relativa en la clasificación de los sistemas en la tarea de evaluación
de BR. De hecho, si consideramos una nueva función de clasificación construida componiendo la función de clasificación inicial con
un estricto incremento de la función, el valor
numérico asignado a cada sistema cambiará,
pero la clasificación obtenida será la misma
que inicialmente.
En la aproximación desarrollada en este
artı́culo, la precisión xi del sistema Si es calculada con la medida de evaluación Mean Reciprocal Rank (M RR), de modo que xi ∈
[0, 1]. La eficiencia se mide considerando el
tiempo de respuesta de cada sistema, de modo que, tener un tiempo de respuesta pequeño
significa tener una buena eficiencia.
Para definir una función de clasificación
realista, es necesario establecer algunos requirimientos adicionales. Estas propiedades
están basadas en el comportamiento intuitivo que debe cumplir la función. Por ejemplo,
como aproximación inicial, vamos a establecer las siguientes condiciones:
3.1.
Función de clasificación
independiente del tiempo
(M RR2 )
Como primer ejemplo de función de clasificación, consideramos M RR2 (x, t) = x. El
preorden inducido por esta función es semejante al orden lexicográfico, a veces llamado
orden alfabético. Para esta función de clasificación tenemos que:
1. La función inversa de M RR2 está en el
intervalo [0, 1].
2. La función M RR2 es continua en D.
3. lı́m M RR2 (1, t) = 1.
t→0
4. M RR2 (0, 1) = 0.
De modo que, la función cumple las condiciones establecidas previamente. Por otro lado, las curvas de iso-ranking de la función son
de la forma x = L, L ∈ [0, 1] cuya representación es una familia de segmentos verticales
con una unidad de longitud (veáse la figura 1). El preorden construido por esta función de clasificación sólo valora la precisión
de los sistemas.
3.2.
1. La función f debe ser continua en D.
Función de clasificación con
dependencia temporal inversa
(M RRT )
Como el primer ejemplo de función de
clasificación no valora la eficiencia de los
sistemas, vamos a considerar la función
M RRT (x, t). Suponemos que en este caso la
función de clasificación es inversamente proporcional a la eficiencia (tiempo de respuesta) y directamente proporcional a la precisión. En particular, esta función verifica las
siguientes propiedades:
2. El lı́mite superior de I se obtiene con
lı́m f (1, t). En el caso que I no tenga
t→0
lı́mite superior, tendremos lı́m f (1, t) =
t→0
+∞.
3. El lı́mite inferior de I se obtiene con
f (0, 1).
La primera condición se ha impuesto por
conveniencia matemática, aunque se podrı́a
interpretar en términos de simplificación de
argumentos. Cabe destacar que este requerimiento excluye la posibilidad que, si suponemos que dos sistemas están en distintas posiciones en la clasificación, una pequeña variación en la precisión o la eficiencia, pueda
alterar los valores de la clasificación. La segunda condición está relacionada con el hecho
que, si suponemos un sistema definido por el
par (1, 0) siempre deberı́a estar en la primera posición en la clasificación. Finalmente, la
1. La función inversa de M RRT está en el
intervalo [0, +∞).
2. La función M RRT es continua en D.
3. lı́m M RRT (1, t) = +∞.
t→0
4. M RRT (0, 1) = 0.
Las curvas de iso-ranking asociadas a la
función son de la forma x = L, L ∈ [0, 1].
Geométricamente, estas curvas son una familia de segmentos que pasan por el punto
48
Evaluación de Sistemas de Búsqueda de Respuestas con restricción de tiempo
4.
(0, 0) y con una pendiente de 1/L (veáse la
figura 2). De este modo, los sistemas con mejor eficiencia, es decir, un tiempo de respuesta pequeño, obtendrán un mejor valor de x y
una posición alta en la clasificación. Ası́ mismo, aunque la función de clasificación es de
naturaleza ordinal, es deseable que la función
inversa este acotada entre 0 y 1, ya que esto
facilita su intuitiva representación, condición
que no se cumple por esta función.
3.3.
Como se ha descrito anteriormente, nosotros consideramos el tiempo como parte fundamental en la evaluación de los sistemas
de BR. En acuerdo con la organización del
CLEF, llevamos a cabo una tarea experimental en el CLEF-2006, cuyo objetivo era evaluar los sistemas de BR con una restricción
de tiempo. Éste fue un experimento innovador para la evaluación de los sistemas de BR y
fue una iniciativa para aportar un nuevo escenario en la evaluación de los sistemas de BR.
El experimento sigue las mismas directrices
que la tarea principal, descrita en la sección
2, pero considerando el tiempo de respuesta.
Función de clasificación
exponencial inversa con
dependencia del tiempo
M RRTe
Debido a las desventajas presentadas en
las funciones anteriores, hemos propuesto una
nueva función que también depende de la precisión y de la eficiencia del sistema, aunque
la eficiencia tiene un menor peso que la precisión en esta función. A continuación, vamos
a introducirla:
M RRTe (x, t) =
2x
,
1 + et
Evaluación en el CLEF-2006
4.1.
Participantes
En total, 5 grupos participaron en este
ejercicio experimental. Los grupos participantes fueron: daedalus (España) (de PabloSánchez et al., 2006), tokyo (Japón) (Whittaker et al., 2006), priberam (Portugal) (Cassan
et al., 2006), alicante (España) (Ferrández et
al., 2006) y inaoe (Mexico) (Juárez-Gonzalez
et al., 2006). Todos estos sistemas participaron también en la tarea principal del CLEF2006 y tienen experiencia en investigación en
sistemas de BR.
(3)
siendo et la función exponencial de la eficiencia. Esta función cumple las siguientes condiciones:
4.2.
Evaluación
En esta sección se presentan los resultados
de la evaluación de los 5 sistemas que participaron en el experimento. Por un lado, se
presenta la precisión y la eficiencia obtenida
por estos sistemas. Por otro lado, se presentan las puntuaciones obtenidas por cada uno
de ellos con las diferentes medidas, las cuales
combinan la precisión y la eficiencia (presentada en la sección 2.3).
La tabla 1 muestra el resumen de los resultados obtenidos con las diferentes medidas
de evaluación (MRR, t, MRRT, M RRTe ). Se
muestran todos los resultados en una sola tabla para hacer más fácil la comparación entre
las diferentes medidas. También se muestra la
posición (pos) obtenida por cada sistema con
respecto a cada medida.
4.2.1. Evaluación de la precisión y
del tiempo de respuesta
La precisión de los sistemas de BR fue evaluada en el experimento con la medida MRR
(ver la sección 2.3). Nosotros usamos esta medida porque los sistemas enviaron tres respuestas por pregunta. La evaluación de los
sistemas con esta medida se presenta en la
1. La inversa de M RRTe está en el intervalo [0, 1).
2. La función M RRTe es continua en D.
3. lı́m M RRTe (1, t) = 1.
t→0
4. M RRTe (0, 1) = 0.
Las curvas de iso-ranking son de la forma
2x/(1 + et ) = L, L ∈ [0, 1), estando representadas en la figura 3. Si suponemos un sistema
ideal, es decir, que responde instantáneamente (t = 0), entonces el valor de esta función
coincidirı́a con el valor de la función de precisión. En cambio, la dependencia funcional
del tiempo modula el valor de la función, de
modo que, cuando el tiempo incrementa, la
función decrece. De cualquier forma, esta dependencia es más suave que en la función anterior. Además, si consideramos un sistema
S, únicamente obtendremos la misma clasificación que él si consideramos sistemas cuya
precisión y eficiencia varian en un rango particular, no sólo para un valor pequeño de la
precisión.
49
Fernando Llopis, Elisa Noguera, Antonio Ferrández y Alberto Escapa
Participante
daedalus1
tokyo
priberam
daedalus2
inaoe
alicante
MRR
0.41
0.38
0.35
0.33
0.3
0.24
pos
1o
2o
3o
4o
5o
6o
t
0.10
1.00
0.01
0.03
0.38
0.02
pos
4o
6o
1o
3o
5o
2o
MRRT
3.83
0.38
32.13
8.56
0.78
16.23
pos
4o
6o
1o
3o
5o
2o
M RRTe
0.38
0.20
0.34
0.32
0.24
0.23
pos
1o
6o
2o
3o
4o
5o
Cuadro 1: Evaluación de los resultados obtenidos con las diferentes medidas de evaluación
de respuesta. Es decir, el criterio para establecer la clasificación es el mismo que la precisión obtenida para evaluar los sistemas de
BR. Las limitaciones de este procedimiento,
las cuales han sido argumentadas en este trabajo, son claras si consideramos por ejemplo
los sistemas priberam y tokyo en la figura 1.
Podemos observar como tokyo está en segunda posición en el ranking y el sistema priberam está el tercero. En cambio, la diferencia
en la precisión de los dos sistemas es muy pequeña, 0.38 vs. 0.35, mientras que la eficiencia
del sistema priberam es mucho mejor que la
eficiencia del sistema tokyo. En consencuencia, serı́a razonable que el sistema priberam
precediera al sistema tokyo. Esto es imposible con esta clase de medidas que son independientes del tiempo.
tabla 1. Por otra parte, los tiempos de respuesta se midieron en segundos (tsec), aunque en la tabla se presenta el tiempo de respuesta (t) normalizado para cada sistema con
respecto a tmax, o tiempo de respuesta del
sistema menos rápido. Es decir, t es igual a
tsec/tmax.
4.2.2.
Evaluación de los resultados
con M RR2
La evaluación global de los sistemas de
BR, combinando precision y tiempo de respuesta con la medida M RRT2 (ver sección 3)
es la misma que usando sólo la medida MRR
(ver sección 1), porque esta medida valora
primero la precisión, y después valora el tiempo en el caso que la precisión sea la misma
entre varios sistemas. En este caso, como la
precisión es distinta, los sistemas quedarı́an
ordenados por su MRR.
4.2.3.
Evaluación de los resultados
con MRRT
La evaluación de los sistemas con la medida MRRT (ver la sección 3) se presenta en la
tabla 1. También, para cada sistema se muestra la posición en la lista que ha obtenido con
esta medida.
Como podemos observar en la tabla, priberam obtuvo el mejor valor de MRRT (32.13)
con un t de 0.01 y un MRR de 0.35. Además,
también se puede observar que la primera
prueba enviada por daedalus (daedalus1) obtuvo el mejor MRR con 0.41, en cambio esta
prueba no fue la más rápida (0.10). En consecuencia, esta prueba obtuvo un bajo MRRT
(0.08). La segunda prueba enviada por daedalus (daedalus2) obtuvo un MRR más bajo
que el anterior (0.33), en cambio obtuvo un
mejor t (0.03), por esta razón esta segunda
prueba obtuvo un mejor MRRT que la primera prueba.
Gráficamente, podemos ver los diferentes
valores obtenidos en la figura 2. Por ejemplo,
el sistema alicante, cuya presición es 0.24 y t
es 0.02, está en la misma posición en la clasificación que priberam, siendo su precisión
Figura 1: Comparativa de los resultados obtenidos para cada sistema con la medida de
evaluación M RR2 (Preorden lexicográfico).
Gráficamente, una curva de iso-ranking
contiene a todos los sistemas con el mismo
valor de MRR y cualquier valor de tiempo
50
Evaluación de Sistemas de Búsqueda de Respuestas con restricción de tiempo
porque tiene un t más elevado (0.10) que los
anteriores. Finalmente, inaoe y tokyo han sido penalizados significativamente por tener
unos tiempos de respuesta muy elevados.
Figura 2: Comparativa de los resultados obtenidos por cada sistema con la medida de evaluación M RRT en sus curvas de iso-ranking.
mejor (0.35). La posición de cualquier sistema en la clasificación, puede ser igualada por
un sistema de menor precisión pero con una
mayor eficiencia, y en particular esto puede
ocurrir aún teniendo un valor pequeño en la
precisión. Esto es una desventaja porque se
valora mucho la eficiencia de los sistemas y,
en nuestra opinión, el factor principal debe de
ser la precisión, aunque la eficiencia también
sea valorada.
Figura 3: Comparativa de los resultados obtenidos por cada sistema con la medida de evaluación M RRTe en sus curvas de iso-ranking.
Gráficamente, podemos comparar los distintos valores de M RRTe en la figura 3. También se puede observar en la figura que para
obtener la misma posición en el ranking que,
p.ej. un sistema con una precisión de 0.4 y
un t de 0.2, su precisión oscilará entre (0.36,
0.76) y su t variará entre 0 y 1 dependiendo
de su precisión. Estas caracterı́sticas hacen la
medida de evaluación M RRTe adecuada para
la evaluación de sistemas de BR con restricción de tiempo.
4.2.4.
Evaluación de los resultados
con M RRTe
La medida de evaluación MRRT, presentada en la sección anterior, fue usada en la
tarea de BR con restricción de tiempo dentro
del CLEF-2006. Consideramos que esta medida valora demasiado el tiempo, por lo tanto, hemos propuesto una medida alternativa
más adecuada para la evaluación de sistemas
de BR con restricción de tiempo. La nueva
medida, descrita en la sección 3, ha sido diseñada para penalizar aquellos sistemas que
tienen un elevado tiempo de respuesta.
Como muestra la tabla 1, daedalus1 y priberam obtienen los mejores resultados con la
medida M RRTe (0.38 y 0.34 respectivamente). La disminución de resultados de priberam (de 0.35 a 0.34), en términos de MRR,
no es significativa porque tiene un tiempo de
respuesta muy pequeño (0.01), al igual que
alicante (de 0.24 a 0.23). En cambio, el valor de M RRTe de daedalus1 reduce su valor
de MRR en mayor grado (de 0.41 a 0.38),
5.
Conclusiones y trabajos
futuros
Principalmente, la evaluación de sistemas
de BR ha sido estudiado en profundidad en
tres foros de investigación: TREC, CLEF y
NTCIR. Aunque, en estos foros sólo se han
centrado en evaluar la precisión de los sistemas, y no se ha valorado su eficiencia (consideramos el tiempo de respuesta como medida
de eficiencia) en ninguna ocasión. En la mayor parte de los casos, los sistemas suelen ser
muy eficaces pero muy poco eficientes. Por
esta razón, hemos estudiado en este trabajo
la evaluación de sistemas de BR valorando
también su tiempo de respuesta.
Para la evaluación de los sistemas de
BR, hemos propuesto tres medidas (M RR2 ,
51
Fernando Llopis, Elisa Noguera, Antonio Ferrández y Alberto Escapa
do, E.Noguera, y F. Llopis. 2006. AliQAn and BRILI QA Systems at CLEF
2006. En WORKING NOTES CLEF
2006 Workshop.
M RRT , M RRTe ) para evaluar los sistemas con restricción de tiempo. Estas medidas están basadas en la medida Mean Reciprocal Rank (MRR) y el tiempo de respuesta. Como resultados preliminares, hemos
visto que M RRT2 sólo valora la precisión
y M RRT valora demasiado el tiempo. Hemos solventado este inconveniente proponiendo una nueva medida llamada M RRTe . Esta
medida combina el MRR y el tiempo de respuesta, penalizando a los sistemas que tienen un tiempo de respuesta elevado. Cabe
mencionar, que está basada en una función
exponencial. En conclusión, la nueva medida
M RRe permite clasificar los sistemas considerando su precisión y su tiempo de respuesta.
Además, hemos llevado a cabo una tarea
en el CLEF-2006 para evaluar sistemas de
BR con restricción de tiempo (siendo la primera vez que se organiza una evaluación de
estas caracterı́sticas). Este experimento nos
ha permitido establecer los criterios para la
evaluación de sistemas de BR en un nuevo escenario. Afortunadamente, este experimento
fue recibido con una gran expectación tanto
por los participantes, como por los organizadores.
Finalmente, las futuras direcciones que vamos a seguir son: valorar otras variables como
el hardware de los sistemas, e insertar nuevos
parámetros de control para poder dar más
importancia a la precisión o a la eficiencia.
Juárez-Gonzalez, A., A. Téllez-Valero,
C. Denicia-Carral, M. Montes y Gómez,
y L. Villase nor Pineda. 2006. INAOE
at CLEF 2006: Experiments in Spanish
Question Answering.
En WORKING
NOTES CLEF 2006 Workshop.
Magnini, B., D. Giampiccolo, P. Forner,
C. Ayache, P. Osenova, A. Pe nas, V. Jijkoun, B. Sacaleanu, P. Rocha, y R. Sutcliffe. 2006. Overview of the CLEF
2006 Multilingual Question Answering
Track. En WORKING NOTES CLEF
2006 Workshop.
Voorhees, E. y H. Trang Dang. 2005. Overview of the TREC 2005 Question Answering Track. En TREC.
Whittaker, E. W. D., J. R. Novak, P. Chatain, P. R. Dixon, M. H. Heie, y S. Furui.
2006. CLEF2006 Question Answering Experiments at Tokyo Institute of Technology. En WORKING NOTES CLEF 2006
Workshop.
Bibliografı́a
Cassan, A., H. Figueira, A. Martins, A. Mendes, P. Mendes, C. Pinto, y D. Vidal.
2006. Priberam’s Question Answering
System in a Cross-Language Environment. En WORKING NOTES CLEF
2006 Workshop.
de Pablo-Sánchez, C., A. González-Ledesma,
A. Moreno, J. Martı́nez-Fernández, y
P. Martı́nez. 2006. MIRACLE at the Spanish CLEF@QA 2006 Track. En WORKING NOTES CLEF 2006 Workshop.
F., Junichi, Tsuneaki K., , y Fumito M.
2002. An Evaluation of Question Answering Task. En Third NTCIR Workshop on
Research in Information Retrieval, Question Answering and Summarization, October.
Ferrández, S., P. López-Moreno, S. Roger, A. Ferrández, J. Peral, X. Alvara52
Categorización de Textos
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 55-62
recibido 18-05-2007; aceptado 22-06-2007
Medidas internas y externas en el agrupamiento de resúmenes
cientı́ficos de dominios reducidos ∗
Diego A. Ingaramo, Marcelo L. Errecalde
Paolo Rosso
LIDIC, UNSL, Argentina
DSIC, UPV, España
Avda Ejército de los Andes 950
Camino de Vera s/n 46022
San Luis (5700)
[email protected]
{daingara,merreca}@unsl.edu.ar
Resumen: Los algoritmos de agrupamiento suelen evaluarse o utilizan en su funcionamiento distintas medidas internas (u objetivas) como el ı́ndice de Davies-Boulding
o el ı́ndice de Dunn, que intentan reflejar propiedades estructurales del resultado
del agrupamiento. Sin embargo, la presencia de estas propiedades estructurales no
garantiza la usabilidad de los resultados para el usuario, una propiedad subjetiva reflejada por medidas externas como la medida F y que determinan hasta que punto
los grupos obtenidos se asemejan a los que se hubieran logrado con una categorización manual real. En trabajos previos, se ha observado una correlación interesante
entre la medida de densidad esperada (interna) y la tradicional medida F (externa)
en tareas de agrupamiento con documentos del corpus standard RCV1. En este trabajo, analizamos si esta relación también se verifica en tareas de agrupamiento de
resúmenes en dominios muy restringidos. Este tipo de tarea ha demostrado tener
un alto grado de complejidad y por ello, un análisis de este estilo, puede ser útil
para determinar cuales son las propiedades estructurales fundamentales a tener en
cuenta a la hora de diseñar algoritmos de agrupamiento para este tipo de dominios.
Palabras clave: agrupamiento de resúmenes, dominios muy restringidos, medidas
de evaluación
Abstract: Clustering algorithms are usually based (and evaluated) taking into account internal (or objective) measures such as the Davies-Boulding index or the
Dunn index which attempt to evaluate particular structural properties of the clustering result. However, the presence of such structural properties does not guarantee the interestingness or usability of the results for the user, a subjective property
usually captured by external measures like the F -measure that determine up to what
extent the resulting groups resemble a real human classification. In previous works,
an interesting correspondence have been observed between the (internal) expected
density measure and the (external) F -measure in clustering tasks with documents
from the standard corpus RCV1. In this work, we investigate if that correspondence
also is verified in clustering on narrow-domain abstracts tasks. This is a challenging
problem and we think that this kind of study can be useful for detecting which are
the most relevant structural properties which should be considered when designing
clustering algorithms for these domains.
Keywords: clustering of abstracts, narrow domains, evaluation measures
1.
Introducción
El agrupamiento de textos consiste en la
asignación no supervisada de documentos en
distintas categorı́as. Si bien es común que
este tipo de tareas se estudie utilizando colecciones de documentos standards, en muchos casos sólo están disponibles los resúmenes descriptivos (abstracts), como ocurre con
muchas publicaciones cientı́ficas. La tarea de
∗
El trabajo fue financiado parcialmente por los
proyectos de investigación TIN2006-15265-C06-04 y
ANPCyT-PICT-2005-34015.
ISSN: 1135-5948
agrupamiento de resúmenes, presenta un desafı́o considerable debido a la baja frecuencia
de ocurrencia de los términos en los documentos. Esta tarea se dificulta aún más, cuando los resúmenes abordan una temática similar, debido a que existe una intersección significativa en el vocabulario de los documentos. Esta tarea, conocida como agrupamiento
de resúmenes en dominios muy restringidos
(en inglés clustering abstracts on narrow domains) ha comenzado a ser abordada en distintos trabajos recientes que presentan distin-
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Diego Ingaramo, Marcelo Errecalde y Paolo Rosso
de resúmenes cientı́ficos en dominios muy especı́ficos y un subconjunto de un corpus tradicional. En todos los casos, se utilizan distintas codificaciones de los documentos y distintos porcentajes del vocabulario. Los métodos de agrupamiento utilizados son k-means,
MajorClust y un algoritmo de clustering “artificial”.
El artı́culo está organizado de la siguiente
manera. En la Sección 2 se resumen brevemente las particularidades que surgen en la
tarea de agrupamiento de resúmenes en dominios muy restringidos. En la Sección 3 se
describen algunas de las consideraciones realizadas por Stein respecto a las medidas internas y externas del agrupamiento y se detallan
las medidas que utilizaremos en este trabajo.
En la Sección 4 se describe el trabajo experimental y los resultados obtenidos. Por último
se presentan las conclusiones y posibles trabajos futuros.
tas propuestas para enfrentar las complejidades propias de este tipo de dominio (Makagonov, Alexandrov, y Gelbukh, 2004), (Alexandrov, Gelbukh, y Rosso, 2005), (Pinto, Jimenez, y Rosso, 2006).
Por otra parte, Stein (Stein, Meyer, y
Wißbrock, 2003) destaca que las métricas
tradicionales de validez de un agrupamiento
(ı́ndice de Davies-Boulding, ı́ndice de Dunn,
densidad esperada y otras), son medidas internas (u objetivas) que toman en cuenta distintas propiedades estructurales de los grupos obtenidos. Sin embargo, estas medidas
no garantizan la calidad del agrupamiento de
acuerdo a la clasificación que hubiera realizado un usuario ante la misma tarea. Este
tipo de información suele estar expresada en
medidas externas (o subjetivas) como la precisión o la medida F, y requieren para su
cálculo de información sobre la clasificación
real realizada por un humano. Un algoritmo
de agrupamiento no tiene en general acceso
a este tipo de información. Por ello, se suele
tomar como referencia a las medidas internas, y confiar en que permitan predecir adecuadamente las medidas externas. Este es el
caso de métodos como MajorClust (Stein y
Niggemann, 1999), que aproxima la función
de conectividad parcial o el algoritmo AAT
(Adaptive AntTree) (Ingaramo, Leguizamón,
y Errecalde, 2005b), (Ingaramo, Leguizamón,
y Errecalde, 2005a) que utiliza el ı́ndice de
Davies-Boulding en una etapa del algoritmo.
Respecto a las observaciones de Stein, éste
analiza en que medida distintas medidas internas de un agrupamiento sirven para predecir la usabilidad del mismo (medidas subjetivas) usando en su estudio distintas muestras
de un corpus etiquetado standard (RCV1).
En este caso, se reportan resultados interesantes respecto a la correlación entre la medida de densidad esperada (interna) y la medida F (externa).
El objetivo de nuestro trabajo es determinar si esta correspondencia también se
verifica en un dominio más dificultoso como lo es el agrupamiento de resúmenes en
dominios muy restringidos. Esta información podrá ser utilizada en algoritmos de
agrupamiento que explı́citamente recurren a
medidas internas (Ingaramo, Leguizamón, y
Errecalde, 2005b), (Ingaramo, Leguizamón, y
Errecalde, 2005a) para adaptarlos a las caracterı́sticas de este tipo de dominios. En el
trabajo experimental se consideran 3 corpora
2.
Agrupamiento de resúmenes
en dominios reducidos
La categorización de textos es el agrupamiento de documentos con temáticas similares, y es una componente clave en la organización, recuperación e inspección de grandes volúmenes de documentos accesibles actualmente en Internet, bibliotecas digitales,
etc. Distintos trabajos de investigación han
abordado el problema de la categorización
automática de textos en situaciones donde se
cuenta con un esquema de clasificación predefinido y existe una colección de documentos
ya clasificados. En estos casos, las técnicas
de aprendizaje automático han demostrado
una gran eficacia a la hora de obtener clasificadores con muy buenos desempeños en
diversas colecciones de documentos (Sebastiani, 2002), (Montejo y Ureña, 2006).
Esta tarea de agrupamiento es más compleja cuando el proceso de formación de categorı́as es no supervisado y no se dispone de
una colección de documentos etiquetados como referencia. En estos casos se introducen
dificultades adicionales al caso supervisado
como, por ejemplo, la correcta determinación
del número de clases o la forma de evaluar el
resultado del proceso de agrupamiento.
Si bien las técnicas de agrupamiento han
sido aplicadas en reiteradas oportunidades a
documentos completos provenientes de colecciones de acceso público, el acceso a muchas
publicaciones cientı́ficas queda en muchos ca56
Medidas Internas y Externas en el Agrupamiento de Resúmenes Científicos de Dominios Reducidos
maño de vocabulario, utilizando esta interesante técnica de selección de términos.
sos restringido a sus resúmenes (o abstracts).
En estos casos, las técnicas de agrupamiento
tradicionales suelen arrojar resultados inestables e imprecisos debido a las bajas frecuencias de ocurrencias de las palabras presentes en el resúmen y a la ocurrencia de frases
comunes completas que no realizan ningún
aporte al significado del documento (ej. “In
this paper we present...”). Aqui es importante diferenciar:
3.
Medidas de evaluación de
agrupamientos
El trabajo realizado por Stein en (Stein,
Meyer, y Wißbrock, 2003) intentó determinar si las medidas de validez internas para un
agrupamiento de textos se correspondian con
los criterios utilizados por un usuario final,
en relación a la misma tarea. Dentro de este
marco se analizaron distintas medidas internas tradicionales como la familia de ı́ndices
de Dunn y Davies-Bouldin y medidas basadas
en densidad como la medida de conectividad
parcial y la medida de densidad esperada. El
análisis se realizó considerando que el criterio
real del usuario estaba reflejado en la medida
F (externa).
Para los experimentos se consideraron
muestras de la colección Reuters Text Corpus
Volume 1 (Rose, Stevenson, y Whitehead,
2002) y distintos algoritmos de agrupamiento como k-Means y MajorClust. Los resultados mostraron que las medidas internas tradicionales se comportan de manera consistente
aunque los grupos encontrados no sean buenos en relación a la medida F . La medida de
densidad esperada en cambio, tiene un mejor
comportamiento que, de acuerdo a Stein, se
debe a la independencia que tiene esta medida con respecto a la forma y a la distancia entre grupos y elementos de cada grupo.
A continuación, se describen brevemente la
medida de densidad esperada y la medida F
analizadas en el trabajo de Stein.
Resúmenes concernientes a temáticas
bien diferenciadas (deportes, polı́tica,
economı́a, etc).
Resúmenes concernientes a un dominio
muy restringido (narrow domain) donde
todos los resúmenes abordan una temática similar y la intersección de sus vocabularios es muy significativa.
La dificultad del agrupamiento en el último caso ya ha sido observada en distintos trabajos recientes (Alexandrov, Gelbukh,
y Rosso, 2005), (Pinto, Jimenez, y Rosso,
2006) que proponen distintos enfoques para
su abordaje. En (Makagonov, Alexandrov, y
Gelbukh, 2004) por ejemplo, se utilizó una
adecuada selección de las palabras claves y
una mejor evaluación de la similitud entre
documentos, experimentándose con dos colecciones de abstracts de las conferencias CICLing 2002 e IFCS 2000. En (Alexandrov,
Gelbukh, y Rosso, 2005) se propone el uso del
método MajorClust de Stein para el clustering de palabras claves y documentos, experimentándose con la misma colección CICLing
mencionada previamente.
Recientemente, en (Jiménez, Pinto, y Rosso, 2005) un nuevo experimento con esta colección ha arrojado mejores resultados a partir del uso del método de punto de transición. Finalmente, en (Pinto, Jimenez, y Rosso, 2006), (Pinto et al., 2006) se muestra que
esta técnica de selección de términos, puede producir un mejor desempeño que otras
técnicas no supervisadas en colecciones de
resúmenes.
Estos últimos trabajos comparten la conclusión de que puede haber una influencia
significativa del tamaño del vocabulario en
la medida F cuando se utiliza la técnica del
punto de transición. Por este motivo, en este
trabajo decidimos que el análisis de la relación de las medidas internas y externas tomarı́a en cuenta distintos porcentajes del ta-
3.1.
Medida de densidad esperada
Se dice que un grafo ponderado V, E, w
no es denso si |E| = O(|V |), y que es denso si |E| = O(|V |2 ). De esta forma podemos calcular la densidad θ de un grafo mediantela ecuación |E| = |V |θ . Con w(G) =
|V | + e∈E w(e), la relación para grafos ponderados es:
w(G) = |V |θ ⇔ θ =
ln(w(G))
ln(|V |)
(1)
θ puede usarse para comparar la densidad
de cada subgrafo inducido G = V , E , w de G, y se dice que G (no) es denso respecto
a G si la relación
grande) que 1.
57
w(G )
|V |θ
es más chica (más
Diego Ingaramo, Marcelo Errecalde y Paolo Rosso
4.1.1. La colección CICLing2002
Este corpus se caracteriza por un reducido
número de resúmenes (48) distribuidos manualmente y en forma balanceada en 4 grupos que corresponden a temáticas abordadas
en la conferencia CICLing 2002. Es un corpus
pequeño (23.971 bytes) con 3382 términos en
total y un vocabulario de tamaño 953. La distribución de los resúmenes en los grupos se
muestra en la Tabla 1.
Definición (Stein, Meyer, y Wißbrock,
2003): Sean C = {C1 , .., Ck } los grupos de
un grafo ponderado G = V, E, w y sea
Gi = Vi , Ei , wi el subgrafo inducido de G
respecto al cluster Ci . La densidad esperada
ρ de un agrupamiento C es:
ρ(C) =
k
|Vi |
i=1
w(Gi )
|V | |Vi |θ
·
(2)
Categorı́a
Lingüı́stica
Ambigüedad
Léxico
Proc. de texto
TOTAL
Un mayor valor de ρ representa un mejor
agrupamiento.
3.2.
La medida F
La medida F combina las medidas de precisión y recall.
Definición: Sea D un conjunto de documentos, C = {C1 , ..., Ck } un agrupamiento de
D y C ∗ = {C1∗ , . . . , Cl∗ } la clasificación real de
los documentos en D. El recall de un grupo
j en relación a la clase i, rec(i, j) se define
como |Cj ∩ Ci∗ |/|Ci∗ |. La precisión de un grupo j respecto a la clase i, prec(i, j) se define
como |Cj ∩ Ci∗ |/|Cj |. La medida F combina
ambas funciones de la siguiente manera:
Fi,j =
1
prec(i,j)
2
+
1
rec(i,j)
Tabla 1: Distribución de CICLing2002
4.1.2. La colección Hep-Ex
Este corpus, basado en la colección de
resúmenes de la Universidad de Jaén, España (Montejo, Ureña Lopez y Steinberg,
2005), está compuesto por 2922 resúmenes
del área de fı́sica, originalmente guardados
en los servidores del Conseil Européen pour
la Recherche Nucléaire (CERN). Este corpus
de 962.802 bytes de tamaño, con un total de
135.969 términos en total y un vocabulario de
tamaño 6150, distribuye los 2922 resúmenes
en 9 categorı́as de la manera que se muestra
en la Tabla 2. Como se puede observar, tiene una mayor cantidad de grupos que en el
caso de CICLing2002 y además es altamente desequilibrado, ya que uno de los grupos
concentra casi el 90 % de los documentos.
(3)
y la medida F global se define:
F =
l
|Ci∗ |
i=1
|D|
· máx {Fi,j }
j=1,..,k
(4)
En nuestro caso, es importante determinar
si la correspondencia observada por Stein entre ambas medidas en la colección RCV1 se
mantiene al agrupar resúmenes de dominios
muy restringidos. Si ésto ocurre, se podrı́an
adaptar para este tipo de dominios, algunos
métodos de agrupamiento que explı́citamente
utilizan otras medidas internas. En caso contrario, se podrı́a investigar si otras medidas
internas se comportan mejor en estos casos.
4.
4.1.
Nro de resúmenes
11
15
11
11
48
Categorı́a
Resultados Experimentales
Detectores y técnicas exp.
Aceleradores
Fenomenologı́a
Astronomı́a
Transf. de Información
Sistemas No Lineales
Otros campos de la fı́sica
XX
TOTAL
Experimentos
Conjuntos de Datos
Nro de resúmenes
2623
271
18
3
3
1
1
1
1
2922
Tabla 2: Distribución de Hep-Ex
En los experimentos se utilizaron las 4 colecciones que se describen a continuación, que
difieren fundamentalmente en la cantidad de
documentos y el tipo de distribución entre los
distintos grupos.
4.1.3. La colección KnCr
Esta colección es un subconjunto de la colección de textos cientı́ficos del área de me58
Medidas Internas y Externas en el Agrupamiento de Resúmenes Científicos de Dominios Reducidos
dicina de MEDLINE, restringida a aquellos
resúmenes sobre temas vinculados al cáncer.
Se compone de 900 resúmenes distribuidos en
16 categorı́as como se muestra en la Tabla 3.
Este corpus tiene un tamaño de 834.212 bytes, con 113.822 términos en total y un vocabulario de tamaño 11.958. Estudios preliminares (Pinto y Rosso, 2006) demuestran la
alta complejidad y el desafı́o que presenta esta colección.
Categorı́a
Sangre
Huesos
Cerebro
Pecho
Colon
Estudios Genéticos
Genitales
Pulmones
Hı́gado
linfoma
renal
piel
estómago
terapia
tiroide
otros
TOTAL
o la codificación de los documentos. Por este
motivo, se buscó obtener un muestreo representativo de resultados considerando distintos escenarios.
Para el caso de la codificación de los documentos, por ejemplo, se obtuvieron resultados considerando la mayorı́a de las 20 codificaciones SMART (Salton, 1971). Para la
reducción del vocabulario, por su parte, los
términos más relevantes fueron seleccionados
mediante la técnica del punto de transición.
Esta técnica ha demostrado tener un impacto significativo en la medida F en estudios
recientes con este tipo de dominios (Pinto et
al., 2006). Para cada uno de los corpus se
consideraron los resultados obtenidos con los
siguientes porcentajes de vocabulario: 2 %,
5 %, 10 %, 20 %, 40 %, 60 %, 80 % y hasta un
100 % (vocabulario total).
Como algoritmos de clustering se utilizaron los métodos k-means y MajorClust. En
el primer caso se deben especificar el número de clusters requeridos y en el segundo caso no. También se implementó un algoritmo
de clustering artificial del tipo del utilizado
por Stein en sus experimentos. La idea en este caso es que, dado que se conoce la categorización de referencia C ∗ , es posible generar agrupamientos artificiales C1 , . . . , Cn que
difieren en el grado de ruido introducido en
el agrupamiento. Este ruido es generado mediante el intercambio controlado de pares de
subconjuntos de documentos entre los grupos
que pueden variar desde un documento hasta
el 50 % de los documentos de un grupo.
Nro de resúmenes
64
8
14
119
51
66
160
29
99
30
6
31
12
169
20
22
900
Tabla 3: Distribución de KnCr
4.1.4. La colección 5-MNG
Las 3 colecciones previas corresponden a
colecciones de resúmenes cientı́ficos en dominios muy especı́ficos. Para poder comparar
los resultados con una colección que no tuviera estas caracterı́sticas, se generó un subconjunto de la colección de textos completos MiniNewsGroups 1 , de manera tal que los grupos seleccionados correspondieran a temáticas bien diferenciadas. Esta colección, que
denominamos 5-MNG, está compuesta por 5
grupos de tamaño equilibrado de 100 documentos cada uno (ver Tabla 4).
4.2.
4.3.
Resultados
En las Figuras 1, 2, 3 y 4 se muestran los
resultados del agrupamiento artificial con las
colecciones explicadas previamente. En todos
los casos, los valores correspondientes al eje x
representan las densidades esperadas ρ de los
agrupamientos encontrados por este algoritmo, y los valores en el eje y son los valores de
la medida F para cada agrupamiento. Debe-
Diseño Experimental
Categorı́a
Gráficas
Motocicletas
Baseball
Space
Politica
TOTAL
En el trabajo experimental se analizó si
existe una correspondencia general entre la
densidad esperada y la medida F evitando
introducir distintos tipos de sesgos en factores como el tamaño del vocabulario utilizado
1
http://kdd.ics.uci.edu/databases/20newsgroups/
20newsgroups.html. 20 Newsgroups, the original data
set. Ken Lang, 1993.
Nro de resúmenes
100
100
100
100
100
500
Tabla 4: Distribución de 5-MNG
59
Diego Ingaramo, Marcelo Errecalde y Paolo Rosso
obtenidos por Stein con agrupamientos artificiales con RCV1. Sin embargo, en nuestro caso dos situaciones merecen atención. La primera es respecto a CICLing2002 (Figura 1)
donde se observan variaciones significativas
de F con pequeñas variaciones de la densidad. Esto parece indicar que cuando existen
pocos grupos y pocos documentos por grupo
la densidad esperada no provee una estimación muy estable de F . Esta inestabilidad no
se observa en una colección con pocos grupos
con textos completos como es el caso de 5MNG (Figura 2) cuya curva tiene grandes similitudes con la curva ideal para este corpus.
En el caso de Hep-ex (Figura 3) se observa
que la medida F se mantiene casi inalterable respecto a las variaciones de la densidad
esperada. Este comportamiento puede estar
motivado por el hecho de que esta colección
tiene un grupo que contiene el 90 % de los
documentos y el clustering artificial parte del
agrupamiento perfecto de los documentos. Es
de esperar entonces, que si bien se incorpora
paulatinamente ruido intercambiando documentos entre los grupos, el impacto que se
mos notar que además de los puntos correspondientes a los resultados del agrupamiento
artificial, también se grafica una lı́nea rotulada “Curva ideal de la muestra”. Esta lı́nea
corresponde a la función lineal que pasa por
los puntos (ρ1 , F1 ) y (ρ2 , F2 ) donde ρ1 y ρ2
son el mı́nimo y máximo valor de densidad esperada encontrado en los experimentos para
este corpus y F1 y F2 son el mı́nimo y máximo
valor de la medida F obtenidos para este corpus en nuestros experimentos. Esta función
corresponde a un resultado idealizado donde
la medida F se incrementarı́a linealmente de
acuerdo al crecimiento de la densidad esperada. Dado que esta función serı́a un patrón
deseable posible para la correlación entre ambas medidas, en todas las figuras subsiguientes, esta lı́nea será tomada como referencia
para comparar los resultados obtenidos con
los distintos algoritmos de agrupamiento.
Resultados CICLing2002
1
0.9
Medida F
0.8
0.7
0.6
Resultados Hep-Ex
1
0.5
0.9
0.4
0.8
0.3
0.8
0.85
Densidad esperada
0.9
0.95
0.7
Medida F
0.75
Algoritmos
Clustering Artificial
Curva ideal de la muestra
0.6
0.5
Figura 1: CICLing2002 (clustering artificial)
0.4
0.3
0.2
0.74
Resultados 5MNG
0.76
0.78
0.8
1
0.82
0.84
Densidad esperada
0.86
0.88
0.9
Algoritmos
Clustering Artificial
Curva ideal de la muestra
0.9
0.8
Medida F
Figura 3: Hep-ex (clustering artificial)
0.7
0.6
Resultados Cancer
1
0.5
0.9
0.4
0.8
0.7
0.3
0.68
0.7
0.72
0.74
0.76
0.78
Medida F
0.66
Densidad esperada
Algoritmos
Clustering Artificial
Curva ideal de la muestra
0.6
0.5
0.4
Figura 2: 5-MNG (clustering artificial)
0.3
0.2
En todas estas figuras se puede observar
una buena correspondencia entre la medida
de densidad esperada y la medida F cuando
se introduce ruido gradualmente en el agrupamiento. Estos resultados se asemejan a los
0.1
0.47
0.48
0.49
0.5
0.51
0.52
0.53
0.54
Densidad esperada
Algoritmos
Clustering Artificial
Curva ideal de la muestra
Figura 4: KnCr (clustering artificial)
60
Medidas Internas y Externas en el Agrupamiento de Resúmenes Científicos de Dominios Reducidos
tiene sobre la medida F no alcance a ser significativo. De esta forma, la medida F mantendrá alto sus valores independientemente
de los valores de densidad esperada. La colección de resúmenes que muestra una mejor
correspondencia entre la densidad esperada
y la medida F es KnCr (Figura 4). En este
caso, la curva obtenida tiene una semejanza
a la curva ideal casi tan cercana como en el
caso de 5-MNG.
Resultados Cancer
1
0.9
0.8
Medida F
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.47
0.48
0.49
0.5
0.51
0.52
0.53
0.54
Densidad esperada
Algoritmos
Resultados CICLing2002
K-means
Curva ideal de la muestra
1
0.9
Figura 7: KnCr (k-means)
Medida F
0.8
0.7
Resultados Hep-Ex
1
0.6
0.9
0.5
0.8
0.4
Medida F
0.7
0.3
0.75
0.8
0.85
Densidad esperada
0.9
0.95
0.6
0.5
Algoritmos
K-means
Curva ideal de la muestra
0.4
0.3
Figura 5: CICLing2002 (k-means)
0.2
0.74
0.76
0.78
0.8
0.82
0.84
0.86
0.88
0.9
Densidad esperada
Algoritmos
K-means
Curva ideal de la muestra
Resultados 5MNG
1
0.9
Figura 8: Hep-ex (k-means)
Medida F
0.8
0.7
podemos inferir que si bien en un corpus con
documentos completos y temáticas diferenciadas como 5-MNG, los resultados son consistentes con los obtenidos por Stein, en el
caso de colecciones de resúmenes de dominios
restringidos esta relación entre ambas medidas no parece verificarse.
Los resultados obtenidos con las colecciones de resúmenes no mejoraron cuando se utilizó un algoritmo como MajorClust que determina automáticamente el número de grupos que tendrá el resultado, ya que no cuenta
con información sobre el número correcto de
grupos como en los algoritmos previos. Como ejemplo representativo de estos resultados, en la Figura 9 se muestra el desempeño
de MajorClust con la colección CICLing2002.
Se puede observar que se tiene un rango más
amplio de valores de densidad que con los dos
algoritmos previos, debido a que la variación
en el número de grupos hacen variar significativamente los valores de densidad. Sin embargo, con estos valores mayores de densidad
esperada tampoco se percibe una mejora de
la medida F .
0.6
0.5
0.4
0.3
0.66
0.68
0.7
0.72
0.74
0.76
0.78
Densidad esperada
Algoritmos
K-means
Curva ideal de la muestra
Figura 6: 5-MNG (k-means)
El segundo grupo de resultados se obtuvieron con el algoritmo k-means (con el número
correcto de grupos) y se muestran en las Figuras 5, 6, 7 y 8. En los casos de Hep-ex y
KnCr no se observa que un incremento en la
densidad esperada implique un aumento de
la correspondiente medida F . En el caso de
5-MNG en cambio, parece haber una relación
más directa entre el crecimiento de la densidad esperada y el crecimiento de F . No obstante ésto, los valores de F comienzan a ser
más inestables con valores de densidad superiores a 0.73. Considerando que en el caso de
CICLing2002 tampoco se visualiza una relación clara entre la densidad y la medida F ,
61
Diego Ingaramo, Marcelo Errecalde y Paolo Rosso
Jiménez, H., D. Pinto, y P. Rosso. 2005. Uso
del punto de transición en la selección de
términos ı́ndice para agrupamiento de textos cortos. En Procesamiento del Lenguaje
Natural, páginas 383–390.
Resultados CICLing2002
1
0.9
Medida F
0.8
0.7
Makagonov, P., M. Alexandrov, y A. Gelbukh. 2004. Clustering abstracts instead
of full texts. En Proc. of the TSD-2004,
páginas 129–135.
0.6
0.5
0.4
0.3
0.75
0.8
0.85
0.9
0.95
Montejo, A. y L. A. Ureña. 2006. Binary
classifiers versus adaboost for labeling of
digital documents. En Procesamiento del
Lenguaje Natural, páginas 319–326.
Densidad esperada
Algoritmos
Major Clust
Curva ideal de la muestra
Figura 9: CICLing2002 (MajorClust)
5.
Pinto, D., H. Jimenez, y P. Rosso. 2006.
Clustering Abstracts of Scientific Texts
Using the Transition Point Technique. En
A. Gelbukh, editor, Proceedings of the CICLing 2006, volumen 3878 de LNCS, páginas 536–546. Springer-Verlag.
Conclusiones y trabajo futuro
Los resultados obtenidos en este trabajo
con la colección 5-MNG confirman las observaciones realizadas por Stein respecto a que
la densidad esperada puede ser un buen indicador de la medida F cuando se agrupan
documentos completos de temáticas disı́miles. Sin embargo, esta relación entre ambas
medidas no parece verificarse en tareas de
agrupamiento de resúmenes de dominios muy
reducidos. Estos resultados se constituyen en
nuevos indicadores de la dificultad intrı́nseca
de este tipo de dominios. Como trabajo futuro, serı́a interesante analizar el desempeño
de otras medidas internas como el ı́ndice de
Davies-Boulding o el ı́ndice de Dunn, en este
tipo de dominios y su relación con la medida F . En base a estos estudios, serı́a factible
incorporar la medida interna más adecuada
en los algoritmos que las utilizan en alguna
de sus etapas. De esta manera, se podrı́a lograr un algoritmo de agrupamiento aceptable, adaptado a las caracterı́sticas de este dominio tan dificultoso.
Pinto, D. y P. Rosso. 2006. Kncr: A shorttext narrow-domain sub-corpus of Medline, TLH 2006.
Pinto, D., P. Rosso, J. Alfons, y H. Jiménez.
2006. A comparative study of clustering
algorithms on narrow-domain abstracts.
En Procesamiento del Lenguaje Natural,
páginas 41–49.
Rose, T.G., M. Stevenson, y M. Whitehead.
2002. The reuters corpus volume 1: from
yesterdays news to tomorrows language
resources. En Proceedings of the Third
ICLRE, páginas 29–31.
Salton, Gerard. 1971. The Smart Retrieval
System: Experiments in Automatic Document Processing. Prentice Hall.
Sebastiani, F. 2002. Machine learning in automated text categorization. ACM Computing Surveys, 34(1):1–47.
Bibliografı́a
Alexandrov, M., A. Gelbukh, y P. Rosso.
2005. An Approach to Clustering Abstracts. En Proceedings of the 10th International Conference NLDB-05, LNCS,
páginas 275–285. Springer-Verlag.
Stein, B., S. Meyer, y F. Wißbrock. 2003.
On Cluster Validity and the Information
Need of Users. En Proceedings of the 3rd
IASTED, páginas 216–221, Anaheim, Calgary, Zurich, Septiembre. ACTA Press.
Ingaramo, D., G. Leguizamón, y M. Errecalde. 2005a. Adaptive clustering with artificial ants. Journal of Computer Science
and Technology, 5(04):264–271.
Stein, B. y O.Ñiggemann. 1999. On the
Nature of Structure and its Identification. volumen 1665 LNCS de Lecture Notes in Computer Science, páginas 122–134.
Springer, Junio.
Ingaramo, D., G. Leguizamón, y M. Errecalde. 2005b. Clustering dinámico con hormigas artificiales. En Proceedings of the
CACIC 2005.
62
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 63-70
recibido 22-05-2007; aceptado 22-06-2007
Integración de conocimiento en un dominio específico para
categorización multietiqueta
María Teresa Martín Valdivia
Universidad de Jaén
Campus Las Lagunillas, Edif. A3. E-23071
[email protected]
Manuel Carlos Díaz Galiano
Universidad de Jaén
Campus Las Lagunillas, Edif. A3. E-23071
[email protected]
Arturo Montejo Ráez
Universidad de Jaén
Campus Las Lagunillas, Edif. A3. E-23071
[email protected]
L. Alfonso Ureña López
Universidad de Jaén
Campus Las Lagunillas, Edif. A3. E-23071
[email protected]
Resumen: En este artículo se presenta un estudio sobre el uso e integración de una ontología en
un corpus biomédico. Nuestro objetivo es comprobar cómo afectan distintas maneras de
enriquecimiento e integración de conocimiento sobre un corpus de dominio específico cuando
se aplica sobre un sistema de categorización de textos multietiqueta. Se han realizado varios
experimentos con distintos tipos de expansión y con diferentes algoritmos de aprendizaje. Los
resultados obtenidos muestran una mejora en los experimentos que realizan expansión sobre
todo en los casos en los que se utiliza el algoritmo SVM.
Palabras clave: Ontología MeSH, corpus biomédico (CCHMC), categorización multietiqueta,
integración de conocimiento, aprendizaje automático
Abstract: In this paper, we present a study on the integration of a given ontology in a
biomedical corpus. Our aim is to verify the effect of several approaches for textual enrichment
and knowledge integration on a domain-specific corpus when dealing with multi-label text
categorization. The different reported experiments vary the expansion strategy used and the set
of learning algorithms considered. Our results show that for SVM algorithm the expansion
performed produces best results in any case.
Keywords: MeSH ontology, biomedical corpus (CCHMC), multi-label text categorization,
knowledge integration, machine learning.
1
Introducción
Las técnicas de procesamiento de lenguaje
natural se están aplicando cada vez con mayor
eficiencia en el dominio biomédico. Muchas
investigaciones recientes exploran el uso de
técnicas de procesamiento de lenguaje natural
aplicadas al dominio biomédico (Karamanis
2007, Müller et al 2006). La necesidad de
etiquetar y categorizar automáticamente textos
médicos se hace cada vez más evidente.
Es innegable la importancia en la
investigación y desarrollo de sistemas de
búsqueda y recuperación de información en el
ISSN: 1135-5948
dominio de la biomedicina que faciliten la
tareas de los especialistas dando soporte y
ayuda en su trabajo diario.
En este trabajo se presenta un estudio sobre
la influencia en un sistema de categorización de
una ontología específica del dominio
biomédico: la ontología MeSH (MeSH 2007).
Concretamente, se ha utilizado dicha ontología
para expandir los términos de un documento
que se quiere categorizar con el fin de mejorar
los resultados sobre un sistema categorizador
multi-etiqueta. Pensamos que la incorporación
de conocimiento mediante la integración de
recursos tales como las ontologías puede
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
María Teresa Martín Valdivia, Manuel Carlos Díaz Galiano, Arturo Montejo Ráez y L. Alfonso Ureña-López
mejorar significativamente los resultados
obtenidos con los sistemas de información.
Por otra parte, para llevar a cabo la
experimentación se han utilizado distintas
configuraciones tanto de algoritmos de
aprendizaje automático utilizados como de
parámetros para cada uno de ellos.
Concretamente, se ha utilizado el algoritmo
SVM (Support Vector Machine), una red
neuronal tipo perceptrón denominada PLAUM
y el algoritmo de regresión bayesiana BBR. Los
experimentos muestran que el uso de SVM
mejora los resultados prácticamente en todos
los casos.
El artículo se organiza de la siguiente
manera: en primer lugar, se describe
brevemente la tarea de categorización de textos
multietiquetados así como el sistema
categorizador
utilizado
TECAT.
A
continuación, se presentan los dos recursos
biomédicos integrados (el corpus CCHMC y la
ontología MeSH). En la siguiente sección se
muestran los experimentos y resultados
obtenidos. Finalmente, se comentan las
conclusiones y trabajos futuros.
2
Este sistema
puede basarse en el
anterior.
3. Clasificación
multi-etiquetado.
El
documento se etiqueta no con una única
clase, como en el caso anterior, sino
que puede tomar varias de entre las
categorías disponibles. Es el problema
más complejo, pero puede simplificarse
si utilizamos clasificadores binarios
cuya repuesta pueda combinarse (por
ejemplo, mediante un ranking de
clases) o entrenando sobre cada clase
un clasificador binario de repuesta
SI/NO (como el sistema que se
describe en este trabajo).
Hemos utilizado el software TECAT1, que
implementa un algoritmo para la clasificación
multi-etiqueta basado en clasificadores base
binarios. El algoritmo usado se muestra a
continuación (Algoritmo 1), y consiste en
entrenar un clasificador binario para cada clase
seleccionando aquel que mejor rendimiento
aporta dada una medida de rendimiento sobre el
que se evalúa al clasificador. Además, aquellas
clases para las que no es posible entrenar un
clasificador con un rendimiento mínimo se
descarta.
Categorización multietiqueta
La asignación automática de palabras clave a
los documentos abre nuevas posibilidades en la
exploración documental (Montejo, 2004), y su
interés ha despertado a la comunidad científica
en la propuesta de soluciones. La disciplina de
recuperación de información, junto con las
técnicas de procesamiento del lenguaje natural
y los algoritmos de aprendizaje automático son
el substrato de donde emergen las áreas de
Categorización
Automática
de
Textos
(Sebastiani, 2002). En esta última área de
investigación es donde se enmarca el presente
trabajo y donde vierte sus principales
aportaciones.
En la clasificación de documentos se
distinguen tres casos:
1. Clasificación binaria. El clasificador
debe devolver una de
entre dos
posibles categorías, o bien una
respuesta SI/NO. Estos son
los
sistemas más simples, y al mismo
tiempo los sistemas más conocidos en
Aprendizaje Automático.
2. Clasificación multi-clase. En este caso
el clasificador debe proporcionar una
categoría de entre varias propuestas.
Entrada:
un conjunto Dt de documentos multietiquetados para entrenamiento
un conjunto Dv de documentos de
validación
un umbral Į sobre la una medida de
evaluación determinada
un conjunto L de posibles etiquetas
(clases)
un conjunto $C$ de clasificadores
binarios candidatos
Salida:
un conjunto C' = {c1, ..., ck, ...,
c|L|} de clasificadores binarios
entrenados
Pseudo-código:
C' ĸ ø
Para-cada li en L:
T ĸ ø
Para-cada cj en C:
entrena(cj, li, Dt)
T ĸ T ‰ {cj}
Fin-para-cada
$cmejor ĸ mejor(T, Dv)
Si evalua(cmejor) > Į
C' ĸ C' ‰ {cmejor}
Fin-si
Fin-para-cada
Algoritmo 1. Entrenamiento de clasificadores base
1
Disponible en
http://sinai.ujaen.es/wiki/index.php/TeCat
64
Integración de Conocimiento en un Dominio Epecífico para Categorización Multietiqueta
3
utilizadas en la colección es 142.
Recursos utilizados
Nuestro objetivo principal consiste en estudiar
la influencia que tiene el uso de una ontología
médica sobre un corpus biomédico cuando se
desea desarrollar un sistema automático de
categorización de textos multi-etiquetados. Para
ello, hemos utilizado dos recursos que
describimos a continuación.
3.1
Clases
1
2
3
4
5
7
Corpus CCHMC
Documentos
389
368
162
46
12
1
Tabla 1. Número de clases asignadas por
documento
Se trata de un corpus desarrollado por “The
Computational Medicine Center”2. Dicho
corpus incluye registros médicos anónimos
recopilados en el departamento de radiología
del Hospital infantil de Cincinnati (the
Cincinnati Children’s Hospital Medical
Center’s Department of Radiology – CCHMC)
(CMC, 2007).
La colección está formada por 978
documentos
consistentes
en
informes
radiológicos que están etiquetados con códigos
del ICD-9-CM3 (Internacional Classification of
Diseases 9th Revision Clinical Modification).
Se trata de un catálogo de enfermedades
codificadas con un número de 3 a 5 dígitos con
un punto decimal después del tercer dígito. Los
códigos ICD-9-CM están organizados de
manera jerárquica en los que se agrupan varios
códigos consecutivos en los niveles superiores.
El número de códigos asignados a cada
documento varía de 1 a 7. La Tabla 1 muestra la
distribución del número de etiquetas por
documento. El total de etiquetas distintas
La Figura 1 muestra un ejemplo de
documento. Como se puede observar, la
cantidad de información suministrada en cada
documento es muy escasa pero muy relevante y
bien estructurada. La colección se encuentra
anotada manualmente por tres expertos. Por lo
tanto, en cada documento existen tres conjuntos
de anotaciones, una por cada uno de los
expertos. Adicionalmente, se ha añadido un
conjunto de etiquetas que unifica la mayoría de
los tres expertos. Por otra parte, cada informe
contiene dos partes de texto fundamentales: la
historia clínica y la impresión o diagnóstico del
médico.
3.2
Ontología MeSH
La ontología MeSH4 (Medical Subject
Headings) está desarrollada y mantenida por la
National Library of Medicine y se utiliza como
herramienta de indexación y búsqueda en temas
<doc id="97636670" type="RADIOLOGY_REPORT">
<codes>
<code origin="CMC_MAJORITY" type="ICD-9-CM">786.2</code>
<code origin="COMPANY3" type="ICD-9-CM">786.2</code>
<code origin="COMPANY1" type="ICD-9-CM">204.0</code>
<code origin="COMPANY1" type="ICD-9-CM">786.2</code>
<code origin="COMPANY1" type="ICD-9-CM">V42.81</code>
<code origin="COMPANY2" type="ICD-9-CM">204.00</code>
<code origin="COMPANY2" type="ICD-9-CM">786.2</code>
</codes>
<texts>
<text origin="CCHMC_RADIOLOGY" type="CLINICAL_HISTORY">
Eleven year old with ALL, bone marrow transplant on Jan. 2, now with
three day history of cough.</text>
<text origin="CCHMC_RADIOLOGY" type="IMPRESSION">
1. No focal pneumonia. Likely chronic changes at the left lung base.
2. Mild anterior wedging of the thoracic vertebral bodies.</text>
</texts>
</doc>
Figura 1. Ejemplo de documento de la colección CCHMC
2
3
http://www.computationalmedicine.org/
65
http://www.cdc.gov/nchs/icd9.htm
María Teresa Martín Valdivia, Manuel Carlos Díaz Galiano, Arturo Montejo Ráez y L. Alfonso Ureña-López
utilizado la ontología MeSH para expandir, con
información médica dichos documentos. Se
pretende incorporar información de calidad que
ayude a mejorar la categorización de
documentos.
relacionados con la medicina y la salud.
Consiste en un conjunto de unos 23.000
términos denominados descriptores que se
encuentran distribuidos de manera jerárquica
permitiendo la búsqueda a varios niveles de
Documento
MeSH
ul
Fever x5 days.
Findings consistent with viral
or reactive airway disease.
sl
ll
Expansión ul
Fever x5 days.
Expansión
Findings
consistent sl
with viral
or reactive airway disease.
Fever x5 days.
pathologic_processes
Expansión
Findings
consistent ll
with viral
body_temperature_changes
or
reactive
airway
disease.
Fever x5 days.
genomic_instability
Expansión
Findings
consistent ul-ll
with viral
acantholysis
or reactive airway disease.
hyperplasia
Fever x5 days.
fever_of_unknown_origin
growth disorders
Findings consistent with viral
syndrome
or reactive airway disease.
sweating_sickness
pathologic_processes
fever_of_unknown_origin
body_temperature_changes
syndrome
Figura 2. Estrategias de expansión con MeSH
Sin embargo, el uso indiscriminado de todos
los términos extraídos de la ontología pueden
empeorar
los
resultados
puesto
que
incorporarían demasiado ruido. Así se pone de
manifiesto por ejemplo en (Chevallet, Lim y
Radhouani, 2006) donde se demuestra que
seleccionar aquellas categorías de MeSH más
acordes a la temática de los documentos, mejora
la calidad de la expansión.
Con el fin de limitar el número de términos
expandidos, se ha filtrado el número de
categorías utilizadas para realizar la expansión.
Así, aunque el primer nivel de MeSH incluye
16 categorías generales, se han seleccionado
solo las siguientes tres:
especificidad. Un descriptor puede aparecer en
varias ramas.
Existen varios estudios que demuestran que
el uso y la integración de información
procedente de ontologías y recursos con un
vocabulario
controlado,
puede
mejorar
significativamente los sistemas de tratamiento
de información (Chevallet, Lim y Radhouani,
2006, Guyot, Radhouani, y Falquet, 2005,
Navigli,
Velardi
y
Gangemi,
2003).
Concretamente, nosotros haremos uso de la
ontología MeSH con el fin de expandir los
documentos del corpus CCHMC que se desean
categorizar. De esta manera, se pretende
incorporar conocimiento a la colección utilizada
con el fin de mejorar los resultados en un
sistema de categorización multietiqueta.
4
Descripción de los experimentos
4.1
Expansión con MeSH
Debido a que la cantidad de información en
cada documento de la colección es escasa, se ha
4
x
A: Anatomy
x
C: Diseases
x
E: Analytical, Diagnostic, and
Therapeutic Techniques and Equipment
El motivo para elegir precisamente estas tres
categorías es que el corpus incluye casos
clínicos
de
niños
con
enfermedades
relacionadas con el aparato respiratorio por lo
http://www.nlm.nih.gov/mesh/
66
Integración de Conocimiento en un Dominio Epecífico para Categorización Multietiqueta
que dichas categorías deberían incluir la
mayoría de los términos usados en el corpus.
Al realizar la expansión se busca el primer
nodo de la ontología que coincide con la
palabra a expandir. Una vez encontrado el
nodo, la selección de términos que formarán
parte de la selección se puede realizar de tres
maneras distintas (ver Figura 2):
x Upper level (ul): se selecciona el
término que está en un nivel
superior a dicho nodo, es decir, el
nodo padre.
x Same level (sl): se selecciona los
términos que están al mismo nivel
que dicho nodo, es decir, los nodos
hermanos.
x Lower level (ll): se seleccionan los
términos inmediatamente inferiores
de dicho nodo, es decir, los nodos
hijos.
x
Debido a que TECAT nos permite aplicar
varios algoritmos al mismo tiempo, hemos
estudiado las configuraciones siguientes:
x SVM-multi indica que se han pasado a
TECAT
varias
configuraciones
simultáneas del algoritmo SVM
(Joachims,
T.,
1998).
Estas
configuraciones son aquellas que dan un
peso adicional a los ejemplos positivos
(normalmente escasos) con los valores
1, 2, 5, 10 y 20, es decir, 5
configuraciones diferentes de SVM que
TECAT usará como clasificadores base
independientes.
x PLAUM-multi indica, también, varias
configuraciones para el perceptrón
PLAUM (Y. Li et al., 2002) con
pesados para ejemplos positivos en {0,
1, 10, 100} y pesados para negativos en
{-10, -1, 0, 1}. Esto implica pasar a
TECAT 16 configuraciones diferentes
de PLAUM simultáneamente.
x BBR-multi. De forma similar a los
anteriores, aquí el algoritmo BBR (A.
Genkin et al., 2006) ha sido
parametrizado con valores de umbral {0,
1, 2, 3, 4, 5} y valores de utilidad {0, 1,
2, 3}, si bien no se han analizado las
combinaciones de todos ellos, por lo que
las configuraciones consideradas han
sido 10 para este algoritmo.
Las configuraciones en las que intervienen
varias algoritmos combinados han sido
realizadas, bien usando la simple de cada uno
de ellos, bien la combinación de las múltiples
parametrizaciones comentadas en cada uno de
estos algoritmos.
Las palabras existentes dentro de los nodos
seleccionados para formar parte de la
expansión, han sido consideradas como
entidades. Por lo tanto, si un nodo contiene una
multipalabra (varias palabras separadas por
espacios), dichas palabras se han incluido en la
expansión formando un único término.
Con el fin de realizar un estudio para
comprobar el comportamiento del sistema con
varios tipos de expansión, se han diseñado
distintas
combinaciones
con
las
tres
expansiones anteriores. De esta forma, se han
generado expansiones del tipo: ul+sl, ul+ll,
ul+sl+ll… En la primera columna de la tabla 3
se pueden ver todas las expansiones realizadas.
4.2
Se ha normalizado usando la función
coseno.
Configuraciones de TECAT
Una vez realizada la expansión, cada
experimento se ha realizado ajustando los
distintos parámetros de TECAT:
x Se han eliminado las palabras vacías
(stop-words).
x Se han obtenido las raíces de las
palabras usando el stemmer de Porter
(Porter 1980).
x Se han filtrado las características así
obtenidas mediante ganancia de
información
(Shannon
1948),
limitándonos a considerar 50,000
características.
x Se ha usado un pesado según el esquema
TD.IDF.
5
Evaluación
Para evaluar los resultados se han usado
validación cruzada en 10 particiones. Es decir,
se ha dividido la colección en 10 particiones
diferentes. Se ha ido alternativamente tomando
una partición para test y el resto para
entrenamiento. Los resultados finales de
evaluación se calculan haciendo el promedio de
cada ejecución correspondiente a cada
participación. De esta forma se reduce el efecto
que la selección de un determinado grupo de
documentos para entrenamiento o evaluación
pudiera tener sobre el resultado final.
67
María Teresa Martín Valdivia, Manuel Carlos Díaz Galiano, Arturo Montejo Ráez y L. Alfonso Ureña-López
obtienen términos más generales que pueden
considerarse como puntos en común entre
documentos.
En cuanto a los algoritmos de aprendizaje
utilizados, se puede observar que la expansión
funciona en todos los casos excepto con la red
neuronal PLAUM cuyos resultados son mejores
sin ningún tipo de expansión.
Con las respuestas de un sistema de
clasificación automático, y disponiendo de las
predicciones reales que un experto humano
asignaría, podemos construir la siguiente tabla
de contingencia:
El sistema
dice SI
El sistema
dice NO
SI es correcto
A
NO es correcto
B
C
D
Tabla 2. Contingencias.
Las medidas consideradas son precisión (P),
cobertura (R) y F1, siendo ésta última la que
nos da una visión más completa del
comportamiento del sistema. Estas medidas han
sido obtenidas mediante micro-averaging, es
decir, calculando los aciertos y fallos en cada
clase de forma acumulativa y calculando los
valores
finales
sobre
dichos
valores
acumulados, tal y como se refleja en las
ecuaciones siguientes a partir de las medidas
correspondientes según la tabla de contingencia
anterior:
¦A
¦ A ¦B
cC '
c
cC '
SVM simple
SVM-multi
ll
ul
sl
ul-ll
ul-sl
ul-sl-ll
Sin expansión
0,724912
0,739461
0,734283
0,739327
0,726128
0,713533
0,737024
0,7675
0,7957
0,7697
0,7766
0,7669
0,7557
0,7699
Tabla 3. Expansión con SVM
c
PP
Tipo de
Expansión
c
Tipo de
Expansión
BBR simple
BBR multi
ll
ul
sl
ul-ll
ul-sl
ul-sl-ll
Sin expansión
0,7290
0,7267
0,7400
0,7314
0,74462
0,7253
0,7250
0,732330
0,734653
0,737367
0,744386
0,735738
0,737014
0,724841
cC '
¦A
¦ A ¦C
Tabla 4. Expansión con BBR
c
RP
cC '
c
cC '
F 1P
Tipo de
Expansión
c
cC '
ll
ul
sl
ul-ll
ul-sl
ul-sl-ll
Sin expansión
2 PP RP
PP RP
Los resultados obtenidos se pueden observar
en las tablas 3, 4, 5 y 6. Como se puede
observar, la integración de la ontología MeSH
mejora prácticamente en todos los casos
excepto para el caso de PLAUM, si bien con el
algoritmo SVM es con el que la mejora es
mayor. De hecho, como se muestra en la tabla
3, con la configuración SVM-multi se obtienen
los mejores resultados independientemente del
tipo de expansión realizada.
Si observamos los resultados desde el punto
de vista de la expansión de los documentos, el
método con unos resultados más homogéneos
es el que realiza la expansión con los nodos
padre (ul). Con este tipo de expansión se
PLAUM
simple
0,7284
0,7233
0,7163
0,7230
0,7213
0,7177
0,7323
PLAUM
multi
0,7228
0,7372
0,7262
0,7263
0,7210
0,7206
0,7311
Tabla 5. Expansión con PLAUM
68
Integración de Conocimiento en un Dominio Epecífico para Categorización Multietiqueta
Tipo de
Expansión
ll
ul
sl
ul-ll
ul-sl
ul-sl-ll
Sin expansión
SVM-BBRPLAUM simple
0,7562
0,7704
0,7642
0,7611
0,7513
0,7569
0,7478
Approach Mixed with Ontology Dimensions
for Medical Queries. Lecture Notes in
Computer Science. Volume 4022/2006.
Pages 642-651
SVM-BBRPLAUM multi
0,7490
0,7814
0,7633
0,7757
0,7719
0,7479
0,7682
CMC. 2007. The Computational Medicine
Center’s 2007 Medical Natural Language
Processing Challenge. Disponible en
http://www.computationalmedicine.org/
challenge/cmcChallengeDetails.pdf
Genkin, A., D.D. Lewis and D. Madigan. 2006.
Large-Scale Bayesian Logistic Regression
for Text Categorization. Technometrics
Tabla 6. Expansión combinando los tres
algoritmos utilizados
6
Guyot, J., Radhouani, S., y Falquet, G. 2005
Ontology-based multilingual information
retrieval. In CLEF Workhop, Working Notes
Multilingual Track, Vienna, Austria, 21–23.
September 2005.
Conclusiones y trabajos futuros.
En este trabajo se ha presentado un estudio
en categorización multietiqueta enriqueciendo e
integrado conocimiento. Para ello, se expande
el corpus utilizado (CCHMC) en el proceso de
categorización multietiqueta, con la ontología
médica MeSH.
Para realizar el estudio se ha utilizado un
categorizador multi-etiqueta TECAT disponible
libremente y que permite la configuración y
utilización simultánea de varios algoritmos de
aprendizaje. Nuestro trabajo utiliza SVM,
PLAUM y BBR además de una combinación de
ellos. Los resultados muestran la conveniencia
de integrar conocimiento externo proceden de
una ontología específica biomédica. Sin
embargo, las diferencias entre los distintos tipos
de algoritmos utilizados no son excesivamente
significativas.
En el futuro se pretende estudiar el uso de
otros tipos de expansión utilizando dicha
ontología, como por ejemplo la selección
automática de las categoría que se utilizan para
expandir, o el uso de sinónimos y palabras
similares en lugar de nodos padres y/o hijos.
Además se intentarán aplicar estas técnicas de
expansión a otro tipo de tareas textual para
comprobar el rendimiento de dicha técnica.
7
Joachims, T. 1998. Text categorization with
support vector machines: learning with
many relevant features. Proceedings
of
ECML-98, 10th European Conference on
Machine Learning, N. 1398, Springer
Verlag, pp. 137-142.
Karamanis, N. 2007. Text Mining for Biology
and
Biomedicine.
Computational
Linguistics. Volume 33. Pages 135-140.
Li, Y., H. Zaragoza, R. Herbrich, J. ShaweTaylor y J. Kandola. 2002. The Perceptron
Algorithm
with
Uneven
Margins.
Proceedings of the International Conference
of Machine Learning (ICML'2002).
MeSH. 2007. Medical Subject Headings.
Accesible
desde
la
página
web:
http://www.nlm.nih.gov/mesh/
Montejo-Ráez, A. y R. Steinberger. 2004. Why
keywording matters. High Energy Physics
Libraries Webzine. Num. 10. Diciembre.
Müller, H., T. Deselaers, T. Lehmann, P.
Clough y W. Hersh. 2006. Overview of the
ImageCLEFmed 2006 medical retrieval and
annotation tasks. Evaluation of Multilingual
and Multi-modal Information Retrieval –
Seventh Workshop of the Cross-Language
Evaluation Forum, CLEF 2006. LNCS 2006.
Agradecimientos
Este trabajo ha sido parcialmente financiado
por el Ministerio de Ciencia y Tecnología a
través del proyecto TIMOM (TIN2006-15265C06-03).
Navigli, R. Velardi, P. y Gangemi, A., 2003.
Ontology learning and its application to
automated
terminology
translation.
Intelligent Systems, volume 18, issue 1, pp
22-31.
Bibliografía
Chevallet, J. P., J. H. Lim y S. Radhouani.
2006. A Structured Visual Learning
69
María Teresa Martín Valdivia, Manuel Carlos Díaz Galiano, Arturo Montejo Ráez y L. Alfonso Ureña-López
Porter, M. 1980. An Algorithm for Suffix
Stripping. Program,Vol. 14 (3), pp. 130-137,
1980.
Sebastiani, F. 2002. Machine learning in
automated text categorization. ACM
Computing Survey, Vol. 34, Num. 1, pp. 147.
Shannon, C. E. 1948.A mathematical theory of
communication. Bell System Technical
Journal, vol. 27, pp. 379-423 y 623-656.
70
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 71-78
recibido 18-05-2007; aceptado 22-06-2007
Similitud entre documentos multilingües de carácter científicotécnico en un entorno Web
Xabier Saralegi Urizar
Elhuyar fundazioa
20170 Usurbil
[email protected]
Iñaki Alegria Loinaz
IXA taldea. UPV/EHU
649 p.k., 20080 Donostia
[email protected]
Resumen: En este artículo se presenta un sistema para la agrupación multilingüe de
documentos que tratan temas similares. Para la representación de los documentos se ha
empleado el modelo de espacio vectorial, utilizando criterios lingüísticos para la selección de
los palabras clave, la formula tf-idf para el cálculo de sus relevancias, y RSS feedback y
wrappers para actualizar el repositorio. Respecto al tratamiento multilingüe se ha seguido una
estrategia basada en diccionarios bilingües con desambiguación. Debido al carácter científicotécnico de los textos se han empleado diccionarios técnicos combinados con diccionarios de
carácter general. Los resultados obtenidos han sido evaluados manualmente.
Palabras clave: CLIR, similitud translingüe, enlazado translingüe, RSS
Abstract: In this paper we present a system to identify documents of similar content. To
represent the documents we’ve used the vector space model using linguistic knowledge to
choose keywords and tf-idf to calculate the relevancy. The documents repository is updated by
RSS and HTML wrappers. As for the multilingual treatment we have used a strategy based in
bilingual dictionaries. Due to the scientific-technical nature of the texts, the translation of the
vector has been carried off by technical dictionaries combined with general dictionaries. The
obtained results have been evaluated in order to estimate the precision of the system.
Keywords: CLIR, cross-lingual similarity, cross-lingual linking, RSS
1
Introducción
La cantidad de información textual publicada
en Internet es cada vez mayor, resultando su
grado de organización todavía deficiente y
caótico en muchos casos. Situándonos por
ejemplo en el contexto de los medios de
comunicación, observamos que los servicios
que se ofrecen actualmente para una
navegación
integrada
de
información
proveniente de distintas fuentes resultan
escasos, y más todavía cuando se trata de
información multilingüe.
ISSN: 1135-5948
Frente a este problema, proponemos una
navegación organizada en base a la semejanza
semántica entre contenidos, aplicada como
experiencia piloto en un entorno multilingüe de
sitios
web
de
noticias
científicas.
Concretamente, hemos centrado nuestro
experimento en el sitio web de divulgación
científica en euskera Zientzia.net, combinando
los siguientes idiomas: euskera, castellano e
inglés. Como resultado, Zientzia.net ofrecerá
para cada noticia publicada enlaces a otras
noticias relacionadas, pudiendo estar publicadas
en diferentes sitios web y distintos idiomas. El
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Xabier Saralegi y Iñaki Alegria
una colección previamente procesada por el
mismo, y se ha calculado la precisión
analizando manualmente los cuatro primeros
semejantes detectados automáticamente (cutoff
4).
objetivo final de este servicio es ofrecer al
lector una navegación más completa y
organizada. Una navegación similar a la
ofrecida por NewsExplorer (Steinberger,
Pouliquen y Ignatet, 2005) pero especializada
en contenidos científico-técnicos.
Con ese objetivo, se ha diseñado y
desarrollado un sistema (Fig.1) que abarca las
tareas de recopilación automática de noticias
procedentes
de
distintas
fuentes,
su
representación mediante un modelo algebraico,
y el cálculo de las similitudes entre documentos
escritos en el mismo o en distintos idiomas.
2
Obtención de documentos
Nuestro sistema se especializa en la recolección
e interrelación de documentos pertenecientes al
dominio científico-técnico dentro del genero
periodístico o divulgativo. Se ha confeccionado
una lista de sitios web referentes dentro de la
divulgación científica que sirvan de fuentes de
información.
Para la creación y continua actualización de
la colección de noticias provenientes de las
distintas fuentes, se ha implementado un lector
basado en sindicación RSS. Mediante la
sindicación RSS obtenemos de manera
periódica resúmenes de las noticias que se
publican en un determinado sitio-web. Los
resúmenes suelen contener adicionalmente el
título y la URL de cada noticia. Esto implica
que, si deseamos acceder al contenido de la
noticia, debemos acudir al documento HTML y
extraer su contenido.
Sin embargo esta última tarea no es trivial,
ya que el texto del contenido suele estar
mezclado con otros elementos textuales
añadidos -tales como menús de navegación,
publicidad, información corporativa...-. 1 Para
realizar esta limpieza se proponen generalmente
técnicas de carácter automático basadas en
aprendizaje supervisado (Lee, Kan y Lai, 2004),
pero los resultados no llegan a ser óptimos. Por
esa razón, y teniendo además en cuenta que la
lista de sitos web a tratar no es muy amplia,
hemos decidido implementar los wrappers de
manera manual. Concretamente se ha analizado
manualmente la estructura HTML de las
noticias publicadas en cada sitio web, y se han
Fig 1. Esquema del flujo de información
La recopilación automática de noticias
-tanto locales como remotas- la realiza un robot
basado en agregadores RSS y wrappers HTML.
La posterior representación de los documentos
se hace según el modelo de espacio vectorial.
Para la construcción de los vectores se
seleccionan las palabras clave siguiendo
criterios lingüísticos. Concretamente se escogen
nombres comunes, entidades y términos
multipalabra, y se calcula su relevancia según la
ecuación tf-idf. La traducción de los vectores
generados a partir de documentos escritos en
distintos idiomas se hace hacia el euskera, y se
utilizan tanto diccionarios técnicos como
diccionarios de carácter general. Para el
tratamiento de las traducciones ambiguas se ha
diseñado un sencillo y efectivo método.
Finalmente, el grado de similitud se estima
mediante el coseno entre los vectores.
Con el propósito de evaluar el sistema, se ha
escogido un grupo de documentos al azar de
1
Con el objetivo de impulsar trabajos enfocados
a la limpieza de documentos web SIGWAC ha
programado para Junio del 2007 una tarea
(CLEANEVAL) en formato de competición.
72
Similitud entre Documentos Multilingües de Carácter Científico-Técnico en un Entorno Web
implementado parsers empleando el modelo
XPath en base a los patrones observados en
cada sitio web.
La obtención de noticias publicadas se lleva
a cabo, por tanto, en dos pasos: Primero,
mediante el agregador RSS obtenemos los
metadatos de las noticias publicadas en unos
sitios web determinados y, a continuación,
extraemos el contenido textual del documento
HTML señalado en los metadatos mediante el
wrapper HTML correspondiente al sitio web.
Como paso añadido, debido a que algunos
sitios web publican noticias en varios idiomas,
detectamos el idioma del documento utilizando
LangId2. Esta identificación es necesaria para
poder determinar posteriormente el sentido en
el que será traducido el vector generado.
3
aportaría más que ruido para el caso que nos
ocupa: modelar el contenido semántico. Así, se
han seleccionado nombres comunes, entidades
y términos multipalabra. El caso de los
adjetivos y verbos no es claro (Chen y Hsi,
2002), y en nuestro caso su ausencia se debe
fundamentalmente a que, al estar poco
representados en los diccionarios técnicos
bilingües, su traducción resultaba limitada. De
todas formas, realizamos una serie de
experimentos (no concluyentes) que apuntaban
a que la no inclusión de verbos y adjetivos
implicaba una casi nula mejora en la detección
de documentos similares.
Los términos multipalabra en todos los
idiomas a tratar (euskera, inglés y castellano) se
han identificado a partir de una lista de
términos (Euskalterm3, ZT hiztegia4) sobre el
texto lematizado. Hemos descartado utilizar
técnicas
de
detección automática
de
terminología para evitar la generación de ruido
y también simplificar la posterior traducción
mediante diccionarios. Para el caso de la
identificación de entidades hemos utilizado un
heurístico sencillo pero a la vez eficiente en
cuanto a la precisión u omisión de ruido.
Concretamente se han marcado como entidades
las series de palabras escritas en mayúscula y
que, o son palabras desconocidas, o aparecen en
un repertorio de entidades monopalabra
previamente elaborado.
Para calcular la relevancia de cada palabra
clave se ha experimentado con distintas
variantes
de
tf-idf.
Según
nuestros
experimentos aplicando el logaritmo a tf (1)
Representación de los documentos
multilingües
En este trabajo se ha experimentado únicamente
con el modelo de espacio vectorial. Pese ha
existir modelos más avanzados (Ponte y Croft,
1998), hemos considerado que trabajar con este
modelo nos proporcionará un robusto prototipo
que podrá ser mejorado en el futuro.
Para la construcción de los vectores, hemos
partido de los documentos en formato texto que
en el sistema son suministrados según el
método explicado en el punto 2.1. Como
primer paso se ha realizado una selección del
léxico
representativo
según
criterios
lingüísticos. Para ello, previamente se ha
etiquetado automáticamente cada texto. El
etiquetado POS y lematizado se ha llevado a
cabo con las herramientas Eustagger para el
caso del euskera, y Freeling para el caso del
castellano e inglés. A partir del texto
lematizado se han podido identificar
determinadas unidades léxicas que hemos
estimado como más representativas del
contenido, descartando el léxico que no
tf-idf= log(tf) · idf
(1)
hemos obtenido mejores resultados, ya que
se ha observado que la similitud entre
3
Diccionario terminológico que contiene al
rededor de 100.000 fichas terminológicas en euskera
con equivalencias en español, francés, inglés y latín.
4
Diccionario enciclopédico de ciencia y
tecnología que consta aproximadamente de 15.000
entradas en euskera con equivalencias en español,
francés, inglés.
2
Un identificador de idioma basado en palabras y
frecuencias de trigramas desarrollado por el grupo
IXA de la UPV/EHU.
73
Xabier Saralegi y Iñaki Alegria
tratar “query expansión” en un entorno
monolingüe, ponderan según una estrategia
prudente las posibles traducciones de cada
palabra penalizando el peso tf-idf de todas si el
valor df de alguna de ellas es alto.
Un tipo de traducción basada en corpus es la
guiada por modelos estadísticos (Hiemstra,
2001). La traducción de los vectores se lleva a
cabo mediante el uso de un modelo de
traducción -entrenado a partir de un corpus
bilingüe en los idiomas a tratar-. De esta forma,
se obtiene la traducción del vector más
probable según el modelo de traducción y el
modelo de lenguaje del idioma objetivo.
De todas formas, tanto la cobertura como la
precisión de las técnicas mencionadas no son
óptimas. Esto hace que en el proceso de
traducción se pierda información -o se
introduzca ruido-, de forma que la
representación siempre vaya a ser inferior al
original. Con el objetivo de reforzar la
representación se pueden utilizar técnicas de
“query expansion”, de manera que se añadan
nuevas
palabras
clave
relacionadas
semánticamente con el conjunto de términos del
vector.
Otras técnicas que no necesitan de
traducción por ser independientes del lenguaje,
y que resultan apropiadas cuando los pares de
idiomas a tratar son muy numerosos, son todas
aquellas en las que la selección de palabras
clave del documento se realice mediante
lexicones o tesauros multilingües tales como
WordNet o Eurovoc. En (Steinberger,
Pouliquen y Hagman, 2002) por ejemplo, se
asignan descriptores independientes del idiomas
del tesauro Eurovoc a cada vector mediante un
modelo estadístico entrenado mediante
aprendizaje supervisado. WordNet, por
ejemplo, es utilizado en (Stokes y Carthy, 2001)
para representar los documentos mediante
cadenas léxicas.
documentos con muy pocas claves (con valores
tf-idf altos) en común obtenía puntuaciones
demasiado altas, generando en muchos casos
similitudes imprecisas (falsos positivos).
4
4.1
Similitud multilingüe
Medidas de similitud
Para el cálculo de la similitud entre documentos
representados según el modelo espacio
vectorial existen distintas métricas. La más
extendida es el coseno. Otras métricas también
utilizadas son Jackar, Dice... En el modelo
OKAPI se toma en consideración el tamaño del
documento y la colección proporcionando
mejores resultados. (Robertson et al., 1994)
Las métricas mencionadas son aplicables
directamente a vectores que representan textos
de un mismo idioma pero, para el caso de
vectores que corresponden a distintos idiomas,
es necesario realizar previamente un proceso de
traducción. Para llevar a cabo esa tarea dos son
las principales estrategias que se proponen en la
literatura: traducción del vector mediante un
modelo estadístico entrenado a partir de un
corpus bilingüe (Hiemstra, 2001) (basada en
corpus), o traducción del vector mediante
diccionarios bilingües (Pirkola, 1998) (basada
en diccionarios).
En la traducción mediante diccionarios la
traducción obtenida puede resultar muy ruidosa
ya que la traducción de una palabra resulta
ambigua en muchos casos. En tal caso, si
aceptamos todas las traducciones posibles y
calculamos su tf-idf según la frecuencia de la
palabra
original,
podemos
introducir
traducciones erróneas que desdibujan la
representación del documento original. Esto
resulta realmente peligroso ya que las
traducciones extrañas, al tener un alto idf,
pueden
fácilmente
distorsionar
la
representación del vector, y en consecuencia el
cálculo de similitudes. Como posible solución
se plantean las “consultas estructuradas”
(Pirkola, 1998). Originalmente pensadas para
74
Similitud entre Documentos Multilingües de Carácter Científico-Técnico en un Entorno Web
4.2
léxico especializado. Parece, por tanto, que el
uso de diccionarios técnicos es una estrategia
apropiada. Más aún si también tenemos en
cuenta su menor grado de ambigüedad medio
en las traducciones de las palabras clave (tabla
2).
Diccionarios
Para el caso de vectores en distintos idiomas
hemos seguido una traducción mediante
diccionarios bilingües.
Debido al carácter científico de los
documentos -es decir, un dominio amplio pero
acotado- hemos estimado apropiado el uso de
recursos lingüísticos específicos (Rogati y
Yang, 2004). Hemos combinado diccionarios
técnicos (Euskalterm, ZT hiztegia) con
diccionarios generales (Elhuyar5, Morris6). No
hemos hecho una traducción estadística basada
en corpus paralelos por falta de recursos. No
disponemos ni de corpus bilingües de carácter
científico para todos los pares de lenguas, ni de
un alineador a nivel de palabra de precisión
notable.
tf-idf en
medio
es
Dic.
técnicos
Dic.
generales
4.483
4.229
5.036
4.871
# traduc.
palabra
Dic.
técnicos
Dic.
generales
en->eu
1.72
2.827
es->eu
1.805
4.243
Tabla 2: Ambigüedad media en traducciones
De todas formas, hemos observado que la
cobertura respecto al léxico total podía tener
una incidencia negativa en la representación de
los textos, ya que algunas palabras generales
pueden jugar un papel representativo en los
documentos. Adicionalmente, la inclusión
exclusiva de palabras técnicas también
desfiguraba la dimensión del vector, debido a
que las demás palabras del documento no
estaban en modo alguno representadas.
Decidimos combinar de manera secuencial
los diccionarios técnicos con diccionarios de
carácter general. En la tabla 3 se puede
observar las coberturas para las palabras clave
(agrupadas en lemas) de una colección (tabla 4)
obtenidas con las distintas combinaciones de
diccionarios.
Tabla 1: tf-idf medio arit. para palabras clave
Mediante el uso de diccionarios técnicos
hemos logrado obtener un alto grado de
cobertura del léxico especializado. Justamente
el léxico que puede ser más representativo del
tema del documento. El la tabla 1 se muestra
los valores tf-idf de las palabras clave en inglés
con traducción en los diccionarios técnicos
frente a los tf-idf de las palabras clave con
traducciones contenidas en los diccionarios
generales. Las palabras clave se han agrupado
por lemas y provienen de una colección de
documentos reales (tabla 4). Se observa que,
según el valor medio aritmético tf-idf, el grado
de representatividad es ligeramente mayor en el
diccion.
técnicos
diccion.
general
diccion.
técnico +
general
en
55,52%
61,65%
74,48%
es
77,12%
89,02%
91,57%
Tabla 3: Cobertura para las palabras clave
5
Diccionario castellano/vasco que consta de
88.000 entradas, 144.000 acepciones y 19.000
subentradas.
6
Diccionario inglés/vasco que consta de 67.000
entradas y 120.000 acepciones.
75
Xabier Saralegi y Iñaki Alegria
4.3
5
Traducciones ambiguas
Como hemos comentado antes, la traducción
por medio de diccionarios conlleva una posible
ambigüedad que redunda en traducciones
incorrectas que desfiguran el vector traducido.
El uso de diccionarios técnicos reduce en
cierta medida este problema, ya que el nivel de
polisemia y ambigüedad en la traducción es
menor (tabla 2). Aun así, el ruido generado
sigue siendo un problema como hemos
comentado antes. Frente a ello, y teniendo
como prioridad la precisión de los resultados
del sistema final, planteamos una sencilla
estrategia de selección de traducción.
La selección se aplica cada vez que se
calcula la similitud (coseno) entre dos vectores
). Basándonos en
de distintos idiomas ( v y w
la hipótesis de que la probabilidad de que
muchas traducciones ( i , j D ) incorrectas
ocurran en el otro vector es baja, resolvemos la
desambiguación eligiendo para cada traducción
ambigua aquella que esté presente en el otro
vector:
cos v , tr(w)
i , j D v i w j v
w
Evaluación
En la evaluación hemos querido analizar
únicamente los resultados obtenidos en el
sistema final. Debido a la dificultad de calcular
la cobertura y, siendo la precisión el principal
requisito del sistema, hemos evaluado
únicamente esta última. Concretamente, hemos
calculado la precisión analizando por cada
documento de la colección sus cuatro primeros
semejantes según el sistema (cutoff).
La colección base de noticias se ha obtenido
y procesado mediante los procesos explicados
en los anteriores apartados. Consta de todos los
artículos publicados hasta la fecha en
Zientzia.net, y de artículos publicados en los
otros sitios web durante un periodo de un mes
(tabla 4). Aunque la idea del sistema es mostrar
los semejantes a partir de la navegación de los
documentos en euskera, la evaluación se ha
hecho en sentido inverso debido a la
superioridad numérica del los artículos de
Zientzia.net. De la otra forma, la probabilidad
de encontrar semejantes se reduciría
notablemente.
(2)
Así, evitamos el ruido que generaría la
inclusión de las traducciones incorrectas. Frente
al caso de utilizar técnicas de ponderación
equitativa de las traducciones, nuestra técnica
también se debe mostrar más efectiva en cuanto
a la precisión final, ya que el posible ruido
afectará solamente a parejas de documentos con
baja semejanza mutua. Como hemos dicho
anteriormente, suponemos que la probabilidad
de que muchas traducciones incorrectas
concurran en el otro vector es baja.
En el sistema, el cálculo de similitudes entre
documentos se realiza cada vez que el robot
recoge una nueva colección de noticias. Se
calculan las distancias entre los documentos
recientemente recogidos y los documentos de
Zientzia.net tanto nuevos como previamente
almacenados.
# docs
# palabras
# palab/doc
es
108
71.366
661
eu
3146
1.249.255
397
en
550
284.317
517
Tabla 4: Colección de noticias procesada
Para la evaluación formamos 3 grupos (uno
para cada idioma) de 10 documentos escogidos
aleatoriamente de la colección base. Tras
procesar toda la colección mediante el sistema
analizamos por cada documento los 4 primeros
más semejantes (de entre los de Zientzia.net)
según el sistema. El método de análisis
propuesto consistió en valorar el grado de
semejanza del contenido en base a una escala de
relevancia dividida en cuatro categorías y
76
Similitud entre Documentos Multilingües de Carácter Científico-Técnico en un Entorno Web
basada en el esquema utilizado en (Braschler y
Schäuble, 1998).
(a) Comparten el tema principal: Los
documentos hablan sobre el mismo
tema.
(b) Tema
principal
relacionado
o
comparten temas: Los documentos
tratan de temas muy relacionados o
mantienen en común temas no
principales.
(c) Comparten área: Los documentos
pertenecen ha una determinada área sin
llegar a ser general.
(d) Parecido remoto: Las relaciones entre
los documentos son remotas o
inexistentes.
De esta forma, se pretende valorar como
más positivas las relaciones de gran parecido.
Sabemos que esta escala es discutible, ya que
de cara al usuario puede ser más útil una
referencia que complemente el artículo en curso
que un artículo sobre el mismo tema. Además,
asignar a cada documento una categoría de esta
escala resulta en muchos casos una tarea de
difícil precisión.
El análisis fue llevado a cabo por un
profesional en el campo de la divulgación
científica, y se hizo para dos prototipos
distintos:
1) distribuyendo equitativamente el peso
entre las traducciones .
2) aplicando la desambiguación propuesta
anteriormente.
Quisimos comprobar si el método diseñado
para resolver casos de traducción ambiguos
mejoraba la precisión del sistema.
En las tablas 5, 6 y 7 se muestran las
distintas precisiones (cutoff 4) acumulando las
categorías según la escala de relevancia
comentada. Se observa que los resultados
varían según el idioma, siendo evidente la
perdida de información tras la traducción. Este
hecho influye en mayor medida a las relaciones
inglés-euskera debido a la menor cobertura de
los diccionarios bilingües inglés-euskera.
(a)
(a+b)
(a+b+c)
Desam.
10%
37.5%
82.5%
No desam.
10%
30%
70%
Tabla 5: Cutoff 4 en-es
(a)
(a+b)
(a+b+c)
Desam.
30%
37.5%
60%
No desam.
25%
32.5%
60%
Tabla 6: Cutoff 4 es-eu
(a)
(a+b)
17.5% 57.5%
(a+b+c)
85%
Tabla 7: Cutoff 4 eu-eu
Se ha observado que, quizás debido al
pequeño tamaño de la colección, documentos
con pocas palabras clave compartidos han sido
aceptados como similares.
En cualquier caso, el método diseñado para
resolver traducciones ambiguas mejora la
precisión en todas las pruebas.
Relacionado con el tamaño y la variedad del
contenido se ha observado que la precisión del
sistema es menor frente a documentos de algún
tema muy especial, resultando la comparación
léxica insuficiente. Esto puede ser debido al
reducido número de documentos, pero no ha
podido ser evaluado al no tener constancia de la
cobertura.
6
Conclusiones y trabajo futuro
Se ha desarrollado un sistema para la
agrupación de documentos multilingües de
contenido similar con el objetivo de integrarlo
en un un sistema CLIR. Esto ha dado lugar a un
sistema de navegación de noticias científicotécnicas multilingües, implantado en el sitio
Zientzia.net.
77
Xabier Saralegi y Iñaki Alegria
Los resultados obtenidos nos deben llevar a
realizar una evaluación más exhaustiva.
Independientemente de esto, se ha comprobado
que la traducción mediante diccionarios resulta
positiva, más concretamente con el uso los
diccionarios técnicos. El uso del método de
desambiguación propuesto también ha sido
exitoso, pero una nueva evaluación es necesaria
para cuantificar mejor la mejora conseguida.
Sería muy interesante evaluar la perdida de
precisión usando solamente resúmenes RSS, ya
que consiguiendo un buen resultado estas
técnicas podrían ser usadas para gran cantidad
de fuentes sin necesidad de utilizar wrappers.
También se pretende realizar nuevos
experimentos con modelos de lenguaje,
preguntas estructuradas y distintas medidas de
similitud. Adicionalmente queremos mejorar la
traducción de entidades mediante detección de
cognados, y la traducción general mediante
generación de tesauros multilingües a partir de
corpus comparables. De cara a algunas de estas
tareas pensamos basar el motor de búsqueda en
la herramienta Lemur toolkit (Ogilvie y Calla,
2001).
Lee, C. H., M. Kan, y S. Lai. 2004. Stylistic and
lexical co-training for web block
classification. WIDM 2004. 136-143
Ogilvie, P., y J. Callan. 2001. Experiments
using the Lemur toolkit. Proceedings of the
Tenth Text Retrieval Conference (TREC10).
Pirkola, A. 1998. The Effects of Query
Structure and Dictionary setups in
DictionaryBased
Cross-language
Information Retrieval. Proce. of the 21st
International ACM SIGIR Conference on
Research and Development in Information
Retrieval, pages 55-63.
Ponte, J., y W. Croft. 1998. A Language
Modeling
Approach
to
Information
Retrieval. In: Croft et al. (ed.): Proceedings
of the 21st Annual Interna- tional ACM
SIGIR Conference on Research and
Development in Information Retrieval, pages
275{281. ACM, New York.
Robertson, S. E., S. Walker, S. Jones, M.
Hancock-Beaulieu, M. Gatford. 1994. Okapi
at TREC-3. NIST Text Retrieval Conference.
Rogati, M., y Y. Yang. 2004. Resource
Selection for Domain Specific CrossLingual IR. SIGIR 2004.
Agradecimientos
Este trabajo está subvencionado por el
Departamento
de
Industria
del
Gobierno Vasco (proyectos Dokusare SA2005/00272, Dokusare SA-2006/00167).
Bibliografía
Steinberger, R., B. Pouliquen, y J. Hagman.
2002. Cross-lingual Document Similarity
Calculation
Using
the
Multilingual
Thesaurus EUROVOC. Third International
Conference on Intelligent Text.
Braschler, M., y P. Schäuble. 1998.
Multilingual Information Retrieval Based on
Document Alignment Techniques , ECDL
1998, pp. 183-197.
Steinberger, R., B. Pouliquen, y C. Ignat. 2005.
NewsExplorer: multilingual news analysis
with cross-lingual linking. Information
Technology Interfaces.
Chen, Y., y H. Hsi. 2002. NLP and IR
approaches to monolingual and multilingual
link detection. The 19th Int'l Conf.
Computational Linguistics. Taipei, Taiwan.
Stokes, N., y J. Carthy. 2001. Combining
Semantic
and
Syntactic
Document
Classifiers to Improve First Story Detection.
SIGIR 2001: 424-425.
Hiemstra, D. Using language models for
information
retrieval.
Ph.D.
Thesis
University of Twente. Enschede.
78
Extracción de Información
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 81-88
recibido 18-05-2007; aceptado 22-06-2007
The Influence of Context during the Categorization and
Discrimination of Spanish and Portuguese Person Names
Zornitsa Kozareva, Sonia Vázquez and Andrés Montoyo
Departamento de Lenguajes y Sistemas Informáticos
Universidad de Alicante
zkozareva,svazquez,[email protected]
Resumen: Este artı́culo presenta un nuevo método para la categorización y la
discriminación de nombres propios utilizando como fuente de información la similitud
semántica. Para establecer las relaciones semánticas entre las palabras que forman el
contexto donde aparece la entidad que queremos categorizar o discriminar, nuestro
método utiliza la semántica latente. Se han realizado diferentes experimentos donde
se ha estudiado la influencia del contexto y la robustez de nuestra aproximación
sobre distintos números de ejemplos. La evaluación se ha realizado sobre textos en
español y portugués. Los resultados obteniendos son 90 % para español y 82 % para
portugués en categorización y un 80 % para español y un 65 % para portugués en
discriminación.
Palabras clave: discriminación de nombres, categorización de nombres, información
semántica
Abstract: This paper presents a method for fine-grained categorization and discrimination of person names on the basis of the semantic similarity information. We
employ latent semantic analysis which establishes the semantic relations between
the words of the context in which the named entities appear. We carry out several
experimental studies in which we observe the influence of the context and the robustness of our approach with different number of examples. Our approach is evaluated
with Spanish and Portuguese. The experimental results are encouraging, reaching
90 % for the Spanish and 82 % for the Portuguese person name categorization, and
80 % for the Spanish and 65 % for the Portuguese NE discrimination of six conflated
names.
Keywords: name discrimination, name categorization, semantic information
1.
Introduction and Related Work
Named Entity (NE) recognition concerns
the detection and classification of names into
a set of categories. Presently, most of the successful NE approaches employ machine learning techniques and handle simply the person, organization, location and miscellaneous
categories. However, the need of the current
Natural Language Applications impedes specialized NE extractors which can help for instance an information retrieval system to determine that a query about “Jim Henriques
guitars” is related to the person “Jim Henriques” with the semantic category musician,
and not “Jim Henriques” the composer. Such
classification can aid the system to rank or return relevant answers in a more accurate and
appropriate way.
So far, the state-of-art NE recognizers
ISSN: 1135-5948
identify that “Jim Henriques” is a person,
but do not subcategorize it. There are numerous of drawbacks related to this fine-grained
NE issue. First, the systems need hand annotated data which is not available and its
creation is time-consuming and requires supervision by experts. Second, for languages
other than English there is a significant lack
of freely available or developed resources.
The World Wide Web is a vast, multilingual source of unstructured information
which we consult daily to understand what
the weather in our city is, how our favorite
soccer team performed. Therefore, the need
of multilingual and specialized NE extractors remains and we have to focus toward
the development of language independent approaches.
Together with the specialized NE catego-
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Zornitsa Kozareva, Sonia Vázquez y Andrés Montoyo
but still suffers in coverage.
However, none of these approaches studied the text cohesion and semantic similarity
between snippets with named entities. Therefore, we employ Latent Semantic Analysis
(LSA) which allows us to establish the semantic relations among the words that surround the named entity. Our motivation is
based on the words sense discrimination hypothesis of (Miller y Charles, 1991) according to which words with similar meaning are
used in similar context. For instance, names
that belong to the category sport will be more
likely to appear with words such as championship, ball, team, meanwhile names of university students or professors will be more
likely to appear with words such as book, library, homework.
rization, we face the problem of name ambiguity which is related to queries for different people, locations or companies that share
the same name. This problem is known as
name discrimination (Ted Pedersen y Kulkarni, 2005). For instance, Cambridge is a city
in United Kingdom, but also in the United
States of America. ACL refers to “The Association of Computational Linguistics”, “The
Association of Christian Librarians”, “Automotive Components Limited” among others.
Previously, (Ted Pedersen y Kulkarni,
2005) tackled the name discrimination task
by developing a language independent approach based on the context in which the ambiguous name occurred. They construct second order co-occurrence features according to
which the entities are clustered and associated to different underlying names. The performance of this method ranges from 51 % to
73 % depending on the pair of named entities that have to be disambiguated. Similar
approach was developed by (Bagga y Baldwin, 1998), who created first order context
vectors that represent the instance in which
the ambiguous name occurs. Their approach
is evaluated on 35 different mentions of John
Smith, and the f-score is 84 %.
For fine-grained person NE categorization,
(Fleischman y Hovy, 2002) carried out a supervised learning for which they deduced features from the local context in which the
entity resides, as well as semantic information derived from WordNet. According to
their results, to improve the 70 % coverage
for person name categorization, more sophisticated features are needed, together with a
more solid data generation procedure. (Tanev
y Magnini, 2006) classified geographic location and person names into several subclasses. They use syntactic information and
observed how often a syntactic pattern cooccurs with certain member of a given class.
Their method reaches 65 % accuracy. (Pasca,
2004) presented a lightly supervised lexicosyntactic method for named entity categorization which reaches 76 % when evaluated
with unstructured text of Web documents.
(Mann, 2002) populated a fine-grained
proper noun ontology using common noun
patters and following the hierarchy of WordNet. They studied the influence of the newly
generated person ontology in a Question Answering system. According to the obtained
results, the precision of the ontology is high,
2.
NE categorization and
discrimination with Latent
Semantic Analysis
LSA has been applied successfully in many
areas of Natural Language Processing such
as Information Retrieval (Scott Deerwester y
Harshman, 1990), Information Filtering (Dumais, 1995) , Word Sense Disambiguation
(Shütze, 1998) among others. This is possible
because LSA is a fully automatic mathematical/statistical technique for extracting and
inferring relations of expected contextual usage of words in discourse. It uses no humanly
constructed dictionaries or knowledge bases,
semantic networks, syntactic or morphological analyzes, because it takes only as input
raw text which is parsed into words and is
separated into meaningful passages. On the
basis of this information, the NLP applications extract a list of semantically related
word pairs or rank documents related to the
same topic.
LSA represents explicitly terms and documents in a rich, high dimensional space, allowing the underlying “latent”, semantic relationships between terms and documents to
be exploited. LSA relies on the constituent
terms of a document to suggest the document’s semantic content. However, the LSA
model views the terms in a document as
somewhat unreliable indicators of the concepts contained in the document. It assumes
that the variability of word choice partially
obscures the semantic structure of the document. By reducing the dimensionality of
the term-document space, the underlying, se82
The Influence of Context during the Categorization and Discrimination of Spanish and Portuguese Person Names
127079110 tokens. The Portuguese corpora
are Folha94-95 and Publico94-95, containing
90809250 tokens. These corpora were previously used in the CLEF competitions1 .
For the NE categorization and discrimination experiments, we used six different low
ambiguous named entities, which we assume
a-priory to belong to one of the two finegrained NE categories PERSON SINGER and
PERSON PRESIDENT. The president names,
both for Spanish and Portuguese are Bill
Clinton, George Bush and Fidel Castro. The
singers for Spanish are Madonna, Julio Iglesias and Enrique Iglesias, while for Portuguese we have Michael Jackson, Madonna
and Pedro Abrunhosa. Although we wanted
to use the same singer names for both languages, it was impossible due to the scatteredness in the example distribution.
Table 1 shows the original distribution of
the extracted examples with different context windows that surround the named entity. The context windows we worked with are
10, 25, 50 and 100. They indicate the number of words2 from the left and from the right
of the identified named entity. Note, that the
NE data is obtained only from the content
between the text tags in the xml documents.
During the creation of the context windows,
we used words that belong to the document in
which the NE is detected. This restriction is
imposed, because if we use words from previous or following documents, the domain and
the topic in which the NE is seen can change.
Therefore, NE examples for which the number of words from the left or from the right
did not correspond to the number of context
words were directly discarded.
To avoid imbalance in the experimental
data during the evaluation, we decided to create two samples, one with 100 and another
with 200 examples per named entity. Thus,
every name will have the same frequency of
occurrence and there will be no dominance
during the identification of a given name.
For the NE categorization data, each
occurrence of the president and singer
names is replaced with the obfuscated form
President Singer, while for the NE discrimination task, the names where replaces with
M EI JI BC GB FC. The first label indicates
that a given sentence can belong to the president or to the singer category, while the sec-
mantic relationships between documents are
revealed, and much of the “noise” (differences
in word usage, terms that do not help distinguish documents, etc.) is eliminated. LSA
statistically analyzes the patterns of word
usage across the entire document collection,
placing documents with similar word usage
patterns near to each other in the termdocument space, and allowing semanticallyrelated documents to be closer even though
they may not share terms.
Taking into consideration these properties
of LSA, we thought that instead of constructing the traditional term-document matrix, we
can construct a term-sentence matrix with
which we can find a set of sentences that are
semantically related and talk about the same
person. The rows of the term-sentence matrix
correspond to the words of the sentences in
which the NE have to be categorized or discriminated, while the columns correspond to
sentences with different named entities. The
cells of the matrix show the number of times a
given word occurs in a given sentence. When
two columns of the term-sentence matrix are
similar, this means that the two sentences
contain similar words and are therefore likely to be semantically related. When two rows
are similar, then the corresponding words occur in most of the same sentences and are
likely to be semantically related. In this way,
we can obtain semantic evidence about the
words which characterize given person. For
instance, a football player is related to words
as ball, match, soccer, goal, and is seen in
phrases such as “X scores a goal”, “Y is penalized ”. Meanwhile, a surgeon is related to
words as hospital, patient, operation, surgery
and is seen in phrases such as “X operates
Y ”, “X transplants”. Evidently, the category football player can be distinguished easily
from that of the surgeon, because both person name categories co-occur and relate semantically to different words.
3.
Named Entity Data Set
In order to evaluate our method, we have
used two languages: Spanish and Portuguese.
We collected large news corpora from the
same time period for both languages and
identified a predefined set of named entities on the basis of machine-learning based
named entity recognizer (Zornitsa Kozareva y Gómez, 2007). The Spanish corpus
we worked with is EFE94-95, containing
1
2
83
http://www.clef-campaign.org/
10, 25, 50 and 100 respectively
Zornitsa Kozareva, Sonia Vázquez y Andrés Montoyo
name lang
ES
M
PT
JI
ES
EI
ES
MJ
PT
PA
PT
ES
BC
PT
ES
GB
PT
ES
FC
PT
c10
280
1008
426
407
592
364
6928
3055
730
307
2865
3050
c25
266
975
405
392
568
347
5970
2951
649
300
2765
2951
c50
245
893
367
360
506
320
5271
2786
641
283
2779
2777
c100
206
758
295
305
418
275
5185
2576
521
242
2357
2460
Accuracy =
Fβ=1 =
ond label indicates that behind it can stand
one of the six named entities. The NE categorization and discrimination experiments
are carried out in a completely unsupervised
way, meaning that we did not use the correct
name and named category until the evaluation stage.
Experimental Evaluation
To carry out the various experimental
evaluations, first we construct the conceptual matrix and establish the semantic similarity relations among the sentences in the data
set. For each sentence, LSA produces a list
of the similarity between all sentences and
the target one e.g. the sentence to be classified. The list is ordered in descending order,
where high probability values indicate strong
similarity and cohesion between the text of
the two sentences and vice versa. Therefore,
we consider only the top twenty high-scoring
sentences, since their NEs will be very likely
to belong to the same fine-grained category
or person.
In order to evaluate the performance of
our approach, we use the standard precision,
recall, f-score and accuracy measures which
can be derived from Table 2.
number of
assigned PRES.
assigned SING.
Correct PRES.
Correct SING.
a
c
b
d
2 × P recision × Recall
P recision + Recall
(1)
(2)
For the assignment of the president and
singer categories, we took LSA’s list and
grouped together in a cluster all sentences
from the 20 most similar ones. In contrast,
for the NE discrimination task, we did not use
the whole list of returned sentences, since we
were interested in concrete NE with identical features and characteristics. For this reason, we decided that the most relevant information is contained in the first sentences at
the top of LSA’s list and rejected the rest
of the candidates. The information about the
named category or class was not revealed and
used until evaluation.
Our experiments are ordered according
to the conducted observations. The first one
concerns the effect of the context for the NE
categorization. This information is very important and beneficial, when annotated corpus has to be created. In this way we can
save time and labor for human annotators, or
can ease the supervision process after active
learning or bootstrapping (Kozareva, 2006).
Then, we observe the NE fine-grained classification and discrimination.
Table 1: NE distribution in the Spanish and
Portuguese corpora
4.
a+d
a+b+c+d
4.1.
Influence of context
Figures 1 and 2 present the performance
of our approach with different context windows. The evaluation is carried out with 100
and 200 examples per NE. For both samples and both languages (Spanish and Portuguese), the context windows perform almost the same.
This shows that on average with 2-3 sentences the context in which the name resides
can be captured together with the particular words that characterize and co-occurring
with the name.
4.2.
NE categorization
In Table 3, we show the results for the
Spanish and Portuguese NE fine-grained categorization. The detailed results are only for
the window of 50 words with 100 and 200 examples. All runs, outperform a simple baseline system which returns for half of the examples the fine-grained category PRESIDENT
and for the rest SINGER. This 50 % baseline
Table 2: Contingency table
84
The Influence of Context during the Categorization and Discrimination of Spanish and Portuguese Person Names
out that the PERSON PRESIDENT and
PERSON SINGER categories are distinguishable and separable because of the
well-established semantic similarity relation among the words with which the NE
co-occurres. A pair of president sentences
has lots of strongly related words such as
president:meeting,
president:government,
which indicates high text cohesion. While
the majority of words in a president–
singer pair are weakly related, for instance
president:famous, president:concert. But
still there are ambiguous pairs as president:company, where the president relates
to a president of a country, while the company refers to a musical enterprize. Such
information confuses LSA’s categorization
process.
Figure 1: Influence of context for Portuguese
and Spanish with 100 examples
4.3.
In a continuation, we present in Table 4
the performance of LSA for the NE discrimination task. The results show that this semantic similarity method we employ is very
reliable and suitable not only for the NE categorization, but also for the NE discrimination. A baseline which always returns one and
the same person name during the NE discrimination task is 17 %. From the table can be
seen that all names outperform the baseline.
The f-score per individual name ranges from
32 % as the lowest to 90 % as the highest performance. The results are very good, as the
conflated names (three presidents and three
singers) can be easily obfuscated due to the
fact that they share the same domain and
co-occur with the same semantically related
words.
The three best discriminated names for
Spanish are Enrique Iglesias, Fidel Castro
and Madonna, while for Portuguese we have
Fidel Castro, Bill Clinton and Pedro Abrunhosa. For both languages, the name Fidel
Castro was easily discriminated due to its
characterizing words Cuba, CIA, Cuban president, revolution, tyrant. All sentences having these words or synonyms related to them
are associated to Fidel Castro. Bill Clinton co-occurred many times with the words
democracy, Boris Yeltsin, Halifax, Chelsea
(the daughter of Bill Clinton), White House,
while George Bush appeared with republican,
Ronald Reigan, Pentagon, war in Vietnam,
Barbara Bush (the wife of George Bush).
Some of the examples for Enrique Igle-
Figure 2: Influence of context for Portuguese
and Spanish with 200 examples
performance is due to the balanced corpus we
have created. The f-scores for the fine-grained
NE categorization in Spanish reach around
90 %, while for Portuguese the f-scored varies
around 92 % for the 100 examples, and 76 %
for the 200 examples.
SPANISH
cont/ex Cat.
PRES.
50/100 SING.
PRES.
50/200 SING.
P.
90.38
87.94
90.10
94.04
R.
87.67
90.00
94.33
89.50
A.
88.83
88.33
91.92
91.91
F.
89.00
88.96
92.18
91.71
PORTUGUESE
cont/ex Cat.
PRES.
50/100 SING.
PRES.
50/200 SING.
P.
93.56
92.07
96.58
69.22
R.
92.00
56.50
56.50
97.83
A.
92.50
77.17
77.17
77.16
F.
92.53
71.29
71.29
81.07
NE discrimination
Table 3: NE categorization in Spanish and
Portuguese
During the error analysis, we found
85
Zornitsa Kozareva, Sonia Vázquez y Andrés Montoyo
name
lang
SP
Madonna
PT
Julio Iglesias SP
Enrique
SP
Iglesias
Pedro
PT
Abrunhosa
Michael
PT
Jackson
Bill Clinton SP
PT
George Bush SP
PT
Fidel Castro SP
PT
10
63.63
59.05
58.96
77.27
25
61.61
47.37
56.68
80.17
50
63.16
46.15
66.00
84.36
51.26
61.97
69.63 80.17
32.15
62.64 48.45
62.07
52.72
60.41
49.45
63.83
61.20
60.64
48.81
73.51
41.38
34.07
62.44
79.79
73.91
62.38
67.90
66.67
82.41
68.26
74.74
64.04
60.20
68.16
77.08
71.61
of the data source we work with. As there
is no hand-annotated NE categorization and
discrimination corpora, we had to develop
our own corpus by choosing low ambiguous
and well known named entities. Even though,
during our experiments we found out that one
and the same name refers to three different
individuals. From one side this made it difficult for the categorization and discrimination
processes, but opens new line for research.
In conclusion, the conducted experiments
revealed a series of important observations.
The first one is that the different context windows perform the same. However, for Spanish
better classification is obtained with larger
contexts, because this is related to the expressiveness of the Spanish language. Second, we
can claim that LSA is a very appropriate approximation for the resolution of the NE categorization and discrimination tasks. Apart
it gives logical explanation about the classification decision of the person names giving
a set of words characterizing the individual
persons or their fine-grained categories.
100
79.45
55.29
79.19
90.54
Table 4: NE discrimination for Spanish and
Portuguese
sias which during the data compiling were
assumed as the Spanish singer, in reality talk
about the president of a financial company in Uruguay or political issues. Therefore,
this name was confused with Bill Clinton as
they share semantically related words such
as bank, general secretary, meeting, decision,
appointment.
The discrimination process was good
though Madonna and Julio Iglesias are
singers and appear in the context of concerts, famous, artist, magazine, scene, backstage. The characterizing words for Julio Iglesias are Chabeli(the daughter of Julio Iglesias), Spanish, Madrid, Iberoamerican. The
name Madonna co-occurred with words related to a picture of Madonna, a statue in a
church of Madonna, the movie Evita.
Looking at the effect of the context window for the NE discrimination task, it can be
seen that for Spanish the best performances
of 90 % for Enrique Iglesias, 82 % for Fidel
Castro and 79 % for Madonna are achieved
with 100 words from the left and from the
right of the NE. In comparison for the Portuguese data, the highest coverage of 80 % for
Fidel Castro, 73 % for Bill Clinton and 62 %
for Michael Jackson are reached with the 25
word window. For the Spanish data, the larger context had better discrimination power,
while for Portuguese the more local context
was better.
The error analysis shows that the performance of our method depends on the quality
5.
Conclusions and Work in
Progress
In this paper, we present an approach for
NE categorization and discrimination, which
is based on semantic similarity information
derived from LSA. The approach is evaluated with six different low ambiguous person
names, and around 3600 different examples
for the Spanish and Portuguese languages.
The obtained results are very good and outperform with 15 % the already developed approximations. For the president and singer
NE categorization, LSA obtains 90 %, while
for the NE discrimination, the results vary
from 46 % to 90 % depending on the person name. The variability in the name discrimination power is related to the degree of
the name ambiguity. During the experimental evaluation, we found out that the 100 %
name purity (e.g. that one name belongs only to one and the same semantic category)
which we accept during the data creation in
reality contains from 5 to 9 % noise.
In (Zornitsa Kozareva y Montoyo, 2007a),
we have evaluated the performance of the
same approach but for the Bulgarian language. This proves that the approach is language independent, because it only needs a
set of context with ambiguous names. In this
experimental study, we have focused not only
86
The Influence of Context during the Categorization and Discrimination of Spanish and Portuguese Person Names
Kozareva, Zornitsa. 2006. Bootstrapping
spanish named entities with automatically generated gazetteers. En Proceedings of
EACL, páginas 17–25.
on the multilingual issues but also on the discrimination and classification of names from
the location and organization categories. The
obtained results demonstrate that the best
performance is obtained with the context of
50 words and the easiest category is the location one which includes cities, mountains,
rivers and countries. In general, the most difficult classification was for the organization
names.
In additional experimental study of (Zornitsa Kozareva y Montoyo, 2007b), we have
demonstrated that the combination of the
name disambiguation and fine-grained categorization processes can improve the quality
of the data needed for the evaluation of our
approach.
In the future, we want to resolve crosslanguage NE discrimination and classification. We are interested in extracting pairs of
words that describe and represent the concept of a fine-grained category such as president or a singer and in this way identify new
candidates for these categories. We will relate this process with an automatic population of an ontology. Finally, we want to relate
this approach with our web people search approximation (Zornitsa Kozareva y Montoyo,
2007c) in order to improve the identification
of the name ambiguity detection on the web.
Mann, Gideon. 2002. Fine-grained proper noun ontologies for question answering.
En COLING-02 on SEMANET, páginas
1–7.
Miller, George y Walter Charles. 1991.
Contextual correlates of semantic similarity. En Language and Cognitive Processes,
páginas 1–28.
Pasca, Marius. 2004. Acquisition of categorized named entities for web search. En
CIKM ’04: Proceedings of the thirteenth
ACM international conference on Information and knowledge management, páginas 137–145.
Scott Deerwester, Susan Dumais, George
Furnas Thomas Landauer y Richard
Harshman. 1990. Indexing by latent semantic analysis. En Journal of the American Society for Information Science, volumen 41, páginas 391–407.
Shütze, H. 1998. Automatic word sense discrimination. En Journal of computational
linguistics, volumen 24.
Acknowledgements
Tanev, Hristo y Bernardo Magnini. 2006.
Weakly supervised approaches for ontology population. En Proceeding of 11th
Conference of the European Chapter of
the Association for Computational Linguistics, páginas 17–24.
This research has been funded by
QALLME number FP6 IST-033860 and
TEXT-MESS number TIN2006-15265-C0601.
References
Ted Pedersen, Amruta Purandare y Anagha
Kulkarni. 2005. Name discrimination by
clustering similar contexts. En CICLing,
páginas 226–237.
Bagga, Amit y Breck Baldwin. 1998. Entitybased cross-document coreferencing using
the vector space model. En Proceedings of the Thirty-Sixth Annual Meeting
of the ACL and Seventeenth International
Conference on Computational Linguistics,
páginas 79–85.
Zornitsa Kozareva, Óscar Ferrández, Andrés
Montoyo Rafael Muñoz Armando Suárez
y Jaime Gómez.
2007.
Combining
data-driven systems for improving named
entity recognition. Data Knowl. Eng.,
61(3):449–466.
Dumais, Susan. 1995. Using lsi for information filtering: Trec-3 experiments. En The
Third Text Retrieval Conference (TREC3), páginas 219–230.
Zornitsa Kozareva, Sonia Vazquez y Andres
Montoyo. 2007a. A Language Independent Approach for Name Categorization
and Discrimination. En Proceedings of the
ACL 2007 Workshop on Balto-Slavonic
Natural Language Processing.
Fleischman, Michael y Eduard Hovy. 2002.
Fine grained classification of named entities. En Proceedings of the 19th international conference on Computational linguistics, páginas 1–7.
87
Zornitsa Kozareva, Sonia Vázquez y Andrés Montoyo
Zornitsa Kozareva, Sonia Vazquez y Andres
Montoyo. 2007b. Discovering the Underlying Meanings and Categories of a Name
through Domain and Semantic Information. En Proceedings of Recent Advances
in Natural Language Processing.
Zornitsa Kozareva, Sonia Vazquez y Andres
Montoyo. 2007c. UA-ZSA: Web Page
Clustering on the basis of Name Disambiguation. . En Proceedings of the 4th International Workshop on Semantic Evaluations.
88
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 89-96
recibido 17-05-2007; aceptado 22-06-2007
Studying CSSR Algorithm Applicability on NLP Tasks
Muntsa Padró and Lluı́s Padró
TALP Research Center
Universitat Politècnica de Catalunya
Barcelona, Spain
{mpadro, padro}lsi.upc.edu
Resumen: CSSR es un algoritmo de aprendizaje de automatas para representar
los patrones de un proceso a partir de datos sequenciales. Este artı́culo estudia la
aplicabilidad del CSSR al reconocimiento de sintagmas nominales. Estudiaremos la
habilidad del CSSR para capturar los patrones que hay detrás de esta tarea y en
que condiciones el algoritmo los aprende mejor. También presentaremos un método
para aplicar los modelos obtenidos para realizar tareas de anotación de sintagmas
nominales. Dados todos los resultados, discutiremos la aplicabilidad del CSSR a
tareas de PLN.
Palabras clave: Tareas seqüenciales de PLN, aprendizage de automatas, detección
de sintagmas nominales
Abstract: CSSR algorithm learns automata representing the patterns of a process
from sequential data. This paper studies the applicability of CSSR to some Noun
Phrase detection. The ability of the algorithm to capture the patterns behind this
tasks and the conditions under which it performs better are studied. Also, an approach to use the acquired models to annotate new sentences is pointed out and, at
the sight of all results, the applicability of CSSR to NLP tasks is discussed.
Keywords: NLP sequential tasks, automata acquisition, Noun Phrase detection
1
Introduction
Causal-State
Splitting
Reconstruction
(CSSR) algorithm (Shalizi and Shalizi,
2004) builds deterministic automata from
data sequences. This algorithm is based on
Computational Mechanics and is conceived
to model stationary processes by learning
their causal states. These causal states
build a minimum deterministic machine that
models the process. Its main benefit is that
it does not have a predefined structure (as
HMMs do) and that if the pattern to learn
is simple enough, the obtained automaton
is “intelligible”, providing an explicit model
for the training data.
CSSR has been applied to different research areas such as solid state physics (Varn
and Crutchfield, 2004) and anomaly detection in dynamical systems (Ray, 2004).
These applications use CSSR to capture patterns representing obtained data. These patterns are then used for different purposes.
This algorithm has been also used in the
field of Natural Language Processing (NLP)
to learn automata than can be afterwards
used to tag new data (Padró and Padró,
ISSN: 1135-5948
2005b; Padró and Padró, 2005a). This is
a slightly different use, as it is necessary to
introduce some hidden information into the
automaton. Furthermore, the alphabets involved in NLP tasks tend to be bigger than
the other CSSR applications presented. This
is a handicap when using CSSR for NLP
tasks, as we will discuss in this paper. Despite of that, the results obtained in first
experiments show that this technique can
provide state-of-the-art results in some NLP
tasks. Given these results, the challenge is to
improve them, developing systems rivalling
best state-of-the-art systems. To do so, more
information should be incorporated into the
system but, as it will be discussed in this paper, this can lead to other problems given the
nature of the algorithm.
The aim of this work is to study the ability
of CSSR to capture a model for the patterns
underlying NLP sequences structure, as well
as under which conditions it performs better. We focus on studying the models learned
by CSSR in NP detection with different data
rather than using CSSR to perform the annotating task, which was done in previous work.
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Muntsa Padró y Lluis Padró
2
Theoretical Foundations of
CSSR
alphabet symbol (a) at the beginning
of each suffix. The future distribution
for each son is computed and compared
to the distribution of all other existing
states. If the new distribution equals
(with a certain confidence degree α) to
the distribution of an existing state, the
suffix son is added to this state. Otherwise, a new state for the suffix son is
created.
The suffix length l is increased by one at
each iteration. This phase goes on until l reaches some fixed maximum value
lmax , the maximum length to be considered for a suffix, which represents the
longest histories taken into account. The
results of the system will be significantly
different depending on the chosen lmax
value, since the larger this value is, the
longer will be the pattern that CSSR will
be able to capture, but also the more
training data will be necessary to learn
a correct automaton with statistical reliability.
3. Recursion: Since CSSR models stationary processes, first of all the transient states are removed. Then the
states are splitted until a deterministic
machine is reached. To do so, the transitions for each suffix in each state are
computed and if two suffixes in one state
have different transitions for the same
symbol, they are splitted into two different states.
The CSSR algorithm (Shalizi and Shalizi,
2004) inferres the causal states of a process
from data in the form of Markov Models.
Thus, the many desirable features of HMMs
are secured, without having to make a priori assumptions about the architecture of the
system.
2.1
Causal States
Given a discrete alphabet Σ of size k, consider a sequence x− (history) and a random
variable Z + for its possible future sequences.
Z + can be observed after x− with a probability P (Z + |x− ). Two histories, x− and y − ,
are equivalent when P (Z + |x− ) = P (Z + |y − ),
i.e. when they have the same probability distribution for the future. The different future
distributions determine causal states of the
process. Each causal state is a set of histories
(suffixes of alphabet symbols up to a preestablished maximum length) with the same probability distribution for the future.
Causal States machines have many desirable properties that make them the best
possible representation of a process.They are
minimal and have sufficient statistics to represent a process, this is, from causal states
it is possible to determine the future for
a given past. For that reason we are interested in using these kind of machines in
NLP tasks. For more theoretical foundations
about causal states and their properties see
(Shalizi and Crutchfield, 2001).
2.2
The main parameter of this algorithm is
the maximum length (lmax ) the suffixes can
reach. That is, the maximum length of the
considered histories. In terms of HMMs, lmax
would be the potential maximum order of the
model (the learned automaton would be an
HMM of lmax order if all the suffixes belonged
to different states).
When using CSSR, it is necessary to reach
a trade off between the amount of data (N ),
the vocabulary size (k) and the used maximum length (lmax ). According to (Shalizi
and Shalizi, 2004), the maximum length that
can be used with statistical reliability is given
by the ratio log N/ log k.
The Algorithm
The algorithm starts by assuming the process
is an identically-distributed and independent
sequence with a single causal state, and then
iteratively adds new states when it is shown
by statistical tests that the current states set
is not sufficient. The causal state machine
is built in three phases briefly described below. For more details on the algorithm, see
(Shalizi and Shalizi, 2004).
1. Initialize: Set the machine to one state
containing only the null suffix. Set l = 0
(length of the longest suffix so far).
2. Sufficiency:
Iteratively build new
states depending on the future probability distribution of each possible suffix extension. Suffix sons (ax) for each
longest suffix (x) are created adding each
3
Chunking and NP Detection
This work focus on studying CSSR behaviour
when applied to NP detection. This section
presents an overview on this task.
90
Studying CSSR Algorithm Applicability on NLP Tasks
ciated to syntactic structure of the sentence,
etc. Depending on which patterns need to be
captured, different features of the words in
the sentence should be highlighted.
To use CSSR to learn these patterns, it is
necessary to define an alphabet representing
the desired features. These features may vary
depending on which structures we are really
interested in modelling. To learn NP patterns, the used features are the Part of Speech
(PoS) tags of words as syntactic structure of
sentences depends strongly on them.
The data used for NP detection are extracted from the English WSJ corpus (Charniak, 2000). This is a corpus with full parsing information, with eleven different chunk
types and a complete analysis of sentences.
though in this work just NP chunks information will be used. The alphabet used to
train CSSR consists of a symbol for each PoS
tag used in the corpus. The total number
of different tags is 44, but there are some
PoS tags that never appear inside any NP,
so these tags can be merged into one special
symbol. With this reduction, the alphabet
has 38 symbols.
This training corpus has about
1.000.000 words which means that
lmax < log N/log k = 3.8.
To learn an automaton representing NP
patterns it is necessary to distinguish the
words belonging and not belonging to a NP,
even if the PoS tag is the same. To do so
each word belonging to a NP is represented
by its PoS tag (a symbol of the alphabet)
and the words not belonging to NP chunks
are mapped into a special symbol. Figure 1
shows an example of how a sentence is translated into a sequence of alphabet symbols.
Text Chunking consists of dividing sentences into non-recursive non-overlapping
phrases (chunks) and of classifying them into
a closed set of grammatical classes (Abney,
1991) such as noun phrase, verb phrase,
etc. Each chunk contains a set of correlative
words syntactically related.
This task is usually seen as a previous step
of full parsing, but for many NLP tasks, having the text correctly separated into chunks
is preferred than having a full parsing, more
likely to contain mistakes. In fact, sometimes the only information needed are the
noun phrase (NP) chunks, or, at most, the
NP and VP (verb phrase) chunks. For that
reason, the first efforts devoted to Chunking were focused on NP-chunking (Church,
1988; Ramshaw and Marcus, 1995), others
deal with NP, VP and PP (prepositional
phrase) (Veenstra, 1999). In (Buchholz,
Veenstra, and Daelemans, 1999) an approach
to perform text Chunking for NP, VP, PP,
ADJP (adjective phrases) and ADVP (adverbial phrases) using Memory-Based Learning
is presented.
As most NLP tasks, Chunking can be approached using hand-built grammars and finite state techniques or via statistical models
and Machine Learning techniques. Some of
these approaches are framed in the CoNLL2000 Shared Task (Tjong Kim Sang and
Buchholz, 2000).
As the aim of this work is to study the viability of applying CSSR to NLP tasks, specially studying the patterns that CSSR is able
to learn, the performed experiments are focused on the task of detecting NPs, ignoring,
for the moment, the other kind of chunks.
4
Ability of CSSR to Capture NP
Models
Word
He
succeeds
Terrence
Daniels
,
formerly
a
Grace
chairman
.
This section presents the experiments performed using CSSR to capture the patterns
that form language subsequences as NPs.
The goal of these experiments is to see how
able is this method to infer automata that
capture phrase patterns, as well as to study
the influence of different lmax and amount of
training data on the learned automata.
The patterns that may be found in a
phrase, depend on the studied word features.
For example, there are some orthographical
patterns associated with punctuation marks
(e.g. after a dot a capitalized word is expected), other more complex patterns asso-
PoS Tag
PRP
VBZ
NNP
NNP
,
RB
DT
NNP
NN
.
Chunk Type
NP
VP
NP
none
ADVP
NP
none
Symbol
PRP
Out
NNP
NNP
Out
Out
DT
NNP
NN
Out
Figure 1: Example of a training sentence and
its translation to the alphabet
Sentences encoded in this way are the sequences used to train CSSR. The algorithm
91
Muntsa Padró y Lluis Padró
may to learn an automaton representing NP
chunks in terms of PoS tags.
Different automata with lmax from 1 to
4 were learned, but the obtained automata
are not readable, even when minimized 1 .
The number of states of the minimized automata varies from 34 for lmax = 1 to 1, 767
for lmax = 4.
Given the size of the obtained automata,
even after minimization, it is not possible to
qualitatively determine if the acquired automata appropriately models NP patterns,
so another method to qualitatively evaluate
how accurately the generated automaton represents the data was devised, as described in
next section.
4.1
distance between two distributions.
There are two main differences between
the rules generated by the CSSR automaton and the rules acquired from corpus annotations. On the one hand, there are rules
generated by CSSR automaton that are not
present in the corpus. This is due to the fact
that CSSR over-generalizes patterns from
data. On the other hand, there are some differences in frequencies of common rules, partially due to the probability mass given to
wrong rules. Both differences are captured by
Jensen-Shannon divergence. The smaller this
divergence is, the more similar to the original corpus grammar can the CSSR acquired
automata be considered.
The line labelled as “WSJ data” in Figure 2 shows the values of this divergence
for different lmax values. It can be seen
how Jensen Shannon divergence falls as lmax
grows. This is because the number of overgenerated patterns falls, what means that
CSSR generalizes better, as it may be expected. The difference in frequencies of common rules is also lower when using longer
histories. For lmax = 4 the divergence rises
again because there are not enough data to
learn an automaton with statistical reliability, so using CSSR with this length introduces
incorrect patterns.
Comparing Grammars to
Determine the Quality of
Learned Models
In order to obtain a qualitative evaluation of
the automaton acquired by CSSR for NPs,
we will compare it with the regular grammar
directly extracted from the syntactic annotations available in the WSJ training corpus.
The grammar obtained from the annotated corpus is regular, since the NP chunks
are never recursive and are formed only by
terminal symbols in this corpus. So, the
grammar consists of the different possible
PoS sequences for NPs observed in the corpus, with their relative frequencies.
On the other hand, the automaton learned
using CSSR can be used to generate the same
kind of patterns: using the transitions and
probabilities of the automaton, sequences of
PoS tags are generated. The subsequences
between two “Out” symbols are the NP patterns that CSSR has learned. These patterns, and their occurrence frequencies, are
extracted and compared with the grammar
acquired from WSJ annotations. The more
similar the set of rules produced by CSSR is
to the actual WSJ grammar behind the data,
the better we can consider the automaton is
modelling NP patterns.
To perform the comparison between these
two sets of patterns and its frequencies,
Jensen-Shannon divergence 2 (Lin, 1991) is
used. This divergence gives a measure of the
4.2
Generating Data to Study
CSSR Performance
One of the limitations of the study presented
in section 4.1 is that, given the size of the
alphabet, there are too few available data to
learn automata with large lmax . As discussed
above, the larger lmax that can be used with
WSJ data is 3, which may be too small to
capture long NP patterns.
In order to study the influence of the
amount of training data when using such a
big alphabet, new data was created in the
following way: using the WSJ corpus, which
has a complete syntactic analysis, a grammar can be extracted capturing the structure
of sentences (divided into different kind of
chunks and PoS tags) and of chunks (divided
into PoS tags). Each rule has a probability
depending on how many times it appears in
the training corpus. Using this grammar new
data can be generated applying rules recursively until a whole sentence is created.
The generated sentences, are parse trees
with the same chunk distribution than the
1
To minimize the automaton, the probabilistic information of transitions is ignored and a normal minimizing algorithm is applied
2
A symmetric distance derived from KullbackLeibler divergence.
92
Studying CSSR Algorithm Applicability on NLP Tasks
Distance between real and CSSR-generated grammar
0.08
WSJ data
1 milion words, no filter
50 milion words, no filter
1 milion words, filter 1%
50 milion words, filter 1%
1 milion words, filter 10%
50 milion words, filter 10%
0.07
Jensen Shannon Divergence
0.06
0.05
0.04
0.03
0.02
0.01
0
1
2
3
l max
4
5
Figure 2: Jensen Shannon divergence between CSSR generated set of rules and real grammar
for different values of lmax when using different filter levels of the grammar
original corpus. Then, the same method to
translate sentences to the NP alphabet described above is performed, and CSSR is used
to learn automata.
Note that the NP structures present in the
generated data will be the same that the ones
observed in real corpus, so creating data in
this way is quite similar to replicating the
real corpus many times. The aim of this is to
simulate that large amounts of data are available and to study the algorithm behaviour
under these conditions. In fact, replicating
the same data many times is equivalent to artificially simulate that the real data is more
significant, and we are interested in studying
the influence of doing so in CSSR automata.
Given the nature of the algorithm, repeating the observations N times changes the decision of splitting or not two histories because
the statistical significance of the observation
changes. This decision is performed using
χ2 statistics and the value of χ2 is multiplied by N when the data is increased by
this value. Thus, generating more data in
this way, equals to give more weight to the
available data, and the results will show that
this leads to learning automata that reproduce data patterns more accurately. The
same goal could be theoretically obtained by
adjusting the confidence level of the χ2 tests,
but we found this parameter to be less influent on CSSR behaviour.
The reason why in this work we generate
data using the grammar rather than replicating the corpus many times is that in this
way, experiments can be performed filtering
low-frequency rules to get rid of some of the
noise from the original corpus. Thus, before
generating the data using the learned grammar, the rules that appear less can be filtered
and a less noisy corpus can be created. In
this way the generated data is expected to
be more easily reproduced using CSSR.
The experiments were conducted using
different corpora generated with three different grammars: one with all rules learned
from WSJ (no filter), which is expected to
generate data similar to the WSJ corpus, and
two grammars with 1% and 10% of the probability mass filtered. This means that just
the most likely rules that sum the 99% or
90% of the mass are conserved.
Using these grammars three different corpora of 50 milions tokens were created. With
this amount of data lmax < log N/log k = 4.9
so the maximum usable length is 5. Also, a
subset of each corpus of 1 milion tokens was
used to perform more experiments, in order
to better study the influence of the amount
of training corpus.
Figure 2 shows the divergence between the
learned automata and the grammar used to
generate the corpus, without filtering and
with each of the two filters. For each filter
level there are two lines: one for the 1 milion
words generated corpus and one for the 50
93
Muntsa Padró y Lluis Padró
So, the performance of the system is limited
by the size of the training corpus.
The generated and not filtered data can
be considered equivalent to the real corpus.
Also, it can be seen that when using a big
amount of generated data the performance
is better than for the real data as the system can deal with longer lmax . When using
small lmax the difference between using 1 milion or 50 milion data is not significant. Furthermore, as it was expected, as the number
of filtered rules grows, the divergence falls,
being really small when lmax grows. This
means that the easier the patterns to learn
are, the better they are captured by CSSR. In
the case of filtered rules, the system also performs better with large lmax if enough data
is available.
Furthermore, in (Padró and Padró, 2005b)
similar experiments to those presented here
were performed for Named Entity Recognition (NER). In this case, the learned automata were readable when minimized, and
captured correctly the patterns of sentences
given the chosen sets of features. The conclusion was that CSSR was able to learn correctly the patterns of NEs with the chosen alphabet, what combined with the results presented in this work, can lead to the conclusion
that CSSR is a good method to capture language structures if enough data is available.
milion words. It can be seen that the results
obtained with both non-filtered corpora are
very similar to those obtained with WSJ corpus, specially the results obtained with the 1
milion corpus, as this is the size of WSJ. That
means that the generated corpus reproduces
accurately the NP patterns present in WSJ.
Also, it can be seen that the more rules are
filtered, the more similar is the learned automaton behaviour to the underlying grammar, since less noisy patterns are more easily
captured by CSSR.
These results also show that using more
training data enables CSSR to learn more
accurate automata for larger lmax . While
for low lmax values increasing the amount
of data doesn’t introduce significant differences, if enough data is available CSSR can
use larger lmax and infer more informed automata that reproduce better the grammar
behind the real corpus. Generating corpus
does not really introduce new patterns, but
simulates that the patterns present in real
data have more statistical significance.
4.3
Discussion
At the sight of the results, we can conclude
that CSSR is a good method for learning
patterns, even quite complicated patterns as
those of NPs, but it is highly dependent on
amount of available data. For each process,
there is a necessary lmax value that captures
the patterns, and if this value is big, large
corpus will be necessary. Furthermore, as
the minimum amount of data necessary to
learn an automaton with a determined lmax
depends exponentially on the alphabet size
(N > k lmax ), to be able to increase lmax in
1, it would be necessary to multiply the data
size by the size of the alphabet k.
For NP detection, CSSR generated automaton is not readable, but that doesn’t
mean that it doesn’t reproduces NP patterns
correctly. The automaton can be qualitatively studied comparing the patterns that it
generates with the patterns observed in the
training corpus. The more similar are the two
sets of patterns, the better is CSSR reproducing the patterns of the task. This comparison shows that for real data CSSR can
learn better patterns as lmax grows but due
to the limited amount of available data, for
lmax = 4 the divergence rises again, as there
is not enough data to learn an automaton reproducing corpus patterns with this length.
5
Applying CSSR to Annotating
Tasks
This work has focused on the ability of CSSR
to learn phrase patterns in terms of some selected sets of features, and has been seen that
CSSR can reproduce correctly the patterns of
some NLP structures.
Nevertheless, in these NLP tasks it is necessary not only to obtain generative phrase
models, but also to develop systems able to
annotate new sentences. To perform this tagging task, hidden information about where a
NP begins and ends must be taken into account. An usual approach is to encode this
information in “B-I-O” tags (Ramshaw and
Marcus, 1995): each word has a B, I or O tag,
where B stands for words at phrase (chunk
or NE) Beggining, I for words Internal to a
phrase, and O for words Outside a phrase.
When CSSR is to be used to annotate new
text, it is necessary to introduce this hidden
information into the system. In (Padró and
Padró, 2005b; Padró and Padró, 2005a) an
94
Studying CSSR Algorithm Applicability on NLP Tasks
experiments (without replicating the corpus)
to perform NER with CSSR were presented.
In those experiments the best parametrization led to a F1 of 88.96%. The system
with this parametrization, combined with the
NEC system used by the winner of CoNLL2002 shared task (Carreras, Màrquez, and
Padró, 2002), would situate our system in the
fifth position of the competition. This is not
a bad result, specially taking into account the
simplicity of the used features.
approach to use CSSR for NER and Chunking was presented, which will be summarized
here in order to discuss the applicability of
CSSR to NLP tasks.
The basic idea of the method is that it is
necessary to introduce into the alphabet the
hidden information of the tag (B, I or O).
To do so, each symbol encoding the features
previously selected (e.g. Σ = { DT , N N ,
N N P , etc. } for NP) is combined with each
possible B-I-O tag (Σ = { DTB , DTI , DTO ,
N NB , N NI , etc} ). Thus, each word in the
training corpus is translated to one of these
symbols forming the training sequence.
When a new sentence has to be tagged,
the part of the symbol related to context features is known (e.g. “DT ”, ‘N N ”, etc) but
the information about the correct B-I-O tag
is not available, so there are three possible
alphabet symbols for each word (e.g. DTB ,
DTI , DTO , if the visible part is a DT ).
To find the most likely tag for each word
in a sentence –that is, to find the most likely
symbol of the alphabet–, (e.g. DTB , DTI ,
DTO for a DT word) a Viterbi algorithm is
applied. For each word in a sentence, the possible states the automaton could reach if the
current word had the tag B, I, or O, and the
probabilities of these paths are computed. At
the end of the sentence, the best probability
is chosen and the optimal path is backwards
recovered. In this way, the most likely sequence of B-I-O tags is obtained.
5.1
5.2
Discussion
The results obtained on NP annotating task,
show that the problem with the necessary
amount of data becomes worse when trying
to use CSSR to tag new sentences.
First experiments with these kind of tasks
were promising, as the used approach was
very simple and the results were comparable
to state-of-the-art systems. Nevertheless, if
more information is to be included into the
system to try to improve obtained results, a
limitation will be found due to the amount of
necessary data. Furthermore, even if enough
data were available, a computational limitation will be found, specially in tasks such as
NP detection, where the alphabet is big and
lots of data have to be processed.
The main problem of this approach is that
to introduce the hidden information the alphabet size is multiplied by 3, what means
that the amount of data necessary to use
CSSR with the same lmax used without B-I-O
information is 3lmax times bigger than what
was needed before. If CSSR can learn an accurate automaton of length l using a training
corpus of N = k l words, N = (3k)l = N ∗ 3l
words will be necessary to perform the tagging task under the B-I-O approach.
Results on NP Detection
For NP detection experiments, CoNLL-00
shared task (Tjong Kim Sang and Buchholz,
2000) data are used. The training corpus
has about 200,000 words, and the best obtained F1 is 89.11% with lmax = 2. In fact,
in (Padró and Padró, 2005a) chunking with
all chunk types was performed, obtaining an
overall result of F1 = 88.20 which is comparable to last systems in the competition but
is quite far from best systems.
Furthermore, following the strategy depicted in section 4.2, we can force the statistical significance of hypothesis test by reproducing the data many times. Doing so
leads to a improvement of the results, obtaining F1 = 90.96 also with lmax = 2 when the
data is replicated 1000 times. So increasing
the significance of data leads to better results
when performing also annotating tasks.
Also, in (Padró and Padró, 2005b), similar
6
Conclusions and Future Work
A study of how CSSR is able to capture patterns in language has been presented. It
has been seen that this algorithm can learn
automata representing processes if there are
enough data available, or if the process is simple enough.
One of the main limitations of CSSR is
that it is useful to learn patterns, but it
is not directly prepared to introduce hidden information and to perform annotating
tasks. The approach presented in (Padró and
Padró, 2005b) gives reasonably good results
for NER but not so good results in NP detec95
Muntsa Padró y Lluis Padró
tion. This is because as the alphabet grows,
more than the available data would be necessary to learn an accurate automaton, and
the available corpus is not big enough.
The main conclusion of this work is that
CSSR can learn correctly the patterns of sequential data, specially if the data is not very
noisy, but that it is highly dependent on the
amount of data, the size of the alphabet and
lmax . Furthermore, this dependency is exponential, so to increase a little bit the performance of the system, it would be necessary
to magnify the amount of data. So, CSSR
can be useful when dealing with systems with
small alphabets –as in other applications of
CSSR such as those presented in (Varn and
Crutchfield, 2004; Ray, 2004)– but to use it in
systems with lots of features to be taken into
account, as NLP annotating tasks, a limitation due to the amount of available data will
be probably found.
In this line, the main future line devised
is to modify CSSR to be able to introduce
more information into the system. As the
alphabet size has to be small, our proposal
is to introduce all the features not encoded
in the alphabet via Maximum Entropy (ME)
models. Thus, the histories would consist of
sets of features, instead of suffixes, and CSSR
would build the causal states taking into account the probability of seeing a symbol after
a determined history, computing it using ME,
instead of taking into account just the simple
suffixes and its transition probabilities.
unrestricted text. In Proceedings of the 1st
Conference on Applied Natural Language
Processing, ANLP, pages 136–143. ACL.
Lin, J. 1991. Divergence measures based on
the shannon entropy. IEEE Transactions
on Information Theory, 37(1):145–151.
Padró, Muntsa and Lluı́s Padró. 2005a. Approaching sequential nlp tasks with an automata acquisition algorithm. In Proceedings of International Conference on Recent Advances in NLP (RANLP’05), Bulgaria, September.
Padró, Muntsa and Lluı́s Padró. 2005b. A
named entity recognition system based
on a finite automata acquisition algorithm. Procesamiento del Lenguaje Natural, (35):319–326, September.
Ramshaw, L. and M. P. Marcus. 1995.
Text chunking using transformation-based
learning. In Proceedings of the Third ACL
Workshop on Very Large Corpora.
Ray, Asok. 2004. Symbolic dynamic analysis
of complex systems for anomaly detection.
Signal Process., 84(7):1115–1130.
Shalizi, Cosma R. and James P. Crutchfield.
2001. Computational mechanics: pattern,
prediction strucutre and simplicity. Journal of Statistical Physics, 104:817–879.
Shalizi, Cosma R. and Kristina L. Shalizi.
2004. Blind construction of optimal nonlinear recursive predictors for discrete sequences. In Uncertainty in Artificial Intelligence: Proceedings of the Twentieth
Conference.
References
Abney, Steven. 1991. Parsing by Chunks.
R. Berwick, S. Abney and C. Tenny
(eds.) Principle–based Parsing. Kluwer
Academic Publishers, Dordrecht.
Tjong Kim Sang, Erik F. and Sabine Buchholz. 2000. Introduction to the conll-2000
shared task: Chunking. In Claire Cardie,
Walter Daelemans, Claire Nedellec, and
Erik Tjong Kim Sang, editors, Proceedings of CoNLL-2000 and LLL-2000, pages
127–132. Lisbon, Portugal.
Buchholz, Sabine, Jorn Veenstra, and Walter
Daelemans. 1999. Cascaded grammatical
relation assignment. In In Proceedings of
EMNLP/VLC-99, pages 239–246, University of Maryland, USA.
Varn, D. P. and J. P. Crutchfield. 2004.
From finite to infinite range order via annealing: The causal architecture of deformation faulting in annealed close-packed
crystals. Physics Letters A, 324:299–307.
Carreras, Xavier, Lluı́s Màrquez, and Lluı́s
Padró. 2002. Named entity extraction
using adaboost. In Proceedings of CoNLL
Shared Task, pages 167–170, Taipei.
Veenstra, J. 1999. Memory-based text
chunking. In Nikos Fakotakis (ed), Machine learning in human language technology, workshop at ACAI 99, Chania,
Greece.
Charniak, Eugene. 2000. Bllip 1987-89 wsj
corpus release 1. In Linguistic Data Consortium, Philadelphia.
Church, Kenneth W. 1988. A stochastic
parts program and noun phrase parser for
96
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 97-104
recibido 18-05-2007; aceptado 22-06-2007
Aprendizaje automático para el reconocimiento temporal
multilingüe basado en TiMBL∗
Marcel Puchol-Blasco
Estela Saquete Patricio Martı́nez-Barco
Dept. de Lenguajes y Sistemas Informáticos (Universidad de Alicante)
Carretera San Vicente s/n 03690 Alicante España
{marcel,stela,patricio}@dlsi.ua.es
Resumen: Este artı́culo presenta un sistema basado en aprendizaje automático para
el reconocimiento de expresiones temporales. El sistema utiliza la aplicación TiMBL,
la cuál consiste en un sistema de aprendizaje automático basado en memoria. La
portabilidad que presenta este sistema hacia otros idiomas nuevos posee un coste
muy reducido, ya que prácticamente no requiere de ningún recurso dependiente del
lenguaje (únicamente requiere un tokenizador y un desambiguador léxico categorial,
aunque la carencia del POS tagger no repercute mucho en los resultados finales del
sistema). Este sistema ha sido evaluado para tres idiomas distintos: inglés, español e
italiano. La evaluación realizada presenta resultados satisfactorios para corpus que
contienen un gran número de ejemplos, mientras que obtiene resultados bastante
pobres en aquellos corpus que contienen pocos ejemplos.
Palabras clave: información temporal, reconocimiento de expresiones temporales,
aprendizaje automático
Abstract: This paper presents a Machine Learning-based system for temporal expression recognition. The system uses the TiMBL application, which is a memorybased machine learning system. The portability of the system to other new languages
has a very low cost, because it does not need any dependent language resource (only
requires a tokenizer and a POS tagger, although the lack in POS tagger does not
have enough repercussions on the final system results). This sytems has been evaluated on three different languages: English, Spanish and Italian. The evaluation
results are quite successful for corpus having a lot of examples; however it obtains
very poor results with corpus that have only a few examples.
Keywords: temporal information, temporal expression recognition, machine learning
1.
Introducción
(AA).
El reconocimiento de expresiones temporales cobra cada dı́a más importancia como
tarea dentro del campo del Procesamiento del
Lenguaje Natural (PLN). La razón de su importancia reside en que se trata de un paso
previo a la resolución de expresiones temporales, tarea que puede utilizarse en otros campos del PLN tales como la Búsqueda de Respuestas Temporal, la realización de resúmenes, la ordenación de eventos, etc.
Como en casi todos los aspectos del PLN,
existen dos aproximaciones para el reconocimiento de expresiones temporales: los sistemas basados en conocimiento o reglas y los
sistemas basados en aprendizaje automático
∗
Esta investigación ha sido parcialmente financiada bajo los proyectos QALL-ME (FP6-IST033860), TEXT-MESS (TIN-2006-15265-C06-01) y
GV06/028; y bajo la beca de investigación BFPI06/182.
ISSN: 1135-5948
Una de las caracterı́sticas más importantes que deben presentar los sistemas actuales
de PLN es la facilidad de adaptación del sistema a nuevas lenguas. En este aspecto, los
sistemas basados en reglas poseen un gran
inconveniente, ya que el conjunto entero de
reglas debe reescribirse y adaptarse a la nueva lengua a tratar. Sin embargo, los métodos
de AA presentan una gran ventaja en este aspecto, ya que la adaptación a otras lenguas
requiere un coste menor que el de sistemas
basados en reglas, ya que, en caso de querer
adaptar varios sistemas basados en reglas, se
deberán de adaptar cada una de las bases de
conocimiento de estos sistemas, mientras que
si se desean adaptar varios sistemas basados
en AA, generando un sólo corpus anotado,
suele ser sufiente para adaptarlos todos. No
obstante, un inconveniente importante que
presentan estos sistemas reside en la necesi-
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Marcel Puchol-Blasco, Estela Saquete y Patricio Martínez-Barco
dad de un corpus anotado con las expresiones temporales en la nueva lengua a tratar,
el cual no siempre está disponible.
En anteriores publicaciones hemos tratado el tema de adaptar un sistema de resolución temporal basado en reglas para el español (TERSEO, mirar Saquete, Muñoz, y
Martı́nez-Barco (2005)), partiendo de la base
de la traducción de las reglas mediante métodos de traducción automática.
En la lı́nea de mejorar los resultados obtenidos anteriormente (89 % de medida F para
el inglés y 79 % de media F para el italiano),
y teniendo en cuenta los buenos resultados
ofrecidos por los sistemas de AA presentados en diferentes competiciones (tales como
el Time Expression Recognition and Normalization Workshop - TERN 20041 ), se ha decidido cambiar la metodologı́a empleada en
algunos módulos de TERSEO.
En este artı́culo presentamos la adaptación del módulo de reconocimiento de expresiones temporales utilizado por TERSEO a
métodos de AA. Para tal fin se ha decidido utilizar el sistema de AA TiMBL (Daelemans, Zavrel, y van der Sloot, 2004).
El artı́culo se estructura de la siguiente
manera: en la sección 2 se describe el sistema
de aprendizaje automático utilizado, la sección 3 describe el sistema implementado. La
siguiente sección define la evaluación del sistema en tres idiomas distintos y compara los
resultados con otros sistemas de AA y con
el sistema basado en reglas TERSEO. Finalmente, en la sección 5 se presentan las conclusiones y el trabajo futuro que se pretende
desarrollar en esta lı́nea de investigación.
2.
sido posible crear algunas de las caracterı́sticas utilizadas para el aprendizaje del sistema), ha sido seleccionado como aplicación de
aprendizaje automático para nuestro sistema.
Debido a ello, a continuación se presenta un
breve resumen de las caracterı́sticas de TiMBL.
2.1.
TiMBL
TiMBL (Tilburg Memory-based Learning
Environment) es una aplicación que implementa algunos algoritmos basados en memoria. Todos estos algoritmos tienen en común
que almacenan algún tipo de representación
del conjunto de entrenamiento explı́citamente en memoria en la fase de entrenamiento.
En la fase de evaluación, los nuevos casos se
clasifican mediante la extrapolación del caso
almacenado más similar.
El aprendizaje basado en memoria
(Memory-based learning - MBL, en inglés)
se fundamenta en la hipótesis de que el
rendimiento en tareas cognitivas se basa en
el razonamiento de las bases de interpretación de nuevas situaciones con respecto a
situaciones ya almacenadas en experiencias
anteriores, más que en la aplicación de
reglas mentales abstractas de experiencias
anteriores.
Un sistema MBL contiene dos componentes principales:
Componente de aprendizaje basado en
memoria, el cual se encarga de de guardar los ejemplos en memoria.
Componente de interpretación basado en
similitud, el cual utiliza como base el resultado del componente de aprendizaje
para poder clasificar los ejemplos propuestos. La similitud entre un ejemplo
propuesto y los ejemplos almacenados
en memoria en la fase de aprendizaje
se calcula mediante la distancia métrica (X, Y ) (mirar ecuaciones 1 y 2). Finalmente será el algoritmo IB1 el encargado de asignar la categorı́a al ejemplo
propuesto, seleccionando el más frecuente dentro del conjunto de ejemplos más
similares.
Sistema de aprendizaje
automático
Actualmente los sistemas de aprendizaje automático han tomado mucho auge en
el PLN. Debido a eso, muchos sistemas de
aprendizaje automático han sido desarrollados, ampliando el abanico de posibilidades a
la hora de seleccionar un sistema para un caso en particular.
Un sistema que ha obteniendo buenos resultados en aplicaciones destinadas al PLN
es TiMBL2 . Gracias a los buenos resultados
ofrecidos por este sistema y a la disposición
del API que presenta (gracias a esta API ha
1
(X, Y ) =
http://timex2.mitre.org/tern.html
2
http://ilk.uvt.nl/timbl/
n
i=1
98
δ(xi , yi )
(1)
Aprendizaje Atomático para el Reconocimiento Temporal Multilingüe basado en TiMBL
Documentos
aprendizaje y
evaluación
5. Reconocimiento de los posibles tokens
que sean disparadores temporales.
Segmentador + Tokenizador
Adaptación
de las ET
al formato
BIO
POS Tagger
6. Composición de las caracterı́sticas de entrenamiento si se trata de un documento. destinado a la fase de entrenamiento
o composición de las caracterı́sticas de
evaluación si se trata de un documento
destinado a la fase de evaluación.
Reconocedor
de disparadores
temporales
Composición de características
7. Clasificación de los ejemplos mediante
TiMBL.
Documentos de
evaluación
Documentos de
aprendizaje
Entrenamiento
de TiMBL
Modelo
TiMBL
8. Postprocesamiento de la salida de TiMBL.
Evaluación
de TiMBL
Tomemos como ejemplo la siguiente
oración:
Postproceso
del etiquetado
La alarma sonó <TIMEX2> cuatro horas antes de la explosión</TIMEX2>.
Documentos
de evaluación
etiquetados
con las ET
La oración se tokeniza, se utiliza un
PoS-tagger3 para obtener la categorı́a léxica
de cada token y se adaptan las expresiones
temporales al formato BIO (Begin - inicio
de la expresión temporal; Inside - dentro
de la expresión temporal; y Outside - fuera
de la expresión temporal), generándose una
distribución vertical como la que se muestra
a continuación:
Figura 1: Diagrama del sistema
⎧
⎨
δ(xi , yi ) =
3.
⎩
xi −yi
maxi −mini
0
1
si numérico, si no
si xi = yi
si xi = yi
(2)
La
alarma
sonó
cuatro
horas
antes
de
la
explosión
.
Descripción del sistema
El sistema propuesto en este artı́culo se
basa en la utilización del sistema de AA TiMBL (comentado en la sección 2.1) para aprender sobre el conjunto de ejemplos generados
para la fase de entrenamiento a partir de las
distintas caracterı́sticas seleccionadas y etiquetar, posteriormente, el conjunto de ejemplos generados para la fase de evaluación.
Para poder generar los ejemplos de entrenamiento y de evaluación se ha seguido la metodologı́a presentada en la figura 1.
Los pasos seguidos para el tratamiento de
los documentos son:
O
O
O
B
I
I
I
I
I
O
DA0FS0
NCFS000
VMIS3S0
Z
NCFP000
RG
SPS00
DA0FS0
NCFS000
Fp
A continuación se realiza el reconocimiento de los disparadores temporales, en el
cual se analiza token a token si pertenece o
no a la ontologı́a de disparadores temporales
siguiente:
Dı́a de la semana: lunes, martes, miércoles. . .
1. Segmentación del documento en oraciones.
Meses del año: enero (ene.), febrero
(feb.), marzo (mar.). . .
2. Tokenización de los elementos de la oración.
Estaciones del año: primavera, otoño, invierno o verano.
3. Extracción del POS de cada token.
Festividades: Navidad, Epifanı́a, Adviento, Halloween. . .
4. Adaptación de las expresiones temporales al formato BIO.
3
99
Etiquetador léxico categorial
Marcel Puchol-Blasco, Estela Saquete y Patricio Martínez-Barco
Palabras temporales: ayer, anteayer, hoy,
mañana, tarde, noche, anteanoche, tiempo, presente, pasado, futuro, hora, minuto, segundo. . .
Caracterı́sticas relacionadas con los
disparadores (DISP): BIGR(TOK−2
TOK−1 ), BIGR(TOK1 TOK2 ).
Caracterı́sticas relacionadas con ejemplos ya etiquetados en la oración
BIGR(ETIQ2
ETIQ3 ),
(ETIQ1 ):
BIGR(ETIQ−2 ETIQ−3 ).
Posibles preposiciones temporales: durante, entre, hasta. . .
Posibles adverbios temporales: antes,
después. . .
Caracterı́sticas
relacionadas
con
ejemplos
ya
etiquetados
en la
oración
(ETIQ2 ):
DISPx : ∃DISPx
∀x∈[ETini .,0]
.
T OKx : otrocaso
Números
Fechas simples: dd/mm/aaaa
El siguiente paso a realizar consiste en generar los ejemplos necesarios para que el sistema de AA aprenda de ellos. Para ello es necesario extraer una serie de caracterı́sticas de
las oraciones. Las caracterı́sticas que han sido
consideradas en este sistema pueden agruparse en:
Caracterı́sticas relacionadas con ejemplos ya etiquetados en la oración
/
(ETIQ3 ): ∀x∈[ETini .,0] T OKx siT OKx ∈
ST OP W ORDS.
Acrónimos utilizados: TOK (token), DISP
(disparador), ETIQ (elemento ya etiquetado), BIGR (bigrama). Posiciones utilizadas: 0
(posición actual), -x (x posiciones anteriores),
x (x posiciones posteriores), ETini (posición
de inicio de la expresión temporal actual).
Es importante remarcar que las caracterı́sticas relacionadas con ejemplos ya etiquetados reciben un tratamiento diferente en
la fase de entrenamiento y en la fase de evaluación. En la fase de entrenamiento sı́ se posee esta información, mientras que en la fase
de evaluación ha sido necesario realizar una
serie de cambios al funcionamiento normal de
TiMBL para poder tratar este tipo de caracterı́sticas. El siguiente algoritmo explica el
funcionamiento seguido para tratar este tipo
de caracterı́stica:
Caracterı́sticas relacionadas con el token (TOK): TOK0 , BIGR(TOK−1
TOK0 ),
BIGR(TOK0
TOK1 ),
BIGR(TOK−2 TOK−1 ), BIGR(TOK1
TOK2 ), SUF(TOK)2 , SUF(TOK)3 ,
PREF(TOK)2 , PREF(TOK)3 .
Caracterı́sticas relacionadas con los
disparadores (DISP): BIGR(DISP−1
DISP0 ), BIGR(DISP0 DISP1 ).
Caracterı́sticas relacionadas con los
ejemplos ya etiquetados de la oración
BIGR(ETIQ−2
(ETIQ):
ETIQ−1 ,
ETIQ−1 ),
ETIQ1 ,
BIGR(ETIQ1
ETIQ2 )4 .
Caracterı́sticas relacionadas con el POS:
POS1 .
Primera pasada - Descendente
Para cada ejemplo descendentemente
@num = CLASE[POS-num]
CAR[#num] = NADA
Clasificar
Guardar CA
Fin Para
NOTAS: TOK (token), DISP (disparador),
ETIQ (elemento ya etiquetado), BIGR (bigrama).
Sin embargo, éstas no han sido las únicas
que inicialmente se consideraron en el sistema. Las siguientes caracterı́sticas fueron consideradas como una posible mejora al sistema, pero al obtener peores resultados, se descartaron del sistema:
Segunda pasada - Ascendente
Para cada ejemplo descendentemente
@num = CLASE[POS-num]
#num = CLASE[POS+num]
Clasificar
Si CA = CAA entonces
Tercera pasada - descendente
POS3 = POS + 1
Hacer
Tomar ejemplo
Caracterı́sticas relacionadas con el token (TOK): BIGR(TOK−3 TOK−2 ),
BIGR(TOK2 TOK3 ).
4
Posteriormente se verá el tratamiento de este tipo
de caracterı́sticas
100
Aprendizaje Atomático para el Reconocimiento Temporal Multilingüe basado en TiMBL
@num = CLASE[POS3 -num]
#num = CLASE[POS3 +num]
Clasificar
POS3 ++
Mientras CA = CAA
Fin Para
de evaluación realizado, los corpus de entrenamiento y evaluación se han unido.
El corpus utilizado para el español se basa en una serie de documentos extraı́dos de
perı́odicos digitales en castellano utilizados
en anteriores evaluaciones del sistema TERSEO.
El corpus utilizado para el italiano se denomina I-CAB. Este corpus fue creado como parte del proyecto ONTOTEXT6 . Este
corpus está formado por documentos de noticias extraı́dos del perı́odico local L’Adige.
La anotación se ha llevado a cabo siguiendo
los estándares del programa ACE (Automatic
Content Extraction7 ) para la tarea de Reconocimiento y Normalización de Expresiones
Temporales (Ferro et al., 2005).
Las caracterı́sticas más importantes de estos tres corpus pueden verse en la tabla 1.
NOTAS: CA (clase asignada), CAA (clase
asignada anteriormente), @ (clase anterior),
# (clase posterior), CAR (caracterı́stica).
En la figura 2 puede verse un ejemplo de
una traza realizada para este algoritmo.
Una vez etiquetados todos los ejemplos, se
realizará un postproceso muy simple de coherencia de las etiquetas de salida del sistema
de AA. Este postproceso se basará en comprobar si existe alguna clasificación con etiqueta I que posea en la posición anterior la
etiqueta O y modificará esa etiqueta I por la
etiqueta B.
Una vez realizado todo este proceso, los
documentos de evaluación estarán etiquetados con las expresiones temporales.
4.
Idioma
Inglés
Español
Italiano
Resultados experimentales
4.2.
ET
4.728
431
4.548
Proceso de evaluación
Como ha sido comentado anteriormente,
se generaron una serie de caracterı́sticas iniciales sobre las que se realizó una selección
para obtener las mejores. Esta selección se
realizó según el método de Moreda y Palomar (2005), obteniendo aquellas que compondrı́an finalmente el sistema. Para aquellas caracterı́sticas relacionadas con la información léxico-categorial, se utilizó la herramienta FreeLing (Atserias et al., 2006).
La evaluación de los resultados de reconocimiento de expresiones temporales para los
distintos idiomas, teniendo en cuenta la medida obtenida por el scorer del TERN como
TIMEX28 y las caracterı́sticas seleccionadas
finalmente en el sistema, se muestra en la tabla 2, mientras que la medida obtenida por
el scorer del TERN como TIMEX2:TEXT9 ,
con las mismas caracterı́sticas, se muestra en
la tabla 3.
Corpora utilizado
El corpus utilizado para el inglés es el proporcionado en el TERN 20045 . Este corpus
está formado por documentos de noticias extraı́do de los periódicos, transmisiones de noticias y agencias de noticias. Para el proceso
5
TOK
196.473
39.719
204.185
Cuadro 1: Información sobre los corpora utilizados para evaluar el sistema
Ha decidido probarse el sistema en tres
idiomas distintos: inglés, español e italiano.
Para cada uno de estos idiomas se ha seleccionado un corpus etiquetado mediante etiquetas TIMEX2, los cuales serán detallados
a continuación. Debido a que la finalidad de
evaluar este sistema no se basa en comparaciones con los sistemas ya existentes, sino que
se intentan conseguir los mejores resultados
posibles, se ha utilizado el método de evaluación 3-fold cross validation. El sistema de evaluación utilizado para medir las prestaciones
del sistema es el proporcionado oficialmente
en el TERN, el cual se basa en un script desarrollado por el MITRE para la evaluación de
sistemas. Los resultados son mostrados utilizando valores de precisión y cobertura con
la métrica Fβ=1 . Finalmente se muestran las
conclusiones derivadas de los resultados obtenidos.
4.1.
DOCS
511
100
528
6
http://tcc.itc.it/projects/ontotext
http://www.nist.gov/speech/tests/ace
8
medida de comprobación de la detección de expresiones temporales
9
medida de la extensión de la ET (comprobación
de los lı́mites de las ET)
7
http://timex2.mitre.org/tern.html
101
Marcel Puchol-Blasco, Estela Saquete y Patricio Martínez-Barco
1a iteración
ascendente
PAL
X1
X2
X3
X4
X5
X6
X7
X8
CA
C1
C2
C3
C4
C5
C6
C7
C8
PAL
X1
X2
X3
X4
X5
X6
X7
X8
CA
C1
C2
C3B <>
C4 =
C5 =
C6 =
C7 =
C8 =
2a iteración
ascendente
(cont.)
3a iteración
descendente
2a iteración
ascendente
CAA
C1
C2
C3
C4
C5
C6
C7
C8
PAL
CA
C3B
C4B <>
C5B <>
C6 =
X4
X5
X6
X7
X8
CAA
C4
C5
C6
PAL
X1
X2
X3
X4
X5
X6
X7
X8
CA
C1 =
C2 =
C3B
C4
C5
C6
C7
C8
CAA
C1
C2
C3B
C4B
C5B
C6
C7
C8
Figura 2: Ejemplo de traza del algoritmo de caracterı́sticas relacionadas con ejemplos ya etiquetados
Caracterı́sticas
TOK
TOK+DISP
TOK+DISP+ETIQ
TOK+DISP+ETIQ+POS
Inglés
P
0.654
0.713
0.861
0.871
R
0.839
0.872
0.823
0.833
Castellano
P
R
0.503 0.683
0.541 0.795
0.742 0.673
0.744 0.708
F
0.735
0.784
0.841
0.851
F
0.579
0.642
0.705
0.725
Italiano
P
R
0.630 0.755
0.661 0.792
0.791 0.740
0.784 0.748
F
0.687
0.721
0.765
0.765
Cuadro 2: Resultados del sistema para TIMEX2
Como puede observarse, se ha realizado
una evaluación incremental del tipo de caracterı́sticas ejecutadas para demostrar el avance de las mismas. Las medidas mostradas en
las tablas corresponden a: P (Precisión), R
(Recall - Cobertura), F (medida F).
Como puede observarse, los resultados obtenidos en los idiomas en los que los corpora
poseen más ejemplos para el aprendizaje del
sistema, obtienen mejores resultados.
Otro factor importante es la incorporación
de las clasificaciones realizadas anteriormente, junto con el algoritmo de múltiples pasadas realizado para conocer, tanto las clasificaciones anteriores, como las posteriores. Como
puede observarse, este tipo de caracterı́sticas pueden mejorar los resultados del sistema
más de un 10 % de precisión. Sin embargo,
la incorporación de información del POS al
sistema mejora únicamente en un 1 %. Este
efecto plantea si es realmente necesario incorporar un recurso dependiente del lenguaje
(el POS tagger10 ) al sistema para obtener una
mejora tan ı́nfima.
4.3.
mas de aprendizaje automático, ya que otros
sistemas utilizan distintos tipos de métodos
de evaluación. Sin embargo, comparando este sistema con sistemas como el de Hacioglu, Chen, y Douglas (2005), podemos apreciar que el sistema presentado en este artı́culo
ofrece menores resultados de precisión y cobertura. Sin embargo, al analizar el método
utilizado para la evaluación se observa que
los resultados presentados en este artı́culo son
más contundentes, ya que consideramos que
el 3-fold cross validation proporciona unos resultados más fiables que los empleados en este artı́culo. Además, también se debe tener
en cuenta el tipo de requerimientos que posee un sistema y el otro. Mientras que este
sistema sólo necesita de un segmentador, un
tokenizador y un POS tagger, el otro sistema
necesita, además de lo mismo que este, de un
parser11 y un chunker12 .
Si comparamos los resultados obtenidos en
este artı́culo con los obtenidos anteriormente
en TERSEO (Saquete et al., 2006) apreciamos que los resultados para el inglés son bastante parecidos, mientras que para el italiano baja un poco la precisión. Sin embargo, al
compararlo con el idioma origen de TERSEO
Comparación con otros
sistemas
Debido al sistema de evaluación utilizado
(3-fold cross validation), no puede realizarse una comparación directa con otros siste10
11
Sistema que realiza un análisis sintáctico total de
la oración
12
Sistema que realiza un análisis sintáctico parcial
de la oración
Desambiguador léxico categorial
102
Aprendizaje Atomático para el Reconocimiento Temporal Multilingüe basado en TiMBL
Caracterı́sticas
TOK
TOK+DISP
TOK+DISP+ETIQ
TOK+DISP+ETIQ+POS
Inglés
P
0.563
0.596
0.756
0.766
R
0.722
0.731
0.723
0.733
F
0.633
0.657
0.739
0.749
Castellano
P
R
0.360 0.487
0.387 0.572
0.585 0.531
0.582 0.553
F
0.413
0.462
0.556
0.567
Italiano
P
R
0.524 0.628
0.546 0.655
0.667 0.625
0.664 0.633
F
0.571
0.596
0.646
0.648
Cuadro 3: Resultados del sistema para TIMEX2:TEXT
(mirar (Saquete, Muñoz, y Martı́nez-Barco,
2005)), el español, los resultados se inclinan
favorablemente hacia TERSEO, el cual obtiene un 80 % de precisión frente al 72 % obtenido por este sistema. Sin embargo, si tenemos
en cuenta los resultados obtenidos por este
sistema sin la necesidad de ningún recurso
dependiente del lenguaje (70 % de medida F)
y que TERSEO requiere de recursos dependientes del lenguaje para su funcionamiento
(TERSEO necesita un POS tagger), los resultados ofrecidos por este sistema son bastante satisfactorios en este aspecto. Además,
el coste asociado a la adaptación de TERSEO a otros lenguajes distintos del español
es mucho más grande que el asociado a este
sistema.
5.
SEO ofrezca mejores resultados. Es necesario
tener en cuenta que TERSEO depende de recursos lingüı́sticos dependientes del lenguaje,
muchos de los cuales no existen en determinados idiomas, mientras que en este sistema
estos recursos son prescindibles.
Como trabajo futuro, quieren realizarse
pruebas con otra serie de caracterı́sticas que
requieran de una mejor comprensión del texto. En concreto se desea utilizar información
sintáctica y semántica. Además, este sistema quiere incorporarse completamente como módulo de reconocimiento de expresiones
temporales de TERSEO. Además, siguiendo una estrategia similar, quieren realizarse pruebas de adaptación a la tecnologı́a de
aprendizaje automático en otros módulos dependientes del idioma de TERSEO. Finalmente se desea evaluar la combinación completa de TERSEO con los módulos de dependientes del sistema basados en aprendizaje
automático y los módulos independientes del
sistema, los cuales están basados en reglas,
comprobando la precisión final de TERSEO
tanto en reconocimiento como en resolución
de expresiones temporales.
Conclusiones y trabajo futuro
Se ha presentado un sistema basado en
aprendizaje automático basado en TiMBL
que posee un bajo coste de adaptabilidad a
otros idiomas, siempre y cuando exista un
corpus etiquetado con ETs en la lengua que se
desee tratar. Este sistema ha sido probado en
tres idiomas distintos: inglés, español e italiano. Los resultados obtenidos para los idiomas
que poseen un corpus con muchos ejemplos
en los que basarse el sistema de aprendizaje automático ofrecen resultados satisfactorios (en inglés, un 85 % para la evaluación
TIMEX2 y un 75 % para la evaluación TIMEX2:TEXT, mientras que en italiano, un
76 % para la evaluación TIMEX2 y un 65 %
para la evaluación TIMEX2:TEXT). Sin embargo, se ha comprobado como en corpus con
pocos ejemplos de los que aprender, se obtienen unos resultados bastante pobres (en español, un 72 % para la evaluación TIMEX2 y
57 % para la evaluación TIMEX2:TEXT).
Como puede comprobarse, estos resultados son favorables y suficientes para la incorporación de este sistema en el módulo de
TERSEO de reconocimiento de expresiones
temporales, pese a que el módulo de TER-
Bibliografı́a
Atserias, J., B. Casas, E. Comelles,
M. González, L. Padró, y M. Padró.
2006. Freeling 1.3: Syntactic and semantic services in an open-source nlp library.
En Proceedings of the 5th International
Conference on Language Resources and
Evaluation (LREC’06), páginas 48–55.
Daelemans, W., J. Zavrel, y K. van der Sloot.
2004. TiMBL: Tilburg Memory Based
Learner, version 5.1, Reference Guide. Ilk
research group technical report series, Tilburg. 60 pages.
Ferro, L., L. Gerber, I. Mani, B. Sundheim, y
G. Wilson. 2005. Tides.2005 standard for
the annotation of temporal expressions.
Informe técnico, MITRE.
103
Marcel Puchol-Blasco, Estela Saquete y Patricio Martínez-Barco
Hacioglu, Kadri, Ying Chen, y Benjamin
Douglas. 2005. Automatic time expression labeling for english and chinese
text. En Alexander F. Gelbukh, editor,
CICLing, volumen 3406 de Lecture Notes in Computer Science, páginas 548–559.
Springer.
Moreda, P. y M. Palomar.
2005.
Selecting Features for Semantic Roles in
QA Systems.
En Proceedings of Recent Advances in Natural Language Processing (RANLP), páginas 333–339, Borovets, Bulgaria, Septiembre.
Saquete, E., R. Muñoz, y P. Martı́nez-Barco.
2005. Event ordering using terseo system.
Data and Knowledge Engineering Journal,
página (To be published).
Saquete, Estela, Óscar Ferrández, Patricio
Martı́nez-Barco, y Rafael Muñoz. 2006.
Reconocimiento temporal para el italiano combinando técnicas de aprendizaje
automático y adquisicón automática de
conocimiento. En Proceedings of the 22nd
International Conference of the Spanish
Society for the Natural Language Processing (SEPLN).
104
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 105-112
recibido 18-05-2007; aceptado 22-06-2007
Alias Assignment in Information Extraction
Emili Sapena, Lluı́s Padró and Jordi Turmo
TALP Research Center
Universitat Politècnica de Catalunya
Barcelona, Spain
{esapena, padro, turmo}@lsi.upc.edu
Resumen: Este artı́culo presenta un método general para la tarea de asignación de
alias en extracción de información. Se comparan dos aproximaciones para encarar el
problema y aprender un clasificador. La primera cuantifica una similaridad global
entre el alias y todas las posibles entidades asignando pesos a las caracterı́sticas
sobre cada pareja alias-entidad. La segunda es el clásico clasificador donde cada
instancia es una pareja alias-entidad y sus atributos son las caracterı́sticas de ésta.
Ambas aproximaciones usan las mismas funciones de caracterı́sticas sobre la pareja
alias-entidad donde cada nivel de abstracción, desde los carácteres hasta el nivel
semántico, se tratan de forma homogénea. Además, se proponen unas funciones
extendidas de caracterı́sticas que desglosan la información y permiten al algoritmo
de aprendizaje automático determinar la contribución final de cada valor. El uso
de funciones extendidas mejora los resultados de las funciones simples.
Palabras clave: asignación de alias, extracción de información, entity matching
Abstract: This paper presents a general method for alias assignment task in
information extraction. We compared two approaches to face the problem and learn
a classifier. The first one quantifies a global similarity between the alias and all the
possible entities weighting some features about each pair alias-entity. The second
is a classical classifier where each instance is a pair alias-entity and its attributes
are their features. Both approaches use the same feature functions about the pair
alias-entity where every level of abstraction, from raw characters up to semantic
level, is treated in an homogeneous way. In addition, we propose an extended
feature functions that break down the information and let the machine learning
algorithm to determine the final contribution of each value. The use of extended
features improve the results of the simple ones.
Keywords: Alias Assignment, Information Extraction, Entity Matching
1
Introduction
Alias assignment is a variation of the entity matching problem. Entity matching decides if two given named entities in the data,
such as “George W. Bush” and “Bush”, refer to the same real-world entity. Variations in named entity expressions are due to
multiple reasons: use of abbreviations, different naming conventions (for example “Name
Surname” and “Surname, N.”), aliases, misspellings or naming variations over time
(for example “Leningrad” and “Saint Petersburg”). In order to keep coherence in extracted or processed data for further analysis,
to determine when different mentions refer to
the same real entity is mandatory.
This problem arises in many applications
ISSN: 1135-5948
that integrate data from multiple sources.
Consequently, it has been explored by a
big number of communities including statistics, information systems and artificial intelligence. Concretely, many tasks related
to natural language processing have been
involved in the problem such as question
answering, summarization, information extraction, among others. Depending on the
area, variants of the problem are known
with some different names such as identity uncertainty (Pasula et al., 2002), tuple matching, record linkage (Winkler, 1999),
deduplication (Sarawagi and Bhamidipaty,
2002), merge/purge problem (Hernandez and
Stolfo, 1995), data cleaning (Kalashnikov
and Mehrotra, 2006), reference reconciliation
(Dong, Halevy, and Madhavan, 2005), men-
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Emili Sapena, Lluis Padró y Jordi Turmo
tion matching, instance identification and so
others.
Alias assignment decides if a mention in
one source can be referring to one or more
entities in the data. The same alias can be
shared by some entities or, by the opposite,
it can be referring to an unknown entity. For
instance, alias “Moore” would be assigned to
the entity “Michael Moore” and also to “John
Moore” if we have both in the data. However, alias “P. Moore” can not be assigned to
any of them. Therefore, while entity matching problem consists of determining when two
records are the same real entity, alias assignment focuses on finding out whether references in a text are referring to known real entities in our database or not. After alias assignment, a disambiguation procedure is required to decide which real entity among the
possible ones is the alias pointing to in each
context. The disambiguation procedure, however, is out of the scope of this paper.
There is little previous work that directly
addresses the problem of alias assignment
as a main focus, but many solutions have
been developed for the related problem of entity matching. Early solutions employ manually specified rules (Hernandez and Stolfo,
1995), while subsequent works focus on learning the rules from training data (Tejada,
Knoblock, and Minton, 2002; Bilenko and
Mooney, 2003). Numerous solutions focus
on efficient techniques to match strings, either manually specified (Cohen, Ravikumar,
and Fienberg, 2003), or learned from training
data (Bilenko and Mooney, 2003). Some others solutions are based in other techniques
taking advantage of the database topology
like clustering a large number of tuples (McCallum, Nigam, and Ungar, 2000), exploiting links (Bhattacharya and Getoor, 2004)
or using a relational probability model to define a generative model (Pasula et al., 2002).
In the last years, some works take advantage of some domain knowledge at the semantic level to improve the results. For example,
Doan et al. (Doan et al., 2003) shows how
semantic rules either automatically learned
or specified by a domain expert can improve
the results. Shen et al. (Shen, Li, and Doan,
2005) use probabilistic domain constraints in
a more general model employing a relaxation
labeling algorithm to perform matching.
Some of the methods used for entity
matching are not applicable to alias assign-
ment because the information contribution of
the pair alias-entity is poorer than that of an
entity-entity pair. An alias is only a small
group of words without attributes and, normally, without any useful contextual information. However, using some domain knowledge, some information about the entities
and some information about the world, it is
possible to improve the results of a system
that uses only string similarity measures.
This paper presents a general method for
alias assignment task in information extraction. We compared two approaches to face
the problem and learn a classifier. The first
one quantifies a global similarity between the
alias and all the possible entities weighting
some features about each pair alias-entity.
The algorithm employed to find the best
weights is Hill Climbing. The second is a
classical pairwise classification where each
instance is a pair alias-entity and its attributes are their features. The classifier is
learned with Support Vector Machines. Both
approaches use the same feature functions
about the pair alias-entity where every level
of abstraction, from raw characters up to semantic level, is treated in an homogeneous
way. In addition, we propose a set of extended feature functions that break down the
information and let the machine learning algorithm to determine the final contribution
of each value. The use of extended features
improves the results of the simple ones.
The rest of the paper is structured as follows. In section 2, it is formalized the problem of alias assignment and its representation. Section 3 introduces the machine learning algorithms used. Next, section 4 presents
the experimental methodology and data used
in our evaluation. In section 5 we describe
the feature functions employed in our empirical evaluation. Section 6 shows the results
obtained and, finally, we expose our conclusions in section 7.
2
Problem definition and
representation
The alias assignment problem can be formalized as pairwise classification: Find a function
f : N × N → {1, −1} which classifies the pair
alias-entity as positive (1) if the alias is representing the entity or negative (-1) if not.
The alias and the entity are represented as
strings in a name space N . We propose a
variation of the classifier where we can use
106
Alias Assignment in Information Extraction
also some useful attributes we have about
the entity. In our case, function to find will
be: f : N × M → {1, −1} where M represents a different space including all entity’s
attributes.
We define a feature function as a function
that represents a property of the alias, the
entity, or the pair alias-entity. Once a pair
alias-entity is represented as a vector of features, one can combine them appropriately
using machine learning algorithms to obtain
a classifier. In section 3 we explain how
we learn classifiers using two different approaches. Most of the feature functions used
here are similarity functions which quantify
the similarity of the pair alias-entity according to some criteria. In a similarity function the returned value r indicates greater similarity in larger values while shorter values
indicates lower similarity (dissimilarity).
Feature functions can be divided in four
groups by its level of abstraction from raw
characters up to semantic level. In the lower
level, the functions focus on character-based
similarity between strings. These techniques
rely on character edit operations, such as
deletions, insertions, substitutions and subsequence comparison. Edit similarities find
typographical errors like writing mistakes or
OCR errors, abbreviations, similar lemmas
and some other difference intra-words.
The second level of abstraction is centered
in vector-space based techniques and it is also
known as token-level or word-level. The two
strings to compare are considered as a group
of words (or tokens) disregarding the order in
which the tokens occur in the strings. Tokenbased similarity metrics uses operations over
sets such as union or intersection.
In a higher level we find some structural
features similar to the work in (Li, Morie, and
Roth, 2004). Structural features encode information on the relative order of tokens between two strings, by recording the location
of the participating tokens in the partition.
The highest level includes the functions
with added knowledge. This extra knowledge can be obtained from other attributes of
the entity, from an ontology or can be knowledge about the world. Some previous works
(Shen, Li, and Doan, 2005; Doan et al., 2003)
use this extra knowledge as rules to be satisfied. First, rules are specified manually or obtained from the data, and then they need to
assign some weight or probability to each rule
and also distinguish hard rules from soft ones.
In (Shen, Li, and Doan, 2005) weights are established by an expert user or learned from
the same data set to classify. In our work,
we present another way to use this information. We propose to add more feature functions to increase the number of attributes for
our classifier. Each new feature function describes some characteristic of the alias, of the
entity, or of the pair alias-entity that needs
some extra knowledge. The contribution of
each feature will be learned as any other similarity function when some machine learning
method is applied.
3
Learning classifiers
Two approaches are used and compared in
order to obtain a good classifier using feature functions introduced above, Hill Climbing (Skalak, 1994) and Support Vector Machines (Cortes and Vapnik, 1995). Each one
has different points of view of the problem.
The first one, treats the problem as a nearest neighbor model and tries to determine
a global Heterogeneous Euclidean-Overlap
Metric (HEOM) from the target alias to all
the entities in the database. The alias will
be assigned to the entities with a HEOM
shorter than some cut-value. Each pair aliasentity has a HEOM composed by all the values of similarity. The second point of view
is a classical classifier based on the instance’s
attributes projected in a multidimensional
space. The classifier consist in an hyperplane
that separates samples in two classes. Each
pair alias-entity with the values of the feature functions as attributes is an instance for
the classifier that can be classified as positive
(matching) or negative (not matching).
The first point of view determines a
HEOM composed by the values returned by
the similarity functions. All the similarity
functions are normalized and transformed to
dissimilarities in order to obtain a small
value of HEOM when alias and entity are
similar and large value otherwise. HEOM is
obtained with all the dissimilarities weighted
in a quadratic summatory:
HEOM =
wi (di )2
i
where di is the dissimilarity corresponding to the similarity function i and wi is
the weight assigned to this value. Using a
107
Emili Sapena, Lluis Padró y Jordi Turmo
training data set, Hill Climbing determines
the best weight for each feature and the cutvalue in order to achieve the best possible
performance. The algorithm in each step increases and decreases each weight in a small
step-value and selects the modification with
best results. The process is repeated until no
modification is found to improve the result of
the current solution. The method is executed
several times starting with random weights.
Some of the advantages of Hill Climbing is
that it is easy to develop and can achieve
good results in a short time.
The second approach consist in a pair
alias-entity classifier using Support Vector
Machines (SVM) (Cortes and Vapnik, 1995).
SVM have been used widely as a classifier
(Osuna, Freund, and Girosi, 1997; Furey et
al., 2000). This technique has the appealing feature of having very few tunable parameters and using structural risk minimization which minimizes a bound on the generalization error. Theorically, SVM can achieve
more precise values than Hill Climbing (for
our task) because they search in a continuous
space while hill climbing is searching discrete
values. In addition, using kernels more complex than linear one, they might combine attributes in a better way. Moreover, statistical
learning avoids one of the problems of local
search, that is to fall in local minimums. In
the other hand, SVM computational cost is
higher than hill climbing.
4
aliases assigned by hand versus a database
with 500 football club entities. Some of them
are assigned to more than one club while
some others are not assigned because the referring club is not in our database. Each algorithm is trained and tested doing a fivefold cross-validation. Some examples of annotated corpus can be seen in table 1.
Several aliases found across the Web are
referring to organizations not included yet
in the database. Furthermore, for each
alias-entity matching sample (classified as
positive) we have almost 500 samples notmatching (classified as negative). This situation would drive accuracy always near 100%
even in a blind classifier deciding always negative. In order to have a reasonable evaluation only the set of positive predictions Mp
are used in evaluation and compared with
the set Ma of examples annotated as positive. The measures used are Precision (1),
Recall (2) and F1 (3). Only F1 values are
shown and compared in this paper.
P =
|Mp ∩ Ma |
|Mp |
(1)
R=
|Mp ∩ Ma |
|Ma |
(2)
2P R
.
P +R
(3)
F1 =
5
Experiments
We evaluated the task of alias assignment in
two experiments. In the first one, we compared the performance of Hill Climbing and
SVM using a set of similarity functions. The
second is focused on an improvement of feature functions breaking them down in several
values representing more specific aspects of
their characteristics.
Evaluation framework
We evaluated both algorithms in the alias assignment task with a corpus of organizations.
Developing an IE system in the domain of
football (soccer) over the Web, one of the
problems we found is that clubs, federations,
football players, and many other entities related with football have too long official or
real names. Consequently, some nicknames
or short names are used widely in either free
and structured texts. Almost all texts use
this short names to refer to the entities assuming that everyone is able to distinguish
which real entity is pointed. For instance, to
refer to “Futbol Club Barcelona”, its typical
to find “FC Barcelona” or “Barcelona”. We
based the results of this paper in our study in
the specific domain of football, however, we
are presenting a general method for the alias
assignment task useful in any other domain.
The corpus consist in 900 football club
5.1
Algorithm comparison
In the first approach, functions return a value
of similarity depending on some criteria. In
this case, we are trying to simplify the classification process including only the information we consider important. The larger number of features included, the longer takes an
algorithm to train and achieve good results.
Based in this principle, we tried to insert as
much information as we could in a few values.
The feature functions used in this first experiment (example in figure 1) are the following:
108
Alias Assignment in Information Extraction
Alias
Sydney FC
Man Utd
Nacional
Steaua Bucharest
Newcastle United
Krylya Sovetov
Assigned entities
Sydney Football Club
Manchester United Football Club
Club Universidad Nacional AC UNAM,
Club Deportivo El Nacional,
Club Nacional,
Club Nacional de Football
-not assigned Newcastle United Jets Football Club
Newcastle United Football Club
Professional Football Club Krylya Sovetov Samara
Table 1: Example of some pairs alias-entity in the football domain
entity name decrement the similarity as
is shown bellow:
5.1.1 Character-based
• Prefix and Suffix similarities count
the words of the alias that are the begin
(prefix) or the end (suffix) of a word in
the entity name.
Sim(A, B) = max(0,
• Abbreviations similarity. If a word
s in the alias is shorter than a word t
in the entity name they start with the
same character and each character of s
appear in t in the same order, the function concludes that s is an abbreviation
of t. For example “Utd” is an abbreviation of “United” and “St” is an abbreviation of “Saint”.
where Wa represents the words appearing in A but not in B and max function is
used taking care that similarity function
never returns a value lower than zero.
• Keywords similarity is another lexical similarity but avoiding typical domain related words. These kind of words
occur in several names and can cause a
good lexical similarity when the important words (keywords) are not matching.
For example, “Manchester United Football Club” and “Dundee United Football
Club” have a good lexical similarity but
bad keyword similarity because “football” and “club” are considered typical
domain-related words. It uses the same
formula as Lexical similarity but not including typical domain-related words in
A and B. Lexical similarity and Keywords similarity could be combined in a
lexical similarity weighted with TF-IDF.
However, the true contribution of each
token to similarity is domain-specific
and not always proportional to TF-IDF.
Some words have many occurrences but
are still important while some others appear few times but are not helpful at all.
5.1.2 Token-based
• Lexical similarity compares the words
between alias A and entity name B without case sensitivity. A classical lexical
similarity is:
Sim(A, B) =
|A ∩ B| − |Wa |
)
|A ∪ B|
|A ∩ B|
|A ∪ B|
where |x ∩ y| correspond to a function
that returns the number of coincidences
between words in x and y, and |x ∪ y|
symbolize the number of different words
in the union of x and y.
However, in the case of study, we know
that some word in the entity name may
not occur in the alias but, almost always,
if a word occur in the alias, it must be in
the entity name. In other words, an alias
use to be a reduced number of words of
the entity name. Although, it is difficult
to find an alias using words that do not
occur in the entity name (it is possible,
however). In order to take advantage of
this asymmetry in our lexical similarity,
words of the alias not appearing in the
5.1.3 Structural
• Acronyms similarity looks for a correspondence between acronyms in the
alias and capitalized words in the entity name. This feature takes care of
the words order because the order of
109
Emili Sapena, Lluis Padró y Jordi Turmo
Alias
Inter Milan
milarity function because we have more
information about the entity than only
the official name. In case we don’t have
this information the return value would
be zero.
Entity
Football Club Internazionale Milano s.p.a.
www.inter.it
Football typical word
abbreviation
Inter
5.2
Club typical word
The second experiment uses extended feature
functions. This means that most of the feature functions used previously are modified
and now they return more than one value
breaking down the information. The feature
functions are the same but returning a vector of values instead of one value. The classifier may use this extra information if it is
helpful for classification. For instance, lexical similarity now returns: number of words
in the alias, number of words in the entity
name and number of equal words. Combining these values the classifier can achieve a
function like our original lexical similarity or
maybe a better one.
In this second approach the target is to
compare the original feature functions with
the extended ones. We choose SVM for this
experiment because SVM can use polynomial
kernels that may combine attributes in a better way than a linear classifier. Consequently,
in this experiment we compare the best classifier obtained in the first experiment with
two SVM classifiers using the extended feature functions. One SVM will use a linear
kernel while the other will try to take advantage of a quadratic one.
Table 2 shows the modifications realized
in each feature function.
prefix
Internazionale
city
Milan
abbreviation
prefix
Milano
city
s.p.a.
city
Extended features
web
www.inter.it
Figure 1: Example of a pair alias-entity and
its active features
the characters in an acronym defines the
order that words must have in the entity name. An example of acronym is
“PSV” which match with “Philips Sport
Vereniging Eindhoven”.
5.1.4 Semantic
• City similarity returns 1 (maximum similarity) only when one word in the alias
correspond to a city, one word in the entity name corresponds to a city and both
are the same city. In other cases, returns
0 (no similarity). It can be useful when
some cities can have different names depending on the language. For instance,
“Moscow” and “Moskva” are the same
city or “Vienna” and “Wien”. This feature requires a world knowledge about
cities.
6
Results
In our first experiment described in section
5.1, we tried the two algorithms mentioned
above, Hill Climbing and SVM, with the feature functions described previously. Table 3
shows the results comparing it with a baseline
consisting of some simple rules using only lexical, keywords, acronyms and abbreviations
similarities.
The first aspect to emphasize is that
the baseline, a simple rule-based classifier,
achieves a F1 measure over 80%. This indicates that the alias assignment task has a
high percentage of trivial examples. The use
of machine learning and new features may
help with difficult ones. Actually, the results
show how machine learning algorithms significantly outperform the results obtained by
• Website similarity function compares
the alias with the URL of the organization’s website if we have it. Avoiding the
first TLD (.com, .de, .es) and sometimes
the second (.co.uk, .com.mx) its usual
for an organization to register a domain
name with the most typical alias for it.
The return value of this function is the
ratio of words of alias included in the
domain name divided by total number
of words in the alias. We can use this si110
Alias Assignment in Information Extraction
Feature
Prefix
Suffix
Abbrev.
Lexical
Keywords
Acronym
City
Website
Return Values
Pre1: # words in the alias that
are prefixes in the entity name
Suf1: # words in the alias that
are suffixes in the entity name
Abr1: # words in the alias that
are an abbreviation of a word in
the entity name
Lex1: # words in the alias
Lex2: # words in the entity
name
Lex3: # equal words
Lex4: # equal words case sensitive
Key1: # keywords int the alias
(words excluding typical domain
words (football, club, etc))
Key2: # keywords in the entity
name
Key3: # of equal keywords
Acr1: the alias have an acronym
(boolean)
Acr2:
the alias acronym
matches with capitalized words
in the entity name (boolean)
Acr3: # words in the alias without acronyms
Acr4: # words in the entity
name without words involved in
acronyms
Acr5: # equal words without
words involved in acronyms
Cit1: some word in the alias is
a city (boolean)
Cit2: some word in the entity
name is a city (boolean)
Cit3: both are the same city
(boolean)
Web1: The entity has a value in
the website field (boolean)
Web2: # words occurring both
in the alias and in the URL of
the entity
F1
Baseline
80.3
Hill Climbing
87.1
SVM
87.9
Table 3: Results of experiment (1) comparing
simple rule-based baseline with hill climbing
and SVM
Features
Algorithm
Kernel
F1
Simple
SVM
linear
87.9
Extended
SVM
SVM
linear quadratic
93.0
93.0
Table 4: Results of experiment (2) comparing
original features with extended features
rent kernels using extended features are compared with results obtained in the first experiment.
The results indicates that extended features outperform the original ones. In the
other hand, we can see that a quadratic kernel does not improve the results of the linear
kernel.
7
Conclusions
In this paper we have proposed a homogeneous model to deal with the problem of classifying a pair alias-entity into true/false categories. The model consists in using a set
of feature functions instead of the state-ofart approach based on distinguishing between
a set of lexico-ortographical similarity functions and a set of semantic rules.
Some experiments have been performed in
order to compare different configurations for
the proposed model. The configurations differ in the set of feature functions and in the
discretization strategy for feature weights.
Also, two learning techniques have been applied, namely, Hill Climbing and SVMs.
We have seen that Hill Climbing and SVM
perform similar. Both algorithms used has
some advantages and disadvantages. On one
hand, Hill Climbing is simple and fast but has
two drawbakcs. The first one is that it looks
for weights by steps and it causes that the
weights are always discrete values decreasing sometimes the final accuracy. The other
drawback is that local search can fall in local
minima. Although, it may be palliated by
executing the algorithm several times starting with random values. On the other hand,
SVM work in a continuous space and learn
statistically which avoids the two drawbacks
Table 2: Extended features used in the second experiment
the baseline. In the other hand, we find that
perform of Hill Climbing and SVM are similar. SVM seems to achieve better results but
the difference is not significant since the confidence interval at 95% significance level is
0.8%.
In the second approach we wanted to use
the power of SVM combining features and we
break down the components of feature functions as explained in section 5.2. SVM may
use this extra information if it is helpful for
classification. In table 4 two SVM with diffe111
Emili Sapena, Lluis Padró y Jordi Turmo
of hill climbing. Although, SVM take longer
to be tuned correctly.
In the second experiment, since SVM can
handle richer combinations of features when
using polynomial kernels, we tested SVMs
using a linear kernel and a quadratic one,
obtaining similar results. The feature set
used in this experiment was a refinement of
the previous one, that is, the features contained the same information, but coded with
finer granularity. The results pointed out
that although the similarity functions used
in the first approach produced accurated results, letting the SVM handle all the parameters results in a significative improvement.
the 1995 ACM SIGMOD international conference on Management of data, pages 127–138,
New York, NY, USA. ACM Press.
Kalashnikov, Dmitri V. and Sharad Mehrotra.
2006. Domain-independent data cleaning via
analysis of entity-relationship graph. ACM
Trans. Database Syst., 31(2):716–767.
Li, Xin, Paul Morie, and Dan Roth. 2004. Identification and tracing of ambiguous names:
Discriminative and generative approaches.
In PROCEEDINGS OF THE NATIONAL
CONFERENCE ON ARTIFICIAL INTELLIGENCE, pages 419–424. Menlo Park, CA;
Cambridge, MA; London; AAAI Press; MIT
Press; 1999.
McCallum, Andrew, Kamal Nigam, and Lyle H.
Ungar. 2000. Efficient clustering of highdimensional data sets with application to reference matching. In KDD ’00: Proceedings of
the sixth ACM SIGKDD international conference on Knowledge discovery and data mining,
pages 169–178, New York, NY, USA. ACM
Press.
References
Bhattacharya, Indrajit and Lise Getoor. 2004.
Iterative record linkage for cleaning and integration. In DMKD ’04: Proceedings of the 9th
ACM SIGMOD workshop on Research issues
in data mining and knowledge discovery, pages
11–18, New York, NY, USA. ACM Press.
Osuna, Edgar, Robert Freund, and Federico
Girosi. 1997. Training support vector machines: an application to face detection. cvpr,
00:130.
Bilenko, Mikhail and Raymond J. Mooney. 2003.
Adaptive duplicate detection using learnable
string similarity measures. In KDD ’03: Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and
data mining, pages 39–48, New York, NY,
USA. ACM Press.
Pasula, H., B. Marthi, B. Milch, S. Russell, and
I. Shpitser. 2002. Identity uncertainty and
citation matching.
Sarawagi, Sunita and Anuradha Bhamidipaty.
2002. Interactive deduplication using active
learning. In KDD ’02: Proceedings of the
eighth ACM SIGKDD international conference on Knowledge discovery and data mining,
pages 269–278, New York, NY, USA. ACM
Press.
Cohen, W., P. Ravikumar, and S. Fienberg. 2003.
A comparison of string distance metrics for
name-matching tasks.
Cortes, Corinna and Vladimir Vapnik. 1995.
Support-vector networks. In Springer, editor, Machine Learning, pages 273–297. Kluwer
Academic Publishers, Boston.
Shen, W., X. Li, and A. Doan. 2005. Constraintbased entity matching. In Proceedings of
AAAI.
Doan, AnHai, Ying Lu, Yoonkyong Lee, and Jiawei Han. 2003. Profile-based object matching for information integration. IEEE Intelligent Systems, 18(5):54–59.
Skalak, David B. 1994. Prototype and feature selection by sampling and random mutation hill
climbing algorithms. In International Conference on Machine Learning, pages 293–301.
Dong, Xin, Alon Halevy, and Jayant Madhavan.
2005. Reference reconciliation in complex information spaces. In SIGMOD ’05: Proceedings of the 2005 ACM SIGMOD international
conference on Management of data, pages 85–
96, New York, NY, USA. ACM Press.
Tejada, Sheila, Craig A. Knoblock, and Steven
Minton. 2002. Learning domain-independent
string transformation weights for high accuracy object identification. In KDD ’02: Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and
data mining, pages 350–359, New York, NY,
USA. ACM Press.
Furey, T. S., N. Christianini, N. Duffy, D. W.
Bednarski, M. Schummer, and D. Hauessler.
2000. Support vector machine classification
and validation of cancer tissue samples using
microarray expression data. Bioinformatics,
16(10):906–914.
Winkler, W. 1999. The state of record linkage
and current research problems.
Hernandez, Mauricio A. and Salvatore J. Stolfo.
1995. The merge/purge problem for large
databases. In SIGMOD ’95: Proceedings of
112
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 113-120
recibido 18-05-2007; aceptado 22-06-2007
Evaluación de un sistema de reconocimiento y normalización de
expresiones temporales en español∗
María Teresa
César
Paloma
Vicente-Díez
de Pablo-Sánchez
Martínez
Departamento de Informática. Universidad Carlos III de Madrid
Avda. Universidad 30, 28911. Leganés, Madrid
{teresa.vicente, cesar.pablo, paloma.martinez}@uc3m.es
Resumen: El sistema de reconocimiento y normalización de expresiones temporales en español
que se describe en este artículo fue presentado por la Universidad Carlos III de Madrid en la
evaluación ACE07 llevada a cabo por el NIST. Dicho sistema se centra en la tarea de TERN
para español, piloto en esta edición. Se detalla su arquitectura y módulos así como el enfoque
basado en reglas implementado por un autómata finito en las etapas de reconocimiento y
normalización. Se exponen también los resultados alcanzados en la evaluación y las
conclusiones obtenidas a partir de los mismos.
Palabras clave: Reconocimiento de expresiones temporales, normalización temporal, timexes,
procesamiento de lenguaje natural, PLN, español.
Abstract: The temporal expressions recognition and normalization system for Spanish language
described in this paper was presented by the University Carlos III de Madrid to the NIST
ACE07 evaluation. The system focuses on the primary TERN task in Spanish, a pilot
experience this year. The description of its architecture and modules is detailed, as well as the
rule-based approach implemented by a finite state automaton on the recognition and
normalization stages. Reached results in the evaluation and conclusions obtained through their
analysis are also shown.
Keywords: Temporal expressions recognition, time normalization, timexes, natural language
processing, NLP, Spanish language.
1
Introducción
La extracción automática de información
temporal de noticias u otros contenidos
electrónicos supone un importante reto
lingüístico. Este tipo de documentos suele
contar con una escasa cantidad de metadatos de
carácter temporal (Llido, Berlanga y Aramburu,
2001), lo que convierte en difícil determinar el
momento en que ocurren los eventos que
narran.
“Las expresiones temporales (también
denominadas timexes) son fragmentos del
lenguaje natural que aluden directamente a
instantes en el tiempo o a intervalos. No sólo
aportan información temporal por sí mismas
sino que también sirven como puntos de anclaje
para ubicar eventos que son referidos en un
texto” (Ahn, Fissaha, y Rijke, 2005).
En la mayoría de contextos lingüísticos las
expresiones temporales son deícticas. Por
ejemplo, en las expresiones “la pasada
semana”, “en abril”, o “hace tres meses” se
∗
Este trabajo ha sido parcialmente financiado
por la Comunidad de Madrid bajo la Red de
Investigación MAVIR (S-0505/TIC-0267).
ISSN: 1135-5948
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
María Teresa Vicente-Díez, César de Pablo-Sánchez y Paloma Martínez
debe conocer cuál es el instante narrativo de
referencia para poder precisar el intervalo de
tiempo comprendido por la expresión (Saquete,
2000). Además, si se pretende facilitar el
intercambio de datos, es fundamental que
aquellos
intervalos
identificados
sean
traducidos de acuerdo a un estándar establecido,
es decir, que sean normalizados. Una
identificación y normalización de expresiones
temporales precisa es esencial para el
razonamiento temporal (Allen, 1983) que
demandan las aplicaciones avanzadas de PLN,
como la Extracción de Información, el
Resumen Automático, o la Búsqueda de
Respuestas (QA). Por ejemplo, en esta última es
primordial resolver referencias que ayuden a
responder a cuestiones temporales (“¿En qué
año murió Cervantes?”) o con restricciones de
tiempo (“¿Quién era el presidente de los
EE.UU. en 2005?”) (Saquete, 2004) (de PabloSánchez et al., 2006).
Particularmente en QA resulta de especial
interés la integración de un sistema de
razonamiento sobre el tiempo que dote a la
aplicación de una nueva dimensión temporal.
(Moldovan, Bowden, y Tatu, 2006). Dada la
importancia de la identificación de expresiones
temporales en este razonamiento se pretende
incorporar el sistema expuesto dentro de un
entorno de QA. Se espera que la introducción
de reglas de inferencia permita mejorar el
análisis de preguntas y la calidad de las
respuestas extraídas. Por ejemplo, a la hora de
resolver preguntas temporalmente ambiguas,
como “¿Quién fue Ministro de Justicia en
2007?”, un razonamiento eficiente permitirá
conocer de la existencia de dicha ambigüedad, o
bien extraer las múltiples respuestas posibles.
Por otra parte, la comunidad científica
cuenta con varios recursos para el tratamiento
de timexes pero, mayoritariamente, en lengua
inglesa. Entre otros, existen diversas guías y
métodos de anotación, como por ejemplo el
propuesto por Mani y Wilson (2000), lenguajes
de especificación como TimeML (Pustejovsky
et al., 2005), corpus anotados temporalmente
como TimeBank (MITRE, 2007), etc. Sin
embargo, algunos de estos recursos no pueden
utilizarse directamente en español. Ya que esta
lengua es actualmente una de las más habladas
en el mundo, parece interesante invertir en la
creación de recursos propios.
NIST 2007 Automatic Content Extraction
Evaluation (ACE07) forma parte de una serie
de evaluaciones cuyo propósito es el desarrollo
de tecnologías de extracción de información e
inferencia semántica del lenguaje.
El propósito de la evaluación de la tarea de
Reconocimiento
y
Normalización
de
Expresiones Temporales (TERN) es avanzar en
el estado del arte existente sobre la detección y
la normalización automática de este tipo de
expresiones.
El sistema que se describe en este artículo
está
enfocado
al
reconocimiento
y
normalización de timexes en español. Fue
presentado por la Universidad Carlos III de
Madrid (UC3M) a la evaluación ACE07,
participando en la tarea de TERN para español.
Dicha tarea suponía una experiencia piloto para
este lenguaje. Esta propuesta constituye una
aproximación inicial en la que fueron
implementadas técnicas basadas en reglas
simples, tanto en reconocimiento como en
normalización. En esta versión preliminar, el
sistema maneja expresiones temporales simples
del lenguaje, posponiendo el tratamiento de
aquellas expresiones de aparición menos
frecuente en español, aunque identificables
según el estándar TIDES (Ferro et al., 2005).
El artículo está estructurado como sigue: en
la sección 2 se describe la tarea en la que
participaba el sistema evaluado. En la sección 3
se muestra la arquitectura de dicho sistema y los
módulos que lo componen. En la sección 4, se
presentan los resultados de la evaluación. Por
último, la sección 5 incluye las conclusiones
obtenidas y algunas líneas de trabajo futuro.
2
Descripción de la tarea
Los sistemas participantes en la tarea de TERN
para español en la evaluación ACE07 han de
procesar unos datos de entrada, en este caso
noticias (Newswire) en español, e identificar
fechas, duraciones, instantes de referencia e
intervalos en ellos (reconocimiento). Las
expresiones reconocidas, tanto absolutas como
deícticas, han de ser tratadas y devueltas en un
formato estándar que evite la ambigüedad
semántica en su recuperación (normalización).
Dichas expresiones son marcadas siguiendo el
esquema de anotación TIMEX2, de acuerdo con
el estándar TIDES (Ferro et al., 2005), que se
compone de un conjunto de atributos, tal y
como se muestra en la Tabla 1.
En la Tabla 2 se presentan algunos ejemplos
de utilización de TIMEX2 para ilustrar su uso
en la anotación de expresiones temporales.
114
Evaluación de un Sistema de Reconocimiento y Normalización de Expresiones Temporales en Español
ATRIBUTO
VAL
MOD
ANCHOR_VAL
ANCHOR_DIR
SET
Formateado de entrada: este submódulo
transforma los ficheros de origen a la
codificación que precisa el procesador
lingüístico, y elimina los caracteres innecesarios
(espacios, tabulaciones, etc.).
DESCRIPCIÓN
Expresión temporal normalizada
Modificador de expresión temporal
normalizada
Punto de referencia temporal normalizado
Direccionalidad temporal
Indica que el atributo VAL se refiere a un
conjunto de expresiones temporales (un
intervalo)
Procesado lingüístico: genera un fichero para
cada entrada donde todo el texto original es
dividido y enriquecido con información de
posición, etiquetado gramatical, morfosintáctico
y semántico. Esta etapa es llevada a cabo por el
procesador Stilus, una herramienta comercial
desarrollada por (DAEDALUS, 2007).
Tabla 1 Atributos de TIMEX2
<TIMEX2 VAL=”1991-10-06”>6 de octubre de
1991</TIMEX2>
<TIMEX2 VAL=”1993-08-01T17:00”>5:00
p.m.</TIMEX2>
<TIMEX2 VAL=”1992-FA”>el pasado
otoño</TIMEX2>
<TIMEX2 VAL=”P9M” ANCHOR_VAL=”1993-08”
ANCHOR_DIR=”ENDING”>los últimos nueve
meses</TIMEX2>
<TIMEX2 VAL=”1994-01-20TEV”>el jueves por la
tarde</TIMEX2>
<TIMEX2 SET=”YES” VAL=”XXXX-XXXX”>diariamente</TIMEX2>
<TIMEX2 VAL=”PRESENT_REF”
ANCHOR_VAL=”1994-01-21T08:29”
ANCHOR_DIR=”AS_OF”>ahora</TIMEX2>
<TIMEX2 VAL=”P25Y”>25 años</TIMEX2>
<TIMEX2 VAL=”1994”>el pasado año</TIMEX2>
Figura 1: Arquitectura general del sistema
Tabla 2 Ejemplo de anotación con TIMEX2
3.2
Finalmente, ha de generarse una salida por
cada uno de los documentos fuente, en un
formato XML específico (conocido como
ficheros .apf).
Los documentos en español que forman los
corpus de ACE07 provienen de 3 fuentes
diferentes: Agence France-Presse, Associated
Press Worldstream y Xinhua.
3
Detecta las expresiones temporales existentes
en el texto de los ficheros de entrada. Se
compone de 2 submódulos.
Carga de tokens: carga en memoria objetos
con la información lingüística obtenida a partir
de los ficheros generados por el procesador
lingüístico.
Timex autómata: en este punto, el sistema
busca identificar timexes dentro de cada frase
de los ficheros de entrada. La búsqueda se
realiza a través de un autómata de estados
finitos de acuerdo a la gramática que constituye
su definición. Está compuesto de 25 estados, 12
de los cuales son finales. Se han definido 19
predicados para realizar las transiciones entre
estados, como puede verse en la Figura 2. La
Tabla 3 detalla los predicados del sistema
desarrollado. Cuando un estado final es
alcanzado y no se producen más transiciones, el
fragmento de oración reconocido es enviado al
Selector de expresiones temporales, dentro del
módulo de normalización.
Descripción del sistema
La arquitectura general del sistema
propuesto se muestra en la Figura 1. El
procesamiento de cada entrada incluye 4 etapas
secuenciales, desde el preproceso de los
documentos de origen hasta la devolución de
los resultados en el formato apropiado.
3.1
Reconocedor
Preprocesador
Este módulo convierte los documentos de
entrada en ficheros intermedios enriquecidos,
que incluyen información morfológica,
sintáctica y semántica. La conversión es llevada
a cabo en dos pasos:
115
María Teresa Vicente-Díez, César de Pablo-Sánchez y Paloma Martínez
Figura 2 Descripción del autómata
PREDICADO
1. pBasicDate
2. pInvertedBasicDate
3. pArticle
4. pDayAndMonth
5. pDateConnector
6. pYearNumber
7. pDayAndMonthAndYear
8.
9.
10.
11.
pDayNumber
pMonth
pPreposition
pDeicticTempex
12. pDemostrative
13. pPartsOfToday
14.
15.
16.
17.
pDayOfWeek
pYearWord
pPastVerb
pQuantity
18. pNumericQuantity
19. pDateUnit
DESCRIPCIÓN
{YYYYMMDD, YYYY-MM-DD, YYYY/MM/DD}
YYYY∈{1600-2050}, MM∈{1-12}, DD∈{1-31}
{DD-MM-YYYY | DD/MM/ YYYY}
YYYY∈{1600-2050}, MM∈{1-12}, DD∈{1-31}
{el, la, los, las}
DD de MONTH
DD∈{1-31}, MONTH = {enero | febrero |…| diciembre}
{del,-,/,de}
YYYY∈{1600-2050}
DD de MONTH de YYYY.
DD∈{1-31},
YYYY∈{1600-2050}, MONTH = {enero | febrero |…| diciembre}
DD∈{1-31}
{enero | febrero | …| diciembre | ene | feb | …| dic | ene.| feb.|…| dic.}
en
{hoy | ahora | anteayer | ayer | mañana | anoche | anteanoche |
pasado_mañana | antes_de_ayer | antes_de_anoche | al_mediodía |
por_la_noche | hoy_en_día | hoy_día}
{esta | este}
{mañana | tarde | noche | mediodía | medianoche | madrugada |
momento | período | actualidad | temporada | actualmente}
{lunes | martes | miércoles | jueves | viernes | sábado | domingo}
{año}
{hace | hacía | hará | hacen}
{uno | una | dos |…| treinta | cuarenta | cincuenta | sesenta | setenta |
ochenta | noventa | cien | ciento | mil | millar | millón}
NUMERIC_VALUE∈{0 - 99999999}
{día | semana | quincena | mes | bimestre | cuatrimestre | trimestre |
semestre | año | bienio | trienio | lustro | quinquenio | sexenio | siglo}
Tabla 3 Predicados del autómata
116
EJEMPLOS
20051202
2005-12-02
02-12-2005
02/12/2005
la
5_de_marzo
de
2005
5_de_marzo_de
_2005
30
diciembre
en
ayer
esta
mañana
domingo
año
hace
veinte
25
mes
Evaluación de un Sistema de Reconocimiento y Normalización de Expresiones Temporales en Español
3.3
cabo una clasificación del tipo de expresión
reconocida que se busca normalizar. Esta
clasificación atiende a la propuesta definida en
las Tablas 4 y 5.
Por una parte, en la Tabla 4 se muestran los
distintos tipos de expresiones absolutas que
trata el sistema. En la Tabla 5 se detallan las
expresiones deícticas contempladas. En ambos
casos las timexes pueden estar completas
(constan de día, mes y año) o incompletas (si
carecen de alguno de ellos). Finalmente la
Tabla 6 recoge los elementos que integran las
expresiones reconocibles.
Cada tipo de expresión se ha etiquetado con
un identificador. Se detalla también el formato
de entrada que corresponde a cada clase, así
como el valor del atributo TIMEX2 VAL de la
expresión una vez normalizada.
En el caso de las expresiones deícticas se
muestra un campo adicional: la fecha de
referencia. Este dato es necesario para calcular
el valor normalizado que corresponde a la
expresión. En enfoque que toma el sistema
establece que la fecha de referencia sea la
fecha de creación de los documentos que
procesa.
Normalizador
Responsable de normalizar las expresiones
previamente reconocidas. Se compone de 5
submódulos.
Selector de expresiones temporales: recibe
las diferentes expresiones y las envía al
submódulo de normalización adecuado. Al
existir diferentes tipos de timexes cada una
debe ser manejada de manera concreta.
Normalización de expresiones absolutas:
trata con expresiones temporales absolutas, es
decir, aquéllas que por sí mismas están
definidas completamente. Estas expresiones no
necesitan de otro punto en el tiempo que actúe
como referencia. A su vez, pueden ser
completas (“3 de abril de 2005”), e
incompletas (“abril de 2005”).
Normalización de expresiones deícticas:
maneja expresiones temporales deícticas, es
decir, aquéllas que hacen referencia a otro
momento en el tiempo que es preciso conocer
para que puedan ser definidas completamente.
La normalización en este caso no es posible
inmediatamente, sino que requiere de ciertos
cálculos previos. La fecha de referencia es
tomada del documento analizado: puede ser
obtenida del contexto, o bien puede
considerarse la fecha de creación del propio
documento. Esta segunda aproximación ha
sido la elegida para evaluar las expresiones
temporales por el normalizador.
Normalización de intervalos: se ocupa de la
normalización de períodos de tiempo, también
conocidos como intervalos. Esto implica la
existencia de dos timexes unidas por un
conector.
Normalización por traducción directa: el
español contiene ciertas expresiones que no
son propiamente una referencia temporal, sino
un punto en el tiempo, como por ejemplo
“Navidad”. Este tipo de expresiones son
directamente traducidas a través de
diccionarios, que almacenan la relación entre
la expresión y la fecha normalizada a la que
hacen referencia.
3.4
4
4.1
Resultados
Sistema de puntuación en TERN
La puntuación de un sistema participante en la
tarea de TERN está definida como la suma de
los valores de todas las expresiones TIMEX2
de salida de dicho sistema, normalizadas por la
suma de los valores de todas las expresiones
TIMEX2 de referencia, tal y como muestra la
fórmula (1). El máximo valor de puntuación
posible es un 100%, mientras que el mínimo
no está limitado.
(1)
∑ value _ of _ sys _ token
TERN _ Value =
value
_
of
_
ref
_
token
∑
i
sys
i
j
j
El valor de cada expresión se basa en sus
atributos y cuánto se corresponden con los de
referencia (ACE, 2007).
4.2
Post-procesador
Resultados obtenidos
Una vez procesados los corpus de evaluación,
se enviaron para valorar los resultados
obtenidos. Éstos se encuentran publicados en
(NIST, 2007).
En esta etapa se escriben los resultados de la
normalización de expresiones en un formato de
salida XML, predefinido para ACE07.
3.5 Clasificación de expresiones
temporales según su normalización
El submódulo Selector de expresiones
temporales presentado anteriormente lleva a
117
María Teresa Vicente-Díez, César de Pablo-Sánchez y Paloma Martínez
CATEGORÍA
DE LA
EXPRESIÓN
EXPRESIONES
ABSOLUTAS
IDENTIFICADOR
ABS_COMPLETE_0
ABS_COMPLETE_1
ABS_COMPLETE_2
FORMATO ENTRADA
EJEMPLO ENTRADA
DD-MM-YYYY
DD/MM/YYYY
YYYYMMDD
[DET]+DD+”de”+MES+
”de”+YYYY
31-12-2005
31/12/2005
20051231
[el] 31 de diciembre de 2005
ABS_INCOMPLETE_1
MES + “de” + YYYY
ABS_INCOMPLETE_2
[DET]+YYYY
diciembre de 2005
[el] 2005
ATRIBUTO VAL
NORMALIZADO
2005-12-31
2005-12-31
2005-12-31
2005-12-31
2005-12
2005
Tabla 4: Propuesta de clasificación de expresiones temporales absolutas
CATEGORÍA
DE LA
EXPRESIÓN
IDENTIFICADOR
FORMATO ENTRADA
EJEMPLO
ENTRADA
EXPRESIONES
DEÍCTICAS
DEIC_COMPLETE_1
REFERENCIA_PRESENTE
REFERENCIA_PASADO
REFERENCIA_FUTURO
hoy
ayer
mañana
DEIC_COMPLETE_2
VERBO “HACER” +
CANTIDAD +
UNIDAD_TIEMPO
hace un mes
[DET]+DD+”de”+MES
DEIC_INCOMPLETE_1
MES + DD
DEIC_INCOMPLETE_2
DEIC_INCOMPLETE_3
DET + “año”
DET + DIA_SEMANA
[el] 29 de
diciembre
Diciembre
29
Este año
El lunes
FECHA DE
REFERENCIA
ATRIBUTO VAL
NORMALIZADO
2005-12-31
2005-12-31
2005-12-31
2005-12-31
2005-12-30
2006-01-01
2005-12-31
2005-11-30
2005-12-31
2005-12-29
2005-12-31
2005-12-29
2005-12-31
2005-12-31
2005
2006-01-02
Tabla 5: Propuesta de clasificación de expresiones temporales deícticas
DET = {el | la | los | las | este | esta}
MES = {enero | febrero | marzo | … | diciembre}
REFERENCIA_PRESENTE = {hoy | ahora | hoy_día | hoy_en_día | esta_mañana | esta_tarde | esta_noche |
este_mediodía | esta_madrugada | este_momento | actualidad | actualmente}
REFERENCIA_PASADO = {ayer | anoche | anteayer | antes_de_ayer | anteanoche}
REFERENCIA_FUTURO = {mañana | pasado_mañana}
CANTIDAD = {CANTIDAD_NUMERICA | CANTIDAD_NO_NUMERICA}
CANTIDAD_NUMERICA = {1 | 2 | …}
CANTIDAD_NO_NUMERICA = {uno | dos | …}
UNIDAD_TIEMPO = {día | semana | quincena | mes | bimestre | trimestre | cuatrimestre | semestre | año | bienio
| trienio | lustro | quinquenio | sexenio | siglo}
DIA_SEMANA = {lunes | martes | miércoles | jueves | viernes | sábado | domingo}
Tabla 6: Elementos integrantes de los distintos tipos de expresiones temporales reconocibles
4.2.1
b) el porcentaje de expresiones no detectadas
es de un 34%
c) el porcentaje de expresiones reconocidas
cometiendo algún error es del 13%
d) las falsas alarmas, es decir, expresiones
identificadas como temporales sin serlo,
suponen aproximadamente un 6%
e) los valores de presión, recall y F-measure
se sitúan en todos los casos por encima del
50%.
Resultados generales
Los resultados generales en términos
cuantitativos se muestran en la Tabla 7,
incluyendo también medidas de precisión,
recall y F-measure. Del análisis de esta
valoración se confieren los siguientes aspectos:
a) la cantidad de expresiones total y
correctamente reconocidas y normalizadas
fue de un 47%
118
Evaluación de un Sistema de Reconocimiento y Normalización de Expresiones Temporales en Español
Tabla 7 Porcentajes cuantitativos de los
resultados generales
#
%
OK
680
0.47
4.2.2
FA
94
0.06
miss
493
0.34
err
190
0.13
P
0.73
R
0.53
4.2.4
En general, puede considerarse que los
resultados son bastante prometedores para
tratarse de una tarea piloto. Aunque
preliminares, arrojan una estimación global de
la cantidad de expresiones temporales
identificadas, así como de la calidad de esas
detecciones. El número de falsas alarmas
representa un porcentaje bajo del total de
detecciones. Del mismo modo, la cantidad de
expresiones no reconocidas o reconocidas
erróneamente es aceptable para la mayor parte
de los documentos analizados.
Los valores de precisión, recall y F-measure
de la tarea general son superiores a un 50%, y la
puntuación final que obtiene el sistema está en
un 47%.
A la luz de estos resultados se detectan
algunos aspectos destacables:
a) la principal causa de pérdida de puntuación
está ocasionada por la omisión de algunas
expresiones
no
reconocidas,
hecho
altamente penalizado por el evaluador
b) se producen errores debido a la
imposibilidad del sistema para utilizar todos
los atributos proporcionados por TIMEX2
F
0.62
Resultados del atributo VAL
El sistema desarrollado, aún en una versión
preliminar, no usa todos los atributos que la
sintaxis de TIMEX2 provee. De hecho, sólo
utiliza el atributo VAL para capturar toda la
semántica de las expresiones temporales.
Los resultados obtenidos concernientes al
atributo VAL se reflejan en la Tabla 8. Éstos
han sido los siguientes:
a) el 62% de los elementos detectados están
correctamente marcados
b) el 3% de las detecciones corresponden a
falsas alarmas
c) no hay detecciones sin su correspondiente
etiqueta VAL
d) un 16% de las expresiones reconocidas no
están completamente anotadas, esto es
debido a que no se emplea el resto de
atributos de TIMEX2
e) el 19% de detecciones fueron erróneas
f) la precisión, recall y F-measure alcanzan
porcentajes superiores al 95%
5
OK
582
0.62
4.2.3
FA
28
0.03
miss
0
0
sub
149
0.16
err
177
0.19
P
0.97
R
1
Conclusiones y trabajo futuro
Por tratarse de la primera vez en que la tarea de
TERN para español se celebra se carecen de
resultados anteriores con los que realizar una
comparación precisa de los obtenidos por el
sistema expuesto. No obstante, aunque no
exhaustivamente comparables, sí se dispone de
sistemas previos que abordan tareas semejantes,
para español (Saquete, 2006), italiano o inglés
(Negri et al., 2006).
Por otra parte, a la vista de las cifras de la
evaluación, varios aspectos han de ser
mejorados en el futuro:
a) el etiquetado de las expresiones reconocidas
deberá contemplar todos los atributos
proporcionados por TIMEX2, con el fin de
capturar tanta semántica como sea posible
(duraciones, períodos de tiempo, etc.)
b) la cobertura de la gramática del autómata ha
de ser ampliada, añadiendo tipos de
expresiones actualmente no considerados
c) ha de llevarse a cabo la implementación de
diccionarios con un mayor alcance de
expresiones directamente traducibles, como
festividades, vacaciones, etc.
d) constituye un aspecto interesante el
desarrollo de una guía para la anotación de
Tabla 8 Porcentajes cuantitativos para el
atributo VAL
#
%
Análisis de los resultados
F
1
Resultados por fuente de datos
Los resultados obtenidos sobre los corpus de
cada fuente, en la Figura 3, han sido muy
similares. De hecho, la pérdida de puntuación
del corpus de APW es debida a errores de
anotación en los ficheros de referencia.
Figura 3: Resultados por fuente de datos
119
María Teresa Vicente-Díez, César de Pablo-Sánchez y Paloma Martínez
expresiones temporales en español. Esta útil
herramienta mejoraría el rendimiento del
sistema (¿se debe etiquetar “marzo” o “en
marzo”?). Además, cada lenguaje cuenta
con sus peculiaridades que deben ser
tenidas
en
consideración.
Existen
expresiones en español cuyo tratamiento
heredado del inglés carece de sentido. Por
ejemplo, atendiendo a (Ferro et al., 2005)
en la expresión “del 2 de marzo” se
contempla etiquetar sólo “el 2 de marzo”,
segmentando el artículo contracto.
Del mismo modo, se considera una tarea
relevante para llevar a cabo en el futuro el
estudio de mecanismos de extracción de
información contextual, que faciliten la
manipulación de expresiones deícticas.
Finalmente, supone una línea de trabajo
prioritaria en futuras versiones del sistema la
introducción de técnicas de aprendizaje
automático en las etapas de reconocimiento y
clasificación de expresiones temporales (Ahn,
2005), de manera que complementen los
mecanismos actuales, basados en reglas.
Moldovan, D. Bowden, M. y Tatu, M. 2006. A
Temporally-Enhanced PowerAnswer in
TREC 2006. En The Fifteenth Text
REtrieval Conference (TREC 2006)
Proceedings. Gaithersburg, MD, (USA).
National Institute of Standards and Technology.
2007. NIST 2007 Automatic Content
Extraction Evaluation Official Results
(ACE07) v.2.
http://www.nist.gov/speech/tests/ace/ace07/
doc/ace07_eval_official_results_20070402.h
tm
de Pablo-Sánchez, C., González Ledesma, A.,
Moreno-Sandoval, A. y Vicente-Díez, M.T.
2006.
MIRACLE
experiments
in
QA@CLEF 2006 in Spanish: main task,
real-time QA and exploratory QA using
Wikipedia (WiQA). En CLEF 2006
Proceedings. To be published.
Negri, M., Saquete, E., Martinez-Barco, P., y
Munoz, R. 2006. Evaluating Knowledgebased Approaches to the Multilingual
Extension of a Temporal Expression
Normalizer. En Proceedings of the
Workshop on Annotating and Reasoning
about Time and Events, Association for
Computational Linguistics, páginas 30-37.
Bibliografía
ACE. 2007. The ACE
Evaluation Plan. 2007.
2007
(ACE07)
Pustejovsky, P., Castaño, J., Ingria, R., Saurí,
R., Gaizauskas, R., Setzer, A., y Katz, G.
2003. TimeML: Robust Specification of
Event and Temporal Expressions in Text. En
Proceedings of the IWCS-5 Fifth
International Workshop on Computational
Semantics.
Ahn, D., Fissaha, S. y de Rijke, M. 2005.
Extracting Temporal Information from Open
Domain Text: A Comparative Exploration.
J. Digital Information Management,
3(1):14-20.
Allen, J.F. 1983. Maintaining knowledge about
temporal intervals. Communications of the
ACM, 26 (11):832-843.
Saquete, E., y Martinez-Barco, P. 2000.
Grammar specification for the recognition of
temporal expressions. En Proceedings of
Machine Translation and multilingual
applications in the new millennium,
MT2000, páginas 21.1-21.7, Exeter, (UK).
DAEDALUS. 2007. Data, Decisions and
Language, S. A. http://www.daedalus.es
Ferro, L., Gerber, L., Mani, I., Sundheim, B. y
Wilson, G. 2005. TIDES 2005 Standard for
the Annotation of Temporal Expressions.
Saquete, E., Martínez-Barco, P., Muñoz, R.,
Viñedo, JL. 2004. Splitting Complex
Temporal
Questions
for
Question
Answering Systems. En Proceedings of the
ACL’2004 Conference, Barcelona.
Llido, D., Berlanga. R. y Aramburu, M.J. 2001.
Extracting temporal references to assign
document event-time periods. Lecture Notes
in Computer Science, 2113:62-71.
Saquete, E., Martinez-Barco, P., Muñoz, R.,
Negri, M., Speranza, M., y Sprugnoli, R.
2006. Multilingual Extension of a Temporal
Expression Normalizer using annotated
corpora. En Proceedings of the Workshop
Cross-language Knowledge Induction at
EACL 2006. Trento.
Mani, I. y Wilson, G. 2000. Robust Temporal
Processing of News. En Proceedings of the
ACL’2000 Conference, Hong Kong.
MITRE Corporation. 2007. TimeBank.
http://www.cs.brandeis.edu/~jamesp/arda/ti
me/timebank.html
120
Lexicografía Computacional
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 123-130
recibido 18-05-2007; aceptado 22-06-2007
Inducción de clases de comportamiento verbal a partir del
corpus SENSEM
Laura Alonso Alemany
Universidad de la República,
Uruguay
Universidad Nacional de Córdoba,
Argentina
[email protected]
Irene Castellón Masalles
Universidad de Barcelona
[email protected]
Nevena Tinkova Tincheva
Universidad de Barcelona
[email protected]
Resumen: En este artículo presentamos la construcción de un clasificador con el objetivo final de asignar
automáticamente patrones de subcategorización a piezas verbales no conocidas previamente, partiendo de
una generalización de patrones anotados manualmente.
A partir del banco de datos SENSEM (Fernández et al 2004) se han adquirido los esquemas de
subcategorización de 1161 sentidos verbales. Estos esquemas se han agrupado en clases de equivalencia
mediante técnicas de clustering. Cada clase representa una generalización sobre el comportamiento
sintáctico-semántico de los verbos que contiene. Nuestro objetivo final es enriquecer un lexicón verbal
con esquemas de subcategorización, asignando automáticamente cada pieza verbal a una de estas clases, a
partir de ejemplos de corpus anotados automáticamente. Presentamos una evaluación preliminar de un
clasificador que lleva a cabo esta tarea.
Palabras clave: Adquisición de subcategorización, análisis sintáctico, clases sintácticas, sentidos
verbales.
Abstract: In this paper we present the construction of a classifier with the final objective of automatically
assigning subcategorization frames to previously unseen verb senses of Spanish, starting from a
generalization of manually annotated frames.
Taking as a departure point the data base SENSEM (Fernández et al 2004), the subcategorization frames of
1161 verbal senses have been acquired. These frames have been grouped in equivalence classes by
clustering techniques. Each class represents a generalization over the syntactico-semantic behaviour of
the verbs in it. Our final target is to enrich a verbal lexicon with subcategorization frames, automatically
assigning each verbal piece to one of these classes based on examples from corpus that have been
automatically analyzed. We present a preliminary evaluation of a classifier that carries out this task.
Keywords: Acquiring verbal subcategorizations, parsing, syntactic classes, verb senses.
1
Introducción
En este artículo presentamos la construcción de
un clasificador de sentidos verbales con el
último fin de establecer un método para
enriquecer un léxico verbal con información de
subcategorización de forma semiautomática,
extrapolando la información de un corpus
anotado manualmente a ejemplos sin anotación.
Partimos del corpus anotado a mano
SENSEM (Fernández et al 2004), y
caracterizamos los verbos que en él aparecen
tomando como propiedades los esquemas
sintácticos en los que ocurren. Después
generalizamos el comportamiento de estos
verbos mediante técnicas de clustering. Así
obtenemos
grupos
de
verbos
con
ISSN: 1135-5948
comportamientos sintácticos similares, ya que
en un mismo cluster se agrupan verbos que
ocurren con esquemas sintácticos parecidos.
Analizamos diferentes opciones para obtener
estas clases de verbos similares: diferentes
subconjuntos de propiedades para describir a
los verbos y diferentes técnicas de clustering.
Aplicamos métricas cuantitativas y cualitativas
para analizar las diferentes soluciones
obtenidas, y finalmente optamos por estudiar
con más detalle una solución en dos niveles que
consta de 5 clases iniciales y 11 clases en un
segundo nivel. Se ha evaluado la utilidad de
esta solución para asignar una clase de
comportamiento sintáctico a piezas verbales
desconocidas con diferentes clasificadores
aprendidos automáticamente.
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Laura Alonso Alemany, Irene Castellón Masalles y Nevena Tinkova
* Los niños desean.
(5) Los niños sueñan sueños tranquilos.
Los niños sueñan.
El resto del artículo está organizado de la
siguiente manera. En la próxima sección se
argumenta la utilidad de la información de
subcategorización para la mejora del análisis
sintáctico automático, analizamos algunos
trabajos relacionados y exponemos nuestra
aproximación. En la sección 3 presentamos la
forma como preparamos los datos del corpus
SENSEM, los parámetros de los experimentos de
clustering y las métricas para evaluarlas. En la
sección 4 mostramos cómo analizamos los
resultados de los experimentos, con una breve
descripción de las soluciones obtenidas y una
descripción más extensa de una de las
soluciones. En la sección 5 evaluamos la
aplicación de las clases seleccionadas a
ejemplos no vistos, mediante clasificadores
aprendidos automáticamente. Finalmente, en la
sección 6 presentamos las conclusiones de este
trabajo y el esquema de trabajo futuro.
De esta manera, la estructura de
subcategorización se puede considerar como la
información lingüística básica que posibilita la
restricción del número de estructuras obtenidas
en el análisis sintáctico.
Esta información es crucial para el buen
funcionamiento de los analizadores sintácticos
automáticos,
ya
que
hay
problemas
fundamentales para la buena resolución del
análisis sintáctico cuyo comportamiento
depende de la idiosincrasia de los núcleos
léxicos. Entre los casos más complejos de
resolución se encuentran determinar de qué
núcleo
léxico
depende
un
sintagma
preposicional (6), la resolución de la
coordinación (7) o la determinación de la
función de determinados sintagmas nominales
(8). A estos problemas se añaden para el
español el grado de libertad en el orden de
ocurrencia de los constituyentes (9), haciendo
que los casos anteriores sean más difícil
resolución. Así, conocer la subcategorización
del
verbo
permite
evitar
la
mala
identificación de categorías.
2 Motivación: la subcategorización y el
análisis sintáctico
La descripción del funcionamiento de una pieza
verbal tanto a nivel sintáctico como semántico
es una tarea necesaria para abordar la
'comprensión' del lenguaje en el área del
procesamiento del lenguaje natural. Por un lado,
el verbo es el núcleo semántico de la oración, es
decir, el que distribuye papeles semánticos y
por lo tanto, contribuye a la concreción del
sentido de los elementos nominales y a la
determinación del sentido global de la escena.
Por ejemplo, en la frase (1), el verbo entrar
asigna papel semántico de ruta a “la puerta”,
por lo que se prima el sentido de “abertura” de
la palabra puerta, mientras que en la frase (2) el
verbo abrir le asigna el papel de tema, lo cual
prima el significado de “armazón” para puerta.
(6) Y lo haremos defendiendo las libertades y
los derechos ciudadanos en el combate contra
sus enemigos.
(7) ... armaba sus modelos con pedazos de
cartón, tablitas, goma, engrudo, cartulinas y
lápices de colores.
(8) Macri anuncia esta tarde su postulación a
jefe de gobierno.
(9) Papel fundamental han desempeñado en
esta recuperación los evangelios llamados
apócrifos, sobre todo los de carácter gnóstico.
2.1
(1) El viento entró por la puerta.
(2) La puerta se abre sobre una explanada.
Trabajo Relacionado
Los trabajos realizados en el área de la
adquisición de subcategorización tienen como
objetivo final establecer los patrones de
realización para cada unidad verbal. Para ello se
trabaja con grandes corpus a partir de los cuales
se extrae la información relativa a las
realizaciones oracionales.
La adquisición automática de dicha
información ha sido tratada por diferentes
autores en general partiendo de un corpus
analizado a nivel sintáctico automáticamente
(Korhonen et al 2003, Briscoe et al 1997) o
manualmente (Sarkar et al 2000) y aplicando
determinados filtros para no contemplar
información de adjuntos, uno de los principales
Por otro lado, desde una perspectiva
puramente sintáctica, el verbo nos informa
sobre el tipo de complementos que precisa para
que una frase sea gramatical y si este esquema
alterna o no con otros complementos, es decir,
sobre las diferentes configuraciones sintácticas
de los argumentos. En los siguientes ejemplos
observamos cómo la misma construcción
sintáctica da lugar a una frase agramatical con
el verbo dormir o desear, pero no con soñar.
(3) * Los niños duermen sueños tranquilos.
Los niños duermen.
(4) Los niños desean sueños tranquilos.
124
Inducción de Clases de Comportamiento Verbal a partir del Corpus SENSEM
problemas en esta tarea. Estos trabajos han
tenido un acierto de diferente grado en
diferentes lenguas. Para el español encontramos
trabajos basados en las diátesis o clases
verbales que aplican técnicas simlares a los
anteriores (Esteve 2004, Chrupala 2004), con
resultados bastante positivos
Una de las ambigüedades más difíciles de tratar
es la de la adjunción de los sintagmas
preposicionales. Algunos autores (Atserias
2006) proponen disponer de dos modelos, uno
nominal y otro verbal para que en base a
determinadas
condiciones
disputen
por
determinados argumentos en una situación
ambigua.
a los sentidos verbales, no a los lemas. En
algunos trabajos sobre adquisición de
subcategorizaciones se ha trabajado con el lema
como unidad de subcategorización (Manning
1993, Briscoe et al 1997). Así, para aplicar el
clasificador sobre corpus será necesario
disponer de alguna aplicación de algún tipo de
desambiguación de sentidos.
Otra de nuestras hipótesis de partida es que
en la base de datos SENSEM ya existen la
mayoría de los esquemas de subcategorización
existentes en español, por lo que resulta muy
probable que se pueda caracterizar el
comportamiento de un sentido verbal nuevo a
partir de extrapolar de alguno de los verbos ya
conocidos.
2.2
3
Nuestra Aproximación
Metodología
El objetivo inicial, como hemos dicho, consiste
en inducir clases de comportamiento sintáctico
de los verbos a partir de la información de
SENSEM y extrapolar estos comportamientos a
verbos desconocidos mediante clasificadores
automáticos. A continuación describimos las
fases del experimento: caracterización de los
ejemplos, inducción de clases mediante
clustering y clasificación de ejemplos no vistos.
A diferencia de estos trabajos, nuestro método
parte de una serie de patrones ya adquiridos y
evaluados para los sentidos verbales descritos
dentro del proyecto SENSEM (ver Figura 1).
3.1 Caracterización de los ejemplos
anotados manualmente
El procedimiento que seguimos se basa en los
resultados de la anotación de SENSEM. Los
ejemplos del banco de datos de SENSEM son
frases de corpus periodístico anotadas a nivel
sintáctico-semántico (Castellón et al. 2006). La
anotación ha consistido en etiquetar en forma
manual el verbo y los constituyentes
directamente relacionados con él, donde cada
constituyente se anota mediante: la categoría
morfosintáctica (p.ej.: sintagma nominal,
oración adverbial), la función sintáctica (p.ej.:
sujeto, objeto preposicional), su relación con el
verbo (p.ej.: argumento o adjunto), y el papel
semántico (p.ej.: iniciador, tema afectado,
origen, tiempo). El total de lemas tratados es de
250, seleccionados por su frecuencia en un
corpus equilibrado de la lengua (Davies 2005),
y el número de sentidos es de 1161.
Para caracterizar el comportamiento
sintáctico de los sentidos verbales debemos
obtener procedemos en los siguientes pasos:
1) esquema de realización sintáctica de
cada ejemplo: para cada ejemplo del
corpus, se obtiene su esquema sintáctico
Figura 1. Esquemas de subcategorización adquiridos
para el sentido añadir_1 a partir de la base de datos
verbal SENSEM.
Nuestro objetivo final consiste en asociar
esquemas de subcategorización a sentidos
verbales no descritos en SENSEM. Para ello
procedemos en dos pasos:
1) descubrimos grandes clases de
comportamiento sintáctico distinguible
dentro de los verbos de SENSEM, y
2) clasificamos
nuevos
predicados
verbales en una de esas clases.
Para llegar a este objetivo final partimos de
una serie de hipótesis que creemos necesario
exponer. En primer lugar, asumimos que la
subcategorización es una información asociada
125
Laura Alonso Alemany, Irene Castellón Masalles y Nevena Tinkova
con
esquemas
semejantes.
Para
ello
caracterizamos a cada sentido como un vector,
con los esquemas de realización posibles como
dimensiones y el número de ejemplos del
sentido que ocurren con cada esquema de
realización como valor del sentido para esa
dimensión. Esto nos dá una representación de
los sentidos en un espacio matemático
caracterizado por los esquemas de realización,
donde podemos aplicar nociones de distancia (o
semejanza). Sobre este espacio aplicamos
métodos de clasificación no supervisada
(clustering) para encontrar grupos de vectores
(sentidos) cercanos en el espacio, es decir, que
tienden a ocurrir con los mismos esquemas
sintácticos. Utilizamos los algoritmos de
clustering proporcionados por Weka (Witten et
al 2005). Específicamente, elegimos Simple
KMeans (Hartigan et al 1979) y el clustering
basado en Expectation-Maximization (EM)
(Dempster et al 1977).
Además, en muchas soluciones obtuvimos
una clase mayoritaria que contenía verbos con
muy distintos comportamientos, típicamente,
verbos que comparten algún esquema de
subcategorización muy frecuente. Si intentamos
aumentar el número de clusters que se pedía al
método de clustering (ya fuera EM o KMeans),
se producía una distribución muy irregular de la
población. Esto nos llevó a investigar de forma
preliminar una forma de clustering jerárquico
partitivo: aplicamos clustering dentro de la
población de las clases obtenidas por cada
solución, para poder establecer más clases con
menor población y más específicas en cuanto a
los esquemas de subcategorización. Esta
aproximación resultó adecuada para obtener
clases con población bien distribuida. En el
futuro aplicaremos un algoritmo de clustering
jerárquico.
1.1) compactación de categorías que
tienen la misma distribución, como por
ejemplo los pronombres relativos (de
sujeto u objeto directo) o los sujetos
elididos con los sintagmas nominales,
entre otros.
1.2) selección de argumentos,
eliminando
los
constituyentes
opcionales (adjuntos).
1.3) eliminación de orden de
constituyentes,
ordenando
los
constituyentes en orden alfabético.
2) comportamiento de cada sentido,
caracterizado por el número de ejemplos del
sentido que ocurren con cada esquema de
realización sintáctica posible.
De esta forma obtenemos el equivalente
empírico al esquema de subcategorización, a
partir de los datos asociados a los sentidos
verbales de la base de datos verbal SENSEM
(Fernández et al 2004).
Hemos caracterizado los ejemplos (y por lo
tanto los esquemas de subcategorización de los
sentidos verbales) con diferentes subconjuntos
de toda la información disponible:
- categoría morfosintáctica de argumentos;
- categoría y función sintáctica;
- categoría, función y papel semántico.
Además, observando los resultados se
evidenció que los esquemas de realización
sintáctica con pocas ocurrencias en corpus
introducían mucho ruido en el espacio de
búsqueda, causando agrupaciones extrañas. Así
decidimos caracterizar los esquemas de
subcategorización utilizando como atributos
sólo los esquemas de realización con más de 5 o
con más de 10 ocurrencias en el corpus, lo cual
redujo sensiblemente el número de atributos,
como se ve en la Tabla 1.
cat
func + cat
papel + func + cat
todos
240
785
2854
> 5 ocs.
98
213
464
> 10 ocs.
69
130
317
4 Selección de un conjunto adecuado de
clases de equivalencia de sentidos verbales
4.1 Métodos para evaluar soluciones de
clustering
Tabla 1: Número de esquemas de realización
sintáctica distintos encontrados en el corpus al
caracterizar
los
ejemplos
con
diferentes
aproximaciones.
3.2
La gran cantidad de parámetros descritos en
el apartado anterior deja entrever el gran
número de experimentos que llevamos a cabo,
con soluciones de clustering con diferentes
métodos y diferentes subconjuntos de atributos
para caracterizar a los sentidos verbales. Por lo
tanto se hizo necesario establecer métodos de
evaluación sistemáticos, descritos extensamente
en (Alonso et al. 2007). Se trata de una
Inducción de clases de verbos
A partir de los esquemas de subcategorización
de los sentidos presentes en el corpus, con los
distintos subconjuntos de atributos descritos
arriba, tratamos de descubrir clases de sentidos
126
Inducción de Clases de Comportamiento Verbal a partir del Corpus SENSEM
combinación de inspección cualitativa de las
clases obtenidas y las siguientes métricas sobre
las soluciones:
x Dada una lista de parejas de verbos muy
similares creada a mano, observamos si se
agrupan en las mismas clases (bonificado) o
no (penalizado).
x Índice de solapamiento de los esquemas
que caracterizan a las diferentes clases: un
bajo índice de solapamiento indica que los
sentidos
de
las
distintas
clases
efectivamente ocurren con distintos
esquemas.
x Distribución de la población en las clases,
penalizando soluciones con clases con poca
población (uno o dos sentidos), ya que no
generalizan comportamientos.
x Índice de distinguibilidad de sentidos, que
indica si los distintos sentidos de un lema
verbal se distribuyen en distintos clusters
(bonificado) o en los mismos (penalizado).
Dado que una de las diferencias entre
sentidos verbales puede ser su distinto
comportamiento sintáctico, éste es un
indicador sólo orientativo.
En las soluciones con categoría, función y
papeles semánticos se distinguen claramente
clases con tipos distintos de esquemas de
subcategorización, especialmente las soluciones
en las que sólo se tienen en cuenta los esquemas
de realización que ocurren más de 5 o 10 veces,
debido a una notable reducción en la escasez de
datos (data sparseness) cuando usamos sólo
esquemas frecuentes. En estas soluciones
encontramos siempre 4 clases, una mayoritaria
donde claramente encontramos los verbos con
prácticamente cualquier patrón de argumentos
pero con una importante presencia de diátesis
intransitivas, que se producirían por la elisión
de alguno de los argumentos en los ejemplos de
corpus, junto con verbos propiamente
intransitivos; una segunda clase bastante grande
con verbos fuertemente caracterizados como
transitivos, con pocas diátesis intransitivas; y
dos clases pequeñas con verbos con algún
argumento con papel muy marcado (origen,
destino), con pocas diátesis intransitivas.
En las soluciones donde los verbos están
caracterizados mediante categoría y función,
se distingue en todos los casos una clase con
más de la mitad de la población, que contiene
verbos con comportamientos muy dispares, con
el rasgo común de contar con alguna diátesis
intransitiva, probablemente causada, como en el
caso de las aproximaciones con papeles
semánticos, por la elisión de alguno de los
argumentos. Se suele distinguir también
claramente una o más clases de verbos con
algún argumento preposicional o adverbial, y
también una clase con verbos ditransitivos y sus
diátesis transitivas e intransitivas.
Finalmente, las soluciones donde los
sentidos se caracterizan únicamente mediante
categoría tienen una tendencia a producir
muchas clases, pero la población se encuentra
bien distribuida en clases de tamaño mediano,
excepto en la solución que tiene en cuenta todos
los esquemas. En las soluciones con patrones
que ocurren más de 5 y más de 10 veces, se
encuentra siempre una clase con la mayor parte
de la población, dos clases medianas y un
número variable de clases más pequeñas.
Resulta difícil generalizar el comportamiento de
los verbos de estas clases por la gran
ambigüedad de los patrones basados
únicamente en categorías.
4.2 Descripción general de las
diferentes soluciones
En esta sección describimos sucintamente las
soluciones de clustering obtenidas con
diferentes criterios para caracterizar los sentidos
verbales, para motivar la elección final de una
de ellas.
En general, el método KMeans, que necesita
un parámetro especificando el número de clases
que se quieren establecer, proporcionaba peores
resultados que EM, sobretodo respecto a la
distribución de la población. En concreto,
tendía a proporcionar clases con un solo sentido
verbal en las soluciones que proponían más de
tres clases. En las soluciones con tres o menos
clases el índice de solapamiento de esquemas y
el test de parejas resultaban considerablemente
peor que para EM. Por esa razón optamos por
EM como método para obtener las soluciones
de clustering.
Una vez decidimos que EM sería nuestro
método, inspeccionamos con más detalle las
soluciones obtenidas con diferentes tipos de
información.
127
Laura Alonso Alemany, Irene Castellón Masalles y Nevena Tinkova
Las dos siguientes clases (clase 1, 103
sentidos, y clase 3, 68 sentidos) están
caracterizadas por alternancias transtiva –
ditransitiva – intransitiva, con omisiones de
ciertos constituyentes. Estas clases no presentan
subclases.
La última clase, (clase 4, 63 sentidos)
contiene sentidos caracterizados por esquemas
básicamente preposicionales alternantes con
intransitivos y con la presencia de atributos. Las
tres subclases que contiene están diferenciadas
por diversos esquemas. 4.1 se caracteriza por la
alternancia preposicional – intransitiva con
atributos, la clase 4.2 es totalmente
preposicional y en la clase 4.3 se clasifican
sentidos con esquemas transitivos alternantes
con preposicionales.
Como vemos, esta solución presenta clases
mixtas y algunas que contienen sentidos con
comportamiento comparable a los de otras
clases. Parece evidente que habrá que
profundizar en el método de inducción de
clases, pero los resultados hasta el momento
son alentadores.
4.3 Solución seleccionada: 5 clases,
función + categoría, esquemas que
ocurren > 10 veces
A partir de los resultados y comparando las
diferentes medidas de evaluación, finalmente se
optó por tomar algunas de las clases de las
soluciones de clustering que utilizan
información de categoría y de función
sintáctica. Esta decisión vino parcialmente
condicionada por la caracterización de los
verbos a los que se pretende asignar una clase
de forma automática en última instancia. Los
ejemplos de estos verbos podrán ser analizados
automáticamente a nivel sintáctico, pero no al
nivel de papeles semánticos. Por este motivo en
este primer momento prescindimos de las clases
obtenidas con información de papeles
semánticos
Tomamos pues como punto de referencia la
solución en 5 clases, obtenida con los esquemas
caracterizados con función y categoría con más
de 10 ocurrencias en corpus. Dada la gran
compacidad de esta solución, aplicamos
clustering dentro de todas las clases, con ánimo
de observar si era posible obtener clases más
granulares dentro de la misma aproximación. El
total de clases es de 5 que se subdivide en un
total de 11 clases.
La clase más grande (clase 5, 477 sentidos)
está compuesta por sentidos verbales que
alternan entre esquemas transitivos e
intransitivos y en algún caso con
preposicionales. Las subclases obtenidas a
partir de ésta están mucho más caracterizadas,
las clases 5.5, 5.3 y 5.2 agrupan los sentidos
que alternan entre esquemas transitivos e
intransitivos, las clases 5.4, 5.6, 5.7 y 5.8 se
caracterizan por la alternancia intransitivo –
preposicional, con alguna diferencia por la
aparición de predicativos o de esquemas
transitivos. A este nivel la asociación de una
clase a esquemas como sn v sn o sn v sp parece
bastante asumible.
En la segunda clase (clase 2, 163 sentidos)
predominan realizaciones preposicionales e
intransitivas que se justifican por la omisión
de los argumentos preposicionales. En algún
caso encontramos esquemas ditransitivos
alternantes con preposicionales. Las subclases
obtenidas son muy similares entre ellas
exceptuando la presencia en una de esquemas
ditranstivos (2.2) y la ausencia en la otra, que se
caracteriza por contener esquemas con
circunstanciales (2.1).
5
Evaluación para aplicación final
Hemos aprendido diversos clasificadores que,
dado un sentido caracterizado como vector por
sus esquemas de realización, lo asigna a una de
las grandes clases de comportamiento verbal
inducidas en el paso anterior. Hemos aprendido
dos clasificadores bayesianos (clásico y Naive
Bayes), dos basados en decisiones (J48, basado
en árboles de decisión, y JRip, basado en reglas
de decisión), uno basado en los k vecinos
cercanos (IBk, con k=1), y una baseline,
equivalente a los resultados obtenidos por
casualidad (OneR). Estos clasificadores han
sido evaluados mediante ten-fold cross
validation en el corpus SENSEM.
Recordemos que el objetivo final de la
nuestro trabajo es asignar una clase de
subcategorización a verbos no descritos
previamente, a partir de ejemplos de corpus
analizados automáticamente. Para evaluar la
utilidad para este objetivo de las clases de
equivalencia descritas en el apartado anterior,
analizamos el corpus SENSEM automáticamente
con Freeling (Carreras et al 2004). La única
información que utilizamos del corpus SENSEM
es el alcance de los constituyentes dominados
por el verbo en cada ejemplo. Hemos
comparado el desempeño de los clasificadores
en ejemplos caracterizados con análisis
128
Inducción de Clases de Comportamiento Verbal a partir del Corpus SENSEM
automático y en ejemplos caracterizados con el
análisis manual de SENSEM.
También hemos comparado el desempeño de
los clasificadores en las grandes clases descritas
en el apartado anterior (clases gruesas), y en las
clases de granularidad más fina (clases finas).
Los resultados pueden verse en la Tabla 2.
clases gruesas
manual auto
los atributos tiene un valor distinto de cero,
justamente, el atributo que se corresponde con
el esquema de realización con el que ocurre el
ejemplo en concreto. Vemos los resultados en
la Tabla 3.
clases gruesas
manual auto
clases finas
manual auto
Naive
Bayes
IBk
Bayes
J48
JRip
OneR
Naive
Bayes
IBk
Bayes
J48
JRip
OneR
41
25
78
63
53
24
76
64
72
63
56
25
70
52
58
26
69
60
54
31
11
19
11
8
Tabla 2. Porcentaje de sentidos bien clasificados
mediante diferentes clasificadores, con los ejemplos
anotados manualmente o automáticamente, con
clases finas o gruesas (ver apartado 4.3).
40
48
41
41
30
26
30
32
28
31
27
26
clases finas
manual auto
33
37
30
34
28
2
22
23
34
24
22
2
Tabla 3. Porcentaje de ejemplos bien clasificados
mediante diferentes clasificadores, con los ejemplos
anotados manualmente o automáticamente, con
clases finas o gruesas (ver apartado 4.3).
Respecto a la clasificación de ejemplos (vs.
sentidos) podemos ver que, aunque los
resultados son significativamente mejores que
los obtenidos para la baseline en las clases
finas, en las clases gruesas los resultados no
difieren significativamente, especialmente si los
ejemplos son caracterizados con análisis
automático.
Los
métodos
simples,
especialmente el basado en distancia, IBk,
siguen dando los mejores resultados. En clases
finas, los resultados son equiparables en análisis
manual o automático, pero los porcentajes de
ejemplos bien clasificados son demasiado bajos
en ambos casos.
Se puede observar que todos los clasificadores
superan significativamente la baseline de OneR.
En clases gruesas, los clasificadores simples
como Naive Bayes o IBk dan los mejores
resultados. Se observa un decremento de unos
10-15 puntos en el desempeño de los
clasificadores cuando los ejemplos son
caracterizados mediante un análisis automático,
lo cual supone una importante desmejora en los
resultados, que tendrá que ser mejorada en el
futuro.
En clases finas el desempeño de Naive Bayes
cae en picado, mientras que el del resto de
clasificadores cae unos 10-15 puntos.
Probablemente esta desmejora se dá porque los
datos disponibles para esas clases, con menos
población, son más escasos y los clasificadores
no pueden generalizar adecuadamente. En los
ejemplos caracterizados automáticamente, la
desmejora es muy importante, y, aunque no
llega a los niveles del baseline, la
significatividad de la clasificación se acerca
peligrosamente a los niveles de la casualidad.
Habrá que estudiar detenidamente las causas de
error para mejorar estos resultados en el futuro.
Por otro lado, hemos realizado otro
experimento en el que hemos simulado la
ausencia de un algoritmo para desambiguar
sentidos. Por ese motivo, la unidad a aprender y
clasificar ya no era el sentido verbal, sino que
cada uno de los ejemplos era caracterizado
como un vector. Estos vectores tienen una
caracterización muy pobre, ya que sólo uno de
6
Conclusiones y trabajo futuro
Hemos presentado una aproximación al
enriquecimiento semiautomático de un léxico
verbal con esquemas de subcategorización. La
aproximación se basa en dos pasos: 1)
inducción de grandes clases de comportamiento
verbal a partir de ejemplos anotados
manualmente, y 2) aprendizaje de clasificadores
que etiquetan nuevos ejemplos con esas clases.
Presentamos un método para evaluar
sistemáticamente las clases obtenidas con esta
aproximación. Mostramos una aplicación
preliminar de todo el proceso, con resultados
prometedores pero claramente mejorables.
A nivel lingüístico, observamos que las
clases de comportamiento verbal inducidas se
caracterizan por comportamientos diatéticos de
las piezas verbales, por lo que nos anima a
seguir investigando en esta línea.
129
Laura Alonso Alemany, Irene Castellón Masalles y Nevena Tinkova
Carreras, X., I. Chao, L. Padró y M. Padró. 2004.
FreeLing: An Open-Source Suite of Language
Analyzers. LREC'04, Lisboa, Portugal.
Castellón, I., A. Fernández, G. Vázquez, L. Alonso y
J. A. Capilla. 2006. The SENSEM Corpus: a
Corpus Annotated at the Syntactic and Semantic
Level. LREC’06, Génova, Italia, p. 355-359.
Chrupala,
G.
(2003)
Acquiring
Verb
Subcategorization from Spanish Corpora.
Research project presented for the Diploma
d'Estudis Avançats. Universitat de Barcelona
Davies, M. 2005. A Frequency Dictionary of
Spanish. New York and London: Routledge.
Dempster, A., N. Laird y D. Rubin. 1977. Maximum
likelihood from incomplete data via the em
algorithm. Journal of the Royal Statistical
Society, 39.
Esteve, E. (2004) “Towards a semantic classification
of Spanish verbs based on subcategorisation
information” Proceedings of the ACL 2004
workshop on Student research. Barcelona
Fernández, A., G. Vázquez e I. Castellón. 2004.
SENSEM: base de datos verbal del español. G. de
Ita, O. Fuentes, M. Osorio (ed.), IX IberoAmerican Workshop on Artificial Intelligence,
IBERAMIA. Puebla de los Ángeles, México, p.
155-163.
Hartigan, J. A. y M. A. Wong. 1979. Algorithm
as136: a k-means clustering algorithm. Applied
Statistics, 28, p.100-108.
Korhonen, A. 2002. Subcategorization Acquisition.
PhD thesis, Computer Laboratory, University of
Cambridge.
Korhonen, A. y J. Preiss. 2003. Improving
subcategorization acquisition using word sense
disambiguation. ACL 2003.
Manning, Ch. 1993. Automatic acquisition of a large
subcategorization dictionary from corpora.
ACL’93, p. 235-242.
Sarkar, A. y D. Zeman. 2000. Automatic extraction
of subcategorization frames for Czech.
COLING’2000.
Witten, I. H. y E. Frank. 2005. Data Mining:
Practical machine learning tools and techniques.
Morgan Kaufmann.
Por otro lado, los resultados de la
compactación y clasificación de los sentidos ya
conocidos en clases, a partir del análisis
sintáctico automático son muy prometedores, y
aportan datos cruciales sobre la importancia de
la desambiguación verbal para asignar marco de
subcategorización.
El trabajo futuro que se presenta es mucho e
interesante. En primer lugar, creemos
importante experimentar más con los diferentes
métodos y parámetros de clustering para poder
inducir las mejores clases desde una perspectiva
lingüística. En especial, nos planteamos el uso
de técnicas de clustering jerárquico.
Además, como hemos expuesto, la aplicación
del procedimiento en un entorno real, requiere
partir de corpus no anotados y no
desambiguados semánticamente. Dada la
complejidad del proceso hemos dividido la
tarea en dos fases, para poder evaluar cada una
de las situaciones independientemente. En una
primera fase, la que hemos presentado en este
artículo, utilizamos el corpus de SENSEM,
donde
los
sentidos
verbales
están
desambiguados, pero sin la anotación manual
sintáctico- semántica. Esta experimentación
requiere de un análisis morfosintáctico
automático y de la aplicación del clasificador.
Una segunda fase consiste en evaluar el
clasificador sobre el mismo corpus pero
utilizando WSD y análisis automático, para
realizar una prueba de adquisición sobre un
corpus controlado. Esta fase prevé la aplicación
del clasificador sobre corpus de verbos no
conocidos.
Referencias
Alonso, L., I. Castellón y N. Tincheva. 2007.
Obtaining
coarse-grained
classes
of
subcategorization patterns for Spanish. RANLP
2007, Borovets, Bulgaria.
Atserias, J. 2006. Towards Robustness in Natural
Language Understanding. Tesis doctoral.
Lengoaia eta Sistema Informatikoak Saila,
Euskal Herriko Unibertsitatea, Donosti.
Atserias, J., B. Casas, E. Comelles, M. González, L.
Padró y M. Padró (2006). FreeLing 1.3:
Syntactic and semantic services in an opensource NLP library. LREC'06, Génova, Italia.
Brent, M. R. 1993. From Grammar to Lexicon:
Unsupervised Learning of Lexical Syntax.
Computational Linguistics, 19, p. 243-262.
Briscoe, T. y J. Carroll. 1997. Automatic extraction
of subcategorization from corpora. Proceedings
of the 5th conference on Applied Natural
Language Processing, p. 356-363.
Agradecimientos
Esta investigación ha sido posible gracias al
proyecto KNOW (TIN2006-1549-C03-02) del
Ministerio de Educación y Ciencia, a una beca
Postdoctoral Beatriu de Pinós de la Generalitat de
Catalunya otorgada a Laura Alonso y a la beca
Predoctoral FI-IQUC también de la Generalitat de
Catalunya, otorgada a Nevena Tinkova, con número
de expediente 2004FI-IQUC1/00084.
130
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 131-137
recibido 16-05-2007; aceptado 22-06-2007
An Open-source Lexicon for Spanish
Montserrat Marimon, Natalia Seghezzi, Núria Bel
IULA – Universitat Pompeu Fabra
Pl. de la Mercè 10-12
08002-Barcelona
{montserrat.marimon,natalia.seghezzi,nuria.bel}@upf.edu
Resumen: En este artículo presentamos el componente léxico de una gramática para el español.
Nuestro objetivo es describir la información lingüística que codificamos en las entradas léxicas
mediante una jerarquía de tipos con herencia múltiple de la cual se pueden extraer subconjuntos
de datos necesarios para aplicaciones concretas.
Palabras clave: gramática, recursos léxicos, español.
Abstract: In this paper we describe the lexical component of a grammar for Spanish. Our aim is
to depict the linguistic information we encode in the lexical entries by means of a multiple
inheritance hierarchy of types from which subsets of data required for concrete applications
could be extracted.
Keywords: grammar, lexical resources, Spanish.
1
data required for concrete applications could be
extracted.2
Introduction
The lexical component, the repository of
knowledge about the words of a particular
language, plays a major role in NLP systems.
The level of linguistic information that the
lexicon contains –morpho-syntactic, syntactic,
semantic– is determined by the application
where it is used. The construction of lexical
resources, however, is expensive in terms of
both money and time; hence, they should be
reused by more than one application.
In this paper we describe the lexical
component of the Spanish Resource Grammar
(SRG),
a
wide-coverage
open-source1
unification-based grammar for Spanish. Ours is
a large lexicon with fine-grained information
encoded by means of a multiple inheritance
hierarchy of types. This paper aims to depict the
linguistic information we have encoded in the
lexical entries from which subsets of linguistic
2
The Spanish Resource Grammar
The SRG is grounded in the theoretical
framework of HPSG (Head-driven Phrase
Structure Grammar; Pollard and Sag, 1994)
and uses Minimal Recursion Semantics (MRS)
for the semantic representation (Copestake et
al., 2006). The SRG is implemented within the
Linguistic Knowledge Building (LKB) system
(Copestake, 2002), based on the basic
components of the grammar Matrix, an open–
source starter-kit for the development of HPSG
grammars developed as part of the LinGO
consortium’s multilingual grammar engineering
(Bender et al., 2002).
The SRG has a full coverage of close word
classes and it contains about 50,000 lexical
entries for open classes. The grammar also has
40 lexical rules to perform valence changing
operations on lexical items and 150 structure
rules to combine words and phrases into larger
2
1
The SRG may be downloaded from:
http://www.upf.edu/pdi/iula/montserrat.marimon/.
ISSN: 1135-5948
This research was supported by the Spanish
Ministerio de Educación y Ciencia Juan de la
Cierva and Ramon y Cajal programmes.
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Montserrat Marimon, Natalia Seghezzi y Núria Bel
constituents and to compositionally build up the
semantic representation.
The SRG is part of the DELPH-IN opensource repository of linguistic resources and
tools for writing (the LKB system), testing (The
[incr tsbd()]; Oepen and Carroll, 2000) and
efficiently processing HPSG grammars (the
PET system; Callmeier, 2000). Further
linguistic resources that are available in the
DELPH-IN repository include broad-coverage
grammars for English, German and Japanese as
well as smaller grammars for French, Korean,
Modern Greek, Norwegian and Portuguese.3
3
around 5,500 types), an orthography and a
semantic relation. Figure 1 shows an example.4
ejemplo_n1 := n_intr_count_le &
[ STEM < "ejemplo" >,
SYNSEM.LKEYS.KEYREL.PRED "_ejemplo_n_rel" ].
Figure 1: Example of lexical entry.
In the following subsections we focus on the
lexical types we have defined for open classes
–main verbs, common nouns, adjectives and
adverbs– and we describe the linguistic
information we have encoded in each type. Due
to space limits, we will only present the mostly
used types. Note also that even though we will
only show the most relevant LOCAL
information, open class types are also defined
by a set of NONLOCAL amalgamation types.
Through the type uninflected-lexeme we
show in Figure 2, types for open classes inherit
information common to all of them. This type
basically identifies the HOOK's features LTOP
and INDEX.
The lexicon of the SRG
The basic notion of the SRG is the sign. Briefly,
a sign is a complex feature structure which
conveys information about the orthographical
realization of the lexical sign in STEM and
syntactic and semantic information in
SYNSEM. SYNSEM structures information
related to the treatment of long distance
dependencies in NONLOCAL and LOCAL
information which includes head information
that percolates up the tree structure via HEAD,
subcategorization information in VAL(ENCE),
whose attributes are SUBJ, COMPS, SPR and
SPEC, for subject, complements, specifier and
specified element, and semantic information
encoded in CONT.
The MRS, encoded in the feature
SYNSEM.LOCAL.CONT, is a flat semantic
representation which consists of: 1) RELS - a
list of semantic relations each with a “handle”
(used to express scope relations) and one or
more roles. Relations are classified according to
the number and type of arguments; lexical
relations of the same type are distinguished by
the feature PRED; 2) HCONS - a set of handle
constraints reflecting syntactic limitations on
possible scope relations among the semantic
relations; and 3) HOOK - a group of
distinguished semantic attributes of a sign.
These attributes are: LTOP - the local top
handle, INDEX - the salient nominal instance
or event variable introduced by the lexical
semantic head, and XARG - the semantic index
of the sign's external argument.
Each entry of the lexicon consists of a
unique identifier, a lexical type (one of about
400 leaf types defined by a type hierarchy of
uninflected-lexeme := lex-item &
[ SYNSEM [
LOCAL.CONT [ HOOK [ LTOP #handle,
INDEX #ind ],
RELS.LIST < #key & relation &
[ LBL #handle,
ARG0 #ind,
PRED predsort ],... > ],
LKEYS.KEYREL #key ] ].
Figure 2: Basic type for open classes.
3.1
Common nouns
All common nouns are specified as taking an
empty list for the valence features SUBJ and
SPEC, and for MOD, since only temporal
nouns and nouns in apposition may function as
modifiers.5 Common nouns take a non-empty
list value for SPR; here agreement between
nouns and specifiers is dealt with by identifying
the INDEX of the specifier and that of the noun
(#ind), which is of type ref(erential)-ind(ex).
Finally, common nouns get the semantic
relation
type
basic-noun-relation.
This
4
The attribute SYNSEM.LKEYS.KEYREL
provides a shortcut to the semantic relation in
RELS with highest scope and it is only used in
the lexicon (see Figure 2).
5
Modifying nouns are dealt with by a unary
structure rule that generates a modifying
nominal sign.
3
See http://www.delph-in.net/.
132
An Open-Source Lexicon for Spanish
information is encoded in the type basiccommon-noun-lex, as we show in Figure 3.
both human (sergeant) and locative (cape),
takes hum_loc as value).
Nouns taking complements are classified
into three types. Then, each type is further subtyped according to such linguistic properties as
the number and category of subcategorized for
elements or the semantic relation type (i.e. the
semantic roles of syntactic arguments). These
three super-types distinguish:
1) quantifying nouns, which cover three
subtypes:
n_pseudo-part_le for
pseudo-partitive nouns (e.g. montón
(pile)), n_part_le for partitive nouns
(e.g.
mayoría
(majority))
and
n_group_le for group nouns (e.g. grupo
(group)).
2) de-verbal nouns, which cover:
the type n_subj-nom_le for subject
nominalizations
(e.g.
agresor
(attacker)).
Their
syntactic
argument is identified with the
arg2. Lexical semantic information
is given to subject nominalizations
in the lexicon itself.
nouns derived from unaccusative
verbs, which are typed either as
n_event-result_intr_le, if they are
intransitive (e.g. muerte (death)), or
as n_event-result_intr_lcomp_le, if
they take a locative complement
(e.g.
salto
a/hacia
(jump
to/towards)). These types of nouns
denote both events/processes and
results (and get the lexical semantic
type abs(tract)_pro(cess)), and they
identify the syntactic argument with
the arg2.
nouns denoting results derived from
unergative verbs (e.g. gruñido
(roar)) and intransitive verbs taking
marked NPs (e.g. lucha contra
(fight against)). These nouns are
typed as
n_result_intr_le and
n_result_intr_ppcomp_le,
respectively. Semantically, both
classes of nouns are typed as
abs(tract), and identify the first
argument with arg1 and the second
one
with
arg2.
Marking
prepositions are specified in the
lexical entries.
nouns derived from transitive (or
ditransitive)
verbs
denoting
events/processes (e.g. construcción
(construction), envío (dispatch)).
basic-common-noun-lex := uninflected-lexeme &
[ SYNSEM.LOCAL [
CAT [ HEAD noun & [ MOD < > ],
VAL [ SUBJ < >,
SPEC < >,
SPR < [ OPT -,
LOCAL.CONT.HOOK.INDEX #ind] >]],
CONT nom-obj &
[ HOOK.INDEX #ind & ref-ind & [ PNG.PN 3per ],
RELS.LIST < basic-noun-relation &
[ PRED nom_rel ],... > ] ].
Figure 3: Basic type for common nouns.
Then, lexical subtypes for nouns are
basically distinguished on the basis of valence
information and the mass / countable /
uncountable
distinction.
This
semantic
classification determines the syntactic behavior
of nouns w.r.t. the specifiers they may co-occur.
Briefly, countable nouns require an specifier
when they are in singular (e.g. se sentó en *(la)
silla ((s)he sat in (the) chair)), they may cooccur with cardinals (e.g. dos/tres sillas
two/three chairs)) and they only occur in plural
with quantifying pronouns such as poco (few)
(e.g. *poca silla/pocas sillas (few chairs));
uncountable nouns cannot co-occur with
partitives (e.g. *un trozo de paz (a piece of
peace)), nor with distributional quantifiers such
as cada (each) (e.g. *cada paz (each peace)), or
with cardinals (e.g. *tres paces (three peaces));
finally, mass nouns cannot co-occur with
cardinals (e.g. *tres aburrimientos (three
boredoms)), but they may co-occur with
partitives (e.g. un poco de aburrimiento (a little
of boredom)).
Non-argumental common nouns; i.e. nouns
taking an empty list as value for COMPS, are
classified
as
n_intr_count_le,
n_intr_uncount_le or n_intr_mass_le. Nouns
with both a count and a mass reading (e.g.
manzana (apple); pastel de manzana (apple pie)
vs tres manzanas (three apples)) are assigned
the type n_intr_mass-or-count_le. Besides, we
have two subtypes: n_intr_coll_le for collective
nouns (e.g. ejército (army)) and n_intr_plur_le
for plural nouns (e.g. celos (jealousy)). Lexical
semantic information is given to nonargumental nouns in the lexicon itself as value
of
the
feature
SYNSEM.LKEYS.
KEYREL.ARG0.SORT. We have defined a
hierarchy of types for dealing with nouns with
more than one reading (e.g. cabo, which may be
133
Montserrat Marimon, Natalia Seghezzi y Núria Bel
These nouns are typed as
n_trans_le. Semantically, they are
typed as pro(cess), and identify the
first argument with arg1 and the
second one with arg2.
3) Non-derived argumental nouns, such as
relational nouns (e.g. amigo (friend)),
body parts (e.g. pierna (leg))), deadjectival nouns (e.g. belleza (beauty),
adicción a (addiction to)) and nouns
derived from measure psychological,
inchoative and perception verbs (e.g.
peso (weight), temor (fear)), are
grouped together and distinguished
according to the number and the
category of the complements and
countability features. Table 1 shows the
subtypes we have defined for this class
of nouns. The columns refer to the type
name, the countability features –mass
(f1), count (f2), uncount (f3)–, and
subcategorized for elements: de(of)marked NPs (f4), NPs marked by other
prepositions than de (f5), finite
completive clause (f6),
infinitive
clauses (f7) and interrogative clauses
(f8). Lexical entries that belong to these
types specify both their lexical
semantic
type
and
marking
prepositions.
type
f1 f2 f3 f4 f5 f6 f7 f
8
n_ppde_count_le
-
+
-
+
-
-
-
-
n_ppde_uncount_le
-
-
+
+
-
-
-
-
n_ppde_mass_le
+
-
-
+
-
-
-
-
n_ppde_mass-or-count_le
+
+
-
+
-
-
-
-
n_cp_prop_count_le
-
+
-
-
-
+
-
-
n_cp_ques_count_le
-
+
-
-
-
-
-
+
n_ppde_ppcomp_count_le
-
+
-
+
+
-
-
-
n_ppde_ppcomp_uncount_le
-
-
+
+
+
-
-
-
n_ppde_ppcomp_mass_le
+
-
-
+
+
-
-
-
n_ppde_prop_fin_count_le
-
+
-
+
-
+
-
-
n_ppde_prop_fin_uncount_le
-
-
+
+
-
+
-
-
n_ppde_prop_inf_count_le
-
+
-
+
-
-
+
-
n_ppde_prop_inf_uncount_le
-
-
+
+
-
-
+
-
n_ppde_ques_count_le
-
+
-
+
-
-
-
+
n_ppde_ques_uncount_le
-
-
+
+
-
-
-
+
Table 1: Types for non-derived argumental
common nouns.
The SRG has 35 types for common nouns
and about 28,000 nominal entries.
3.2
Adjectives
All adjectival types inherit the information
encoded in the type basic-adjective-lex, we
show in Figure 4. This type specifies that the
value for HEAD is of type adj, the SUBJ-list is
empty, and the feature MOD takes a non-empty
list whose element is a nominal sign. The
semantic index of the element in the MOD list
is identified with the external argument of the
adjective (#ind). Finally, the basic-adjective-lex
type assigns the basic-adj-relation type to
adjectives.
basic-adjective-lex := uninflected-lexeme &
[ SYNSEM.LOCAL [
CAT [ HEAD adj &
[ MOD < [ LOCAL [
CAT.HEAD noun,
CONT.HOOK.INDEX #xarg ]] > ],
VAL.SUBJ < > ],
CONT [ HOOK.XARG #xarg,
RELS.LIST < basic-adj-relation &
[ PRED basic_adj_rel ],... > ] ] ].
Figure 4: Basic type for adjectives.
Then, adjectives in the SRG are crossclassified according to:
1) their position within the NP; i.e.
whether they are pre and/or post
modifiers (e.g. el mero hecho (the
simple fact) vs un chico listo (a clever
guy));
2) whether they are predicative or nonpredicative. Predicative adjectives are
in turn distinguished on the basis of the
copulative verb –ser or estar– they may
co-occur (e.g. ser listo (to be clever) vs
estar listo para (to be ready for));
3) whether they are gradable or not.
Gradable adjectives may be modified
by intensifying adverbs (e.g. muy
guapa (very pretty)) and may occur in
134
An Open-Source Lexicon for Spanish
comparative and measure constructions
(e.g. más alto que Juan (taller than
Juan), dos metros de largo (two meters
long));
4) whether they are intersective (the
property applies to the noun in its
absolute sense (e.g. nieve blanca (white
snow)) or scopal (the property only
applies to the modified noun (e.g.
excelente músico (excellent musician));
5) whether they are positive (e.g. bien
(good)), comparative (e.g. mejor
(better)) or superlative (e.g. (el) mejor
(best));
6) subcategorization,
where
we
distinguish intransitive adjectives (e.g.
guapa (pretty)), transitive adjectives
taking marked NPs (e.g. harto de la
situación (fed up with the situation)),
adjectives taking finite completive
clauses (e.g. contraria a que vengan
(opposed to their coming), adjectives
taking interrogative clauses (e.g. seguro
de si vendrán (sure whether they'll
come)), control adjectives (e.g. capaz
de hacerlo (capable of doing)) and
raising adjectives (e.g. difícil de tocar
(difficult to play)).
Table 2 shows the types for adjectives in the
SRG. The columns show the types and the
values they take for: their position in the NP
(f1), the copula verb with which they may cooccur (f2), whether they are gradable or not
(f3), the type of modifier they are (f4), their
degree (f5) and valence (f6); here, values are: 'i'
(intranstive), 't' (transitive), 'cc' (completive
clause), 'ic' (interrogative clause), 'sc' (subject
control), 'oc' (object control), 'sr' (subject
raising) and 'or '(object raising),
type
f1
f2
f3
f4
f5
f6
a_adv_int_le
pre
none
-
s
p
i
a_adv_event_le
pre/post
none
-
s
p
i
a_rel_prd_le
post
ser
-
i
p
i
a_rel_nprd_intr_le
post
none
-
i
p
i
a_rel_nprd_trans_le
post
none
-
i
p
t
a_rel_nprd_prop_le
post
none
-
i
p
cc
a_rel_nprd_ques_le_le
post
none
-
i
p
ic
a_qual_intr_scopal_le
pre/post
ser
+
s
p
i
a_qual_intr_ser_le
pre/post
ser
+
i
p
i
post
ser
+
i
p
i
a_qual_intr_estar_le
post
estar
+
i
p
i
a_qual_trans_ser_le
pre/post
ser
+
i
p
t
a_qual_intr_ser_pstn_le
a_qual_trans_ser_pstn_le
a_qual_trans_estar_le
post
ser
+
i
p
t
post
estar
+
i
p
t
pre/post
ser
+
i
p
cc
post
estar
+
i
p
cc
pre/post
ser
+
i
p
ic
post
estar
+
i
p
ic
a_sr_le
pre/post
ser
+
i
p
sr
a_sctrl_ser_le
pre/post
ser
+
i
p
sc
post
estar
+
i
p
sc
pre/post
ser
+
i
p
or
a_octrl_le
post
estar
+
i
p
oc
a_compar_le
pre
ser
+
i
c
t
pre/post
both
+
i
s
i
a_qual_prop_ser_le
a_qual_prop_estar_le
a_qual_ques_ser_le
a_qual_ques_estar_le
a_sctrl_estar_le
a_or_le
a_super_le
Table 2: Some types of adjectives.
Optionality is encoded in the types, which
means that all types for adjectives that take
complements have been doubled. Marking
preposition is specified in the lexical entries.
The SRG has 44 types for adjectives and
about 11,200 adjectival entries.
3.3
Adverbs
Leaving apart close classes of adverbs; i.e.
deictic adverbs (e.g. aquí (here)), relative
adverbs (e.g. donde (where)), interrogative
adverbs (e.g. cómo (how),) and degree adverbs
(e.g. casi (almost), más (more),...), we
distinguish two types of adverbs: scopal
adverbs and intersective adverbs.
As we show in Figure 5, intersective adverbs
identify their arg1 and the INDEX of the
modified element, whereas scopal adverbs
identify their own INDEX and that of the
modified element. Scopal adverbs take the
handle of the modified element as their
argument, so that the modifier outscopes the
head.
basic_intersective_adverb_lex := basic-adverb-lex &
[ SYNSEM.LOCAL [
CAT.HEAD.MOD <[LOCAL intersective-mod &
[CONT.HOOK.INDEX #ind]]>,
CONT.LKEYS.KEYREL.ARG1 #ind ] ].
basic_scopal_adverb_lex := basic-adverb-lex &
[ SYNSEM.LOCAL [
CAT.HEAD.MOD < [ LOCAL scopal-mod &
[ CONT.HOOK [ LTOP #larg,
INDEX #index]]]>,
CONT [ HOOK.INDEX #index,
HCONS <! qeq & [ HARG #harg,
LARG #larg ] !> ],
LKEYS.KEYREL.ARG1 #harg ] ].
135
Montserrat Marimon, Natalia Seghezzi y Núria Bel
Figure 5: Basic types for intersective and scopal
adverbs.
The SRG has 14 types for open classes of
adverbs and about 4,000 entries of adverbs.
Through their super-type basic-adverbsynsem, as we show in Figure 6, both subtypes
inherit information common to them, including
the HEAD adv value, the empty-list values for
both SUBJ and COMPS6 and the identification
of the external argument (XARG) of the adverb
and that of the element within the MOD list
(#xarg). The basic-adverb-synsem type assigns
the basic-adv-relation type to adverbs.
3.4
Figure 2 shows basic-main-verb-lex type, the
basic type for main verbs. This type specifies
that the HEAD value of main verbs is of type
verb and takes the negative value for the
boolean feature AUX(ILIARY), an empty list
for
MOD(IFIES)
and
identifies
the
HEAD.TAM –tense, aspect and mood– feature
with the semantic INDEX.E(VENT) (#tam).
Main verbs also take an empty list as value for
SPR and introduce an event semantic relation in
the RELS-list.
basic-adverb-lex := uninflected-lexeme &
[ SYNSEM.LOCAL [
CAT [ HEAD adv &
[ MOD < [LOCAL.CONT.HOOK.XARG #xarg] >],
VAL [ SUBJ < >,
COMPS < > ] ],
CONT [ HOOK.XARG #xarg ],
RELS.LIST < basic-adv-relation,... > ] ] ].
basic-main-verb-lex := uninflected-lexeme &
[ SYNSEM.LOCAL [
CAT [ HEAD verb & [ AUX -,
MOD < >,
TAM #tam ],
VAL.SPR < > ],
CONT [ HOOK.INDEX event &
[ E #tam ] ] ,
RELS.LIST < event-relation &
[ PRED v_event_rel ], ...> ] ] ].
Figure 6: Basic type for adverbs.
Scopal and intersective adverbs have
subtypes specifying whether they may co-occur
with degree adverbs (e.g. muy probablemente
(very probably) vs *muy diariamente (very
daily)) and the adverb placement (e.g. *no está
en casa aparentemente ((he/she) is not at home
aparently) vs sinceramente te digo/te digo
sinceramente (frankly, I tell you)), giving the
four subtypes we show in Table 3.
type
ModType
G
Figure 7: Basic type for main verbs.
Types for main verbs are first distinguished
on the value for the SUBJ-list. Thus, we have
subtypes for impersonal verbs taking an empty
SUBJ-list, verbs taking a verbal subject and
verbs taking a nominal subject. Then, each type
is sub-typed according to the value of the
COMPS-list; i.e. the number and category of
elements in the COMPS-list. Also, we
distinguish different types of verbs according
to: 1) the lexical semantic relation type in the
RELS-list; thus, for instance, intransitive verbs
are classified either as unaccusative verbs,
whose subject is identified with the arg2 (e.g.
morir (to die)), or as unergative verbs, whose
subject is identified with the arg1 (e.g. nadar
(to swim)); 2) the verb form (finite or
infinitive), mood (indicative or subjunctive) and
control relation of verbal complements; 3)
valence changing processes they may undergo.
Optionality is encoded in the types, which
means that all types dealing with optional
complements have been doubled. We also have
types for pronominal verbs. Semantic lexical
restrictions on syntactic arguments and marking
prepositions are given in the lexicon itself.
The SRG has 170 types for main verbs and
about 6,600 entries for verbs. Table 4 shows the
Position
av_s_prhd_le
scopal
-
prehead
av_s_prhd_spec_le
scopal
+
prehead
av_i_psthd_le
intersect
-
posthead
av_i_psthd_spec_le
intersect
+
posthead
Main verbs
Table 3: Some types of adverbs.
In addition, we have: one type for scopal
adverbs that only modify sentences (e.g. quizás
(maybe)), and two types for focus intersective
adverbs which distinguish adverbs that may cooccur with degree adverbs (e.g. muy
especialmente (very specially)) from those ones
which may not (e.g. *muy solamente (very
only)).
6
Adverbs taking complements, such as
detrás de (after) or antes de (before), are treated
as multi-word constructions and they get the
category preposition.
136
An Open-Source Lexicon for Spanish
most relevant types of verbs. The columns
show the types and valence information: the
category of the subject (f1; n(ominal), v(erbal),
-(no subject)) and the complements they take –
direct object (f2), indirect object (f3), finite
completive clause (f4), infinitive (f5),
interrogative clause (f6), locative complement
(f7), prepositional complement (f8), marked
completive clause (f9), marked infinitive (f10)
and marked interrogative clause (f11).
type
f f f f f f f f f f f
1 2 3 4 5 6 7 8 9 10 11
iv_strict_intr_le
- - - - - - -
- - -
-
iv_non_pass_np_le
- + - - - - -
- - -
-
iv_cp_prop_le
- - - + + - -
- - -
-
iv_subj_prop_unacc_le
v - - - - - -
- - -
-
v_subj_prop_intr_io_le
v - + - - - -
- - -
-
v_subj_prop_intr_mrkd_np v - - - - - -
+ - -
-
v_subj_prop_trans_np_le
v + - - - - -
- - -
-
v_subj_prop_trans_prop_le v - - + - - -
- - -
-
v_unacc_le
n - - - - - -
- - -
-
v_unacc_lcomp_le
n -
- - - - + - - -
-
v_intr_le
n - - - - - -
- - -
-
v_intr_mrkd_np_le
n - - - - - -
+ - -
-
v_intr_mrkd_vinf_le
n - - - - - -
- - +
-
v_intr_mrkd_prop_fin_le
n - - - - - -
- + -
-
v_intr_mrkd_ques_le
n - - - - - -
- - -
+
v_intr_io_le
n - + - - - -
- - -
-
v_trans_np_le
n + - - - - -
- - -
-
v_trans_np_mrkd_np_le
n + - - - - -
+ - -
-
v_trans_np_mrkd_vinf_le
n + - - - - -
- - +
-
v_trans_np_mrkd_prop_fin n + - - - - -
- + -
-
v_trans_np_lcomp_le
n + - - - - + - - -
-
v_ditrans_le
n + + - - - -
- - -
-
v_trans_prop_fin_le
n + - + - - -
- - -
-
v_sctrl_le
n + - - + - -
- - -
-
v_trans_ques_le
n + - - - + -
- - -
-
v_ditrans_prop_fin_le
n - + + - - -
- - -
-
v_ditrans_vinf_le
n - + - + - -
- - -
-
v_ditrans_ques
n - + - - + -
- - -
-
v_osr_le
n + - - - - -
- - -
-
open-source starter-kit for the rapid
development
of
cress-linguistically
consistent
broad-coverage
precision
grammar. In proceedings of the Workshop
on Grammar Engineering and Evaluation at
the 19th International Conference on
Computational Linguistics. Taipei, Taiwan.
Ulrich Callmeier. 2000. Pet – a platform for
experimentation with efficient HPSG
processing. Journal of Natural Language
Engineering 6(1): Special Issue on Efficient
Processing with HPSG: Methods, System,
Evaluation, pages 99-108.
Ann Copestake, Dan Flickinger, Carl Pollard
and Ivan A. 2006. Minimal Recursion
Semantics: An Introduction. Research on
Language and Computation 3.4:281-332.
Ann Copestake. 2002. Implementing Typed
Features Structure Grammars. CSLI
Publications.
Stephan Oepen and John Carroll. 2000.
Performance
Profiling
for
Parser
Engineering. Journal of Natural Language
Engineering 6(1): Special Issue on Efficient
Processing with HPSG: Methods, System,
Evaluation, pages 81-97.
Carl J. Pollard and Ivan A. Sag. 1994. Headdriven Phrase Structure Grammar. The
University of Chicago Press, Chicago.
Table 4: Some types of main verbs.
References
Emily M. Bender, Dan Flickinger and S.
Oepen. 2002. The grammar Matrix. An
137
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 139-146
recibido 18-05-2007; aceptado 22-06-2007
Towards Quantitative Concept Analysis
Rogelio Nazar
[email protected]
Jorge Vivaldi
[email protected]
Institut Universitari de Lingüística Aplicada
Universitat Pompeu Fabra
Pl. de la Mercè 10-12
08002 Barcelona
Leo Wanner
[email protected]
ICREA and Dept. de Tecnologías de la
Información y las Comunicaciones
Universitat Pompeu Fabra
Passeig de Circumval·lació 8
08003 Barcelona
Abstract: In this paper, we present an approach to the automatic extraction of conceptual
structures from unorganized collections of documents using large scale lexical regularities in
text. The technique maps a term to a constellation of other terms that captures the essential
meaning of the term in question. The methodology is language independent, it involves an
exploration of a document collection in which the initial term occurs (e.g., the collection
returned by a search engine when being queried with this term) and the building of a network in
which each node is assigned to a term. The weights of the connections between nodes are
strengthened each time the terms that these nodes represent appear together in a context of a
predefined length. Possible applications are automatic concept map generation, terminology
extraction, term retrieval, term translation, term localization, etc. The system is currently under
development although preliminary experiments show promising results.
Keywords: Corpus Linguistics; Concept Map Generation; Term Retrieval
Resumen: En este trabajo presentamos una aproximación a la extracción automática de
estructuras conceptuales a partir de colecciones desordenadas de documentos, aprovechando
regularidades léxicas a gran escala en los textos. Es una técnica para asociar un término con una
constelación de otros términos que refleje lo esencial del significado. La metodología es
independiente de la lengua. Se explora una colección de documentos donde el término inicial
aparece (como la colección que devuelve un motor de búsqueda con esa interrogación) y se
construye una red en la que cada nodo es asignado a un término. La ponderación de las
conexiones entre nodos se incrementa cuando los términos que representan aparecen juntos en
un contexto de extensión predefinida. Posibles aplicaciones son la generación automática de
mapas conceptuales, la extracción de terminología, la recuperación de términos, su traducción,
localización, etc. El sistema se encuentra actualmente en desarrollo, sin embargo experimentos
preliminares muestran resultados prometedores.
Palabras clave: Lingüística de corpus; Generación de mapas conceptuales; Recuperación de
términos
1 Introduction
In this paper, we describe an technique that,
starting from a query term provided by the user
and a document collection, generates a network
of terms conceptually related to such query
term. The resulting network is assumed to
reflect the most pertinent information found in
the collection in relation to the query term.
ISSN: 1135-5948
We call such networks concept maps since,
in accordance with the relational paradigm of
lexical memory (see, e.g., Miller, 1995), we
presuppose that the meaning of a term (i.e., a
concept) is given by all relevant relations that
hold between this term and other terms – with
the totality of these relations resulting in what is
commonly known as a map.
The generation of the conceptual maps in
our algorithm is guided by quantitative means.
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Rogelio Nazar, Jorge Vivaldi y Leo Wanner
More precisely, it is based on the most recurrent
combination patterns among terms in a given
document collection.1
The work presented here differs in both its
theoretical assumption and its objective from
the ontology generation field (cf. Buitelaar et
al., 2005 for an overview). Our work is not
ontological because we are not interested in
what something IS. Rather, we are interested in
what people usually SAY about something. We
extract a synthesis of people’s perception in
reference to a topic from a whole set of
documents rather than information from
individual sources. Furthermore, we analyze
how concepts evolve in real time as result of
massive amounts of statements disseminated
via the web. This is knowledge whose evolution
is based on the same mechanism as selforganized complex systems.
Our intuition is that this is also how
common knowledge is being developed. For
instance, common knowledge tells us that
alchemists wanted to transmute metals into
gold. And it turns out that the word alchemist
has a strong statistical association with words
such as transmute and trigrams such as metals
into gold. The present work is therefore less
related to Artificial Intelligence (AI) than it is
to linguistics. In fact, it is an example of
“artificial”-AI, because it relies on social
networks and the unconscious collaborative
work of a collective of authors.
The remainder of the paper is structured as
follows. In the next section, we present the
hypothesis underlying our work. Section 3
outlines the methodology we adopt, and Section
4 illustrates our proposal by a couple of
examples. In Section 5, a short overview of the
related work is given, before in Section 6 some
conclusions and directions for future work are
drawn.
regularities in the lexical organization of the
discourse.
Adopting the relational paradigm of the
structure of lexical memory (see above) and
assuming that the recurrent context of a term
reflects the comprehension of this term by the
speakers, we draw upon frequency distribution
as the decisive means for the construction of a
conceptual map. Further theoretical evidence
supports the idea of systematic redundancy in
the surrounding context of a term. Following
Eco (1981) we assume that textual devices such
as appositions, paraphrases or coreferences let
the writer mention attributes of a referent
without compromising assumptions on the
knowledge of the reader. The writer has a
model reader, an idea about what the reader
may or may not already know. Consider an
example:
(1) This is an image of Napoleon
Bonaparte, Emperor of the French and
King of Italy, looking unamused at...
(1) shows the use of an apposition that is
equivalent to the plain proposition:
(2) Napoleon Bonaparte was the Emperor
of the French and King of Italy.
There are myriads of utterances about
Napoleon, all different at the surface, but there
is also a space of convergence, which we
perceive as patterns of recurrent key terms –
including those that appear in (2). Thus, in the
list of most frequent terms that occur on May
3rd, 2007 in the web in the context of Napoleon
we encounter, among others: emperor, France,
Bonaparte, invasion, Russia, king, Italy, …
French, …
These units roughly follow a Zipfean
distribution: only a relative small number of
them show a significant cooccurrence and this
is why we can apply statistics to grasp them.
2 Hypothesis
The question underlying our work is: How is it
possible to distinguish relevant information
from irrelevant information with respect to a
given specific term? In particular, how is it
possible to make this distinction by means of a
formal prediction instead of subjective or
arbitrary judgment? From our point of view,
this is possible through the study of large-scale
3 Algorithm
In this paper we propose an algorithm that
accepts a term as input and uses it as query for
an off-the-shelf search engine. From the
document list retrieved by the engine, a
parameterizable number of documents is
downloaded. From these documents, the
algorithm builds a conceptual map for that
query. A vocabulary selection is performed and
only the chosen units are considered during the
1
Henceforth, we use the terms “term” and
“lexical unit” as equivalents in this paper.
140
Towards Quantitative Concept Analysis
map construction. The overall process consists
of five major steps:
A. Extraction of the contexts of the
occurrence of the query term in the document
collection. The contexts consist of a
parameterizable number of words (15 by
default) to the left and to the right of the term
(we are not interested in sentence boundary
detection since semantic association transcends
it).
B. Compilation of an index from the
extracted contexts. In addition to single tokens,
the index includes a list of bigrams and
trigrams, henceforth, n-grams (n = 2, 3). From
this index, items that begin or end with a
member of a stopword-list are excluded. This
stoplist contains punctuation marks, hyphens,
brackets, functional (i.e., closed class) words
and optionally numbers. It was extracted from
the first hundred positions in the list of word
frequencies of nine languages obtained from
Quasthoff (et al. 2005).
C. Merge of different word forms
considered to be similar.2 This procedure
identifies inflectional variations (as, e.g.,
animals and animal) and reduces them to the
same word (namely, the most frequent form
among the variations) computing a Dice
similarity coefficient with trigrams of
characters as features, only if both variants have
the first trigram in common.
D. Elimination of irrelevant terms from
the index. Further reduction of the vocabulary
is executed by removing terms and n-grams of a
frequency below a predefined threshold
(usually 4 or 5). Also, terms that appear in only
one document are eliminated. The rest is
filtered using statistical measures such as
Mutual Information (MI), t-score, and chisquare. The threshold score for the association
is another parameter, but by default it is
automatically adjusted to meet the best
conditions. The expected probability of the
occurrence of words has been extracted from
Quasthoff et al. (2005)’s model, but not with
data for low frequency words (f<6). As a result,
if a term is not listed there, it is treated as if it
was, but with the minimum frequency.
E. Construction of the conceptual map.
The algorithm reads all contexts of the query
term and if the terms encountered in these
contexts are in the selected vocabulary, each of
them is assigned to a unique node in the
network. The connections between these nodes
are strengthen each time the terms associated
with the nodes appear in a context. Every time
an edge is stimulated, the rest is weakened. As
the learning progresses, the weight of the nodes
is weakened if they were assigned a particular
term at the beginning but found no significant
connections with neighbors afterwards. At the
end of the learning process, the most
interconnected nodes are key terms related to
the meaning(s) of the query term. The nodes
also have references to the original documents
and contexts where their terms occur. The final
number of nodes is determined by an initial
parameter, and several prunes may be
conducted to reduce nodes until this number is
reached.
4 Preliminary Results
A few experiments with this algorithm showed
that it performs as expected. Currently, we are
about to carry out a more extensive and formal
evaluation that will allow us to provide exact
figures of accuracy.
To give the reader an overview of the
algorithm’s potential and applicability, we
briefly illustrate its performance in a few
applications.
4.1
Concept Mapping
The most basic application is to obtain a map of
terms conceptually related to the given query
term. The terms captured in the network of the
query term DUCKBILL PLATYPUS (Figure 1) are
precisely its salient attributes: ornithorhyncgus
anatinus; fur; swimming animal; unique
species; mammal; lay eggs; spiny anteaters;
etc.
2
Note that we do not use lemmatization and
POS-tagging. We were interested in measuring
accuracy without this type of resources.
Figure 1: Network for DUCKBILL
PLATYPUS
141
Rogelio Nazar, Jorge Vivaldi y Leo Wanner
be considered as basic vocabulary, e.g.,
mammal: mamífero, swimming animal:animal
acuático, eggs:huevos). A new search with
these translations, this time in the Spanish web,
gives rise to ornitorrinco as the most significant
MI score. Applying the same strategy we found
the Spanish equivalent of West Nile Virus.
Thus, taking first this term as query term in the
English web, we obtain easy translation words
such as mosquito, horse, infection, and
transmitted. In a second search that uses the
Spanish translations of these terms, the term
virus
del
Nilo
Occidental
emerges.
Analogously, with model reader, in the context
of semiotics, as translation equivalent of the
Spanish lector modelo, and receiver as the
equivalent of Sp. destino in the context of the
Note that the network contains most of the
terms needed for the generation of the
lexicographic
definition for
DUCKBILL
PLATYPUS:
Duckbill platypus: ornithorhyncgus
(3)
anatinus, furred swimming animal, unique
species of mammals that lay eggs, along with
the spiny anteaters.
4.2
Term Disambiguation
Given a polysemous term as a query, the
network shows clustering effects for each sense.
For instance, with the Spanish word HENO
(hay), different clusters are visible. Figure 2
shows a fragment of this network.
Figure 2: Network for HENO
At the left hand side there is one cluster
about a pathology, well differentiated from the
rest, that are about hay use in farming.
A similar clustering effect occurs with
respect to VIRUS in its biological sense
contrasted to the malicious code interpretation;
PASCAL as person and as programming
language; NLP as acronym for Natural
Language Processing and as acronym for
Neuro-Linguistic Programming, and so on.
4.3
communication theory (Figure 3).
Term Translation
Figure 3: Network for SOURCE to find
RECEIVER
A quite different application of the proposed
technique is to obtain the translation of a given
query term to another language. Let us assume
that DUCKBILL PLATYPUS was a term not yet
available in our bilingual dictionary.
The resulting network of our algorithm for
such entry includes frequent words which can
4.4
Term Localization
The same strategy applies to localization. Let us
assume that a Spaniard wants to know the
142
Towards Quantitative Concept Analysis
equivalent of aguacate (avocado) in
Argentinean Spanish. Searching AGUACATE
he/she will obtain the term persea americana as
one of the most significant collocates. A second
search with persea americana in combination
with the words nombre (name) and Argentina
suggests palta as the most obvious candidate
(we can discard spp as a possible translation).
Cf. Table 1 for the frequency rank.
Freq. rank
1
2
3
4
5
6
7
8
...
starch into glucose. Taking CATALYST and
GLUCOSE as query terms, the user obtains a
network that suggests that enzyme is a frequent
collocate of both (Table 2).
5 Preliminary Evaluation
From all the envisaged tasks mentioned in the
previous section, we are particularly interested
in bilingual lexicon extraction, because, in spite
of its character, it does not require parallel
corpora. Given an entry in a source language,
the system returns a ranked list of candidates
for translation in a target language.
Thinking of a tool for translators, we do not
worry if the correct translation is not the first
candidate, because a user, with his or her
knowledge, may choose an appropriate
translation from a short list. It is easier to
recognize a word than to remember it and, even
if it is a word the user did not know before, then
he or she may observe morphological
similarities as a clue in the case of cognates.
We conducted thus a preliminary evaluation,
only to estimate overall accuracy, with a
multilingual database of names of birds (Scory,
1997). We took a random sample of 25 entries
from a total of 700 and entered one by one the
names of the birds in English to obtain, with
our method, a list of the best candidates for
translation in Spanish. The procedure is simple:
it takes the best collocate of the query and
repeats the search with it in the Spanish corpus.
We checked whether the translation provided
by the database was among the first three
candidates in the list proposed by the system,
and depending on it we determined success or
failure of the trial.
The study showed 72% coincidence with the
database. However, if we consider the nonnormative terms as correct (they can be
adequate in some contexts), precision raises to
84%. Most often, the failure was due to
insufficient data. Some of the species are very
rare and it is hard to find documents in Spanish
about them. In some of the failed trials the
correct candidate was too low in the list
returned by the system, or was not present at
all. Table 3 shows the results of the experiment.
The first and second columns show the English
and Spanish names provided by the database,
and the third column shows the translation
proposed by our method.
Term
aguacate
spp
palta
nombre
méxico
lauraceae
familia
argentina
...
Table 1: Collocates of PERSEA AMERICANA
NOMBRE - ARGENTINA
(4) is a typical sentence encountered in the
retrieved document collection:
(4) La palta, cuyo nombre científico es
persea americana, es de la familia de
las Laureáceas, tiene su origen en
México, ...
4.5
Term retrieval
We also tested the algorithm for term retrieval,
which addresses the well-known “tip-of-thetongue” phenomenon: speakers often forget a
term but still perfectly recall the purpose of the
underlying concept or even the definition of the
term in question.
MI rank
1
2
3
4
5
...
Term
acid
catalytic
enzyme
hydrogen
oxide
...
Table 2: Collocates of CATALYST and
GLUCOSE
Let us assume that a speaker searches for the
name of the catalyst that helps to break down
143
Rogelio Nazar, Jorge Vivaldi y Leo Wanner
Scory's
English
names:
firecrest
brent
goose
curlew
sandpiper
longtailed duck
shorteared owl
Scory's Spanish
names:
reyezuelo
listado
barnacla
carinegra
correlimos
zarapitín
havelda
lechuza
campestre
song
thrush
pied
wagtail
chaffinch
zorzal
común
lavandera
de yarrell
pinzón del
hierro
stock
dove
montagu'
s harrier
oystercat
cher
whites
thrush
shorttoed lark
kentish
plover
twite
paloma
zurita
aguilucho
cenizo
ostrero
wood
pigeon
semicollared
flycatcher
coot
elegant
tern
blacknecked
grebe
brown
thrasher
king
eider
sombre
tit
blyth's
pipit
lanceolat
ed warbler
zorzal
reyezuelo
listado
barnacla de
cara negra;
ganso de collar
correlimos
zarapitín
pato
havelda
lechuza
campestre;
búho campestre
zorzal
común
lavandera
blanca
pinzón
vulgar; pinzón
común
paloma
zurita
aguilucho
cenizo
ostrero
terrera
común
chorlitejo
patinegro
pardillo
piquigualdo
paloma
torcaz
papamoscas
semicollarino
focha
común
focha
americana;
gallareta
americana
charrán
elegante
zampuln
cuellinegro
sinsonte
castaño
eider real
carbonero
lugubre
bisbita de
blyth
buscarla
lanceolada
6 Related Work
There are many works that represent the
meaning of a term as a network of
interdependent nodes labeled by terms, related
by edges labeled by predicates. This is the idea
behind the Concept Maps (Novak and Cañas,
2006); the Topic Maps (Rath, 1999; Park and
Hunting, 2003); the Semantic Web (Shadbolt et
al., 2006), among others. Other formalisms,
such as semantic networks, may be used to
represent concepts and their relationships. A
lexical database of such as WordNet (Fellbaum,
1998) is a well known example.
Given the popularity of a search engine such
as Kartoo.com (Baleydier and Baleydier, 2006),
of the VisualThesaurus.com (Thinkmap Inc.,
2004), of a graphical version of Google
(Shapiro, 2001) as well as of a variety of other
similar representations (Dodge, 2004; Lima,
2005), the idea of a conceptual structure as a
net of interdependent nodes is already in the
visual imagery of the society. All these
representations have in common the goal to
transform knowledge serially encoded in text
into a topographic structure.
The work related to the automatic generation
of conceptual structures involves two fields:
term extraction and conceptual relation
extraction. For the former, there are several
techniques not mentioned in this paper (Vivaldi,
2001, for an overview). For the later, there is
also a large body of work.
It is possible to extract semantic relations
searching for sentential patterns that provide
evidence that between the units X and Y the
relation Z holds. For example, X being
hyponym of Y, common pattern of this type are
<X>is a type of <Y>, or <Y> such as <X>;
<W>,<X>, and other <Y>, etc. It is also
possible to infer taxonomies from patterns of
term variation, for example by the inference
that artificial intelligence is a kind of
zorzal
terrera
común
chorlitejo
patinegro
pardillo
piquigualdo
paloma
torcaz
papamosca
s semicollarino
charrán
elegante
zampuln
cuellinegro
with Dark-eyed Junco, that should be translated
as Cingolo pizarroso, but in some variants of
Spanish it is called junco ojioscuro. Grey-tailed
Tattler is translated as Archibebe gris, but we
found playero de siberia (in French it is
Chevalier de Sibérie). This term variation is a
problem for the measure of precision, because
we are then evaluating not only the
performance of the algorithm, but also the
difference that exists between normative
terminology and real use.
Our method:
sinsonte
-
Table 3: Evaluation of the results
Scory's database is incomplete and we were
able to find some missing names, as well as
other variants from the different variations of
the geographically extended Spanish language.
For example, Booted Eagle can be águila
calzada or aguililla calzada; the Northern
Oriol should be Ictérido anaranjado but the
variant turpial norteño is also used, the same
144
Towards Quantitative Concept Analysis
our technique by an algorithm that
automatically loops through all the records of
the birds database and compares them with the
translations provided by our system. This will
yield better estimations. We also plan to
evaluate the concept maps obtained from the
queries with expert users of different areas.
Another direction of improvement is a 3D
interactive and navigable model of the concept
maps since the 2D model entails visualization
difficulties. Finally, a web-based version of the
prototypical implementation of the technique
will be made available soon for free
consultation.
intelligence. Many authors advocate a symbolic
approach of this kind; cf., among others,
(Hearst, 1992; Godby et al, 1999; Sowa, 2000;
Popping, 2000; Ibekwe-SanJuan and SanJuan,
2004).
A different strand uses statistical methods
for the extraction of association between terms.
Studies of syntagmatic cooccurence for
collocation extraction are Church and Hanks
(1991); Evert (2004); Kilgarriff et. al (2004);
Wanner et al. (2006); among others. Studies of
paradigmatic similarity based on vector
comparison include Grefenstette (1994); Shütze
and Pedersen (1997); Curran (2004). These
studies are based on the distributional
hypothesis that similar words appear in similar
contexts. Studies on graphs drawn by
cooccurence data include Phillips (1985);
Williams (1998); Magnusson and Vanharanta,
(2003); Böhm et al. (2004); Widdows, (2004)
and Veronis (2004). Use of graphs is an
efficient method in tasks like word
disambiguation. By detecting hubs in the
graphs, word senses can be determined in a text
collection without resort to dictionaries.
Acknowledgments
We would like to thank the anonymous
reviewers for their constructive comments. This
paper was supported by the ADQUA
scholarship granted to the first author by the
Government of Catalonia, Spain, according to
the resolution UNI/772/2003.
8 References
Baleydier, L and N. Baleydier. 2006.
Introducing
Kartoo.
KARTOO
SA.
http://www.kartoo.net/e/eng/doc/introducing
_kartoo.pdf [accessed April 2007].
Böhm, K., L. Maicher, H. Witschel, A.
Carradori. 2004. Moving Topic Maps to
Mainstream - Integration of Topic Map
Generation in the User's Working
Environment. In: J.UCS, Proceedings of IKNOW'04.241-251
Buitelaar, P., P. Cimiano, B. Magnini. 2005.
Ontology Learning from Text: An
Overview. In Buitelaar, Cimiano and
Magnini (Eds.), Ontology Learning from
Text:
Methods,
Applications
and
Evaluation,3-12, IOS Press.
Church, K. and P. Hanks. 1991. Word
Association Norms, Mutual Information and
Lexicography, Computational Linguistics,
16(1):22-29.
Curran, J. (2004). From Distributional to
Semantic Similarity. PhD thesis, University
of Edinburgh.
Dodge, M. 2007. An Atlas of Cyberspaces:
Topology of Maps of Elements of
Cyberspace.
http://www.cybergeography.org/atlas/topolo
gy.html [accessed April 2007].
7 Conclusions and future work
We have presented a technique for the analysis
of concepts and their relations from a purely
statistical point of view, without use of direct
human judgment or any compiled knowledge
from the domain or the language. As a useful
metaphor, what we do is to take a picture of the
meaning of a term. However, it is also an
explicative model as it proposes a reason why it
is possible that this technique works, and it is
predictive as it has the power to generalize to
different contexts and languages.
We contribute to the studies on word
cooccurrence in several areas. Contrary to cited
authors, our approach is language independent.
In addition, we use it for concept map
generation and a variety of new applications.
We also extend it to experimentation with
multilingual corpora.
The work offers prospective engineering
applications, but it is also a study of
terminology in itself, of the behavior of terms,
and not of the terminology of a specific
language nor domain. This is, therefore, still in
the scope of the interests of linguistics.
Future work will evolve in several
directions. Foremost, an extensive evaluation is
planned. At the present we are about to evaluate
145
Rogelio Nazar, Jorge Vivaldi y Leo Wanner
monolingual corpora. In: Proceedings of the
LREC 2006, Genoa, Italy.
Rath, H. 1999. Technical Issues on Topic Maps,
STEP Electronic Publishing Solutions
GmbH.
Schütze, H. and J. Pedersen. 1997. A
cooccurrence-based thesaurus and two
applications to information retrieval.
Information Processing and Management.
33(3):307-318.
Scory, S. 1997. Bird Names, A Translation
Index. Management Unit of the North Sea
Mathematical Models and the Scheldt
estuary, Royal Belgian Institute of Natural
Sciences (RBINS).
[http://www.mumm.ac.be/~serge/birds/
accessed June 2007]
Shadbolt, N. T. Berners-lee and W. Hall. 2006.
The Semantic Web Revisited. IEEE
Intelligent Systems 21(3):96-101, May/June
Shapiro,
A.
2001.
TouchGraph
AmazonBrowser
V1.01.
TouchGraph.
http://www.touchgraph.com/TGAmazonBro
wser.html (accessed April 2007).
Sowa, J. 2000. Knowledge representation
logical, philosophical, and computational
foundations, Pacific Grove Brooks/Cole cop.
Thinkmap Inc. 2004. VisualThesaurus.com
http://www.visualthesaurus.com
(accessed
April 2007).
Veronis, J. 2004. HyperLex: Lexical
Cartography for Information Retrieval.
Computer Speech & Language, 18(3):223252.
Vivaldi, J. 2001. Extracción de candidatos a
término
mediante
combinación
de
estrategias heterogéneas. Barcelona: IULA,
Universitat Pompeu Fabra, Sèrie Tesis 9.
Wanner, L.; Bohnet, B. and Giereth, M. 2006.
Making Sense of Collocations. Computer
Speech & Language 20(4):609-624.
Widdows, D. (2004) Geometry and Meaning,
Center for the Study of Language and
Information/SRI.
Williams, G. 1998. Collocational Networks:
Interlocking Patterns of Lexis in a Corpus of
Plant
Biology
Research
Articles.
International Journal of Corpus Linguistics
3(1):151-71.
Eco, U 1981. Lector in fabula la cooperación
interpretativa en el texto narrativo,
Barcelona, Lumen.
Evert, S. (2004); The Statistics of Word
Coocurrences; PhD Thesis; IMS; University
of Stuttgart.
Godby, C.; E. Miller, and R. Reighart. 1999.
Automatically Generated Topic Maps of
World Wide Web Resources. OCLC
Library.
Grefenstette, G. (1994) Explorations in
Automatic Thesaurus Discovery, Kluwer
Academic Publishers, Norwell, MA.
Fellbaum, C. 1998. WordNet: An Electronic
Lexical Database. MIT Press.
Hearst, M. 1992. Automatic acquisition of
hyponyms from large text corpora. In
Proceedings of the Fourteenth International
Conference on Computational Linguistics.
Ibekwe-Sanjuan, F. and E. Sanjuan, 2004.
Mapping the structure of research topics
through term variant clustering: the
TermWatch system; JADT 2004: 7es
Journées
internationales
d'Analyse
statistique des Données Textuelles.
Kilgarriff, A. P. Rychly. P. Smrz. D. Tugwell.
2004. The Sketch Engine. Proceedings
EURALEX 2004, Lorient, France.
Lima,
M.
(2005);
“Visualcomplexity”
[http://www.visualcomplexity.com/vc/
accessed June 2007]
Magnusson, C. and H. Vanharanta. 2003.
Visualizing Sequences of Texts Using
Collocational Networks. In P. Perner and A .
Rosenfeld (Eds).276-283. Springer-Verlag,
Berlin, Heidelberg.
Miller, G.A. Virtual meaning. 1995. In
Gothenburg
Papers
in
Theoretical
Linguistics 75:3 – 61.
Novak, J. and A. J. Cañas. 2006. The Theory
Underlying Concept Maps and How To
Construct Them. Technical Report IHMC
CmapTools 2006-01, Florida Institute for
Human and Machine Cognition.
Park, J. and S. Hunting. 2003. XML Topic
Maps: creating and using topic maps for the
Web. Boston, Addison-Wesley cop.
Phillips, M. (1985); Aspects of Text Structure:
An Investigation of the Lexical Organization
of Text. North-Holland, Amsterdam
Popping, R. 2000. Computer - assisted Text
Analysis, London, Sage.
Quasthoff, U., M. Richter, and C. Biemann
2006. Corpus portal for search in
146
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 147-154
recibido 18-05-2007; aceptado 22-06-2007
Evaluación automática de un sistema híbrido de predicción de
palabras y expansiones
Sira E. Palazuelos Cagigas
José L. Martín Sánchez
Universidad de Alcalá
Escuela Politécnica Superior. Campus
Universitario s/n. 28805. Alcalá de Henares.
{sira, jlmartin}@depeca.uah.es
Javier Macías Guarasa
Grupo de Tecnología del Habla
Universidad Politécnica de Madrid
Ciudad Universitaria s/n. 28040. Madrid.
[email protected]
Resumen: La predicción de palabras es uno de los sistemas más utilizados para ayudar a la
escritura a personas con problemas físicos y/o lingüísticos. Últimamente la predicción de
palabras se complementa con otras estrategias para mejorar su rendimiento como la expansión
de abreviaturas o predicción de frases. En este artículo se presenta un sistema híbrido, de
predicción de palabras y predicción de expansiones (es decir, se expande la abreviatura incluso
antes de acabar de escribirla). En este sistema se permite al usuario abreviar o no cada palabra, y
reducir la carga cognitiva requerida para su utilización, ya que no se necesita memorizar
abreviaturas fijas para cada palabra. La eficiencia del sistema se evalúa en base al porcentaje de
pulsaciones que ahorra con respecto a la escritura del mismo texto sin ayuda, mostrándose
resultados de la predicción de palabras y de expansiones por separado y de la combinación de
ambos.
Palabras clave: Predicción de palabras, expansión de abreviaturas, predicción de expansiones,
modelado del lenguaje, ayudas a la escritura y comunicación para personas con discapacidad.
Abstract: Word prediction is one of the most commonly used systems to help to write people
with physical and/or linguistic disabilities. In the newest systems, word prediction is
complemented with other strategies to improve its performance, such as abbreviation expansion
or phrase prediction. In this paper, a hybrid system with prediction of words and expansions is
presented. Expansion prediction consists in expanding the abbreviation even before the user
finishes writing it. This system allows the user to abbreviate or not a word, and reduces the
cognitive load required for its use because it is not necessary to remember a fixed abbreviation
for each word. The parameter used to evaluate the efficiency of the system is the percentage of
keystrokes saved with respect to writing the text without help, and we include results of the
word prediction, the expansion prediction and the combination of both.
Keywords: Word prediction, abbreviation expansion, expansions prediction, language
modeling, technical aids for writing and communication for people with disabilities.
1
Introducción
La predicción de palabras consiste en ofrecer al
usuario posibles terminaciones al fragmento de
palabra que haya escrito, de forma que, si se
predice la palabra que busca, seleccione la
predicción y no necesite acabar de escribir la
palabra. Es una de las técnicas más utilizadas
para ayudar a escribir texto y comunicarse a
personas con distintas discapacidades.
que los usuarios con discapacidad física
necesitaban para escribir un texto, pero estudios
posteriores han demostrado que: no siempre se
produce realmente una aceleración en la
escritura (al menos en las etapas de uso
iniciales), que los usuarios con problemas
físicos valoran más la reducción de esfuerzo
físico necesario para producir el texto y que los
usuarios con problemas lingüísticos también
podían utilizarlo para producir textos más
correctos (Magnuson y Hunnicutt, 2002).
Inicialmente su objetivo era reducir el
número de pulsaciones (y con ello el tiempo)
ISSN: 1135-5948
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Sira Elena Palazuelos Cagigas, José Luis Martín Sánchez y Javier Macías-Guarasa
Para generar la lista de palabras predichas se
utilizan diferentes técnicas de modelado del
lenguaje como las descritas en (Allen, 1994).
Numerosos sistemas usan modelos basados en
n-gramas para generar las palabras predichas,
como, por ejemplo, el descrito en (Lesher,
Moulton y Higginbotham, 1999), que muestra
unos resultados de 54,7% para trigramas con
listas de predicción de 10 palabras para inglés.
(Carlberger et al, 1997) presenta un sistema de
predicción para sueco, inglés, danés, noruego,
francés, ruso y español basado en ngramas y en
información de las últimas palabras utilizadas
(recency). En versiones previas, como la
descrita en (Hunnicutt, 1989) utilizaban
también información semántica en el proceso de
predicción. En la versión siguiente han
incorporado modelos de Markov para palabras
y categorías (Hunnicutt y Carlberger, 2001)
presentando un ahorro de pulsaciones para
sueco de un 46% con una lista de 5 palabras
predichas. En (Garay-Vitoria y GonzalezAbascal 1997) se presenta un sistema basado en
un chart parser, que más tarde han adaptado a
las características particulares del vasco, idioma
con un alto grado de flexión en (Garay-Vitoria,
Abascal y Gardeazabal, 2002). En este último
artículo proponen utilizar gramáticas con reglas
que describan la sucesión de categorías que
forman una categoría compuesta, y la
predicción basada en morfemas con posibilidad
de aceptación de palabras completas. El
resultado que consiguen para vasco con listas
de 5 palabras predichas es aproximadamente del
43%.
habla de predicción flexible de expansiones: se
proponen expansiones al fragmento escrito de la
abreviatura en curso (aunque no se haya
acabado de escribir). Otra diferencia es que las
palabras, en este trabajo, no tienen asignadas
abreviaturas fijas, sino que cada persona puede
abreviarlas como desee mientras siga ciertas
reglas de compresión. También difiere de los
anteriores en que propone un sistema de
expansión directamente supervisado por el
usuario, es decir, se predicen las expansiones a
la vez que se escribe el texto y se muestran al
usuario las candidatas para que él elija la
deseada y la inserte, obteniendo así un texto
final totalmente correcto, sin margen de error.
En la actualidad la predicción de palabras
está siendo complementada con otras técnicas
como la expansión de abreviaturas (Lesher y
Moulton, 2005), (Willis et al., 2002) y (Willis,
Pain y Trewin, 2005), y la predicción de frases
(Väyrynen, Noponen y Seppänen, 2007).
Los diccionarios contienen palabras y
unidades multipalabra y toda la información
(gramatical y probabilística) que necesitan los
métodos de predicción. El sistema contiene un
diccionario general para castellano de más de
150.000 entradas, y diccionarios temáticos y
personales adaptables al usuario y a la temática
del texto que se está escribiendo, que aumentan
la probabilidad de predicción de las palabras
que ya se han escrito en el texto o que han
aparecido en textos sobre el mismo tema.
Además, también se han entrenado de forma
automática diccionarios para otros idiomas,
como el inglés o el portugués.
La estructura del artículo es la siguiente: en
primer lugar se describe brevemente la
arquitectura del sistema de predicción de
palabras y expansiones. A continuación se
muestran los resultados de ambos sistemas de
predicción por separado y combinados.
Finalmente, se exponen las conclusiones.
2 Descripción del sistema de predicción
de palabras y expansiones
El algoritmo de predicción (tanto de palabras
como de abreviaturas) consta básicamente de
tres bloques que son explicados en detalle en
(Palazuelos, 2001) y (Palazuelos et al, 2006):
x Diccionarios.
x Modulo de predicción.
x Interfaz de usuario.
Los algoritmos de expansión de abreviaturas
se pueden dividir en fijos y flexibles. En su
gran mayoría desarrollan mecanismos de
desabreviación automática y aceptan cierto
margen de error como (Willis et al., 2002),
(Willis et al., 2005). La diferencia fundamental
de los sistemas del mercado y el descrito en
(Palazuelos et al., 2006), que es evaluado en
este artículo, es que los algoritmos de
expansión
de
abreviaturas
revisados
anteriormente expanden una abreviatura
después de que ésta haya sido escrita
completamente, mientras que en este artículo se
Los métodos de predicción, a partir del
texto escrito por el usuario, proponen
restricciones que deben cumplir las palabras
siguientes (categoría gramatical y su
probabilidad, concordancias, etc.). Los métodos
148
Evaluación Atomática de un Sistema Híbrido de Predicción de Palabras y Expansiones
comiencen exactamente por el fragmento
escrito de la palabra en curso, y cumplan las
restricciones impuestas por los métodos de
predicción.
de predicción disponibles están basados en
secuencias de hasta 6 palabras (n-gramas), hasta
3 categorías (n-POS) y un analizador basado en
una gramática independiente del contexto, cuya
potencia ha sido aumentada de forma
importante para soportar: gestión de
probabilidades
de
reglas,
ambigüedad
(gramatical) de las palabras, posibilidad de que
en la regla haya elementos (terminales o no
terminales) opcionales, posibilidad de que los
símbolos no terminales sean tanto categorías
gramaticales como significantes o lemas
(imponiendo las reglas de concordancia de
rasgos adecuadas), posibilidad de prohibir un
determinado significante o lema en una
posición determinada de una regla, y un potente
sistema de tratamiento de rasgos, que permite
tanto controlar la concordancia entre los
distintos símbolos (terminales y no terminales),
como imponer o prohibir rasgos en cualquier
símbolo de una regla.
El algoritmo de predicción de expansiones
propuesto tiene un funcionamiento similar al de
predicción de palabras, pero, a la hora de
comparar el fragmento escrito de la palabra en
curso con las palabras del diccionario, aplica
una serie de reglas de expansión, tales como:
La interfaz de usuario se encarga de
recoger el texto que está siendo escrito, recibir
las restricciones de los métodos de predicción a
partir de ese texto, obtener de los diccionarios
el listado de palabras que cumplen dichas
restricciones y mostrarle las más probables al
usuario como listado de palabras predichas.
La
Figura 1 muestra un teclado virtual que
incluye los algoritmos de predicción de palabras
y de expansiones. La predicción, además, está
incluida en otros sistemas de ayuda a personas
con discapacidad como el sistema de
comunicación Comunicador, aplicación de
acceso gráfico a mensajes descrita en
(Palazuelos 2005), o PredWin, editor de texto
con acceso por barrido muy utilizado en España
por la comunidad de personas con graves
discapacidades físicas (Palazuelos 2001).
x
Aplicación de los heurísticos más
frecuentes, por ejemplo, fonéticos o de
sustitución (x=por).
x
Búsqueda en diccionarios por similitud
de cadena teniendo en cuenta que puede
haber letras eliminadas.
x
Expansión fija por medio de tablas de
pares abreviatura-expansión.
x
Se está estudiando la inclusión de
aprendizaje
automático
de
abreviaturas, aunque el hecho de que
el sistema sea flexible hace que el
aprendizaje se reduzca a los heurísticos
y las tablas fijas.
El algoritmo de expansión es explicado en
detalle en (Palazuelos et al., 2006).
3
Evaluación automática del sistema
La importancia de la predicción radica, no sólo
en su capacidad para acelerar la tasa escritura o
la comunicación, sino también en el aumento en
la calidad del texto generado por una persona, y
la disminución del esfuerzo, tanto físico como
cognitivo, necesario para escribirlo. Estos y
otros resultados se muestran en (Magnuson y
Hunnicutt, 2002) en un estudio a largo plazo, en
el que se pudo constatar tanto la reducción en el
número de pulsaciones como la aceleración en
la escritura a lo largo de los 13 meses de
duración del experimento.
La disminución en el esfuerzo cognitivo,
(especialmente en personas con dislexia, que
cometen demasiadas faltas de ortografía o con
cualquier otro problema que provoque que
generen textos de baja calidad) es muy
difícilmente evaluable de forma automática, y
se deja la valoración a expertos que puedan
comprobar el aumento en la calidad de los
textos generados. Este aumento en la calidad
suele conllevar un aumento en la cantidad, ya
que los usuarios se sienten más capaces de
Figura 1: Ventana de edición de la aplicación
Comunicador, incluyendo la lista de palabras y
expansiones predichas tras escribir “Tel”
A partir de la información de los
diccionarios y los métodos de predicción, el
algoritmo de predicción de palabras mostrará al
usuario las palabras más probables que
149
Sira Elena Palazuelos Cagigas, José Luis Martín Sánchez y Javier Macías-Guarasa
escribir textos correctos, y se produce una
realimentación positiva en el proceso.
físicas, normalmente no escriben textos muy
grandes en cada sesión.
En cuanto a la evaluación de la disminución
del esfuerzo físico que se produce por la
realización de las pulsaciones necesarias para
escribir el texto, la métrica que mejor lo refleja
es el porcentaje de ahorro de pulsaciones con
respecto a la escritura sin ayuda de predicción.
Este parámetro sí puede ser evaluado de forma
automática.
Como referencia se contabiliza la cantidad
de pulsaciones necesaria para escribir el texto
sin ningún algoritmo de ayuda cuyos datos se
muestran en la Tabla 1.
Nombre texto de prueba
Número de palabras
Num. pulsaciones para
escribirlo sin ayuda
Hemos de considerar que, además de los
muchos factores que influyen en la eficacia de
la predicción (tanto el idioma, como la
configuración del sistema de predicción o de la
propia interfaz donde esté instalado (Palazuelos
et al., 1999) como subjetivos por preferencias
del usuario), si el sistema de predicción no es
capaz de predecir la palabra adecuada y reducir
el número de pulsaciones necesarias, los demás
factores serán irrelevantes (Trnka et al., 2005).
Por eso es tan importante realizar una
evaluación automática del porcentaje de
pulsaciones ahorrado.
“Cuentos variados”
2000
11969
Tabla 1: Datos sobre el texto de prueba
3.1 Evaluación automática del
algoritmo de predicción de palabras
En el primer experimento se utiliza predicción
de palabras, con 5 candidatas en la lista de
predicción, sin ningún tipo de ayuda gramatical,
solamente la información estadística contenida
en el diccionario general (de más de 150.000
entradas) obteniéndose los resultados que se
muestran en la Tabla 2.
Para realizar una evaluación automática del
sistema, se utiliza un modelo de usuario que
simula a una persona escribiendo texto y
eligiendo siempre las predicciones correctas
cuando se muestran (usuario perfecto). Se toma
el texto carácter a carácter y se llama al
algoritmo de predicción que hace una propuesta
de las posibles palabras predichas después de
escribir cada letra. Si alguna de estas palabras
se corresponde con la que se está intentando
escribir, el sistema la elige, contabilizándola
como palabra predicha correctamente y
acumulando el ahorro de pulsaciones que
produce.
Nombre texto de prueba
Número de palabras
Núm. pulsaciones con
predicción de palabras sin
ayuda gramatical
% ahorro de pulsaciones
“Cuentos variados”
2000
7937
33,68%
Tabla 2: Resultados de la predicción de
palabras sin ayuda gramatical
Posteriormente se introduce el análisis
gramatical basado en secuencias de categorías
gramaticales (POS, parts of speech), bipos y
tripos (Allen, 1994).
La selección de los textos de entrenamiento
y prueba constituye uno de los aspectos más
importantes a la hora de realizar la evaluación
de cualquier técnica de procesamiento del
lenguaje natural (PLN) y se realiza teniendo en
cuenta aspectos explicados en (Palazuelos,
2001). En esta serie de experimientos se
deseaba evaluar la calidad en la escritura de
texto (uso habitual de PredWin, editor de texto,
y del teclado virtual, dos de las aplicaciones
donde está incluida la predicción), no de
conversación (como Comunicador). Se utilizó
un texto de prueba resultado de la combinación
de varios cuentos, con una longitud de 2000
palabras, teniendo en cuenta que los usuarios de
estos sistemas, con graves discapacidades
Nombre texto de prueba
Número de palabras
Num. pulsaciones para
escribirlo con predicción de
palabras utilizando tripos
% ahorro de pulsaciones
“Cuentos variados”
2000
7701
35,65%
Tabla 3: Resultados de la predicción de
palabras usando tripos
150
Evaluación Atomática de un Sistema Híbrido de Predicción de Palabras y Expansiones
Según puede verse en la Tabla 3, el ahorro
de pulsaciones mejora en un 1,97 % con
respecto al anterior.
Si, además, incorporamos la utilización de
los n-gramas y el diccionario del texto en curso,
el ahorro es mucho mayor como podemos
observar en la Tabla 4.
Nombre texto de prueba
Número de palabras
Num. pulsaciones con
predicción de palabras
utilizando tripos, n-gramas
y diccionario en curso
% ahorro de pulsaciones
x Se incluye una estrategia de compresión
fija con tabla, es decir, si una palabra o
secuencia de palabras está en dicha tabla,
se sustituye directamente por la
abreviatura asociada.
x Las palabras menos frecuentes se
mantienen sin comprimir, ya que la
probabilidad de que el sistema las
descomprima es reducida. Debemos
considerar que deseamos un texto
totalmente libre de error, es decir, que si
la abreviatura se acaba de escribir y no se
ha descomprimido, el sistema simulará
un retroceso, y reescribirá la palabra sin
comprimir (sumando las pulsaciones
necesarias para realizar todo este
proceso). Si al comprimir el texto
dejamos sin abreviar las palabras menos
frecuentes este proceso se elimina, o al
menos se reduce, penalizando menos los
resultados. Hemos de tener en cuenta que
los usuarios también comprimen
poco/nada las palabras poco frecuentes,
para evitar que quien lea el mensaje
pueda pensar que la abreviatura se
corresponde con otra palabra más
frecuente.
“Cuentos variados”
2000
7243
39,48%
Tabla 4: Predicción de palabras con tripos, ngramas y el diccionario de texto en curso
Los resultados de la Tabla 4 muestran que al
utilizar los n-gramas, además de los bipos,
tripos y el diccionario de texto en curso, se
produce una mejora de un 3,83% respecto a los
resultados obtenidos aplicando solo tripos y de
un 5,8% si no se aplica ningún mecanismo de
ayuda gramatical durante la predicción.
3.2 Evaluación automática del
algoritmo de predicción de expansiones
Este archivo comprimido es el utilizado para
realizar la evaluación automática. No obstante
se realizarán futuras evaluaciones con usuarios
reales donde se espera conseguir mejores
resultados, teniendo en cuenta que la
inteligencia del usuario hará que utilice la
estrategia óptima en base al funcionamiento de
la expansión.
Los parámetros de evaluación son los mismos
que para la predicción de palabras. La
evaluación automática es realizada con un
modelo de usuario más complejo que el de la
predicción de palabras, ya que debemos
considerar que escribe texto abreviado. Por esto
necesitamos utilizar dos ficheros: el texto con el
que deseamos realizar la evaluación y su
versión abreviada.
Además, se ha incluido en la evaluación otra
circunstancia que también puede darse en casos
reales: si el usuario está utilizando el sistema
para comunicarse, necesita velocidad y que el
texto sea comprensible, aunque no sea perfecto,
y premiará la rapidez a la corrección total. En
este caso puede que no corrija las abreviaturas
que no se expandan si el texto resultante se
puede entender sin dificultad. Se ha introducido
esta posibilidad en el sistema, y en los
experimentos
se
proporcionan
también
resultados considerando que puede haber
margen
de
error
(abreviaturas
sin
descomprimir).
En esta serie de experimentos se ha utilizado
el mismo texto de prueba que en los
experimentos anteriores. A continuación se
evalúa el ahorro de pulsaciones aplicando
Debido a la dificultad para disponer de
corpus paralelos abreviados y sin abreviar, ha
sido necesario implementar un proceso para
comprimir automáticamente los ficheros de
prueba, aplicando las siguientes técnicas de
compresión (que intentan imitar en lo posible
las estrategias de compresión habituales de los
usuarios de teléfono móvil):
x Las palabras más frecuentes se
comprimen
aplicando
heurísticos
(fonéticos, etc.)
x Se eliminan las letras cuyo porcentaje de
aparición en el texto supere un 2%
151
Sira Elena Palazuelos Cagigas, José Luis Martín Sánchez y Javier Macías-Guarasa
por separado. Se comparan los resultados dando
prioridad a cada uno de los algoritmos de
predicción. Esto quiere decir que en cada
experimento se puede decidir cual de los dos
algoritmos será el primero en realizar la
propuesta de palabras predichas, y si una vez
rellena esta lista de posibles palabras, esta no
está completa, se llama al otro algoritmo de
predicción para que la complete con su
propuesta. Es decir, por cada letra que
introduzca el usuario, se mostrará una lista de
cinco posibles palabras procedentes del
algoritmo prioritario o de los dos.
En la Tabla 7 se muestran los resultados
obtenidos al darle prioridad al algoritmo de
predicción de expansiones frente al de
predicción de palabras. Según puede apreciarse,
los resultados mejoran un 3% respecto a la
aplicación del algoritmo de predicción de
expansiones por sí solo, sin tener en cuenta
errores.
únicamente el algoritmo de predicción de
expansiones, haciendo uso de tripos y n-gramas
aplicadas a los diccionarios general y personal.
Los resultados obtenidos se muestran en la
Tabla 5.
Nombre texto de prueba
Num. pulsaciones con
predicción de expansiones
sin error
Ahorro de pulsaciones
“Cuentos variados”
6461
46,01%
Tabla 5: Predicción de expansiones sin error
Si no se tienen en cuenta los retrocesos, es
decir, si se admite un cierto porcentaje de
abreviaturas sin descomprimir (margen de
error), los resultados obtenidos se muestran en
la Tabla 6.
Nombre texto de prueba
Num. pulsaciones con
predicción de expansiones
con error
Ahorro de pulsaciones
“Cuentos variados”
Nombre texto de prueba
Num. pulsaciones ambos
algoritmos prioridad
expansión sin error
Ahorro de pulsaciones
6415
46,40%
“Cuentos variados”
6094
49,08%
Tabla 6: Predicción de expansiones con error
Tabla 7: Combinación de algoritmos dando
prioridad a la predicción de expansiones
Estos resultados se obtuvieron con un
porcentaje de error de un 0,6%, muy bajo
respecto a otros sistemas revisados como el
descrito en (Shieber y Baker, 2003) que
presenta un 3%.
Según puede apreciarse, el sistema de
predicción de expansiones sin error obtiene un
ahorro de pulsaciones de un 46,01% y con error
se ahorra un 46,40%, implicando un incremento
del 0,39% en el ahorro de pulsaciones. Además,
se puede observar que las mejoras con respecto
a la predicción de palabras (Tabla 4) son de
6,53% y 6,92% respectivamente.
Por otro lado, si se da prioridad a la
predicción de palabras, los resultados obtenidos
se muestran en la Tabla 8.
Nombre texto de prueba
Num. pulsaciones
ambos algoritmos
prioridad predicción sin
error
Ahorro de pulsaciones
3.3 Eficacia de la combinación de los
algoritmos de predicción de palabras y
expansiones
“Cuentos variados”
5606
53,16%
Tabla 8: Combinación algoritmos dando
prioridad a la predicción de palabras
Es posible configurar el modelo de usuario para
que se pueda introducir texto normal y
abreviado, y el programa es capaz de generar
una lista de posibles palabras predichas
combinando las propuestas de los algoritmos de
predicción de palabras y expansiones.
En esta sección se evalúa la eficacia de la
combinación de estos dos algoritmos con
respecto a la utilización de cada uno de ellos
En este caso el ahorro de pulsaciones mejora
más de un 4% con respecto a los resultados
obtenidos dando prioridad a la predicción de
expansiones.
4
Conclusiones
En este artículo se evalúa la eficacia de los
algoritmos de predicción de expansiones y
152
Evaluación Atomática de un Sistema Híbrido de Predicción de Palabras y Expansiones
palabras que se utilizan en varios sistemas de
ayuda a la escritura y comunicación para
personas con discapacidad. Para realizar la
evaluación automática de los algoritmos
presentados se ha diseñado un modelo de
usuario capaz de simular la entrada de texto en
cada caso.
En primer lugar se exponen los resultados
obtenidos aplicando sólo el método de
predicción de palabras. La introducción de
información gramatical permite que no se
presenten
al
usuario
predicciones
gramaticalmente incorrectas, y esto produce una
mejora en los resultados obtenidos de un
1,97%, además de una mejora subjetiva en la
calidad apreciada por el usuario. En el siguiente
experimento, además de los tripos, se utilizan
los n-gramas y el diccionario personal, logrando
un ahorro de pulsaciones de un 39,48% que
equivale a una mejora de un 3,83% respecto al
método anterior.
Posteriormente se evalúan los resultados
considerando que el usuario escribe texto
abreviado y se aplica el algoritmo de
predicción de expansiones. También se
considera si se admite un margen de error en
el texto o no (el porcentaje de error obtenido no
supera el 0,6% en ningún caso). El ahorro de
pulsaciones obtenido sin error fue de un
46,01% mejorando los resultados obtenidos con
los algoritmos de predicción de palabras en un
6,9%.
La combinación de los dos algoritmos de
predicción permite que el usuario introduzca
texto abreviado o texto normal, y produce los
mejores resultados cuando se da prioridad a la
predicción de palabras con un ahorro de
pulsaciones en el orden de un 53,16% libre de
error, lo cual supera en un 4% al algoritmo que
da prioridad da la predicción de expansiones, en
más de un 7% al mejor de los algoritmos de
predicción de expansiones y en casi un 14% al
mejor algoritmo de predicción de palabras.
Por último, debemos considerar que la
introducción de estos algoritmos en el sistema
de ayuda a la escritura y/o comunicación no
sólo ofrece ventajas cuantitativas en base al
ahorro de pulsaciones, sino que también da
flexibilidad al usuario a la hora de abreviar,
permitiendo que comprima cada vez de una
manera diferente y no necesite recordar la
abreviatura asignada a cada palabra, por lo
tanto, reduce la carga cognitiva que supondría
memorizarlas.
Bibliografía
Allen,
J.
1994.
“Natural
language
Understanding”.
Benjamin/Cummings
Publishing Company Inc 2ª Ed.
Carlberger A., Carlberger J., Magnuson T.
Hunnicutt S., Palazuelos-Cagigas S.,
Aguilera Navarro S. 1997. Profet, a new
generation of word prediction: An
evaluation
study.
Proceedings,ACL
Workshop on Natural language processing
for communication aids, 23–28, Madrid.
Garay-Vitoria N. and Gonzalez-Abascal. J.
1997. Intelligent word prediction to enhance
text input rate (a syntactic analysis-based
word prediction aid for people with severe
motor and speech disability). In Proceedings
of the Annual International Conference on
Intelligent User Interfaces, 241–244.
Garay-Vitoria N. Abascal J., Gardeazabal L.
2002. “Evaluation of Prediction Methods
Applied to an Inflected Language”. Lecture
Notes In Computer Science; Vol. 2448.
Proceedings of the 5th International
Conference on Text, Speech and Dialogue
Pages: 389 – 396. ISBN:3-540-44129-8.
Hunnicutt, S. 1989. “Using Syntactic and
Semantic Information in a Word Prediction
Aid”. Proc. Europ. Conf. Speech Commun.
Paris, France. September 1989, vol. 1.
páginas: 191-193.
Hunnicutt S., Carlberger J. 2001. “Improving
Word prediction using Markov models and
heuristic methods”. Augmentative and
Alternative Communication, Volume 17,
Issue 4 December, pages 255 – 264.
Lesher, G.W., Moulton, B.J., Higginbotham,
D.J. (1999). Effects of ngram order and
training text size on word prediction.
Proceedings of the RESNA'99 Annual
Conference, 52-54, Arlington, VA: RESNA
Press.
Lesher G., Moulton B., 2005. “An introduction
to the theoretical limits of abbreviation
expansion performance”. 28 Annual RESNA
Conference
Proceedings.
http://www.
dynavoxtech.com/files/research/LeMo05.pdf
Magnuson T., Hunnicutt S., 2002. “Measuring
the effectiveness of Word prediction: The
advantage of long-term use”. Speech, Music
153
Sira Elena Palazuelos Cagigas, José Luis Martín Sánchez y Javier Macías-Guarasa
and Hearing, KTH, Estocolmo, Suecia.
TMH-QPSR. Volumen 43: 57-67.
prediction system with multiple prediction
methods”. Computer, Speech & Language
Volume 21. Issue 3. Páginas 479-491. Julio.
Palazuelos S. E., Aguilera S., Rodrigo J. L.,
Godino. J., Martín J. 1999. Considerations
on the Automatic Evaluation of word
prediction systems. Augmentative and
Alternative Communication: New Directions
in Research and Practice. Pags: 92-104.
Whurr Publishers. Londres.
Willis T., Pain H., Trewin S., Clark S. 2002.
“Informing Flexible Abbreviation Expansion
for users with motor disabilities”. Lecture
Notes In Computer Science; Vol. 2398
Proceedings of the 8th International
Conference on Computers Helping People
with Special Needs. Páginas: 251 – 258.
ISBN: 3-540-43904-8.
Palazuelos Cagigas S. 2001. “Aportación a la
predicción de palabras en castellano y su
integración en sistemas de ayuda a personas
con discapacidad física”. Tesis Doctoral.
Willis T., Pain H., Trewin S. 2005. “A
Probabilistic
Flexible
Abbreviation
Expansion System for Users With Motor
Disabilities”. School of Informatics,
University of Edinburgh.
Palazuelos Cagigas S. E., Martín Sánchez J. L.,
Arenas García J., Godino Llorente J. I.,
Aguilera Navarro S. 2001. “Communication
strategies using PredWin for people with
disabilities”. Conference and Workshop on
Assistive Technology for Vision and
Hearing Impaired. Castelvecchio Pascoli,
Italia. Agosto.
Palazuelos Cagigas S. E., Martín Sánchez J. L.,
Domínguez Olalla L. M. 2005. “Graphic
Communicator with Optimum Message
Access for Switch Users”. Assistive
technology: from virtuality to reality. Pags:
207-211. ISBN: 1-58603-543-6. ISSN:
1383-813X. Ed. IOS Press (A. Pruski y H.
Knops).
Palazuelos Cagigas S. E., Martín Sánchez J. L.,
Hierrezuelo Sabatela L., Macías Guarasa J.
2006. “Design and evaluation of a versatile
architecture for a multilingual word
prediction system”. LNCS (Lecture Notes in
Computer Science) 4061. Computers
Helping People with Special Needs.
Springer-Verlag.
Editores:
Klaus
Miesenberger, Joachim Klaus, Wolfgang
Zagler, Arthur Karshmer. ISBN: 3-54036020-4. Páginas 894-901.
Trnka, K., Yarrington, D., McCoy, K.,
Pennington, C., 2005. “The Keystroke
Savings Limit in Word Prediction for AAC”.
http://hdl.handle.net/123456789/149.
Shieber S., Baker E. 2003. “Abreviated Text
Unput”, IUI’03, Miami, Florida, USA. ACM
1-58113-586-6/03/0001. 12-15 Enero 2003.
http://www.iuiconf.org/03pdf/2003-0010064.pdf
Väyrynen P., Noponen K., Seppänen T. 2007.
“Analysing performance in a word
154
Lingüística de Corpus
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 157-164
recibido 17-05-2007; aceptado 22-06-2007
Specification of a general linguistic annotation framework and
its use in a real context
Xabier Artola, Arantza Dı́az de Ilarraza, Aitor Sologaistoa, Aitor Soroa
IXA Taldea
Euskal Herriko Unibertsitatea (UPV/EHU)
[email protected]
Resumen: AWA es una arquitectura general para representar información
lingüı́stica producida por procesadores lingüı́sticos. Nuestro objetivo es definir un
esquema de representación coherente y flexible que sea la base del intercambio de información entre herramientas lingüı́sticas de cualquier tipo. Los análisis linguı́sticos
se representan por medio de estructuras de rasgos según las directrices de TEI-P4.
Estas estructuras y su relación con los demás elementos que componen el análisis
forman parte de un modelo de datos diseñado bajo el paradigma de orientación a
objetos. AWA se encarga de la representación de la información dentro de una arquitectura más amplia para gestionar todo el proceso de análisis de un corpus. Como
ejemplo de la utilidad del modelo presentado explicaremos cómo se ha aplicado dicho
modelo en el procesamiento de dos corpus.
Palabras clave: Modelo de anotación, arquitectura para la integración, TEI-P4
Abstract: In this paper we present AWA, a general architecture for representing
the linguistic information produced by diverse linguistic processors. Our aim is
to establish a coherent and flexible representation scheme that will be the basis
for the exchange of information. We use TEI-P4 conformant feature structures
as a representation schema for linguistic analyses. A consistent underlying data
model, which captures the structure and relations contained in the information to
be manipulated, has been identified and implemented by a set of classes following
the object-oriented paradigm. As an example of the usefulness of the model, we will
show the usage of the framework in a real context: two corpora have been annotated
by means of an application which aim is to exploit and manipulate the data created
by the linguistic processors developed so far.
Keywords: Annotation model, integration architecture, TEI-P4
1
Introduction
In this paper we present AWA (Annotation Web Architecture), which forms part
of LPAF, a multi-layered Language Processing and Annotation Framework. LPAF is a
general framework for the management and
the integration of NLP components and resources. AWA defines a data representation
schema which aim is to facilitate the communication among linguistic processors in a
variety of NLP applications. The key design
criteria we have taken into account when designing AWA are oriented to make possible
the description of different phenomena in an
homogeneous way.
The objective of AWA is to establish a
coherent and flexible representation scheme
that will be the basis for the exchange of information. We use TEI-P4 conformant feaISSN: 1135-5948
ture structures1 to represent linguistic analyses. We also have identified a consistent
underlying data model which captures the
structure and relations contained in the information to be manipulated.
This data model has been represented
by classes that are encapsulated in several library modules (LibiXaML), following
the object-oriented paradigm(Artola et al.,
2005). The modules offer the necessary types
and operations to manipulate the linguistic
information according to the model. The
class library has been implemented in C++
and contains about 100 classes. For the
implementation of the different classes and
methods we make use of the Libxml22 library.
1
2
http://www.tei-c.org/P4X/DTD/
http://xmlsoft.org/
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Xabier Artola, Arantza Díaz de Ilarraza, Aitor Sologaistoa y Aitor Soroa
tions which share the annotated information.
In ATLAS (Bird et al., 2000) the authors
use XML technology as a format for the interchange of annotated information between
linguistic applications (AIF). In a first version, ATLAS was fully based in a particular
formalism for annotation, called Annotation
Graphs (AGs). However, they extended the
architecture in order to adopt an upper level
of abstraction and provide an ontology, where
the conceptual model can be defined. For this
reason MAIA (Meta Annotation Information
for Atlas) is defined (Laprun et al., 2002)).
Although the ontology model is described in
XML documents, no XML technology is used
to semantically validate the information. Finally, in the WHAT project (Schäfer, 2003),
the authors present an XSLT-based Whiteboard Annotation Transformer, an integration facility for integrating deep and shallow
NLP components. They rely on XSLT technology for transforming shallow and deep annotations in an integrated architecture built
on top of a standard XSL transformation
engine. Linguistic applications communicate with the components through programming interfaces. These APIs are not isomorphic to the XML mark-up they are based
on, but they define classes in a hierarchical way. Among other types of formalisms
they use typed feature structures for encoding deep annotations, although the correctness of these feature structures is not validated with XML tools.
Apart from the annotation infrastructure,
several systems go further and define frameworks for rapid prototyping of linguistic applications that share the same data model
(annotations) at different levels.
GATE
(Cunningham, Wilks, and Gaizauskas, 1996;
Bontcheva et al., 2004), TALENT (Neff,
Byrd, and Bougaraev, 2004), ATLAS and
MAIA (Bird et al., 2000; Laprun et al., 2002),
and UIMA (Ferrucci and Lally, 2004)) are
some of these systems.
The annotation architecture presented in
this paper follows the stand-off markup approach and it has been inspired on the
TEI-P4 guidelines (Sperberg-McQueen and
Burnard, 2002) to represent linguistic information obtained by a wide range of linguistic
tools.
One reason for taking this approach is
that our representation requirements, together with the characteristics of the lan-
The current release of LibiXaML works on
Unix flavours as well as on Windows architectures.
As an example of the usefulness of the
model we will show the usage of the framework in a real context. Two corpora have
been tagged by means of an on-line application, called EULIA, which aim is to exploit
and manipulate the data created by the linguistic processors developed so far and integrated in a pipeline architecture. EULIA
(Artola et al., 2004) offers help in data browsing, manual disambiguation, and annotation
tasks by means of an intuitive and easy-touse graphic user interface.
The rest of the paper is organized as follows. In section 2 we present some related
work. Section 3 will be dedicated to explain the proposed annotation architecture.
In section 4 we describe the use of feature
structures for representing linguistic information. Section 5 shows the use of the framework in two real contexts: the annotation of
EPEC (Reference Corpus for the Processing
of Basque) and ztC (Science and Technology
Corpus) (Areta et al., 2006), and EULIA, an
application implemented for facilitating the
work with the so-called annotation web. Finally, section 6 is dedicated to present some
conclusions and future work.
2
Related work
There is a general trend for establishing standards for effective language resource management (ISO/TC 37/TC 4 (Ide and Romary, 2004)), the main objective of which
is to provide a framework for language resource development and use. Besides, there
is much work dealing with the use of XMLbased technologies for annotating linguistic
information. ATLAS (Bird et al., 2000), LTTTT (Thompson et al., 1997) and WHAT
are some of the projects where stand-off annotation is used in order to deal efficiently
with the combination of multiple overlapping
hierarchies that appear as a consequence of
the multidimensional nature of linguistic information. LT-TTT (Thompson et al., 1997)
is a general library developed within an XML
processing paradigm whereby tools are combined together in a pipeline allowing to add,
modify and remove pieces of annotation. It
provides linguistic components that operate
over XML documents and permit the development of a broad range of NLP applica158
Specification of a General Linguistic Annotation Framework and its Use in a Real Context
guage (Basque) we are dealing with, are
not completely fulfilled by the annotation
schemes proposed in the systems mentioned
before. Basque being an agglutinative and
free-order language, the complexity of the
morphological information attached to linguistic elements (word-forms, morphemes,
multiword expressions, etc.) as well as the
need to represent discontinuous linguistic
units, obliges us to use a rich representation
model.
3
The annotation architecture in
a language processing
framework
Figure 1: The Language Processing and Annotation Framework
In this section, the general annotation web
architecture (AWA) is described from an abstract point of view, and situated within
LPAF.
tem 3 are two examples of this type of applications, and will be explained throughout
this paper.
3.1
3.2
Language Processing and
Annotation Framework
Annotation Web Architecture
The Annotation Web Architecture has been
designed in a way general enough to be used
in the annotation tasks of a very broad range
of linguistic processing tools. Issues such as
the representation of ambiguity or the attachment of linguistic information to units
formed by discontinuous constituents have
been taken into account in the annotation
model.
An abstract view of this annotation architecture is represented in Figure 2. When
a text unit undergoes a series of language processing steps, a corpus unit is created. Together with the raw text, this
corpus unit includes the linguistic annotations resulting from each of these processing steps. So, each one of these annotations (LinguisticAnnotation class) represents, for instance, the set of annotations produced by a lemmatization process or the annotations produced by a dependency-based
syntactic parser. Dependencies among different linguistic annotations belonging to the
same processing chain are presented by the
dependsOn association link in the diagram.
The model follows a stand-off annotation strategy: anchors set on the corpus
(Anchor class) are attached to the corresponding linguistic information (LingInfo
class) by means of “links” (AnnotationItem
class). An annotation item always refers to
one anchor and has associated a single fea-
Figure 1 depicts the main components of
LPAF. The framework has been organized in
different layers.
The bottom layer defines the basic infrastructure shared by any LPAF component. In
this layer we can find:
• The Annotation Web Architecture
(AWA), including a set of class libraries
which offer the necessary types and
operations to manipulate the objects of
the linguistic information model (Artola
et al., 2005).
• The Linguistic Processing Infrastructure
(LPI), which includes the set of classes
needed to combine linguistic processes.
It is the result of the characterization of
the way the linguistic processes interact
with each other.
The former will be thoroughly explained
in this paper.
The middle layer is formed by the LPAF
public services, which constitute the basic resources for defining new linguistic applications. LPAF services perform concrete and
well-defined tasks necessary for defining complex linguistic applications such as Q/A systems, environments for manual annotation of
corpora at different levels, etc.
On the top layer we can find final user applications. EULIA and the ztC Query Sys-
3
159
http://www.ztcorpusa.net
Xabier Artola, Arantza Díaz de Ilarraza, Aitor Sologaistoa y Aitor Soroa
Figure 2: The annotation architecture
that, in many cases, physical text elements are not adequate as annotation anchors, and linguistic interpretations issued from previous analysis
steps (lemmatization and syntactic function combinations, or phrasal chunks to
which only some of the interpretations a
word can have belong) have to be used as
anchors in subsequent processing steps.
Textual anchors are set mainly as a result of tokenization and of the identification of multiword expressions. On
the other hand, interpretational anchors
are annotation items or else special anchors (anchors specifically created as “elements” to which attach linguistic information); in this case, they are expressed
by XML elements which act as a join of
several identifiers representing interpretations issued from previous processes.
As examples of special anchors we can
mention word sequences, chunks, etc.
Structural ambiguity is represented by
overlapping anchors, i.e., when annotations refer to anchors which overlap.
ture structure containing linguistic information. Any annotation item can become an
anchor in a subsequent annotation operation.
As a result of each processing step (tokenization, morphological segmentation or analysis,
lemmatization, syntactic parsing, etc.), what
we call a “linguistic annotation” consisting of
a web of interlinked XML documents is generated.
The model is physically represented by
three different types of XML documents: anchor documents, link documents (annotation
items) and documents containing linguistic
information. Let us show now each one of
these in more detail:
• Anchors: these elements can go from
physical elements found in the input corpus (textual references, represented by
the TextRef class), such as typical character offset expressions or XPointer expressions pointing to specific points or
ranges within an XML document, up
to annotation items resulting from previous annotation processes; in particular, morphemes and single- or multiword tokens, word spans, etc., or even
“linguistic interpretations” of this kind
of elements can be taken as anchors of
linguistic annotations. We have found
• Annotation items (links): these constitute the actual annotations resulting
from a linguistic analysis process. Each
link ties a single linguistic interpretation
160
Specification of a General Linguistic Annotation Framework and its Use in a Real Context
The feature structures we use fulfill the
TEI guidelines for typed FSs, and they
are compatible with ISO/TC 37 TC 4 (Ide
and Romary, 2004). Furthermore, we have
adopted Relax NG as a definition metalanguage for typed feature structures. Relax NG
schemas define the legal building blocks of a
feature structure type and semantically describe the represented information.
to an anchor. Interpretation ambiguity
is represented by several links attached
to the same anchor, and so disambiguation consists in simply marking one of
these links as correct while discarding
the rest.
• Linguistic information: typed feature structures are used to represent the
different types of linguistic information
resulting from the analysis processes.
In some cases, such as in morphological segmentation or lemmatization, the
linguistic content corresponds to word
forms (more specifically, token annotation items), and therefore huge common
libraries containing these contents (feature structures) are used, allowing us to
save processing time (and storage room)
as previously analyzed word forms need
not be analyzed again and again when
occurring in new texts.
<TEI.2>
...
<p>
<fs id="fs1" type="morphosyntactic">
<f name="Form"><str>esnea</str></f>
<f name="Lemma"><str>esne</str></f>
<f name="Morphological-Features">
<fs type="Top-Feature-List>
<f name="POS"><sym value="NOUN"/></f>
<f name="SUBCAT"><sym value="COMMON"/></f>
</fs>
</f>
<f name="Components"> ...</f>
</fs>
</p>
<p>
<fs id="fs2" type="lemmatization">
<f name="Form"><str>esnea</str></f>
<f name="Lemma"><str>esne</str></f>
<f name="POS"><sym value="NOUN"/></f>
<f name="SUBCAT"><sym value="COMMON"/></f>
</fs>
</p>
...
</TEI.2>
This data model captures the structure
and relations contained in the information
to be manipulated, and is represented by
classes which are encapsulated in several library modules. These classes offer the necessary operations or methods the different tools
need to perform their tasks when recognizing
the input and producing their output.
4
Figure 3: Typed feature structures
The type of the feature structure is encoded in XML by means of the type attribute
(see Figure 3). This attribute allows us to
understand the meaning of the information
described in the feature structure by means
of its link with the corresponding Relax NG
schema which specifies the content of the feature structure.
Relax NG schemas provide us with a formalism to express the syntax and semantics of XML documents but, unfortunately,
they are not capable of interpreting the content of the feature structures represented in
the document. Therefore, we have implemented some tools which, based on the Relax NG schema, arrange data and create automatically the appropriate FS that encodes
the associated linguistic information to be
represented. These tools can be used to
build GUIs for editing linguistic annotations
adapting the interface to the user’s needs in
such a way that they only have to specify the
type of the information to be treated. Besides, and thanks to these tools, we are able
to build general front- and back-end modules
for the integration of different linguistic engines in more complex linguistic applications.
Specifying the input/output information by
Representing linguistic
information: feature structures
and Relax NG schemas
This section is devoted to explain in more
detail the use of feature structures in our
model, their advantages, features, the representation of meta-information, and the exploitation of schemas in different tasks, such
as information retrieval or automatic generation of GUIs.
The different types of linguistic information resulting from the analysis processes
are represented as typed feature structures.
In a multi-dimensional markup environment,
typed feature structures are adequate for representing linguistic information because they
serve as a general-purpose metalanguage and
ensure the extensibility of the model to represent very complex information. Typed feature structures provide us with a formal semantics and a well-known logical operation
set over the represented linguistic information.
161
Xabier Artola, Arantza Díaz de Ilarraza, Aitor Sologaistoa y Aitor Soroa
5.1
means of these Relax NG schema for linguistic engines, the front-end module will provide the adequate data to each engine and
the back-end module will produce the suitable output.
EULIA is a graphical environment which exploits and manipulates the data created by
the linguistic processors. Designed to be used
by general users and linguists, its implementation is based on a client-server architecture
where the client is a Java Applet running on
any Java-enabled web browser and the server
is a combination of different modules implemented in Java, C++ and Perl.
The linguistic processors integrated so far
in the mentioned architecture are:
<define name="fs.lemma">
<element name="fs">
<attribute name="id"><data type="id"/></attribute>
<attribute name="type">
<value>lemmatization</value>
</attribute>
<ref name="f.Form"/>
<ref name="f.Lemma"/>
<ref name="f.Pos-SubCat"/>
</element>
</define>
<define name="f.Form">
<element name="f">
<attribute name="name"><value>Form</value></attribute>
<element name="str"><value type="string"/></element>
</element>
</define>
• A tokenizer that identifies tokens and
sentences from the input text.
<define name="f.Pos-Subcat">
<choice>
<ref name="pos.Noun"/>
<ref name="pos.Adj"/>
...
<choice>
<define>
• A segmentizer, which splits up a word
into its constituent morphemes.
• A morphosyntactic analyzer whose goal
is to process the morphological information associated with each morpheme obtaining the morphosyntactic information
of the word form considered as a unit.
<define name="pos.Noun">
<ref name="f.POS"/>
<element name="f">
<attribute name="name">
<value>SUBCAT</value>
</attribute>
<choice>
<value>COMMON</value>
<value>PERSON NAME</value>
<value>PLACE NAME</value>
<choice>
</element>
</define>
• A recognizer of multiword lexical units,
which performs the morphosyntactic
analysis of the multiword expressions
present in the text.
• A general-purpose tagger/lemmatizer.
Figure 4: RELAX NG schema mixing morphosyntax and lemmatization
• A chunker or shallow syntactic analyzer
based on Constraint Grammar.
Figure 3. shows a fragment of an XML
document which mixes up feature structures
of two different linguistic levels (morphosyntactic and lemmatization) for the same wordform. These FSs are defined by the partial
Relax NG schema shown in Figure 4. The
relation between FSs and the schema is established through the type attribute (in both
figures in bold). Using these relations, our
tools can access the corresponding schemas
and exploit them.
5
EULIA: an environment for
managing annotated corpora
• A deep syntax analyzer.
EULIA provides different facilities which
can be grouped into three main tasks:
• Query facility. It visualizes the answers of the user’s requests according
to a suitable stylesheet (XSLT). These
stylesheets can be changed dynamically
depending on both the users’ choice and
the type of answer.
• Manual disambiguation. Its goal
is to help annotators when identifying
the correct analysis and discarding the
wrong ones. The incorrect analyses are
properly tagged but not removed.
The use of the annotation
architecture in a real context
In order to check the validity of the annotation architecture presented here, we have
implemented a pipeline workflow which integrates natural language engines going from
a tokenizer to a syntactic parser. Two text
corpora have been processed through this
pipeline with the aid of a tool named EULIA.
• Manual annotation. It consists of assigning to each anchor its corresponding linguistic information. Depending
on the annotation type different kinds
of information are needed. In order to
get these data, EULIA’s GUI generates
162
Specification of a General Linguistic Annotation Framework and its Use in a Real Context
guist who has to choose the correct one
and mark it by means of a facility provided by the application. If the analyzer doesn’t offer any correct analysis,
the annotator has to produce it fillingup a form obtained automatically in a
scheme-based way, as explained in section 4. Once the whole corpus is manually annotated and disambiguated at the
segmentation level, the annotations are
propagated to other levels (morphosyntax, lemmatization, syntax) automatically and revised again by means of the
application. Currently, eight annotators
are satisfactorily working in parallel using EULIA.
a suitable form, based on the Relax NG
schema, which defines the document’s
format for that annotation type. Considering that linguistic information is encoded following the annotation architecture, the treatment at different levels of
analysis is similar.
5.2
Annotating ztC and EPEC
Let us now explain briefly two real experiences that demonstrate the flexibility and robustness of the model, the architecture, and
the environment built. These experiences
have been done on two corpora created with
different purposes:
• ztC Corpus (Science and Technology Corpus) ztC is a 8,000,000 word
corpus of standard written Basque about
Science and Technology which aim is to
be a reference for the use of the language
in Science and Technology texts. Part of
this corpus (1,600,000) has been automatically annotated and manually disambiguated. The manual disambiguation of the corpus is performed on the
output of EUSTAGGER (Aduriz et al.,
1996), a general lemmatizer/tagger that
obtains for each word-form its lemma,
POS, number, declension case, and the
associated syntactic functions. In this
case, the manual disambiguation and annotation has been restricted to the information about lemma and POS.
The flexibility EULIA gets by using Relax
NG schemas makes possible to visualize the
information needed in each process in such a
way that the linguist will only focus on the
problem of ambiguity referred to the information given.
6
Conclusions and future work
In this paper we have presented AWA, a general architecture for representing the linguistic information produced by linguistic processors. It is integrated into LPAF, a language
processing and annotation framework. Based
on a common annotation schema, the proposed representation is coherent and flexible,
and serves as a basis for exchanging information among a very broad range of linguistic
processing tools, going from tokenization to
syntactic parsing.
We have described our general annotation
model, where any annotation can be used
as anchors of subsequent processes. The annotations are stand-off, so that we can deal
efficiently with the combination of multiple
overlapping hierarchies that appear as a consequence of the multidimensional nature of
linguistic information. Based on our experience, the markup annotation model we propose can represent a great variety of linguistic
information or structure.
XML is used as an underlying technology
for sharing linguistic information. We have
also defined RelaxNG schemas to describe
the different types of linguistic information
the framework is able to work with. Furthermore, we use these schemas to automatically
exploit the information encoded as typed feature structures.
• EPEC Corpus (Reference Corpus
for the Processing of Basque) EPEC
is a 300,000 word corpus of standard
written Basque with the aim of being a
training corpus for the development and
improvement of several NLP tools. The
first version of this corpus (50,000 words)
has already been used for the construction of some tools such as a morphological analyzer, a lemmatizer, or a shallow syntactic analyzer, but now we are in
a process of enhancement by annotating
manually 250,000 new words. Although
EPEC has been manually annotated at
different levels, the manual annotation
to which we will refer here has been performed on the output of MORPHEUS
(Aduriz et al., 2000), a general analyzer that obtains for each word-form its
possible morphosyntactic analyses. EULIA presents this information to the lin163
Xabier Artola, Arantza Díaz de Ilarraza, Aitor Sologaistoa y Aitor Soroa
Laprun, and Mark Liberman. 2000. ATLAS: A flexible and extensible architecture for linguistic annotation. In Proc.
of the Second International Conference
on Language Resources and Evaluation,
pages 1699–1706, Paris (France).
We have also presented EULIA, a graphical environment the aim of which is to exploit and manipulate the data created by
the linguistic processors. EULIA offers facilities to browse over the annotation architecture, pose queries and perform manual disambiguation/annotation of corpora.
Finally, we have briefly explained two real
cases that show the flexibility and robustness
of our annotation model as well as the benefits of an environment like EULIA in manual
annotation and disambiguation processes.
Bontcheva, Kalina, Valentin Tablan, Diana Maynard, and Hamish Cunningham.
2004. Evolving GATE to meet new challenges in language engineering. Natural
Language Engineering, 10(3-4):349–373.
Cunningham, Hamish, Yorick Wilks, and
Robert J. Gaizauskas. 1996. GATE: a
General Architecture for Text Engineering. In Proceedings of the 16th conference
on Computational linguistics, pages 1057–
1060. Association for Computational Linguistics.
References
Aduriz, Itziar, Eneko Agirre, Izaskun
Aldezabal, Iñaki Alegria, Xabier Arregi, Jose Mari Arriola, Xabier Artola, Koldo Gojenola, Aitor Maritxalar, Kepa Sarasola, and Miriam Urkia.
2000.
A Word-grammar based morphological analyzer for agglutinative languages. In Proc. of International Conference on Computational Linguistics. COLING’2000, Saarbrücken (Germany).
Ferrucci, David and Adam Lally. 2004.
UIMA: an architectural approach to unstructured information processing in the
corporate research environment. Natural
Language Engineering, 10(3-4):327–348.
Ide, Nancy and Laurent Romary. 2004. International standard for a linguistic annotation framework. Natural Language Engineering, 10(3-4):211–225.
Aduriz, Itziar, Izaskun Aldezabal, Iñaki Alegria, Xabier Artola, Nerea Ezeiza, and
Ruben Urizar. 1996. EUSLEM: A Lemmatiser / Tagger for Basque. In EURALEX’96, Part 1, 17-26., Göteborg.
Laprun, Cristophe, Jonathan. Fiscus, John.
Garofolo, and Silvai. Pajot. 2002. A practical introduction to ATLAS. In Proceedings of the Third International Conference
on Language Resources and Evaluation.
Areta, Nerea, Antton Gurrutxaga, Igor Leturia, Ziortza Polin, Rafael Saiz, Iñaki
Alegria, Xabier Artola, Arantza Dı́az
de Ilarraza, Nerea Ezeiza, Aitor Sologaistoa, Aitor Soroa, and Andoni Valverde.
2006. Structure, Annotation and Tools in
the Basque ZT Corpus. In LREC 2006,
Genoa (Italy).
Neff, Mary S., Roy J. Byrd, and Branmir K. Bougaraev. 2004. The Talent system: TEXTRACT architecture and data
model. Natural Language Engineering,
10(3-4):307–326.
Artola, Xabier, Arantza Dı́az de Ilarraza,
Nerea Ezeiza, Koldo Gojenola, Aitor Sologaistoa, and Aitor Soroa. 2004. EULIA: a graphical web interface for creating, browsing and editing linguistically annotated corpora. In LREC 2004. Workshop on XbRAC, Lisbon (Portugal).
Schäfer, Ulrich. 2003. WHAT: An XSLTbased infrastructure for the integration of
natural language processing components.
In Proceedings of the Workshop on the
Software Engineering and Architecture of
Language Technology Systems (SEALTS),
HLT-NAACL03, Edmonton (Canada).
Artola, Xabier, Arantza Dı́az de Ilarraza,
Nerea Ezeiza, Gorka Labaka, Koldo Gojenola, Aitor Sologaistoa, and Aitor Soroa.
2005. A framework for representing and
managing linguistic annotations based on
typed feature structures.
In RANLP
2005, Borovets (Bulgaria).
Sperberg-McQueen, C. M. and L. Burnard,
editors. 2002. TEI P4: Guidelines for
Electronic Text Encoding and Interchange.
Oxford, 4 edition.
Thompson, H.S., R. Tobin, D. Mckelvie,
and C. Brew. 1997. LT XML Software API and toolkit for XML processing.
Bird, Steven, David Day, John Garofolo, Henderson Henderson, Christophe
www.ltg.ed.ac.uk/software/xml/index.html.
164
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 165-172
recibido 17-05-2007; aceptado 22-06-2007
Determinación del umbral de representatividad de un corpus
mediante el algoritmo N-Cor1
Gloria Corpas Pastor
Míriam Seghiri Domínguez
Departamento de Traducción e Interpretación Departamento de Traducción e Interpretación
Facultad de Filosofía y Letras
Facultad de Filosofía y Letras
Universidad de Málaga
Universidad de Málaga
[email protected]
[email protected]
Resumen: En las páginas que siguen a continuación vamos a describir un método2 para calcular
el umbral mínimo de representatividad de un corpus mediante el algoritmo N-Cor de análisis de
la densidad léxica en función del aumento incremental del corpus. Se trata de una solución
eficaz para determinar a posteriori, por primera vez de forma objetiva y cuantificable, el tamaño
mínimo que debe alcanzar un corpus para que sea considerado representativo en términos
estadísticos. Este método se ha visto implementado en la aplicación informática ReCor. Con
dicha herramienta vamos a comprobar si un corpus de seguros turísticos en español que hemos
compilado sería representativo para realizar estudios lingüístico-textuales y poder ser utilizarlo
en traducción.
Palabras clave: Representatividad, lingüística de corpus, compilación de corpus, corpus
especializado.
Abstract: In this paper we describe a method3 to determine the representativeness threshold for
any given corpus. By using the N-Cor algorithm it is possible to quantify a posteriori the
minimum number of documents and words that should be included in a specialised language
corpus, in order that it may be considered representative. This method has been implemented by
means of a computer program (ReCor). This program will be used here to check whether a
corpus of insurance policies in Spanish is representative enough in order to carry out textlinguistic studies and translation tasks.
Keywords: Representativeness, corpus linguistics, corpus compilation, specialised corpus.
1
Introducción
Hasta la fecha, mucho se ha escrito e
investigado en torno la cantidad como criterio
representativo así como sobre las posibles
fórmulas capaces de estimar un mínimo de
palabras y documentos a partir del cual un
corpus especializado puede considerarse
representativo sin llegar a resultados
concluyentes.
Los intentos de fijar un tamaño, al
menos mínimo, para los corpus especializados
han sido varios. Algunos de los más
significativos son los expuestos por Heaps
(1978), Young-Mi (1995) y Sánchez Pérez y
ISSN: 1135-5948
Cantos Gómez (1997). Según Yang et al. (2000:
21), tales propuestas presentan importantes
deficiencias porque se basan en la ley de Zipf.
La determinación del tamaño mínimo de un
corpus sigue siendo uno de los aspectos más
controvertidos en la actualidad (cf. Corpas
Pastor y Seghiri Domínguez, 2007/en prensa).
En este sentido, se han barajado cifras muy
dispares. A modo de ilustración, diremos que
Biber (1993), en uno de los trabajos más
influyentes sobre corpus y representatividad,
llega a afirmar que es posible representar la
práctica totalidad de los elementos de un
registro particular con relativamente pocos
ejemplos, mil palabras, y un número reducido
de textos pertenecientes a este registro,
concretamente diez.
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Gloria Corpas Pastor y Miriam Seghiri
Urge, pues, resolver esta cuestión, ya
que no podemos olvidar que la mayoría de
estudios lingüísticos y traductológicos están
utilizando corpus de reducidas dimensiones,
adecuados para sus necesidades concretas de
investigación, colecciones de textos que
descargan directamente de fuentes de
información electrónicas. La red de redes es
hoy día uno de los principales proveedores de
materia prima para esta lingüística de corpus
“de andar por casa”. Además, este tipo de
corpus ad hoc, compilado virtualmente, ha
demostrado ser tremendamente útil tanto para
llevar a cabo estudios lingüísticos (cf. Haan,
1989, 1992; Kock, 1997 y 1991; Ghadessy,
2001) como para la enseñanza de segundas
lenguas (Bernardini, 2000; Aston et al., 2004) y
en traducción (Corpas Pastor, 2001, 2004,
Seghiri Domínguez, 2006).
primera vez, a posteriori el tamaño mínimo de
un
corpus
o
colección
textual,
independientemente de la lengua o tipo textual
de dicha colección, estableciendo, por tanto, el
umbral mínimo de representatividad a partir de
un algoritmo (N-Cor) de análisis de la densidad
léxica en función del aumento incremental del
corpus.
2.1. El algoritmo N-Cor
El presente método calcula el tamaño mínimo
de un corpus mediante el análisis de la densidad
léxica (d) en relación a los aumentos
incrementales del corpus (C) documento a
documento, según muestra la siguiente
ecuación:
Las cifras tan dispares que se han
manejado hasta la fecha, así como la poca
fiabilidad que dan las propuestas para su
cálculo, nos llevaron a reflexionar sobre una
posible solución, que se ha visto materializada
en la aplicación informática denominada
ReCor, que pasamos a describir a continuación.
2
Cn= d1+ d2+d3+...+dn
Figura 1: Ecuación base del algoritmo N-Cor
Para ello, se analizan gradualmente
todos los archivos que componen el corpus,
extrayendo información sobre la frecuencia de
las palabras tipo (types) y las ocurrencias o
instancias (tokens) de cada archivo del corpus.
En esta operación se utilizan dos criterios de
selección de archivos, a saber, por orden
alfabético y de forma aleatoria, a fin de
garantizar que el orden en el que son
seleccionados los archivos no afecta al
resultado. Cuando se seleccionan los
documentos por orden alfabético, el algoritmo
analiza el primer archivo y para éste se calculan
los tokens y los types, y la densidad léxica
correspondiente. Con ello ya se obtiene un
punto en la representación gráfica que se
pretende extraer. A continuación, siguiendo el
mismo criterio de selección que en el primero,
se toma el siguiente documento del corpus y se
calculan de nuevo los tokens y los types, para
éste, pero sumando los resultados a los tokens y
los types de la iteración anterior (en este caso a
los del primer documento analizado), se calcula
la densidad léxica y con esto se obtiene un
segundo punto para la representación gráfica.
Se sigue este algoritmo hasta que se hayan
tratado todos los documentos que componen el
corpus que se estudia. La segunda fase del
Descripción del programa ReCor
Dejando a un lado que la representatividad de
un corpus depende, en primer lugar, de haber
aplicado los criterios de diseño externos e
internos adecuados, en la práctica, la
cuantificación del tamaño mínimo que debe
tener un corpus especializado aún no se ha
abordado de forma objetiva. Y es que no hay
consenso, como ha quedado manifiesto, sobre
cuál sea el número mínimo de documentos o
palabras que debe tener un determinado corpus
para que sea considerado válido y
representativo de la población que se desea
representar. Las cifras varían, además, como
hemos visto, de unos autores a otros. Pero todas
estas cifras no resuelven el problema de
calcular la representatividad de un corpus, dado
que son cifras establecidas a priori, carentes de
cualquier base empírica y objetivable.
Con este método pretendemos plantear
una solución eficaz para determinar, por
166
Determinación del Umbral de Representatividad de un Corpus mediante el Algoritmo N-Cor
análisis es idéntica, pero tomando
documentos en orden aleatorio.
los
imposible alcanzar la incorporación de cero
types en el corpus, aunque, por el contrario, sí
que irán presentado una tasa muy baja de
incorporación, como permite predecir la ley
Heaps.
Se emplea el mismo algoritmo para el
análisis de n-gramas, esto es, la opción de
realizar un análisis de la frecuencia de aparición
de secuencias de palabras (2-grama, 3-grama…,
n-grama). La aplicación ofrece la posibilidad de
hacer el cómputo de estas secuencias
considerando un rango de longitudes de
secuencia (números de palabras) definido por el
usuario. Al igual que se realiza con respecto a
los (tokens), se muestra un gráfico con la
información de representatividad del corpus
tanto para un orden aleatorio de los ficheros
como para un orden alfabético por el nombre de
éstos. En el eje horizontal se mantendrá el
número de ficheros consultados, y en el eje
vertical el cociente (número de n-gramas
distintos)/(número de n-gramas totales). A estos
efectos, cada instancia de un n-grama es
considerado como un token. Asimismo, los
ficheros de salida generados indican los ngramas.
2.1.2. Especificaciones del programa
ReCor es una aplicación informática creada con
objeto de poder estimar la representatividad de
los corpus en función de su tamaño y que se
caracteriza, ante todo, por la sencillez de su
interfaz de usuario (cf. Figura 2), frente a la
carga eminentemente matemática y de
formulación que abundan en este tipo de
trabajos.
Tanto en el análisis por orden alfabético
como en el aleatorio de n-gramas llegará un
momento en el que un determinado documento
no aporte apenas types al corpus, lo cual
indicará que se ha llegado a un tamaño
adecuado, es decir, que el corpus analizado ya
se puede considerar una muestra representativa
de la población en términos estadísticos. En una
representación gráfica estaríamos en el punto en
el que las líneas de types y tokens se estabilizan
y se aproximan al cero. Si el corpus es
realmente representativo la gráfica tenderá a
descender exponencialmente porque los tokens
crecerán en cada iteración mucho más que los
types, debido a que, en teoría, cada vez irán
apareciendo menos palabras nuevas que no
estén almacenadas en las estructuras de datos
que utiliza el programa. Así pues, podremos
afirmar que el corpus es representativo cuando
la gráfica sea constante en valores cercanos a
cero, pues los documentos siempre van a
contener variables del tipo números o nombres
propios, por ejemplo, que tenderán a constituir
instancias de hapax legomena y, por tanto,
aumentarán el grado de variabilidad léxica del
corpus. Una posible solución podría ser el
empleo de expresiones regulares y técnicas de
análisis superficial (shallow parsing) para la
detección de nombres propios. En cualquier
caso, conviene señalar que, en la práctica, es
Figura 2: Interfaz de ReCor (versión 2.1)
Hasta el momento se han implementado
tres versiones del programa ReCor: 1.0, 2.0 y
2.1. El funcionamiento es básicamente similar y
corresponde a la descripción genérica que
ofrecemos a continuación. Ahora bien, la
versión 2.0 difiere de la versión 1.0 en que
permite a) seleccionar automáticamente un
directorio completo de documentos (en vez de
tener que pulsar la tecla Shift como en la
versión anterior) y b) permite seleccionar un
número de n-gramas para el cálculo, donde n ≥
1 y n ≤ 10. Ambas versiones (1.0 y 2.0) generan
archivos estadísticos en texto plano (.txt). La
versión 2.1. difiere de su predecesora en que
presenta
los
archivos
estadísticos
simultáneamente en formato .txt y en forma de
tablas en Excel.
167
Gloria Corpas Pastor y Miriam Seghiri
3
Funcionamiento del programa
3.1. Representaciones gráficas
En este apartado mostraremos el
programa ReCor en funcionamiento (versión
2.1.). Para la ilustración del funcionamiento del
programa hemos compilado un corpus de
seguros turísticos en español. Este corpus, por
su diseño4 —es monolingüe5, comparable6,
textual7 y especializado8—, responde a los
parámetros de creación de corpus, por lo que
estaría en condiciones de ser utilizado de forma
independiente para la realización de estudios
lingüísticos y traductológicos sobre los
elementos formales de este tipo contractual.
Una vez se han seguido los pasos descritos más
arriba, la aplicación está lista para realizar el
análisis, cuyo resultado se expresa en forma de
representaciones gráficas y ficheros de salida en
.txt con datos estadísticos exportables a tablas y
tablas
en
Excel.
Para
generar
las
representaciones gráficas A y B, pulsamos
«Aceptar». ReCor creará, además de los
ficheros de salida, las representaciones gráficas
A y B, que serán las que nos permitan
determinar si, efectivamente, nuestra colección
es representativa. (cf. Figura 3). El tiempo que
tarde
el
programa
en
generar
las
representaciones gráficas y los archivos de
análisis dependerá del número de n-gramas
seleccionados para el cálculo, del tamaño del
corpus analizado y de la versión utilizada.
Gracias a una sencilla interfaz, ReCor
resulta de fácil manejo. Así, procedemos a la
selección de los archivos que conforman el
subcorpus de seguros turísticos en español
mediante el botón «Selección de los ficheros
del corpus». Una vez seleccionados los archivos
que integran el corpus en español, podremos
incorporar, si se desea, un «filtro de palabras».
En nuestro caso, hemos incluido un filtro que
contiene numeración romana. Además, el
programa genera tres ficheros de salida
(Análisis estadístico, Palabras ord. alf. y
Palabras ord. frec.) que se crearán por defecto
en la ubicación que determine la aplicación. Si
se desea otra localización de los archivos de
salida generados, puede indicarse una nueva
ruta. El primero, «Análisis estadístico», recoge
los resultados de dos análisis distintos; de un
lado, los ficheros ordenados alfabéticamente
por nombre; de otro, para los ficheros
ordenados en orden aleatorio. El documento
aparecerá estructurado en cinco columnas, a
saber, muestra de types, tokens, cociente entre
palabras distintas y totales (types/tokes),
número de palabras con una parición (V1) y
número de palabras con dos apariciones (V2).
El segundo, «Palabras ord. alfa.», generará dos
columnas en la que aparecerán las palabras
ordenadas por orden alfabético, de una parte, y
sus correspondientes ocurrencias, de otra. En
tercer lugar, «Palabras ord. frec.», presenta la
misma información que el fichero de salida
anterior, pero esta vez las palabras se ordenan
en función de su frecuencia, es decir, por rango.
Figura 3: Representatividad del corpus de
seguros turísticos (1-grama)
A partir de los datos arrojados por
ReCor, podemos concluir que el corpus español
de contratación de seguros turísticos (cf. Figura
3) es representativo a partir de 140 documentos
y 1,0 millón de palabras.
Si deseamos ver los resultados para dos
o más gramas, repetiremos los pasos
anteriormente expuestos y especificaremos la
cifra en «Grupo de palabras». A continuación,
mostramos los resultados arrojados por ReCor
para 2-gramas.
Por último, procederemos a especificar
«Grupo de palabras», esto es, los n-gramas.
Escogemos, para una primera ilustración, uno
(cf. Figura 3). Asimismo, indicaremos «sí» en
la opción «Filtrar números».
168
Determinación del Umbral de Representatividad de un Corpus mediante el Algoritmo N-Cor
A partir de este análisis estadístico, se
puede observar cómo los types (primera
columna) no incrementan y se mantienen
estables —9265.0— a pesar de que el volumen
del corpus —tokens— sigue en aumento tal y
como ilustra la segunda columna (de 392012.0
a 540634.0). De este modo, se comprueba,
efectivamente que el corpus ya es
representativo para este campo de especialidad
y que la inclusión de nuevos textos apenas
incorporará novedades significativas al corpus.
Figura 4: Representatividad del corpus de
seguros turísticos (2-gramas)
En segundo tipo de archivo, «Palabras
ord. alf.», nos muestra las palabras que contiene
el corpus ordenadas por orden alfabético
(primera columna) acompañadas de su
frecuencia de aparición (segunda columna):
De este modo, a partir de los datos que
nos ofrece el programa para 2-gramas, se
desprende que el corpus español de contratación
de seguros turísticos (cf. Figura 4) es
representativo a partir de 150 documentos y
1,25 millones de palabras.
3.2. Datos estadísticos
Además de las representaciones gráficas A y B,
el programa también genera de forma
simultánea tres tipos de archivos de salida, cuyo
formato (.txt y Excel) depende de la versión
utilizada. El primero de ellos, presenta un
«Análisis estadístico» del corpus, tanto por
orden alfabético como aleatorio, estructurado en
cinco columnas: types, tokens, cociente entre
palabras distintas y totales (types/tokens),
número de palabras con una aparición (V1) y
número de palabras con dos apariciones (V2):
Figura 6: Ficheros de salida (Palabras ord. alf.)
de los corpus de seguros turísticos (español)
Por último, el tercer fichero de salida
«Palabrar ord. frec» presenta las palabras del
corpus ordenadas (primera columna) en función
de su frecuencia (segunda columna):
Figura 5: Fichero de salida (Análisis
estadístico)-Español (v. 2.1)
169
Gloria Corpas Pastor y Miriam Seghiri
4
Conclusiones
Una de las características principales de los
corpus virtuales o ad hoc es que suelen ser
eminentemente desequilibrados, puesto que su
tamaño y composición finales vienen
determinados, normalmente, sobre todo en los
lenguajes de especialidad, por la disponibilidad
(Giouli y Piperidis, 2002) y, por consiguiente,
es imprescindible contar con herramientas que
nos aseguren su representatividad. Sin embargo,
el problema estriba en que no existe acuerdo
sobre el tamaño que debe tener un corpus para
que sea considerado «representativo», a pesar
de que la «representatividad» sea el concepto
clave que diferencia a un corpus de otros tipos
de colecciones y repertorios textuales. Sin
embargo, las propuestas realizadas hasta la
fecha para el cálculo de la representatividad no
resultan fiables, como ya hemos señalado.
Conscientes de estas deficiencias, Yang et al.
(2000) intentaron superarlas con una nueva
propuesta, una formulación matemática capaz
de predecir la relación entre los types de un
corpus y el tamaño de éste (tokens). Sin
embargo, los autores, al concluir su trabajo
admiten que su enfoque presenta serias
limitaciones y entre ellas, destacan la siguiente:
«the critical problem is, however, how to
determine the value of tolerance error for
positive predictions» (Yang et al. 2000: 30).
Figura 7: Ficheros de salida (Palabras ord. frec.)
de los corpus de seguros turísticos (español)
Finalmente, la versión 2.1. genera
simultáneamente, además los anteriores
resultados en .txt, tablas de Excel. La Fig. 8
ilustra una tabla en Excel de 2-gramas,
ordenados por frecuencia, que ha generado la
versión 2.1. para el corpus español.
Nuestra propuesta supera a las
anteriores en tanto no necesita determinar la
constante C (=tamaño del corpus) para sobre
ello intentar calcular su representatividad (algo,
por otra parte, casi tautológico), como es
habitual en los enfoques basados en la ley de
Zipf. Tampoco necesita determinar el valor del
error máximo de tolerancia, que es la principal
deficiencia del enfoque de Biber (1993) y del de
Yang et al. (2000). El algoritmo N-Cor permite
establecer a posteriori, sin tener que establecer
valores
prefijados,
el
umbral
de
representatividad de un corpus bien construido,
es decir, compilado conforme a criterios de
diseño cualitativos (externos e internos).
Concretamente, se parte de la idea de que el
cociente entre las palabras reales de un texto y
las totales —types/tokens—, que da cuenta de la
densidad o riqueza léxica de un texto, no
aumenta proporcionalmente a partir de un
número de textos determinado. Lo mismo
ocurre cuando la representatividad se calcula en
Figura 8: Lista de 2-gramas por frecuenciaEspañol (v. 2.1.)
170
Determinación del Umbral de Representatividad de un Corpus mediante el Algoritmo N-Cor
función de la densidad léxica a partir secuencias
de palabras (n-gramas).
Bibliografía
Aston, G., S. Bernardini y D. Stewart.. 2004.
Corpora and Language Learners.
Amsterdam
y
Filadelfia:
John
Benjamins.
Bernardini, S. 2000. Competence, capacity,
corpora. Bolonia: Cooperativa Libraria
Universitaria Editrice.
Biber, D. 1993. «Representativeness in Corpus
Design». Literary and Linguistic
Computing. 8 (4). 243-257.
Corpas Pastor, G. 2001. «Compilación de un
corpus ad hoc para la enseñanza de la
traducción inversa especializada».
TRANS: revista de traductología. 5.
155-184.
Corpas Pastor, G. 2004. «Localización de
recursos y compilación de corpus vía
Internet: Aplicaciones para la didáctica
de la traducción médica especializada».
En Consuelo Gonzalo García y
Valentín García Yebra (eds.). Manual
de documentación y terminología para
la traducción especializada. Madrid:
Arco/Libros. 223-257.
Corpas Pastor, G.; Seghiri Domínguez, S.
2007/en prensa. El concepto de
representatividad en lingüística de
corpus: aproximaciones teóricas y
consecuencias para la traducción.
Málaga: Servicio de Publicaciones de la
Universidad.
Ghadessy, M.., A. Henry, R. L. Roseberry
(eds.). 2001. Small corpus studies and
ELT: theory and practice. Ámsterdam y
Filadelfia: John Benjamins.
Giouli, V. y S. Piperidis. 2002. Corpora and
HLT. Current trends in corpus
processing and annotation. Bulagaria:
Insitute for Language and Speech
Processing.
S.
pag.
<http://www.larflast.bas.bg/balric/eng_f
iles/corpora1.php>
[Consulta:
18/05/2007].
Haan, P. 1989. Postmodifying clauses in the
English noun phrase. A corpus-based
study. Amsterdam: Rodopi.
Haan, P. 1992. «The optimum corpus sample
size?». En Gerhard Leitner (ed.). New
dimensions in English language
corpora.
Methodology,
results,
software development. Berlín y Nueva
York: Mouton de Gruyter. 3-19.
Sobre esta base teórica, se ha
implementado un programa (ReCor), que
permite ilustrar gráficamente el punto a partir
del cual un corpus que ha sido compilado según
criterios
cualitativos comienza
a
ser
representativo en términos cuantitativos. La
representación gráfica, a partir de dos líneas
—documentos incluidos alfabéticamente y
aleatoriamente—, que se estabilizan a medida
que se aproximan al valor cero, muestra el
tamaño mínimo de la colección para ser
considerada representativa.
En el caso de los corpus especializados
de tamaño reducido de ámbitos concretos, no es
posible determinar a priori, exactamente, un
número óptimo de palabras o de documentos,
puesto que estará en función de las restricciones
propias del campo de especialidad, de cada país
y lengua. Nuestro método permite realizar dicha
estimación a posteriori, esto es, una vez que se
ha terminado de compilar el corpus, durante la
compilación o durante la fase de análisis y
verificación.
Hasta el momento esta metodología se
ha probado con éxito para corpus especializados
de seguros turísticos y condiciones generales de
contratos de viaje combinado en inglés,
español, alemán e italiano (cf. Corpas Pastor y
Seghiri Domínguez, 2007/en prensa). También
se ha utilizado para comprobar la
representatividad del corpus multilingüe
utilizado por la Agencia Catalana de Noticias
para alimentar su sistema de traducción
automática
español-inglés-francés-catalánaranés (occitano).
Actualmente estamos trabajando en una
nueva versión (ReCor 3.0) que esté optimizada
para trabajar con múltiples ficheros o con
archivos de gran extensión de forma rápida y, al
mismo tiempo, permita extraer unidades
fraseológicas a partir del análisis en n-gramas
(n ≥ 1 y n ≤ 10) del corpus.
171
Gloria Corpas Pastor y Miriam Seghiri
Heaps, H. S. 1978. Information Retrieval:
Computational
and
Theoretical
Aspects. Nueva York: Academic Press.
Kock, J. 1997. «Gramática y corpus: los
pronombres demostrativos». Revista de
filología románica. 14 (1): 291-298.
<http://www.ucm.es/BUCM/revistas/fll
/0212999x/articulos/RFRM9797120291
A.PDF> [Consulta: 18/05/2007].
Kock, J. 2001. «Un corpus informatizado para
la enseñanza de la lengua española.
Punto de partido y término». Hispanica
Polonorum.
3:
60-86.
<http://hispanismo.cervantes.es/docume
ntos/kock.pdf> [Consulta: 18/05/2007].
Sánchez Pérez, A. y P. Cantos Gómez. 1997.
«Predictability of Word Forms (Types)
and Lemmas in Linguistic Corpora. A
Case Study Based on the Analysis of
the CUMBRE Corpus: An 8-MillionWord Corpus of Contemporary
Spanish». International Journal of
Corpus Linguistics. 2 (2): 259-280.
Seghiri Domínguez, M. 2006. Compilación de
un corpus trilingüe de seguros
turísticos
(español-inglés-italiano):
aspectos de evaluación, catalogación,
diseño y representatividad. Tesis
doctoral Málaga: Universidad de
Málaga.
Yang, D., P. Cantos Gómez y M. Song. 2000.
«An Algorithm for Predicting the
Relationship between Lemmas and
Corpus Size». ETRI Journal. 22 (2) :
20-31.
<http://etrij.etri.re.kr/Cyber/servlet/Get
File?fileid=SPF-1042453354988>
[Consulta: 18/05/2007].
Young-Mi, J. 1995. «Statistical Characteristics
of Korean Vocabulary and Its
Application». Lexicographic Study. 5
(6): 134-163.
1
El presente trabajo ha sido realizado en el seno
del proyecto La contratación turística electrónica
multilingüe como mediación intercultural: aspectos
legales, traductológicos y terminológicos (Ref. nº
HUM-892, 2006-2009. Proyecto de Excelencia,
Junta de Andalucía).
2
La metodología descrita en este trabajo ha
recibido el Premio de Investigación en Tecnologías
de la Traducción (III convocatoria) concedido por el
Observatorio de Tecnologías de la Traducción. Para
más
información,
véase
<http://www.uem.es/web/ott/>.
3
This method has been awarded the Translation
Technologies Research Award (Premio de
Investigación en Tecnologías de la Traducción) by
the Translation Technologies Watch (Observatorio
de Tecnologías de la Traducción). Further
information
at
the
URL:
<http://www.uem.es/web/ott/>.
4
Para una visión más amplia acerca del
protocolo de compilación de corpus especializados,
véase Seghiri Domínguez (2006).
5
Aunque es un corpus monolingüe (español), se
encuentra delimitado diatópicamente. De este modo,
los textos que integran el corpus de seguros
turísticos son elementos formales del contrato que
hayan sido redactados exclusivamente en España.
6
Se trata de un corpus comparable pues está
integrado por textos originales para la contratación
turística, concretamente, elementos formales del
contrato y legislación.
7
El corpus de seguros turísticos compilado
incluye documentos completos ya que este tipo de
corpus es el que permite llevar a cabo
investigaciones lingüísticas léxicas y de análisis del
discurso, a la par que posibilita la creación de un
subcorpus, o un componente, a partir de la selección
de fragmentos más pequeños (Sinclair, 1991). De
hecho, Sinclair (1991) y Alvar Ezquerra et al. (1994)
han puesto de manifiesto la necesidad de incluir
textos enteros porque, de este modo, se elimina la
discusión en torno a la representatividad de las
distintas partes de un texto así como a la validez de
las técnicas de muestreo.
8
Los textos que integran el corpus de seguros
turísticos son, específicamente, elementos formales
del contrato, a saber, solicitudes de seguro,
propuestas, cartas de garantía y pólizas.
172
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 173-180
recibido 18-05-2007; aceptado 22-06-2007
Generación semiautomática de recursos
∗
Fernando Enrı́quez, José A. Troyano, Fermı́n Cruz y F. Javier Ortega
Dep. de Lenguajes y Sistemas Informáticos
Universidad de Sevilla
Avda. Reina Mercedes s/n
41012 Sevilla
[email protected]
Resumen: Los resultados de muchos algoritmos que se aplican en tareas de procesamiento del lenguaje natural dependen de la disponibilidad de grandes recursos
lingüı́sticos, de los que extraen el conocimiento necesario para desempeñar su trabajo. La existencia de estos recursos determina por tanto la calidad de los resultados,
el rendimiento general del sistema y en ocasiones, ambas cosas. Vamos a mostrar
diversos aspectos que hacen referencia al esfuerzo necesario para la creación de estos
recursos, y que por lo tanto justifican los intentos de desarrollar métodos que alivien
esta tarea, ası́ como diversas propuestas que se han mostrado para solventar esta
cuestión. Estas propuestas pueden considerarse alternativas al problema que queremos solucionar y lo afrontan de muy diferentes maneras, algunas de las cuales quizás
podamos adaptar a nuestras propias implementaciones en un futuro próximo.
Palabras clave: Generación de recursos, aprendizaje automático, combinación de
sistemas
Abstract: The results of many algorithms that are applied to natural language
processing tasks depend on the availability of large linguistic resources from which
they obtain the required knowledge to do their work. The existence of these resources
determines the quality of the results, the general performance of the system and
frequently both things. We are going to show some aspects that refer to the effort
needed in the creation of these resources, and thus justify the attempts to develop
methods that lighten this task, and also some proposals that have been made to
solve this problem. These proposals can be considered alternatives to the problem
we want to solve and they face it in very different manners, some of which could be
adapted in our own implementations in a near future.
Keywords: Resource generation, machine learning, system combination
1.
Introducción
Sin duda alguna el mayor problema que
surge a la hora de afrontar la creación de recursos lingüı́sticos es el esfuerzo que se requiere para obtener resultados de suficiente
envergadura como para que les sean útiles
a los algoritmos que los necesitan. General∗
Parcialmente financiado por el Ministerio de Educación y Ciencia (TIN2004-07246-C03-03).
ISSN: 1135-5948
mente, un algoritmo de aprendizaje supervisado que hace uso de un corpus etiquetado para una determinada tarea, exige un
número muy alto de palabras o frases etiquetadas para ofrecer resultados que puedan ser
considerados de calidad aunque esto dependerá del algoritmo en cuestión y de la tarea
que se esté afrontando.
Si nos centramos en una tarea amplia-
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Fernando Enriquez, Jose Antonio Troyano, Fermin Cruz y F. Javier Ortega
de recursos respectivamente. En el capı́tulo
6 veremos las técnicas de bootstrapping para
finalizar con un capı́tulo dedicado a las conclusiones.
mente conocida dentro del procesamiento del
lenguaje natural, como es la desambiguación
de significados, podemos hacernos una idea
de este esfuerzo que estamos comentando. Se
trata de una tarea que afronta el problema
de seleccionar el significado de una palabra
en un texto de entre todos los significados
que posee. La ambigüedad es muy común
aunque los humanos estamos tan acostumbrados a ella y tenemos tal capacidad de resolverla basándonos en el contexto de las palabras, que casi pasa desapercibida ante nuestros ojos. Para esta tarea se han desarrollado
múltiples algoritmos con muy buenos resultados, aunque la disponibilidad de corpus etiquetados sigue constituyendo un problema.
En (Ng, 1997) se realizó un estudio que asegura que para obtener una precisión buena
se necesitan al menos 500 ejemplos por cada
una de las palabras ambiguas a tratar (esta
es una cifra que representa la media ya que
hay diferencias considerables de una palabra
a otra). A un ritmo de un ejemplo etiquetado por minuto y considerando la existencia
de unas 20000 palabras ambiguas en el vocabulario inglés común, esto nos conducirı́a
a unas 160000 horas de etiquetado, que resultarı́an en nada más y nada menos que 80
años de dedicación exclusiva para una persona que lleve a cabo esta tarea de etiquetado. Si además le añadimos el hecho de que
las tareas de etiquetado suelen ser llevadas a
cabo por lingüistas entrenados o expertos, no
cabe duda de que se trata de un proceso realmente caro y generalmente prohibitivo en la
inmensa mayorı́a de los casos.
Todo esto supone una limitación y termina por reducir el número de ejemplos
disponibles, afectando a la tarea en general
y posiblemente al desarrollo de nuevas vı́as
de investigación que puedan aportar mejoras
en los resultados. De ahı́ que este sea el punto de partida de una linea de trabajo futuro
que deseamos recorrer y de la que intentaremos extraer soluciones satisfactorias a este
problema.
A lo largo de los sucesivos capı́tulos
veremos algunas técnicas empleadas para
crear recursos lingüı́sticos, comenzando en el
capı́tulo 2 con un algoritmo que emplea consultas en buscadores web. En el capı́tulo 3
comentaremos las técnicas de crowdsourcing,
cuyo uso se está extendiendo con rapidez,
mientras que en los capı́tulos 4 y 5 comentaremos métodos de combinación e importación
2.
Empleando Búsquedas en la
Web
Una de las vı́as que han surgido para intentar paliar los efectos del enorme esfuerzo
requerido para la creación de recursos, es el
uso de la Web. El contenido de la Web puede
ser considerado un enorme corpus que puede
ser explotado para diversas tareas, si bien
presenta una estructura y unos contenidos
tan heterogéneos que no siempre se sabe muy
bien como sacarle partido a toda la información que posee.
En (Mihalcea, 2002) podemos apreciar
un magnı́fico ejemplo de cómo se puede
hacer uso de la Web para obtener recursos lingüı́sticos a través de los sistemas de
búsquedas que tenemos a nuestra disposición. La tarea que se afronta en este trabajo es la desambiguación de significados
y el sistema propuesto hace uso de diversos recursos disponibles como el corpus SemCor (Miller, 1993) y la base de datos léxica
WordNet (Miller, 1995). El algoritmo se resume en la figura 1.
Las semillas están formadas por múltiples
unidades de palabras que contienen una palabra ambigua, de forma que la expresión por
sı́ misma supone una restricción para el posible significado de la palabra en la que recae
el interés.
En este algoritmo se emplea un método
para, utilizando WordNet, construir consultas que contengan sinónimos o definiciones
del significado de las palabras de interés y mediante los motores de búsqueda disponibles
en Internet, realizar dichas consultas para
obtener textos relacionados con esas definiciones. En WordNet se buscan en primer lugar sinónimos que sean monosémicos, y si no
existen, se buscan definiciones de la palabra.
Al hacer la búsqueda, se seleccionan las oraciones que contengan la definición o el sinónimo y se sustituyen por la palabra original,
obteniéndose un ejemplo de uso de dicha palabra con su significado.
Una vez tenemos las expresiones encontradas tras explorar la web haciendo uso de
las semillas, se aplica un algoritmo iterativo
de desambiguación mediante varios procedimientos cuyas claves se resumen en:
174
Generación Semiautomática de Recursos
1. Crear un conjunto de semillas,
compuestas por:
1.1 Ejemplos de SemCor.
1.2 Ejemplos de WordNet.
1.3 Ejemplos etiquetados
creados mediante búsquedas en
la web de sinónimos monosémicos o
definiciones de la palabra.
1.4 Ejemplos adicionales
etiquetados manualmente (si están
disponibles).
se buscan conexiones entre palabras estando ambas sin desambiguar.
Los experimentos realizados para medir la
calidad de los corpus que se obtienen mediante este algoritmo, demuestran que se obtienen
resultados comparables a los adquiridos a
través del uso de corpus etiquetados manualmente. Concretamente, los autores hicieron
experimentos con diversas herramientas de
etiquetado semántico, utilizando un corpus
etiquetado manualmente y por otro lado, el
corpus obtenido automáticamente mediante
este algoritmo. La precisión alcanzada cuando se usaba el corpus automático era a veces
incluso mejor que la obtenida con las mismas
herramientas pero utilizando el corpus manual.
2. Realizar búsquedas en la Web
utilizando las expresiones de las
semillas.
3. Desambiguar las palabras en un
contexto cercano al texto que
rodea las expresiones de las
semillas. Agregar los ejemplos
formados con las palabras
desambiguadas al conjunto de las
semillas.
3.
El Crowdsourcing
El crowdsourcing es un término acuñado
recientemente y que constituye un paso
adelante tras el outsourcing. Este último
está basado en la delegación de ciertas tareas en determinadas entidades externas para
ahorrar costes y simplificar el proceso de desarrollo en un proyecto (generalmente las empresas han estado fijando las miradas en India
o China). Las nuevas posibilidades de ahorro
en este entorno es posible que se encuentren
en el trabajo disperso y anónimo de multitud de internautas que desarrollan tareas de
mayor o menor valor para una organización
que sepa llamar su atención de alguna de entre tantas formas posibles. Esta forma de recopilar el esfuerzo y orientarlo hacia la consecución de algún objetivo relacionado con el
desarrollo de alguna tarea en concreto se denomina crowdsourcing 1 .
El precursor de este término es Jeff Howe,
quién en (Howe, 2006) comenta varios ejemplos en los que se ha aplicado esta forma
de trabajo. En dicho artı́culo comienza comentando un caso particular referente a un
fotógrafo profesional que pierde un cliente
al descubrir este que puede comprar fotos
a través de iStockPhoto a un precio mucho menor (el cliente solo buscaba fotos de
gente enferma para un trabajo que estaba
realizando). En este portal se publican un
numero muy grande de fotos realizadas por
amateurs y que son muy útiles en muchos
casos sin necesidad de pagar el alto precio
4. Volver al paso 2.
Figura 1: Algoritmo de búsquedas en la web.
1. Localizar las entidades, como nombres
de personas, lugares y organizaciones, y
marcar su significado.
2. Localizar las palabras monosémicas y
marcar su significado.
3. Para cada palabra se forman pares con
la palabra dada y la anterior y posterior. Si en el corpus SemCor aparecen
dichos pares suficientes veces (superior a
un umbral preestablecido) y siempre con
el mismo significado, se le asigna dicho
significado a la palabra.
4. Para los sustantivos se crea un contexto, conteniendo los sustantivos que suelen aparecer cerca por cada significado
posible. Luego se compara con el contexto actual del sustantivo y se escoge el
significado más parecido.
5. Se buscan conexiones semánticas entre
palabras, por lo que, si una palabra tiene
un significado que la convierte en sinónima de otra ya desambiguada, se le asigna
dicho significado. También se estudian
relaciones de hiperonimia e hiponimia y
1
Del inglés ‘crowd’ que significa multitud y
‘source’ que significa fuente
175
Fernando Enriquez, Jose Antonio Troyano, Fermin Cruz y F. Javier Ortega
conocimiento que se puede obtener a partir de los millones de usuarios de Internet
con el objetivo de crear aplicaciones más inteligentes. Dentro de esta iniciativa se encuentran diversos proyectos relacionados con
el lenguaje natural como Open Mind Word
Expert (Mihalcea, 2003), centrado en la desambiguación de significados (generando corpus anotados semánticamente por los usuarios) y Open Mind Common Sense (Singh,
2002) que se centra en la adquisición del sentido común para generar un corpus textual.
que cobrarı́a un profesional al que le encargase el trabajo de forma directa. Es un
ejemplo más en el que el trabajo de miles
de personas puede ser aprovechado cambiando un escenario empresarial que parecı́a en
principio inquebrantable. De esta forma cada participante puede publicar todo tipo de
fotos cobrando muy poco por cada una pero
con la capacidad de ponerlas al alcance de
cualquiera que esté conectado a Internet. Esto lleva al autor a decir:
Welcome to the age of the crowd.
Just as distributed computing projects like UC Berkeley’s
SETI@home have tapped the unused processing power of millions
of individual computers, so distributed labor networks are using
the Internet to exploit the spare
processing power of millions of
human brains.
4.
La Combinación de Recursos
Otra estrategia que podemos encontrar en
la bibliografı́a para generar corpus es la combinación de recursos ya existentes, de manera
que se enriquezcan unos con otros aumentando su valor al ser considerados de forma global. Un ejemplo muy clarificador lo podemos
encontrar en (Shi, 2005), donde se combinan
FrameNet, VerbNet y WordNet. Vamos a comentar brevemente el contenido de estos recursos para luego comprender cómo se combinan creando un recurso unificado.
En la misma lı́nea de este ejemplo que
acabamos de comentar, hallamos multitud
de proyectos, sistemas y aplicaciones que intentan sacar partido de todo este potencial,
por ejemplo, la wikipedia, una enciclopedia
que se extiende rápidamente entre las preferencias de los usuarios de Internet, y que
está hecha mediante la contribución anónima de todos los que quieran aportar su grano
de arena a esta recopilación de conocimiento.
También lo vemos en los programas de televisión que se basan estrictamente en mostrar
el material creado por los propios telespectadores (emitiendo sus videos caseros, composiciones musicales, etc) y que obtienen en
muchos casos cifras de audiencia espectaculares sin apenas suponerle ningún coste a la
cadena. Otros ejemplos pueden ser, el proyecto InnoCentive, a través del cuál se publican problemas de cierta dificultad técnica o
cientı́fica que le surgen a todo tipo de empresas, de forma que cualquiera puede intentar
darle solución (recibiendo grandes recompensas económicas) o el Turco Mecánico de Amazon, a través del cuál todo el mundo puede
cobrar una pequeña cantidad de dinero por
realizar tareas muy simples sin necesidad de
una gran preparación previa.
La iniciativa ‘Open Mind’ (Stork, 1999)
es el resultado de aplicar esta idea a
la generación de recursos lingüı́sticos. La
idea básica es utilizar la información y el
La primera pieza de este puzzle parte
de WordNet. Es una gran base de datos
léxica con mucha información sobre palabras y conceptos. Este es el recurso
utilizado para identificar caracterı́sticas
semánticas superficiales que pueden asociarse a unidades léxicas. En WordNet
se cubren la gran mayorı́a de nombres,
verbos, adjetivos y adverbios del inglés.
Las palabras se organizan en conjuntos
de sinónimos (llamados ‘synsets’) que representan conceptos.
FrameNet por su parte es un recurso
que contiene información sobre diferentes situaciones, llamadas ‘frames’. Cada frase etiquetada en FrameNet representa una posible construcción sintáctica
para los roles semánticos asociados con
un frame para una determinada palabra.
Solemos referirnos al conocimiento que
aporta WordNet como conocimiento a
nivel de palabra (word-level knowledge),
mientras que FrameNet y VerbNet hacen referencia al conocimiento a nivel de
frase (sentence-level knowledge).
Y finalmente Verbnet es un recurso léxico de verbos basado en las clases de
verbos de Levin, y que también aporta restricciones selectivas asociadas a los
176
Generación Semiautomática de Recursos
roles semánticos. Identificando la clase
de VerbNet que se corresponde con un
frame de FrameNet, se pueden analizar
sintácticamente frases que incluyen verbos que no están cubiertos aún por
FrameNet. Se puede hacer esto gracias
a que existe una relación transitiva entre las clases de VerbNet (los verbos que
pertenecen a la misma clase en VerbNet tienen una alta probabilidad de compartir el mismo frame en FrameNet, y
por lo tanto se pueden analizar semánticamente aunque no aparezcan explı́citamente en FrameNet).
También se extiende la cobertura de los
verbos de FrameNet haciendo uso de las
clases de VerbNet y las relaciones de
sinonimia e hiponimia de los verbos de
WordNet.
Además, se identifican las conexiones explı́citas entre los roles semánticos y las
clases semánticas, codificando restricciones de selección para los roles semánticos mediante la jerarquı́a de nombres de
WordNet.
La construcción de recursos lingüı́sticos
requiere un gran esfuerzo humano y cada recurso está pensado para solucionar un determinado tipo de problemas, mostrando virtudes en ciertos aspectos y desventajas en
otros. De esta forma, la combinación de estos recursos puede dar lugar a una base de
conocimiento más extensa y más rica. En
(Shi, 2005) hemos visto como se mejora la
cobertura de FrameNet, se mejora VerbNet
con la semántica de los marcos y se implementan las restricciones de selección haciendo uso de las clases semánticas existentes en
WordNet.
Dados estos tres recursos, se pueden combinar de manera que se pueda trabajar con
todos ellos a la vez, en lugar de estar obligados a elegir sólo uno renunciando a la información que aportan los otros. Las caracterı́sticas que permiten llevar a cabo esta unión
son las siguientes:
FrameNet no define explı́citamente restricciones de selección para los roles
semánticos. Además, la construcción de
FrameNet requirió de un gran esfuerzo
humano por lo que la cobertura y escalabilidad se han visto seriamente afectadas.
5.
VerbNet sin embargo tiene mucha mejor
cobertura y define relaciones sintacticosemánticas de una manera más explı́cita.
VerbNet etiqueta roles temáticos y proporciona restricciones de selección para
los argumentos de los marcos sintácticos.
Importando Recursos
Cercanos
Cuando queremos afrontar la tarea de
crear un recurso lingüı́stico, una posibilidad
que tenemos al alcance de nuestra mano
en muchos casos, es adaptar otro recurso
“cercano” al que deseamos crear. Es la opción elegida por ejemplo en (Carreras, 2003),
donde se construye un reconocedor de entidades con nombre para el catalán partiendo de recursos en castellano. Se emplean dos
vı́as para lograrlo: en primer lugar creando
los modelos para el español para posteriormente traducirlos al catalán, y en segundo
lugar crear los modelos de forma bilingüe directamente.
La cercanı́a en este caso se presenta ya que
se trata de dos lenguas románicas que poseen
estructuras sintácticas similares y cuyos entornos sociales y culturales se solapan en
gran medida, haciendo que exista un gran
número de entidades que aparecen en los
corpus de ambas lenguas. Estas caracterı́sticas hacen que los recursos en español sean
aprovechables para llevar a cabo tareas sobre
el catalán como puede ser el reconocimiento
de entidades con nombre.
WordNet por su parte cubre casi al completo todos los verbos del inglés y aporta una gran información sobre las relaciones semánticas entre los sentidos de
los verbos. De todas formas, la construcción de WordNet está basada en el significado de los verbos y no incluye el
comportamiento sintáctico o semántico
de los mismos (como pueden ser las estructuras de tipo predicado-argumento).
Una vez analizado el contenido de estos
tres recursos, la combinación de la información codificada en cada uno de ellos pasa por:
Aumentar la semántica de los marcos
con las clases de VerbNet etiquetando
los marcos y los roles semánticos de
FrameNet con las entradas de VerbNet
y sus argumentos correspondientes.
177
Fernando Enriquez, Jose Antonio Troyano, Fermin Cruz y F. Javier Ortega
corpus del idioma para el que se desea ejecutar el reconocedor, en este caso, el catalán. En
este trabajo se hizo empleando el mismo esfuerzo que se realizó para crear el diccionario,
es decir, unas 10 horas de trabajo, obteniendo
un pequeño corpus etiquetado.
Los resultados aportados (Carreras, 2003)
demuestran que la tercera opción es la que
peor responde ya que es preferible traducir
los modelos o crearlos de forma que sean bilingües, antes que aprender de un número tan
reducido de ejemplos. En cuanto a las otras
dos opciones, la segunda se revela como la
más interesante ya que, aunque sobre el español se obtienen mejores resultados con el
modelo entrenado únicamente con ejemplos
en español, la opción de crear un modelo bilingüe no está muy lejos en cuanto a números
en español y supera de forma considerable a
los demás en catalán.
Estos experimentos demuestran que se
pueden aprovechar recursos “cercanos” a los
que necesitamos para llevar a cabo tareas
obteniendo buenos resultados con un coste
bastante reducido (sobre todo en comparación al que habrı́a que afrontar creando
nuevos recursos desde cero).
Concretamente las conclusiones aportadas
por los autores de este trabajo son las siguientes:
Para el estudio que se llevó a cabo en este
caso, se asumen dos puntos: las entidades
aparecen en los mismos contextos para ambas lenguas y las entidades responden a los
mismos patrones en ambos casos. Además
de esto se construye un diccionario sencillo
de palabra a palabra sin tener en cuenta el
contexto (10 horas de trabajo para la version catalan-español y un sistema automático
para la versión español-catalán).
Teniendo en cuenta estas premisas se llevan a cabo varios experimentos sobre el
reconocimiento de entidades con nombre
en catalán partiendo de corpus etiquetados
únicamente en español.
La primera opción es traducir el modelo que se genera al entrenar con los textos
en español, de manera que se analizan los
árboles de decisión generados para su posterior modificación. Si un nodo del árbol analiza la posibilidad de que en la posición -2
aparezca la palabra “calle”, se traduce dicho
nodo haciendo lo mismo para la palabra “carrer” (traducción del español al catalán). De
esta forma se puede aplicar un modelo creado mediante corpus en español a un texto en
catalán. La traducción se hará en todos los
nodos que analicen caracterı́sticas léxicas del
texto, mientras que los demás permanecerán
intactos.
Una segunda opción es utilizar caracterı́sticas bilingües (denominadas cross-linguistic
features) basadas en una entrada del diccionario “es w ∼ ca w” (suponiendo que existe un parámetro ‘lang’ de valor ‘es’ para el
español y ‘ca’ para el catalán). Estas caracterı́sticas binarias se comportan de la siguiente forma:
Es mejor traducir un modelo entrenado
en español que crear un pequeño corpus
anotado con el que entrenar el modelo
directamente en catalán.
La traducción se puede llevar a cabo de
forma automática sin pérdida considerable de efectividad en el proceso.
La mejor opción ha resultado ser el uso
de caracterı́sticas bilingües ya que permite obtener resultados favorables en
ambos idiomas.
X-Linges w∼ca w (w) =
⎧
⎨ 1 if w = es w and lang = es
1 if w = ca w and lang = ca
=
⎩ 0 otherwise
La expansión de esta idea puede venir en
forma de aplicaciones de apoyo más complejas y que ayuden a acercar recursos que no
estén tan estrechamente ligados como los que
aquı́ se han comentado.
De esta forma se puede entrenar el modelo
con ejemplos mezclados en ambos idiomas,
pudiendo seleccionar el número de ejemplos
de cada caso y permitiendo por ejemplo que
haya un número muy reducido de ejemplos
en catalán para este escenario en concreto. El
resultado es un modelo que puede reconocer
entidades tanto en español como en catalán.
La tercera opción consiste por último en
crear el modelo entrenando con un pequeño
6.
Técnicas de Bootstrapping
En otros trabajos se pone en práctica otra
técnica de obtención de recursos muy interesante. Se trata de las técnicas de bootstrapping, que tratan de obtener una gran cantidad de material partiendo de una pequeña
178
Generación Semiautomática de Recursos
las etiquetas seleccionadas sirven para
aumentar el corpus original y proseguir
con la siguiente iteración.
“semilla”. En la tarea de la creación de corpus etiquetados, el objetivo será obtener un
gran número de frases etiquetadas de forma automática partiendo de un número muy
reducido de frases etiquetadas manualmente
(por lo que el coste es muy bajo en comparación con el etiquetado manual completo).
Existen múltiples técnicas de bootstrapping, que difieren en la forma de aumentar
la semilla, el manejo de las frases nuevas etiquetadas o las técnicas de selección en caso
de utilizarse alguna. En cualquier caso todas
responden a la definición:
Figura 3: Esquema de ejecución para el
‘collaborative-train’.
“la elevación de un pequeño esfuerzo inicial hacia algo más grande y
más significativo”.
Co-train: Dos corpus inicialmente
iguales sirven para crear dos modelos de
diferentes caracterı́sticas y los resultados
de aplicar estos modelos a un conjunto
de frases nuevas se “cruzan”, es decir,
las frases etiquetadas por el primer
modelo sirven para aumentar el corpus
que sirvió para crear el segundo modelo
y viceversa. De esta forma un modelo no
se alimenta únicamente de su percepción
del corpus sino que recibe información
de otro modelo que imprime otro punto
de vista diferente a la resolución del
mismo problema.
Algunos de los esquemas de ejecución más
populares dentro de las conocidas como técnicas de bootstrapping son:
Self-train: Un corpus es utilizado para
crear un modelo que se aplica a un conjunto nuevo de frases que tras ser etiquetadas pasan a formar parte del corpus
original para volver a generar un nuevo
modelo y avanzar de esta forma iterativamente.
Figura 2: Esquema de ejecución para el ‘selftrain’.
Esta es la definición de self-training que
generalmente se adopta, como en (Clark,
2003), aunque existen otras como la que
aporta (Ng, 2003), donde se describe como el entrenamiento de un comité de
clasificadores utilizando bagging para finalmente utilizar la votación por mayorı́a para seleccionar las etiquetas finales.
Figura 4: Esquema de ejecución para el ‘cotrain’.
En (Jones, 1999) se presentan dos casos
de estudio para el uso de técnicas de bootstrapping en la creación de recursos. Se trata de un reconocedor de localizaciones y un
clasificador de artı́culos de investigación. En
ambos casos se obtienen muy buenos resultados, mostrando la utilidad de este tipo de
técnicas.
Collaborative-train: Se emplea un mismo
corpus para obtener diferentes modelos
empleando diferentes técnicas de aprendizaje. Posteriormente se introduce una
fase de selección entre las diferentes
opiniones que surgen de aplicar estos
modelos al conjunto de frases nuevas y
179
Fernando Enriquez, Jose Antonio Troyano, Fermin Cruz y F. Javier Ortega
J.
Otro aspecto importante a tener en cuenta
es que se hace prácticamente imposible mejorar el resultado de un clasificador si los resultados que alcanza son demasiado buenos. En
estos casos la aplicación de estas técnicas se
limitará a introducir ruido y empeorar la calidad del trabajo resultante. Es por lo tanto
necesario reservar este tipo de técnicas a trabajos “difı́ciles” como puede ser aumentar un
corpus que solo contiene un número limitado
de frases inicialmente, teniendo en cuenta que
si el tamaño inicial es suficiente para obtener buenos resultados, difı́cilmente podremos
mejorarlos aplicando bootstrapping.
7.
Howe: The rise of crowdsourcing.
Wired - 14.06 http://www.wired.com
/wired/archive/14.06/crowds.html.
(2006) 17–20
D. Stork: The Open Mind initiative. IEEE
Expert Systems and Their Applications,
14(3). (1999) 19–20
R. Mihalcea, T. Chklovski: Open Mind Word
Expert: Creating Large Annotated Data
Collections with Web Users’ Help. In Proceedings of the EACL 2003 Workshop on
Linguistically Annotated Corpora (LINC
2003). (2003) 17–20
P. Singh, T. Lin, E. Mueller, G. Lim, T.
Perkins, W. Li Zhu: Open mind common sense: Knowledge acquisition from
the general public. In Proceedings of the
First International Conference on Ontologies, Databases, and Applications of Semantics for Large Scale Information Systems. (2002)
Conclusiones
La disponibilidad de recursos es un factor
crucial en muchas de las tareas del Procesamiento del Lenguaje Natural que se resuelven fundamentalmente mediante métodos de
aprendizaje supervisado. La obtención de estos recursos es una labor muy costosa, de
ahı́ que se lleven a cabo esfuerzos para desarrollar métodos que desempeñen esta labor de forma automática o semi-automática.
Hemos presentado varias iniciativas ya existentes, mostrando las caracterı́sticas propias
de cada una de ellas y reflejando diferentes
enfoques que creemos pueden llegar a compaginarse en un entorno que facilite la tarea
de la generación de recursos. Este es el punto de partida de una linea de trabajo futuro
que deseamos recorrer y de la que intentaremos extraer soluciones satisfactorias a este
problema.
Lei Shi, Rada Mihalcea: Putting Pieces Together: Combining FrameNet, VerbNet
and WordNet for Robust Semantic Parsing. In Proceedings of the Sixth International Conference on Intelligent Text
Processing and Computational Linguistics. (2005)
Xavier Carreras, Lluı́s Màrquez, Lluı́s Padró:
Named Entity Recognition for Catalan
Using Spanish Resources. In 10th Conference of the European Chapter of the Association for Computational Linguistics.
(2003)
Bibliografı́a
S. Clark, J. R. Curran, M. Osborne: Bootstrapping POS taggers using Unlabelled
Data. In Proceedings of CoNLL-2003.
(2003) 49–55
H.T. Ng: Getting serious about word sense
disambiguation. In Proceedings of the
ACL SIGLEX Workshop on Tagging Text
with Lexical Semantics: Why, What, and
How?. (1997) 1–7
V. Ng, C. Cardie: Weakly supervised natural language learning without redundant views. In Human Language Technology/Conference of the North American
Chapter of the Association for Computational Linguistics. (2003)
R. Mihalcea: Bootstrapping Large Sense
Tagged Corpora. In Proceedings of the 3rd
International Conference on Languages
Resources and Evaluations. (2002)
Rosie Jones, Andrew McCallum, Kamal
Nigam, Ellen Riloff: Bootstrapping for
Text Learning Tasks. In IJCAI-99 Workshop on Text Mining: Foundations, Techniques and Applications. (1999)
G. Miller, C. Leacock, T. Randee, R. Bunker:
A semantic concordance. In Proceedings
of the 3rd DARPA Workshop on Human
Language Technology. (1993) 303–308
G. Miller: Wordnet: A lexical database. Communication of the ACM,38(11). (1995) 39–
41
180
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 181-186
recibido 18-05-2007; aceptado 22-06-2007
Building Corpora for the Development of a Dependency Parser
for Spanish Using Maltparser∗
Jesús Herrera
Departamento de Lenguajes y Sistemas Informáticos
Universidad Nacional de Educación a Distancia
C/ Juan del Rosal, 16, E-28040 Madrid
[email protected]
Pablo Gervás, Pedro J. Moriano, Alfonso Muñoz, Luis Romero
Departamento de Ingenierı́a del Software e Inteligencia Artificial
Universidad Complutense de Madrid
C/ Profesor José Garcı́a Santesmases, s/n, E-28040 Madrid
[email protected], {pedrojmoriano, alfonsomm, luis.romero.tejera}@gmail.com
Resumen: En el presente artı́culo se detalla el proceso de creación de corpora
para el entrenamiento y pruebas de un generador de analizadores de dependencias
(Maltparser). Se parte del corpus Cast3LB, que contiene análisis de constituyentes de
textos en español. Estos análisis de constituyentes se transforman automáticamente
en análisis de dependencias. Además se describe cómo se obtiene, experimentalmente
y de manera semiautomática, un conjunto de etiquetas de funcionalidad sintáctica
para etiquetar adecuadamente el corpus de entrenamiento. El proceso seguido ha
permitido obtener un analizador de dependencias para el español con una precisión
del 91 % en la determinación de dependencias.
Palabras clave: Análisis de dependencias, corpus de entrenamiento, etiqueta de
funcionalidad sintáctica, Maltparser, JBeaver
Abstract: The present paper details the process followed for creating training and
test corpora for a dependency parser generator (Maltparser). The starting point is
the Cast3LB corpus, which contains constituency analyses of Spanish texts. These
constituency analyses are automatically transformed into dependency analyses. In
addition, the empirically and semiautomatically obtention of a set of syntactic function labels for the training corpus is described. As a result of the process followed, it
has been obtained a dependency parser for Spanish showing a 91 % precision when
determining dependencies.
Keywords: Dependency parsing, training corpus, syntactic function label, Maltparser, JBeaver
1.
Introduction
The development of JBeaver, a dependency parser for Spanish (Herrera et al., 2007), is
based on the use of Maltparser (Nivre et al.,
2006), which is a machine learning tool for
generating dependency parsers for, virtually,
every language. Such development carries inherently associated the labour of generating
corpora for its training and its subsequent
evaluation.
The amount of work needed for develop∗
Partially supported by the Spanish Ministry
of Education and Science (TIN2006-14433-C02-01
project).
ISSN: 1135-5948
ing from scratch a corpus annotated with dependency analyses, and with a suitable size
for training Maltparser, exceeded the possibilities of the JBeaver project. Therefore,
it was necessary to find an alternative way
for the generation of such corpus. A possible
approach was to reuse available resources in
order to build from them a corpus annotated with dependency analyses in a semiautomatic way. For this, the Cast3LB (Navarro
et al., 2003) treebank was used. It is conformed by 72 Mb of Spanish annotated texts,
approximately and itcontains the constituency analysis for every sentence in it. Leaving
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Jesús Herrera de la Cruz, Pablo Gervás, Pedro J. Moriano, Alfonso Muñoz y Luis Romero
aside certain subtleties (Gelbukh and Torres,
2006), constituency analysis and dependency
analyses can be converted one into the other in a systematic way. After studying the
format and labels used for Cast3LB (Navarro et al., 2003) (Civit, 2002), a system capable of transforming the constituency analyses contained in Cast3LB into dependency
analyses was developed by modifying an algorithm proposed by Gelbukh et al. (Gelbukh
and Torres, 2006) (Gelbukh et al., 2005). The
existence of Cast3LB and the possibility of
transforming the analyses contained in it into
dependency analyses were important reasons
to use Maltparser in the JBeaver project.
On the other hand, having decided that
the JBeaver parser would be made generally available to the public, lead us to consider
additional requirements. For instance, we decided to make as easy as possible the use of
JBeaver by tools already adapted to the use
of Minipar (Lin, 1998). This is due to the fact
that Minipar has become a de facto standard
in the last years after being used by a large
number of applications. Thus, the notation
used for JBeaver is, as far as possible, the
same as the one used for Minipar.
2.
an example.
3.
Building a training corpus
Malparser requires for its training a corpus in which, for every word of the analyzed
text, the following data must be incorporated: a unique identifier, its part of speech label, the identifier of the head of that word
and a label indicating the syntactic function
given in the dependency relationship. Maltparser admits both a XML format and a tab
format at its input. In figure 2 two mutually
equivalent examples are shown (the first one
in XML format and the second one in tab
format).
The numeric identifier 0 and the syntactic
function label ROOT are used by convention
to designate the dependency tree’s root1 .
All the information needed for the creation of the training corpus was contained
in the Cast3LB corpus, but it was necessary
to extract it and to modify it to suit the conventions followed by Maltparser. For this, the
two following actions were accomplished: the
obtention of dependency relationships, and
the obtention of syntactic function labels.
3.1.
The source corpus
Obtaining dependency
relationships
In order to extract the dependency relationships between words contained in the
Cast3LB corpus, an automatic process was
developed. It was designed from an algorithm
proposed by Gelbukh et al. (Gelbukh and
Torres, 2006) (Gelbukh et al., 2005), modified as needed.
A dependency analysis corpus is needed for training Maltparser. The construction of such a corpus by hand implied a
work load well beyond the constraints of
the JBeaver project. Thus, it was decided
to take advantage of existing resources. Taking into account that, except for some specific cases (such as non-projective constructions), the dependency analysis of a text can
be automatically derived from its constituency analysis (Gelbukh and Torres, 2006), and
that Cast3LB –which contains constituency analyses of Spanish texts– was available,
it became the best option as source corpus
for the project. Then, the training corpus
was obtained in a semiautomatic way from
Cast3LB.
Cast3LB contains 100,000 words in, approximately, 3,700 sentences of texts in Spanish. 75,000 words of Cast3LB come from the
ClicTALP corpus, which is a set of text from
several domains: literary, journalistic, scientific, etcetera, and the other 25,000 words
come from the EFE news agency’s corpus
from year 2000 (Navarro et al., 2003). In figure 1 an excerpt from Cast3LB is shown as
3.2.
Obtaining syntactic functions
labels
The great popularity reached in the last
years by Minipar lead to the decision of using, in the JBeaver project, a set of syntactic
function labels that followed, as far as possible, the nomenclature given by Minipar. In
this way, it would be easier to adapt systems currently using Minipar to the use of
JBeaver. Since the Cast3LB corpus contains
specific syntactic function labels, they must
be translated into the ones used by Minipar
in order to train Maltparser with the appropriate set of labels. For this, the first action
to be accomplished was to obtain the set of
syntactic function labels from Minipar. Since
1
http://w3.msi.vxu.se/∼nivre/research/
MaltXML.html
182
Building Corpora for the Development of a Dependency Parser for Spanish Using Maltparser
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE FILE SYSTEM "3lb.dtd">
<FILE id="agset" language="es" wn="1.5" ewn="dic2002"
parsing_state="process" semantic_state="process"
last_modified="13-01-2006" project="3LB" about="3LB project annotation file">
<LOG auto_file="a1-0-auto3.log" anno_file="a1-0-anno4.log"
nosense_file="a1-0-nosense4.log" />
<SENTENCE id="agset_1">
<Anchor id="agset_1_ac1" offset="0"/>
<Anchor id="agset_1_ac2" offset="15"/>
<Anchor id="agset_1_ac3" offset="21"/>
<Anchor id="agset_1_ac4" offset="23"/>
<Anchor id="agset_1_ac5" offset="26"/>
<Anchor id="agset_1_ac6" offset="34"/>
<Anchor id="agset_1_ac7" offset="40"/>
<Anchor id="agset_1_ac8" offset="42"/>
<Anchor id="agset_1_ac9" offset="52"/>
<Anchor id="agset_1_ac10" offset="54"/>
<Annotation id="agset_1_an3" start="agset_1_ac1" end="agset_1_ac2"
type="syn">
<Feature name="roles">SUJ</Feature>
<Feature name="label">sn</Feature>
<Feature name="parent">agset_1_an2</Feature>
</Annotation>
<Annotation id="agset_1_an4" start="agset_1_ac1" end="agset_1_ac2"
type="syn">
<Feature name="label">grup.nom.ms</Feature>
<Feature name="parent">agset_1_an3</Feature>
</Annotation>
<Annotation id="agset_1_an5" start="agset_1_ac1" end="agset_1_ac2"
type="wrd">
<Feature name="label">Medardo_Fraile</Feature>
<Feature name="sense">C2S</Feature>
<Feature name="parent">agset_1_an6</Feature>
</Annotation>
<Annotation id="agset_1_an6" start="agset_1_ac1" end="agset_1_ac2"
type="pos">
<Feature name="lema">Medardo_Fraile</Feature>
<Feature name="label">np00000</Feature>
<Feature name="parent">agset_1_an4</Feature>
</Annotation>
<Annotation id="agset_1_an1" start="agset_1_ac1" end="agset_1_ac10"
type="dummy_root">
<Feature name="label"/>
<Feature name="parent"/>
</Annotation>
Figura 1: Excerpt from Cast3LB
an exhaustive list of these labels is not publicly available, it was necessary to try to obtain the best possible approach, from a large
number of analyses made with Minipar. Following this goal, an empirical work was ac-
complished, based on the idea that with a
great amount of analyses made with Minipar
the set of different labels found would be very
close to the real set of labels. The process employed was the following:
183
Jesús Herrera de la Cruz, Pablo Gervás, Pedro J. Moriano, Alfonso Muñoz y Luis Romero
<sentence id="2" user="malt" date="">
<word id="1" form="Genom" postag="pp" head="3" deprel="ADV"/>
<word id="2" form="skattereformen" postag="nn.utr.sin.def.nom" head="1"
deprel="PR"/>
<word id="3" form="infors" postag="vb.prs.sfo" head="0" deprel="ROOT"/>
<word id="4" form="individuell" postag="jj.pos.utr.sin.ind.nom" head="5"
deprel="ATT"/>
<word id="5" form="beskattning" postag="nn.utr.sin.ind.nom" head="3"
deprel="SUB"/>
<word id="6" form="(" postag="pad" head="5" deprel="IP"/>
<word id="7" form="sarbeskattning" postag="nn.utr.sin.ind.nom" head="5"
deprel="APP"/>
<word id="8" form=")" postag="pad" head="5" deprel="IP"/>
<word id="9" form="av" postag="pp" head="5" deprel="ATT"/>
<word id="10" form="arbetsinkomster" postag="nn.utr.plu.ind.nom" head="9"
deprel="PR"/>
<word id="11" form="." postag="mad" head="3" deprel="IP"/>
</sentence>
Genom
skattereformen
infors
individuell
beskattning
(
sarbeskattning
)
av
arbetsinkomster
.
pp
nn.utr.sin.def.nom
vb.prs.sfo
jj.pos.utr.sin.ind.nom
nn.utr.sin.ind.nom
pad
nn.utr.sin.ind.nom
pad
pp
nn.utr.plu.ind.nom
mad
3
1
0
5
3
5
5
5
5
9
3
ADV
PR
ROOT
ATT
SUB
IP
APP
IP
ATT
PR
IP
Figura 2: Mutually equivalent training files for Maltparser (XML and tab)
1. A set of English texts obtained from the
web was parsed with Minipar. It consisted of about 1 Mb of texts from several domains extracted from the Project
Gutemberg2 covering the following domains: sport (197.1 Kb containing 1,854
phrases), economy (207.1 Kb containing
1,173 phrases), education (160.5 Kb containing 869 phrases), history (162.2 Kb
containing 1,210 phrases), justice (98.2
Kb containing 453 phrases) and health
(265.2 Kb containing 2,409 phrases).
for each syntactic function label identified do
if this function may occur in Spanish
then
Set one or more rules for suitably
transforming the syntactic function label
from Cast3LB into the identified label;
else
Discard the identified label;
end if
end for
2. The output files given by Minipar were
treated in order to extract the set of all
different syntactic function labels.
The rules mentioned above were implemented in the program that transforms constituency analyses into dependency analyses.
A special label was used to identify not yet
discovered syntactic functions that might be
found in the future.
After the establishment of the set of syntactic rules, a significant set of constituen-
3. A set of analyses, in which all the labels
found were present, was selected and the
following algorithm was applied to it:
2
http://www.gutenberg.org/
184
Building Corpora for the Development of a Dependency Parser for Spanish Using Maltparser
3.4.
cy analyses was transformed into dependency analyses. Having obtained the dependency treebank, all the analyses containing one
or more special labels for not yet discovered
syntactic functions was manually analyzed.
Then, every case was studied in order to determine if a new syntactic function label was
incorporated to the set or the considered syntactic function could be assimilated to one of
the known labels. In figure 3 the complete
list of syntactic function labels is shown, i.e.,
those from Minipar and those that were defined ad–hoc.
Following the process described in this section, 280 XML files (72.9 Mb) containing constituency analyses from the Cast3LB corpus,
consisting of 97,002 words, were transformed
into dependency analyses apt for their processing by MaltParser (a tab training file of
1.6 Mb), being labeled according to the requirements of the JBeaver project.
4.
whn
aux
num
punc
amount–value
neg
nn
lex–
dep
mod
amod
vrel
det
pcomp–n
gen
appo
subj
guest
else
neg
New ad–hoc syntactic function labels:
ROOT
descr
adj
c-descr
fecha
compdet
Figura 3: Syntactic function labels used in
the training corpus
5.
The set of syntactic function labels finally
obtained was not necessarily complete, but it
was reasonably valid for its purpose. Thus, it
was used by the algorithm that transformed
constituency analyses into dependency analyses for labelling the syntactic functions according to Minipar’s nomenclature.
3.3.
The test corpus and results
obtained
For the evaluation of the trained model a fraction of dependencies correctly found
and labeled was computed. The gold standard was a fraction of the corpus described
in section 3. This corpus was divided in three
equal parts; two of them were used as the
training corpus and the other one was used
both as test corpus and as gold standard. For
using it as test corpus, the annotations concerning dependency relationships and syntactic function were eliminated, i.e., it was conformed only by the words and their part of
speech tags, which is the format required by
MaltParser for using it as parser. Thus, the
output given by the trained model was compared with the gold standard, and 91 % of
the dependencies found by the trained model
were according to the gold standard (Herrera
et al., 2007). This result is comparable to the
one obtained by Nivre et al. when training
MaltParser for Spanish (Nivre et al., 2006).
Identified Minipar’s syntactic function labels:
sc
pnmod
poss
The definitive corpus
Conclusions and future work
The process of building corpora for training and testing a specific tool for generating dependency parser (Maltparser) has been
shown. This process has proper features because of the requirements of the project in
which it has been developed (JBeaver). It was
mandatory to use existing resources, and a
constituency analyses corpus has been satisfactorily transformed into a equivalent dependency analyses corpus. For this purpose,
an algorithm previously proposed by Gelbukh et al. was modified and applied. In addition and in order to fulfill the necessities of
the project, the set of syntactic function labels of Minipar was empirically determined.
The future work includes the search for
more syntactic function labels, from Minipar
and new ones not considered yet. Also, some
research could be done in order to improve
the algorithm that transforms constituency
Part of speech tagging
One of JBeaver’s features is that is capable to parse texts with no need of a previous annotation. Since the model learned
by MaltParser requires, for the parsing step,
that every word is labeled with its part of
speech, the tagging subtask is implemented
in JBeaver by the part of speech tagger Treetagger (Schmid et al., 1994). The use of Treetagger was motivated by the fact that its set
of part of speech labels was the one used for
MaltParser’s training.
185
Jesús Herrera de la Cruz, Pablo Gervás, Pedro J. Moriano, Alfonso Muñoz y Luis Romero
analyses into dependency analyses. By means
of these future improvements, it should be
possible to learn better models for dependency parsing in Spanish.
In addition, similar development efforts to
the one described here could be carried out
for other languages.
Bibliografı́a
M. Civit. 2002. Etiquetación de los Cuantificadores: Varias Propuestas. TALP Research Center–Universidad Politécnica de
Cataluña. Technical Report.
A. Gelbukh and S. Torres. 2006. Tratamiento de Ciertos Pronombres y Conjunciones
en la Transformación de un Corpus de
Constituyentes a un Corpus de Dependencias. Avances en la Ciencia de la Computación. VII Encuentro Internacional de
Computación ENC’06.
A. Gelbukh, S. Torres and H. Calvo. 2005.
Transforming a Constituency Treebank into a Dependency Treebank. Procesamiento
del Lenguaje Natural, No 35, September
2005. Sociedad Española para el Procesamiento de Lenguaje Natural (SEPLN).
J. Herrera, P. Gervás, P.J. Moriano, A.
Muñoz, L. Romero. 2007. JBeaver: Un
Analizador de Dependencias para el Español Basado en Aprendizaje. Under evaluation process for CAEPIA 2007.
D. Lin. 1998. Dependency–based Evaluation
of MINIPAR. Proceedings of the Workshop on the Evaluation of Parsing Systems, Granada, Spain.
B. Navarro, M. Civit, M.A. Martı́, R. Marcos,
B. Fernández. 2003. Syntactic, Semantic
and Pragmatic Annotation in Cast3LB.
Proceedings of the Shallow Processing on
Large Corpora (SproLaC), a Workshop on
Corpus Linguistics, Lancaster, UK.
J. Nivre, J. Hall, J. Nilsson, G. Eryigĭt
and S. Marinov. 2006. Labeled Pseudo–
Projective Dependency Parsing with Support Vector Machines. Proceedings of the
CoNLL-X Shared Task on Multilingual
Dependency Parsing, New York, USA.
H. Schmid. 1994. Probabilistic Part-ofSpeech Tagging Using Decission Trees.
Proceedings of the International Conference on New Methods in Language Processing, pages 44–49, Manchester, UK.
186
Semántica
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 189-196
recibido 18-05-2007; aceptado 22-06-2007
A Proposal of Automatic Selection of
Coarse-grained Semantic Classes for WSD∗
Rubén Izquierdo & Armando Suárez
GPLSI. Departament de LSI. UA. Alacant, Spain.
{ruben,armando}@dlsi.ua.es
German Rigau
IXA NLP Group. EHU. Donostia, Spain.
[email protected]
Resumen: Presentamos un método muy simple para seleccionar conceptos base (Base Level
Concepts) usando algunas propiedades estructurales básicas de WordNet. Demostramos
empı́ricamente que el conjunto de Base Level Concepts obtenido agrupa sentidos de palabras
en un nivel de abstracción adecuado para la desambiguación del sentido de las palabras
basada en clases. De hecho, un sencillo clasificador basado en el sentido más frecuente
usando las clases generadas, es capaz de alcanzar un acierto próximo a 75% para la tarea de
etiquetado semántico.
Palabras clave: WordNet, Sentidos de las palabras, niveles de abstracción, Desambiguación
del Sentido de las Palabras
Abstract: We present a very simple method for selecting Base Level Concepts using some
basic structural properties of WordNet. We also empirically demonstrate that these automatically derived set of Base Level Concepts group senses into an adequate level of abstraction
in order to perform class-based Word Sense Disambiguation. In fact, a very naive Most Frequent classifier using the classes selected is able to perform a semantic tagging with accuracy
figures over 75%.
Keywords: WordNet, word-senses, levels of abstraction, Word Sense Disambiguation
1
Introduction
Word Sense Disambiguation (WSD) is an intermediate Natural Language Processing (NLP)
task which consists in assigning the correct semantic interpretation to ambiguous words in context. One of the most successful approaches in the
last years is the supervised learning from examples, in which statistical or Machine Learning
classification models are induced from semantically annotated corpora (Màrquez et al., 2006).
Generally, supervised systems have obtained better results than the unsupervised ones, as shown
by experimental work and international evaluation exercises such as Senseval1 . These annotated corpora are usually manually tagged by lexicographers with word senses taken from a particular lexical semantic resource –most commonly
WordNet (WN) (Fellbaum, 1998).
WN has been widely criticised for being a
sense repository that often offers too fine–grained
sense distinctions for higher level applications like
Machine Translation or Question & Answering.
In fact, WSD at this level of granularity, has resis∗
This paper has been supported by the European Union
under the project QALL-ME (FP6 IST-033860) and
the Spanish Government under the project Text-Mess
(TIN2006-15265-C06-01) and KNOW (TIN2006-15049C03-01)
1 http://www.senseval.org
ISSN: 1135-5948
ted all attempts of infering robust broad-coverage
models. It seems that many word–sense distinctions are too subtle to be captured by automatic systems with the current small volumes of
word–sense annotated examples. Possibly, building class-based classifiers would allow to avoid
the data sparseness problem of the word-based
approach. Recently, using WN as a sense repository, the organizers of the English all-words task
at SensEval-3 reported an inter-annotation agreement of 72.5% (Snyder and Palmer, 2004). Interestingly, this result is difficult to outperform by
state-of-the-art fine-grained WSD systems.
Thus, some research has been focused on
deriving different sense groupings to overcome
the fine–grained distinctions of WN (Hearst and
Schütze, 1993) (Peters, Peters, and Vossen, 1998)
(Mihalcea and Moldovan, 2001) (Agirre, Aldezabal, and Pociello, 2003) and on using predefined
sets of sense-groupings for learning class-based
classifiers for WSD (Segond et al., 1997) (Ciaramita and Johnson, 2003) (Villarejo, Màrquez,
and Rigau, 2005) (Curran, 2005) (Ciaramita and
Altun, 2006). However, most of the later approaches used the original Lexicographical Files of WN (more recently called Supersenses) as
very coarse–grained sense distinctions. However,
not so much attention has been paid on learning class-based classifiers from other available
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Ruben Izquierdo-Bevia, Armyo Suárez y Germán Rigau
sense–groupings such as WordNet Domains (Magnini and Cavaglia, 2000), SUMO labels (Niles and
Pease, 2001), EuroWordNet Base Concepts (Vossen et al., 1998) or Top Concept Ontology labels
(Atserias et al., 2004). Obviously, these resources
relate senses at some level of abstraction using different semantic criteria and properties that could
be of interest for WSD. Possibly, their combination could improve the overall results since they
offer different semantic perspectives of the data.
Furthermore, to our knowledge, to date no comparative evaluation have been performed exploring different sense–groupings.
We present a very simple method for selecting
Base Level Concepts (Rosch, 1977) using basic
structural properties of WN. We also empirically demonstrate that these automatically derived
set of Base Level Concepts group senses into an
adequate level of abstraction in order to perform
class-based WSD.
This paper is organized as follows. Section 2
introduce the different levels of abstraction that
are relevant for this study, and the available sets
of semi-automatically derived Base Concepts. In
section 3, we present the method for deriving fully automatically a number of Base Level Concepts from any WN version. Section 4 reports
the resulting figures of a direct comparison of the
resources studied. Section 5 provides an empirical evaluation of the performance of the different
levels of abstraction. In section 6 we provide further insights of the results obtained and finally, in
section 7 some concluding remarks are provided.
2
WN. By means of the ILI, synsets and words
or different languages are connected, allowing
advanced multilingual natural language applications (Vossen et al., 2006).
The notion of Base Concepts (hereinafter BC)
was introduced in EuroWordNet. The BC are
supposed to be the concepts that play the most
important role in the various wordnets of different languages. This role was measured in terms
of two main criteria: a high position in the semantic hierarchy and having many relations to
other concepts. Thus, the BC are the fundamental building blocks for establishing the relations
in a wordnet. In that sense, the Lexicografic Files
(or Supersenses) of WN could be considered the
most basic set of BC.
Basic Level Concepts (Rosch, 1977) (hereinafter BLC) should not be confused with Base Concepts. BLC are a compromise between two conflicting principles of characterization: a) to represent as many concepts as possible (abstract concepts), and b) to represent as many distinctive
features as possible (concrete concepts).
As a result of this, Basic Level Concepts typically occur in the middle of hierarchies and
less than the maximum number of relations. BC
mostly involve the first principle of the Basic Level Concepts only. BC are generalizations of features or semantic components and thus apply to a
maximum number of concepts. Our work focuses
on devising simple methods for selecting automatically an accurate set of Basic Level Concepts
from WN.
Levels of abstraction
2.1
WordNet2 (WN) (Fellbaum, 1998) is an online
lexical database of English which contains concepts represented by synsets, sets of synonyms of
content words (nouns, verbs, adjectives and adverbs). In WN, different types of lexical and semantic relations interlink different synsets, creating in this way a very large structured lexical
and semantic network. The most important relation encoded in WN is the subclass relation (for
nouns the hyponymy relation and for verbs the
troponymy relation). The last version of WN,
WN 3.0, was released on december 2006. It contains 117,097 nouns and 11,488 verbs, organized
into 81,426 noun synsets and 13,650 verb synsets.
EuroWordNet3 (EWN) (Vossen et al., 1998)
is a multilingual database than contains wordnets for several languages (Dutch, Italian, Spanish, German, French, Czech and Estonian).
Each of these single wordnets represent a unique language-internal system of lexicalizations,
and it is structured following the approach of
English wordnet: synsets and relations between
them. Different wordnets are linked to the InterLingual-Index (ILI), based on Princeton English
WordNet Base Concepts
WN synsets are organized in forty five Lexicographer Files, or SuperSenses, based on syntactic categories (nouns, verbs, adjectives and adverbs) and logical groupings, such as person, phenomenon, feeling, location, etc. There are 26 basic categories for nouns, 15 for verbs, 3 for adjectives and 1 for adverbs. For instance, the Supersenses corresponding to the four senses of the
noun church in WN1.6 are noun.group for the first
Christian Church sense, noun.artifact for the second church building sense and noun.act for the
third church service sense.
2.2
EuroWordNet Base Concepts
Within EuroWordNet, a set of Base Concepts was
selected to reach maximum overlap and compatibility across wordnets in different languages following the two main criteria described above: a
high position in the semantic hierarchy and having many relations to other concepts. Initially, a
set of 1,024 Common Base Concepts from WN1.5
(concepts acting as BC in at least two languages)
was selected, only considering English, Dutch,
Spanish and Italian wordnets.
2 http://wordnet.princeton.edu
3 http://www.illc.uva.nl/EuroWordNet/
190
A Proposal of Automatic Selection of Coarse-grained Semantic Classes for WSD
2.3
Balkanet Base Concepts
The Balkanet project4 followed a similar approach to EWN, but using other languages:
Greek, Romanian, Serbian, Turkish and Bulgarian. The goal of Balkanet was to develop a multilingual lexical database for the new languages
following the guidelines of EWN. Thus, the Balkanet project selected his own list of BC extending the original set of BC of EWN to a final set
of 4,698 ILI records from WN2.05 (3,210 nouns,
1,442 verbs and 37 adjectives).
2.4
MEANING Base Concepts
The MEANING project6 also followed the architectural model proposed by the EWN to build the
Multilingual Central Repository (Mcr) (Atserias
et al., 2004). In this case, BC from EWN based
on WN1.5 synsets were ported to WN1.6. The
number of BC finally selected was 1,535 (793 for
nouns and 742 for verbs).
3
synset
group 1,grouping 1
social group 1
organisation 2,organization 1
establishment 2,institution 1
faith 3,religion 2
Christianity 2,church 1,Christian church 1
#rel.
14
29
39
63
79
11
19
synset
entity 1,something 1
object 1,physical object 1
artifact 1,artefact 1
construction 3,structure 1
building 1,edifice 1
place of worship 1, ...
church 2,church building 1
#rel.
20
69
5
11
7
1
synset
act 2,human action 1,human activity 1
activity 1
ceremony 3
religious ceremony 1,religious ritual 1
service 3,religious service 1,divine service 1
church 3,church service 1
Table 1: Possible Base Level Concepts for the
noun Church in WN1.6
using WN1.6. The table presents the hypernym
chain for each synset together with the number
of relations encoded in WN for the synset. The
local maxima along the hypernym chain of each
synset appears in bold. For church 1 the synset with 12 total relations faith 3 will be selected.
The second sense of church, church 2 is a local
maximum with 19 total relations. This synset
will be selected if the number of descending synsets having church 2 as a Base Level Concept is
higher than a predefined threshold. Finally, the
selected Base Level Concept for church 3 is religious ceremony 1. Obvioulsy, different criteria
will select a different set of Base Level Concepts.
Instead of highly related concepts, we also
considered highly frequent concepts as possible
indicator of a large set of features. Following the
same basic algorithm, we also used the relative
frequency of the synsets in the hypernym chain.
That is, we derived two other different sets of
BLC depending on the source of relative frequencies considered: a) the frequency counts in SemCor (FreqSC) and b) the frequency counts appearing in WN (FreqWN). The frequency of a synset
has been obtained summing up the frequencies of
its word senses. In fact, WN word-senses were
ranked using SemCor and other sense-annotated
corpora. Thus, the frequencies of SemCor and
WN are similar, but not equal.
Automatic Selection of Base
Level Concepts
This section describes a simple method for deriving a set of Base Level Concepts (BLC) from
WN. The method has been applied to different
WN versions for nouns and verbs. Basically, to
select the appropriate BLC of a particular synset,
the algorithm only considers the relative number
of relations of their hypernyms. We derived two
different sets of BLC depending on the type of
relations considered: a) all types of relations encoded in WN (All) and b) only the hyponymy
relations encoded in WN (Hypo).
The process follows a bottom-up approach
using the chain of hypernym relations. For each
synset in WN, the process selects as its Base Level Concept the first local maximum according
to the relative number of relations. For synsets
having multiple hypernyms, the path having the
local maximum with higher number of relations
is selected. Usually, this process finishes having
a number of “fake” Base Level Concepts. That
is, synsets having no descendants (or with a very
small number) but being the first local maximum
according to the number of relations considered.
Thus, the process finishes checking if the number of concepts subsumed by the preliminary list
of BLC is higher than a certain threshold. For
those BLC not representing enough concepts according to a certain threshold, the process selects
the next local maximum following the hypernym
hierarchy. Thus, depending on the type of relations considered to be counted and the threshold
established, different sets of BLC can be easily
obtained for each WN version.
An example is provided in table 1. This table
shows the possible BLC for the noun “church”
4
Comparing Base Level
Concepts
Different sets of Base Level Concepts (BLC) have
been generated using different WN versions, types of relations (All and Hypo), sense frequencies
(FreqSC and FrecWN) and thresholds.
Table 2 presents the total number of BLC and
its average depth for WN1.67 varying the threshold and the type of relations considered (All or
Hypo).
As expected, when increasing the threshold,
the total number of automatic BLC and its ave-
4 http://www.ceid.upatras.gr/Balkanet
5 http://www.globalwordnet.org/gwa/5000
#rel.
18
19
37
10
12
5
bc.zip
6 http://www.lsi.upc.es/˜nlp/meaning
7 WN1.6
191
have 66,025 nominal and 12,127 verbal synsets.
Ruben Izquierdo-Bevia, Armyo Suárez y Germán Rigau
Thres.
Rel.
all
0
hypo
all
10
hypo
all
20
hypo
all
50
hypo
PoS
Noun
Verb
Noun
Verb
Noun
Verb
Noun
Verb
Noun
Verb
Noun
Verb
Noun
Verb
Noun
Verb
#BLC
3,094
1,256
2,490
1,041
971
719
993
718
558
673
558
672
253
633
248
633
Av. depth.
7.09
3.32
7.09
3.31
6.20
1.39
6.23
1.36
5.81
1.25
5.80
1.21
5.21
1.13
5.21
1.10
Thres.
Rel.
SemCor
0
WN
SemCor
10
WN
SemCor
20
WN
SemCor
50
WN
PoS
Noun
Verb
Noun
Verb
Noun
Verb
Noun
Verb
Noun
Verb
Noun
Verb
Noun
Verb
Noun
Verb
#BLC
34,865
3,070
34,183
2,615
690
731
691
738
339
659
340
667
94
630
99
631
Av. depth.
7.44
3.41
7.44
3.30
5.74
1.38
5.77
1.40
5.43
1.22
5.47
1.23
4.35
1.12
4.41
1.12
Table 2: Automatic Base Level Concepts for
WN1.6 using All or Hypo relations
Table 3: Automatic Base Level Concepts for
WN1.6 using SemCor or WN frequencies
rage depth decrease. For instance, using all relations on the nominal part of WN, the total
number of BLC ranges from 3,094 (no threshold)
to 253 (threshold 50). Using hyponym relations,
the total number of BLC ranges from 2,490 (no
threshold) to 248. However, although the number of total BLC for nouns decreases dramatically (around 10 times), the average depth of the
synsets selected only ranges from 7.09 (no threshold) to 5.21 (threshold 50) using both types of
relations (All and Hypo). This fact, possibly indicates the robustness of the approach.
Also as expected, the verbal part of WN
behave differently. For verbs and using all relations, the total number of BLC ranges from 1,256
(no threshold) to 633 (threshold 50). Using hyponym relations, the total number of BLC ranges
from 1,041 (no threshold) to 633 (threshold 50).
In this case, since the verbal hierarchies are much
shorter, the average depth of the synsets selected ranges from 3.32 (no threshold) to only 1.13
(threshold 50) using all relations, and from 3.31
(no threshold) to 1.10 (threshold 50) using hypo
relations.
Table 3 presents the total number of BLC and
its average depth for WN1.6 varying the threshold
and the type of frequency (WN or SemCor).
In general, when using the frequency criteria,
we can observe a similar behaviour than when
using the relation criteria. That is, when increasing the threshold, the total number of automatic
BLC and its average depth decrease. However,
now the effect of the threshold is more dramatic,
specially for nouns. For instance, the total number nominal BLC ranges from around 34,000 with
no threshold to less than 100 nominal BLC with
threshold equal to 50 descendants. Again, although the number of total BLC for nouns decreases dramatically, the average depth of the synsets
selected only ranges from 7.44 (no threshold) to
4.35 (threshold 50) using sense frequencies from
SemCor and from 7.44 (no threshold) to 4.41 (threshold 50) using sense frequencies from WN.
As expected, verbs behave differently than
nouns. The number of BLC (for both SemCor
and WN frequencies) reaches a plateau of around
600. In fact, this number is very close to the verbal top beginners.
Table 4 summarizes the Balkanet Base Concepts including the total number of synsets and
their average depth.
PoS
Noun
Verb
#BC
3,210
1,442
Av. depth.
5.08
2.45
Table 4: Balkanet Base Concepts using WN2.0
In a similar way, table 5 presents the Meaning Base Concepts including the total number
of synsets and their average depth.
PoS
Noun
Verb
#BC
793
742
Av. depth.
4.93
1.36
Table 5: Meaning Base Concepts using WN1.6
For nouns, the set of Balkanet BC is four times larger than the Meaning BC, while the average depth is similar in both sets (5.08 vs. 4.93
respectively). The verbal set of Balkanet BC
is twice larger than the Meaning one, while contrary to the nominal subsets, their average depth
is quite different (2.45 vs. 1.36). However, when
comparing these sets of BC to the automatically
selected BLC, it seems clear that for similar volumes, the automatic BLC appear to be deeper in
the hierarchies (both for nouns and verbs).
In contrast, the BC derived from the Lexicographic Files of WN (or Supersenses), represent
a much more coarse-grained set (26 categories for
nouns and 15 for verbs).
192
A Proposal of Automatic Selection of Coarse-grained Semantic Classes for WSD
5
Sense–groupings as semantic
classes
Nouns
Verbs
N+V
In order to study to what extend the different
sense–groupings could be of the interest for class–
based WSD, we present a comparative evaluation
of the different sense–groupings in a controlled
framework. We tested the behaviour of the different sets of sense–groupings (WN senses, Balkanet BC, Meaning BC, automatic BLC and
SuperSenses) using the English all–words task of
SensEval–3. Obviously, different sense–groupings
would provide different abstractions of the semantic content of WN, and we expect a different
behaviour when disambiguating nouns and verbs.
In fact, the most common baseline used to test
the performance of a WSD system, is the Most
Frequent Sense Classifier. In this study, we will
use this simple but robust heuristic to compare
the performances of the different sense–groupings.
Thus, we will use SemCor8 (Kuĉera and Francis, 1967) to train for Most Frequent Classifiers
for each word and sense–grouping. We only used
brown1 and brown2 parts of SemCor to train the
classifiers. We used standard Precision, Recall
and F1 measure (harmonic mean between Precision and Recall) to evaluate the performance of
each classifier.
For WN senses, Meaning BC, the automatic
BLC, and Lexicographic Files, we used WN1.6.
For Balkanet BC we used the synset mappings
provided by (Daudé, Padró, and Rigau, 2003)9 ,
translating the BC from WN2.0 to WN1.6. For
testing the Most Frequent Classifiers we also used
these mappings to translate the sense–groupings
from WN1.6 to WN1.7.1.
Table 6 presents the polysemy degree for
nouns and verbs of the different words when grouping its senses with respect the different semantic
classes on SensEval–3. Senses stand for WN senses, BLC-A for automatic BLC derived using a threshold of 20 and all relations, BLC-S for automatic BLC derived using a threshold of 20 and frequencies from SemCor and SS for the SuperSenses. As expected, while increasing the abstraction
level (from the sense level to the SuperSense level, passing to intermediate levels) the polysemy
degree decreases. For instance in SensEval–3, at
the sense level, the polysemy degree for nous is
4.93 (4.93 senses per word), while at the SuperSense level, the polysemy degree for nouns is 3.06
(3.06 classes per word). Notice that the reduction is dramatic for verbs (from 11.0 to only 4.08).
Notice also, that when using the Base Level Concept representations a high degree of polysemy is
maintained for nouns and verbs.
Tables 7 and 8 presents for polysemous words
the performance in terms of F1 measure of the
different sense-groupings using the relation criteria (All and Hypo) when training the class–
8 Annotated
Senses
4.93
11.00
7.66
BLC-A
4.07
8.64
6.13
BLC-S
4.00
8.72
6.13
SS
3.06
4.08
3.52
Table 6: Polysemy degree over SensEval–3
frequencies on SemCor and testing on SensEval–
3.
That is, for each polysemous word in
SensEval–3 the Most Frequent Class is obtained
from SemCor. Best results are marked using bold.
Class
Senses
Balkanet
Meaning
BLC–0
BLC–10
BLC–20
BLC–30
BLC–40
BLC–50
SuperSenses
Nouns
63.69
65.15
65.28
66.36
66.31
67.64
67.03
66.61
67.19
73.05
Verbs
49.78
50.84
53.11
54.30
54.45
54.60
54.60
55.54
55.69
76.41
Table 7: F1 measure for polysemous words using
all relations for BLC
In table 7, we present the results of using all
relations for selecting BLC. As expected, SuperSenses obtain very high F1 results for nouns and
verbs with 73.05 and 76.41, respectively. Comparing the BC from Balkanet and Meaning, the
best results seems to be achieved by Meaning
BC for both nouns and verbs. Notice that the
set of BC from Balkanet was larger than the
ones selected in Meaning, thus indicating that
the BC from Meaning provide a better level of
abstraction.
Interestingly, all sets of automatic BLC perform better than those BC provided by Balkanet or Meaning. For nouns, the best result is
obtained for BLC using a threshold of only 20
with an F1 of 67.64. We should highlight this result since this set of BLC obtain better WSD performance than the rest of automatically derived
BLC while maintaining more information of the
original synsets. Interestingly, BLC-20 using 558
classes achieves an F1 of 67.64, while SuperSenses using a much smaller set (26 classes) achieves
73.05.
For verbs, it seems that the restriction on the
minimum number of concepts for a Base Level
Concept has a positive impact in the generalization selection.
These results suggest that intermediate levels
of representation such as the automatically derived Base Concept Levels could be appropriate for
learning class-based WSD classifiers. Recall that
for nouns SuperSenses use only 26 classes, while
BLC–20 uses 558 semantic classes (more than 20
times larger).
In table 8, we present the results of using hyponymy relations for selecting the BLC. Again,
using WN1.6.
9 http://www.lsi.upc.edu/˜nlp/
193
Ruben Izquierdo-Bevia, Armyo Suárez y Germán Rigau
all sets of automatically derived BLC perform
better than those BC provided by Balkanet or
Meaning. In this case, the best results for nouns
are obtained again for BLC using a threshold of
20 (F1 of 67.28 with 558 classes). We can also
observe that in general, using hyponymy relations
we obtain slightly lower performances than using
all relations. Possibly, this fact indicates that a
higher number of hyponymy relations is required
for a Base Level Concept to compensate minor
(but richer) number of relations.
Class
Senses
Balkanet
Meaning
BLC–0
BLC–10
BLC–20
BLC–30
BLC–40
BLC–50
SuperSenses
Nouns
63.69
65.15
65.28
65.76
65.86
67.28
66.72
66.77
67.19
73.05
quencies from WN for selecting the BLC. Again,
not all automatic sets of BLC surpass the BC
from Balkanet and Meaning. For nouns, the
best result for automatic BLC is obtained when
using a threshold of 40 (F1 of 69.16 with 132
classes), while for verbs, the best result is obtained when using a threshold of 50. We can also
observe that in general, using SemCor frequencies we obtain slightly lower performances than
using WN frequencies. Again, verbal BLC obtain
slightly lower results than using the relations criteria (both all and hypo).
Verbs
49.78
50.84
53.11
54.30
54.45
54.60
54.60
55.54
55.54
76.41
Class
Senses
Balkanet
Meaning
BLC–0
BLC–10
BLC–20
BLC–30
BLC–40
BLC–50
SuperSenses
Table 8: F1 measure for polysemous words using
hypomym relations for BLC
Nouns
63.69
65.15
65.28
64.45
64.98
65.73
66.46
68.46
68.84
73.05
Verbs
49.78
50.84
53.11
51.75
53.29
53.44
53.61
54.22
54.63
76.41
Table 10: F1 measure for polysemous words using
frequencies from WN for BLC
Tables 9 and 10 presents for polysemous
words the performance in terms of F1 measure
of the different sense-groupings using the frequency criteria (FreqSC and FreqWN) when training the class–frequencies on SemCor and testing on SensEval–3. That is, for each polysemous
word in SensEval–3 the Most Frequent Class is
obtained from SemCor. Best results are marked
using bold.
In table 9, we present the results of using
frequencies from SemCor for selecting the BLC.
In this case, not all sets of automatic BLC surpass the BC from Balkanet and Meaning. For
nouns, the best result for automatic BLC is obtained when using a threshold of 50 (F1 of 68.84
with 94 classes), while for verbs, the best result
is obtained when using a threshold of 40. However, in this case, verbal BLC obtain slightly lower
results than using the relations criteria (both all
and hypo).
Class
Senses
Balkanet
Meaning
BLC–0
BLC–10
BLC–20
BLC–30
BLC–40
BLC–50
SuperSenses
Nouns
63.69
65.15
65.28
64.95
65.59
66.30
66.67
69.16
69.11
73.05
These results for polysemous words reinforce
our initial observations. That is, that the method for automatically deriving intermediate levels of representation such the Base Concept Levels seems to be robust enough for learning classbased WSD classifiers. In particular, it seems
that BLC could achieve high levels of accuracy
while maintaining adequate levels of abstraction
(with hundreds of BLC). In particular, the automatic BLC obtained using the relations criteria
(All or Hypo) surpass the BC from Balkanet
and Meaning. For verbs, it seems that even
the unique top beginners require an extra level
of abstraction (that is, the SuperSense level) to
be affective.
6
Discussion
We can put the current results in context, although indirectly, by comparison with the results
of the English SensEval–3 all–words task systems.
In this case, the best system presented an accuracy of 65.1%, while the “WN first sense” baseline would achieve 62.4%10 . Furthermore, it is
also worth mentioning that in this edition there
were a few systems above the “WN first sense”
baseline (4 out of 26 systems). Usually, this baseline is very competitive in WSD tasks, and it is
extremely hard to improve upon even slightly.
Tables 11 and 12 presents for monosemous
and polysemous nouns and verbs the F1 measures of the different sense-groupings obtained
Verbs
49.78
50.84
53.11
52.27
53.21
53.97
54.15
54.63
54.63
76.41
Table 9: F1 measure for polysemous words using
frequencies from SemCor for BLC
10 This result could be different depending on the treatment of multiwords and hyphenated words.
In table 10, we present the results of using fre194
A Proposal of Automatic Selection of Coarse-grained Semantic Classes for WSD
with all relations criteria when training the class–
frequencies on SemCor and testing on SensEval–
3. Best results are marked using bold. Table 11
presents the results using all relations criteria and
table 12 presents the same results but using the
WN frequency criteria.
Class
Senses
Balkanet
Meaning
BLC–0
BLC–10
BLC–20
BLC–30
BLC–40
BLC–50
SuperSenses
Nouns
71.79
73.06
73.40
74.80
74.99
76.12
75.99
75.76
76.22
81.87
Verbs
52.89
53.82
56.40
58.32
58.46
58.60
58.60
59.70
59.83
79.23
based WSD are those reported by (Ciaramita and
Altun, 2006). This system performs a sequence
tagging using a perceptron–trained HMM, using
SuperSenses, training on SemCor and testing on
the SensEval–3. The system achieves an F1–score
of 70.74, obtaining a significant improvemement
from a baseline system which scores only 64.09.
In this case, the first sense baseline is the SuperSense of the most frequent synset for a word,
according to the WN sense ranking.
Possibly, the origin of the discrepancies between our results and those reported by (Ciaramita and Altun, 2006) is twofold. First, because
they use a BIO sequence schema for annotation,
and second, the use of the brown-v part of SemCor to establish sense–frequencies.
In order to measure the real contribution of
the automatic BLC on the WSD task, we also performed a final set of experiments. Once trained
on SemCor the Most Frequent Class of a word,
we tested on SensEval–3 the first sense appearing
in WN of the word for that Class. In that way,
we developed a very simple sense tagger which
uses the frequency counts of more coarse-grained
sense–groupings. Table 13 presents the F1 measures for all nouns and verbs of this naive class–
based sense tagger when using WN frequencies
for building the automatic BLC. Note that these
results are different from the rest since are evaluated at a sense level.
Nouns+Verbs
63.24
64.37
65.71
67.35
67.52
68.20
68.14
68.51
68.82
80.68
Table 11: F1 measure for nouns and verbs using
all relations for BLC
Obviously, higher accuracy figures are obtained when incorporating also monosemous words.
Note this naive system achieves for Senses an
F1 of 63.24, very similar to those reported in
SensEval–3, and for SuperSenses a very high a
F1 of 80.68. Regarding the automatic BLC, the
best results are obtained for BLC–50, but all of
them outperform the BC from Balkanet and
Meaning. However, for nouns, BLC–20 (with
558 classes) obtain only slightly lower F1 figures
than BLC–50 (with 253 classes).
Class
Senses
Balkanet
Meaning
BLC–0
BLC–10
BLC–20
BLC–30
BLC–40
BLC–50
SuperSenses
Nouns
71.79
73.06
73.40
72.99
74.60
75.62
76.10
78.03
78.03
81.87
Verbs
52.89
53.82
56.40
55.33
57.08
57.22
57.63
58.18
58.87
79.23
Class
Senses
Balkanet
Meaning
BLC–0
BLC–10
BLC–20
BLC–30
BLC–40
BLC–50
SuperSenses
Nouns+Verbs
63.24
64.37
65.71
65.01
66.69
67.31
67.76
69.07
69.38
80.68
Nouns
71.79
72.35
72.01
72.35
72.24
72.47
72.70
72.70
72.58
72.47
Verbs
52.89
52.48
53.17
52.89
53.03
53.03
53.03
53.31
53.31
53.03
Nouns+Verbs
63.24
63.36
63.49
63.55
63.55
63.68
63.80
63.93
63.86
63.68
Table 13: F1 measure for nouns and verbs of the
class–based sense tagger.
Table 12: F1 measure for nouns and verbs using
WN frequencies for BLC
Surprisingly, all these oportunistic class–based
sense taggers surpass the Most Frequent Sense
tagger. Interestingly, the results of all automatic
BLC using threshold higher than 10 obtain equal
or better performance than SuperSenses. In fact,
the best results for nouns are those obtained using
BLC–30 while for verbs those obtained by BLC–
40. That is, the sense-groupings seem to stablish
more robust sense frequencies.
When using frequencies instead of relations,
BLC even achieve higher results. Again, the best
results are obtained for BLC–50. However, in this
case, not all of them outperform the BC from
Balkanet and Meaning.
Surprisingly, these naive Most frequent WSD
systems trained on SemCor are able to achieve
very high levels of accuracy. For nouns, using
BLC-20 (selected from all relations, 558 semantic labels) the system reaches 75-62, while using
BLC-40 (selected from WN frequencies, 132 semantic labels) the system achieves 78.03. Finally,
using SuperSenses for verbs (15 semantic labels)
this naive system scores 79.23.
To our knowledge, the best results for class–
7
Conclusions and further work
The WSD task seems to have reached its maximum accuracy figures with the usual framework.
Some of its limitations could come from the
sense–granularity of WordNet (WN). WN has
been often criticised because its fine–grained
195
Ruben Izquierdo-Bevia, Armyo Suárez y Germán Rigau
sense distinctions. Nevertheless, other problems
arise for supervised systems like data sparseness
just because the lack of adequate and enough training examples. Moreover, it is not clear how
WSD can contribute with the current result to
improve other NLP tasks.
Changing the set of classes could be a solution to enrich training corpora with many more
examples. In this manner, the classifiers generalize among an heterogeneous set of labeled examples. At the same time these classes are more
easily learned because there are more clear semantic distinctions between them. In fact, our
most frequent naive systems are able to perform a
semantic tagging with accuracy figures over 75%.
Base Level Concepts (BLC) are concepts that
are representative for a set of other concepts. In
the present work, a simple method for automatically selecting BLC from WN based on the hypernym hierarchy and the number of stored frequencies or relationships between synsets have
been shown. Although, some sets of Base Concepts are available at this moment (e.g. EuroWordNet, Balkanet, Meaning), a huge
manual effort should be invested for its development. Other sets of Base Concepts, like WN
Lexicographer Files (or SuperSenses) are clearly
insufficient in order to describe and distinguish
between the enormous number of concepts that
are used in a text. Using a very simple baseline,
the Most Frequent Class, our approach empirically shows a clear improvement over such other
sets. In addition, our method is capable to get
a more or less detailed sets of BLC without losing semantic discrimination power. Obviously,
other selection criteria for selecting BLC should
be investigated.
We are also interested in the direct comparison between automatically and manually selected
BLC. An in depth study of their correlations deserves more attention.
Once having defined an appropriate level of
abstraction using the new sets of BLC, we plan
to use them for supervised class–based WSD. We
suspect that using this approach higher accuracy
figures for WSD could be expected.
Curran, J. 2005. Supersense tagging of unknown nouns using
semantic similarity. En Proceedings of the 43rd Annual
Meeting on Association for Computational Linguistics
(ACL’05), páginas 26–33. ACL.
Daudé, J., Ll. Padró, y G. Rigau. 2003. Validation and tuning
of wordnet mapping techniques. En Proceedings of the
International Conference on Recent Advances on Natural Language Processing (RANLP’03), Borovets, Bulgaria.
Fellbaum, C., editor. 1998. WordNet. An Electronic Lexical
Database. The MIT Press.
Hearst, M. y H. Schütze. 1993. Customizing a lexicon to
better suit a computational task. En Proceedingns of the
ACL SIGLEX Workshop on Lexical Acquisition, Stuttgart, Germany.
Kuĉera, H. y W. N. Francis. 1967. Computational Analysis of Present-Day American English. Brown University
Press, Providence, RI, USA.
Magnini, B. y G. Cavaglia. 2000. Integrating subject fields
codes into wordnet. En Proceedings of the Second International Conference on Language Resources and Evaluation (LREC’00).
Màrquez, Ll., G. Escudero, D. Martı́nez, y G. Rigau. 2006.
Supervised corpus-based methods for wsd. En E. Agirre and P. Edmonds (Eds.) Word Sense Disambiguation: Algorithms and applications., volumen 33 de Text,
Speech and Language Technology. Springer.
Mihalcea, R. y D. Moldovan. 2001. Automatic generation of coarse grained wordnet. En Proceding of the
NAACL workshop on WordNet and Other Lexical Resources: Applications, Extensions and Customizations,
Pittsburg, USA.
Niles, I. y A. Pease. 2001. Towards a standard upper ontology.
En Proceedings of the 2nd International Conference on
Formal Ontology in Information Systems (FOIS-2001),
páginas 17–19. Chris Welty and Barry Smith, eds.
Peters, W., I. Peters, y P. Vossen.
1998.
Automatic
sense clustering in eurowordnet. En First International Conference on Language Resources and Evaluation
(LREC’98), Granada, Spain.
Rosch, E. 1977. Human categorisation. Studies in CrossCultural Psychology, I(1):1–49.
Segond, F., A. Schiller, G. Greffenstette, y J. Chanod. 1997.
An experiment in semantic tagging using hidden markov
model tagging. En ACL Workshop on Automatic Information Extraction and Building of Lexical Semantic
Resources for NLP Applications. ACL, New Brunswick,
New Jersey, páginas 78–81.
Snyder, Benjamin y Martha Palmer. 2004. The english allwords task. En Rada Mihalcea y Phil Edmonds, editores,
Senseval-3: Third International Workshop on the Evaluation of Systems for the Semantic Analysis of Text,
páginas 41–43, Barcelona, Spain, July. Association for
Computational Linguistics.
Villarejo, L., L. Màrquez, y G. Rigau. 2005. Exploring the
construction of semantic class classifiers for wsd. En Proceedings of the 21th Annual Meeting of Sociedad Espaola
para el Procesamiento del Lenguaje Natural SEPLN’05,
páginas 195–202, Granada, Spain, September. ISSN 11365948.
References
Agirre, E., I. Aldezabal, y E. Pociello. 2003. A pilot study
of english selectional preferences and their cross-lingual
compatibility with basque. En Proceedings of the International Conference on Text Speech and Dialogue
(TSD’2003), CeskBudojovice, Czech Republic.
Vossen, P., L. Bloksma, H. Rodriguez, S. Climent, N. Calzolari, A. Roventini, F. Bertagna, A. Alonge, y W. Peters.
1998. The eurowordnet base concepts and top ontology.
Informe técnico, Paris, France, France.
Atserias, J., L. Villarejo, G. Rigau, E. Agirre, J. Carroll,
B. Magnini, y P. Vossen. 2004. The meaning multilingual central repository. En Proceedings of Global WordNet Conference (GWC’04), Brno, Czech Republic.
Vossen, P., G. Rigau, I. Alegria, E. Agirre, D. Farwell, y
M. Fuentes. 2006. Meaningful results for information retrieval in the meaning project. En Proceedings of the 3rd
Global Wordnet Conference, Jeju Island, Korea, South
Jeju, January.
Ciaramita, M. y Y. Altun. 2006. Broad-coverage sense disambiguation and information extraction with a supersense sequence tagger. En Proceedings of the Conference
on Empirical Methods in Natural Language Processing
(EMNLP’06), páginas 594–602, Sydney, Australia. ACL.
Ciaramita, M. y M. Johnson. 2003. Supersense tagging of
unknown nouns in wordnet. En Proceedings of the Conference on Empirical methods in natural language processing (EMNLP’03), páginas 168–175. ACL.
196
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 197-204
recibido 30-04-2007; aceptado 22-06-2007
Cognitive Modules of an NLP Knowledge Base
for Language Understanding
Carlos Periñán-Pascual
Universidad Católica San Antonio
Campus de los Jerónimos s/n
30107 Guadalupe - Murcia (Spain)
[email protected]
Francisco Arcas-Túnez
Universidad Católica San Antonio
Campus de los Jerónimos s/n
30107 Guadalupe - Murcia (Spain)
[email protected]
Resumen: Algunas aplicaciones del procesamiento del lenguaje natural, p.ej. la traducción
automática, requieren una base de conocimiento provista de representaciones conceptuales que
puedan reflejar la estructura del sistema cognitivo del ser humano. En cambio, tareas como la
indización automática o la extracción de información pueden ser realizadas con una semántica
superficial. De todos modos, la construcción de una base de conocimiento robusta garantiza su
reutilización en la mayoría de las tareas del procesamiento del lenguaje natural. El propósito de
este artículo es describir los principales módulos cognitivos de FunGramKB, una base de
conocimiento léxico-conceptual multipropósito para su implementación en sistemas del
procesamiento del lenguaje natural.
Palabras clave: Representación del conocimiento, ontología, razonamiento, postulado de
significado.
Abstract: Some natural language processing systems, e.g. machine translation, require a
knowledge base with conceptual representations reflecting the structure of human beings’
cognitive system. In some other systems, e.g. automatic indexing or information extraction,
surface semantics could be sufficient, but the construction of a robust knowledge base
guarantees its use in most natural language processing tasks, consolidating thus the concept of
resource reuse. The objective of this paper is to describe FunGramKB, a multipurpose lexicoconceptual knowledge base for natural language processing systems. Particular attention will be
paid to the two main cognitive modules, i.e. the ontology and the cognicon.
Keywords: Knowledge representation, ontology, reasoning, meaning postulate.
1 FunGramKB
FunGramKB Suite1 is a user-friendly
environment for the semiautomatic construction
of a multipurpose lexico-conceptual knowledge
base for a natural language processing (NLP)
system within the theoretical model of S.C.
Dik’s Functional Grammar (1978, 1989, 1997).
FunGramKB is not a literal implementation of
Dik’s lexical database, but we depart from the
functional model in some important aspects
with the aim of building a more robust
knowledge base.
On the one hand, FunGramKB is
multipurpose in the sense that it is both
multifunctional and multilanguage. In other
words, FunGramKB can be reused in various
NLP tasks (e.g. information retrieval and
extraction, machine translation, dialogue-based
systems, etc) and with several natural
languages. 2
1
We use the name ‘FunGramKB Suite’ to refer
to our knowledge engineering tool and
‘FunGramKB’ to the resulting knowledge base.
ISSN: 1135-5948
2
English, Spanish, German, French and Italian
are supported in the current version of FunGramKB.
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Carlos Periñan-Pascual y Francisco Arcas-Túnez
On the other hand, our knowledge base is
lexico-conceptual, because it comprises two
general levels of information: a lexical level
and a cognitive level. In turn, these levels are
made up of several independent but interrelated
components:
different types (Tulving, 1985):
•
•
Lexical level (i.e. linguistic knowledge):
• The lexicon stores morphosyntactic,
pragmatic
and
collocational
information of words.
• The morphicon helps our system to
handle
cases
of
inflectional
morphology.
•
(i.e.
non-linguistic
Cognitive
level
knowledge):
• The ontology is presented as a
hierarchical structure of all the concepts
that a person has in mind when talking
about everyday situations.
• The cognicon stores procedural
knowledge by means of cognitive
macrostructures,
i.e.
script-like
schemata in which a sequence of
stereotypical actions is organised on the
basis of temporal continuity, and more
particularly on James Allen's temporal
model (Allen, 1983, 1991; Allen and
Ferguson, 1994).
• The onomasticon stores information
about instances of entities, such as
people, cities, products, etc.
Semantic knowledge, which stores
cognitive information about words; it is
a kind of mental dictionary.
Procedural knowledge, which stores
information about how events are
performed in ordinary situations—e.g.
how to ride a bicycle, how to fry an
egg...; it is a kind of manual for
everyday actions.
Episodic knowledge, which stores
information about specific biographic
events or situations—e.g. our weddingday; it is a kind of personal scrapbook.
Therefore, if there are three types of
knowledge involved in human reasoning, there
must be three different kinds of knowledge
schemata. These schemata are successfully
mapped in an integrated way into the cognitive
component of FunGramKB:
•
•
•
Semantic knowledge is represented in
the form of meaning postulates in the
ontology.
Procedural knowledge is represented in
the form of cognitive macrostructures
in the cognicon.
Episodic knowledge can be stored as a
case base.3
A key factor for successful reasoning is that
all these knowledge schemata (i.e. meaning
postulates, cognitive macrostructures and cases)
must be represented through the same formal
language, so that information sharing could take
place effectively among all cognitive modules.
Our formal language is partially founded on
Dik’s model of semantic representation (1978,
1989, 1997), which was initially devised for
machine translation (Connolly and Dik, 1989).
Computationally speaking, when storing
cognitive knowledge through FunGramKB
Suite, a syntactic-semantic checker is triggered,
so that consistent well-formed constructs can be
stored. Moreover, a parser outputs an XMLformatted feature-value structure used as the
input for the reasoning engine, so that
The main consequence of this two-level
design is that every lexical module is languagedependent, while every cognitive module is
shared by all languages. In other words,
computational lexicographers must develop one
lexicon and one morphicon for English, one
lexicon and one morphicon for Spanish and so
on, but knowledge engineers build just one
ontology, one cognicon and one onomasticon to
process any language input cognitively. Section
2 gives a brief account on the psychological
foundation of FunGramKB cognitive level, and
sections 3 and 4 describe the two main
cognitive modules in that level, i.e. the
ontology and the cognicon.
2 Cognitive knowledge in natural
language understanding
3
FunGramKB can be very useful in case-based
reasoning, where problems are solved by
remembering previous similar cases and reusing
general knowledge.
In cognitive psychology, common-sense
knowledge is usually divided into three
198
Cognitive Modules of an NLP Knowledge Base for Language Understanding
inheritance and inference mechanisms can be
applied. Both the syntactic-semantic validator
of meaning postulates and the XML parser were
written in C#.
establishes a high degree of connectivity among
conceptual units by taking into account
semantic components which are shared by their
meaning postulates. In order to incorporate
human beings’ commonsense, our ontology
must identify the relations which can be
established among conceptual units, and hence
among lexical units. However, displaying
semantic similarities and differences through
taxonomic relations turns out to be more
chaotic than through meaning postulates linked
to conceptual units.
3 FunGramKB ontology
Nowadays there is no single right methodology
for ontology development. Ontology design
tends to be a creative process, so it is probable
that two ontologies designed by different
people have a different structuring (Noy and
McGuinness, 2001). To avoid this problem, the
ontology model should be founded on a solid
methodology. The remaining of this section
describes five methodological criteria applied to
FunGramKB ontology, some of which are
based on principles implemented in other NLP
projects (Bouaud et al., 1995; Mahesh, 1996;
Noy and McGuinness, 2001). The definition of
these criteria in the analysis and design phases
of the ontology model and the strict application
of these guidelines in the development phase
contributed to avoid some common errors in
conceptual modelling.
3.3
Three-layered ontological model
FunGramKB ontology distinguishes three
different conceptual levels, each one of them
with concepts of a different type: metaconcepts,
basic concepts and terminals. Figure (1)
illustrates these three types of concepts.
#ENTITY
→ #PHYSICAL
→ #OBJECT
→ #SELF_CONNECTED_OBJECT
3.1 Symbiosis between universality and
linguistic motivation
→ +ARTIFICIAL_OBJECT
→ +CORPUSCULAR
FunGramKB ontology takes the form of a
universal concept taxonomy, where ‘universal’
means that every concept we can imagine has
an appropriate place in this ontology. On the
other hand, our ontology is linguistically
motivated, as a result of its involvement with
the semantics of lexical units, although the
knowledge stored in our ontology is not specific
to any particular language.
→ +SOLID
→ +BALL
→ $FOOTBALL
Figure 1: Example of ontological structuring in
FunGramKB
Metaconcepts, preceded by symbol #,
constitute the upper level in the taxonomy. The
analysis of the upper level in the main linguistic
ontologies—DOLCE (Gangemi et al., 2002;
Masolo et al., 2003), Generalized Upper Model
(Bateman, 1990; Bateman, Henschel and
Rinaldi, 1995), Mikrokosmos (Beale, Nirenburg
and Mahesh, 1995; Mahesh and Nirenburg,
1995; Nirenburg et al., 1996), SIMPLE (Lenci,
2000; Lenci et al., 2000; Pedersen and Keson,
1999; SIMPLE Specification Group, 2000;
Villegas and Brosa, 1999), SUMO (Niles and
Pease, 2001a, 2001b)—led to a metaconceptual
model whose design contributes to the
integration and exchange of information with
other ontologies, providing thus standardization
and uniformity. Since metaconcepts reflect
3.2 Subsumption as the only taxonomic
relation
At first sight, it can seem that the exclusive use
of the IS-A relation can impoverish the
ontological model. Indeed, a consequence of
this restriction on the taxonomic relation is
found in the modelling of the upper level,
where metaconcepts #ENTITY, #EVENT and
#QUALITY arrange nouns, verbs and
adjectives respectively in cognitive dimensions.
However, the fact that concepts linked to
lexical units of different grammatical categories
are not explicitly connected in our ontological
model doesn’t prevent FunGramKB to relate
those lexical units in the cognitive level through
their meaning postulates. Indeed, our ontology
199
Carlos Periñan-Pascual y Francisco Arcas-Túnez
frames at the lexical level. 4
On the other hand, a meaning postulate is a
set of one or more logically connected
predications (e1, e2... en), which are cognitive
constructs carrying the generic features of the
concept.5 Concepts, and not words, are the
building blocks for the formal description of
meaning postulates, so a meaning postulate
becomes a language-independent semantic
knowledge representation. To illustrate, some
predications in the meaning postulates of an
entity, event and quality are presented in
examples (4), (5) and (6) respectively:6
cognitive dimensions, they are not assigned
meaning
postulates.
Therefore,
our
metaconcepts play the role of ‘hidden
categories’, i.e. concepts which aren’t linked to
any lexical unit so that they can serve as hidden
superordinates and avoid circularity.
Basic concepts, preceded by symbol +, are
used in FunGramKB as defining units which
enable the construction of meaning postulates
for basic concepts and terminals, as well as
taking part as selection preferences in thematic
frames. The starting point for the identification
of basic concepts was the defining vocabulary
in Longman Dictionary of Contemporary
English (Procter, 1978), though deep revision
was required in order to perform cognitive
mapping.
Finally, terminals are headed by symbol $.
The borderline between basic concepts and
terminals is based on their definitory potential
to take part in meaning postulates.
3.4
(4) BIRD
+(e1: BE (x1: BIRD)Theme
(x2:VERTEBRATE)Referent)
*(e2: HAVE (x1)Theme (x3: m FEATHER & 2
LEG & 2 WING)Referent)
*(e3: FLY (x1)Theme)
(5) KISS
+(e1: TOUCH (x1: PERSON)Agent (x2)Theme
(f1: 2 LIP)Instrument (f2: (e2: LOVE (x1)Agent
(x2)Theme) | (e2: GREET (x1)Agent
(x2)Theme))Reason)
Non-atomicity of conceptual units
In FunGramKB, basic and terminal concepts
are not stored as atomic symbols but are
provided with a rich internal structure
consisting of semantic properties such as the
thematic frame or the meaning postulate.
On the one hand, every event in the ontology
is assigned one thematic frame, i.e. a
prototypical cognitive construct which states
the number and type of participants involved in
the cognitive situation portrayed by the event.
In turn, predicate frames of verbs in the lexicon
are constructed from thematic frames in the
ontology. For instance, hundir and zozobrar are
Spanish verbs which trigger the same thematic
frame, since both of them are linked to the same
concept (example 1).
(6) HUGE
+(e1: BE (x2)Theme (x1: HUGE)Attribute)
+(e2: BE (x1)Theme (x3: SIZE)Referent)
+(e3: BE (x2)Theme (x4: m BIG)Attribute)
For instance, predications in example (1)
have the following natural language
equivalents:
Birds are always vertebrates.
A typical bird has many feathers, two legs
and two wings.
A typical bird flies.
Dik (1997) proposes using words from the
own language when describing meaning
postulates, since meaning definition is an
internal issue of the language. However, this
strategy contributes to lexical ambiguity due to
the polysemic nature of the defining lexical
(1) SINK (x1)Agent (x2)Theme (x3: LIQUID ^
MUD)Location (x4)Origin (x5)Goal (f1:
SLOW)Speed
However, these verbs can differ in their
predicate frames, since they show different
profiled arguments (examples 2-3).
(2) hundir (x1)NP / S / Agent (x2)NP / DO / Theme
hundir (x2)NP / S / Theme
4
The difference between thematic frames and
predicate frames is partially grounded on the
distinction between argument roles and participant
roles in Goldberg’s Construction Grammar (1995).
5
Periñán Pascual and Arcas Túnez (2004)
describe the formal grammar of well-formed
predications for meaning postulates in FunGramKB.
6
For the sake of clarity, the names of conceptual
units have been oversimplified.
(3) zozobrar (x2)NP / S / Theme
In other words, these lexical units are linked
to the same thematic frame at the cognitive
level, but the instantiation of this thematic
frame can make divergences occur in predicate
200
Cognitive Modules of an NLP Knowledge Base for Language Understanding
units. In addition, describing the meaning of
words in terms of other words leads to some
linguistic dependency (Vossen, 1994). Instead,
FunGramKB employs concepts for the formal
description of meaning postulates, resulting in
an interlanguage representation of meaning.
An alternative could have been to use
second-order predicate logics for the formal
representation of lexical meaning. However, the
problem lies not only on the little expressive
power of predicate logics, but also on the fact
that standard logics use monotonic reasoning,
which isn’t robust enough for the simulation of
human beings’ commonsense reasoning.
very difficult to apply any case-based reasoning
on them.
In FunGramKB, meaning postulates are not
sufficient to describe commonsense knowledge,
but they contribute actively to build ‘cognitive
macrostructures’ in the cognicon. In other
words, our knowledge base integrates semantic
knowledge from the ontology with procedural
knowledge from the cognicon, resulting in a
correlation that almost no NLP system has
achieved yet. These schemata are described as
‘macrostructures’ because they are more
comprehensive constructions than meaning
postulates. While meaning postulates are
ontology-oriented knowledge representations,
cognitive macrostructures organize knowledge
in scenes according to temporality and causality
parameters. On the other hand, these
macrostructures are described as ‘cognitive’
because they are built with conceptual units
from the ontology. Unlike most natural
language understanding systems, expectations
about what is about to happen in a particular
situation are not lexical but conceptual, so
different lexical realizations with the same
meaning in the same or different languages
correspond to the same expectation in
FunGramKB.
In example (7), we present some
predications of the cognitive macrostructure
Eating_at_restaurants:
3.5 Meaning postulates as ontological
organizers
Our ontology structuring complies with the
similarity, specificity and opposition principles
applied to the meaning postulates of concepts.
Firstly, all subordinate concepts must share the
meaning postulate of their superordinate
concept (i.e. similarity principle). Secondly, all
subordinate concepts must have a meaning
postulate which states a distinctive feature (or
differentiae) not present in the meaning
postulate of its superordinate concept (i.e.
specificity principle). Finally, differentiae in the
meaning postulates of sibling concepts must be
incompatible one another (i.e. opposition
principle).
(7) (e1: ENTER (x1: CUSTOMER)Theme (x2:
RESTAURANT)Goal (f1: (e2: BE (x1) (x3:
HUNGRY)Attrribute))Reason)
(e3: ACCOMPANY (x4: WAITER)Theme
(x1)Referent (f2: TABLE)Goal)
(e4: SIT (x1)Theme (x5: f1)Location)
(e5: BRING (x4)Theme (x6: MENU ^
WINE_LIST)Referent (f3: x1)Goal)
(e6: REQUEST (x1)Theme (x7: FOOD |
BEVERAGE)Referent (x4)Goal)
(e7: TELL (x4)Theme (x8: (e8: COOK (x9:
COOK)Theme (x10: FOOD)Referent)Referent
(x9)Goal)
(e9: BRING (x4)Theme (x11:
BEVERAGE)Referent (f4: BAR)Source)
4 FunGramKB cognicon
Text understanding must not be restricted to the
comprehension of individual sentences, but it
must involve the integration of all this
information into a ‘situation model’ (Zwaan
and Radvansky, 1998) with the purpose of
reconstructing the textual world underlying to
the literal sense of the linguistic realizations
which make up the text surface. The task of
reconstructing the situation model of an input
text requires NLP systems to hold human
beings' commonsense knowledge in the form of
generic cognitive structures which can facilitate
inferences and predictions as well as
information selection and management. Since
scripts were devised by Schank and Abelson
(1977), little effort has been made to build a
large-scale database of procedural-knowledge
schemata. For example, both expectation
packages (Gordon, 1999) and ThoughtTreasure
(Mueller, 1999) are systems which contain facts
and rules about ordinary situations, but it is
The main advantage of this approach is that
meaning
postulates
and
cognitive
macrostructures are represented through the
same formal language, so that knowledge can
be shared
more
effectively
between
FunGramKB cognitive modules, particularly
when reasoning mechanisms are triggered.
201
Carlos Periñan-Pascual y Francisco Arcas-Túnez
5 Reasoning engine in FunGramKB
6 Conclusion
An NLP application is actually a knowledgebased system, so it must be provided with a
knowledge base and a reasoning engine. Two
reasoning processes have been devised to work
with
FunGramKB
cognitive
modules:
MicroKnowing and MacroKnowing.
MicroKnowing
(MicroconceptualKnowledge Spreading) is a multi-level process
performed by means of two types of reasoning
mechanisms: inheritance and inference. Our
inheritance mechanism strictly involves the
transfer of one or several predications from a
superordinate concept to a subordinate one in
the ontology. On the other hand, our inference
mechanism is based on the structures shared
between predications linked to conceptual units
which do not take part in the same subsumption
relation within the ontology. Cyclical
application of the inheritance and inference
mechanisms on our meaning postulates allow
FunGramKB to minimize redundancy as well
as keeping our knowledge base as informative
as possible. When the language engineer
modifies an existing meaning postulate or
builds a new one, just before being stored,
FunGramKB Suite automatically performs the
MicroKnowing for that meaning postulate in
order to check the compatibility of the newlyincorporated
predications
with
other
predications involved in the reasoning process.
The language engineer is informed about any
incompatibility with inferred or inherited
predications. In addition, FunGramKB Suite
displays the whole MicroKnowing process step
by step, enabling us to verify inference and
inheritance conditions in a transparent way.7
Currently we are working on the
MacroKnowing
(Macroconceptual-Knowing
Spreading), i.e. the process of integrating
meaning postulates from the ontology with the
cognitive macrostructures in the cognicon in
order to spread the procedural knowledge
stored in FunGramKB. This interaction of
semantic and procedural knowledge, so
distinctive of human reasoning, is hardly found
in NLP systems to date.
In NLP, knowledge is usually applied to the
input text for two main tasks: parsing (e.g. spell
checking, syntactic ambiguity resolution, etc)
and partial understanding (e.g. lexical
ambiguity resolution, document classification,
etc). Full natural language understanding is
hardly performed. Indeed, deep semantics for
NLP is currently very limited, perhaps because
most applications exploit WordNet as a source
of information. Moreover, researchers do not
even agree on how much semantic information
is sufficient to achieve the best outcome.
However, it is thought that performance is
improved if the system is provided with a
robust knowledge base and a powerful
inference component (Vossen, 2003). In fact,
the main problem in the successful
development of natural language understanding
systems lies on the lack of an extensive
commonsense
knowledge
base.
Since
commonsense is mainly made up of semantic
and procedural knowledge, which FunGramKB
stores in the form of meaning postulates and
cognitive macrostructures respectively, we can
conclude that FunGramKB can help language
engineers to design more intelligent NLP
applications.
Bibliography
Allen, J. 1983. Maintaining knowledge about
temporal intervals. Communications of the
ACM, 26 (11): 832-843.
Allen, J. 1991. Time and time again: the many
ways to represent time. International
Journal of Intelligent Systems, 6 (4): 341355.
Allen, J. and G. Ferguson. 1994. Actions and
events in interval temporal logic. Journal of
Logic and Computation, 4 (5): 531-579.
Bateman, J.A. 1990. Upper modeling: a general
organization of knowledge for natural
language
processing.
Workshop
on
Standards for Knowledge Representation
Systems. Santa Barbara.
Bateman, J.A., R. Henschel, and F. Rinaldi.
1995. The Generalized Upper Model 2.0.
Technical report. IPSI/GMD, Darmstadt.
Beale, S., S. Nirenburg, and K. Mahesh. 1995.
Semantic analysis in the Mikrokosmos
machine translation project. Proceedings of
7
Periñán Pascual and Arcas Túnez (2005) give
an accurate description of MicroKnowing in
FunGramKB.
202
Cognitive Modules of an NLP Knowledge Base for Language Understanding
the Symposium on NLP. Bangkok.
SIG/CR Classification Research Workshop:
An Interdisciplinary Meeting. 79-94,
Chicago.
Bouaud, J., B. Bachimont, J. Charlet, and P.
Zweigenbaum.
1995.
Methodological
principles for structuring an ontology.
Proceedings of IJCAI'95: Workshop on
Basic Ontological Issues in Knowledge
Sharing. Montreal.
Masolo, C., S. Borgo, A. Gangemi, N. Guarino,
and A. Oltramari. 2003. WonderWeb
deliverable D18: ontology library. Technical
report. Laboratory for Applied Ontology,
ISTC-CNR.
Connolly, J.H. and S.C. Dik. eds. 1989.
Functional Grammar and the Computer.
Foris, Dordrecht.
Mueller, E.T. 1999. A database and lexicon of
scripts for ThoughtTreasure.
[http://cogprints.ecs.soton.ac.uk/archive/000
00555/]
Dik, S.C. 1978. Functional Grammar. Foris,
Dordrecht.
Niles, I. and A. Pease. 2001a. Origins of the
Standard Upper Merged Ontology: a
proposal for the IEEE Standard Upper
Ontology. Working Notes of the IJCAI-2001
Workshop on the IEEE Standard Upper
Ontology. Seattle.
Dik, S.C. 1989. The Theory of Functional
Grammar. Foris, Dordrecht.
Dik, S.C. 1997. The Theory of Functional
Grammar. Mouton de Gruyter, Berlin-New
York.
Gangemi, A.,
Oltramari,
Sweetening
Proceedings
Sigüenza.
N. Guarino, C. Masolo, A.
and L. Schneider. 2002.
ontologies with DOLCE.
of EKAW 2002. 166-181,
Niles, I. and A. Pease. 2001b. Towards a
standard upper ontology. Proceedings of the
2nd International Conference on Formal
Ontology in Information Systems. Ogunquit.
Goldberg, A.E. 1995. Constructions: A
Construction Grammar Approach to
Argument Structure. The University of
Chicago Press, Chicago.
Nirenburg, S., S. Beale, K. Mahesh, B.
Onyshkevych, V. Raskin, E. Viegas, Y.
Wilks, and R. Zajac. 1996. Lexicons in the
MikroKosmos project. Proceedings of the
AISB’96 Workshop on Multilinguality in the
Lexicon. Brighton.
Gordon, A.S. 1999. The design of knowledgerich browsing interfaces for retrieval in
digital
libraries.
Doctorate
thesis.
Northwestern University.
Noy, N.F. and D.L. McGuinness. 2001.
Ontology development 101: a guide to
creating your first ontology. Technical
report KSL-01-05. Stanford Knowledge
Systems Laboratory, Stanford University.
Lenci, A. 2000. Building an ontology for the
lexicon: semantic types and word meaning.
Workshop on Ontology-Based Interpretation
of Noun Phrases. Kolding.
Pedersen, B.S. and B. Keson. 1999. SIMPLE—
semantic information for multifunctional
plurilingual lexica: some examples of
Danish concrete nouns. Proceedings of the
SIGLEX-99 Workshop. Maryland.
Lenci, A., N. Bel, F. Busa, N. Calzolari, E.
Gola, M. Monachini, A. Ogonowski, I.
Peters, W. Peters, N. Ruimy, M. Villegas,
and A. Zampolli. 2000. SIMPLE: a general
framework for the development of
multilingual lexicons. International Journal
of Lexicography, 13 (4): 249-263.
Periñán Pascual, C. and F. Arcas Túnez. 2004.
Meaning postulates in a lexico-conceptual
knowledge base. Proceedings of the 15th
International Workshop on Databases and
Expert Systems Applications. 38-42, IEEE,
Los Alamitos.
Mahesh, K. 1996. Ontology development for
machine
translation:
ideology
and
methodology. Technical report MCCS-96292. Computing Research Laboratory, New
Mexico State University, Las Cruces.
Periñán Pascual, C. and F. Arcas Túnez. 2005.
Microconceptual-Knowledge Spreading in
FunGramKB. Proceedings on the 9th
IASTED International Conference on
Artificial Intelligence and Soft Computing.
239-244, ACTA Press, Anaheim-CalgaryZurich.
Mahesh, K. and S. Nirenburg. 1995. Semantic
classification for practical natural language
processing. Proceedings of the 6th ASIS
203
Carlos Periñan-Pascual y Francisco Arcas-Túnez
Procter, P. ed. 1978. Longman Dictionary of
Contemporary English. Longman, Harlow.
Schank, R. and R.P. Abelson. 1977. Scripts,
Plans, Goals and Understanding. Lawrence
Erlbaum, Hillsdale.
SIMPLE
Specification
Group.
2000.
Specification SIMPLE Work Package 2:
linguistic specifications deliverable D2.1.
Technical report.
Tulving, E. 1985. How many memory systems
are there? American Psychologist, 40: 385398.
Villegas, M. and I. Brosa. 1999. Spanish
SIMPLE: lexicon documentation. Technical
report.
Vossen, P. 1994. The end of the chain: where
does decomposition of lexical knowledge
lead us eventually? E. Engberg-Pedersen, L.
Falster Jakobsen, and L. Schack Rasmussen.
eds. Function and Expression in Functional
Grammar. 11-39, Mouton de Gruyter,
Berlin-New York.
Vossen, P. 2003. Ontologies. R. Mitkov. ed.
The Oxford Handbook of Computational
Linguistics. 464-482, Oxford University
Press, Oxford.
Zwaan, R.A. and G.A. Radvansky. 1998.
Situation models in language comprehension
and memory. Psychological Bulletin, 123
(2): 162-185.
204
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 205-212
recibido 02-05-2007; aceptado 22-06-2007
Text as Scene: Discourse Deixis and Bridging Relations
Marta Recasens
M. Antònia Martí
Mariona Taulé
Universitat de Barcelona
Universitat de Barcelona
Universitat de Barcelona
Gran Via Corts Catalanes,585 Gran Via Corts Catalanes,585 Gran Via Corts Catalanes,585
08007 Barcelona
08007 Barcelona
08007 Barcelona
[email protected]
[email protected]
[email protected]
Abstract: This paper presents a new framework, “text as scene”, which lays the foundations for
the annotation of two coreferential links: discourse deixis and bridging relations. The
incorporation of what we call textual and contextual scenes provides more flexible annotation
guidelines, broad type categories being clearly differentiated. Such a framework that is capable
of dealing with discourse deixis and bridging relations from a common perspective aims at
improving the poor reliability scores obtained by previous annotation schemes, which fail to
capture the vague references inherent in both these links. The guidelines presented here
complete the annotation scheme designed to enrich the Spanish CESS-ECE corpus with
coreference information, thus building the CESS-Ancora corpus.
Keywords: corpus annotation, anaphora resolution, coreference resolution.
Resumen: En este artículo se presenta un nuevo marco, “el texto como escena”, que establece
las bases para la anotación de dos relaciones de correferencia: la deixis discursiva y las
relaciones de bridging. La incorporación de lo que llamamos escenas textuales y contextuales
proporciona unas directrices de anotación más flexibles, que diferencian claramente entre tipos
de categorías generales. Un marco como éste, capaz de tratar la deixis discursiva y las
relaciones de bridging desde una perspectiva común, tiene como objetivo mejorar el bajo grado
de acuerdo entre anotadores obtenido por esquemas de anotación anteriores, que son incapaces
de captar las referencias vagas inherentes a estos dos tipos de relaciones. Las directrices aquí
presentadas completan el esquema de anotación diseñado para enriquecer el corpus español
CESS-ECE con información correferencial y así construir el corpus CESS-Ancora.
Palabras clave: anotación de corpus, resolución de la anáfora, resolución de la correferencia.
1
Introduction
Due to the lack of large annotated corpora with
anaphoric
information,
the
field
of
computational coreference resolution is still
highly knowledge-based, especially for
languages other than English. With a view to
building a corpus-based coreference resolution
system for Spanish, our project is to extend the
morphologically, syntactically and semantically
annotated CESS-ECE corpus (500,000 words)
with pronominal and full noun-phrase (NP)
coreference information (thus building the
CESS-Ancora corpus). The design of the
annotation guidelines is presented in (Recasens,
Martí & Taulé, 2007), but two types of
coreferential links, namely discourse deixis1
and bridging relations2, call for a specific
analysis which takes into account their complex
peculiarities so as to determine the most
appropriate set of attributes and values.
We believe that the more consistent the
linguistic basis underlying the annotation
scheme is, the easier it is to build a state-of-theart coreference resolution system. On the other
hand, coreferential –anaphoric in particular–
relations are very much specific to each
language. Unlike English, for instance, Spanish
has three series of demonstratives and pronouns
marked for neuter gender. The typology
presented in this paper is the completion of a
flexible annotation scheme rich enough to cover
the cases of coreference in Spanish.
2
1
We define discourse deixis (or abstract
anaphora) as reference to a discourse segment, that
is, to a non-nominal antecedent.
ISSN: 1135-5948
Our approach classifies as bridging (or
associative anaphors) those definite or demonstrative
NPs that are interpreted on the grounds of a
metonymic relationship with a previous NP or VP.
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Marta Recasens, Antonia Martí Antonín y Mariona Taulé
Apart from being a useful resource for
training and evaluating coreference resolution
systems for Spanish, from a linguistic point of
view, the annotated corpus will serve as a
workbench to test for Spanish the hypotheses
suggested by Ariel (1988) and Gundel, Hedberg
& Zacharski (1993) about the cognitive factors
governing the use of referring expressions. The
only way theoretical claims coming from a
single person’s intuitions can be proved is on
the basis of empirical data that have been
annotated in a reliable way.
As a follow-up, this paper places the
emphasis on the annotation guidelines for
discourse deixis and bridging relations. Both
are considered from a common perspective:
what we call “text as scene”, that is, the text
taken as a scene in the sense that it builds up
both a textual and a contextual framework as
the result of an interaction between the
discourse and the global context.
The rest of the paper proceeds as follows:
Section 2 reviews previous work on abstract and
bridging anaphora. A description of the “text as
scene” framework is provided in Section 3.
Specific guidelines for annotating discourse
deixis and bridging relations are given in
Section 4. Finally, Section 5 presents our
conclusions and discussion of the guidelines.
2
referenced via deictic expressions. Nevertheless,
a discourse entity corresponding to a textual
segment is not added to the discourse model
until the listener finds a subsequent deictic
pronoun, in the so-called accommodation
process4. Works on parsing texts into discourse
segments (Marcu, 1997) have not dealt with the
problem of discourse deixis, i.e. delimiting the
extent of the antecedent.
With respect to corpus annotation, there are
not many annotation schemes that annotate
antecedents other than NPs. The MUC Task
Definition (Hirschman & Chinchor, 1997)
explicitly defines demonstratives as nonmarkables. Two notable exceptions are the
MATE scheme by Poesio (2000) and the
scheme by Tutin et al. (2000), although both
point out the difficulty of delimiting the exact
part of the text that counts as antecedent as well
as the type of object the antecedent is. Tutin et
al. (2000) decide to select the largest possible
antecedent.
Similarly to discourse deixis, authors seem
sceptical about the feasibility of the annotation
task for bridging relations, especially since the
empirical study conducted by Poesio & Vieira
(1998), which reported an agreement of 31%.
The issue under debate is where the boundary
lies between a discourse-new NP and a bridging
one, that is, between autonomous and nonautonomous definite NPs. Fraurud’s (1990)
starting point for her corpus-based study is a
two-way distinction between first-mentions and
subsequent mentions (coreferential NPs). On
realising that 60% of the definite NPs were
first-mention uses, she concludes that in
addition to the syntactic (in)definiteness of an
NP, the lexico-encyclopaedic knowledge
associated with the head noun of the NP
interacts with the general knowledge associated
with present anchors in order to select one or
more anchors in relation to which a firstmention definite NP is interpreted. Anchors
may be provided in the discourse itself –either
explicitly or implicitly–, by the global context,
or by a combination of the two. Although
Fraurud does not use the term, the first-mention
NPs that are interpreted in relation to an explicit
anchor correspond to “bridging relations”.
Previous work
Given the difficulty of dealing with antecedents
other than NPs, most of the work on anaphora
resolution has ignored abstract anaphora and
has limited to individual anaphora. However,
the work of Byron (2002) has emphasized that
demonstrative pronouns referring to preceding
clauses abound in natural discourse3. In this
line, the corpus-based study of the use of
demonstrative NPs in Portuguese and French
conducted by Vieira et al. (2002) has pointed
out that a system limited to the resolution of
anaphors with a nominal antecedent is likely to
fail on about 30% of the cases.
In her seminal study, Webber (1988) coins
the term “discourse deixis” for reference to
discourse segments and argues that these should
be included in the discourse model as discourse
entities, since they can be subsequently
3
4
Byron’s anaphora resolution algorithm
differentiates Mentioned Entities (those evoked by
NPs) from Activated Entities (those evoked by
linguistic constituents other than NPs, involving
global focus entities).
Accommodation results from the use of a
singular definite, which is felt to presuppose that
there is already a unique entity in the context with
the given description that will allow a truth value to
be assigned to the utterance (Lewis, 1979).
206
Text as Scene: Discourse Deixis and Bridging Relations
In their analysis of the use of pronouns and
demonstrative NPs in bridging relations,
Gundel, Hedberg & Zacharski (2000) conclude
that such cases are best analysed as minor
violations to the Giveness Hierarchy, in that the
listener gets away with an underspecified
referent on the basis of what is predicated in the
text.
What do then discourse deixis and bridging
relations have in common? On the one hand,
they are the anaphoric links with poorest
reliability scores. On the other hand –and
probably a cause of the former–, their
antecedents are rather fuzzy, either because
their extension cannot be clearly determined or
because the semantic relation that links them
with their anaphor cannot be easily identified.
Taking into account the low inter-annotator
agreement together with the idea of vague
reference, we propose viewing the text as a
scene in order to provide a wider contextual
framework that captures those cases in which a
discourse entity alludes to something that is not
literally mentioned in the discourse.
3
objetivos es evitar que se repitan los
errores del pasado, que obligaron al
Gobierno a comprar créditos
dudosos por un valor de 60.000
millones de coronas –1.500 millones
de dólares. Esto permitirá al banco
sanear su portafolio...6
(2) “Las previsiones para los próximos
diez días no son nada halagueñas”,
pronosticó ayer Eduardo Coca,
director del Instituto Nacional de
Meteorología. Tan sólo un pequeño
frente con poca agua debía cruzar el
norte de la península entre ayer y
hoy. Por lo demás, seguirá la
situación anticiclónica. Pero la cosa
no acaba ahí.7
(3) El presidente de la Comisión del
Mercado de las Telecomunicaciones
mostró su preocupación por la falta
de competencia en la telefonía local,
como consecuencia de que la
liberalización de las
telecomunicaciones se ha hecho por
principios jurídicos y no técnicos y
que “hay que abrir este mercado
como sea”.8
Text as scene
Previous aims at annotating coreference have
shown the need for reconsidering the annotation
of both discourse deixis and bridging relations,
since the reference of NPs such as esto, la cosa,
and este mercado in (1), (2) and (3)
respectively5 cannot be accounted for from
approaches that insist on linking each anaphoric
expression to an explicit textual antecedent.
(1) El Komercni Banka –Banco
Comercial–, uno de los cuatro
bancos más grandes de la República
Checa, anunció hoy que despedirá a
2.300 empleados más antes de
finales del año dentro del proceso de
saneamiento de la entidad estatal. El
director del banco, Radovan Vrava,
señaló que el motivo principal es la
reestructuración del banco. El
Estado dispone del 60 por ciento de
las acciones del Komercni Banka y
el Gobierno checo quiere comenzar
el proceso de privatización de este
banco ya en este año y terminarlo en
septiembre del 2001. Otro de los
6
(1) The Komercni Banka –Commercial Bank –,
one of the four biggest banks in the Cheque
Republic, announced today that it will dismiss 2,300
more workers by the end of the year within the
reform process of the state entity. The director of the
bank, Radovan Vrava, pointed out that the main
reason is the restructuration of the bank. The State
possesses the 60 per cent of the shares of the
Komercni Banka and the Cheque Government wants
to begin the privatisation process of this bank
already this year and finish it in September 2001.
Another of the goals is to avoid the repetition of past
mistakes, which forced the Government to buy
doubtful credits for the price of 60,000 million
crowns –1,500 million dollars. This will allow the
bank to reform its portfolio.
7
(2) “The forecasts for the next ten days are not
favourable at all”, forecasted yesterday Eduardo
Coca, director of the National Institute of
Meteorology. Only a small front with little water
should cross the north of the peninsula between
yesterday and today. As for the rest, the anticyclonic
situation will persist. But the thing does not end
there.
8
(3) The president of the Commission of the
Market of Telecommunications showed his concern
for the lack of competence in local telephony, as a
5
The reader is asked to please forgive the length
of most of the examples used in this paper, but the
anaphoric expressions we deal with make no sense
unless the context is provided.
207
Marta Recasens, Antonia Martí Antonín y Mariona Taulé
Our coding scheme is defined from the
consideration of the text as a scene in two
different senses (see Figure 1), the scene being
the cohesive element. On the one hand,
discourse deixis captures those anaphoric
expressions that refer back to the textual scene,
that is, to a discourse segment –either at the
sentence level or beyond the sentence– that
builds up a scene as a whole. On the other hand,
bridging captures those implicit relations
(between two discourse entities) that are
enabled by the contextual scene activated by the
involved entities. A contextual scene is taken to
be the knowledge which does not explicitly
appear in the text, but that contributes to its
comprehension. Bridging is treated within
coreference in the sense that the two discourse
entities share the reference point on the basis of
a contextual scene.
Eduardo Coca, director
del Instituto Nacional
de Meteorología
(INM). Tan sólo un
pequeño frente con
poca agua debía cruzar
el norte de la península
entre ayer y hoy. Pero
la cosa no acaba ahí.
La falta de ompetencia
en todo el mundo en la
telefonía local, como
consecuencia de que la
liberalización de las
comunicaciones se ha
hecho por principios
jurídicos, este mercado
como sea.
Discourse deixis
Bridging relation
consensus as to the typology of referring
expressions that can code discourse deixis and
bridging relations as well as the subtypes of
links that need to be annotated with a view to
achieving a level of inter-annotator agreement
as high as possible.
4
Corpus annotation
The CESS-ECE corpus is the largest annotated
corpus of Spanish, which contains 500,000
words mostly coming from newspaper articles.
It has been annotated with morphological
information (PoS), syntactic constituents and
functions, argument structures and thematic
roles, tagged with strong and weak named
entities, and the 150 most frequent nouns have
their WordNet synset.
Drawing from the MATE scheme (Poesio,
2000) and taking into account the information
already annotated, the enrichment of the corpus
with coreference annotation is divided into two
steps: a first automatic stage, and a second
manual one. The former marks up all NPs of
the corpus as <de> (discourse entity) with an ID
number, and fills in the TYPE attributes with
morphological information (the kind of NP);
the latter step adds those <de> unidentified by
the automatic annotation – and codes the
coreferential relations by incorporating the
<link> element.
It is at this second stage when antecedents
expressed by phrases other than nominal are
marked manually as <seg> elements when
necessary. The <coref:link> elements serve to
show coreferential relations holding between
two discourse entities, and the embedded
<coref:anchor> element points to the ID of the
antecedent. Each <coref:link> has a TYPE
attribute that specifies the kind of coreferential
relation. We distinguish seven types of links:
(i)
ident (identity)
(ii) dx (discourse deixis)
(iii) poss (possessor)
(iv) bridg (bridging)
(v) pred (predicative)
(vi) rank (ranking)
(vii) context (contextual)
ctx-sc
Figure 1: Textual and contextual scenes
Back to example (1), the discourse segment
picked up by the pronoun esto –that which is
going to allow the Cheque Bank to reform its
portfolio– results not only from the last
discourse segment, but from combining the
content of the events that form the entire textual
scene: the dismissal of 2,300 workers, the
restructuration of the Bank, its privatisation,
and the avoidance of past mistakes. Similarly,
the definite NP la cosa in (2) makes reference
to the textual scene previously described. It
becomes a quasi-pronominal form in that it is
almost semantically empty. Finally, example
(3) shows a case of bridging, where the
interpretation of the demonstrative NP este
mercado is made possible by the contextual
scene activated by a former NP, la telefonía
local, namely, the market opened by local
telephony.
Text as scene provides a common
framework within which we are able to reach a
Given that the marking of both discourse deixis
and bridging relations is very useful for tasks
such as question answering (answer fusion),
information extraction (template merging) and
text summarization, but that the annotation of
these two links poses great difficulty, we
consequence of the fact that the liberalisation of
telecommunications has been done by juridical and
not technical principles and that “this market must
be opened at all costs”.
208
Text as Scene: Discourse Deixis and Bridging Relations
consider it necessary to devote the two
following sections to specifying their
annotation guidelines, which are based on our
conception of the text as scene.
4.1
events (4), “sent-fact” for facts (5), and “sentprop” for propositions (6).
(4) a. La ministra Anna Birulés animó a
las pymes a [invertir en
Investigación y Desarrollo] y *0*
mostró a los empresarios presentes
la disposición del Gobierno a
facilitar este camino.10
Discourse deixis (dx)
We consider an anaphoric NP to be in a dx
relation when its antecedent is a textual scene
expressed by a clause or a sequence of clauses.
NPs that have the potential to participate in dx
links are demonstrative pronouns, the neuter
personal pronoun lo, the relative pronoun que,
demonstrative full NPs, and definite
descriptions (DD) of the kind la cosa, el
fenómeno, la situación, etc. We call these NPs
“quasi-pronominal DDs”, as they can be
replaced by the pronoun esto and are almost
empty of semantic content of their own.
Textual scenes are not constituted as such
until a corresponding referring expression
appears in the discourse. The pronouns lo and
que tend to refer to textual scenes within the
same discourse segment or introduced in the
previous sentence, while demonstratives and
quasi-pronominal DDs can refer to scenes that
are more than one sentence away. Since it is not
a trivial matter to decide the exact part of the
text that serves as antecedent, we distinguish
between two SUBTYPE attributes for dx:
b. La ministra Anna Birulés animó
a las pymes a <seg ID=“seg_03”>
invertir en Investigación y
Desarrollo </seg> y *0* mostró a
los empresarios presentes la
disposición del Gobierno a facilitar
<de type=“dd0ms0” ID=“de_06”>
este camino </de>.
<coref:link ID=“de_06” type=“dx”
subtype=“sent-ev”> <coref:anchor
ID=“seg_03”/> </coref:link>
(5) Sin embargo, [los virus logran poner
a su servicio al organismo vivo más
desarrollado que existe: el ser
humano.] Es éste un hecho que hace
temblar el edificio que la humanidad
ha construido.11
(6) [La Coordinadora de Organizaciones
de Agricultores y Ganaderos teme
que la falta de lluvia afecte también
a los regadíos, dado que empieza a
reducirse el volumen de agua
embalsada.] Este temor es
compartido por...12
(i)
subtype=“sent” (sentential)
This subclass covers the less problematic
cases of discourse deixis, i.e. those anaphoric
NPs that refer to a textual scene whose extent is
no longer than one sentence (any discourse
segment from period to period). We mark the
non-nominal antecedent as a <seg> element
with an ID number, which fills the
<coref:anchor>. When in doubt about the exact
delimitation of the text segment, the entire
sentence is marked-up. For ease of presentation,
(4a) shows the extent of the antecedent for the
anaphoric demonstrative NP este camino9,
whereas (4b) codes the link as it is done in the
annotation of the CESS-Ancora corpus.
Taking into account that the pronoun alone
is not enough to pick up its referent, but that
this is made clear from the predicate
complement information (Byron, 2000), we
further determine the “sent” value with the
semantic type of the antecedent: “sent-ev” for
(ii)
subtype=“text” (textual scene)
The textual scene subtype includes those cases
discussed in Section 3 ((1) and (2)), where an
anaphoric expression refers to the whole scene
built up by the preceding text. These are cases
that result from global discourse effects, so the
precise anchor goes beyond the single sentence
level and is usually vague in reference.
10
(4) The minister Anna Birulés stimulated the
SMEs [to invest in Research and Development] and
showed the present businessmen the Government’s
willingness to facilitate this path.
11
(5) Nevertheless, [viruses manage to put at
their service the most developed living organism that
exists: the human being.] This is a fact that makes
the edifice that humanity has built tremble.
12
(6) [The Coordinator of Organisation of
Farmers fears that the lack of rain also affects
irrigations, given that the volume of dammed water
is starting to decrease.] This fear is shared by...
9
In the examples, underlines correspond to
anaphoric expressions, while square brackets
identify their antecedents.
209
Marta Recasens, Antonia Martí Antonín y Mariona Taulé
Therefore, as <coref:anchor> we indicate the ID
of the paragraph (<par>) to which the anaphor
belongs, thus indicating that the reference is
made to the textual scene going from the
beginning of the paragraph to the anaphor. As
example, (7) shows the annotation for the
anaphoric NP in (1).
(7) <de type=“pd0ns00” ID=“de_09”>
Esto </de> permitirá al banco sanear
su portafolio.13
<coref:link ID=“de_09” type=“dx”
subtype=“text” > <coref:anchor
ID=“par_05”/> </coref:link>
Demonstratives which are part of idiomatic
phrases, such as the connectors de esta forma or
en este sentido, are not considered as
markables, since they are mere linking phrases.
4.2
In our annotation scheme, we consider NPs
such as that in (8) as generic. They are framed
by the textual scene, but do not require any
anchor for their interpretation. Therefore, firstmentions of such NPs are considered to be SDs,
while subsequent mentions are annotated as
identity coreference.
We limit the term bridging to NPs (either
definite or demonstrative) that are metonymically
interpreted –to a greater or lesser extent– on the
basis of a former NP or VP. The second
discourse entity is anchored on the entity which
contributes to activating the necessary scene for
its interpretation. Within the “text as scene”
approach, all bridging relations are taken to be
contextual scene relations. So we only
subspecify three very basic distinctions, which
tend to be widely agreed upon. The three
SUBTYPE attributes are:
Bridging relations (bridg)
Bridging relations only make sense if we
understand them as occurring within the
contextual scene triggered by the interaction
between two discourse entities. The set of
bridging relations is still an open issue (see the
classification schemes of Clark, 1977; Vieira,
1998; Poesio, 2000; Muñoz, 2001; Gardent,
Manuélian & Kow, 2003), since rather than a
binary distinction between first-mention and
bridging NPs, there is a scale ranging from
those definite NPs which are uniquely
interpretable by means of world knowledge (i.e.
self-sufficient definite descriptions (SD)14) to
those definite NPs which depend on a previous
anchor. Inevitably, however, many real
examples remain in between, as in (8), where
todas las administraciones does not mean “all
administrations” (in the world), but just the
subset relevant to this scene.
(8) La última edición de Barnasants, el
ciclo de canción de autor, ha atraído,
según su director, Pere Camps, a
unas 2.000 personas. Camps destaca
el apoyo unánime de todas las
administraciones en la edición de
este año.15
(i)
subtype=“part” (part-of)
The antecedent of the anaphoric NP
corresponds to the whole of which the anaphor
is a part, as in (9).
(9) La reestructuración de [los otros
bancos checos] se está acompañando
por la reducción del personal.16
(ii)
subtype=“member” (set-member)
As illustrated by (10), the subsequent NP refers
to one or more members of the set expressed by
the NP anchor.
(10) a. [la tropa]...uno de los soldados.
b. Ante [unas mil personas], entre
ellas la ministra de Ciencia y
Tecnología, Anna Birulés, el alcalde
de Barcelona, Joan Clos, la
Delegada del Gobierno, Julia García
Valdecasas, y una representación del
gobierno catalán, Pujol dijo...17
director, Pere Camps, about 2,000 people. Camps
emphasizes the unanimous support of all the
administrations in the edition of this year.
16
(9) The restructuration of [the other Cheque
banks] is accompanied by the reduction of the staff.
17
(10) a. [the troop]...one of the soldiers.
b. Before about [one thousand people], among
them the minister of Science and Technology, Anna
Birulés, the mayor of Barcelona, Joan Clos, the
Delegate of the Government, Julia García
Valdecasas, and a representation of the Catalan
government, Pujol said...
13
(7) This will allow the bank to reform its
portfolio.
14
We consider as SD those NPs with the definite
article that depend on no antecedent, but on world
knowledge. Their autonomy can result from their
generic reference, their containing an explanatory
modifier, or their general uniqueness.
15
(8) The last edition of Barnasants, the singerwriter song cycle, has attracted, according to its
210
Text as Scene: Discourse Deixis and Bridging Relations
(iii)
subtype =“them” (thematic)
The anaphoric NP is related to a VP (the
anchor) via a thematic relation. In (11), for
instance, estas inversiones is the patient of the
previous verb invertir. Like sentential anchors
in discourse deixis, antecedents corresponding
to VPs are marked by hand with a <seg> tag.
(11) *0* podría hacer que la empresa
dominante dejara de [invertir en la
red] por no considerarla como una
inversión atractiva, y el Gobierno
debe incentivar estas inversiones.18
pronominal DDs” as discourse deictics together
with the inclusion of demonstrative NPs into
the range of potential candidates for bridging
relations.
These guidelines complete the annotation
scheme designed to enrich the Spanish CESSECE corpus with coreference information, thus
giving birth to the CESS-Ancora corpus. It is a
scheme rich enough to cover the different types
of coreference in Spanish. Nevertheless,
coreference annotation is such a complex task –
involving several types of linguistic items and
different factors responsible for linking two
items as coreferential– that we are currently
conducting a reliability study on a subset of the
corpus to investigate the feasibility and validity
of our annotation scheme. The results obtained
might lead us to extend and refine it. One of the
issues whose reliability needs to be proved is
the extent to which abstract antecedents can be
semantically classified into events, facts and
propositions.
We believe that a 500,000-word corpus
annotated from the morphological to the
pragmatic level may shed new light on key
factors about the nature and working of
expressions creating coreference. It has not
been determined yet, for instance, the way
contextual scenes come into play or their scope
(Fraurud, 1990). The CESS-Ancora corpus will
provide quantitative data from natural written
discourse from which it will be possible to infer
more
precise
and
realistic
linguistic
generalisations about the use of coreferential
and anaphoric expressions in Spanish.
On the other hand, the rich tagset that
distinguishes seven types of coreferential
relations and that separates individual from
abstract anaphora (each with different
attributes) makes the CESS-Ancora corpus a
very fruitful language resource. Being publicly
released, it shall be used both for training and
evaluating coreference resolution systems, as
well as in competitions such as ACE or ARE.
In brief, the goal of our project is twofold.
From a computational perspective, the CESSAncora corpus will be used to construct an
automatic corpus-based coreference resolution
system for Spanish. From a linguistic point of
view, hypotheses on the use of coreferential
expressions (Ariel, 1988; Gundel et al., 1993)
will be tested on the basis of the annotated data
and new linguistic theories might emerge.
If no subtype is specified, it means that the
anaphoric NP is interpreted on the basis of a
contextual scene, but that it is not related to its
anchor via a clear part-of, set-member or
thematic relation. This includes cases
commonly referred to as “discourse topic” or
general “inference” bridging. Examples can be
found in (3) and (12).
(12) El cambio de [17 acciones de
Alcan]...los accionistas.19
5
Conclusions and discussion
In this paper we have developed the specific
framework, “text as scene”, on which we base
the annotation guidelines for both discourse
deixis and bridging relations. The former is
annotated as coreferring with a certain textual
scene, while the latter is coded on the basis of a
contextual scene activated by the conjunction of
two discourse entities.
Given the rather vague antecedents that
anaphoric expressions interpreted via either of
these relations have, the annotation of both
discourse deixis and bridging relations has
usually obtained considerably low interannotator agreement. Our annotation scheme is
unique in that we deal with these two relations
from a common framework. In contrast to other
annotation schemes, ours assumes two
additional sources for the referent to be
interpreted –a textual and a contextual scene–,
which allow broader categories and thus more
flexible annotation guidelines. Other interesting
contributions of our scheme are the
consideration of what we call “quasi18
(11) S/he could make the dominant company
stop [investing in the net] for not considering it as an
attractive inversion, and the Government must
motivate these inversions.
19
(12) The change of [17 shares] of Alcan...the
shareholders.
211
Marta Recasens, Antonia Martí Antonín y Mariona Taulé
Semantics from a different point of view.
Springer Verlag, Berlin.
Acknowledgments
We would like to thank Mihai Surdeanu for his
helpful advice and suggestions.
This paper has been supported by the FPU
grant (AP2006-00994) from the Spanish
Ministry of Education and Science. It is based
on work supported by the CESS-ECE
(HUM2004-21127), Lang2World (TIN200615265-C06-06), and Praxem (HUM200627378-E) projects.
Marcu, D. 1997. The Rhetorical Parsing,
Summarization, and Generation of Natural
Language Texts. PhD Thesis, Department of
Computer Science, University of Toronto.
References
Muñoz, R. 2001. Tratamiento y resolución de
las descripciones definidas y su aplicación
en sistemas de extracción de información.
PhD Thesis, Departamento de Lenguajes y
Sistemas Informáticos, Universidad de
Alicante.
Ariel, M. 1988. Referring and accessibility.
Journal of Linguistics, 24(1):65-87.
Poesio, M. 2000. MATE Dialogue Annotation
Guidelines – Coreference. Deliverable D2.1.
Byron, D. K. 2000. Semantically enhanced
pronouns. In Proceedings of the 3rd
Discourse
Anaphora
and
Anaphor
Resolution Colloquium (DAARC2000),
Lancaster.
http://www.ims.uni-stuttgart.de/projekte/mate/mdag
Poesio, M. and R. Vieira. 1998. A corpus-based
investigation of definite description use.
Computational Linguistics, 24(2):183-216.
Recasens, M., M.A. Martí, and M. Taulé. 2007.
Where anaphora and coreference meet.
Annotation in the Spanish CESS-ECE
corpus. In Proceedings of the International
Conference on Recent Advances in Natural
Language
Processing
(RANLP2007),
Borovets, Bulgaria, forthcoming.
Byron, D. K. 2002. Resolving pronominal
reference to abstract entities. In Proceedings
of the 40th Annual Meeting of the
Association for Computational Linguistics
(ACL'02), Philadelphia, 80-87.
Clark, H. 1977. Bridging. In P.N. JohnsonLaird and P.C.Wason (editors), Thinking:
Readings in Cognitive Science, Cambridge
University Press.
Tutin, A., F. Trouilleux, C. Clouzot, E.
Gaussier, A. Zaenen, S. Rayot, and G.
Antoniadis. 2000. Annotating a large corpus
with anaphoric links. In Proceedings of the
3rd Discourse Anaphora and Anaphor
Resolution Colloquium (DAARC2000),
Lancaster.
Fraurud, K. 1990. Definiteness and the
processing of NPs in natural discourse.
Journal of Semantics, 7:395-433.
Gardent, C., H. Manuélian, and E. Kow. 2003.
Which bridges for bridging definite
descriptions? In Proceedings of the EACL
2003
Workshop
on
Linguistically
Interpreted Corpora, Budapest, 69-76.
Vieira, R. 1998. Definite Description
Processing in Unrestricted Texts. Ph.D.
Thesis, University of Edinburgh, Centre for
Cognitive Science.
Vieira, R., S. Salmon-Alt, C. Gasperin, E.
Schang, and G. Othero. 2002. Coreference
and anaphoric relations of demonstrative
noun phrases in a multilingual corpus. In
Proceedings of the 4th Discourse Anaphora
and Anaphor Resolution Colloquium
(DAARC2002), Lisbon.
Gundel, J., N. Hedberg, and R. Zacharski. 1993.
Cognitive status and the form of referring
expressions in discourse. Language,
69(2):274-307.
Gundel, J., N. Hedberg, and R. Zacharski. 2000.
Statut cognitif et forme des anaphoriques
indirects. Verbum, 22:79-102.
Webber, B. 1988. Discourse deixis: reference to
discourse segments. In Proceedings of the
26th Annual Meeting of the Association for
Computational Linguistics (ACL'88), New
York, 113-122.
Hirschman, L. and N. Chinchor. 1997. MUC-7
coreference task definition. In MUC-7
Proceedings.
Science
Applications
International Corporation.
Lewis, D. 1979. Score keeping in a language
game. In R. Bäuerle et al. (editors),
212
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 213-220
recibido 18-05-2007; aceptado 22-06-2007
Definición de una metodología para la construcción de Sistemas
de Organización del Conocimiento a partir de un corpus
documental en Lenguaje Natural
Sonia Sánchez-Cuadrado
Universidad Carlos III de Madrid
Avda. Universidad 30, 28911 Leganés
[email protected]
José Antonio Moreiro González
Universidad Carlos III de Madrid
C/ Madrid 126, 28903 Getafe
[email protected]
Jorge Morato Lara
Universidad Carlos III de Madrid
Avda. Universidad 30, 28911 Leganés
[email protected]
Mónica Marrero Linares
Universidad Carlos III de Madrid
Avda. Universidad 30, 28911 Leganés
[email protected]
Resumen: Se propone una metodología para la construcción automatizada de KOS adaptable a
diferentes entornos a partir de un corpus documental y unas aplicaciones de tratamiento textual
que soporten todo el proceso de construcción y mantenimiento automatizado del KOS. Esta
metodología se ha aplicado a diferentes entornos reales, comprobando que se trata de una
metodología adaptable y obteniendo una reducción significativa de la intervención de expertos
del dominio.
Palabras clave: metodología, Sistemas de Organización del Conocimiento, KOS, adquisición
de conocimiento, sistema PLN, relaciones semánticas.
Abstract: A methodology to automatic KOS construction is proposed based on information
extraction from natural language documents. Also, a set of NLP tools have been implemented to
help in the development and management process. The methodology has been tested in real
world projects. Results show that the methodology is highly adaptable and have a low
dependence of domain experts.
Keywords: Methodology, Knowledge Organization Systems, KOS, Knowledge acquisition,
NLP tools, semantic relationships.
1
Introducción
El objetivo de esta investigación es proponer
una metodología adaptable para la construcción
automatizada de Sistemas de Organización del
Conocimiento a partir de documentos en
lenguaje natural de dominios específicos
procedentes de entornos y necesidades reales.
Este propósito parte de la premisa de que la
mayor parte del conocimiento está explicitado
en los documentos de un dominio mediante
términos y relaciones y que sólo el
conocimiento que no esté expresado en los
documentos tendrá que ser aportado por los
expertos del dominio.
ISSN: 1135-5948
Para diferentes autores como Hodge (2000) o
Zeng y Chan (2004) el término Sistemas de
Organización de Conocimiento, también
conocido como KOS, engloba diferentes tipos
de esquemas para organizar la información y
promover la gestión del conocimiento, como
esquemas de clasificación y categorización,
encabezamientos de materias, archivos de
autoridades, tesauros, redes semánticas y
ontologías. Actualmente, los KOS representan
un área de creciente interés por la variedad de
disciplinas que han confluido en la necesidad de
disponer de estos recursos. Cada una de las
áreas de conocimiento ha propuesto unos
sistemas de acuerdo a sus necesidades y que por
tanto varían en su denominación y en algunas
características aunque subyace un modelo
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Sonia Sanchez-Cuadrado, Jorge Morato Lara, José Antonio Moreiro González y Monica Marrero Llinares
común (Daconta et al., 2003: 157; Lassila y
McGuinness, 2001; Gruninger y Uschold,
2002). Algunas de estas características entre los
distintos tipos de KOS son:
• Representación simplificada de la realidad
• Conceptos y relaciones de un dominio
• Estructuras flexibles en riqueza semántica
• Proporcionar un vocabulario normalizado y
consensuado
Los KOS suponen un recurso que beneficia
la comunicación entre expertos y que permite
compartir conocimiento de un dominio o una
lengua (ISO 2788:1986; NISO Z39.19: 2005).
Además aplicado a la RI se mejora en la
clasificación y descripción de documentos
mediante términos no ambiguos, y la
posibilidad de proporcionar un sistema de
expansión y restricción de consultas (Foskett,
1971; Baeza-Yates y Ribeiro-Neto, 1992;
Ingwersen, 1992). También se ha aplicado en la
Terminología (Cabré, 1993), la Ingeniería del
Software mediante el análisis de dominios para
la reutilización del software (Prieto-Díaz, 1991;
Lloréns, 1996); la Ingeniería Artificial
incorporando ontologías que permitan realizar
inferencias (Gómez-Pérez, 2003: 119-132); en
la Web Semántica mediante la construcción de
vocabularios de metadatos (Berners-Lee et al.,
2001; Daconta et al, 2003), o incluso como
mapas conceptuales para recursos educativos
(Novak, 1994; 1998).
Las distintas metodologías relacionadas con
la construcción de KOS (Gómez-Pérez et al.,
2003) coinciden en que deben cumplir las
siguientes características: claridad, coherencia,
especificación independiente, extensibilidad,
vocabulario mínimo con definiciones y
denominaciones normalizadas. Así mismo, a
partir de las propuestas, se han detectado unas
fases comunes para su construcción como:
• Determinar un ámbito o dominio
• Adquisición del conocimiento
• Comprobación de posibles anomalías e
inconsistencias
• Evaluación
• Aplicación
• Mantenimiento
Para algunas de las fases existen iniciativas
que utilizan herramientas que contribuyen a
realizar estas tareas, no obstante la mayor carga
de trabajo recae sobre el experto encargado de
la construcción del KOS.
Las propuestas para la construcción manual
de KOS (Aitchison et al., 1972: 141; Lancaster,
1986; Van Slype, 1991; Noy y McGuinness,
2001) presentan problemas significativos. Por
una parte, los KOS consumen grandes recursos
económicos y humanos durante un largo
periodo, y además implican un coste extra cada
vez que deben ser actualizados. A esto se debe
sumar la dificultad para consensuar los
diferentes criterios de los expertos para la
organización del conocimiento. Pero sin duda,
uno de los problemas más preocupantes es la
falta de disponibilidad de expertos del dominio
y la desmotivación de estos expertos en las
fases de construcción y actualización. Por este
motivo, los principales puntos débiles se
encuentran relacionados con la intervención de
los expertos y con la adquisición del
conocimiento (Antoniou y Harmelen, 2004:
211; Gómez-Pérez et al., 2004:107).
Por otro lado, la construcción automatizada
de KOS presenta las siguientes dificultades:
1. Definir el tipo de KOS y la estructura de
conocimiento. Es frecuente que clientes y
usuarios
no
sepan
explicar
que
características y funcionalidad esperan del
KOS.
2. Definir y recopilar el material el
conocimiento que se representará en el
KOS
condiciona
directamente
los
resultados, la dificultad en la construcción
de la estructura de conocimiento y la
calidad del resultado:
• Los documentos están en un idioma diferente
al que se está procesando
• Los documentos están en varios idiomas
• Los documentos son multidisciplinares
• Los documentos presentan diferentes grados
de especificidad
• Los documentos no están correctamente
escritos (estilo-ortografía)
• Los documentos presentan sintaxis no
formalmente estructurada
• Problemas para extraer texto de algunos
formatos (ej. Texto de imágenes)
3. Definir
la
funcionalidad
de
las
herramientas informáticas para las fases
que pueden ser automatizadas. Existen dos
funciones fundamentales: extracción de
conocimiento
e
identificación
del
conocimiento. La primera debe seleccionar
aquella información que pueda aportar
conocimiento significativo para una
estructura organizativa (por lo tanto una
indización selectiva). Por otra parte, el
proceso de indización tenderá a registrar la
214
Definición de una Metodología para la Construcción de Sistemas de Organización del Conocimiento a partir de un Corpus ...
• Identificación
del
vocabulario
de
especialidad: extracción, valoración y
validación de vocabulario
• Identificación
de
relaciones
de
especialidad: extracción, valoración y
validación de relaciones
3. Evaluación de la calidad del KOS
4. Mantenimiento del KOS
Las fases de definición de la estructura de
conocimiento mediante la definición de
requisitos y la definición del corpus documental
se realiza mediante: entrevistas con los expertos
y la selección de documentos.
1. Entrevistas con los expertos.
• Determinar el dominio
• Determinar las preguntas que deberían
hacerse a un experto: finalidad, tema,
subtemas, preguntas a realizar al sistema
RI
• Dar pautas a los expertos para la
construcción del corpus
• El resultado de esta fase debe ser:
• Una estructura taxonómica que
represente a muy alto nivel los
componentes básicos que se desean
representar
• Un listado de preguntas y respuestas
que desean resolver para una consulta
• Un informe de directrices y
recomendaciones para la construcción
de un corpus
2. Selección de documentos: diferenciar los
documentos que están orientados a la
construcción de la estructura de
conocimiento con los que están orientados
a ser documentos de indización.
• Para la construcción KOS. Es un requisito
que estos documentos contengan (aunque
sea parcialmente) los términos utilizados en
los documentos (cuanto más estructurados
los documentos, mejor)
o Listados de términos que utilicen o
de índices de libros o informes que
tengan.
o Si tienen tesauros parciales
o Glosarios que utilicen (o material de
formación de personal)
• De la entrevista y de los documentos
estructurados debería salir un primer esbozo
de estructura de conocimiento. Esta debería
ser evaluada por un/unos experto/s y
confirmar la orientación correcta para que
pueda ser ampliada.
mayor cantidad de información (por lo
tanto, una indización exhaustiva).
4. Análisis del resultado del KOS. Se requiere
un análisis de los resultados de la
estructura de conocimiento construida,
debido a que los sistemas de adquisición de
información tienden a ser genéricos.
2
Definición de la Metodología
En primer lugar, se establece una definición de
roles para la construcción del KOS (Fraga et al,
2006): ingeniero de dominio (ID), experto de
dominio (ED) y responsable de dominio (RD) y
después una definición de una metodología.
Esta metodología estará compuesta por
actividades de la construcción del KOS y
actividades de apoyo relacionadas con aspectos
informáticos, documentación y con el personal
experto. La metodología desarrollada (SánchezCuadrado, 2007) utiliza aplicaciones software
como ayuda a las distintas fases, pero también
como soporte del KOS
ACTIVIDADES DE APOYO
INFORMÁTICA
Herramientas
de desarrollo
DOCUMENTACIÓN
Cronogramas
Documentación
de Seguimiento
ACTIVIDADES
CONSTRUCCIÓN DEL KOS
PERSONAL
EXPERTO
Definición de Requisitos
Asignación de
Tareas
Recopilación
Documental
Adquisición de Conocimiento
Recopilación Documental
Extracción
Inform.(PLN)
Validación y
refinamiento
Evaluación
KOS
Preexistentes
Validación
Integración
Conceptualización
Codificación RSHP
Evaluación
KOS Final
Mantenimiento
Figura 1: Metodología CAKE para construcción
de KOS
Los fundamentos de la metodología CAKE
(Figura1) se basan en una serie de actividades
para la construcción del KOS (SánchezCuadrado et al., 2006):
1. Definición de requisitos para la
identificación del dominio
2. Adquisición de conocimiento
• Recogida de documentación y filtrado:
selección del corpus especializado
• Propuesta de un conjunto reducido de
categorías que sirvan de semilla a la
incorporación de otros nodos de la
taxonomía inicial
215
Sonia Sanchez-Cuadrado, Jorge Morato Lara, José Antonio Moreiro González y Monica Marrero Llinares
Las fases de identificación del vocabulario
(3) e identificación de relaciones (4) están
basadas en sistemas de PLN (Figura 2) que
identifican conceptos (simples y complejos) y
relaciones léxico-semánticas a partir de
patrones y relaciones sintagmáticas (SánchezCuadrado et al., 2003).
por parte de los expertos del dominio. Por tanto,
la presentación de los resultados debe ser clara
y lo más concreta posible. Una forma de lograr
claridad y concreción será mediante
conocimiento contextualizado.
Los procesos de mantenimiento deberán ser
coherentes (no repetir información, no insertar
información contradictoria, no información
errónea, etc.). Uso fácil, y actualización en
cascada y coherente.
3 Aplicación de la metodología a
entornos reales
Esta propuesta es resultado de la construcción
de distintos KOS para entornos reales según la
definición de requisitos expresados por la
institución.
Esta metodología se ha empleado en el
entorno petroquímico (REPSOL-YPF) siendo
construidos por separado diferentes áreas de
conocimiento de la organización. Se
construyeron cuatro KOS aplicando la
herramienta de PLN para la automatización de
la fase de adquisición del conocimiento y
herramientas Web para la toma de decisiones de
las fases de valoración y validación de términos
y relaciones por miembros de la organización.
Los KOS obtenidos para el entorno
petroquímico tenían la función de indizar de
forma automática para poder recuperar los
documentos.
A continuación se muestran algunos de los
resultados obtenidos en la aplicación de los
métodos propuestos a los diferentes dominios:
REPSOL-YPF, SAGE-SP, Oficina Defensor
del Pueblo, prototipo de la Guardia Civil en
cuanto a metodología automatizada, también se
ha aplicado a la creación manual de dominios
en el proyecto del Archivo General de la
Nación de la República Dominicana (AGN). En
todos estos proyectos se ha utilizado el modelo
RSHP.
Figura 2: Base de datos de conocimiento y
tecnologías lingüísticas aplicadas a la
adquisición de conocimiento
Las fases de valoración y validación de los
términos y relaciones de especialidad se
realizan con una herramienta para la toma de
decisiones sobre posibles términos o relaciones
conflictivos. Las herramientas que se deben
utilizar estarán en función de: la finalidad del
sistema, las características del corpus, el
volumen del corpus, la implicación de los
expertos en el proceso, las técnicas de
evaluación y mantenimiento. Por lo tanto se
analizará:
• Finalidad del sistema,
• Las características del corpus,
• Procesamiento textual-calidad de los
resultados
• El volumen del corpus,
• La implicación de los expertos en el proceso
• Las técnicas de evaluación
• El mantenimiento del KOS
En aquellas tareas que deban ser realizadas
por expertos del dominio, las herramientas son
sencillas, y el tiempo que los expertos deben
dedicar a estas tareas debe ser mínimo. Para
lograr esto, la solución pasa por obtener buenos
resultados y procesos de filtrado automatizados.
En general, el análisis y la valoración de los
resultados en las diferentes fases de
construcción de estructuras de conocimiento, es
Modelo RSHP
Categorías
Generales
Recursos
documentales
Análisis recursos
estructurados
Análisis recursos
semiestructurados
Análisis recursos
no estructurados
Extracción de
Entidades
216
REPSOL- SAGE
YPF
si
si
P-GC Defensor AGN
del Pueblo
si
si
si
no
si
si
Si
si
si
no
no
No
si
no
no
no
Si
si
si
no
no
No
no
si
si
si
No
no
no
si
si
No
no
Definición de una Metodología para la Construcción de Sistemas de Organización del Conocimiento a partir de un Corpus ...
Valoración de
términos por la
organización
Validación de
términos por la
organización
Valoración de
relaciones por la
organización
Validación de
relaciones por la
organización
si
no
no
Si
si
si
no
no
Si
si
si
no
no
Si
si
si
no
no
Si
si
precisaron los términos y se desecharon
familias que no eran pertinentes para el dominio
(por ejemplo, los gentilicios).
En el caso del dominio de REPSOL-YPF, se
localizaron glosarios según las diferentes áreas
que se querían modelar. Estos glosarios
contenían términos propios del dominio y
específicos, proporcionando un vocabulario
normalizado. Por otra parte, se aportó la
documentación propia de la empresa que a
juicio
de
los
expertos
reflejaban
suficientemente los dominios a modelar. Esta
información fue entregada por temáticas que
representaban cinco dominios diferentes,
aunque con cierto grado de solapamiento.
En el caso de SAGE, la documentación que
representaba el material primario para la
construcción del sistema de organización del
conocimiento consistía fundamentalmente en
los ficheros de ayuda de los programas de sus
aplicaciones
informáticas.
También
se
aportaban los ficheros de sugerencias y errores
que se recogían de los clientes mediante el callcenter.
La Guardia Civil aportaba para la
construcción del tesauro la documentación que
registran los miembros de la unidad para el
seguimiento de los casos, donde se encontraba
toda la información que se pretendía modelar,
aunque en función de la investigación podían
aparecer conceptos nuevos. El aumento del
dominio
era
incremental
debido
fundamentalmente a la incorporación de nuevas
instancias.
La Oficina del Defensor del Pueblo disponía
de un recurso muy concreto y ya estructurado,
su tesauro, con la información que se iba a
tratar. Por otra parte, tenían a disposición de los
expertos los informes que se tenían que indizar,
permitiendo un adecuado reconocimiento y
extracción conceptual.
Para el AGN, el proceso de especificación
de los recursos documentales para la
recopilación del material primario se determinó
como necesario índices de topónimos,
organigramas, clasificaciones internas, tipología
documental, etc.
Desde el inicio de las experiencias con los
proyectos se vieron las ventajas del uso de
documentos estructurados o semiestructurados,
en cuanto a la calidad y cantidad de conceptos y
relaciones concentradas en este tipo
documental, sin embargo en los entornos
aplicados no han podido ser, prácticamente,
Tabla 1: Fases de construcción de KOS
aplicadas a diferentes entornos
En la presente tabla se presentan estos
resultados de forma resumida según se haya
realizado o no determinada etapa de la
metodología en cada uno de los proyectos
(Tabla 1).
En cuanto al establecimiento a priori de una
clasificación general, se aplicó en los dominios
de SAGE, en el prototipo de la Guardia Civil y
en el dominio del AGN, confirmando que
facilita no sólo las primeras fases de
distribución de los términos en categorías y la
facilidad para entender la formación del
dominio, si no la definición de relaciones entre
categorías de términos y términos concretos. En
concreto, en las ocasiones en la que no se ha
utilizado una clasificación genérica, se genera
un tipo de estructura de conocimiento diferente.
Las diferencias fundamentales residen en que
existe un número amplio de categorías
generales válidas para ser gestionadas por una
máquina, pero no para una persona. Por otra
parte, esta clasificación de términos por
categorías de palabras ha facilitado que la
revisión pueda ser llevada a cabo por los
ingenieros del dominio y que sólo en caso de
duda o como resultado de esa clasificación un
experto del dominio supervise el dominio. Tras
diversas pruebas y estudios de clasificaciones
similares, el número de categorías iniciales se
ha establecido en torno a 15. La propuesta de
una definición de una clasificación general para
la construcción de sistemas de organización del
conocimiento ha sido aplicada a proyectos
enfocados a la construcción automatizada y a la
construcción manual (p.e. a los distintos
subdominios de SAGE-SP). Esta estructura
permitía a los ingenieros del dominio
incorporar vocabulario que había sido
proporcionado por la compañía, en forma de
pequeños listados. A medida que se confirmó el
tipo de organización de la empresa se
217
Sonia Sanchez-Cuadrado, Jorge Morato Lara, José Antonio Moreiro González y Monica Marrero Llinares
Dominio
aprovechados como recursos documentales
básicos, como se observa en la Tabla 1
La aplicación de un tratamiento especial
aplicado a los documentos estructurados
comenzó con la importación del tesauro
utilizado por la Oficina del Defensor del Pueblo
al gestor de tesauros TmCake. Este software
permitió la evaluación y el mantenimiento del
tesauro. REPSOL-YPF y SAGE-SP disponen y
utilizan la versión actualizada de esta
herramienta (actualmente denominada Domain
Reuser), esta versión se encuentra más próxima
a la metodología final propuesta.
En el caso del AGN, mediante la
funcionalidad de exportación del Domain
Reuser se reutilizaron partes de sistemas de
organización del conocimiento como un tesauro
toponímico de carácter general.
La extracción de conocimiento a partir de
composición de palabras ha sido aplicada en las
primeras fases de extracción de relaciones y
organización de términos en el sistema de
organización del conocimiento en los proyectos
de REPSOL-YPF, SAGE y prototipo de la
Guardia Civil. Incluso se puede aplicar cuando
lo que se ha obtenido como recurso primario es
una lista de términos simples y compuestos
como listado de términos de indización.
El principal problema que supone este
mecanismo es que se pueden establecer
relaciones de generalización-especificación que
no sean ciertas, porque el término que se
considera específico sea un término compuesto
lexicalizado que ha perdido la semántica del
término que se establece como genérico. En los
casos de REPSOL-YPF, SAGE, el prototipo
para la Guardia Civil, así como las listas de
términos que se utilizaron en el dominio del
AGN, se realizó una revisión manual, para
identificar posibles casos erróneos.
Por otra parte, es habitual que el tratamiento
textual de recursos no estructurados produzca
gran cantidad de términos que no son fáciles de
discriminar como candidatos o no al KOS.
La experiencia de los procesos con
REPSOL-YPF, SAGE, y el prototipo de la
Guardia Civil sugieren que sea un proceso
destinado a cerciorarse de relaciones que
pueden ser afectadas por el contexto o la
finalidad del sistema de organización del
conocimiento. Con esto nos referimos por
ejemplo a las relaciones de sinonimia o
equivalencia, que aunque dos términos no sean
sinónimos, podrían ser considerados como tal
para un dominio concreto.
REPSOLYPF
Medioambiente
Química
Refino
EyP
Familias
Conceptos
Media de
Relaciones
--
2224
1,08
----
3758
4279
2234
1,61
1,07
1,24
SAGE-SP
Contabilidad
Nóminas
Facturación
15
21
15
3894
2410
5584
1,17
2,83
1,08
GC
Guardia
Civil
12
603
2,63
Tabla 2: Características de los KOS en
diferentes entornos
En el desarrollo de los diferentes proyectos
que se han realizado con las herramientas y las
metodologías para la construcción automatizada
de sistemas de organización del conocimiento,
se observa que la definición y el desarrollo de
los nuevos sistemas son más eficientes en
cuanto a la extracción de relaciones. Otro dato a
destacar es la calidad de las construcciones de
los términos compuestos, y la descomposición
de esas construcciones complejas. Sin duda,
otra de las características que mejora
considerablemente
la
adquisición
de
conocimiento es la extracción de entidades. Las
mejoras afectan a la calidad de los términos
específicos y a la especificidad de las
relaciones.
100%
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
EyP
Refino
Química
Medio-ambiente
Conceptos Relaciones
100%
80%
Guardia Civil
60%
Facturación
Nóminas
40%
Contabilidad
20%
0%
Familias Conceptos Relaciones
218
Definición de una Metodología para la Construcción de Sistemas de Organización del Conocimiento a partir de un Corpus ...
Figura 3: Visualización de las características de
los KOS en los diferentes entornos
proceso de análisis y valoración tenderá a ser
más efectivo y ha desempeñarse con mayor
calidad. Asimismo un resultado de calidad
favorecerá su uso, su utilidad y la necesidad de
utilizar mecanismos de mantenimiento para la
estructura de conocimiento. En este caso, las
propuestas han estado orientadas a:
• diferenciar entre tipos de entidades
• corrección ortográfica para posibles
deficiencias en los documentos
• organizar la extracción de términos y
relaciones en distintas fases
• evaluación progresiva del conocimiento
adquirido
• apoyo de una clasificación preexistente para
la distribución del conocimiento
En resumen se ha propuesto un entorno para
el desarrollo de KOS mediante una metodología
configurable a diferentes escenarios. Para
llevarla a cabo se debe elaborar de forma
cuidadosa un corpus que contenga la
información necesaria para la construcción del
KOS y con unas aplicaciones específicas para la
adquisición del conocimiento, y con un modelo
de
representación
y
construcción
y
mantenimiento del KOS.
Sin duda una de las ventajas logradas es la
disminución de la dependencia de expertos del
dominio, reduciendo los costes, las posibles
inconsistencias
entre
expertos
y
la
desmotivación que provocaban las tareas
asignadas.
En el caso del prototipo para la Guardia
Civil, el sistema de extracción de entidades
tiene un impacto directo en la identificación de
los términos candidatos a formar parte del
sistema de organización del conocimiento, así
como para la extracción de relaciones entre
algunas de esas entidades. Otro impacto
positivo que se refleja en los resultados es el
aumento significativo de relaciones para el
resultado de los sistemas de organización del
conocimiento (Figura 3), debido a la fase de
adquisición de relaciones mediante las unidades
identificadas y a la flexibilidad del sistema de
tratamiento textual e indizador del sistema de
PLN.
4
Conclusiones
Esta propuesta se centra en mejora los
resultados con respecto a los aspectos más
problemáticos de la construcción de KOS. Por
una parte, en cuanto a las tareas asignadas a los
expertos y responsables del dominio. Para ello
se ha incidido en:
• minimizar el número de tareas
asignadas
• reducir el tiempo de las tareas
• valorar y validad el conocimiento con
información contextualizada
• formar a los expertos y responsables del
dominio sobre el producto final
• mejorar la especificación de requisitos
El otro aspecto, en el que se ha centrado esta
propuesta es en mejorar la calidad de los
documentos que componen el corpus del
dominio para la construcción de KOS mediante
unos criterios para su construcción y la
reutilización de recursos con vocabularios
controlados existentes. Esta definición del
corpus documental contribuye a:
• determinar los temas y facilitar las tareas del
Ingeniero de Dominios para determinar los
genéricos,
• determinar las expectativas del cliente,
• determinar un corpus de indización de mejor
calidad y adaptado a sus necesidades
Por último, la mejora de las herramientas
informáticas necesarias para la obtención de
calidad resultados disminuye los errores de
indización, extracción de información y
construcción de KOS. Por lo tanto, cualquier
Bibliografía
Aitchison, J.; Gilchrist, A.; Bawden, D. 1972.
Thesaurus construction and use: a practical
manual. 3rd ed. London: Aslib,.1997.
Antoniou, G. y Harmelen, F. van. A Semantic
Web Primer. London: The MIT Press, 2004.
Baeza-Yates, R. y Ribeiro-Neto, B. Modern
Information
Retrieval.
Massachusetts:
Addison-Wesley, 1999.
Berners-Lee, T.; Hendler, J.; Lassila, O.. The
Semantic Web. Scientific American
Magazine; May 2001
Cabré Castellví , Mª. T. La Terminología:
Teoría, metodología y aplicaciones.
Barcelona: Antartida/Empuréis, 1993 .
Daconta, M. C.; obrst, Leo J. y Smith, K. T.
The Semantic Web. A guide to the future of
XML, Web Services, and Knowledge
Management. Indianapolis: Wiley, 2003.
219
Sonia Sanchez-Cuadrado, Jorge Morato Lara, José Antonio Moreiro González y Monica Marrero Llinares
Foskett, D. J. Thesaurus. Encyclopaedia of
Library and Information Science. En: SparkJones, K. y Willett, P. (eds.). Readings in
Information Retrieval. San Francisco:
Morgan Kaufmann, 1997. pp 111-134.
Mahwah, N. J., Lawrence Erlbaum & Assoc,
1998
Prieto-Díaz,
R.
Implementing
Faceted
Classification for Software Reuse. Comm.
ACM 1991, 34 (5). pp. 88-97.
Fraga, A.; Sánchez-Cuadrado, S. y Lloréns, J.
Creación de un Tesauro Manual y
Automático para el dominio de Arquitectura
de Software. Jornadas Chilenas de
Computación, V Workshop Ingeniería del
Software (WIS2005) de las Jornadas
Chilenas de Computación. Valdivia, Chile.
2005
Sánchez-Cuadrado, S. Definición de una
metodología
para
la
construcción
automatizada de sistemas de organización
del
conocimiento.
Tesis
Doctoral.
Universidad Carlos III de Madrid. Dpto.
Biblioteconomía y Documentación, 2007.
Sánchez-Cuadrado, S.; Lloréns, J, y Morato, J.
Desarrollo de una aplicación para la gestión
de relaciones en tesauros generados
automáticamente. Jotri 2003. II Jornadas de
Tratamiento y Recuperación de la
Información. Madrid. 2003.pp. 151-156
Gómez-Pérez, A.; Fernando-López, M.;
Corcho, O. Ontological Engineering.
London: Springer, 2004.
Hodge, G. Systems of Knowledge Organization
for Digital Libraries: Beyond Traditional
Authority Files. The Digital Library
Federation Council on Library and
Information Resources. 2000
Ingwersen, P. Information Retrieval Interaction.
London: Taylor Graham, 1992 P. 245.
Sánchez-Cuadrado, S.; Lloréns, J. y Morato, J.;
et al. Extracción Automática de Relaciones
Semánticas.
2da.
Conferencia
Iberoamericana en Sistemas, Cibernética e
Informática. CISCI 2003. Orlando, Florida.
2003a. pp. 265-268.
ISO-2788:
1986.
Guidelines
for
the
Establishment
and
Development
of
Monolingual
Thesauri.
International
Organization for Standardization, Second
edition -11-15 UDC 025.48. Geneva: ISO,
1986.
Sánchez-Cuadrado, S.; y J. Morato Lara.
Diseño de una herramienta para la Creación
Asistida de KOS. VII Jornada de la
Asociación Española de Terminología.
Lenguas de especialidad y lenguajes
documentales. 24 de noviembre de 2006.
Lancaster, F. W. Vocabulary control for
information retrieval. 2nd ed. Arlington,
Virginia: Information Resources Press,
1986.
Van Slype, G.. Los lenguajes de indización.
Concepción, construcción y utilización en
los sistemas
documentales. Madrid:
Fundación Germán Sánchez Ruipérez. 1991.
Lloréns, J.. Definición de una metodología y
una estructura de repositorio orientadas a
la reutilización: El tesauro de software.
Universidad Carlos III de Madrid,
Departamento de Ingeniería, 1996
Zeng, M. L y L. Mai Chan. Trends and Issues
in Establishing Interoperability Among
Knowledge Organization Systems. Journal
of the American Society for Information
Science and Technology, 2004, 55(5):377395.
Morato, J.; Lloréns, J.; Génova, G.; et al.
Experiments in Discourse Analysis Impact
on Information Classification and Retrieval
Systems. Information Processing and
Management 2003, 38. pp. 825-851.
Novak, J. D. y D. B. Gowin, Learning how to
Learn. New York: Cambridge University
Press, 1984.
Novak, J. D., Learning, Creating , and Using
Knowledge: Concept Maps as Facilitative
Tools for Schools and Corporations.
220
Sistemas de Diálogo
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 223-230
recibido 23-05-2007; aceptado 22-06-2007
Prediction of Dialogue Acts on the Basis of the Previous Act
Sergio R. Coria
Luis A. Pineda
[email protected]
[email protected]
Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas (IIMAS)
Universidad Nacional Autónoma de México (UNAM)
Ciudad Universitaria, Coyoacán, México, D.F.
Resumen: En este trabajo se evalúa empíricamente el reconocimiento automático de actos de
diálogo. Se usan datos provenientes de un corpus de diálogos con habla espontánea. En cada
diálogo dos hablantes colaboran en el diseño de cocinas usando herramientas C.A.D.; uno de
ellos desempeña el rol del Sistema y el otro el del Usuario. Los actos de diálogo se etiquetan
con DIME-DAMSL, esquema que considera dos planos de expresión: obligaciones y common
ground. La evaluación se realiza probando modelos clasificadores creados con algoritmos de
aprendizaje máquina: uno para obligaciones y otro para common ground. El principal dato
predictor analizado es el acto de diálogo correspondiente al enunciado inmediato anterior. Se
pondera también la contribución de información adicional, como la entonación, etiquetada con
INTSINT, la modalidad del enunciado, el rol del hablante y el tipo de acto de diálogo del plano
complementario. Una aplicación práctica sería en sistemas de administración de diálogo.
Palabras clave: Diálogos prácticos, acto de diálogo, DIME-DAMSL, aprendizaje máquina,
entonación, INTSINT, corpus de diálogo, árbol de clasificación y regresión
Abstract: In this paper the automatic recognition of dialogue acts is evaluated on an empirical
basis. Data from a dialogue corpus with spontaneous speech are used. In each dialogue two
speakers collaborate to design a kitchen using a C.A.D. software tool; one of them plays the
System’s role and the other plays the User’s role. Dialogue acts are annotated with DIMEDAMSL, a scheme considering two expression planes: obligations and common ground. The
evaluation is performed by testing classification models created with Machine Learning
algorithms: one model for obligations and other for common ground. The mainly analyzed
predictor data is the dialogue act corresponding to the immediately previous utterance. The
contribution of other information sources is also evaluated, such as intonation, annotated with
INTSINT, utterance mood, speaker role and dialogue act type of the complementary expression
plane. A practical application can be the implementation of dialogue management systems.
Keywords: Practical dialogues, dialogue act, DIME-DAMSL, machine learning, intonation,
INTSINT, dialogue corpus, classification and regression tree
Introduction
Automatic recognition of dialogue acts has
been addressed in previous work, such as
(Shriberg et al., 1998) and the VERBMOBIL
Project (Wahlster, 1993); it is a relevant issue
because it provides speech recognition and
dialogue management systems with additional
information, which tends to improve their
accuracy and efficiency. These two pieces of
work have used intonational and lexical
information to perform the dialogue act
ISSN: 1135-5948
recognition for English and German languages,
respectively. Another relevant reference is
(Garrido, 1996), where the relation between
intonation and utterance mood in Spanish is
addressed.
In (Coria and Pineda, 2006) dialogue act in
Spanish is addressed from an intonational view
and also considering some other non-prosodic
features; these experimental settings are
immediate predecessors of the present work.
Machine learning algorithms, such as
classification trees and neural networks, in
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Sergio R. Coria y Luis Alberto Pineda
The forward looking functions resemble
diverse categories defined in the traditional
speech acts theory; e.g. action directives,
commitments or affirms in DAMSL resemble
directives, commisives or representatives,
respectively, in Searle’s scheme.
The backward-looking functions specify
how an utterance is related to the ones
preceding it in the dialogue; e.g. to accept a
proposal, to confirm understanding of a
previous utterance, to answer a question.
addition to language models and polygrams are
commonly used to analyze the phenomenon
and to find out the most contributing features
for the implementation of recognition or
prediction models. This work uses a
classification tree algorithm to evaluate the
contribution of the previous dialogue act to the
prediction task, assuming as baseline a
recognition setting where the previous act is
not used as one of the predictors.
A key issue in dialogue act recognition is
the annotation of dialogue acts. The present
work adopts the DIME-DAMSL scheme for
this annotation.
1 Dialogue acts
DAMSL scheme
1.1
and
the
1.3
As DAMSL scheme did not suffice to
obtain a high enough inter-annotator
agreement, it was not reliable enough to set
machine-learning experiments, which require
consistent information. A source of low
agreement in DAMSL is the lack of a higher
level structure to constraint the possible
label(s) an utterance can be assigned to; i.e. the
scope of DAMSL scheme is restricted to
analyze single utterances without considering
the context within the dialogue where previous
or following utterances occur. This allows a
broad space to select and combine labels but,
on the other hand, there is a high risk that
inter-annotator agreement for dialogue act
types is low because of the influence of
subjectivity.
Evolving from DAMSL, DIME-DAMSL
adopts its tag set and its dimensions and
extends them by defining three additional
notions, as follows. 1) two expression planes:
the obligations and the common ground, 2)
transaction structure and 3) charge and credit
contributions of dialogue acts in balanced
transactions.
The obligations and the common ground
planes are parallel structures along which
dialogue acts flow. A dialogue act might
contribute to any (or both) of the two planes.
In DIME-DAMSL the obligations plane is
construed by dialogue acts that generate a
responsibility either on the speaker himself or
on the listener to perform an action, either
verbal or non-verbal; e.g. the obligation to
provide some piece of information or to
perform a non-verbal action. Dialogue acts that
mainly contribute to the obligations plane are:
commit, offer (when it is accepted by the
interlocutor), action directive and information
request. For instance, in utterances from
dialogues of the DIME corpus, okay is a
DIME-
Speech acts and dialogue acts
Searle’s theory on speech acts states that
the production or emission of an utteranceinstance under certain conditions constitutes a
speech act, and speech acts are the basic or
minimal units of linguistic communication.
The dialogue act is an adaptation of the this
notion and involves a speech act in the context
of a dialogue (Bunt, 1994) or an act with
internal structure specifically related to its
dialogue function, as assumed in (Allen and
Core, 1997), or a combination of the speech
act and the semantic force of an utterance
(Bunt, 1995). The present work is based on
Allen and Core’s view.
1.2
DIME-DAMSL scheme
DAMSL scheme
Allen and Core define a tag set and a series of
tagging principles in order to produce a
computational scheme for the annotation of
dialogue acts in a particular class of dialogues:
the so-called practical dialogues, where the
interlocutors collaborate to achieve a common
goal and do not need to use a too complex
language because the conversation is simpler
than the general conversation.
The DAMSL scheme defines four tag sets
for utterance annotation, as follows:
communicative status, information level,
forward-looking
and
backward-looking
functions. One of the main purposes of the
communicative status is to specify if an
utterance is intelligible or not; the information
level describes the general subject of the
utterance, e.g. task, task-management,
communication management.
224
Prediction of Dialogue Acts on the Basis of the Previous Act
presents two phases: intention specification,
where an intention is specified by a speaker
and interpreted by his addressee, and intention
satisfaction, where the addressee performs a
verbal or non-verbal action attending the
intention and the interlocutor interprets that
action.
commit (in certain contexts); can you move the
stove to the left? is an action directive, and
where do you want me to put it? is an
information request.
The common ground is the set of dialogue
acts that add, reinforce and repair the shared
knowledge and beliefs of the interlocutors and
preserve and repair the communication flow.
DIME-DAMSL defines two sub-planes in the
common
ground:
agreement
and
understanding; agreement is the set of
dialogue acts that add knowledge or beliefs to
be shared on the grounding of the dialogue
participants; understanding is defined by acts
that keep, reinforce or recreate the
communication channel. Dialogue acts that
mainly contribute to the agreement sub-plane
are: open option (e.g. these are the cupboards
we have), affirm (e.g. because I need a
cabinet), hold (e.g. do you want me to move
this cabinet to here?), accept (e.g. yes), reject
(e.g. no, there is no design problem), accept
part, reject part and maybe. Dialogue acts on
the
understanding
sub-plane
are
acknowledgment (e.g. yeah, yes, okay, etc.),
repeat-or-rephrase (e.g. do you want me to put
this stove here?), and backchannel (e.g. mhum,
okay, yes, etc.).
Charges and credits are the basic
mechanism underlying the interaction between
pairs of dialogue acts along each of the two
expression planes. A charge generated by a
dialogue act introduces an imbalance
requesting for satisfaction, and a credit is the
item balancing that charge. Instances of
balanced pairs are, on the obligations plane,
action directive, a charge, which can be
balanced with a graphical action; on the
agreement plane a charge introduced by an
open option can be balanced with an accept; on
the understanding plane an affirm creates a
charge that can be satisfied with an
acknowledgment, etc. These and other
additional pairs guide a charge-credit
annotation to identify and annotate the most
prominent dialogue acts of the utterance; this
annotation of dialogue acts is called
Preliminary DIME-DAMSL and supports the
completion of the dialogue act tagging in a
subsequent stage, the so-called Detailed
DIME-DAMSL, where the annotation is added
with other labels if necessary.
A transaction is defined by a set of
consecutive charge-credit pairs intending a
sub-goal within a dialogue. A transaction
2
The DIME Corpus
The DIME Corpus (Pineda, 2007) is the
empirical information source to perform the
experiments; it is a collection of 26 human-tohuman dialogues with their corresponding
video and audio recordings and their
annotations on a series of levels. It was created
to analyze phonetic, phonologic and dialogue
phenomena in Mexican Spanish. Speakers are
approximately 15 individuals, males and
females, most of them from Mexico City with
ages between 22 and 30 y/o.
In each dialogue two speakers collaborate
to design a kitchen using a C.A.D. software;
one of them plays the System’s role and the
other plays the User’s role. The System is
always the same speaker in all dialogues. The
speakers perform a task that consists in placing
pieces of furniture in a virtual kitchen as
specified by a drawing on a piece of paper.
Every User interacts with the System using
the C.A.D. tool. The User commands the
System to design the virtual kitchen. There is
no written script, so the language spoken in the
dialogue is spontaneous.
2.1
Annotation levels
The DIME corpus is segmented into utterances
and annotated on these levels: orthographic
transcription (transliteration), allophones,
phonemes, phonetic syllables (considering the
possible presence of re-syllabication), words,
break indices from Sp-Tobi (Beckman et al.,
2002), parts of speech (P.O.S.), discourse
markers, speech repairs, intonation and
utterance mood. The MexBet phonetic
alphabet (Cuétara, 2004) is used to annotate
allophones, phonemes, phonetic syllables and
words.
2.1.1
Intonational annotation
Intonation is annotated with INTSINT
(Hirst, Di Cristo and Espesser, 2000),
implemented in the M.E.S. tool (Motif
Environment for Speech). A stylized contour
225
Sergio R. Coria y Luis Alberto Pineda
used in any of the following cases: the end of
the utterance is too noisy, the end presents a
too long silence whose duration is greater than
the one of a pause, the utterance does not
contain lexical information but instead a sound
such as breathing, laughing, lip-clicks, etc.
As one single annotator performs this
tagging, annotation agreement is not
computed.
A machine-learning algorithm is used to
create a model for automatic annotation of
utterance mood by using the manual tagging as
target data. The automatic annotation is later
used as one of the inputs for dialogue act
recognition because this would be the case in a
real-world application.
of the fundamental frequency is automatically
obtained and its inflection points are detected,
saving their respective frequency (Hz) and
timestamp. A perceptive verification is
performed by a human annotator in order to
assure that the stylized contour is perceptively
similar to the original speech signal; the
inflection points can be relocated on the
frequency or time axis by the annotator. Every
inflection point is then automatically annotated
with the INTSINT tag set according to the
relative location of the point regarding its
predecessor and its successor. The tag set is
construed of 3 absolute tones: T (top, the
absolute highest), B (bottom, the absolute
lowest), and M (medium, the frequency
average); and 5 iterative tones: H (higher, a
local maximal), L (lower, a local minimal), U
(up-step, a point on an ascending region), D
(down-step, a point on a descending region), S
(same, a point at the same height than its
predecessor). Absolute tones can occur only
once along an intonational contour; i.e. T, B
and M appear usually one single time in the
intonational annotation of an utterance. On the
other hand, iterative tones can appear an
arbitrary number of times.
The original INTSINT tags and timestamps
produced with M.E.S. are transformed into tag
concatenations without timestamps in order to
generate simple strings. This representation
without time information provides with a
higher level abstraction and allows compare
intonational contours from different speakers
without requiring a normalization process, as it
is required when using a numerical
representation. This way, the initial or final
regions of a contour can be represented by
sequences of the first or the last INTSINT tags
of a string.
2.1.2
3 Experimental settings and
information features
The setting is implemented as a machine
learning experiment, selecting a subset of the
features as targets and others as predictors.
Table 1 presents a data dictionary of the
features involved in the prediction models for
obligations and common ground dialogue acts.
Its right-most column specifies if a feature is
used as either predictor (P) or target (T); the
T/P value specifies that the feature is used as
target in a particular model and as predictor in
other. Lexical information is not used in the
predictor feature set. The last_2 feature is
based on the toneme notion (Navarro-Tomas,
1974).
Two recognition models are produced: one
for obligations and other for common ground.
The previous dialogue act refers to both
obligations_minus1 and commgr_minus1
features; i.e. both features are evaluated as
predictors for obligations and also for common
ground.
The machine learning algorithm to generate
the models is J48 (Witten and Frank, 2000); it
creates classification and regression trees using
an approach similar to CART (Breiman et al.,
1983). J48 is implemented in WEKA (Witten
and Frank, 2000), a free software tool.
The dataset for the experiment contains
features corresponding to 1,043 utterances in
12 dialogues from the DIME corpus.
Baselines to evaluate the results are
determined by an experimental setting where
the previous dialogue act is not used as one of
the predictors. These are: optimal predicted
Utterance mood annotation
Utterance
mood,
i.e.
interrogative,
declarative, imperative, etc. is annotated as
specified by a series of formalized
conventions; some of which are as follows:
The
human
annotator
reads
the
orthographical transcription and listens to the
audio file, focusing on the final region of the
utterance.
The tag set is: dec (declarative), imp
(imperative), int (interrogative) and other. The
other label includes any other mood that does
not fit into the first three categories. It is also
226
Prediction of Dialogue Acts on the Basis of the Previous Act
Feature
Description
Why it is Used
first_1
first_2
The first INTSINT label of an utterance
The first two INTSINT labels of an utterance
The first three INTSINT labels of an
utterance
The
initial
region
of
the
intonational contour contributes to
utterance mood recognition; each of
the three features is evaluated
Preliminary experiments show that
it is highly contributive to utterance
mood recognition because it
contains the utterance toneme
first_3
The last 2 INTSINT labels of an utterance
last_2
P or
T
P
P
optimal_pred_mood
Utterance
mood
(e.g.
declarative,
interrogative, imperative) is obtained by an
automatic recognition task prior to dialogue
act recognition. Its predictors are: speaker
role, utterance duration and the last 2 and the
first 1, 2 and 3 INTSINT tags of the
intonational contour.
Particular utterance moods are
related to dialogue act types. An
automatically recognized mood
instead of the manually annotated is
used because this is more similar to
a real-world application
T/P
utt_duration
Utterance duration in milliseconds; it is not
normalized
Preliminary experiments show that
it might contribute to the
recognition of dialogue act type
P
speaker_role
Role of the speaker in the dialogue, either
System or User
obligations
Manually annotated tag for dialogue act on
the obligations plane of an utterance
obligations_minus1
commgr
commgr_minus1
Dialogue act tag (manually annotated) of
obligations in the utterance n-1, where n is
the utterance whose dialogue act is the target
Manually annotated tag for dialogue act on
the common ground plane of an utterance;
agreement and understanding tags are
concatenated as one single feature
Dialogue act tag (manually annotated) of
common ground in the utterance n-1, where n
is the utterance whose dialogue act is the
target
Statistical analyses show that
speaker_role is correlated to
dialogue act; e.g. System and
commit, User and action directive
It is used as target data in the
obligations recognition model and
as one of the predictors for the
common ground model
Its contribution as one of the
predictors for dialogue act is
evaluated
It is used as target in the common
ground recognition model and as
one of the predictors in the
obligations model
Its contribution as one of the
predictors for dialogue act is
evaluated
P
T/P
P
T/P
P
Table 1. Data dictionary of the features involved in the prediction models
mood, utterance duration (in milliseconds) and
speaker role; besides, the obligations model
uses common ground dialogue act and the
common ground model uses the obligation
dialogue act. Table 2 presents the baseline
values, where accuracy is the percent of
correctly classified instances and kappa,
introduced by (Siegel and Castellan, 1988) and
(Carletta, 1996), is a consistency measurement
for manual (or automatic) tagging tasks.
Number of labels, instances to be annotated
and annotators determine a default agreement
value that might artificially increase the actual
inter-annotator agreement (or the model
accuracy), so the default agreement value is
computed and substracted. Kappa in Table 2
and in the other machine-learning models is
automatically computed by WEKA. Kappa of
manual annotations, except of utterance mood,
is computed by using Excel-style worksheets.
Utterance mood was first manually annotated
by one only human annotator and then
automatic recognition models were produced
using the manual tagging data as target.
227
Sergio R. Coria y Luis Alberto Pineda
Obligations
Comm. Ground
Acc. (%)
66.2500
68.4564
accuracy
(-0.1918)
and
a
improvement in kappa (+0.0409).
Kappa
0.58120
0.55510
Obligations
Comm. Ground
Table 2. Baseline values of recognition without
the previous act
Two classification trees were produced: one
for obligations, containing 155 rules and one
for common ground, containing 151 rules.
Each tree was generated and tested by the 10fold cross validation method. The complete
rule sets are available on demand.
Results in Table 3 show that accuracy and
kappa of obligations recognition when using
the previous dialogue act as one of the
predictors are greater than their baselines: the
improvement is +5.658 in accuracy and
+0.0791 in kappa. Regarding common ground
recognition, there is a marginal decreasing in
1
2
3
4
5
Kappa
71.9080
68.2646
0.6603
0.5960
Confidence and support values were
computed for every if-then rule in the two
trees. Confidence is computed as (a-b)/a, and
support as a/n, where a is the number of cases
where the rule premise occurs, b is the number
of non-satisfactory cases and n is the total
number of instances in the data set, i.e. 1,043
utterances. Tables 4 and 5 present the 5 rules
with highest supports in each model.
In the rules, the no-tag value represents that
an utterance does not have a tag associated to a
dialogue act feature, e.g. rule 1 in Table 4,
where the utterance expresses a dialogue act on
the obligations but not on the common ground.
Features that do not contribute to the
classification task are not present in the rules
because they are automatically discarded by
J48.
In the obligations plane model, the most
important feature for dialogue act classification
is the complementary dialogue act, i. e.
commgr.
Results and evaluation
Rule ID
Acc. (%)
Table 3. Accuracies and kappas of recognition
models
Dialogue act annotation was formatted and
processed in order to manage utterances with
more than one tag on any expression plane;
e.g. if the tagging contains affirm and accept,
involving that the utterance simultaneously
affirms and accepts, then it is concatenated as
affirm_accept. Other instances are: inforequest_graph-action or hold_repeat-rephrase.
4
marginal
Rule
IF commgr=no-tag AND
commgr_minus1=accept AND
utt_duration<=5792, THEN info-request
IF commgr=graph-action AND
obligations_minus1=commit, THEN inforequest_graph-action
IF commgr=accept AND
speaker_role=system AND
obligations_minus1=action-dir, THEN
commit
IF commgr=hold_repeat-rephr, THEN inforequest
IF commgr=accept AND speaker_role=user
AND commgr_minus1=graph-action, THEN
answer
a
b
Confidence
Support
90
52
42.2
8.6
72
1
98.6
6.9
71
19
73.2
6.8
54
1
98.1
5.2
51
0
100.0
4.9
Table 4. The five rules with highest support for obligations prediction
228
Prediction of Dialogue Acts on the Basis of the Previous Act
Rule ID
1
2
3
4
5
Rule
IF obligations=commit, THEN accept
IF obligations=info-request AND
speaker_role=system, THEN hold_repeatrephr
IF obligations=info-request_graph-action,
THEN graph-action
IF obligations=answer AND
commgr_minus1=graph-action, THEN
accept
IF obligations=answer AND
commgr_minus1=hold_repeat-rephr, THEN
accept
a
112
b
3
Confidence
97.3
Support
10.7
99
47
52.5
9.5
98
2
98.0
9.4
56
5
91.1
5.4
48
7
85.4
4.6
Table 5. The five rules with highest support for common ground prediction
satisfactory F measures are: info-request_graph-
Table 6 presents the features ranking
according to their presence in the rule set.
Features with higher percents are associated to
a higher contribution to the classification task
because they have a higher discriminative
capability.
Feature
commgr
commgr_minus1
obligations_minus1
speaker_role
first_3
utt_duration
first_2
optimal_pred_mood
action, info-request_graph-action_answer, answer,
commit and offer. In the common ground model,
these are: graph-action and offer_conv-open.
Feature
obligations
commgr_minus1
first_3
speaker_role
obligations_minus1
utt_duration
first_2
last_2
% of Rules
100.0
51.0
29.0
26.5
17.4
9.0
5.2
2.6
% of Rules
100.0
91.4
27.8
22.5
11.9
9.9
7.9
2.0
Table 7. Presence of features in the common
ground model rules
Table 6. Presence of features in the obligations
model rules
5
In the common ground model, also the
complementary dialogue act (i.e. obligations)
is the most contributing feature, as can be seen
in Table 7. Optimal_pred_mood is not a
contributing feature in this model.
Recognition rate per class is evaluated by
three ratios: recall, precision and F measure.
Recall is the number of cases actually
belonging to a class divided by the number of
cases of that class recognized by the model;
precision is the number of cases of a class
recognized by the model divided by the
number of cases actually belonging to it. F
measure is computed as 2x((Precision x
Recall)/(Precision + Recall)). F measure is
satisfactory if it is greater than or equal to 0.8.
In the obligations acts model, classes with
Conclusions
The dialogue act from the previous utterance
as one of the predictors is useful to improve
the accuracy (+5.6 percent points) in the
obligations recognition. The recognition of
common ground dialogue acts is not benefited
from this setting.
An automatic recognition process might be
implemented by taking advantage of a twosteps recognition, where the dialogue act from
one of the two expression planes can be
recognized by a lexical-based algorithm and
then this dialogue act can be used as one of the
inputs for the recognition of the dialogue act
on the complementary plane by a classification
tree; i.e. to use obligations as one of the inputs
for common ground or vice versa.
229
Sergio R. Coria y Luis Alberto Pineda
Garrido, J.M. 1996. Modelling Spanish
Intonation for Text-to-Speech Applications.
Doctoral Dissertation. Departament de
Filologia Espanyola, Universitat Autònoma
de Barcelona, Spain.
A model for automatic recognition of
dialogue acts is useful to implement dialogue
management systems by providing information
that complements the speech recognition
processes.
Hirst, D., A. Di Cristo and R. Espesser. 2000.
Levels of representation and levels of
analysis for the description of intonation
systems. In M. Horne (ed) Prosody: Theory
and Experiment (Kluwer, Dordrecht).
Acknowledgments
The authors thank the anonymous
reviewers of this paper. Sergio Coria also
thanks Varinia Estrada for annotations and
valuable comments, and CONACyT and
DGEP-UNAM for support to this work.
Navarro-Tomás, T. 1974. Manual de
entonación española. New York: Hispanic
Institute, 2ª edición corregida, 1948 .México: Colección Málaga, 3ª edición,
1966. - Madrid: Guadarrama (Punto
Omega, 175), 4ª edición, 1974.
References
Allen, J. and M. Core. 1997. Draft of DAMSL:
Dialog Act Markup in Several Layers. Informe técnico, The Multiparty Discourse
Group. University of Rochester, Rochester,
USA, October.
Pineda, L. 2007. The DIME Corpus.
Department of Computer Science, Institute
of Applied Mathematics and Systems.
National Autonomous University of
Mexico.
http://leibniz.iimas.unam.mx/~luis/DIME/C
ORPUS-DIME.html
Beckman, M.E., M. Diaz-Campos, J. TevisMcGory, and T.A. Morgan. 2002.
Intonation across Spanish, in the Tones and
Break Indices framework. Probus 14, 9-36.
Walter de Gruyter.
Pineda, L., V. Estrada and S. Coria. 2006. The
Obligations and Common Ground Structure
of Task Oriented Conversations. In
Proceedings of X Iberoamerican Artificial
Intelligence
Conference,
Iberamia,
Ribeirao Preto, Brazil, October.
Breiman, L., J.H. Friedman, R.A. Olshen and
C.J. Stone. 1983. Classification and
Regression Trees. Pacific Grove, CA:
Wadsworth & Brooks, USA.
Bunt, H. 1994. Context and Dialogue Control.
THINK Quarterly.
Shriberg, E., R. Bates, A. Stolcke, P. Taylor,
D. Jurafsky, K. Ries, N. Coccaro, R.
Martin, M. Meteer, and C. Van
EssDykema. 1998. Can Prosody Aid the
Automatic Classification of Dialog Acts in
Conversational Speech? Language and
Speech 41(3-4), Special Issue on Prosody
and Conversation, 439-487, USA.
Bunt, H. 1995. Dynamic interpretation and
dialogue theory. The structure of
multimodal dialogue, ed. by M. M. Taylor,
F. Neel, and D. G. Bouwhuis. Amsterdam.
John Benjamins
Carletta, Jean. 1996. Assessing agreement on
classification tasks: the kappa statistic.
Computational Linguistics, 22(2):249-254.
Siegel, S. and N.J. Castellan, Jr.
Nonparametric Statistics for the Behavioral
Sciences. McGraw-Hill, second edition,
1988.
Coria, S. and L. Pineda. 2006. Predicting
Dialogue Acts from Prosodic Information.
In Proceedings of the Seventh International
Conference on Intelligent Text Processing
and Computational Linguistics, CICLing
(Mexico City), February.
Wahlster,
W.
1993.
VERBMOBIL:
Translation of Spontaneous Face-to-Face
Dialogs. In Proceedings of the 3rd
EUROSPEECH, pp. 29-38, Berlin,
Germany.
Cuétara, J. 2004. Fonética de la ciudad de
México. Aportaciones desde las tecnologías
del habla. Tesis para obtener el título de
Maestro en Lingüística Hispánica. Maestría
en Lingüística Hispánica, Posgrado en
Lingüística,
Universidad
Nacional
Autónoma de México.
Witten, I. and E. Frank. 2000. Data Mining.
Practical Machine Learning Tools and
Techniques with Java Implementations.
Morgan-Kauffman
Publishers.
San
Francisco, CA. USA: 89-97.
230
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 231-238
recibido 18-05-2007; aceptado 22-06-2007
Adaptación de un Gestor de Diálogo Estadı́stico a una Nueva
Tarea∗
David Griol, Lluı́s F. Hurtado, Encarna Segarra, Emilio Sanchis
Departament de Sistemes Informàtics i Computació
Universitat Politècnica de València. E-46022 València, Spain
{dgriol,lhurtado,esegarra,esanchis}@dsic.upv.es
Resumen: En este artı́culo se presenta una aproximación para adaptar una metodologı́a estadı́stica de gestión de diálogo al contexto de un nuevo dominio. El modelo
de diálogo, que se aprende automáticamente a partir de un corpus de datos, se basa
en la utilización de un proceso de clasificación para determinar la siguiente respuesta del sistema. Esta metodologı́a se ha aplicado previamente en el desarrollo de un
sistema de diálogo hablado que proporciona información sobre trenes. Se resume la
aproximación y el trabajo que se está realizando actualmente para utilizarla en el
desarrollo de un sistema de diálogo para la reserva de instalaciones deportivas.
Palabras clave: Adaptación, Gestión de Diálogo, Modelos Estadı́sticos, Sistemas
de Diálogo
Abstract: In this paper, we present an approach for adapting a statistical methodology for dialog management within the framework of a new domain. The dialog
model, that is automatically learned from a data corpus, is based on the use of a
classification process to generate the next system answer. This methodology has been previously applied in a spoken dialog system that provides railway information.
We summarize this approach and the work that we are currently carrying out to
apply it for developing a dialog system for booking sports facilities.
Keywords: Adaptation, Dialog Management, Statistical Models, Dialog Systems
1.
Introducción
La utilización de técnicas estadı́sticas para el desarrollo de los diferentes módulos
que componen un sistema de diálogo tiene
un interés creciente durante los últimos años
(Young, 2002). Estas aproximaciones suelen
basarse en modelar los diferentes procesos de
forma probabilı́stica y estimar los parámetros correspondientes a partir de un corpus
de diálogos.
La motivación para entrenar modelos estadı́sticos a partir de datos reales es clara.
Los avances en el campo de los sistemas de
diálogo hacen que los procesos de diseño, implementación y evaluación de las estrategias
de gestión del diálogo sean cada vez más complejos, lo que ha posibilitado que el foco de
interés de la comunidad cientı́fica se desplace
de forma creciente de los métodos empı́ricos
a las técnicas basadas en modelos aprendidos
a partir de datos. Estos modelos pueden en∗
Este trabajo se ha desarrollado en el marco del proyecto EDECÁN subvencionado por el MEC y FEDER número TIN2005-08660-C04-02, la ayuda de la
GVA ACOMP07-197 y el Vicerectorat d’Investigació,
Desenvolupament i Innovació de la UPV.
ISSN: 1135-5948
trenarse a partir de diálogos reales, pudiendo
modelar la variabilidad en los comportamientos de los usuarios. Aunque la construcción y
parametrización del modelo depende del conocimiento experto del dominio del sistema,
el objetivo final es desarrollar sistemas con un
comportamiento más robusto, con mayor facilidad de portabilidad, escalables y que presenten un mayor número de ventajas de cara
a su adaptación al usuario o a nuevos dominios.
Este tipo de metodologı́as se han aplicado tradicionalmente dentro de los campos de
reconocimiento automático del habla y comprensión semántica del lenguaje (Segarra et
al., 2002), (He y Young, 2003), (Esteve et
al., 2003). La aplicación de metodologı́as estadı́sticas para modelar el comportamiento
del gestor de diálogo está proporcionando resultados interesantes en años más recientes
(Williams y Young, 2007), (Lemon, Georgila,
y Henderson, 2006), (Torres, Sanchis, y Segarra, 2003).
En este último campo, hemos desarrollado
recientemente una aproximación para gestionar el diálogo utilizando un modelo estadı́sti-
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
David Griol, Lluís F. Hurtado, Encarna Segarra y Emilio Sanchis
explicación detallada del modelo del diálogo
puede consultarse en (Hurtado et al., 2006).
El objetivo propuesto fue que el gestor de
diálogo generase turnos de sistema basándose únicamente en la información suministrada por los turnos de usuario y la información
contenida en el modelo. Una descripción formal del modelo estadı́stico propuesto es la
siguiente:
Representamos el diálogo como una secuencia de pares (turno de sistema, turno de
usuario):
co aprendido a partir de un corpus de diálogos etiquetado (Hurtado et al., 2006). Este
trabajo se ha llevado a cabo en el dominio
del proyecto DIHANA (Benedı́ et al., 2006).
La tarea que se consideró para este proyecto
fue el acceso telefónico a un sistema que proporciona información sobre horarios, precios,
tiempos de recorrido, tipos de trenes y servicios en español. Para este proyecto se adquirió un corpus de 900 diálogos utilizando
la técnica del Mago de Oz. El corpus se etiquetó en forma de actos de diálogo con la
finalidad de entrenar el modelo de diálogo.
En este artı́culo se presenta el trabajo que
estamos realizando actualmente para adaptar
esta metodologı́a con el objetivo de desarrollar un gestor de diálogo en el ámbito de un
nuevo proyecto denominado EDECÁN (Lleida et al., 2006). El objetivo definido para este
proyecto es incrementar la robustez de un sistema de diálogo hablado mediante el desarrollo de tecnologı́as que posibiliten su adaptación y personalización a diferentes contextos
acústicos o de aplicación.
La tarea que hemos seleccionado en el
marco del proyecto EDECÁN es el desarrollo de un sistema de reservas de instalaciones
deportivas para la Universitat Politècnica de
València. Los usuarios pueden preguntar por
la disponibilidad de instalaciones, realizar la
reserva o cancelación de pistas deportivas o
conocer las reservas actuales que tienen disponibles. A partir de un corpus de diálogos
persona-persona se ha diseñado un gestor de
diálogo inicial para esta tarea, cuya evaluación se presenta en este trabajo.
El artı́culo se estructura de la siguiente
forma. La sección 2 resume la metodologı́a
de gestión de diálogo desarrollada para el
proyecto DIHANA. La sección 3 describe la
adaptación de esta metodologı́a en el marco
del proyecto EDECÁN, ası́ como la definición de la semántica de la tarea. La sección
4 presenta los resultados de la evaluación del
gestor de diálogo desarrollado. Finalmente, la
sección 5 resume brevemente las conclusiones
del trabajo presentado y describe el trabajo
futuro.
2.
(A1 , U1 ), · · · , (Ai , Ui ), · · · , (An , Un )
donde A1 es el turno de bienvenida del sistema, y Un es el turno correspondiente a la
última intervención del usuario. Denotamos
el par (Ai , Ui ) como Si , el estado de la secuencia del diálogo en el instante i.
El objetivo del gestor de diálogo en el instante i es seleccionar la mejor respuesta del
sistema. Para realizar esta selección, que es
un proceso local, se tiene en cuenta la historia previa del diálogo, es decir, la secuencia
de estados de diálogo que precedieron al instante i:
Âi = argmax P (Ai |S1 , · · · , Si−1 )
Ai ∈A
donde el conjunto A contiene todas las posibles respuestas contempladas para el sistema.
Dado que el número de posibles secuencias
de estados es muy grande, definimos una estructura de datos con la finalidad de establecer una partición en el espacio de secuencias
de estados, es decir, en la historia del diálogo
que precede al instante i.
Esta estructura de datos, que denominamos Registro de Diálogo (Dialog Register,
DR), contiene los conceptos y atributos proporcionados por el usuario a lo largo de la
historia previa del diálogo. Mediante la utilización del DR, deja de tenerse en cuenta el
orden en el que el usuario ha proporcionado la información, y la selección de la mejor
respuesta del sistema se realiza mediante la
siguiente maximización:
Gestión de diálogo en el
proyecto DIHANA
Âi = argmax P (Ai |DRi−1 , Si−1 )
En el ámbito del proyecto DIHANA se ha
desarrollado un gestor de diálogo basado en la
modelización estadı́stica de las secuencias de
actos de usuario de sistema y de usuario. Una
Ai ∈A
El último estado (Si−1 ) se tiene en cuenta
para la selección de la respuesta del sistema
232
Adaptación de un Gestor de Diálogo Estadístico a una Nueva Tarea
Figura 1: Esquema del gestor de diálogo desarrollado para el proyecto DIHANA
Conceptos
Hora
Precio
Tipo-Tren
Tiempo-Recorrido
Servicios
dado que un turno de usuario puede proporcionar información no contenida en el DR,
pero que es importante para decidir la próxima respuesta del sistema. Este es el caso de
la información independiente de la tarea (actos de diálogo Afirmación, Negación y NoEntendido).
La selección de la respuesta del sistema se
lleva a cabo a través de un proceso de clasificación, en el cual se utiliza un perceptrón
multicapa (MLP). La capa de entrada recibe
la codificación del par (DRi−1 , Si−1 ). La salida generada por el perceptrón puede verse
como la probabilidad de seleccionar cada una
de las 51 respuestas de sistema diferentes que
se definieron para la tarea DIHANA.
La Figura 1 muestra el funcionamiento
práctico del gestor de diálogo desarrollado
para DIHANA. Los frames generados por el
módulo de comprensión tras cada intervención del usuario y la última respuesta proporcionada por el sistema se utilizan para generar el par (DRi−1 , Si−1 ). La codificación de
este par constituye la entrada del perceptrón
multicapa que proporciona la probabilidad de
seleccionar cada una de las respuestas definidas en DIHANA, dada la situación del diálogo representada por este par.
2.1.
Atributos
Origen
Destino
Fecha-salida
Fecha-Llegada
Hora-Salida
Hora-Llegada
Clase
Tipo-tren
Número-Orden
Servicios
Figura 2: Registro del diálogo (DR) definido
para la tarea DIHANA
sistema en lenguaje natural. Sin embargo, la
única información necesaria para determinar
la siguiente acción del sistema es la presencia o no de conceptos y atributos. Por tanto,
la información que almacena el DR es una
codificación de cada uno de sus campos en
términos de tres valores, {0, 1, 2}, de acuerdo
con el siguiente criterio:
0: El usuario no ha suministrado el concepto o valor del atributo correspondiente.
1: El concepto o atributo está presente
con una medida de confianza superior a
un umbral prefijado (un valor entre 0 y
1). Las medidas de confianza se generan
durante los procesos de reconocimiento
y comprensión (Garcı́a et al., 2003).
Representación del Registro
del Diálogo
Para la tarea DIHANA, el DR se ha definido como una secuencia de 15 campos, cada
uno de ellos asociado a un determinado concepto o atributo semántico. La secuencia de
campos de conceptos y de atributos se muestra en la Figura 2.
Para que el gestor de diálogo determine la
siguiente respuesta, asumimos que no son significativos los valores exactos de los atributos.
Estos valores son importantes para acceder a
la base de datos y construir la respuesta del
2: El concepto o atributo está presente
con una medida de confianza inferior al
umbral.
De este modo, cada DR puede representarse como una cadena de longitud 15 cuyos
elementos pueden tomar valores del conjunto
{0, 1, 2}.
233
David Griol, Lluís F. Hurtado, Encarna Segarra y Emilio Sanchis
3.
Gestión de diálogo en el
proyecto EDECÁN
Como resultado de la consulta a la base
de datos se verifica que existe una única
pista que cumple los requerimientos del
usuario. El sistema debe confirmar que
todo es correcto para proceder finalmente con la reserva.
Una de las tareas que se han definido en el
contexto del proyecto EDECÁN consiste en
el diseño de un interfaz oral para informar y
realizar reservas de instalaciones deportivas
en nuestra universidad. La principal diferencia entre este tarea y la definida para el proyecto DIHANA radica en el tratamiento que
se lleva a cabo de la información proporcionada por el usuario. En el dominio del sistema de diálogo desarrollado para DIHANA se
proporcionaba únicamente información relativa a las consultas requeridas por el usuario,
no modificándose en ningún instante la información almacenada en la base de datos del
sistema. En la tarea EDECÁN se incorporan
nuevas funcionalidades que suponen la modificación de la información almacenada en las
bases de datos de la aplicación, por ejemplo,
tras la reserva o cancelación de una pista deportiva.
El módulo definido en la arquitectura del
sistema EDECÁN para gestionar la información referente a la aplicación, que se ha denominado Gestor de la Aplicación (Application
Manager, AM), realiza dos funciones fundamentales. En primer lugar, gestiona las consultas a la base de datos de la aplicación. En
segundo lugar, verifica que la consulta requerida por el usuario cumple la normativa definida por la Universidad para la gestión de las
pistas deportivas (por ejemplo: un usuario no
puede reservar más de una pista deportiva al
dı́a, un usuario sancionado no puede realizar
reservas, etc.).
De este modo, el resultado proporcionado
por el AM debe tenerse en cuenta para generar la siguiente respuesta del sistema. Por
ejemplo, a la hora de reservar una pista deportiva (ej. una pista de tenis) pueden ocurrir
un conjunto de situaciones:
Si se comprueba que hay disponibles dos
o más pistas que cumplen las exigencias
del usuario, el sistema debe verificar cuál
de ellas desea reservarse.
Para tener en cuenta la información proporcionada por el AM para la selección de
la próxima respuesta del sistema, hemos considerado que se requieren dos etapas. En la
primera etapa, la información contenida en
el DR y el último estado Si−1 se tienen en
cuenta para seleccionar la mejor consulta a
realizar al AM (Â1i ):
Â1i = argmax P (Ai |DRi−1 , Si−1 )
A1i ∈A1
donde A1 es el conjunto de posibles consultas
al AM.
En la segunda fase, se genera la respuesta
final del sistema (Â2i ) teniendo en cuenta Â1i
y la información proporcionada por el AM
(AMi ):
Â2i = argmax P (Ai |AMi , A1i )
A2i ∈A2
donde A2 es el conjunto de posibles respuestas del sistema.
La Figura 3 muestra el esquema propuesto
para el desarrollo del gestor de diálogo para
el proyecto EDECÁN, detallándose las dos
etapas descritas para la generación de la respuesta final del sistema.
3.1.
Semántica de la tarea
La determinación de la semántica de la tarea EDECÁN se ha llevado a cabo teniendo
en cuenta las diferentes funcionalidades con
las que se desea dotar al sistema de reservas
y la información que se requiere para completarlas. Para realizar esta definición se ha
utilizado un conjunto de diálogos personapersona proporcionados por el personal del
Área de Deportes de la Universidad. De este modo, en estos diálogos han participado
usuarios que deseaban realmente realizar las
diferentes consultas que proporcionará el sistema automático.
Tras la consulta a la base de datos de
la aplicación se detecta que el usuario
está sancionado. El sistema debe informar al usuario que no podrá reservar pistas deportivas hasta que el periodo de
sanción haya finalizado.
Tras la consulta a la base de datos se
comprueba que no existen pistas que
cumplan los requerimientos expuestos
por el usuario, informando de ello el sistema.
234
Adaptación de un Gestor de Diálogo Estadístico a una Nueva Tarea
Figura 3: Esquema del gestor de diálogo propuesto para el proyecto EDECÁN
Rejection y Not-Understood).
Este conjunto de diálogos se ha ampliado
con nuevos diálogos generados por parte del
personal de nuestro grupo de investigación.
Para la generación de estos diálogos, se ha
llevado a cabo la simulación del comportamiento del sistema por parte de un sistema,
de forma similar a la técnica del Mago de Oz.
En estos diálogos se han incorporado intervenciones en las que se pide la confirmación
de atributos y conceptos mencionados durante el diálogo. En total se dispone de un corpus de 150 diálogos (873 turnos de usuario).
La Figura 4 muestra un ejemplo de uno de
los diálogos que conforman el corpus descrito. El conjunto de diálogos se ha etiquetado
mediante una representación en forma de actos de diálogo, que definen la semántica de la
tarea.
Se han definido un total de seis atributos, relativos a la información que debe aportar el usuario para completar las diferentes
consultas contempladas por el sistema. Los
atributos definidos son el deporte que se desea practicar (Sport), el horario para el que
se desea la consulta (Hour), la fecha (Date),
el tipo de pista polideportiva (Court-Type),
el identificador de pista (Court-Number) y el
número de orden correspondiente a la pista
que se desea reservar (Order-Number).
A continuación se muestra un ejemplo de
la interpretación semántica de una intervención del usuario:
Turno de usuario:
Quiero reservar una pista de squash para mañana
por la tarde
Interpretación semántica:
(Booking)
Sport: squash
Date: mañana
Hour: tarde
3.1.1.
Etiquetado de los turnos de
usuario
Para el caso de los turnos de usuario, los
actos de diálogo se corresponden con la interpretación semántica de la intervención del
usuario mediante frames (atributos y conceptos). Para la tarea EDECÁN se han definido
un total de siete conceptos:
3.1.2.
Etiquetado de los turnos de
sistema
El etiquetado de los turnos de sistema se
ha realizado de forma similar al de las intervenciones del usuario. Los conceptos definidos pueden clasificarse igualmente en dependientes de la tarea e independientes de la
misma. Se han detallado un total de 18 conceptos dependientes de la tarea:
Se han contemplado un total de cuatro
conceptos dependientes de la tarea, correspondientes a los tipos de consultas
que puede solicitar el usuario: conocer
la disponibilidad de pistas (Availability),
realizar una reserva (Booking), conocer
las reservas que tiene vigentes (Booked)
o cancelar alguna de ellas (Cancellation).
Conceptos utilizados para informar al
usuario del resultado de una determinada consulta: sobre disponibilidad de pistas (Availability), sobre la realización de
Se han definido tres conceptos independientes de la tarea, análogos a los utilizados en la tarea DIHANA (Acceptance,
235
David Griol, Lluís F. Hurtado, Encarna Segarra y Emilio Sanchis
S1: Bienvenido al sistema de información del Área de Deportes. ¿En qué puedo ayudarle?
U1: Quiero reservar una pista de pádel exterior para el miércoles que viene.
S2: ¿A qué hora desea jugar?
U2: A las 3 de la tarde.
S3: El dı́a 23 de mayo a las 15:00 dispone de la pistas 1 y 4 de pádel. ¿Cuál de ellas desea reservar?
U3: La pista 1 por favor.
S4: Le reservo la pista 1 de pádel para el miércoles 23 de mayo a las 15:00. ¿Desea algo más?
U4: Sı́, querı́a liberar una pista que tenia para mañana.
S5: ¿Desea anular la pista de pádel del dı́a 21 de mayo a las siete de la tarde?
U5: Sı́.
S6: Le anulo la pista solicitada. ¿Desea algo más?
U6: No gracias.
S7: Gracias por utilizar el sistema de información del Área de Deportes. Adiós.
Figura 4: Ejemplo de diálogo para la tarea EDECÁN
una reserva (Booking), sobre las reservas
actuales del usuario (Booked) o sobre la
anulación de una reserva (Cancellation).
Date: 25-06-2007
Hour: 20:00-20:30
Court-Type: pabellón
Court-Number:1
Conceptos definidos para requerir al
usuario los atributos necesarios para una
determinada consulta: deporte (Sport),
fecha (Date), hora (Hour) y tipo de pista (Court-Type).
3.2.
Representación de las fuentes
de información
La representación definida para el par de
entrada (DRi−1 , Si−1 ) es la siguiente:
Conceptos utilizados para la confirmación de conceptos (Confirmation-Availability, Confirmation-Booking, Confirmation-Booked, Confirmation-Cancellation) y de atributos (ConfirmationSport, Confirmation-Date, Confirmation-Hour, Confirmation-CourtType).
La codificación de los actos de diálogos
correspondientes a la última respuesta
generada por el sistema (Ai−1 ): Esta información se modela mediante una variable, que posee tantos bits como posibles
respuestas del sistema diferentes se han
detallado para el sistema (29).
Conceptos relativos al AM: infracción
de la normativa de reservas (Rule-Info)
o indicación de la necesidad de seleccionar alguna de las pistas disponibles
(Booking-Choice).
x1 = (x11 , x12 , x13 , · · · , x129 ) ∈ {0, 1}29
Registro del diálogo (DR): El DR definido para la tarea EDECÁN almacena
un total de diez caracterı́sticas, correspondientes a los cuatro conceptos y seis
atributos dependientes de la tarea que se
han detallado para realizar el etiquetado
de las intervenciones del usuario (Figura
5). Análogamente a la tarea DIHANA,
cada una de estas caracterı́sticas pueden
tomar los valores {0, 1, 2}. De este modo,
cada uno de los conceptos y atributos del
DR puede modelarse utilizando una variable con tres bits.
Se han definido un total de seis atributos, correspondientes a los cinco detallados
para el etiquetado de los turnos de usuario (Sport, Court-Type, Court-Number, Date,
Hour) y un atributo relativo al número de
pistas que satisfacen los requerimientos del
usuario (Availability-Number).
Seguidamente se muestra un ejemplo del
etiquetado de una respuesta del sistema:
Turno de Sistema:
¿Le reservo la pista de squash 1 del pabellón para
el 25 de junio de 20:00 a 20:30?
Etiquetado:
(Confirmation-Booking)
Sport: squash
xi = (xi1 , xi2 , xi3 ) ∈ {0, 1}3 i = 2, ..., 11
236
Adaptación de un Gestor de Diálogo Estadístico a una Nueva Tarea
Conceptos
Availability
Booking
Booked
Cancellation
Atributos
Sport
Court-Type
Court-Number
Date
Hour
Order-Number
De este modo, la respuesta generada por el
AM se ha modelado con una variable de cinco bits, que activan cada una de estas cinco
situaciones:
AM = (x1 , x2 , x3 , x4 , x5 ) ∈ {0, 1}5
4.
Figura 5: Registro del diálogo definido para
la tarea EDECÁN
Evaluación
A partir del etiquetado del corpus de
diálogos persona-persona, y aplicando la
adaptación expuesta en el artı́culo, se ha desarrollado un gestor de diálogo en el contexto
del proyecto EDECÁN.
Para realizar el entrenamiento de los MLP,
se utilizó un software desarrollado en nuestro
grupo de investigación. Se extrajo un subconjunto de validación (20 %) de cada uno de los
conjuntos de test. Los MLP se entrenaron utilizando el algoritmo de Backpropagation con
momentum. La mejor topologı́a fue dos capas
ocultas con 100 y 10 neuronas respectivamente.
La evaluación se llevó a cabo mediante
un proceso de validación cruzada. En cada
una de las experimentaciones, el corpus se
dividió aleatoriamente en cinco subconjuntos. Cada evaluación, de este modo, consistió en cinco experimentaciones. En cada una
de ellas se utilizó un subconjunto diferente
de los cinco definidos como muestras de test,
y el 80 % del corpus restante se utilizó como partición de entrenamiento. Para evaluar
el funcionamiento del gestor desarrollado se
han definido tres medidas:
Información independiente de la tarea
(actos de diálogo Acceptance, Rejection y Not-Understood): Estos tres actos
de diálogo se han codificado de forma
idéntica a las caracterı́sticas almacenadas en el DR. De esta forma, cada uno
de estos tres actos de diálogo puede tomar los valores {0, 1, 2} y modelarse utilizando una variable con tres bits.
xi = (xi1 , xi2 , xi3 ) ∈ {0, 1}3 i = 12, ..., 14
De este modo, la variable (DRi−1 , Si−1 )
puede representarse mediante el vector de 14
caracterı́sticas:
(DRi−1 , Si−1 ) = (x1 , x2 , x3 , · · · , x14 )
La respuesta generada por el AM se ha codificado teniendo en cuenta el conjunto de posibles respuestas existentes en el corpus tras
llevar a cabo una consulta al AM. Este conjunto engloba las diferentes situaciones que
puede comportar una consulta al AM desarrollado para EDECÁN y contempladas en
el corpus persona-persona:
Porcentaje de respuestas que coinciden
con la respuesta de referencia anotada
en el corpus ( %exacta).
Porcentaje de respuestas que son coherentes con el estado actual del diálogo
( %correcta).
Caso 1: El AM no ha intervenido en la
generación de la respuesta final del sistema, por ejemplo, cuando se selecciona
la confirmación de un atributo, la determinación del cierre del diálogo, etc.
Porcentaje de respuestas que no son
compatibles con el estado actual del
diálogo ( %error), provocando el fallo
del diálogo.
Casos 2-4: Tras una consulta a la base de
datos, el AM proporciona como respuesta que no existen pistas que cumplan los
requerimientos del usuario (caso 2), existe una única pista (caso 3) o existe más
de una pista disponible (caso 4).
Estas dos últimas medidas se han obtenido tras una revisión manual de las respuestas proporcionadas por el gestor. La Tabla 1
muestra los resultados obtenidos de la evaluación del gestor.
Los resultados obtenidos tras la experimentación muestran que el gestor de diálogo
se adapta correctamente a los requerimientos
Caso 5: El AM advierte que la consulta del usuario no puede efectuarse por
incumplir la normativa establecida en la
Universidad.
237
David Griol, Lluís F. Hurtado, Encarna Segarra y Emilio Sanchis
%exacta
%correcta
%error
72,9 %
86,7 %
4,5 %
pus in Spanish: DIHANA. En Proc. of
LREC’06, Genove.
Esteve, Y., C. Raymond, F. Bechet, y R. De
Mori. 2003. Conceptual Decoding for
Spoken Dialog systems. En Proc. of EuroSpeech’03, páginas 617–620.
Tabla 1: Resultados de la evaluación del gestor de diálogo desarrollado
Garcı́a, F., L.F. Hurtado, E.Sanchis, y E. Segarra. 2003. The incorporation of Confidence Measures to Language Understanding. En Proc. of TSD’03, páginas 165–
172, Ceské Budejovice.
de la nueva tarea, proporcionando un 86,7 %
de respuestas que son coherentes con el estado actual del diálogo, coincidiendo un 72,9 %
con la respuesta de referencia anotada en el
corpus.
El porcentaje de respuestas proporcionadas por el gestor que puede causar el fallo
del diálogo es considerable (4,5 %). Asimismo, el 8,8 % restante de respuestas no incluidas en las tres medidas anteriores suponen
que el diálogo pueda continuar, pero no son
coherentes con el estado actual del diálogo
(como por ejemplo, solicitar información de
la que ya se dispone actualmente). Mediante
la ampliación del corpus inicial de diálogos se
espera poder reducir ambos porcentajes.
5.
He, Yulan y S. Young. 2003. A data-driven
spoken language understanding system.
En Proc. of ASRU’03, páginas 583–588.
Hurtado, L.F., D. Griol, E. Segarra, y E. Sanchis. 2006. A Stochastic Approach for
Dialog Management based on Neural Networks. En Proc. of InterSpeech’06, Pittsburgh.
Lemon, O., K. Georgila, y J. Henderson.
2006. Evaluating Effectiveness and Portability of Reinforcement Learned Dialogue Strategies with real users: the
TALK TownInfo Evaluation. En Proc. of
SLT’06, Aruba.
Conclusiones
En este artı́culo se ha presentado el proceso seguido para adaptar una metodologı́a
estadı́stica para la gestión de diálogo con el
objetivo de interactuar en un sistema con
un dominio diferente. Este tipo de metodologı́as permiten una fácil adaptación, siendo
su comportamiento dependiente de la calidad
y tamaño del corpus disponible para aprender su modelo. A partir de un corpus inicial
de diálogos se ha desarrollado un gestor con
buenas prestaciones y con la posibilidad de
mejorar el modelo inicial mediante la incorporación de nuevos diálogos.
Actualmente estamos trabajando en el
desarrollo de los diferentes módulos que compondrán el sistema de diálogo EDECÁN con
la finalidad de llevar a cabo la adquisición
de un corpus de diálogos con usuarios reales.
Esta adquisición se va a realizar de manera
supervisada, utilizando para ello el gestor de
diálogo presentado en este trabajo. Los diálogos adquiridos servirán para realizar la mejora del modelo de diálogo inicial.
Lleida, E., E. Segarra, M.I. Torres, y
J. Macı́as-Guarasa. 2006. EDECÁN: sistEma de Diálogo multidominio con adaptación al contExto aCústico y de AplicacióN. En Proc. IV Jornadas en Tecnologia
del Habla, páginas 291–296, Zaragoza.
Segarra, E., E. Sanchis, M. Galiano,
F. Garcı́a, y L. Hurtado. 2002. Extracting Semantic Information Through
Automatic Learning Techniques. International Journal on Pattern Recognition
and Artificial Intelligence, 16(3):301–307.
Torres, F., E. Sanchis, y E. Segarra. 2003.
Development of a stochastic dialog manager driven by semantics. En Proc. EuroSpeech’03, páginas (1):605–608.
Williams, J. y S. Young. 2007. Partially
Observable Markov Decision Processes for
Spoken Dialog Systems. En Computer
Speech and Language 21(2), páginas 393–
422.
Bibliografı́a
Young, S. 2002. The Statistical Approach to
the Design of Spoken Dialogue Systems.
Informe técnico.
Benedı́, J.M., E. Lleida, A. Varona, M.J. Castro, I. Galiano, R. Justo, I. López, y A. Miguel. 2006. Design and acquisition of a telephone spontaneous speech dialogue cor238
Traducción Automática
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 241-248
recibido 03-05-2007; aceptado 22-06-2007
Un método de extracción de equivalentes de traducción a partir
de un corpus comparable castellano-gallego ∗
Pablo Gamallo Otero
Dept. de Lı́ngua Espanhola
Univ. de Santiago de Compostela
[email protected]
José Ramom Pichel Campos
Dept. de Tecnologia Linguı́stica da
Imaxin|Software
Santiago de Compostela, Galiza
[email protected]
Resumen: Los trabajos sobre extracción de equivalentes de traducción a partir de
corpus comparables no-paralelos no han sido muy numerosos hasta ahora. La razón
principal radica en los pobres resultados obtenidos si los comparamos con los enfoques que utilizan corpus paralelos y alineados. El método propuesto en este artı́culo,
basado en el uso de contextos semilla generados a partir de diccionarios bilingües
externos, obtiene tasas de precisión próximas a los métodos con corpus paralelos.
Estos resultados apoyan la idea de que la ingente cantidad de corpus comparables
disponibles via Web puede llegar a ser una fuente importante de conocimiento lexicográfico. En este artı́culo, se describen los experimentos realizados sobre un corpus
comparable castellano-gallego.
Palabras clave: extracción de léxico multilingüe, corpus comparables, traducción
automática
Abstract: So far, research on extraction of word translations from comparable,
non-parallel corpora has not been very popular. The main reason was the poor
results when compared to those obtained from aligned parallel corpora. The method
proposed in this paper, relying on seed contexts generated from external bilingual
dictionaries, allows us to achieve results similar to those from parallel corpus. In this
way, the huge amount of comparable corpora available via Web can be viewed as
a never-ending source of lexicographic information. In this paper, we desbribe the
experiments performed on a comparable, Spanish-Galician corpus.
Keywords: multilingual lexical extraction, comparable corpora, automatic translation
1.
Introducción
En las dos últimas décadas, han aparecido
numerosos trabajos centrados en la extracción automática de léxicos bilingües a partir
de corpus paralelos (Melamed, 1997; Ahrenberg, Andersson, y Merkel, 1998; Tiedemann,
1998; Kwong, Tsou, y Lai, 2004). Estos trabajos comparten una estrategia común: organizan primero los textos en pares de segmentos alineados para luego, en base a este alineamento, calcular las coocurrencias de palabras en cada par de segmentos. En algunos
de estos experimentos, la precisión alcanzada
al nivel de la palabra es muy alta: alrededor
del 90 % para un recall del 90 %. Desgraciadamente, no hay todavı́a disponible una gran
cantidad de texto paralelo, especialmente en
lo que se refiere a lenguas minorizadas. Pa∗
Este trabajo ha sido subvencionado por el Ministerio de Educación y Ciencia a cargo del proyecto
GARI-COTER, ref: HUM2004-05658-D02-02
ISSN: 1135-5948
ra evitar este problema, en los últimos años
se han desarrollado técnicas de extracción de
léxicos bilingues a partir de corpus comparables no-paralelos. Estas técnicas parten de la
idea de que la Web es un enorme recurso de
textos multilingües fácilmente organizados en
corpus comparables no-paralelos. Un corpus
comparable no-paralelo (de aquı́ en adelante
“corpus comparable”) está formado por textos en dos lenguas que, sin ser traducciones
unos de otros, versan sobre temáticas parecidas. Sin embargo, la tasa de precisión de
tales métodos es todavı́a bastante inferior a
la de los algoritmos de extracción de corpus
paralelos. Los mejores registros hasta ahora
apenas alcanzan el 72 % (Rapp, 1999), y ello,
sin dar cuenta de la cobertura alcanzada.
En este artı́culo, proponemos un nuevo
método de extracción de léxicos bilingües a
partir de corpus comparables. Este método
se basa en el uso de diccionarios bilingües
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Pablo Gamallo y José Ramom Pichel Campos
generación automática de relaciones semánticas (Grefenstette, 1994; Lin, 1998) no utilizan contextos definidos en forma de ventanas
de palabras sino en forma de dependencias
sintácticas. En este artı́culo, presentaremos
un método de extracción de léxicos bilingües
basado en la previa identificación de contextos léxico-sintácticos bilingües, y no en el uso
de ventanas de palabras semilla, habitual en
los trabajos más representativos del estado
del arte.
Existen otros enfoques relacionados con la
extracción de léxicos bilingües en corpus comparables que no requieren el uso de diccionarios externos (Fung, 1995; Rapp, 1995; Diab
y Finch, 2001). Sin embargo, (Fung, 1995)
obtiene resultados muy pobres lo que restringe enormemente sus potenciales aplicaciones, (Rapp, 1995) tiene graves limitaciones
computacionales, y (Diab y Finch, 2001) sólo
ha sido aplicado a corpus monolingües. Por
último, cabe mencionar el enfoque descrito en
(Gamallo y Pichel, 2005; Gamallo, 2007), que
utiliza pequeños fragmentos de corpus paralelos como base para la extracción de contextos
semilla.
con el propósito de identificar correspondencias bilingües entre pares de contextos léxicosintácticos. A parte de los diccionarios, se
utilizará para el mismo propósito la identificación de cognados en los textos comparables. La extracción del léxico bilingüe se realizará tomando en cuenta las coocurrencias
de lemas mono y multi-léxicos en los contextos bilingües previamente identificados. Los
resultados obtenidos mejoran el 72 % de precisión para una cobertura del 80 %, lo que supone un avance en el área de la extracción en
corpus comparables. Estos resultados apoyan
la idea de que la ingente cantidad de corpus
comparables disponibles via Web puede llegar a ser una fuente casi inagotable de conocimiento lexicográfico.
El artı́culo se organiza como sigue. En la
sección 2, situaremos nuestro enfoque con respecto a otros trabajos relacionados. La sección 3 describirá con detalle las diferentes etapas del método propuesto. Seguidamente, en
4, analizaremos los experimentos realizados
para un corpus castellano-gallego, y describiremos un protocolo de evaluación de los
resultados. Acabaremos con una sección de
conclusiones.
3.
2.
Trabajo relacionado
Descripción de la estrategia
Nuestra estrategia se divide en tres etapas secuenciales: (1) procesamiento textual,
(2) creación de una lista de contextos semilla
por medio de la explotación de diccionarios
bilingües y de la identificación de cognados, y
(3) extracción de los equivalentes de traducción a partir de textos comparables usando
como anclas la lista de contextos semilla.
No existen muchos trabajos cuyo enfoque
sea la extracción de léxicos bilingües en corpus comparables, en relación a los que usan
textos paralelos y alineados. El método más
eficiente, y en el que se basan la mayorı́a
de los pocos trabajos en el área (Fung y
McKeown, 1997; Fung y Yee, 1998; Rapp,
1999; Chiao y Zweigenbaum, 2002), se puede describir como sigue: la palabra o multipalabra w1 es una traducción candidata de
w2 si las palabras que coocurren con w1 dentro de una ventana de tamaño N son traducciones de las palabras que coocurren con
w2 dentro de la misma ventana. Esta estrategia se fundamenta, por tanto, en una lista de pares de palabras bilingües (llamadas
palabras semilla), previamente identificadas
en un diccionario bilingüe externo. En resumen, w1 puede ser una traducción candidata
de w2 si ambas tienden a coocurrir con las
mismas palabras semilla. El principal problema de este método es que, según la hipótesis
de Harris (Harris, 1985), las ventanas de tamaño N son semánticamente menos precisas
que los contextos locales de naturaleza léxicosintáctica. Las técnicas más eficientes para la
3.1.
Procesamiento del corpus
comparable
En primer lugar, lematizamos, etiquetamos y desambiguamos morfosintácticamente
el corpus comparable usando una herramienta de código abierto: Freeling (Carreras et
al., 2004). En el proceso de etiquetación, se
activa la identificación de nombres propios,
que pueden ser mono y pluriléxicos. Una vez
realizada esta tarea, se seleccionan potenciales dependencias sintácticas entre lemas con
una estrategia básica de reconocimiento de
patrones. Los determinantes son eliminados.
Cada dependencia sintáctica identificada se
descompone en dos contextos léxico-sintácticos complementarios. En el cuadro 1 se muestran algunos ejemplos. Dada una dependencia sintáctica identificada en el corpus, por
242
Un Método de Extracción de Equivalentes de Traducción a partir de un Corpus Comparable Castellano-Gallego
Dep. binarias
de (venta, azúcar)
robj (ratificar, ley)
lobj (ratificar, gobierno)
iobj contra(luchar, pobreza)
modAdj (entrenador, adecuado)
Contextos
< venta de [NOUN] >
< [NOUN] de azúcar >
< ratificar [NOUN] >
< [VERB] ley >
< gobierno [VERB] >
< [NOUN] ratificar >
< luchar contra [NOUN] >
< [VERB] contra pobreza >
< [NOUN] adecuado >
< entrenador [ADJ] >
Cuadro 1: Dependencias binarias y sus contextos léxico-sintácticos asociados.
pus comparable, por tanto, obtenemos lemas
multi-léxicos en las dos lenguas. Posteriormente, reducimos la lista de candidatos con
un filtro estadı́stico elemental que sólo retiene
aquellos candidatos con un grado de cohesión
elevado (medida SCP ). Seguimos una estrategia parecida a la descrita en (Silva et al.,
1999). Una vez constituida la lista de lemas
multi-léxicos, extraemos sus contextos léxicosintácticos de forma análoga a la empleada
arriba para los lemas mono-léxicos y los nombres propios.
ejemplo:
de (venta, azúcar) ,
extraemos dos contextos léxico-sintácticos: <
venta de [NOUN] >, donde NOUN representa al conjunto de nombres que pueden aparecer después de “venta de”, es decir, “azúcar”,
“producto”, “aceite”, etc., y por otro lado,
< [NOUN] de azúcar >, donde NOUN representa el conjunto de nombres que pueden
aparecer antes del complemento “de azúcar”:
“venta”, “importación”, “transporte”, etc.
La caracterización de los contextos se basa en la noción de co-requerimiento descrita en (Gamallo, Agustini, y Lopes, 2005).
Además de las dependencias preposicionales
entre nombres, también utilizamos la dependencia lobj, que representa la probable relación entre el verbo y el nombre que aparece
inmediatamente a su izquierda (left object);
robj es la relación entre el verbo y el nombre que aparece a su derecha (right object);
iobj prp representa la relación entre el verbo
y un nombre precedido de preposición. Por
último, modAdj es la relación entre un nombre y el adjetivo que lo modifica.
Los léxicos bilingües que nos proponemos
extraer no sólo se componen de lemas monoléxicos y nombres propios, sino también de
lemas multi-léxicos, es decir, de expresiones
con varios lexemas y un cierto grado de cohesión: “accidente de tráfico”, “cadena de televisión”, “dar a conocer”, etc. Para poder extraer este tipo de expresiones, realizamos una
segunda fase del procesamiento que consiste en identificar lemas multi-léxicos (que no
son nombres propios) y sus contextos. En esta tarea, utilizamos un extractor automático
básico, basado en la instanciación de patrones
morfo-sintácticos (e.g, NOUN-PRP-NOUN,
NOUN-ADJ, VERB-NOUN, etc.) que nos
permite identificar un gran número de candidatos. Este extractor se ejecuta en el cor-
3.2.
Generación de contextos
bilingües
La principal estrategia que utilizamos para la generación de contextos léxico-sintácticos bilingües se fundamenta en la explotación de diccionarios bilingües externos. Supongamos que en un diccionario castellanogallego la entrada castellana “venta” se traduce en gallego por “venda”, ambos nombres.
La generación léxico-sintáctica a partir de cada uno de estos nombres se lleva a cabo siguiendo reglas básicas como por ejemplo: un
nombre puede ir precedido de una preposición que a su vez es precedida de otro nombre o un verbo, puede ir después de un nombre o verbo seguidos de una preposición, o
puede ir antes o después de un adjetivo. Hemos centrado la generación en tres categorı́as:
nombres, verbos y adjetivos. Para cada categorı́a sintáctica, hemos generado únicamente
un subconjunto representativo de todos los
contextos generables. El cuadro 2 muestra los
contextos generados a partir de la correspondencia bilingüe entre “venta” y “venda” y un
conjunto limitado de reglas.
La generación se completa con la instanciación de prp. Para ello, empleamos una lista cerrada de preposiciones especı́ficas y sus
correspondientes traducciones. De esta ma243
Pablo Gamallo y José Ramom Pichel Campos
Castellano
<venta prp [NOUN]>
<[NOUN] prp venta>
<[VERB] venta>
<[VERB] prp venta>
<venta [VERB]>
<venta [ADJ]>
<[ADJ] venta>
Gallego
<venda prp [NOUN]>
<[NOUN] prp venda>
<[VERB] venda>
<[VERB] prp venda>
<venda [VERB]>
<venda [ADJ]>
<[ADJ] venda>
alta en el corpus mientras que el otro tiene
una frecuencia baja. Los umbrales de dispersión y asimetrı́a se establecen empı́ricamente
y pueden variar en función del tipo y tamaño
del corpus. Una vez filtrados los pares de contextos dispersos y asimétricos, nos queda una
lista reducida que llamamos contextos semilla. Esta lista será utilizada en el siguiente
proceso de extracción.
Cuadro 2: Contextos bilingües generados a
partir de la correlación “venta-venda”.
3.3.2. Algoritmo de extracción
Con el objetivo de extraer pares de lemas
bilingües, proponemos el siguiente algoritmo.
nera, obtenemos pares de contextos bilingües
como: <venta de [NOUN]> y <venda de
[NOUN]>, <venta en [NOUN]> y <venda
en [NOUN]>, etc.
Por otro lado, usamos otra estrategia complementaria, basada en la identificación de
cognados en los textos comparables. Llamamos aquı́ cognados a 2 palabras en lenguas
diferentes que se escriben de la misma manera. Sólo nos interesamos en aquellos que no se
encuentran en el diccionario bilingüe, y que
son, en su mayorı́a, nombres propios. Generamos los contextos léxico-sintácticos correspondientes y los juntamos a la lista de pares
de contextos bilingües.
Los pares bilingües generados por medio
de estas dos estrategias servirán de anclas o
referencias para marcar el corpus comparable
en el que se va a realizar la última etapa del
proceso de extracción.
3.3.
Dada una lista de pares de contextos semilla:
(a) para cada lema wi de la lengua fuente, se cuenta el número de
veces que éste instancia cada contexto semilla y se construye un vector de contextos con esa información;
(b) para cada lema wj de la lengua meta, se cuenta el número de
veces que éste instancia cada contexto semilla y se construye un vector de contextos con esa información;
(c) Calculamos la similitud
DICE entre pares de vectores:
DICE(wi , wj ); si wj está entre los
N más similares a wi , entonces seleccionamos wj como el candidato a
ser la traducción de wi .
Identificación de equivalentes
de traducción en el corpus
comparable
Veamos un ejemplo. El cuadro 3 ilustra algunas posiciones del vector de contextos asociado al nombre castellano “Bachillerato”. El
valor de cada posición (tercera columna en el
cuadro) representa el número de veces que el
nombre coocurre con el contexto en el corpus
comparable. Cada contexto del vector de la
entrada castellana tiene que tener su correlato gallego, pues forma parte de la lista de pares de contextos semilla. La primera columna
del cuadro representa el ı́ndice o posición del
contexto en el vector.
El cuadro 4, por su parte, muestra los valores asociados a las mismas posiciones en
el vector del nombre gallego “Bacharelato”.
Los contextos de la segunda columna son las
traducciones de los castellanos que aparecen
en el cuadro 3. Por ejemplo, en la posición
00198 de los dos vectores, aparecen los contextos: <estudio de [NOUN]> y <estudo de
La etapa final consiste en la extracción de
equivalentes de traducción con ayuda de los
pares de contextos bilingües previamente generados. Esta etapa se divide en dos procesos
secuenciales: filtrado de contextos y extracción de los equivalentes de traducción.
3.3.1. Filtrado
Dada la lista de pares de contextos bilingües generados en la etapa anterior, procedemos a la eliminación de aquellos pares con
un grado elevado de dispersión y asimetrı́a
en el corpus comparable. Un par bilingüe de
contextos se considera disperso si el número
de lemas diferentes que aparecen en los dos
contextos dividido por el número total de lemas de la categorı́a requerida es superior a
un determinado umbral. Por otro lado, un
par bilingüe se considera asimétrico si uno
de los contextos del par tiene una frecuencia
244
Un Método de Extracción de Equivalentes de Traducción a partir de un Corpus Comparable Castellano-Gallego
ı́ndice
00198
00234
00456
01223
02336
07789
08121
contexto
<estudio de [NOUN]>
<estudiante de [NOUN]>
<curso de [NOUN]>
<asignatura de [NOUN]>
<[NOUN] en Lugo>
<estudiar [NOUN]>
<cursar [NOUN]>
freq.
123
218
69
35
6
98
56
2006. El corpus castellano contiene 13 millones de palabras de artı́culos de La Voz de Galicia y El Correo Gallego. Por su parte, el corpus gallego contiene 10 millones de palabras
de artı́culos extraı́dos de Galicia-Hoxe, Vieiros y A Nosa Terra. La mayorı́a de los textos
gallegos están escritos respetando la normativa del 2003 de la Real Academia Galega,
dejando para otros proyectos corpus con ortografı́as convergentes con el portugués. Los
artı́culos recuperados cubren un amplio espectro temático: polı́tica regional, nacional e
internacional, cultura, deporte y comunicación.
Cuadro 3: Extracto del vector asociado al sustantivo español Bachillerato.
ı́ndice
00198
00234
00456
01223
02336
07789
08121
contexto
<estudo de [NOUN]>
<estudante de [NOUN]>
<curso de [NOUN]>
<materia de [NOUN]>
<[NOUN] en Lugo>
<estudar [NOUN]>
<cursar [NOUN]>
freq.
78
145
45
41
35
23
13
4.2.
El diccionario bilingue que hemos utilizado para generar los contextos semilla es el
empleado por el sistema de traducción automática de código abierto Opentrad, con el
motor de traducción Apertium (ArmentanoOller et al., 2006) para los pares castellanogallego. Nuestros experimentos tienen como
objetivo actualizar el diccionario, que contiene actualmente cerca de 30.000 entradas, para mejorar los resultados del traductor castellano-gallego, implantado en La Voz
de Galicia, sexto periódico en número de
lectores de España. Este proyecto se realizó en colaboración con el área de ingenierı́a
lingüı́stica de imaxin|software.
El número de contextos bilingües generados a partir de las entradas del diccionario es
de 539.561. A este número hay que sumarle aquellos contextos generados usando la estrategia de identificación de cognados en el
corpus que no se encuentran en el diccionario. Estos son 754.469. En total, consiguimos
1.294.030 contextos bilingües. Este número
se reduce drásticamente cuando pasamos el
filtro que elimina los que tienen un comportamiento disperso y asimétrico en el corpus
comparable. La lista final de contextos semilla es de: 127.604.
Cuadro 4: Extracto del vector asociado a la
nombre gallego Bacharelato.
[NOUN]>. Como forman un par de contextos semilla, tienen que aparecer en la misma
posición vectorial.
Tal y como muestran los cuadros 3 y 4, el
nombre gallego “Bacharelato” coocurre con
numerosos contextos que son traducciones de
los contextos con los que también coocurre el
nombre castellano “Bachillerato”. Para calcular el grado de similitud entre dos lemas,
w1 y w2 , utilizamos una versión del coeficiente Dice:
Dice(w1 , w2 ) =
2
i
El diccionario bilingue
mı́n(f (w1 , ci ), f (w2 , ci ))
f (w1 ) + f (w2 )
donde f (w1 , ci ) representa el número de
coocurrencias entre el lema w1 y el contexto ci . Como ya se ha dicho anteriormente,
los lemas pueden ser mono o multi-léxicos.
Para cada lema de la lengua fuente (castellano), seleccionamos los lemas de la lengua
meta (gallego) con el valor de similitud Dice
más alto, lo que los sitúa como sus posibles
traducciones. En nuestros experimentos “Bacharelato” es el lema gallego con el valor de
similitud más alto con respecto a “Bachillerato”.
4.3.
Evaluación
El protocolo de evaluación que elaboramos
sigue, en algunos aspectos, el de (Melamed,
1997), que fue definido para evaluar un método de extracción de léxicos a partir de corpus
paralelos. La precisión del léxico extraı́do se
calcula con respecto a diferentes niveles de
cobertura. En nuestro trabajo, la cobertura
se define poniendo en relación las entradas
del léxico y su presencia en el corpus compa-
4. Experimentos y evaluación
4.1. El corpus comparable
El corpus comparable se compone de noticias de diarios y semanarios on line, publicados desde finales de 2005 hasta finales de
245
Pablo Gamallo y José Ramom Pichel Campos
corresponden a léxicos compuestos por 9.798,
3.534 y 597 nombres, respectivamente. En
la categorı́a “Nombres” se incluyen nombres
propios mono y multi-léxicos. La precisión al
nivel del 90 % es relativamente baja (entre
50 y 60 por ciento) debido al elevado número
de nombres propios incluidos en el léxico y a
la dificultad de encontrar la correcta traducción de un nombre propio usando el método
propuesto.1 En la figura 1 ilustramos la evolución de la precisión (1 y 10) en función de
los tres niveles de cobertura. Con una cobertura del 80 %, la precisión es bastante aceptable: entre el 80 y el 90 por ciento. A este
nivel de cobertura, la frecuencia de las entradas evaluadas es ≥ 129. Se trata, por tanto,
de un nivel próximo al empleado en la evaluación de otros trabajos relacionados, donde se calculaba la precisión de palabras con
frecuencia ≥ 100. Sin embargo, en estos trabajos relacionados, las tasas de precisión son
sensiblemente inferiores: alrededor del 72 %
en los mejores casos (Rapp, 1999). Conviene
precisar aquı́ que el hecho de tener resultados aceptables sólo con palabras o lemas frecuentes no es un problema insalvable ya que,
al trabajar con corpus comparables, podemos
fácilmente incrementar el tamaño del corpus
y, con ello, el número de lemas que sobrepasen el umbral de la frecuencia 100. Por ejemplo, al incrementar nuestro corpus el doble
del tamaño inicial, conseguimos obtener 1/3
más de lemas con una frecuencia superior a
100.
Con respecto a los adjetivos y verbos, resalta la disparidad en los resultados. Mientras
la precisión para los verbos roza el 100 % al
rable. En particular, la cobertura se calcula
sumando las frecuencias en el corpus de las
ocurrencias de los lemas que forman el léxico
extraı́do, y dividiendo el resultado por la suma de las frecuencias de todos los lemas en el
corpus. El cálculo de la cobertura se hace separadamente para cada una de las categorı́as
gramaticales en estudio: nombres, verbos y
adjetivos. Y basta con calcularlo usando los
lemas y el corpus de la lengua fuente. De esta manera, decimos que el léxico extraı́do alcanza un nivel de cobertura del 90 % para los
nombres si, y sólo si, los nombres del léxico castellano (lengua fuente) tienen una frecuencia en el corpus que alcanza el 90 % de la
frecuencia de todos los nombres en el mismo
corpus.
Para calcular la precisión, fijamos una categorı́a gramatical y un nivel de cobertura
del léxico, y extraemos aleatoriamente 150
lemas-test de esa categorı́a. Calculamos, en
realidad, dos tipos de precisión: precisión-1
se define como el número de veces que la traducción candidata seleccionada en primer lugar es la correcta, dividido por el número de
lemas-test. Precisión-10 es el número de candidatos correctos que aparecen en la lista de
los 10 más similares de cada lema, dividido
por el número de lemas-test.
Hasta ahora, en los protocolos de evaluación de otros métodos de extracción de léxicos bilingües a partir de corpus comparables
no se habı́a definido ningún tipo de cobertura. La única información sobre las palabras o
lemas testados es su frecuencia absoluta. Es
decir, se testan palabras o lemas con una frecuencia mayor a N , donde N suele ser ≥ 100.
(Chiao y Zweigenbaum, 2002). El problema
reside en que las frecuencias absolutas, al ser
totalmente dependientes del tamaño del corpus de entrenamiento, no son útiles para comparar las tasas de precisión alcanzadas por
diferentes métodos. En nuestro trabajo, sin
embargo, la noción de nivel de cobertura intenta subsanar dicha limitación.
Buscamos la traducción de todo tipo de nombres
propios pues el diccionario bilingüe del traductor necesita esta información. El motor Apertium 1.0 no
integra todavı́a un detector de entidades.
Precision a 3 niveles de cobertura
100
precision
4.4.
1
Resultados
El cuadro 5 muestra los resultados de la
evaluación. Para cada una de las categorı́as
gramaticales, incluidos los nombres multiléxicos, y para cada nivel de cobertura (90 %,
80 %, y 50 %), calculamos los dos tipos de
precisión.
Con respecto a los nombres, los tres niveles de cobertura del 90, 80 y 50 por ciento
80
precision-1
60
precision-10
40
90
80
50
cobertura
Figura 1: Precisión de los nombres a 3 niveles
de cobertura
246
Un Método de Extracción de Equivalentes de Traducción a partir de un Corpus Comparable Castellano-Gallego
Categorı́a
Nombre
Nombre
Nombre
Adj
Adj
Adj
Verbo
Verbo
Verbo
N multi-lex
Cobertura
90 %
80 %
50 %
90 %
80 %
50 %
90 %
80 %
50 %
50 %
Precisión-1
55 %
81 %
95 %
61 %
81 %
94 %
92 %
97 %
100 %
59 %
Precisión-10
60 %
90 %
99 %
70 %
87 %
98 %
99 %
100 %
100 %
62 %
Tamaño del léxico
9798
3534
597
1468
639
124
745
401
86
2013
Cuadro 5: Resultados de la evaluación
80 % de cobertura, los adjetivos se sitúan entre el 81 y el 87 por ciento a ese mismo nivel.
Los problemas para tratar los adjetivos radican sobre todo en la dificultad del desambiguador morfosintáctico para distinguir entre
adjetivos y participios verbales. Un lema etiquetado como adjetivo por el desambiguador
castellano puede tener su traducción en gallego etiquetada como verbo. Con respecto a
la cobertura, en el 80 % el léxico de adjetivos
consta de 639 lemas y el de verbos de 401.
Los léxicos aprendidos para estas categorı́as
son, por tanto, relativamente pequeños, pero
el número puede y debe crecer con la explotación de más cantidad de corpus comparables.
Por último, evaluamos los lemas nominales multi-léxicos que no son nombres propios.
La precisión se sitúa en torno al 60 % para
una cobertura del 50 % del léxico. El principal problema relacionado con los lemas multiléxicos es su baja frecuencia en el corpus. Los
2.013 lemas evaluados a ese nivel de cobertura parten de frecuencias relativamente bajas,
≥ 40, lo que impide obtener resultados satisfactorios. Aún ası́, los resultados son sensiblemente mejores a los obtenidos por otros
trabajos similares con términos multipalabra
(Fung y McKeown, 1997), que no superan el
52 % de precisión para pequeños léxicos.2
5.
ta unos resultados que, sin llegar a las tasas
de precisión de los métodos basados en corpus paralelos, dejan claro que los corpus comparables pueden ser una fuente muy interesante de conocimiento lexicográfico. Y existe todavı́a un amplio margen para mejorar
los resultados. Dado que los corpus comparables crecen diariamente con el asombroso crecimiento de la Web, no resultarı́a complicado
actualizar e incrementar los léxicos bilingües
de forma incremental tomando en cuenta, en
cada actualización, sólo aquellos lemas que
juntos sumen una frecuencia, en los textos
de la lengua fuente, del 80 % de la frecuencia
total. Esta tarea de actualización incremental del léxico forma parte de nuestro trabajo
en curso. De esta manera, pretendemos aumentar y mejorar el diccionario bilingüe del
sistema de traducción Apertium.
Bibliografı́a
Ahrenberg, Lars, Mikael Andersson, y Magnus Merkel. 1998. A simple hybrid aligner for generating lexical correspondences in parallel texts. En 36th Annual
Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics (COLING-ACL’98), páginas 29–
35, Montreal.
Conclusiones
Armentano-Oller, Carme, Rafael C. Carrasco, Antonio M. Corbı́-Bellot, Mikel L.
Forcada, Mireia Ginestı́-Rosell, Sergio
Ortiz-Rojas, Juan Antonio Pérez-Ortiz,
Gema Ramı́rez-Sánchez, Felipe SánchezMartı́nez, y Miriam A. Scalco. 2006.
Open-source portuguese-spanish machine
translation. En Lecture Notes in Computer Science, 3960, páginas 50–59.
Hasta ahora no han sido muy numerosos
los trabajos sobre extracción a partir de corpus comparables no-paralelos. La principal
razón de esta escasez es, sin duda, la dificultad de conseguir resultados satisfactorios
con los que se puedan crear recursos útiles.
El método propuesto en este artı́culo presen2
Si bien, el trabajo de (Fung y McKeown, 1997)
tiene el mérito de extraer léxicos bilingües de dos lenguas muy dispares: inglés y japonés.
Carreras, X., I. Chao, L. Padró, y M. Padró.
2004. An open-source suite of language
247
Pablo Gamallo y José Ramom Pichel Campos
bilingual legal terminology from context
profiles. Terminology, 10(1):81–99.
analyzers. En 4th International Conference on Language Resources and Evaluation
(LREC’04), Lisbon, Portugal.
Lin, Dekang. 1998. Automatic retrieval and
clustering of similar words. En COLINGACL’98, Montreal.
Chiao, Y-C. y P. Zweigenbaum. 2002. Looking for candidate translational equivalents in specialized, comparable corpora.
En 19th COLING’02.
Melamed, Dan.
1997.
A portable algorithm for mapping bitext correspondences.
En 35th Conference of the
Association of Computational Linguistics (ACL’97), páginas 305–312, Madrid,
Spain.
Diab, Mona y Steve Finch. 2001. A statistical word-level translation model for comparable corpora. En Proceedings of the
Conference on Content-Based Multimedia
Information Access (RIAO).
Rapp, Reinhard. 1995. Identifying word
translations in non-parallel texts. En 33rd
Conference of the ACL’95, páginas 320–
322.
Fung, Pascale. 1995. Compiling bilingual lexicon entries from a non-parallel englishchinese corpus. En 14th Annual Meeting
of Very Large Corpora, páginas 173–183,
Boston, Massachusettes.
Rapp, Reinhard. 1999. Automatic identification of word translations from unrelated
english and german corpora. En ACL’99,
páginas 519–526.
Fung, Pascale y Kathleen McKeown. 1997.
Finding terminology translation from nonparallel corpora. En 5th Annual Workshop on Very Large Corpora, páginas 192–
202, Hong Kong.
Silva, J. F., G. Dias, S. Guilloré, y G. P.
Lopes. 1999. Using localmaxs algorithm
for the extraction of contiguous and noncontiguous multiword lexical units. En
Progress in Artificial Intelligence. LNAI,
Springer-Verlag, páginas 113–132.
Fung, Pascale y Lo Yuen Yee. 1998. An
ir approach for translating new words
from nonparallel, comparable texts. En
Coling’98, páginas 414–420, Montreal, Canada.
Tiedemann, Jorg. 1998. Extraction of translation equivalents from parallel corpora.
En 11th Nordic Conference of Computational Linguistics, Copenhagen, Denmark.
Gamallo, Pablo. 2007. Learning bilingual lexicons from comparable english and spanish corpora. En Machine Translation
SUMMIT XI, Copenhagen, Denmark.
Gamallo, Pablo, Alexandre Agustini, y Gabriel Lopes. 2005. Clustering syntactic positions with similar semantic requirements. Computational Linguistics,
31(1):107–146.
Gamallo, Pablo y José Ramom Pichel. 2005.
An approach to acquire word translations
from non-parallel corpora. En 12th Portuguese Conference on Artificial Intelligence
(EPIA’05), Evora, Portugal.
Grefenstette, Gregory. 1994. Explorations in
Automatic Thesaurus Discovery. Kluwer
Academic Publishers, USA.
Harris, Z. 1985. Distributional structure.
En J.J. Katz, editor, The Philosophy of
Linguistics. New York: Oxford University
Press, páginas 26–47.
Kwong, Oi Yee, Benjamin K. Tsou, y Tom B.
Lai. 2004. Alignment and extraction of
248
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 249-255
recibido 18-05-2007; aceptado 22-06-2007
Flexible statistical construction of bilingual dictionaries
Ismael Pascual Nieto
Universidad Autónoma de Madrid
Escuela Politécnica Superior
[email protected]
Mick O’Donnell
Universidad Autónoma de Madrid
Escuela Politécnica Superior
[email protected]
Resumen: La mayoría de los sistemas previos para construir un diccionario bilingüe a partir de un
corpus paralelo dependen de un algoritmo iterativo, usando probabilidades de traducción de palabras para alinear palabras en el corpus y sus alineamientos para estimar probabilidades de traducción, repitiendo hasta la convergencia. Si bien este enfoque produce resultados razonables, es
computacionalmente lento, limitando el tamaño del corpus que se puede analizar y el del diccionario producido. Nosotros proponemos una aproximación no iterativa para producir un diccionario
bilingüe unidireccional que, si bien menos precisa que las aproximaciones iterativas, es mucho
más rápida, permitiendo procesar córpora mayores en un tiempo razonable. Asimismo, permite
una estimación en tiempo real de la probabilidad de traducción de un par de términos, lo que significa que permite obtener un diccionario de traducción con los n términos más frecuentes, y calcular las probabilidades de traducción de términos infrecuentes cuando se encuentren en documentos
reales.
Palabras clave: diccionarios bilingües, modelos palabra-a-palabra, traducción automática estadística
Abstract: Most previous systems for constructing a bilingual dictionary from a parallel corpus
have depended on an iterative algorithm, using word translation probabilities to align words in the
corpus, and using word alignments to estimate word translation probabilities, and repeating until
convergence. While this approach produces reasonable results, it is computationally slow, limiting
the size of the corpus that can be analysed and the size of the dictionary produced. We propose a
non-iterative approach for producing a uni-directional bilingual dictionary which, while less
accurate than iterative approaches, is far quicker, allowing larger corpora to be processed in
reasonable time. The approach also allows on-the-fly estimation of translation likelihoods between
a pair of terms, meaning that a translation dictionary can be generated with the n most frequent
terms in an initial pass, and the translation likelihood of infrequent terms can be calculated as
encountered in real documents.
Keywords: bilingual dictionaries, word-to-word models, statistical machine translation
1
Introduction
Over the last 17 years, statistical models have
been used to construct bilingual dictionaries
from parallel corpora, with the goal of using the
dictionaries for tasks such as Machine
Translation or Cross-Lingual Information
Retrieval.
Most of these works have involved an
iterative method to construct the dictionary,
which start with an initial estimate of word
translation probability, use these probabilities to
align the words of the corpus, and then use the
word alignments to re-estimate word translation
ISSN: 1135-5948
probability. This approach cycles until
convergence. Followers of this approach
include Brown et al. (1990) Kay and
Röscheisen,
(1993);
Hiemstra,
(1996);
Melamed, (1997); Renders et al., (2003) and
Tufis, (2004).
However, the iterative approach is expensive
in computing time, requiring extensive
calculations on each iteration. Due to memory
limitations, these approaches usually restrict
consideration to the n most frequent terms in
each language.
In this paper, we propose a non-iterative
approach to building a uni-directional
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Ismael Pascual Nieto y Michael O'Donnell
a unidirectional dictionary, Hiemstra aimed to
compile a bi-directional dictionary. Hiemstra
claimed that the use of bidirectional dictionaries
not only reduces the space needed for
dictionary storage, but leads to better estimates
of translation probabilities2. His results improve
on those of IBM.
Melamed (1997) proposed an alternative
approach, which, while still iterative, required
the estimation of fewer parameters. Like the
IBM team, he used the HANSARDs corpus,
although using 300,000 aligned sentences. He
reports 90% precision in real domains.
A key concept in these models is the term
co-occurrence: two tokens u and v co-occur if u
appears in one part of an aligned sentence pair
and v appears in the other part.
In Melamed’s model, co-occurrence is
estimated through likelihood ratios, L(u,v), each
of which represents the likelihood that u and v
are mutual translations. The process estimating
these ratios is as follows:
1)
Provide an initial estimate of L(u,v)
using their co-occurrence frequencies.
2)
Use the estimate of L(u,v) to align the
words in the matched sentences of the
parallel corpus.
3)
Build a new estimate of L(u,v) using
the word alignments from step (2).
4)
Repeat steps (2) and (3) until
convergence occurs (no or little
change on each cycle).
Melamed aligns the terms in matched
sentences using a competitive linking algorithm,
which basically orders the L(u,v) values in
descending order, and taking these values in
turn, links the u and v terms in aligned
sentences. Linked terms are then disqualified
from linking with other relations.
This process also keeps count of the number
of links made between each u, v pair, and these
counts are used to re-estimate L(u,v).
translation dictionary. While our approach
initially produces dictionaries with lower
precision, this should be seen in relation to the
reduced time needed to build the dictionary.
Additionally, our approach supports on-the-fly
calculation of the translation suitability between
a pair of words. When aligning words in two
sentences and less frequent words are
encountered, an estimate of the translation
likelihood can be derived on the spot, avoiding
the need to pre-calculate all possible translation
likelihoods between the 76,000 unique terms in
our English corpus and the 130,000 unique
terms in our Spanish corpus.
The paper is organized as follows: Section 2
discusses the most representative iterative
approaches. Section 3 and 4 describes our
corpus, and how it is compiled into a word
lookup table. Section 5 describes the derivation
of our translation dictionaries. Section 6
evaluates the precision and recall of each of our
models. Section 7 presents our conclusions.
2
Iterative Approaches
The first published work outlining the
construction of bilingual dictionaries using
statistical methods was in Brown et al. (1990)1
at IBM. They used 40,000 aligned sentences
from the Canadian HANSARDs corpus
(parliament transcripts in English and French).
In their approach, the translation probability
between any pair of words is initially set as
equi-probable, as are the probabilities of each
relative sentence position of a word and its
translation. These probabilities are then used to
estimate the probability of each possible
alignment of the words in each sentence-pair.
These probability-weighted alignments are then
used to re-estimate the word-translation
probabilities as well as the relative position
probabilities. This approach cycles until
convergence occurs. They used the Expectation
Maximization (EM) algorithm.
Subsequent investigators found the IBM
approach too computationally complex
(requiring iterative re-estimation of 81 million
parameters), and the approach did not scale up
to larger parallel corpora. Various approaches
were tried to improve the performance.
Hiemstra (1996) attempted to reduce
complexity using a modified version of the EM
algorithm. While the goal of the IBM work was
3
Our corpus
We used the EUROPARL corpus (Kohen,
2005), consisting of transcripts of sessions of
the European Parliament between 1996 and
2003. Each transcript is provided in 11
languages. These transcripts are generally
constructed by translators, as each speaker
speaks in their native language. We used only
the English and Spanish sections of the corpus.
1
The first work of IBM on this was 1988, but it
was quite preliminar.
2
250
This reference is not in the reference list.
Flexible Statistical Construction of Bilingual Dictionaries
is the ratio of the joint probability of u and v
and the product of the marginal probabilities of
u and v, as can be seen in equation 1.
The corpus does not come in sentence
aligned form, although each transcript is
organised into speaker turns. We wrote
software to align the sentences within each
speaker turn, based on sequence in the turn, and
also on approximate correspondence in number
of words, similar to the approach of Gale and
Church (1993). Sentences which could not be
aligned were discarded. This gave us 730,191
correctly aligned sentences, roughly 20 million
words in each language.
4
(1)
Basically, if u and v are not related, this ratio
should approach 1.0. The stronger the cooccurrence between u and v, the higher the L
value. Substituting in estimates for the
probabilities, the formula can be re-expressed
as equation 2:
Compiling a Word Occurrence Index
One of our goals was to allow rapid calculation
of translation likelihood between any two terms
on the fly. This would not be possible if the
entire 40 million word corpus had to be
processed each time.
To alleviate this problem, we re-compiled
the corpus into an index such as used by web
search engines: a file is created for each unique
token, detailing each occurrence of the token:
the file-id (2 bytes) and sentence-id (2 bytes) of
the hit, the position of the token within the
sentence (1 byte), and the number of terms in
the sentence.
Once the index is compiled, it is possible to
derive various statistics rapidly. The frequency
of a token can be calculated quickly by dividing
the file size by 6 (the record size). The relative
co-occurrence of an English and Spanish term
can be calculated solely by comparing the index
files for those two terms. This allows us to
calculate the relative co-occurrence between
two terms on the fly, if we need to, rather than
having to process the entire corpus to find such
a result.
Kay and Röscheisen (1993) also build a
word lookup index, but only store the sentence
id.
5
P(u, v)
P(u ) ˜ P(v)
L(u, v)
n(u, v)
˜N
n(u ) ˜ n(v)
L(u, v)
(2)
where, n(u,v) is the co-occurrence frequency
of u,v, N is the total number of co-occurrences
and n(u) is the marginal frequency of u,
calculated as shown in equation by:
n(u )
¦ n(u, v)
(3)
v
5.1
Our Basic model
The inclusion of n(u) and n(v) in Melamed’s
formula basically require all values for all u and
v to be calculated at the same time, which
means one must decide beforehand which terms
will be included in the process. This excludes
the calculation of likelihood values for other
terms encountered while processing text, which
is one of our goals.
We thus use a modified formula which can
calculate the translation likelihood between a
given u and a given v independently of other
terms. Rather than asking what percent of all
co-occurrences involve u and v, we ask what
percent of sentence pairs contain u and v. In our
approach, P(u,v) represents the probability that
u occurs in a source sentence while v appears in
a target sentence. P(u) is the probability that u
will appear in a source sentence, and P(v) is the
probability that v will appear in the target
sentence.
The important point here is that we can now
estimate L(u,v) solely by looking at occurrences
of a given u and v, without needing to consider
the whole range of possible u/v co-occurrences.
A second change from Melamed’s approach
is that we desire a unidirectional dictionary. For
this reason, we instead use formula 4:
Compiling the Bilingual Dictionary
Melamed uses word co-occurrence scores only
as an initial estimate of translation suitability.
For our purposes, we have found that this initial
estimate, if handled properly, provides adequate
accuracy for many tasks, without the required
expense of the iterative recalculation of
translation probabilities through a word
alignment process. Our likelihood formula is
similar to that of Melamed’s although modified
to allow our method to work on the fly.
Melamed’s initial estimate of translation
likelihood of a source term u as a target term v
251
Ismael Pascual Nieto y Michael O'Donnell
L (v | u )
P (v | u )
P (v )
For efficiency reasons, we initially compute
the values of L(u,v) for the 5000 most frequent
tokens in English and Spanish. Any value less
than 2.0 is dropped.
We heuristically translate this co-occurrence
metric to a translation probability by assuming
that the probability of u being translated as v is
proportional to the size of the L value. Thus, for
each English term u, we collect all the Spanish
terms v which were not eliminated, and sum
their L values, and divide each by the sum,
using this as the translation probability of the
term.
Table 1 shows the highest 9 alternatives for
absolutely (another 16 were included in the
list). Several of the Spanish terms (shown in
italic) are present due to intra-language
collocation between absolutely and essential,
indispensable or crucial (the indirect
association problem mentioned by Melamed).
Removing these entries will be discussed
below.
(4)
where P(v|u) is the probability of
encountering v in a target sentence if u is in the
source sentence, and P(v) is the probability of
encountering v in a target sentence. As with
Melamed’s formula, if u and v are unrelated, the
L value will approach 1.0, and higher values
indicate a relation between them. A value of 2.0
indicates that v is twice as likely to occur if u is
in the corresponding sentence.
Given this simplification, we can calculate
L(u,v) as follows:
P (v | u )
P (v )
nS (u, v)
nS (v)
nS (v)
S
(5)
(6)
nS (u, v)
L (v | u )
L (v | u )
nS (u )
nS (v)
S
nS (u , v)
˜S
nS (v) ˜ nS (u )
English
absolutely
absolutely
absolutely
absolutely
absolutely
absolutely
absolutely
absolutely
absolutely
(7)
(8)
where ns(u,v) is the count of sentence-pairs
containing both u and v, ns(u) is the count of
sentence-pairs in which the source sentence
contains u, ns(v) is the count of sentence-pairs
in which the target sentence contains v, and S is
the total sentence count.
We make one further simplification to allow
faster calculation. Because only a small percent
of sentences will contain the same word more
than once, in the general case, the frequency of
a word, nw(u), will be quite close to nS(u).
Similarly, nw(v) will approximate nS(v). We thus
use nw(u) and nw(v) in place of nS(u) and nS(v).
The advantage of this approach is that the
frequency of each term is readily available: the
size of the index file for the term divided by the
record length.
We also choose to use n(u,v) to estimate
nS(u,v) and thus count the co-occurrences of u
and v in sentence pairs. This statistic can be
derived by scanning through the hit files for u
and v, counting cases where the terms appear in
the same sentence pair.
Spanish
absolutamente
absoluta
imprescindible
absoluto
indispensable
crucial
totalmente
esencial
increíble
L(v|u)
125.50
26.67
19.75
19.18
16.08
10.84
10.77
9.41
9.29
Prob
0.33
0.07
0.05
0.05
0.04
0.03
0.03
0.03
0.03
Table 1: Translation dictionary alternatives
5.2
Adjusted model
A problem arises with the above formula when
a term v nearly always occurs with term u. If
this is the case, P(v|u) will approach P(v), and
the L value will approach 1.0.
For this reason, we introduced the slightly
modified formula 9 for likelihood, which
instead contrasts those cases where v occurs
with u against those cases where v occurs
without u:
L (v | u )
P (v | u )
P(v | ™u )
(9)
This basically magnifies the likelihood
values, as previously the denominator was
diluted by cases where u and v co-occur.
However, the same interpretation is still valid:
252
Flexible Statistical Construction of Bilingual Dictionaries
if u and v are not related, the ratio will approach
1.0, while the stronger the correlation, the
higher the likelihood value.
5.3
6
Using the above methods, we produced four
translation dictionaries, using both the basic and
adjusted model, both with and without the
distance metric.
We then evaluated the quality of these
dictionaries against a gold-standard, G, a
handcrafted dictionary of 50 terms with humanjudged translations. The terms were taken from
random positions throughout the word
frequency list, and covering a range of syntactic
classes.
We then used G to evaluate each of the four
dictionaries. In terms of precision, for each
English term in G, we collected the correct
translations included in our dictionary, and
summed their probability estimates. We then
averaged the precision over the 50 terms in G.
Results for the 4 models are shown in Figure 1.
Our basic dictionary contains up to 25
translation candidates for each source term,
with the higher ones being more probable. This
list is good for some applications (e.g., word
alignment), but produces poor precision
(69.96% in the best case). Where precision is
important, e.g., for machine translation, we can
restrict the number of translation candidates.
We achieve 91.94% precision if we just
consider the top two candidates.
Using relative distance
By looking at translations between European
languages, it is easy to see that a source term
tends to appear in a similar relative position in
its sentence than its translation in the target
sentence.
The probabilistic model of Brown et al.
(1990) takes into account that a term in position
i in a source sentence will translate as a term in
position j in the target sentence with a given
probability, conditioned by the length of the
two sentences (l and m). These calculations
however depend on an iterative method, which
we are avoiding. It also requires large amounts
of data to obtain realistic estimates for possible
values of i, j, l and m.
We thus proposed a simple heuristic to
account for the relative position between two
terms. We penalise word co-occurrences in
relation to the relative distance between the
words in their respective sentences. Firstly,
given that the source and target sentences may
vary in length, we normalise the position of the
term in the sentence by dividing its position by
the length of the sentence. The relative distance
(dR) between the terms can then be calculated as
follows:
95
i j
l m
(10)
85
80
The closer this value is to 0.0 (no relative
distance), the more likely that the terms are
translations of each other.
When calculating the co-occurrence of a
source and target term, rather than just counting
1 each time the terms appear in the same
sentence-pair, we discount the increment by
subtracting the relative distance between terms,
e.g.
nS (v, u )
¦ ¦ 1 d
84,49
82,93
R
( pos(u), pos(v))
91,94
88,67
91,61
89,85
89,44
90
Precision
d R (i, j )
Evaluation
87,33
77,12
75
69,68
67,56
70
67,59
78,86
69,96
65
60
55,40
58,14
55
50
45
Basic
Basic + Dist
Adjusted
Adjusted + Dist
Model
Number o f Wo rds co nsidered
Top 2
Top 3
Top 10
Top 25
Figure 1: Precision results for
the four models
(11)
sSp u ,vs
where Sp is the set of aligned sentence pairs
and pos(u) is the absolute position of the term u
in the corresponding part of an aligned sentence
pair.
Basically, the further the two terms are away
from each other, the less it counts as a viable
co-occurrence. This heuristic step improves our
results, and the calculation is far simpler than
that used in the IBM work.
We calculate the recall of a dictionary entry
as the percentage of all the correct translations
of a term which are in our dictionary. The
global recall is then taken as the average over
all 50 words. Figure 2 shows our results, again
with various levels of cut-off. Our best result
was 68.44%, which is quite good considering
253
Ismael Pascual Nieto y Michael O'Donnell
many of the translations in the golden standard
were not used in the corpus.
70
67,17
68,44
68,44
67,17
However, when using our dictionary for
other tasks, such as automatic sentence
translation, the indirect associations will be a
problem.
For this reason, we have developed a
method to remove indirect associations from
our dictionary, a means which does not require
the expensive step of word-aligning the entire
corpus. We firstly derive collocation values
between words of the same language. We then
pass through our translation dictionary, and
whenever a translation of a term is also the
translation of a collocate of the term, the cooccurrence value is recalculated, using only
those cases where the collocate is not present.
We applied this process as a post-operation
on the translation dictionaries produced earlier.
Looking only at the adjusted+distance model
with 25 translations, removing indirect
associations increased precision from 69.96%
to 74.85%, a significant increase. Recall also
rose from 68.44% to 69.80%. See Figures 3 and
4.
65
60
Recall
55
50
49,99
49,99
50,77
50,77
30,61
30,61
45
40
35
29,92
30 25,56
25
29,92
25,84
25,56
25,84
20
Basic
Adjusted
Basic + Dist
Adj. + Dist.
Model
Number o f Wo rds co nsidered
Top 2
Top 3
Top 10
Top 25
Figure 2: Recall results for the four models
It is clear that including more terms in our
dictionary increases recall at the expense of
precision. The choice of how many terms to
include depends on the application, whether
precision or recall is more important.
In terms of assessing which of our 4 models
is best, it is clear that the adjusted formula and
the inclusion of distance penalties both improve
precision, and the distance metric improves
recall. Our best model is thus the
adjusted+distance one.
90
93,87
91,94
91,22
88,67
85
Precision
6.1
95
Removing Indirect Associations
81,52
78,86
80
72,73
75
69,96
One of Melamed’s main reasons for taking an
iterative approach is to remove false
translations due to collocations between source
terms. For instance, English absolutely is
frequently followed by essential, and for this
reason, absolutely has strong co-occurrence
with words which translate essential.
Melamed only uses co-occurrence values as
the basis for aligning words in sentences, and
the aligned words are then used to re-estimate
word translation probabilities. Since the true
translation of a word will generally have a
higher co-occurrence value than the false
translations, the collocation-induced mappings
will be dropped from the data.
One of the prime uses of our translation
dictionary is to support word alignment. When
used for this purpose, the presence of indirect
associations in our dictionary is generally not a
problem, because the term with a direct
association will be the preferred alignment
choice.
70
65
Adjusted + Dist
Adj.+ Dist Corrected
Model
Number of Words considered
Top 2
Top 3
Top 10
Top 25
Figure 3: Adjusted+distance model with and
without collocation correction: Precision
254
Flexible Statistical Construction of Bilingual Dictionaries
Gale, W.A. and K.W. Church. 1993. A program
for aligning sentences in bilingual corpora.
Computational Linguistics, 19(1):75–102.
69,80
68,44
70
65
60
50,77
Recall
55
51,71
Hiemstra, D. 1996. Using statistical methods to
create a bilingual dictionary. Master Thesis.
University of Twente.
50
45
40
30,61
35
30
25,84
31,25
Kay, M., M. Röscheisen. 1993. TextTranslation Alignment. Computational
Linguistics 19(1): 121-142.
25,48
25
20
Adj. + Dist.
Adj. + Dist. Corrected
Koehn, P. 2005. Europarl: A parallel corpus for
Statistical
Machine
Translation.
In:
Proceedings of the 10th Machine Translation
Summit, Phuket, Thailand, pp. 79–86.
Model
Number of Wo rds co nsidered
Top 2
Top 3
Top 10
Top 25
Figure 4: Adjusted+distance model with and
without collocation correction: Recall.
7
Melamed, I.D. 1997. A word-to-word model of
translational equivalence. In Proceedings of
the 35th Annual Meeting of the Association
for Computational Linguistics, Madrid,
Spain, pp. 490–497
Conclusions and future work
In this paper, we proposed an approach to
building bilingual dictionaries from a parallel
corpus which avoids the computational
complexity of the iterative approaches. The
approach allows calculation of translation
likelihood of pair of words without needing to
consider other words at the same time, as in
Melamed’s approach. This makes the approach
suitable for on-the-fly estimation of translation
likelihood of a pair of words encountered
during tasks such as aligning words in parallel
sentences.
To avoid the problem of indirect association,
we propose a method to eliminate such effects
from the likelihood table without needing to
word-align the corpus.
While our levels of precision and recall are
not as high as the iterative approaches, the
speed and flexibility of our approach makes it a
viable candidate for cases where computation
time is an issue, or where building larger
dictionaries in realistic timeframes is required.
In terms of the various models we have
experimented with, we found that our adjusted
model, using P(v|u)/P(v|¬u), gave higher
precision than the more pure likelihood
measure: P(v|u)/P(v). Also, including distance
penalties improved both approaches.
Renders, J.-M., H. Déjean and É. Gaussier.
2003. Assessing automatically extracted
bilingual lexicons for CLIR in vertical
domains. Lecture Notes in Computer
Science 2785, C. Peters, M. Braschler, J.
Gonzalo and M. Kluck Editors, SpringerVerlag: Berlin, pp. 363–371.
Tufis, D. and A.M. Barbu and R. Ion. 2004.
Extracting multilingual lexicons from
parallel corpora. Computers and the
Humanities, 38(2):163–189.
References
Brown, P.F., J. Cocke, S. A. Della Pietra, V. J.
Della Pietra, F. Jelinek, J. D. Lafferty, R. L.
Mercer and P. S. Roossin. 1990. A statistical
approach
to
Machine
Translation.
Computational Linguistics, 16(2):79–85.
255
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 257-264
recibido 15-05-2007; aceptado 22-06-2007
Training Part-of-Speech Taggers to build Machine Translation
Systems for Less-Resourced Language Pairs
Felipe Sánchez-Martı́nez, Carme Armentano-Oller,
Juan Antonio Pérez-Ortiz, Mikel L. Forcada
Transducens Group
Departament de Llenguatges i Sistemes Informàtics
Universitat d’Alacant
E-03071 Alacant, Spain
{fsanchez,carmentano,japerez,mlf}@dlsi.ua.es
Resumen: Este articulo revisa el empleo de un método no supervisado para la
obtención de desambiguadores léxicos categoriales para su empleo dentro del ingenio
de traducción automática (TA) de código abierto Apertium. El método emplea
el resto de módulos del sistema de TA y un modelo de la lengua destino de la
traducción para la obtención de desambiguadores léxicos categoriales que después
se usan dentro de la plataforma de TA Apertium para traducir. Los experimentos
realizados con el par de lenguas occitano–catalán (un caso de estudio para pares
de lenguas minorizadas con pocos recursos) muestran que la cantidad de corpus
necesario para el entrenamiento es reducida comparado con los tamaños de corpus
habitualmente usados con otros métodos de entrenamiento no supervisado como el
algoritmo de Baum y Welch. Esto hace que el método sea especialmente apropiado
para la obtención de desambiguadores léxicos categoriales para su empleo en TA
entre pares de lenguas minorizadas. Además, la calidad de traducción del sistema
de TA que utiliza el desambiguador léxico categorial resultante es comparativamente
mejor.
Palabras clave: traducción automática, lenguas minorizadas, desambiguación
léxica categorial, modelos ocultos de Markov
Abstract: In this paper we review an unsupervised method that can be used to
train the hidden-Markov-model-based part-of-speech taggers used within the opensource shallow-transfer machine translation (MT) engine Apertium. This method
uses the remaining modules of the MT engine and a target language model to obtain part-of-speech taggers that are then used within the Apertium MT engine in
order to produce translations. The experimental results on the Occitan–Catalan
language pair (a case study of a less-resourced language pair) show that the amount
of corpora needed by this training method is small compared with the usual corpus
sizes needed by the standard (unsupervised) Baum-Welch algorithm. This makes
the method appropriate to train part-of-speech taggers to be used in MT for lessresourced language pairs. Moreover, the translation performance of the MT system
embedding the resulting part-of-speech tagger is comparatively better.
Keywords: machine translation, less-resourced languages, part-of-speech tagging,
hidden Markov models
1
Introduction
The growing availability of machine-readable
(monolingual and parallel) corpora has given
rise to the development of real applications such as corpus-based machine translation (MT). However, when MT involves lessresourced language pairs, such as Occitan–
Catalan (see below), the amount of monoISSN: 1135-5948
lingual or parallel corpora, if available, is
not enough to build a general-purpose opendomain MT system (Forcada, 2006). In these
cases the only realistic approach to attain
high performance in general translation is to
follow a rule-based approach, but at the expense of the large costs needed for building
the necessary linguistic resources (Arnold,
2003).
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Felipe Sánchez-Martínez, Carme Armentano-Oller, Juan Antonio Pérez-Ortiz y Mikel L. Forcada
rithm (Sánchez-Martı́nez, Pérez-Ortiz, and
Forcada, 2004b). Moreover, as the experimental results show, the amount of source
language text is small compared with corpus
sizes needed by the standard Baum-Welch
algorithm. Because of this, it may be said
that this training method is specially suited
to train part-of-speech taggers to be embedded in MT systems involving less-resourced
language pairs.
Carbonell et al. (2006) proposed a new
MT framework in which a large full-form
bilingual dictionary and a huge TL corpus
is used to carry out the translation; neither
parallel corpora nor transfer rules are needed.
The idea behind Carbonell’s paper and that
of the method we present here share the same
principle: if the goal is to get good translations into TL, let TL decides whether a given
“construction” in the TL is good or not. In
contrast, Carbonell’s method uses TL information at translation time, while ours uses
only TL information when training one module that is then used to carry out the translation; therefore, no TL information is used
by our method at translation time.
The rest of the paper is organized as follows: section 2 overviews the open-source
platform for building MT systems Apertium;
next, in section 3 the TL-driven training
method used to train the Occitan part-ofspeech tagger is introduced; section 4 shows
the experiments and the results achieved; finally in section 5 we discuss the method and
the results achieved.
In this paper we focus on the training
of the hidden Markov model (HMM)-based
part-of-speech taggers used by a particular open-source Occitan–Catalan MT system (Armentano-Oller and Forcada, 2006),
that has been built using Apertium, an opensource platform for building MT systems (see
section 2). Occitan–Catalan is an interesting example of a less-resourced language pair.
HMMs are a common statistical approach to
part-of-speech tagging, but they usually demand large corpora, which are seldom available for less-resourced languages.
Catalan is a Romance language spoken
by around 6 million people, mainly in Spain
(where it is co-official in some regions), but
also in Andorra (where it is the official language), in parts of Southern France and in
the Sardinian city of l’Alguer (Alghero).
Occitan, also known as lenga d’òc or
langue d’oc, is also a Romance language, but
with a reduced community of native speakers. It is reported to have about one million
speakers, mainly in Southern France, but also
in some valleys of Italy and in the Val d’Aran,
a small valley of the Pyrenees of Catalonia,
inside the territory of Spain. This last variety is called Aranese; all of the experiments
reported here have been performed with the
Aranese variety of Occitan.
Although Occitan was one of the main literary languages in Medieval Europe, nowadays it is legally recognized only in the Val
d’Aran, where it has a limited status of
cooficiality. In addition, Occitan dialects
have strong differences, and its standardization as a single language still faces a number of open issues. Furthermore, the lack
of general-purpose machine-readable texts restricts the design and construction of naturallanguage processing applications such as
part-of-speech taggers. The Apertium-based
Occitan–Catalan MT system (ArmentanoOller and Forcada, 2006) mentioned along
this paper has been built to translate into
the Occitan variety spoken in the Val d’Aran,
called Aranese, which is a sub-dialect of Gascon (one of the main dialects of Occitan).
When part-of-speech tagging is viewed as
an intermediate task for the translation process the use in a unsupervised manner of
target-language (TL) information, in addition to the source language (SL), has been
shown to give better results than the standard (also unsupervised) Baum-Welch algo-
2
Overview of Apertium
Apertium1 (Armentano-Oller et al., 2006;
Corbı́-Bellot et al., 2005) is an open-source
platform for developing MT systems, initially
intended for related language pairs. The
Apertium MT engine follows a shallow transfer approach and may be seen as an assembly
line consisting of the following modules (see
figure 1):
• A de-formatter which separates the text
to be translated from the format information (RTF and HTML tags, whitespace, etc.). Format information is encapsulated so that the rest of the modules treat it as blanks between words.
1
The MT engine, documentation, and linguistic
data for different language pairs can be downloaded
from http://apertium.sf.net.
258
Training Part-of-Speech Taggers to build Machine Translation Systems for Less-Resourced Language Pairs
SL text
and apostrophations (e.g.
l’institut=el+institut).
de-formatter
morphological
analyzer
postgenerator
• A re-formatter which restores the format information encapsulated by the deformatter into the translated text.
part-of-speech
tagger
structural
transfer
Catalan
Modules use text to communicate, which
makes it much easier to diagnose or modify
the behavior of the system.
lexical
transfer
morphological
generator
2.1
Linguistic data and compilers
The Apertium MT engine is completely independent from the linguistic data used for
translating between a particular pair of languages.
Linguistic data is coded using XML-based
formats;3 this allows for interoperability, and
for easy data transformation and maintenance. In particular, files coding linguistic data can be automatically generated by
third-party tools.
Apertium provides compilers to convert
the linguistic data into the corresponding efficient form used by each module of the engine. Two main compilers are used: one for
the four lexical processing modules (morphological analyzer, lexical transfer, morphological generator, and post-generator) and another one for the structural transfer. The
first one generates finite-state letter transducers (Garrido-Alenda, Forcada, and Carrasco, 2002) which efficiently code the lexical data; the last one uses finite-state machines to speed up pattern matching. The
use of such efficient compiled data formats
makes the engine capable of translating tens
of thousands of words per second in a current
desktop computer.
re-formatter
TL text
Figure 1: Modules of the Apertium shallowtransfer MT platform (see section 2).
• A morphological analyzer which tokenizes the SL text in surface forms and
delivers, for each surface form, one or
more lexical forms consisting of lemma,
lexical category and morphological inflection information.
• A part-of-speech tagger which chooses,
using a first-order hidden Markov model
(HMM) (Cutting et al., 1992), one of the
lexical forms corresponding to an ambiguous surface form. This is the module
whose training is discussed in section 3.
• A lexical transfer module which reads
each SL lexical form and delivers the corresponding TL lexical form by looking it
up in a bilingual dictionary.
• A structural shallow transfer module
(parallel to the lexical transfer) which
uses a finite-state chunker to detect patterns of lexical forms which need to be
processed for word reorderings, agreement, etc., and then performs these operations.2
3
Target-language-driven
part-of-speech tagger training
• A post-generator which performs orthographic operations such as contractions (e.g.
Spanish del=de+el )
This section overviews the TL-driven training method that has been used to unsupervisedly train the HMM-based Occitan part-of-speech tagger used within the
Apertium-based Occitan–Catalan MT system (Armentano-Oller et al., 2006). For a
deeper description we refer the reader to papers by Sánchez-Martı́nez et al. (SánchezMartı́nez, Pérez-Ortiz, and Forcada, 2004b;
2
This describes Apertium Level 1, used for the experiments in this paper; in Apertium Level 2, currently being used for less-related pairs, a three-stage
structural transfer is used to perform inter-chunk operations.
3
The XML formats (http://www.w3.org/XML/)
for each type of linguistic data are defined through
conveniently-designed XML document-type definitions (DTDs) which may be found inside the
apertium package.
• A morphological generator which delivers a TL surface form for each TL lexical
form, by suitably inflecting it.
259
Felipe Sánchez-Martínez, Carme Armentano-Oller, Juan Antonio Pérez-Ortiz y Mikel L. Forcada
Sánchez-Martı́nez, Pérez-Ortiz, and Forcada,
2004a; Sánchez-Martı́nez, Pérez-Ortiz, and
Forcada, 2006).
Typically, the training of general purpose HMM-based part-of-speech taggers is
done using the maximum-likelihood estimate
(MLE) method (Gale and Church, 1990)
when tagged corpora4 are available (supervised method), or using the Baum-Welch
algorithm (Cutting et al., 1992; Baum,
1972) with untagged corpora5 (unsupervised
method). However, if the part-of-speech tagger is to be embedded as a module in a MT
system, as is the case, HMM training can
be done in an unsupervised manner by using
some modules of the MT system and information from both SL and TL.
The main idea behind the use of TL information is that the correct disambiguation
(tag assignment) of a given SL segment will
produce a more likely TL translation than
any (or most) of the remaining wrong disambiguations. In order to apply this method
these steps are followed:
is to use a morphological analyzer to obtain
the set of all possible part-of-speech tags for
each word. Suppose that the morphological
analysis of the previous segment according to
the lexicon is: He (pronoun), books (verb or
noun), the (article), and room (verb or noun).
As there are two ambiguous words (books and
room) we have, for the given segment, four
disambiguation paths or part-of-speech combinations, that is to say:
• g 1 = (pronoun,
• g 2 = (pronoun,
• g 3 = (pronoun,
and
• g 4 = (pronoun,
verb, article, noun),
verb, article, verb),
noun, article, noun),
noun, article, verb).
Let τ be the function representing the translation task. The next step is to translate the
SL segment into the TL according to each
disambiguation path g i :
• τ (g 1 , s) = “Él reserva la habitación”,
• τ (g 2 , s) =“Él reserva la aloja”,
• first the SL text is split into adequate
segments (so that they are small and independently translated by the rest of the
MT engine); then,
• τ (g 3 , s) =“Él libros la habitación”, and
• τ (g 4 , s) =“Él libros la aloja”.
It is expected that a Spanish language model
will assign a higher likelihood to translation
τ (g 1 , s) than to the other ones, which make
little sense in Spanish. As a result, the tag sequence g 1 will have a higher probability than
the other ones.
To estimate the HMM parameters, the
calculated probabilities are used as if fractional counts were available to a supervised training method based on the MLE
method in conjunction with a smoothing
technique (Sánchez-Martı́nez, Pérez-Ortiz,
and Forcada, 2004b).
As expected, the number of possible disambiguations of a text segment grows exponentially with its length, the translation task being the most time-consuming
one. This problem has been successfully addressed (Sánchez-Martı́nez, Pérez-Ortiz, and
Forcada, 2006) by using a very simple pruning method that avoids performing more than
80% of the translations without loss in accuracy.
An implementation of the method described in this section can be downloaded
from the Apertium project web page,6 and
• all possible disambiguations for each
text segment are generated and translated into the TL; after that,
• a statistical TL model is used to compute the likelihood of the translation of
each disambiguation; and,
• these likelihoods are used to adjust the
parameters of the SL HMM: the higher
the likelihood, the higher the probability
of the original SL tag sequence in the
HMM being trained.
The way this training method works can
be illustrated with the following example.
Suppose that we are training an English PoS
tagger to be used within a rule-based MT system translating from English to Spanish, and
that we have the following segment in English, s =“He books the room”. The first step
4
In a tagged corpus each occurrence of each word
(ambiguous or not) has been assigned the correct
part-of-speech tag.
5
In an untagged corpus all words are assigned (using, for instance, a morphological analyzer) the set of
all possible part-of-speech tags independently of context without choosing one of them.
6
260
http://apertium.sourceforge.net.
The
Training Part-of-Speech Taggers to build Machine Translation Systems for Less-Resourced Language Pairs
may simplify the initial building of Apertiumbased MT systems for new language pairs,
yielding better tagging results than the
Baum-Welch algorithm (Sánchez-Martı́nez,
Pérez-Ortiz, and Forcada, 2004b).
4
of SL text required for the convergence.
Figure 2 shows the evolution of the word
error rate (WER) when training the Occitan part-of-speech tagger from a 300 000word raw-text Occitan corpus built from
texts collected from the Internet.
The
results achieved when following the standard (unsupervised) Baum-Welch approach
to train HMM-based part-of-speech taggers
on the same corpus (no larger Occitan corpora was available to us in order to train with
the Baum-Welch algorithm), and the results
achieved when a TL model is used at translation time (instead of a SL part-of-speech
tagger) to select always the most likely translation into TL (TLM-best) are given for comparison.
When reestimating the HMM parameters via the Baum-Welch algorithm, the loglikelihood of the training corpus was calculated after each iteration; the iterative reestimation process is finished when the difference
between the log-likelihood of the last iteration and the previous one is below a certain
threshold. Note that when training the HMM
parameters via the Baum-Welch algorithm,
the whole 300 000-word corpus is used, therefore the WER reported in figure 2 for the
Baum-Welch algorithm is independent of the
number of SL words in the horizontal axis.
The WER is calculated as the edit distance (Levenshtein, 1965) between the translation of an independent 10 079-word Occitan
corpus performed by the MT system when
embedding the part-of-speech tagger being
evaluated, and its human-corrected MT into
Catalan. WERs are calculated at the document level; additions, deletions and substitutions being equally weighted.
As can be seen in figure 2 our method does
not need a large amount of SL text to converge and the translation performance is better than that achieved by the Baum-Welch
algorithm. Moreover, the translation performance achieved by our method is even better than that achieved when translating using the TLM-best setup. Although the TLMbest setup might be though as giving the best
result that can be achieved by our method,
the results reported in figure 2 suggest that
our method has some generalization capability that makes it able to produce better partof-speech taggers for MT than it may be initially expected.
It must be mentioned that analogous re-
Experiments
The method we present is aimed at producing part-of-speech taggers to be used in
MT systems. In this section we report the
results achieved when training the Occitan
part-of-speech tagger of the Apertium-based
Occitan–Catalan MT system.7 Note that
when training the Occitan part-of-speech tagger the whole MT engine, except for the partof-speech tagger itself, is used to produce
texts from which statistics about TL (Catalan) will be collected.
Before training, the Occitan corpus is divided into small segments that can be independently translated by the rest of the
translation engine. To this end, information about the structural transfer patterns is
taken into account. The segmentation is performed at nonambiguous words whose partof-speech tag is not present in any structural transfer pattern, or at nonambiguous
words appearing in patterns that cannot be
matched in the lexical context in which they
appear. Unknown words are also treated as
segmentation points, since the lexical transfer has no bilingual information for them and
no structural transfer pattern is activated at
all.
Once the SL (Occitan) corpus has been
segmented, for each segment, all possible
translations into TL (Catalan) according to
every possible combination of disambiguations are obtained. Then, the likelihoods
of these translations are computed through
a Catalan trigram model trained from a 2million-word raw-text Catalan corpus, and
then normalized and used to estimate the
HMM parameters as described in section 3.
We evaluated the evolution of the performance of the training method by updating
the HMM parameters at every 1 000 words
and testing the resulting part-of-speech tagger; this also helps in determining the amount
method
is
implemented
inside
package
apertium-tagger-training-tools which is licensed
under the GNU GPL license.
7
The linguistic data for this language pair (package apertium-o-ca-1.0.2) can be freely downloaded
from http://apertium.sourceforge.net
261
Felipe Sánchez-Martínez, Carme Armentano-Oller, Juan Antonio Pérez-Ortiz y Mikel L. Forcada
Word error rate (WER, % of words)
9.5
9
8.5
Baum−Welch
8
7.5
TLM−best
7
6.5
0
100000
200000
SL (Occitan) words
300000
Figure 2: Evolution of the word error rate (WER) when training the (SL) Occitan part-of-speech
tagger, Catalan being the target language (TL). WERs reported are calculated at the document
level. Baum-Welch and TLM-best (see below) results are given for comparison; thus, they are
independent of the number of SL words. TLM-best corresponds to the results achieved when
a TL model is used at translation time (instead of a SL part-of-speech tagger) to select always
the most likely translation into TL.
sults on the Spanish–Catalan language pair
has revealed that, although the part-ofspeech tagging accuracy is better when the
HMM is trained in a supervised way from a
tagged corpus, the translation performance of
the MT system when embedding the supervisedly trained part-of-speech taggers is quite
similar to that of using a part-of-speech tagger trained through the TL-driven training
method.8
Concerning how the presented method behaves when the languages involved are less related than Occitan and Catalan, preliminary
experiments on the French–Catalan language
pair show results in agreement to those provided in this paper. Experiments on more
unrelated languages pairs such as English–
Catalan will be conducted in the near future.
5
language pair, a case study of a less-resourced
language pair.
Our training method has been proven to
be appropriate to train part-of-speech taggers
for MT between less-resourced language pairs
because, on the one hand, the amount of SL
text needed is very small compared with common corpus sizes (millions of words) used by
the Baum-Welch algorithm; and, on the other
hand, because no new resources must be built
(such as tagged corpora) to get translation
performances comparable to those achieved
when training from tagged corpora.
Finally, it must be pointed out that the resulting part-of-speech tagger is tuned to improve the translation quality and intended to
be used as a module in a MT system; for
this reason, it may give less accurate results
as a general purpose part-of-speech tagger
for other natural language processing applications.
Discussion
In this paper we have reviewed the use of
target language (TL) information to train
hidden-Markov-model (HMM)-based part-ofspeech taggers to be used in machine translation (MT); furthermore, we have presented
experiments done with the Occitan–Catalan
Acknowledgements
Work funded by the Spanish Ministry of Education and Science through project TIN200615071-C03-01, by the Spanish Ministry of Education and Science and the European Social Fund through research grant BES-20044711, and by the Spanish Ministry of Indus-
8
We plan to publish these results in the near future.
262
Training Part-of-Speech Taggers to build Machine Translation Systems for Less-Resourced Language Pairs
translation engine for the Romance languages of Spain. In Proceedings of the
10th European Associtation for Machine
Translation Conference, pages 79–86, Budapest, Hungary. (http://www.dlsi.ua.es/
~mlf/docum/corbibellot05p.pdf).
try, Tourism and Commerce through project
FIT-350401-2006-5.
The development of
the Occitan–Catalan linguistic data was supported by the Generalitat de Catalunya.
References
Armentano-Oller, C., R.C. Carrasco, A.M.
Corbı́-Bellot, M.L. Forcada, M. Ginestı́Rosell, S. Ortiz-Rojas, J.A. PérezOrtiz, G. Ramı́rez-Sánchez, F. SánchezMartı́nez, and M.A. Scalco. 2006. Opensource Portuguese-Spanish machine translation. In Computational Processing of
the Portuguese Language, Proceedings of
the 7th International Workshop on Computational Processing of Written and Spoken Portuguese, PROPOR 2006, volume 3960 of Lecture Notes in Computer Science. Springer-Verlag, pages 50–
59. (http://www.dlsi.ua.es/~japerez/pub/
pdf/propor2006.pdf).
Cutting, D., J. Kupiec, J. Pedersen, and
P. Sibun. 1992. A practical part-ofspeech tagger. In Third Conference on
Applied Natural Language Processing. Association for Computational Linguistics.
Proceedings of the Conference., pages 133–
140, Trento, Italy.
Forcada, M.L. 2006. Open-source machine
translation: an opportunity for minor languages. In Proceedings of Strategies for
developing machine translation for minority languages (5th SALTMIL workshop on
Minority Languages). (http://www.dlsi.
ua.es/~mlf/docum/forcada06p2.pdf).
Gale, W.A. and K.W. Church.
1990.
Poor estimates of context are worse than
none. In Proceedings of a workshop on
Speech and natural language, pages 283–
287. Morgan Kaufmann Publishers Inc.
Armentano-Oller, C. and M.L. Forcada.
2006.
Open-source machine translation between small languages: Catalan and Aranese Occitan.
In Strategies for developing machine translation
for minority languages (5th SALTMIL
workshop on Minority Languages), pages
51–54. (organized in conjunction with
LREC 2006, http://www.dlsi.ua.es/~mlf/
docum/armentano06p2.pdf).
Garrido-Alenda, A., M. L. Forcada, and R. C.
Carrasco. 2002. Incremental construction
and maintenance of morphological analysers based on augmented letter transducers. In Proceedings of TMI 2002 (Theoretical and Methodological Issues in Machine
Translation), pages 53–62.
Arnold, D., 2003. Computers and Translation: A translator’s guide, chapter
Why translation is difficult for computers,
pages 119–142. Benjamins Translation Library. Edited by H. Somers.
Levenshtein, V.I. 1965. Binary codes capable of correcting deletions, insertions, and
reversals. Doklady Akademii Nauk SSSR,
163(4):845–848. English translation in Soviet Physics Doklady, 10(8):707-710, 1966.
Baum, L.E. 1972. An inequality and associated maximization technique in statistical
estimation of probabilistic functions of a
Markov process. Inequalities, 3:1–8.
Sánchez-Martı́nez, F., J.A. Pérez-Ortiz, and
M.L. Forcada.
2004a.
Cooperative
unsupervised training of the part-ofspeech taggers in a bidirectional machine
translation system. In Proceedings of
TMI, The Tenth Conference on Theoretical and Methodological Issues in Machine Translation, pages 135–144, October. (http://www.dlsi.ua.es/~fsanchez/pub/
pdf/sanchez04b.pdf).
Carbonell, J., S. Klein, D. Miller, M. Steinbaum, T. Grassiany, and J. Frei. 2006.
Context-based machine translation. In
Proceedings of the 7th Conference of the
Association for Machine Translation in
the Americas, “Visions for the Future of
Machine Translation”, pages 19–28, August.
Sánchez-Martı́nez, F., J.A. Pérez-Ortiz, and
M.L. Forcada. 2004b. Exploring the use
of target-language information to train the
part-of-speech tagger of machine translation systems. In Advances in Natural Language Processing, Proceedings of
Corbı́-Bellot, A.M., M.L. Forcada, S. OrtizRojas, J.A. Pérez-Ortiz, G. Ramı́rezSánchez, F. Sánchez-Martı́nez, I. Alegria, A. Mayor, and K. Sarasola. 2005.
An open-source shallow-transfer machine
263
Felipe Sánchez-Martínez, Carme Armentano-Oller, Juan Antonio Pérez-Ortiz y Mikel L. Forcada
4th International Conference EsTAL, volume 3230 of Lecture Notes in Computer Science. Springer-Verlag, pages 137–
148. (http://www.dlsi.ua.es/~fsanchez/pub/
pdf/sanchez04a.pdf).
Sánchez-Martı́nez, F., J.A. Pérez-Ortiz, and
M.L. Forcada.
2006.
Speeding up
target-language driven part-of-speech tagger training for machine translation. In
Advances in Artificial Intelligence, Proceedings of the 5th Mexican International
Conference on Artificial Intelligence, volume 4293 of Lecture Notes in Computer Science. Springer-Verlag, pages 844–
854. (http://www.dlsi.ua.es/~fsanchez/pub/
pdf/sanchez06b.pdf).
264
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 265-272
recibido 18-05-2007; aceptado 22-06-2007
Parallel Corpora based Translation Resources Extraction
José João Almeida
Departamento de Informática
Universidade do Minho
Braga, Portugal
[email protected]
Alberto Simões
Departamento de Informática
Universidade do Minho
Braga, Portugal
[email protected]
Resumen: Este artı́culo describe NATools, un conjunto de herramientas de procesamiento, análisis y extracción de recursos de traducción de Corpora Paralelo. Entre
las distintas herramientas disponibles se destacan herramientas de alineamiento de
frases e palabras, un extractor de diccionarios probabilı́sticos de traducción, un servidor de corpus, un conjunto de herramientas de interrogación de corpora y diccionarios y ası́ mismo un conjunto de herramientas de extracción de recursos bilingües.
Palabras clave: corpora paralelos, recursos bilingües, traducción automática
Abstract: This paper describes NATools, a toolkit to process, analyze and extract
translation resources from Parallel Corpora. It includes tools like a sentence-aligner,
a probabilistic translation dictionaries extractor, word-aligner, a corpus server, a set
of tools to query corpora and dictionaries, as well as a set of tools to extract bilingual
resources.
Keywords: parallel corpora, bilingual resources, machine translation
1
• A full C and Perl API for quick parallel corpora
tools prototyping;
Introduction
NATools is a package with a set of tools for parallel
corpora processing. It includes tools to help parallel corpora preparation, from sentence-alignment
and tokenization, to full probabilistic translation
dictionary extraction, word-alignment, and translation examples extraction for machine translation.
Follows a list with some of the available tools:
• a simple parallel corpora sentence aligner
based on the algorithm proposed by (Gale
and Church, 1991) and in the Vanilla Aligner
implementation by (Danielsson and Ridings,
1997);
• a probabilistic translation dictionary (Simões
and Almeida, 2003; Simões, 2004) extractor
based on PTD Extractor based on work by
(Hiemstra, August 1996; Hiemstra, 1998);
• a parallel corpora word-aligner (Simões and
Almeida, 2006a) based on probabilistic translation dictionaries;
• NatServer (Simões and Almeida, 2006b), a
parallel corpora server for quick concordances
and probabilistic translation dictionary querying;
• a set of web clients to query parallel corpora
using NatServer;
• tools for machine translation example extraction (Simões and Almeida, 2006a) based on
probabilistic translation dictionaries and alignment pattern rules;
ISSN: 1135-5948
• a StarDict generation software;
• support for Makefile::Parallel (Simões,
Fonseca, and Almeida, 2007), a Domain Specific Language for process parallelization (to
take advantage of multi-processor machines
and/or cluster systems).
This paper consists of three main sections. The
first one explains how NATools helps preparing parallel corpora. Follows a section on querying parallel
corpora both using a corpora server and using web
interfaces. The third section is about using NATools for parallel resources extraction like translations examples.
2
Parallel Corpora Preparation
To create and make available a parallel corpora is
not a simple task. In fact, this process does not
depend just on the compilation of parallel texts.
These texts should be processed in some different
ways so it can be really useful. Important steps
include the text tokenization, sentence boundaries
detection and sentence alignment (or translation
unit alignment). NATools include (and depends)
on tools to perform these tasks.
2.1
Segmentation and Tokenization
While NATools does not include directly tools
for segmentation and tokenization, it depends on
Lingua::PT::PLNbase1 , a Perl module for based
1
http://search.cpan.org/dist/Lingua-PT-PLNbase.
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Alberto Simões y José João Almeida
segmentation and tokenization for the Portuguese
language. While it was developed with the Portuguese language in mind, through the time more
and more support for Spanish, French and English
has been incorporated. Thus, after installing NATools you will have access to the Perl module directly or using NATools options for segmentation
and tokenization.
2.2
1
2
3
4
5
6
Sentence Alignment
7
The NATools sentence aligner uses the well known
algorithm by (Gale and Church, 1991). Work is
being done to include some clue-align (Tiedemann,
2003) information into the original algorithm, taking advantage of numbers and other non-textual
elements in sentences in addition to the basic sentence length metrics.
While Gale and Church algorithm is known for
not being robust enough for big corpora with big
differences in number of sentences, the truth is that
it works for most available corpora.
Also, note that NATools do not force the user
to use the supplied sentence-aligner (or tokenizer).
For instance, we are using easy-align from IMSCWB (Christ et al., 1999) to perform sentence
alignment on big corpora. Unfortunately easy-align
is not open-source and the used algorithm is not described in any paper, but it uses not only the base
length metrics but also uses other knowledge like
bilingual dictionaries to perform better alignment.
2.3
8
9
10
11
12
europa: 94.71 %
europeus: 3.39 %
europeu: 0.81 %
europeia: 0.11 %
** stupid (180 occurrences)
estúpido:
estúpida:
estúpidos:
avisada:
direita:
impasse:
17.55
10.99
7.41
5.65
5.58
4.48
%
%
%
%
%
%
Note that although the first three entries for the
stupid word have low probabilities, they refer to
the same word with different inflections: masculine
singular, feminine singular and masculine plural.
The algorithm based on Twente-Aligner (Hiemstra, August 1996; Hiemstra, 1998) was fully reviewed and enhanced, and was added support for
big corpora (Simões, 2004). The version included
in NATools supports arbitrary size corpora (only
limited by disk space), and can be run on parallel
machines and clusters.
NATools probabilistic dictionary extraction is
being used for bilingual dictionary bootstrapping
as presented by (Guinovart and Fontenla, 2005).
Corpora Encoding
3
This is the only required step on using NATools. It
performs the corpora encoding and creates auxiliary indexes for quick access. Two lexicon indexes
are created (one for each language), mapping an integer identifier for each word. The corpora is codified using these integer values, and indexes for direct access by word and sentence are created. There
are other tools to index corpora. Examples are Emdros (Petersen, 2004) and IMS-CWB (Christ et al.,
1999). While the first one is freely available, it is intended for monolingual corpora. In the other hand,
IMS-CWB is not open software.
2.4
** europe (42853 occurrences)
Querying Parallel Corpora
To make parallel corpora available for querying is
not easy as well. After the encoding process described on section 2.3, there is the need for a server
to help searching and querying the encoded corpora. Thus, NATools includes its own parallel corpora server.
3.1
NatServer: A Parallel Corpora
Server
NATools includes NatServer, a socket-based program to query efficiently parallel corpora, corpora
n-grams (bigrams, trigrams and tetragrams) and
probabilistic translation dictionaries. It supports
multiple corpora with different language pairs.
Given the modular implementation of NatServer, the C library can be used for other software
and namely for NATools Perl API (Application
Programmer Interface). This makes it easy for any
software choose at run-time if it will use the socket
server or access locally the encoded corpora. This is
specially important for intensive batch tasks where
the socket-based communication is a big over-head
regarding performance.
NatServer is also being prepared to be responsible of the server part of Distributed Translation
Memories (Simões, Guinovart, and Almeida, 2004),
Probabilistic Translation
Dictionaries Extraction
This process extracts relationships between words
and their probable translations. Some researchers
(Hiemstra, August 1996) call this word-alignment.
Within NATools, we prefer to call it probabilistic
translation dictionaries (PTDs).
There are other tools like Giza++ (Och and Ney,
2004) that perform word-alignment directly from
parallel corpora, but that is not our approach. Our
dictionaries map for each word in a language, a
set of probable translations on the other language
(together with an translation probability). Follows
a simple example of a PTD:
266
Linguistics and translators make heavy use of parallel corpora and bilingual resources. Meanwhile,
they use simple applications or web interfaces.
There are parallel corpora available for querying
in the web like COMPARA (Frankenberg-Garcia
and Santos, 2001; Frankenberg-Garcia and Santos,
2003) or Opus (Tiedemann and Nygaard, 2004),
and they are quite used. Thus, it is important to
provide mechanisms to make our parallel corpora
available in the Web as well.
NATools include a set of web tools for concordances with translation guessing (see figure 1) and
probabilistic translation dictionary browsing (see
figure 2).
The web interface lets the user swap between
concordances and dictionaries in an easy way, as
well as to check corpora details (description, languages, sizes and so on).
4
fontes
de
financiamento
alternativas
X
Δ
X
X
Figure 3: Translation Pattern example.
Although these patterns can be inferred from
parallel corpora most of them can be defined manually quite faster and with good results. Figure 4
show some extracts from terminology extracted.
Each group is preceded by the rule. Numbers
before the terminology pairs are the occurrence
counter for that pair.
Note that the examples are the top five in number of occurrences. Although they are all good
translations and they can all be considered terminology, this does not apply to all the extracted examples. Meanwhile, the DSL lets add morphological constrains and Perl predicates to the pattern.
With these constrains it is quite easy to remove
from the extracted entries those which are not terminology.
We did a massive test of terminology extraction
using EuroParl (Koehn, 2002) Portuguese:English
corpus. Table 1 shows some statistics on number
of patterns extracted3 .
Parallel Resources Extraction
NATools main objective was not to be a final-user
software package, but instead, be a toolbox for the
researcher that uses parallel corpora. Thus, research is being done using NATools and some of
resulting applications are being incorporated in the
toolbox. The probabilistic translation dictionaries
presented in section 2.4 by themselves are useful
parallel resources. They were presented earlier because they are crucial for querying correctly NATools corpora.
4.1
financing
Query Tools
of
3.2
alternative
a WebService to serve translators with external
translation memories.
sources
Parallel Corpora based Translation Resources Extraction
Total number of TUs
Number of processed TUs
Number of patterns found
Number of different patterns
Number of filtered patterns
Terminology Extraction
(Och, 1999; Och and Ney, 2004) describes methods
to infer translation patterns from parallel corpora.
In our work we found out that to describe translation patterns and apply them to parallel corpora
gives interesting results: bilingual terminology.
Translation patterns describe how words order
change when translation occurs. For instance, we
can describe a simple pattern to describe how the
adjective swaps with the substantive when translating from Portuguese to English as2 :
1 000
700
578
139
103
000
000
103
781
617
Table 1: Terminology extraction statistics.
Table 2 shows the occurrence distribution by
some patterns. The third column is a simple evaluation of how many patterns are really terminology
and are correct. Evaluation was done with three
samples: the 20 patterns with more occurrence, the
20 patterns with lower occurrence, and 20 patterns
in the middle of the list.
T (A · B) = T (B) · T (A)
4.2
A bit complicated pattern:
T (P · de · V · N ) = T (N ) · T (P ) · of · T (V )
Word Alignment and Example
Extraction
While Word Alignment and Example Extraction
are different tasks, the base algorithm used in NATools is the same. The word alignment is done for
each pair of translation units creating a matrix of
is presented on figure 3 visually. NATools includes
a Domain Specific Language (DSL) to define these
patterns in a easy way. The last example shown
can be written as “P "de" V N = N P "of" V”.
3
The number of translations units processes is not equal
to the total number of translations units because at the time
these statistics were reported the process did not have finished.
2
Note that letters on these patterns do not have any special meaning. They are just variable names.
267
Alberto Simões y José João Almeida
Figure 1: Concordances interface.
Figure 2: PTDs query interface.
Pattern
AB=BA
A de B = B A
ABC=CBA
H de D H = H D I
ABC=CAB
P de V N = N P of V
P de T de F = F T P
Occur.
77 497
12 694
7 700
3 336
1 466
564
360
Quality
86%
95%
93%
100%
40%
98%
96%
real word-alignment between these two translation
units.
For the example in the figure, it would be
extracted the alignments: discussão:discussion,
sobre:about, fontes de financiamento alternativas:alternative sources of financing, para:for, a:the,
aliança radical europeia:european radical alliance.
The truth is that single word translations are already present on the probabilistic translation dictionaries, and thus there is no advantage on extracting the word-to-word relation.
The alignment matrix can also be used to extract examples. If we join sequences of words (or
terms) and their translations, a set of word sequences can be extracted (examples). Again, for
the matrix shown, we can extract more relationships, like discussão sobre:dicussion about, sobre
fontes de financiamento alternativas:about alteran-
Table 2: Patterns occurrences by type, and respective quality.
translation probabilities as shown on figure 5. In
this matrix one can see direct translations between
word and some marked patterns. As these patterns are hopefully terminology, we are considering
them as a term, and as such, aligning it all with
another term. From this matrix we can extract the
268
Parallel Corpora based Translation Resources Extraction
A B = B A
14949
12487
11645
10055
7705
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
comunidades europeias
parlamento europeu
comunidade europeia
uni~
ao europeia
jornal oficial
|
|
|
|
|
european
european
european
european
official
communities
parliament
community
union
journal
P "de" V N = N P "of" V
134 comunicaç~
ao de acusaç~
oes alterada
55 comunicaç~
ao de acusaç~
oes inicial
49 tribunal de justiça europeu
45 fontes de energia renováveis
41 perı́odo de tempo limitado
|
|
|
|
|
revised statement
initial statement
european court of
renewable sources
limited period of
A "de" B = B A
3383 medidas de execuç~
ao
2754 comité de gest~
ao
1163 plano de acç~
ao
1050 certificados de importaç~
ao
1036 sigla de identificaç~
ao
|
|
|
|
|
implementing measures
management committee
action plan
import licences
identification marking
of objections
of objections
justice
of energy
time
alternative
sources
of
financing
for
the
european
radical
alliance
.
2
44
0
0
0
0
0
0
0
0
0
0
0
3
sobre
0
11
0
0
0
0
0
0
0
0
0
0
4
fontes
0
0
0
74
0
0
0
0
0
0
0
0
de
0
3
0
0
27
0
6
3
0
0
0
0
financiamento
0
0
0
0
0
56
0
0
0
0
0
0
alternativas
0
0
23
0
0
0
0
0
0
0
0
0
para
0
0
0
0
0
0
28
0
0
0
0
0
a
0
1
0
0
1
0
4
33
0
0
0
0
discussion
about
Figure 4: Bilingual terminology extracted by Translation Patterns.
discussão
1
aliança
0
0
0
0
0
0
0
0
0
0
65
0
radical
0
0
0
0
0
0
0
0
0
80
0
0
europeia
0
0
0
0
0
0
0
0
59
0
0
0
.
0
0
0
0
0
0
0
0
0
0
0
80
5
6
7
8
9
10
11
12
13
Figure 5: Word-alignment matrix.
às hour
orçamento de year
int euros
int euros
directiva de year
orçamento year
int de setembro
partir de year
convenç~
ao de year
eleiç~
oes de year
perı́odo year-year
int dólares
relatório de year
hour
year budget
eur int
eur int
year directive
year budget
september int
year onwards
year convention
year elections
year-year period
usd int
year report
Although these patterns can be useful they are
not as interesting as if could create place-holders for
words. If we analyze similar entries in the examples
listing we can find entries differing just in a few
words like the following example.
tive sources of financing, fontes de financiamento
alternativas para:alternative sources of financing
for, para a:for the, a aliança radical europeia:the
european radical alliance. This process can be repeated, resulting in bigger examples. This step is
important to generate more examples occurrences
and thus give more importance for those with bigger occurrence.
Figure 6 shows some examples extracted using
this methodology. These examples can be consolidated (summed accordingly with their occurrence
count) and be used for machine translation or computer assisted translation.
4.3
399
187
136
135
127
51
46
31
29
26
25
25
24
1
2
3
4
5
6
7
8
9
10
2
2
2
2
2
2
2
2
2
2
povo
povo
povo
povo
povo
povo
povo
povo
povo
povo
portugu^
es
paraguaio
nigeriano
mexicano
marroquino
mapuche
indı́gena
holand^
es
húngaro
hmong
portuguese
paraguayan
nigerian
mexican
moroccan
mapuche
indigenous
dutch
hungarian
hmong
people
people
people
people
people
people
people
people
people
people
Example Generalization
Based on work from (Brown, 2000; Brown, 2001),
we are incorporating generalization algorithms into
NATools. One simple generalization is the detection of numbers, hours and dates. Follows some
examples generalized using this technique.
This can be generalized creating automatically a
class for the differing words (in this case we used
gentilic). Given two different classes with a big
number of similar members we can join them expanding the initial number of examples.
269
Alberto Simões y José João Almeida
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
raw examples
protocolo para prevenir
, reprimir e punir o
tráfico de pessoas
e em particular de
mulheres e crianças
|
|
|
|
|
protocol to prevent
, suppress and punish
trafficking in persons
, especially
women and children
consolidated examples
35736
tendo em conta
11304
tratado que institui
10335
das comunidades europeias
8789
institui a comunidade europeia
8424
e , nomeadamente
8224
, a comiss~
ao
8142
redacç~
ao que lhe foi dada pelo
7352
à comiss~
ao
7072
a comiss~
ao das
6870
pela comiss~
ao
6540
todos os estados-membros
6400
pela comiss~
ao
6379
considerando que ,
5409
regulamento é obrigatório
5400
adoptou
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
having regard
treaty establishing
of the european communities
establishing the european community
and in particular
, the commission
amended by
to the commission
the commission of
for the commission
all member states
by the commission
whereas ,
regulation shall be binding
has adopted this
Figure 6: Translation examples.
1
2
povo X: gentilic(X)
governo X: gentilic(X)
T(X) people
T(X) govern
1
use NAT::Client;
2
$client = NAT::Client->new(
crp => "EuroParl-PT-EN");
3
4.4
StarDict generation
4
Although we are in the Internet era, there are a few
people without Internet access at home, or working
offline on a laptop. For these people, to access the
online query system is not possible. Specially for
non computer-science researchers, there is important to make dictionaries and some concordances
available easily.
5
6
7
8
9
10
11
12
13
14
15
16
$client->iterate(
{ Language => "PT" },
sub {
my %param = @_;
for $trans (keys %{$param{trans}}) {
if ($param{trans}{$trans} > 0.1) {
$concs = $client->conc({
concordance => 1},
$param{word}, $trans);
$stardict{$param{word}}{$trans}
= $concs->[0];
}}});
print StarDict($stardict);
Figure 8: Perl code to create a StarDict dictionary.
This tool was also an exercise to see how versatile the NATools API was. The basic structure
of the dictionary to be translated to StarDict can
be created using just some lines of Perl code (see
figure 8).
Figure 7: StarDict screen-shot.
With this in mind we created a tool to generate
StarDict (Zheng, Evgeniy, and Murygin, 2007) dictionaries with probabilistic translation dictionary
information and for each possible translation a set
of three concordances.
The process is done iterating over all the entries in the probabilistic translation dictionary. For
each entry we grab concordances for each probable
translation (with association above 10%).
270
Parallel Corpora based Translation Resources Extraction
5
Conclusions
Frankenberg-Garcia, Ana and Diana Santos,
2001. Apresentando o COMPARA, um corpus português-inglês na Web. Cadernos de
Tradução, Universidade de São Paulo.
While a lot of work needs to be done within NATools, most for efficiency, being open-source makes
it easier. Any researcher can contribute with code,
submit bugs reports, and get some support freely.
The whole NATools framework proved to
be robust enough for different sized corpora. It was tested with Le Monde Diplomatique (PT:FR) (Correia, 2006), JRC-Acquis
(PT:ES,PT:EN,PT:FR) (Steinberger et al., 2006)
and EuroParl (PT:ES,PT:EN:PT:FR) (Koehn,
2002). All these corpora are available for querying
in the Internet.
NATools include some other small tools not described in this paper. For instance, there is a set
of small tools that grew up as experiences and
where maintained in the package as tools to compare probabilistic translation dictionaries, tools to
rank (or classify) translation memories accordingly
with their translation probability, and others.
Frankenberg-Garcia, Ana and Diana Santos. 2003.
Introducing COMPARA, the portuguese-english
parallel translation corpus. In Silvia Bernardini
Federico Zanettin and Dominic Stewart, editors,
Corpora in Translation Education. Manchester:
St. Jerome Publishing, pages 71–87.
Gale, William A. and Kenneth Ward Church. 1991.
A program for aligning sentences in bilingual
corpora. In Meeting of the Association for Computational Linguistics, pages 177–184.
Guinovart, Xavier Gómez and Elena Sacau
Fontenla.
2005.
Técnicas para o desenvolvemento de dicionarios de tradución a partir de córpora aplicadas na xeración do Dicionario CLUVI Inglés-Galego. Viceversa: Revista Galega de Traducción, 11:159–171.
Acknowledgment
Hiemstra, Djoerd. 1998. Multilingual domain
modeling in twenty-one: automatic creation of
a bi-directional lexicon from a parallel corpus.
Technical report, University of Twente, Parlevink Group.
Alberto Simões has a scholarship from Fundação
para a Computação Cientı́fica Nacional and the
work reported here has been partially funded by
Fundação para a Ciência e Tecnologia through
project POSI/PLP/43931/2001, co-financed by
POSI, and by POSC project POSC/339/1.3/C/NAC.
Hiemstra, Djoerd. August 1996. Using statistical
methods to create a bilingual dictionary. Master’s thesis, Department of Computer Science,
University of Twente.
References
Koehn, Philipp. 2002. EuroParl: a multilingual
corpus for evaluation of machine translation.
Draft, Unpublished.
Brown, Ralf D. 2000. Automated generalization
of translation examples. In Eighteenth International Conference on Computational Linguistics
(COLING-2000), pages 125–131.
Och, Franz Josef. 1999. An efficient method for
determining bilingual word classes. In the 9th
Conference of the European Chapter of the Association for Computational Linguistics, pages
71–76.
Brown, Ralf D.
2001.
Transfer-rule induction for example-based translation. In Michael
Carl and Andy Way, editors, Workshop on
Example-Based Machine Translation, pages 1–
11, September.
Och, Franz Josef and Hermann Ney. 2004. The
alignment template approach to statistical machine translation. Computational Linguistics,
30:417–449.
Christ, Oliver, Bruno M. Schulze, Anja Hofmann,
and Esther König, 1999. The IMS Corpus
Workbench: Corpus Query Processor (CQP):
User’s Manual. Institute for Natural Language
Processing, University of Stutgart, March.
Petersen, Ulrik.
2004.
Emdros — a text
database engine for analyzed or annotated text.
In 20th International Conference on Computational Linguistics, volume II, pages 1190–1193,
Geneva, August.
Correia, Ana Teresa Varajão Moutinho Pereira.
2006. Colaboração na constituição do corpus
paralelo Le Monde Diplomatique (FR-PT). Relatório de estágio, Conselho de Cursos de Letras
e Ciências Humanas — Universidade do Minho,
Braga, Dezembro.
Simões, Alberto and J. João Almeida. 2006a. Combinatory examples extraction for machine translation. In Jan Tore Lønning and Stephan Oepen,
editors, 11th Annual Conference of the European
Association for Machine Translation, pages 27–
32, Oslo, Norway, 19–20, June.
Danielsson, Pernilla and Daniel Ridings. 1997.
Practical presentation of a “vanilla” aligner. In
TELRI Workshop in alignment and exploitation
of texts, February.
Simões, Alberto and J. João Almeida. 2006b. NatServer: a client-server architecture for building
271
Alberto Simões y José João Almeida
parallel corpora applications. Procesamiento del
Lenguaje Natural, 37:91–97, September.
Simões, Alberto, Rúben Fonseca, and José João
Almeida.
2007.
Makefile::Parallel dependency specification language. In Euro-Par 2007,
Rennes, France, August. Forthcoming.
Simões, Alberto, Xavier Gómez Guinovart, and
José João Almeida. 2004. Distributed translation memories implementation using webservices. Procesamiento del Lenguaje Natural,
33:89–94, July.
Simões, Alberto M. and J. João Almeida. 2003.
NATools – a statistical word aligner workbench.
Procesamiento del Lenguaje Natural, 31:217–
224, September.
Simões, Alberto Manuel Brandão. 2004. Parallel
corpora word alignment and applications. Master’s thesis, Escola de Engenharia - Universidade
do Minho.
Steinberger, Ralf, Bruno Pouliquen, Anna Widiger,
Camelia Ignat, Tomaž Erjavec, Dan Tufiş, and
Dániel Varga. 2006. The JRC-Acquis: A multilingual aligned parallel corpus with 20+ languages. In 5th International Conference on Language Resources and Evaluation (LREC’2006),
Genoa, Italy, 24–26 May.
Tiedemann, Jörg. 2003. Combining clues for word
alignment. In 10th Conference of the European
Chapter of the ACL (EACL03), Budapest, Hungary, April 12–17.
Tiedemann, Jörg and Lars Nygaard. 2004. The
opus corpus - parallel & free. In Fourth International Conference on Language Resources and
Evaluation (LREC’04), Lisbon, Portugal, May
26–28.
Zheng,
Hu,
Evgeniy,
and Alex Murygin.
2007.
Stardict.
Software and
documentation
homepage,
StarDict,
http://stardict.sourceforge.net/,
January.
272
DEMOSTRACIONES
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 275-276
recibido 06-06-2007; aceptado 22-06-2007
Una herramienta para la manipulación de corpora bilingue
usando distancia léxica∗
Rafael Borrego Ropero y Vı́ctor J. Dı́az Madrigal
Departamento de Lenguajes y Sistemas Informáticos
E. T. S. Ingenierı́a Informática - Universidad de Sevilla
Avda. Reina Mercedes s/n 41012-Sevilla (Spain)
{rborrego, vjdiaz}@us.es
Resumen: En este artı́culo se presenta una herramienta que permite anotar corpora bilingue y realizar alineamiento entre textos usando heurı́sticas basadas en
frecuencia, posición y cercanı́a léxica (con Edit Distance). La anotación de corpora bilingue es una tarea muy laboriosa pero esencial a la hora de desarrollar bases
de conocimiento para la realización de traducciones automáticas entre distintos idiomas. Esta herramienta ayuda esta tarea, permitiendo anotar de forma rápida y
sencilla. Incluye caracterı́sticas que facilitan la edición de textos planos y de textos
anotados.
Palabras clave: Alineamiento, Etiquetado de entidades, Edit Distance, Corpora
Bilingüe
Abstract: In this article is presented a tool for labeling bilingual parallel corpora
and aligning texts using heuristics based on word frequency, position and lexicographical similarity (using Edit Distance). Bilingual corpora annotation is a very
laborious task but essential at the time of developing knowledge bases for the accomplishment of automatic translations between different languages. This tool helps
to this task, allowing to annotate texts in a fast and simple way. It includes characteristics that help editing plain and annotated texts.
Keywords: Alignment, Name Entity Recognition, Bilingual corpora, Edit Distance
1.
Introducción
El sistema que presentamos ha sido desarrollado como apoyo a una de las tareas
del proyecto NERO (TIN 2004-07246-C0303) y facilita el alineamiento de entidades
con nombre en corpora paralelo basándose
en varias heurı́sticas descriyas en (Borrego
y Dı́az, 2007). El alineamiento de textos
consiste en identificar en un corpus biligüe
qué partes (párrafos, frases, palabras) de uno
de los corpus se corresponden con las del otro.
Dado que la anotación es una tarea muy laboriosa y de gran dificultad, se ha desarrollado una herramienta de visualización y edición de corpus como apoyo a la anotación,
que detecta alineamientos entre conjuntos de
palabras. A continuación mostraremos los objetivos marcados a la hora de abordar su desarrollo:
Realizar una aplicación portable y extensible, que permita anotar corpora
paralelo de forma eficiente.
∗
Este trabajo ha sido parcialmente financiado por el
Ministerio de Educación y Ciencia (TIN 2004-07246C03-03)
ISSN: 1135-5948
Proporcionar una interfaz gráfica que facilite el uso de la aplicación, visualizando los corpus de manera intuitiva (sin
que sea necesario tener conocimientos
ni sobre las heuristicas usadas ni sobre
XML).
Permitir anotar corpora paralelo, relacionando un conjunto de palabras en un
lenguaje con su equivalente en el otro.
Aplicar heurı́sticas y un sistema de
votación para obtener alineamientos entre conjuntos de palabras en un idioma
con su equivalente en el otro
Definición y modificación (crear, editar
y eliminar etiquetas) de etiquetarios.
Leer y escribir corpus anotados con distintos formatos de etiquetado, realizando la división de textos usando expresiones regulares o de forma automática.
Realizar consultas sobre los corpus
acerca de sus etiquetados, y ver sus
propiedades.
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Rafael Borrego y Víctor J. Díaz
cación, y un conjunto de ventanas donde se
visualizan los textos y la estructura del corpus.
Cada corpus está asociado con un proyecto en el que se incluyen todos los archivos en
los que está dividido. La ventana principal
se subdivide en dos partes: la parte izquierda
contiene la estructura y archivos del proyecto (corpus) actual, y en la derecha se visualizarán aquellos archivos del proyecto que el
usuario desee ver su contenido. Las ventanas
internas que muestran el contenido de cada
fichero se encuentran divididas en dos zonas,
una para cada idioma, mostrando con distinto tipo de letra aquellas palabras que se encuentran anotadas. Además, tras seleccionar
un conjunto de palabras en una de las zonas,
indica en la otra zona la frase equivalente.
Los ficheros constituyentes del corpus se
pueden visualizar de dos formas. La primera
forma es en las ventanas asociadas a los
ficheros que nos muestra el contenido de cada fichero, teniendo un color distinto aquellos
conjuntos de palabras que han sido anotados.
La otra es en una ventana especial que permite ver el conjunto de palabras que contiene,
indicando la posición origen y fin, ası́ como el
tipo de palabra.
En cualquier momento se puede anotar,
para lo cual solo hay que seleccionar el texto
deseado con el ratón, e indicar que se desea
anotar la selección. También se puede hacer el
proceso inverso, para eliminar una anotación
hecha previamente.
Generar automáticamente informes sobre el resultado de las anotaciones realizadas.
2.
Aspectos tecnológicos del
sistema
Caben destacar ciertas decisiones tomadas
relativas a aspectos tecnológicos. Ası́, para
cubrir el requisito de portabilidad de la
aplicación a diversos sistemas operativos, se
optó por una implementación en lenguaje Java.
En el aspecto relativo a los datos, se
eligió una implementación apoyada en el
lenguaje de etiquetado XML. La primera
razón es la capacidad de aplicación inmediata de este lenguaje de marcas para la
etiquetación de textos. Ésto ha permitido
definir de una manera sencilla un formato de
etiquetado muy flexible, extensible, y sencillo de utilizar, que es fácilmente tratable por
aplicaciones externas. Además, es un formato
de almacenamiento portable, que no requiere
tener instalado ningún programa especı́fico.
También se ha optado por XML para almacenar datos relativos a configuraciones de
los diversos aspectos de la aplicación, ası́ como datos necesarios para facilitar su uso,
como por ejemplo: definición de proyectos,
definición de expresiones regulares para dividir el texto por frases o por palabras, palabras huecas que se desea ignorar, etc.
Para facilitar al usuario su manejo la aplicación permite convertir de forma automática
documentos en texto plano a XML, indicando
la ruta de los ficheros y, de forma opcional, información sobre su contenido o autores. Con
ello se puede empezar a manejar la aplicación
sin tener que conocer XML ni tener que hacer
conversiones entre formatos de codificación.
Además, permite trabajar con un corpus sin
alterar su contenido, ya que en ningún momento se modifica el contenido de los ficheros
en texto plano.
Con lo comentado anteriormente, la aplicación desarrollada cumple los requisitos expuestos, pudiendo etiquetar textos, mostrar
corpus etiquetados en distintos idiomas, etc.
3.
4.
Trabajo futuro
Respecto al reconocimiento de entidades
serı́a interesante incluir más heurı́sticas para
realizar el alineamiento. Además, debido a
lo laborioso del proceso de anotación, es frecuente la participación de equipos. Esto implica dificultades relacionadas con el mantenimiento de la coherencia en el proceso de etiquetación y la gestión de versiones de corpus.
En este aspecto, pretendemos enriquecer la
herramienta para incorporar funcionalidades
que faciliten este tipo de procesos.
Bibliografı́a
Descripción básica del sistema
Borrego, R. y V. Dı́az. 2007. Alineamiento de Entidades con Nombre usando Distancia Léxica. Procesamiento del Lenguaje Natural, 38(1):61–66.
El sistema se basa en un entorno gráfico organizado en torno a dos elementos
básicos: un conjunto de menús desplegables
donde se pueden seleccionar todas las acciones disponibles actualmente en la apli276
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 277-278
recibido 31-05-2007; aceptado 22-06-2007
MyVoice goes Spanish. Cross-lingual adaptation of a voice
controlled PC tool for handicapped people ∗
Zoraida Callejas
Univ. Granada
Granada Spain
[email protected]
Jan Nouza
Tech. Univ. Liberec
Liberec Czech
[email protected]
Petr Cerva
Ramón López-Cózar
Tech. Univ. Liberec
Univ. Granada
Liberec Czech
Granada Spain
[email protected]
[email protected]
Resumen: En este artı́culo presentamos la adaptación del sistema MyVoice del
idioma checo al español. MyVoice se desarrolló con la idea de permitir a usuarios
con discapacidad motora controlar sus ordenadores y aplicaciones informáticas de
forma oral. Nuestro objetivo era adaptarlo de forma rápida al español empleando
únicamente los recursos disponibles para el idioma checo. Los resultados experimentales muestran que se puede conseguir hasta un 96.73% de precisión en el reconocimiento del habla española empleando el motor de reconocimiento del habla
checo del sistema MyVoice.
Palabras clave: cross-linguistic, reconocimiento del habla, aplicaciones para discapacitados
Abstract: In this paper, we present the cross-lingual adaptation of the MyVoice
system from the Czech to the Spanish language. MyVoice was developed to allow
motor-handicapped people to voice control their PCs and applications. Our objective was to cost-efficiently adapt it to the Spanish language using uniquely the
resources available for Czech. Experimental results show that up to 96.73% recognition accuracy can be achieved for Spanish using MyVoice’s Czech speech recognition
environment.
Keywords: cross-linguistic, speech recognition, applications for handicapped
1
The MyVoice system
MyVoice is a software tool to control the
PC and its programs orally. It recognizes
voice commands and interprets them into one
or more basic actions which include virtual
managing of keyboard, moving mouse, clicking mouse buttons, printing strings and executing programs. MyVoice was developed
with the purpose of facilitating Czech motorhandicapped people the access to new technologies, and has been succesfully used by
them since 2005 (Nouza, Nouza, and Cerva,
2005).
MyVoice is structured in several command
groups, each of them dealing with an specific task, this way for example the group
that controls the mouse is different from the
one that deals with keyboard but they can
∗
Development of the MyVoice software was supported by the Grant Agency of the Czech Academy
of Sciences (grant no. 1QS108040569).
ISSN: 1135-5948
be accessed easily from each other by a voice
command. The grouping of commands makes
interaction easier as the user is aware of the
valid words he can utter at each time and
can easily navigate between groups. Furthermore, as a specific vocabulary was defined
for each task, better recognition results are
achieved.
The system was designed to be user
friendly and customizable and it can be easily adapted to user preferences employing its
configuration window. From there, phonetics
of the words can be changed, commands can
be added, edited and deleted, and new command groups can be easily introduced without the need of having any expert knowledge
about computers.
MyVoice system was carefully designed
and implemented and has been warmly welcomed by the Czech handicapped community. Our aim was to make it available also
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Zoraida Callejas, Jan Nouza, Petr Cerva y Ramón López-Cózar Delgado
a gender dependent model was used obtaining a 93,92% accuracy rate. We carried out
speaker adaptation to try to further improve
this result. After adaptation to our female
speaker, 96,73% accuracy was obtained. It
is important to note that these results are
for real interaction with MyVoice, in which
vocabulary is restricted at each step to the
list of commands in the current group, the
size of the group ranges between 5 and 137
commands. To obtain meaningful results for
the different speaker models with independence of the groups visited during the interaction, we carried out an offline speech
recognition process in which we used the
whole MyVoice vocabulary, which is composed of 432 commands. With a gender dependent user model we obtained 91.03% accuracy, which is improved by speaker adaptation reaching a 96.58% accuracy.
for the Spanish users withoug building a new
system from the scratch, but rather using
the already developed resources for the Czech
language. In order to reach this objective, we
carried out a cross-lingual adaptation of the
system so that recognition of Spanish commands could be done over the Czech speech
recognition environment (i.e. acoustic, lexical an linguistic models), as explained in the
next section.
2
MyVoice cross-lingual
adaptation to Spanish
MyVoice commands were translated to Spanish and a cross-lingual adaptation procedure of the Czech recognizer was carried
out. The Czech recognizer’s decoding module works with a lexicon of alphabetically ordered words, each of them represented by
its text and phonetic form. For the crosslanguage application we used Spanish text
along with an automatically generated Czech
phonetic representation. The phonemes built
for the Czech recognizer could be then applied to the new task of recognizing Spanish words, using the Czech phonetic form to
construct the acoustic models of the words
by concatenating the corresponding phoneme
models.
To automatically generate the Czech phonetic representation of the Spanish commands, a correspondence between Spanish
and Czech phonemes was carried out by one
Spanish native speaker and supervised by
several Czech native speakers. The accuracy
of such correspondences depends on the number of phonemes present in each language and
the similarity between them. However, Czech
and Spanish languages are very different in
their origin, as Czech belongs to the family
of Slavic languages like Russian, and Spanish
is an Italic language like Italian or French.
Thus, one of the challenges of our work was
to obtain satisfactory mapping for such different languages; especially when previous researches had obtained poor results in crosslanguage tasks between Slavic and Italic languages, for example in (Žgank et al., 2004)
with Slovenian and Spanish.
3
4
Conclusions
In this paper we have presented the adaptation of the MyVoice system for orally controling PC, from Czech to Spanish language. We
have empirically demonstrated that crosslingual adaptation of the speech recognition
environment can done in a short time carrying out an expert-driven correspondence
between both languages’ phonetic alphabets.
Experimental results using the Spanish version of MyVoice showed that a 96.58% offline
and 96.73% online performance can be obtained. Thus, these are very promising results as they show that portability of speech
recognizers can be ensured in a straightforward way and that this approach can achieve
good results even with very phonetically different languages as Czech (Slavic) and Spanish (Italic).
References
Žgank, A., Z. Kacic, F. Diehl, K. Vicsi,
G. Szaszak, J. Juhar, and S. Lihan. 2004.
The cost278 masper initiative - crosslingual speech recognition with large telephone databases. In Proceedings of LREC
2004, Lisbon, Portugal, May.
Nouza, J., T. Nouza, and P. Cerva. 2005. A
multi-functional voice-control aid for disabled persons. In Proceedings of International Conference on Speech and Computer (SPECOM 2005), pages 715–718,
Patras, Greece, October.
Experimental results
Our first experiments were carried out with a
female Spanish native speaker employing the
MyVoice software for carrying out her daily
activities with the PC. For speech recognition
278
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 279-280
recibido 07-06-2007; aceptado 22-06-2007
HistoCat y DialCat: extensiones de un analizador morfológico
para tratar textos históricos y dialectales del catalán
Jordi Duran Cals
THERA SL
Adolf Florensa s/n
08028-Barcelona
[email protected]
Mª Antònia Martí Antonín
Universitat de Barcelona
Gran Vía 585
08007-Barcelona
[email protected]
M. Pilar Perea Sabater
Universitat de Barcelona
Gran Vía 585
08007-Barcelona
[email protected]
Resumen: Los textos históricos y dialectales del catalán no se pueden anotar
morfosintácticamente de manera automática ya que no existe una variante estándar de referencia
que permita un tratamiento homogéneo y sistemático. El objetivo de los proyectos HistoCat y
DialCat ha sido desarrollar un entorno de anotación semiautomático aprovechando herramientas
existentes para la anotación morfosintáctica de textos en catalán, que minimizara al máximo la
anotación manual.
Palabras clave: Corpus historicos y dialectales, Anotación Morfosintáctica, Lingüística de
Corpus.
Abstract: Catalan historical and dialectal texts cannot be morphosintactically annotated in an
automatic way, because there is not a reference standard of written language that could allow a
sistematic and homogeneus treatement. The main objective of DialCat and HistoCat projects has
been to develop an environment for the semiauthomatic annotation of these corpora using
already existing morphological analyzers for standard Catalan trying to minimize the manual
annotation.
Keywords: Morphosintactic Annotation, Corpus Linguistics.
1
representación en los diccionarios de la lengua.
Es una realidad que la tradición lexicográfica
cuenta con muy poca representación dialectal.
Introducción. Motivación
Los textos históricos y dialectales del catalán no
se pueden anotar morfosintácticamente de
manera automática ya que no existe una
variante estándar de referencia que permita un
tratamiento homogéneo y sistemático.
La anotación morfosintáctica de estos corpus
se ha realizado, hasta el momento, de manera
manual por no existir un sistema de anotación y
lematización automático o semiautomático
disponible (Albino, 2006) .
En la lengua antigua, por no existir una
variedad
estándar
de
referencia
nos
encontramos con una gran multiplicidad de
formas ortográficas para una misma palabra. En
el caso de las variantes dialectales, tenemos que
afrontar el problema de determinar como se
transcriben ortográficamente las formas propias
de ciertas áreas dialectales, que no tienen
ISSN: 1135-5948
El objetivo de los proyectos HistoCat y
DialCat ha sido doble. por un lado, se pretendía
desarrollar una herramienta para el análisis
morfosintáctico automático de textos históricos
y dialectales del catalán; por otro, se pretendía
recopilar el léxico de la lengua antigua y un
léxico dialectal actual, a partir de corpus.
El corpus de la lengua antigua (HistoCat)
consta de 97.603 palabras y está formado por
textos del siglo XIV, XV y XVI. El corpus
dialectal (DialCat) está formado por 23 textos
orales en versión fonoortogràfica (cf. Viaplana
y Perea, 2003) que presentan variedades locales
correspondientes a los seis grandes dialectos del
catalán y consta de 36.450 palabras.
Los proyectos que se presentan han
consistido en el desarrollo de un entorno de
anotación
semiautomático
aprovechando
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Jordi Duran, Mª Antonia Martí y Pilar Perea
herramientas existentes para la anotación
morfosintáctica de textos en catalán, que
minimizara al máximo la anotación manual.
2
3.3
Este último módulo cumple una doble
función. Por un lado, el usuario valida qué par
lema-PoS de cada forma detectada en los dos
módulos previos es la correcta en su contexto.
Por otro, permite incluir información nueva, en
concreto nuevos pares lema-PoS a aquellas
palabras que no se han analizado en los
módulos anteriores.
Tratamiento lingüístico de los corpus
Además de la información morfosibtáctica
básica que corresponde a la PoS, en el corpus
histórico se da información sobre el siglo, la
obra y el autor. En los corpus dialectales se
indica el dialecto, la variante dialectal y el
informante. El anotador puede indicar también
si una palabra és un derivado, un péstamo de
otra lengua, o bien un barbarismo.
3
Esta información, una vez introducida pasa a
formar parte del sistema de anotación del
segundo módulo, el que detecta las formas
históricas o dialectales. De esta forma el
formario histórico y dialectal se van
realimentado de manera que está disponible
para futuros tratamientos.
Características tecnológicas
El sistema de análisis semiautomático se
basa en una versión extendida del analizador
HS-Morfo1. El sistema de análisis se compone
de tres módulos: 1) El etiquetador con el
sistema de anotación estándar. 2) El etiquetador
con el sistema de anotación histórico/dialectal.
3) La interfaz de validación
3.1
4
Extensiones del sistema
Este sistema es fácilmente extensible a otras
lenguas, si se dispone de un analizador
morfológico de la lengua estándar.
Actualmente se esta desarrollando una
interfaz web de consulta que permitirá
recuperar el léxico por los criterios aplicados en
el proceso de anotación.
Etiquetador estándar
Este módulo se compone del etiquetador con
el sistema de anotación de la lengua estándar, el
analizador HS-Morfo. Es el primer módulo en
el procesamiento y recibe como entrada el
texto plano para crear un documento con el
texto segmentado y anotado: cada forma recibe
los distintos lemas y etiquetas PoS que puede
tener asociados. Aquellas palabras que no
reconoce por pertenecer al léxico histórico o
dialectal son tratadas en el módulo siguiente.
3.2
La interfaz de validación
5
Agradecimientos
DialCat (HUM2005-24445-E) e HistoCat
(HUM2005-24438-E) son dos proyectos
financiados por el Ministerio de Educación en
el programa de Acciones Complementarias.
Etiquetador con el formario
histórico /dialectal
Bibliografía
Albino Pires, Natalia (2006) ‘ULISES: un Integrated
Development Environement desarrollado para la
anotación de un corpus romancístico’.
Procesamiento del Lenguaje Natural, n. 37.
Septiembre 2006.
En este segundo módulo se completa la
anotación de las formas específicas del
vocabulario histórico o dialectal, tanto las
formas que no han sido reconocidas en el
módulo de análisis estándar, como también
aquellas formas que sí se han reconocido pero
son ambiguas y pueden recibir nuevas
interpretaciones..
Viaplana, J. y Perea, M. P. 2003. Corpus oral
dialectal. Una selecció. Barcelona. PPU.
1
HS-Morfo es un analizado cedido por la
empresa THERA SL para el desarrollo del proyecto.
El desarrollo tecnològico ha sido llevado a cabo por
dicha empresa.
280
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 281-282
recibido 01-06-2007; aceptado 22-06-2007
MorphOz: Una plataforma de desarrollo de analizadores
sintáctico-semánticos multilingüe
Oscar García Marchena
Departamento de Lingüística.
Laboratorio de Lingüística Formal
VirtuOz S.A.
Universidad Paris VII
47, rue de la Chaussée d’Antin
30, Chateau de rentiers 75013 París
75009París
[email protected]
[email protected]
léxico, las construcciones sintácticas,
semántica, y el orden de palabras.
1. Un analizador sintáctico-semántico
MorphOz es una plataforma de desarrollo de
conocimientos lingüísticos que permite la
confección
de
analizadores
sintácticosemánticos en cualquier lengua. Estos
analizadores se diferencian de otros parsers en
que sus análisis sintácticos están acompañados
de análisis semánticos generados a partir del
análisis
sintáctico
obtenido.
Estas
representaciones semánticas son independientes
de la lengua, y, en principio, idénticos para
frases de cualquier lengua con el mismo
significado.
Las posibilidades de aplicación tecnológica
de estos analizadores con capacidad de
representación de significado multilingüe son
variadas. Sus creadores, la sociedad VirtuOz, lo
emplean para la confección de agentes de
diálogo o chatbots: el usuario interactúa con una
interfaz que transforma las intervenciones
humanas en representaciones semánticas a las
que puede responder proactivamente a lo largo
de una conversación.
MorphOz utiliza un modelo de análisis
gramatical diferente del de otros analizadores:
en lugar de realizar un análisis sobre el orden
lineal de la frase, genera una representación
arborescente de su sintaxis profunda,
abstrayendo así el orden sintagmático del
análisis gramatical. Este tipo de representación
parte de la gramática de dependencias
(Tesnière: 1959), y está basado en un modelo
lingüístico, la Teoría Sentido-Texto o TST
(Mel’čuk: 1988), implementado gracias a una
gramática de unificación que es también un
modelo de representación lingüística reciente, la
gramática de unificación polarizada o GUP
(Kahane: 2004). Este sistema presenta la ventaja
de ser un modelo lingüístico modular,
permitiendo separar en dimensiones de análisis
independientes la información morfológica, el
ISSN: 1135-5948
2.
su
Adaptación multilingüe
2.1. Parámetros gramaticales en tipología
lingüística
Los modelos recientes en lingüística formal
(HPSG, LFG, etc.) proponen una organización
gramatical de la lengua al mismo tiempo, y en
grados diversos, lexicalista y construccionista.
La información gramatical sobre cómo se
combinan las unidades de una lengua dada están
codificadas en tres áreas: léxico, construcción, y
orden de palabras. El léxico, identifica la
(sub)categoría, el significado, y la morfología
que vincula un token con un lema; las
construcciones indican la estructura en la que
aparece esa (sub)categoría. Finalmente, el orden
de palabras señala las posibles posiciones de los
argumentos.
Una vez parametradas así las lenguas,
podemos
formalizar
el
grado
de
gramaticalización de cada uno de estos
módulos: una gramática del chino contendrá un
vocabulario sin información morfológica, varias
construcciones gramaticales, y pocas reglas de
orden lineal, marcando así un rígido orden de
palabras. Para el español, al contrario, se
precisará bastante información morfológica en
el léxico, y numerosas reglas de orden lineal,
para formalizar la variedad de órdenes
sintagmáticos posibles.
2. 2. Parámetros gramaticales en
MorphOz
Siguiendo esta corriente lexico- construccionista
de la lingüística formal actual, MorphOz cuenta
con un sistema modular que permite separar los
diferentes tipos de información lingüística,
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Oscar Garcia Marchena
tratarlas independientemente, e incluso transferir
los parámetros comunes a otras lenguas con
similitudes estructurales. De este modo,
construir un motor de análisis para cualquier
lengua equivale en MorphOz a distribuir
adecuadamente los recursos lingüísticos en tres
áreas: léxico (con indicación categorial,
semántica y morfológica), construcciones, y
orden de palabras.
El léxico de cada lengua es tratado como un
módulo intraspasable, pero no así el inventario
de categorías gramaticales; las construcciones
asociadas a las categorías, y el orden de
palabras son frecuentemente exportables a
lenguas genética o tipológicamente cercanas.
Las construcciones gramaticales describen las
dependencias sintácticas: identifica núcleos y
dependientes, y las funciones gramaticales que
identifican la dependencia (sujeto, OD, OI, CC,
etc.). Asimismo, las construcciones contienen
información semántica: a cada lexema
corresponde un semema-definición, que ocupa
un lugar en una ontología (basada en Wordnet),
y a cada función sintáctica le corresponde un rol
semántico regular (agente, tema, paciente, etc.).
Si bien esta decisión es extremadamente
problemática desde un punto de vista teórico, se
adapta bien a los propósitos de representación
semántica de la TST (Nasr: 1996).
Esta representación semántica última debe ser
la misma para todas las lenguas. De este modo,
la tarea final del lingüista es controlar que las
representaciones semánticas de frases con
significado equivalente sean idénticas en
lenguas diferentes, a pesar de las diferencias en
las representaciones de la sintaxis profunda
(sintaxis de dependencias).
nominales romances, en las que el verbo
copulativo no aporta significado, sino que forma
un predicado con su atributo.
2.2.1. Construcciones
S. KAHANE, “Grammaires d’unification
polarisées”, en 11ième Conférence annuelle
sur le Traitement Automatique des Langues
Naturelles (TALN’04), Fès, Maroc, France,
2004.
I. MEL’CUK, Dependency Syntax : Theory
and Practice. Albany, N.Y., The SUNY
Press, 1988.
A. NASR, Un modèle de reformulation
automatique fondé sur la Théorie Sens
Texte: Application aux langues contrôlées.
Tesis Doctoral en informática, Universidad
Paris 7, 1996.
L.TESNIÈRE, “Comment construire une
syntaxe” en Bulletin de la Faculté des
Lettres de Strasbourg, 1934, 7 - 12, 219–
229.
2.2.2. Orden de palabras
El orden de palabras está codificado siguiendo
el sistema de la TST, según el cual el orden
lineal corresponde a una relación de distancias a
izquierda o derecha entre el núcleo y su
dependiente. El paso entre la sintaxis profunda y
superficial se limita a un mapping o proyección
de las dependencias en la linealidad de la
lengua. Las lenguas romances difieren sólo en
algunas reglas, particularmente respecto al
orden de clíticos. Otras aplicaciones conciernen
las posibilidades de realización en la periferia
oracional, o la pasiva en chino, que se define
únicamente en función del orden de palabras.
3.
Conclusión
La implementación de una teoría lingüística
como la TST para la construcción de
analizadores sintáctico-semánticos tiene una
utilidad doble: plataforma de desarrollo para la
investigación en lingüística formal, y
aplicaciones industriales variadas: agentes de
conversación, sistemas de comprensión
multilingüe, etc.
El análisis de la sintaxis profunda proporciona
además una ventaja sobre otros analizadores: al
separar orden de palabras y dependencias, no
corremos el riesgo de confundir complementos
de adjuntos sea cual sea la posición de éstos.
4.
Respecto a las lenguas romances, alrededor del
80% de las construcciones han sido compartidas
para la confección de gramáticas de español,
italiano y portugués. Un 70% son compartidas
entre estas lenguas y el francés. Las estructuras
diferentes son sobre todo las (sub)categorías
verbales con diferente subcategorización, a
causa principalmente de la ausencia de reglas
para las alternancias en la realización de
valencias.
Para evitar calcos de modelos gramaticales de
tradiciones lingüísticas diferentes, para otras
lenguas, se integra directamente una gramática
de construcciones completa, pero siempre
inspirada en las soluciones ya adoptadas. Las
frases averbales del chino, por ejemplo, siguen
así el mismo esquema que las oraciones
282
Referencias
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 283-284
recibido 06-06-2007; aceptado 22-06-2007
Sistema de Diálogo Estadı́stico y Adquisición de un Nuevo
Corpus de Diálogos∗
D. Griol, E. Segarra, L.F. Hurtado, F. Torres, F. Garcı́a, M. Castro, E. Sanchis
Departament de Sistemes Informàtics i Computació
Universitat Politècnica de València. E-46022 València, Spain
{dgriol,esegarra,lhurtado,ftgoterr,fgarcia,mcastro,esanchis}@dsic.upv.es
Resumen: Se presenta un sistema de dialogo cuyos módulos principales se han
aprendido utilizando un corpus de diálogos adquirido en el proyecto DIHANA. Se
llevará a cabo una demostración del funcionamiento del sistema. Asimismo, se describe la adaptación de la arquitectura utilizada para la adquisición del corpus DIHANA
a una nueva tarea en el marco del proyecto EDECÁN.
Palabras clave: Sistemas de Diálogo, Adquisición de Corpus, Modelos Estadı́sticos
Abstract: We present a dialog system in which the main modules have been modeled using a dialog corpus acquired within the framework of the DIHANA project.
A demo of the current operation of the complete system will be carried out. In addition, we describe the adaptation of the architecture used for the acquisition of the
DIHANA corpus in the scope of a new task, within the framework of the EDECÁN
project.
Keywords: Dialog Systems, Corpus Acquisition, Statistical Models
1.
Introducción: el sistema de
diálogo DIHANA
Aunque construir una aplicación informática que pueda mantener una conversación con una persona de manera natural sigue siendo hoy en dı́a un reto, los constantes
avances de la investigación en Tecnologı́as del
Habla han permitido que sean factibles actualmente sistemas de comunicación personamáquina mediante la voz, capaces de interactuar con iniciativa mixta en el desarrollo del
diálogo. Una de las lı́neas de trabajo principales de nuestro grupo de investigación es
el desarrollo de metodologı́as estadı́sticas que
modelen los procesos de reconocimiento del
habla, comprensión automática del lenguaje
y gestión de diálogo. En estas aproximaciones, los parámetros del modelo se aprenden
automáticamente a partir de un corpus de
diálogos etiquetado.
El principal objetivo del proyecto DIHANA (Benedı́ et al., 2006) fue el diseño y desarrollo de un sistema de diálogo que posibilitase el acceso vocal, mediante habla espontánea
en castellano, a información de horarios, precios y servicios de trayectos de trenes nacio∗
Este trabajo se ha desarrollado en el marco del proyecto EDECÁN subvencionado por el MEC y FEDER número TIN2005-08660-C04-02, la ayuda de la
GVA ACOMP07-197 y el Vicerectorat d’Investigació,
Desenvolupament i Innovació de la UPV.
ISSN: 1135-5948
nales. En el marco de este proyecto se realizó la adquisición de un corpus de 900 diálogos
mediante la técnica del Mago de Oz. Para llevar a cabo esta adquisición se diseñó una estrategia para que el Mago gestionase el diálogo y seleccionase la próxima respuesta del
sistema, basándose en la información suministrada por el usuario hasta el momento actual del diálogo y las medidas de confianza
asociadas a cada uno de los slots de información. Este corpus se etiquetó mediante actos
de diálogo. Asimismo, se desarrolló una plataforma para facilitar las labores de gestión
del Mago y visualizar los resultados generados por los módulos del sistema que actuaban
de forma automática. En (Benedı́ et al., 2006)
puede encontrarse información detallada sobre el proceso de adquisición y etiquetado del
corpus DIHANA.
Como resultado del proyecto, se ha desarrollado un sistema de diálogo de iniciativa
mixta capaz de interactuar en el dominio de
la tarea. El comportamiento de los módulos
principales que componen el sistema se basa en modelos estadı́sticos aprendidos a partir del corpus DIHANA. En el sistema se
ha integrado el reconocedor automático del
habla Sphinx-II (cmusphinx.sourceforge.net),
cuyos modelos acústicos y de lenguaje se
han aprendido a partir del corpus adquirido. El módulo de comprensión del habla
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
David Griol, Encarna Segarra, Lluis. F. Hurtado, Francisco Torres, María José Castro Bleda, Fernando García y Emilio Sanchis
et al., 2006) (Torres et al., 2005), pudiendo
modificar la respuesta propuesta por el gestor en los casos en que considere que pueda
resultar problemática. Se ha desarrollado un
modulo adicional para la simulación de errores de reconocimiento y comprensión, basado en el análisis de los errores generados por
nuestros módulos de reconocimiento y comprensión de lenguaje para la tarea DIHANA
(Garcı́a et al., 2007).
se ha implementado mediante modelos estadı́sticos aprendidos a partir del corpus.
La sı́ntesis de texto a voz se lleva a cabo mediante el uso del sintetizador Festival
(www.cstr.ed.ac.uk/projects/festival). La información relativa a la tarea se almacena en
una base de datos PostGres, que utiliza información de trenes extraı́da de la web. Para llevar a cabo la gestión de dialogo se ha
desarrollado un modelo de diálogo estadı́stico aprendido automáticamente a partir del
corpus (Hurtado et al., 2006). La Figura 1
muestra la arquitectura del sistema de diálogo desarrollado para el proyecto DIHANA.
Figura 2: Esquema propuesto para la adquisición de un corpus en el proyecto EDECÁN
3.
Figura 1: Arquitectura del sistema DIHANA
2.
Objetivos de la demostración
La demostración mostrará el funcionamiento del sistema de diálogo DIHANA. Se
presentarán ejemplos de diálogos que proporcionen una adecuada valoración del sistema
DIHANA, ası́ como de la propuesta de adquisición del corpus EDECÁN.
El proyecto EDECÁN
Uno de los principales objetivos del proyecto EDECÁN (Lleida et al., 2006) es incrementar la robustez de un sistema de diálogo de habla espontánea mediante su adaptación y personalización a diferentes entornos
acústicos y de aplicación. En el marco del
proyecto, se desarrollará un sistema de diálogo completo para el acceso a un sistema de información mediante el habla espontánea (de
igual modo que el sistema DIHANA). El dominio definido para el sistema es la consulta
multilingüe (catalán y castellano) a un sistema que proporciona información sobre la disponibilidad y reserva de las instalaciones deportivas en nuestra universidad. Para el desarrollo de este sistema se utilizarán aproximaciones estadı́sticas, tal y como se ha descrito
para el sistema DIHANA. Por ello, se necesita un corpus de diálogos para la nueva tarea.
Para realizar la adquisición de este corpus
con usuarios reales, se propone una arquitectura del sistema de diálogo (véase Figura 2)
donde participarán dos Magos de Oz. El primer Mago sustituirá a los módulos de reconocimiento y comprensión del habla. El segundo Mago supervisará el comportamiento de
un gestor de diálogo automático con un modelo inicial aprendido a partir de un corpus
de diálogos simulados para la tarea (Hurtado
Bibliografı́a
Benedı́, J.M. et al. 2006. Design and acquisition of a telephone spontaneous speech
dialogue corpus in Spanish: DIHANA. En
Proc. of LREC’06, Genove.
Garcı́a, F. et al. 2007. Recognition and Understanding Simulation for a Spoken Dialog Corpus Acquisition. En Proc. of the
10th International Conference on Text,
Speech and Dialogue, TSD’07, Pilsen.
Hurtado, L.F. et al. 2006. A Stochastic Approach for Dialog Management based on
Neural Networks. En Proc. of InterSpeech’06, Pittsburgh.
Lleida, Eduardo et al. 2006. EDECÁN: sistEma de Diálogo multidominio con adaptación al contExto aCústico y de AplicacióN. En Proc. IV Jornadas en Tecnologı́a
del Habla, Zaragoza.
Torres, F. et al. 2005. Learning of stochastic
dialog models through a dialog simulation
technique. En Proc. of Eurospeech’05, Lisbon.
284
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 285-286
recibido 06-06-2007; aceptado 22-06-2007
JBeaver : Un Analizador de Dependencias para el Español∗
Jesús Herrera
Departamento de Lenguajes y Sistemas Informáticos
Universidad Nacional de Educación a Distancia
C/ Juan del Rosal, 16, E-28040 Madrid
[email protected]
Pablo Gervás, Pedro J. Moriano, Alfonso Muñoz, Luis Romero
Departamento de Ingenierı́a del Software e Inteligencia Artificial
Universidad Complutense de Madrid
C/ Profesor José Garcı́a Santesmases, s/n, E-28040 Madrid
[email protected], {pedrojmoriano, alfonsomm, luis.romero.tejera}@gmail.com
Resumen: JBeaver es un analizador de dependencias para el español desarrollado
utilizando una herramienta de aprendizaje automático (Maltparser ). Este analizador
se caracteriza por ser el único públicamente disponible para el español, ser autónomo,
fácil de instalar y de utilizar (mediante interfaz gráfica o por comandos de consola) y de elevada precisión. Además, el sistema desarrollado sirve para entrenar de
manera sencilla modelos de Maltparser, por lo que se configura en potencia como un
analizador de dependencias para cualquier idioma.
Palabras clave: Análisis de dependencias, Maltparser, JBeaver
Abstract: JBeaver is a dependency parser built using the Maltparser machinelearning tool. It is publically available , easy to install and to use, and provides high
precision. It also allows training Maltparser models for any language, so it can be
used to train dependency parsers for any language.
Keywords: Dependency parsing, Maltparser, JBeaver
1.
JBeaver
El objetivo final era un analizador de dependencias para el español, de libre distribución y que fuera fácil de instalar y manejar.
Por otra parte, se debı́an acotar los esfuerzos
dada la limitación de recursos del proyecto.
1.1.
Decisiones de Diseño y
Elección de Recursos
Bajo los requisitos del proyecto era inviable el desarrollo de la algorı́tmica propia del
análisis de dependencias, por lo que se hubieron de buscar recursos que evitasen esta labor. Uno de ellos es Maltparser (Nivre
et al., 2006), que finalmente fue el elegido por las caracterı́sticas que ofrecı́a: era
autónomo, fácil de integrar como subsistema
y proporcionaba unos resultados notables en
las lenguas para las que se habı́a probado hasta el momento.
Tanto para el entrenamiento de Maltparser como para la ejecución como analizador
∗
Partially supported by the Spanish Ministry
of Education and Science (TIN2006-14433-C02-01
project).
ISSN: 1135-5948
del modelo aprendido es necesario proporcionar el etiquetado de categorı́as gramaticales de las palabras del texto. Como uno de
los objetivos era que JBeaver pudiese recibir
textos sin anotar, para facilitar al máximo
su uso, la propia herramienta deberı́a etiquetar los textos recibidos a la entrada con su
categorı́a gramatical. Igualmente que en el
caso del análisis de dependencias, tampoco
era factible el desarrollo de algoritmos para
el etiquetado de categorı́as gramaticales. Por
ello, fue necesario buscar una herramienta
disponible, autónoma, fiable y fácil de integrar en JBeaver ; esta fue, finalmente, TreeTagger (Herrera et al., 2007) (Schmid, 1994).
Tanto el entrenamiento de Maltparser como la evaluación del producto final obtenido
requieren de corpora convenientemente anotados. Este aspecto se vio resuelto con el
uso del corpus Cast3LB (Navarro et al.,
2003), que contiene textos en español anotados con sus análisis sintácticos de constituyentes. Para obtener los corpora adecuados para el entrenamiento de Maltparser y la
evaluación de JBeaver, se desarrolló una herramienta para convertir los análisis de consti-
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Jesús Herrera de la Cruz, Pablo Gervás, Pedro J. Moriano, Alfonso Muñoz y Luis Romero
Figura 1: Interfaz gráfica de JBeaver
tuyentes del Cast3LB en análisis de dependencias (Herrera et al., 2007).
Otro aspecto definitorio de JBeaver es su
interfaz gráfica de usuario (ver Figura 1). En
ésta se muestran los análisis obtenidos en forma de grafos, para que los datos resulten
visualmente cómodos de interpretar. No obstante, también se proporciona la salida en
forma de fichero de texto, para que pueda ser
fácilmente manipulado por otros programas.
La representación de los grafos quedó delegada a Graphviz, como otro de los subsistemas
que forman parte de JBeaver.
1.2.
modelo de referencia, comprobándose que se
habı́an encontrado correctamente el 91 % de
las dependencias.
Bibliografı́a
J. Herrera, P. Gervás, P.J. Moriano, A.
Muñoz, L. Romero. 2007. Building Corpora for the Development of a Dependency Parser for Spanish Using Maltparser.
(SEPLN, this volume).
B. Navarro, M. Civit, M.A. Martı́, R. Marcos,
B. Fernández. 2003. Syntactic, Semantic
and Pragmatic Annotation in Cast3LB.
Proceedings of the Shallow Processing on
Large Corpora (SproLaC), a Workshop on
Corpus Linguistics, Lancaster, UK.
Pruebas
De las diversas pruebas a que fue sometido JBeaver durante la fase de desarrollo, son
de destacar las relacionadas con el rendimiento del núcleo analizador, es decir, del modelo
entrenado de MaltParser. Para ello se seleccionó una fracción del corpus Cast3LB, de
431 palabras, no usada previamente para el
entrenamiento del modelo de Maltparser y se
generó a partir de ella un corpus con análisis
de dependencias, que se tomó como modelo
de referencia. Se extrajeron los textos sin etiquetar de ese corpus y se sometieron al análisis de dependencias efectuado por el modelo aprendido. Posteriormente se comprobó la
salida proporcionada por el analizador con el
J. Nivre, J. Hall, J. Nilsson, G. Eryigĭt
and S. Marinov. 2006. Labeled Pseudo–
Projective Dependency Parsing with Support Vector Machines. Proceedings of the
CoNLL-X Shared Task on Multilingual
Dependency Parsing, New York, USA.
H. Schmid. 1994. Probabilistic Part-ofSpeech Tagging Using Decission Trees.
Proceedings of the International Conference on New Methods in Language Processing, pages 44–49, Manchester, UK.
286
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 287-288
recibido 05-06-2007; aceptado 22-06-2007
NowOnWeb: a NewsIR System∗
Javier Parapar
IRLab, Computer Science Dept.
University of A Coruña, Spain
Fac. Informática, Campus de Elviña
15071, A Coruña, SPAIN
[email protected]
Álvaro Barreiro
IRLab, Computer Science Dept.
University of A Coruña, Spain
Fac. Informática, Campus de Elviña
15071, A Coruña, SPAIN
[email protected]
Resumen: Hoy en dı́a existen miles de sitios web de noticias. Los modos tradicionales para acceder a este inmenso repositorio de información no son adecuados. En
este contexto presentamos NowOnWeb, un sistema de recuperación de noticias que
obtiene los artı́culos de la red y permite buscar y navegar entre los mismos.
Palabras clave: Sistemas de noticias, extracción de información, detección de redundancia, generación de resúmenes.
Abstract: Nowadays there are thousands of news sites available on-line. Traditional
methods to access this huge news repository are overwhelmed. In this paper we
present NowOnWeb, a news retrieval system that crawls the articles from the internet
publishers and provides news searching and browsing.
Keywords: News system, information extraction, redundancy detection, text summarization.
1.
Introduction
The huge amount of news information
available on-line requires the use of Information Retrieval (IR) techniques to avoid overwhelming the users. The main objectives of
these IR methods are: reduce the time spend
in reading the articles, avert the redundancy
and provide topic search capability. Given
this context we present NowOnWeb 1 , a NewsIR system that deals with the on-line news
sources to provide an effective and efficient
way to show news articles to the user through
a comfortable and friendly interface. It is based on our previous research and solutions
in the IR field and serves as a research platform to test and asses the new solutions, algorithms and improvements developed in the
area.
2.
temporal window, a news recognition and extraction module that allows dynamic source
adding, a news grouping component that uses
a redundancy detection approach, and an article summariser based on relevant sentences
extraction.
System Overview
NowOnWeb was designed as a ModelView-Controller web-application following a
component-based architecture. The main system components are: a crawler and an indexer to maintain an incremental index with a
∗
Acknowledgements:This work was cofunded by
the “Secretarı́a de Estado de Universidades e Investigación” and FEDER funds (MEC TIN200508521-C02-02) and “Xunta de Galicia”(PGIDIT06
PXIC10501PN).
1
An operative version with international news is
available in http://nowonweb.dc.fi.udc.es
ISSN: 1135-5948
Figura 1: A snapshot of the application appearance.
Our application offers the user: news searching among all the indexed publishers, query
suggestion, query spelling correction, redundancy detection and filtering, query biased
summary generation, multiple format outputs like PDF or syndication services, and
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Javier Parapar y Álvaro Barreiro
2003) with respect to its relevance with the
query. The sentences with higher score are
chosen to get a summary of the desired size
and they are resorted to maintain the original
article relative position.
personalisation options such as source selection. All these characteristics aim to facilitate
the use of the system, for this reason the results are showed in a friendly and natural way
(see Figure 1). In this sense technologies like
AJAX were applied in order to improve the
user experience and the system possibilities.
3.
4.
NowOnWeb resulted in a NewsIR system
that satisfies the user needs of information,
allowing them to be up-to-date without time
waste.
We got an original solution different from
the existing ones in the academic (Columbia
NewsBlaster (McKeown et al., 2002), Michigan NewsInEssence(Radev et al., 2005)) and
commercial (Google News, Yahoo News or
MSN Newsbot) fields.
As further work we will approach architectural system improvements, efficient query
logging storage and mining, and evaluation of
our news extraction algorithm.
Research Issues
Three are the main research topics involved in the development of NowOnWeb: news
recognition and extraction, redundancy detection and summary generation
3.1.
News Recognition and
Extraction
The problem here is to extract from an heterogenous set of pages, most of them without
articles, the news articles present. So first we
have to filter the pages without interesting
content, and second from those with an article inside, extract the fields (title, body, date
and image if present) among many not desired content.
We developed a news recognition and extraction technique based on domain specific
heuristics over the articles structure that resulted in an efficient and effective algorithm.
3.2.
References
Allan, James, Courtney Wade, and Alvaro
Bolivar. 2003. Retrieval and novelty detection at the sentence level. In SIGIR
’03: Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval, pages 314–321, New York, NY,
USA. ACM Press.
Redundancy Detection
The objective of this point is to filter the
redundant articles in order to avoid the overload of the user. To get this we developed and
algorithm based on traditional techniques of
the information filtering field (Zhang, Callan,
and Minka, 2002).
Generally speaking our method takes as
input a ranking of documents sorted in base
of their relevance with the user query. The
algorithm dynamically assigns a redundancy
score to each document respect to the already
created redundancy sets. If that score is over
a threshold with one of the sets, the document will be included in that set, other way
it will constitute a new redundancy group.
3.3.
Conclusions and Future Work
McKeown, Kathleen R., Regina Barzilay, David Evans, Vasileios Hatzivassiloglou, Judith L. Klavans, Ani Nenkova, Carl Sable, Barry Schiffman, and Sergey Sigelman. 2002. Tracking and summarizing
news on a daily basis with Columbia’s
Newsblaster. In Proceedings of the Human
Language Technology Conference.
Radev, Dragomir, Jahna Otterbacher, Adam
Winkel, and Sasha Blair-Goldensohn.
2005. Newsinessence: summarizing online
news topics. Commun. ACM, 48(10):95–
98.
Zhang, Yi, Jamie Callan, and Thomas Minka. 2002. Novelty and redundancy detection in adaptive filtering. In SIGIR ’02:
Proceedings of the 25th annual international ACM SIGIR conference on Research
and development in information retrieval,
pages 81–88, New York, NY, USA. ACM
Press.
Summary Generation
The system offers the user summaries
about the relevant articles respect to the
query. These summaries are dynamically generated in retrieval time, they are querybiased.
To get this we used a technique based
on the extraction of relevant sentences. Each
sentence is scored (Allan, Wade, and Bolivar,
288
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 289-290
recibido 05-06-2007; aceptado 22-06-2007
The Coruña Corpus Tool∗
Javier Parapar
IRLab, Computer Science Dept.
University of A Coruña, Spain
Fac. Informática, Campus de Elviña
15071, A Coruña, SPAIN
[email protected]
Isabel Moskowich-Spiegel
MUSTE, English Philology Dept.
University of A Coruña, Spain
Fac. Filologı́a, Campus de Zapateira
15070, A Coruña, SPAIN
[email protected]
Resumen: El Coruña Corpus de documentos cientı́ficos será usado para el estudio
diacrónico del discurso cientı́fico en la mayorı́a de los niveles lingüı́sticos, contribuyendo de esta forma al estudio del desarrollo histórico del inglés. El Coruña Corpus
Tool es un sistema de recuperación de información que permite compilar conocimiento sobre el corpus.
Palabras clave: Lingüı́stica de corpus, inglés cientı́fico-técnico, recuperación de
información.
Abstract: The Coruña Corpus of scientific writing will be used for the diachronic
study of scientific discourse from most linguistic levels and thereby contribute to
the study of the historical development of English. The Coruña Corpus Tool is an
information retrieval system that allows the extraction of knowledge from the corpus.
Keywords: Corpus linguistics, English scientific writing, information retrieval.
1.
Introduction
2.
The Coruña Corpus: A Collection of Samples for the Historical Study of English Scientific Writing was carried out since 2003 by
the Muste Group of the University of A
Coruña. The corpus compilation is still in
progress, at the moment we have gathered
together samples of 10,000 words approximately belonging to the field of eighteenthand nineteenth-century mathematics and astronomy.
In order to manage all the information
that will be present in the corpus and to
facilitate linguists the gathering of data, a
corpus management tool, the Coruña Corpus
Tool (CCT) has been developed in collaboration with the IRLab of the University of A
Coruña. In this demo we would like to present to the natural language processing community the main characteristics of the corpus compilation process and its management
tool.
∗
Acknowledgements: The research which is here reported on has been funded by the Xunta de Galicia
through its Dirección Xeral de Investigación e Desenvolvemento, grant number PGIDIT03PXIB10402PR
(supervised by Isabel Moskowich-Spiegel). This grant
is hereby gratefully acknowledged. The first author
also has to acknowledge the funds of the “Secretarı́a
de Estado de Universidades e Investigación” and FEDER (MEC TIN2005-08521-C02-02) and “Xunta de
Galicia”(PGIDIT06 PXIC10501PN).
ISSN: 1135-5948
The Coruña Corpus
The Coruña Corpus (CC) has been designed as a tool for the study of language change in English scientific writing in general, as
well as within the different scientific disciplines. Its purpose is to facilitate investigation
at all linguistic levels, though, in principle,
phonology is not included among our intended research topics. The CC contains English
scientific texts other than medical produced
between 1650 and 1900. Medical texts have
been disregarded since they are being compiled by Taavitsainen and Pahta and their
team in Helsinki (Taavitsainen and Pahta,
1997). Our project proposes to complement
other corpora pertaining to the history of
what we nowadays call ESP, such as the wellknown Corpus of Early English Correspondence, the Corpus of Early English Medical
Writing, and the Lampeter Corpus of Early
Modern English Tracts.
From the six areas into which UNESCO divides Science and Technology we are
compiling samples of texts, at the moment,
from: Exact and Natural Sciences: Mathematics, Astronomy, Physics and Natural History; Agricultural Sciences and Humanities:
Philosophy and History. We intend to compile the same number of samples for each scientific field in order to facilitate comparative
studies. For each discipline we have selected
two texts per decade, with each sample con-
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Javier Parapar y Isabel Moskowich-Spiegel
Basic term search: it can be launched over
the whole set of indexed documents or at individual document level. As the result of a
user query all the occurrences of a word are
shown. For each one the following information is available: document identifier, word
position and concordance.
Advanced search: a certain number of custom search characteristics are implemented
to facilitate the extraction of research results:
taining around 10,000 words, excluding tables, figures, formulas and graphs.
3.
The Coruña Corpus Tool
In order to retrieve information from the
compiled data, we decided to create a corpus
management tool. This software application
is currently in its testing phase. It is designed to help linguists to extract and condense
valuable information for their research. The
Coruña Corpus Tool (CCT) is an Information Retrieval (IR) platform (see Figure 1)
where the indexed textual repository is the
set of compiled documents that constitutes
the CC. The texts that conform the CC we-
Wild card use: the inclusion of wild card
characters are allowed to specify the
searching of spelling variations of the same form along time.
Regular expression searching: to allow
searching using patterns, it is useful for
example to search by suffixes or prefixes.
Phrase search: combinations of words
can be specified as a query indicating
the gap between the words. This can be
used for instance to look for expressions
or verbal forms.
Term list generation: generation of lexicon
lists of the whole corpus or inside each document (as chosen). An alphabetical sorted list
of words with the number of appearances is
generated filtered by the user criteria.
Figura 1: A snapshot of the application.
4.
re coded and stored as XML documents. We
chose to tag the information following the recommendations of the TEI (Text Encoding
Initiative) (Sperberg-McQueen and Burnard,
2002) standard. Several tagged fields that we
desire to index are extracted from the documents. In this sense we have to notice that
we build a multi-field index to allow searches
using different criteria; we store, for instance, information about authors, date, scientific
field, corpus document identifier, etc.
It is fair to mention here that we used some existing open-source libraries for the system implementation. Among them we would
like to mention Lucene: it is an indexing library (Apache, 2007) widely used in the development of IR applications.
3.1.
Conclusions
As previously explained, the CC is still a
work in progress. We have a lot of text to
compile and codify yet. But the CCT is designed to be scalable and adaptable to the new
needs of the corpus compilation process. The
CCT is currently an option to manage any
TEI encoded corpus and offers the features
more often demanded by linguists.
References
Apache, Foundation.
2007.
http://lucene.apache.org/.
Lucene:
Sperberg-McQueen, C. M. and L. Burnard. 2002. TEI P4: Guidelines for
electronic text encoding and interchange.
In Text Encoding Initiative Consortium.
XML Version: Oxford, Providence, Charlottesville, Bergen.
Features
The system offers among others the next
functionalities:
Document validation: if the document is
not correctly constructed according to the
DTD rules, the syntax validator will show the
coders the errors present in the document so
they can be fixed.
Taavitsainen, Irma and Päivi Pahta. 1997.
Corpus of early english medical. In ICAME ’97: Proceedings of the International Computer Archive of Modern and Medieval English Conference, pages 71–78.
Kluwer Academic Print on Demand.
290
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 291-292
recibido 18-05-2007; aceptado 22-06-2007
WebJspell
an online morphological analyser and spell checker
Rui Vilela
Universidade do Minho, Departamento de Informática
Campus de Gualtar 4710-057 Braga, Portugal
[email protected]
Resumen: Webjspell es una herramienta multiusos para Internet destinada al
análisis morfológico y corrección ortográfica de textos escritos en portugués. Además
de estas funcionalidades provee: ejemplos de frases, tablas de conjugación verbal,
sugerencia de palabras ante eventuales errores ortográficos y corrección ortográfica
de páginas de Internet. En esta comunicación se describe las caracterı́sticas de
Webjspell y las posibles extensiones de sus técnicas a otras aplicaciones.
Palabras clave: corrección ortográfica, analizador morfológico.
Abstract: Webjspell is an Internet multipurpose tool for Portuguese morphological
analysis and spell checking. It provides examples of phrases, frequencies, verbal
conjugation tables, word suggestions, and Internet pages spell checking. This article
describes Webjspell features, and results.
Keywords: spell checking, morphology analysis.
1
Introduction
People have compulsion for auto-evaluate
and improve their written production. There
is a wide range of available linguistics resources, paper or digital, helping all people
to outshine their language knowledge.
All people, especially when they study foreign languages, have need for more online
resources to leverage their language understanding, due to sparse and more expensive
resources.
Webjspell was developed as solution for
this problem, especially within the Portuguese language domain, making attainable
a morphological analyser and a spell checker.
2
Webjspell
Webjspell was developed to spread the usage of the morphological analyser Jspell to
a wider audience. Available online on http:
//linguateca.di.uminho.pt/jspell.
It was developed in collaboration of
Natura Project1 and Linguateca2 to have
a broader and more user-friendly interface.
Development was made using Perl language
and the available Jspell module. (Simões y
Almeida, 2001)
Jspell and Portuguese dictionary were developed in 1994 by José João de Almeida
1
2
http://natura.di.uminho.pt
http://www.linguateca.pt
ISSN: 1135-5948
and Ulisses Pinto (Almeida y Pinto, 1995),
based on Ispell spell checker for UNIX environment. Is an interactive command line application for analyzing mainly words in text
files.
The Portuguese dictionary is currently
used along other available open source applications, such as Firefox, Thunderbird, and
OpenOffice. Along with diverse usage for different kinds of research projects.
Webjspell adds additional features, by using Jspell Perl interface. Beyond a new interactive interface, it uses public domain services and logging. On his foundations, it is
divided in four services: morphological analysis, spell checking, Internet web pages spell
checking, and word feedback or suggestion.
3
Morphological analyser
The morphological analyser, in figure 1, has
a bigger notability than other available services. For each of the given words and languages, the program obtains a morphological
and semantic classification.
Improvements were made over the original Jspell, such as: Verbose morphological classification; Inflected words stem from
lemmas; Phrase examples from public corpora, Word frequencies; Suggestions; Feedback; Verb conjugation tables;
Further improvements are planned for extending some features, like external online
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Rui Vilela
Figure 1: Morphological analysis
tained feedback for self-improvement of diverse dictionaries.
Since the application was released, it has
more than 2400 searches per month, along
with an explosion of the number of word suggestions for the dictionaries, positively contributed for increasing the quality and precision of several dictionaries.
All words, especially the ones that Jspell is
unable to identify are kept for later analysis.
This method brings advantages in identifying
typical user errors and new words. Assorted
problems were mended, as much in features,
as in interface, including the Perl interface
and Jspell. Webjspell contributes to the dictionary development, on which depend several text processing applications.
service usage, such as: language translation,
word definition, and thesaurus capability.
3.1
Spell Checker
The spell checker aids the user to discover
and fix misspelled words, with resource to
word suggestion. Colours are used to mark
errors, fixes, and also to identify foreign
words.
Webjspell enhances some of the features of
Jspell module, such has missing spaces, hyphens and in conversely way.
Further preferment can be implemented,
like the use of patterns for common phonetical errors, better exploitation of Jspell
morphological capabilities for finding simple
grammatical errors, along with filtered suggestions, and duplicated word detection.
3.2
Bibliografı́a
Web pages spell checker
Almeida, J.J. y Ulisses Pinto. 1995. Jspell
– um módulo para análise léxica genérica
de linguagem natural. En Actas do X
Encontro da Associação Portuguesa de
Linguı́stica, páginas 1–15, Évora 1994.
It allows for a given Internet address, to
search spelling mistakes, the program edits
locally the page, and marks with colours the
unknown and foreign words in other supported dictionaries.
3.3
Simões, Alberto Manuel y José João
Almeida. 2001. jspell.pm – um módulo
de análise morfológica para uso em processamento de linguagem natural. En Actas
da Associação Portuguesa de Linguı́stica,
páginas 485–495.
Word suggestions
A interface that allows users to submit a wish
list of words, that could be or not included
in the dictionary.
4
Final considerations
The Webjspell results after some months on
the wild, becomes worthy to analyze the ob292
PROYECTOS
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 295-296
recibido 06-06-2007; aceptado 22-06-2007
El proyecto Gari-Coter∗ en el seno del proyecto RICOTERM2∗∗
Fco. Mario Barcala Rodrı́guez y Eva M.a Domı́nguez Noya
Centro Ramón Piñeiro para a Investigación en Humanidades
{fbarcala,edomin}@cirp.es
Pablo Gamallo Otero y Marisol López Martı́nez y Eduardo Miguel Moscoso Mato y
Guillermo Rojo y Marı́a Paula Santalla del Rı́o y Susana Sotelo Docı́o
Universidade de Santiago de Compostela
{pablogam, fgmarsol, fgmato, guillermo.rojo, fesdocio}@usc.es
Resumen: Descripción del proyecto Gari-Coter para la elaboración de los recursos
lingüı́sticos en gallego necesarios para un re-elaborador de consultas multilingüe.
Palabras clave: expansión de consultas, corpus, base de datos terminológica, extracción automática de términos
Abstract: Description of the Gari-Coter project for the development of the necessary linguistic resources in Galician for a multilingual query re-elaborator.
Keywords: query expansion, corpus, terminological database, automatic terminology extraction
1.
Situación actual
2.
Como se ha indicado en la nota de agradecimiento adjunta al acrónimo del proyecto
incluido en el tı́tulo, éste se ha venido desarrollando desde 2004, y su cierre está previsto
para finales de 2007. Dos años y medio, por
tanto, lleva el proyecto en curso, por lo cual
lo que incluimos aquı́ es una presentación esquemática de lo que se proponı́a, ası́ como
de algunos de sus, ahora ya, resultados de
hecho, a falta de un sexto de tiempo de desarrollo del proyecto. Lo que queda del mismo,
por otra parte, es previsible que se dedique
a la integración de los recursos y herramientas generados en el seno de cada uno de los
subproyectos que integran el proyecto coordinado RICOTERM2, el propio Gari-Coter,
y el subproyecto, del mismo nombre que el
coordinado, RICOTERM21 .
∗
Creación e integración multilingüe de recursos terminológicos en gallego para Recuperación de Información mediante estrategias de control terminológico
y discursivo en ámbitos comunicativos especializados.
Subproyecto financiado, bajo la dirección de M.a Paula Santalla, por el Ministerio de Educación y Ciencia
entre 2004 y 2007 (HUM2004-05658-C02-02/FILO).
∗∗
Control terminológico y discursivo para la recuperación de información en ámbitos comunicativos especializados, mediante recursos lingüı́sticos especı́ficos
y un reelaborador de consultas. Proyecto coordinado
financiado, bajo la dirección de Mercè Lorente Casafont, por el Ministerio de Educación y Ciencia entre
2004 y 2007 (HUM2004-05658-C02-00/FILO).
ISSN: 1135-5948
El subproyecto Gari-Coter en
el seno del proyecto
coordinado RICOTERM2
El proyecto coordinado RICOTERM2 tiene como objetivo principal el desarrollo de
un prototipo para un sistema multilingüe de
reformulación de consultas planteadas por
usuarios de Internet interesados en la búsqueda de información acerca de un ámbito comunicativo especializado, en nuestro caso, economı́a. El sistema se integrará, como se describe en (Lorente, 2005), en una aplicación
que consistirá en una interfaz, ubicada en un
portal web especializado en economı́a, para la
transformación de consultas simples en consultas multilingües expandidas lingüı́stica y
conceptualmente. Actualmente las lenguas de
trabajo son el catalán, el castellano, el gallego, el inglés y el vasco. El diseño general
del prototipo está también descrito en (Lorente, 2005): baste aquı́, para que puedan ser
cabalmente entendidos los objetivos especı́ficos del subproyecto Gari-Coter, indicar que,
con el propósito de mejorar los resultados de
las aplicaciones implicadas de Recuperación
de Información mediante técnicas de expansión de consultas, el proyecto utiliza métodos
tanto de expansión únicamente por términos
(only-term expansion) como de expansión de
texto completo (full-text expansion). Para lo
primero, se hará uso de una ontologı́a del dominio. Para lo segundo, de un corpus especı́fico de economı́a, estructural y lingüı́sticamen-
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Fco. Mario Barcala, Eva Domínguez, Pablo Gamallo, Marisol López, Eduardo Miguel Moscoso, Guillermo Rojo et al.
pio sistema de etiquetación. Toda la anotación del corpus genérico fue corregida manualmente.
te anotado, el cual habrá de servir para, mediante el recurso a herramientas como extractores automáticos de terminologı́a y similares, detectar colocaciones o fraseologı́a propia de los términos introducidos por el propio usuario, u obtenidos tras la consulta a la
ontologı́a.
Dentro de este planteamiento general,
el proyecto Gari-Coter (aparte de objetivos
compartidos, relacionados, como puede suponerse, con el diseño y la integración de todo lo
producido en una aplicación web) tiene como
objetivos propios la constitución de los recursos para el gallego: un corpus de economı́a,
adecuadamente codificado y anotado, adaptando para ello herramientas de procesamiento existentes para el gallego, y un banco de
datos terminológicos, obtenido a partir de recursos previos y de la explotación del propio
corpus constituido. A falta de algo más de
seis meses para la finalización del proyecto,
estos recursos han podido ser elaborados en
la forma y dimensión que someramente describimos a continuación.
2.1.
2.2.
El banco de datos
terminológico
El banco de datos terminológico se ha
elaborado a partir, por un lado, de recursos previos que constituı́an fuentes considerablemente heterogéneas3 en cuanto a calidad, dimensión y fiabilidad: dos diccionarios,
dos glosarios electrónicos y la sección de economı́a de una base de datos terminológica,
ésta última la más rica y rigurosa sin duda.
Actualmente, el banco de datos consta de
6046 términos del dominio económico obtenidos por esta vı́a, la mayorı́a de ellos asociados
a información exhaustiva acerca del lema, la
clase de palabras y la definición, ası́ como,
en la mayorı́a de los casos, equivalentes en
otras lenguas e información sobre sinónimos
e hiperónimos.
El conjunto de términos descrito, asi como
el corpus, se han utilizado además para, mediante técnicas de extracción automática de
términos multipalabra basadas en medidas de
similitud contextual, ampliar el banco de datos terminológico. En la última de las experiencias llevadas a cabo 740 términos multipalabra pudieron obtenerse, pero los resultados de precisión asociados, debidos sin duda al reducido tamaño del corpus, aconsejan, cuanto menos, una revisión manual de
los mismos.
El corpus
Como para todas las lenguas implicadas
en el proyecto RICOTERM2, no uno sino, en
realidad, dos subcorpus de dominio han sido
desarrollados para el gallego: un subcorpus
genérico y uno especı́fico. El primero integrado por 609 noticias de periódico que suman
206510 palabras distribuidas en 7892 oraciones. El segundo integrado por 14 libros y dos
revistas especializadas que entre todos suman
801702 palabras distribuidas en 34588 oraciones.
Ambos corpus están codificados utilizando el estándar XML. Cada documento consta
de una cabecera con información bibliográfica y de contenido, seguida ésta del documento mismo, estructurado hasta el nivel de la
oración. Ambos corpus, asimismo, han sido
anotados morfosintácticamente con información acerca de clase de palabras y categorı́as
flexivas consideradas relevantes.
En lı́nea con los planteamientos generales
del proyecto coordinado (búsqueda y aprovechamiento de recursos preexistentes), para la
constitución de ambos corpus llegamos a un
acuerdo con el Centro Ramón Piñeiro para a
Investigación en Humanidades2 , que nos cedió los textos procedentes del corpus CORGA, Corpus de Referencia del Gallego Actual, procesados lingüı́sticamente con su pro-
Notas
1
Con el mismo acrónimo y nombre que el proyecto
coordinado, financiado por el Ministerio de Educación
y Ciencia entre 2004 y 2007, y dirigido por Mercè
Lorente (HUM2004-05658-C02-01/FILO).
2
http://www.cirp.es. [Consultado: 6, junio, 2007].
3
Eiras: Eiras Rey, A.: Dicionario de economı́a,
no publicado. Formoso: Formoso Gosende, V.
(coord.) (1997): Diccionario de termos económicos
e empresariais galego-castelán-inglés. Santiago
de Compostela: Confederación de Empresarios
de Galicia. Panlatin Electronic Commerce
Glossary: http://fon.gs/panlatino. Glossary about commerce from galego.org:
http://galego.org/vocabularios/ccomercial.html.
SNL: http://www.usc.es/en/servizos/portadas/snl.jsp.
Bibliografı́a
Lorente, M.
2005.
Ontologı́a sobre economı́a y recuperación de información [en lı́nea].
Hipertext.net,
(3). http://www.hipertext.net. [Consultado: 30, enero, 2007].
296
Procesamiento del Lenguaje Natural, nº39 (2007), pp. 297-298
recibido 18-05-2007; aceptado 22-06-2007
Portal da Língua Portuguesa
Maarten Janssen
Institúto de Linguística Teórica e Computacional (ILTEC)
Rua Conde de Redondo 74-5, Lisboa, Portugal
[email protected]
Resumen: El objetivo del proyecto Portal da Língua Portuguesa es construir, con un doble
objetivo, un juego de recursos léxicos. En primer lugar, estos recursos sirven como fuente de
información para una página web sobre la lengua portuguesa para el público en general. En
segundo lugar, son un repositorio de información léxica para la investigación lingüística. El
dibujo de la base de datos es modular y relacional, y se hizo de modo que proporcione
soluciones estructurales para problemas léxicos, como son los de la homonimia, variación
ortográfica, etc.
Palabras clave: Base de datos léxica, morfología, fonética.
Abstract: The goal of the Portal da Língua Portuguesa project is to construe a set of lexical
resources with a double objective. On the one hand, the resources serve as the content source for
a web site about the Portuguese language, aimed at the general public. On the other hand, the
resources are built to serve as an open source repository of lexical information for linguistic
research. The design of the database is modular and relational, and is set-up in such a way that it
provides structural solutions for lexical difficulties like homonymy, orthographic variation, etc.
Keywords: Lexical database, morphology, phonetics
1
Project Description
The Portal da Língua Portuguesa (henceforth
Portal) is a free, large scale online resources on
the Portuguese language, currently under
development at the ILTEC institute in Lisbon,
Portugal. It has a primary focus on lexical
information, and is designed for the general
language user. Although the Portal is the visible
outlet of the Portal project, the goal of the
project itself is moreover to create a set of
lexical resources which, apart from their online
availability, will serve as open source data for
linguistic research. The project started from
lexical database called MorDebe, which
primarily concerns inflectional morphology.
But the database is currently being transformed
into an Open Source Lexical Information
Network (OSLIN), which contains a much
wider, open-ended range of lexical information.
Additional types of lexical information
currently under development are inherent
inflections, pronunciation, and syllabification.
The Portal project itself is internally
supported by the ILTEC institute, and has no
ISSN: 1135-5948
strict delimitation. Work on the MorDebe
database was started mid 2004, and the web site
was launched in November 2006. The web site
is intended to continue for an undetermined
amount of time. The project has two full-time
FCT-funded scholars assigned to it for a period
of 3 years, starting from September 2006. The
project is enforced by satellite projects, which
deal with specific parts of the database. A twoyear project on the improvement and
exploration of the derivational data in OSLIN
will start in October 2007, and run for two
years.
2
2.1
OSLIN Design
Main database
The main database of OSLIN (MorDebe)
consists of a simple two-table structure, one
table with lemmas, the other with the related
word-forms. The lemma list consists of two
parts – on the one hand, it contains the lemmas
from the two major Portuguese dictionaries, and
on the other hand, it contains words with a
significant frequency in newspapers. In both
© 2007 Sociedad Española para el Procesamiento del Lenguaje Natural
Maarten Janssen
parts of the database, a strict lexicographic
control is kept over the data, with a significant
amount of human intervention, using computeraided methods. The total number of lemmas at
this moment is around 130k, with constant
additions being made, and well over 1,5M
word-forms.
Although the MorDebe database was set-up
for Portuguese, its design is largely language
independent. The set of word classes and
inflectional forms is determined in a separate
database, and can easily be modified to
accommodate languages with rich nominal
inflection, or with other fundamental word
classes.
only the lexical information from the MorDebe
database, but also information on legislation, a
dictionary of linguistic terms, a repository of
online resources on Portuguese other than the
Portal itself, and a collection of easy texts
concerning the Portuguese language. With the
current content, the web site already attracts
some 1000 visitors each day, mainly language
professionals such as translators and writers,
and that number is steadily rising.
The use of the MorDebe data in an online
service for the general public provides an
excellent additional motivation for the creation
of the lexical resources, and even opens up the
possibility of commercial sponsoring.
2.2
2.4
Inherent Inflection
In the database, inherent inflection (Janssen,
2005) are modelled in terms of relations
between lemmas, using relations similar to
those in the Meaning-Text Theory (Mel’cuk,
1993) called inflectional functions. With these
inflectional functions, verbs are related to their
deverbal nouns (s0v), adjectives to their
synthetic superlative (sup), etc. The inherent
inflection database is still under construction,
and contains currently over 20.000 derivational
forms. It is planned to feature the complete set
of all dictionarized inherent inflections within
the scope of a year.
There are two types of relations that are
modelled in a way similar to inherent
inflections, but are of a different nature. The
first is a separate database of gentiles: all nouns
and adjectives indicating people or objects from
a specific space or region are relationally
marked as such. The difference with inherent
inflection is that toponyms are not lemmas, and
are stored in a separate database of proper
names. The complete set of all over 3000
dictionarized gentiles has been modelled in this
fashion.
The second special type of ‘inflectional
function’ is the relation between orthographic
variants. Orthographic variation is traditionally
seen as an intra-word phenomenon. But the
explicit modelling of inflectional paradigms
makes it necessary to keep the different variants
apart and interrelate them with a relation
(Janssen, 2006).
2.3
Modular Design
The design of the OSLIN database is fully
modular: each additional type of information is
modelled in a separate database, linked to one
of the existing tables, currently either the wordforms or the lemmas. This design makes it easy
to extend the database with additional types of
information. The main resource currently under
development is a database of IPA transcriptions
for all lemmas in the database, but various other
types of information are under investigation. At
this time, there are no plans to add semantic
entities, merely due to lack of resources, not
because the framework does not allow it.
Ideally, the framework would be extended to
other languages besides Portuguese in the near
future. Using the same set-up for various
language would not only allow reusing the
existing tools, but also make it possible create
cross-linguistic relations.
Bibliografía
Janssen, Maarten. 2005. “Between Inflection
and Derivation: Paradigmatic Lexical
Functions in Morphological Databases”. En
East West Encounter: second international
conference on Meaning - Text Theory,
Moscow, Russia.
Janssen,
Maarten. 2006. “Orthographic
Variation in Lexical Databases”. En
Proceedings of EURALEX 2005, Turin,
Italy.
Mel’cuk, Igor A. 1993. The Future of the
Lexicon in Linguistic Description. En IkWan Lee (ed.) Linguistics in the Morning
Calm 3: Selected papers from SICOL-1992.
Korea: Seoul.
Web Site Design
The web-site of the Portal provides (or will
provide) five different types of information: not
298
Índice de Autores
Alegria, Iñaki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
Almeida, José João . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
Alonso, Laura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
Alonso, Miguel A. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Arcas-Túnez, Francisco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
Armentano-Oller, Carme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
Artola, Xabier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
Barcala, Fco. Mario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
Barreiro, Álvaro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287
Bel, Núria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
Bengoetxea, Kepa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Bischoff, Shannon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Borrego, Rafael . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275
Callejas, Zoraida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
Castellón, Irene . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
Castro, María José . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283
Cerva, Petr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
Coria, Sergio R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
Corpas, Gloria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
Cruz, Fermín . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
de Pablo-Sánchez, César . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
Díaz de Ilarraza, Arantza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
Díaz, Manuel Carlos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Díaz, Víctor J. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275
Domínguez, Eva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
Duran, Jordi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279
Enríquez, Fernando . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
Errecalde, Marcelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Escapa, Alberto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
Ferrández, Antonio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
Forcada, Mikel L. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
Gamallo, Pablo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241,295
García, Oscar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281
García, Fernando . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283
Gervás, Pablo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181,285
Gojenola, Koldo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Gómez-Rodríguez, Carlos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Griol, David . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231,283
Herrera, Jesús . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37,181,285
Hulden, Mans . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Hurtado, Lluis F. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231,283
Ingaramo, Diego . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Izquierdo-Bevia, Rubén . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
Janssen, Maarten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297
Kozareva, Zornitsa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
Llopis, Fernando . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
López, Marisol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
López-Cózar, Ramón . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
Macías, Javier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
Marimon, Montserrat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
Marrero, Mónica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
Martí, Antonia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205,279
Martín, José Luis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
Martín, María Teresa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Martínez, Paloma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
Martínez-Barco, Patricio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Montejo, Arturo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Montoyo, Andrés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
Morato, Jorge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
Moreiro, J. Antonio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213
Moriano, Pedro J. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181,285
Moscoso, E. Miguel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295
Moskowich-Spiegel, Isabel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289
Muñoz, Alfonso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181,285
Nazar, Rogelio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
Noguera, Elisa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
Nouza, Jan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
O'Donnell, Michael . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249
Ortega, F. Javier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
Padró, Lluis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89,105
Padró, Muntsa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
Palazuelos, Sira E. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
Parapar, Javier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287,289
Pascual, Ismael . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249
Peñas, Anselmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Perea, Pilar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279
Perekrestenko, Alexander . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Pérez-Ortiz, Juan Antonio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
Periñán-Pascual, Carlos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
Pichel, José Ramom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
Pineda, Luis Alberto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 
Descargar