Procesamiento del Lenguaje Natural, Revista nº 42, marzo

Anuncio
Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009
ISSN: 1135-5948
Artículos
Consultas Degradadas en Recuperación de Información Textual
Juan Otero Pombo, Jesús Vilares Ferro, Manuel Vilares Ferro ................................................................... 9
Sistema de recomendación para un uso inclusivo del lenguaje
Maria Fuentes, Lluís Padró, Muntsa Padró, Jordi Turmo, Jordi T. Carrera ................................................ 17
Aplicación de técnicas de extracción de información temporal a los sistemas de búsqueda de respuestas
María Teresa Vicente-Díez, Paloma Martínez, Ángel Martínez-González,
José Luis Martínez-Fernández ................................................................................................................... 25
Evaluación de una Estrategia de Expansión Local Conservadora en Recuperación de Información Visual
Sergio Navarro, Rafael Muñoz, Fernando Llopis ....................................................................................... 31
Detección de Web Spam basada en la Recuperación Automática de Enlaces
Lourdes Araujo, Juan Martinez-Romo......................................................................................................... 39
A Semantic Relatedness Approach to Classifying Opinion from Web Reviews
Alexandra Balahur, Andrés Montoyo........................................................................................................... 47
Estableciendo una línea base para un generador de resúmenes extractivo basado en conceptos en el
ámbito biomédico
Manuel de la Villa, Manuel J. Maña ........................................................................................................... 55
Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web
Arkaitz Zubiaga, Víctor Fresno, Raquel Martínez........................................................................................ 63
Using a Generative Lexicon Resource to Compute Bridging Anaphora in Italian
Tommaso Caselli ........................................................................................................................................ 71
Una Representación Basada en Lógica Borrosa para el Clustering de páginas web con Mapas AutoOrganizativos
Alberto P. García-Plaza, Víctor Fresno, Raquel Martínez........................................................................... 79
Global joint models for coreference resolution and named entity classification
Pascal Denis, Jason Baldridge ................................................................................................................... 87
AQA: a multilingual Anaphora annotation scheme for Question Answering
E. Boldrini, M. Puchol-Blasco, B. Navarro, P. Martínez-Barco, C. Vargas-Sierra........................................ 97
Co-referential chains and discourse topic shifts in parallel and comparable corpora
Costanza Navarretta ................................................................................................................................. 105
Detecting Anaphoricity and Antecedenthood for Coreference Resolution
Olga Uryupina ........................................................................................................................................... 113
Tesis
Empleo de métodos no supervisados basados en corpus para construir traductores automáticos basados
en reglas
Felipe Sánchez-Martínez .......................................................................................................................... 123
Los Roles Semánticos en la Tecnología del Lenguaje Humano: Anotación y Aplicación
P. Moreda ................................................................................................................................................. 125
Arquitectura multilingüe de sistemas de búsqueda de respuestas basada en ILI y Wikipedia
Sergio Ferrández Escámez....................................................................................................................... 127
On Clustering and Evaluation of Narrow Domain Short-Text Corpora
David Eduardo Pinto Avendaño ................................................................................................................ 129
Reseñas
Storrer, A., Geyken, A., Siebert, A. and Würzner, K.M. (eds.). Text Resources and Lexical Knowledge
Isabel Durán Muñoz .................................................................................................................................. 133
Información General
XXV Congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural ........................... 137
Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009
ISSN: 1135-5948
Artículos
Consultas Degradadas en Recuperación de Información Textual
Juan Otero Pombo, Jesús Vilares Ferro, Manuel Vilares Ferro ................................................................... 9
Sistema de recomendación para un uso inclusivo del lenguaje
Maria Fuentes, Lluís Padró, Muntsa Padró, Jordi Turmo, Jordi T. Carrera ................................................ 17
Aplicación de técnicas de extracción de información temporal a los sistemas de búsqueda de respuestas
María Teresa Vicente-Díez, Paloma Martínez, Ángel Martínez-González,
José Luis Martínez-Fernández ................................................................................................................... 25
Evaluación de una Estrategia de Expansión Local Conservadora en Recuperación de Información Visual
Sergio Navarro, Rafael Muñoz, Fernando Llopis ....................................................................................... 31
Detección de Web Spam basada en la Recuperación Automática de Enlaces
Lourdes Araujo, Juan Martinez-Romo......................................................................................................... 39
A Semantic Relatedness Approach to Classifying Opinion from Web Reviews
Alexandra Balahur, Andrés Montoyo........................................................................................................... 47
Estableciendo una línea base para un generador de resúmenes extractivo basado en conceptos en el
ámbito biomédico
Manuel de la Villa, Manuel J. Maña ........................................................................................................... 55
Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web
Arkaitz Zubiaga, Víctor Fresno, Raquel Martínez........................................................................................ 63
Using a Generative Lexicon Resource to Compute Bridging Anaphora in Italian
Tommaso Caselli ........................................................................................................................................ 71
Una Representación Basada en Lógica Borrosa para el Clustering de páginas web con Mapas AutoOrganizativos
Alberto P. García-Plaza, Víctor Fresno, Raquel Martínez........................................................................... 79
Global joint models for coreference resolution and named entity classification
Pascal Denis, Jason Baldridge ................................................................................................................... 87
AQA: a multilingual Anaphora annotation scheme for Question Answering
E. Boldrini, M. Puchol-Blasco, B. Navarro, P. Martínez-Barco, C. Vargas-Sierra........................................ 97
Co-referential chains and discourse topic shifts in parallel and comparable corpora
Costanza Navarretta ................................................................................................................................. 105
Detecting Anaphoricity and Antecedenthood for Coreference Resolution
Olga Uryupina ........................................................................................................................................... 113
Tesis
Empleo de métodos no supervisados basados en corpus para construir traductores automáticos basados
en reglas
Felipe Sánchez-Martínez .......................................................................................................................... 123
Los Roles Semánticos en la Tecnología del Lenguaje Humano: Anotación y Aplicación
P. Moreda ................................................................................................................................................. 125
Arquitectura multilingüe de sistemas de búsqueda de respuestas basada en ILI y Wikipedia
Sergio Ferrández Escámez....................................................................................................................... 127
On Clustering and Evaluation of Narrow Domain Short-Text Corpora
David Eduardo Pinto Avendaño ................................................................................................................ 129
Reseñas
Storrer, A., Geyken, A., Siebert, A. and Würzner, K.M. (eds.). Text Resources and Lexical Knowledge
Isabel Durán Muñoz .................................................................................................................................. 133
Información General
XXV Congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural ........................... 137
Impresos de Inscripción
Procesamiento del Lenguaje Natural, Revista nº 42, Marzo de 2009
ISSN: 1135-5948
Editores:
Mariona Taulé Delor
Universitat de Barcelona
[email protected]
Mª Teresa Martín Valdivia
Universidad de Jaén
[email protected]
Mª Antonia Martí Antonín
Universitat de Barcelona
[email protected]
Mª Felisa Verdejo Maillo
UNED
felisa@@lsi.uned.es
Consejo de Redacción:
L. Alfonso Ureña López
Universidad de Jaén
[email protected]
Manuel Palomar Sanz
Universidad de Alicante
[email protected]
Patricio Martínez Barco
Universidad de Alicante
[email protected]
Mª Felisa Verdejo Maillo
UNED
[email protected]
Consejo Asesor:
José Gabriel Amores (Universidad de Sevilla). Toni Badía (Universitat Pompeu Fabra). Manuel de
Buenaga (Universidad Europea de Madrid). Irene Castellón (Universitat de Barcelona). Arantza Díaz de
Ilarraza (Euskal Herriko Unibertsitatea). Antonio Ferrández (Universitat d'Alacant). Mikel Forcada
(Universitat d'Alacant). Ana García-Serrano (Universidad Politécnica de Madrid). Koldo Gojenola (Euskal
Herriko Unibertsitatea). Xavier Gómez Guinovart (Universidade de Vigo). Julio Gonzalo (UNED). José
Miguel Goñi (Universidad Politécnica de Madrid). José Mariño (Universitat Politècnica de Catalunya). M.
Antonia Martí (Universitat de Barcelona). M. Teresa Martín (Universidad de Jaén). Patricio Martínez-Barco
(Universitat d'Alacant). Raquel Martínez (UNED). Lidia Moreno (Universitat Politècnica de València). Lluís
Padro (Universitat Politècnica de Catalunya). Manuel Palomar (Universitat d'Alacant). Ferrán Pla
(Universitat Politècnica de València). German Rigau (Euskal Herriko Unibertsitatea). Horacio Rodríguez
(Universitat Politècnica de Catalunya). Kepa Sarasola (Euskal Herriko Unibertsitatea). Emilio Sanchís
(Universitat Politècnica de València). Mariona Taulé (Universitat de Barcelona). L. Alfonso Ureña
(Universidad de Jaén). Felisa Verdejo (UNED). Manuel Vilares (Universidad de A Coruña). Ruslan
Mitkov(Universidad de Wolverhampton, UK). Sylviane Cardey-Greenfield (Centre de recherche en
linguistique et traitement automatique des langues, France). Leonel Ruiz Miyares (Centro de Linguistica
Aplicada de Santiago de Cuba). Luis Villaseñor-Pineda (Instituto Nacional de Astrofísica, Óptica y
Electrónica, México). Manuel Montes y Gómez (Instituto Nacional de Astrofísica, Óptica y Electrónica,
México). Alexander Gelbukh (Instituto Politécnico Nacional, México). Nuno J. Mamede (Instituto de
Engenharia de Sistemas e Computadores, Portugal). Bernardo Magnini (Fondazione Bruno Kessler, Italia)
Revisores adicionales:
Andrés Montoyo (Universitat d'Alacant). Anselmo Peñas (UNED). Zornitza Kozareva (Universitat
d'Alacant). Jordi Turmo (UPC). Víctor Fresno (UNED). Antonio Balvet (Université Lille 3, France). Richard
Evans (University of Woverhampton, UK). Roser Morante (University of Antwerp, Belgium). Rafael Muñoz
(Universitat d'Alacant). Costanza Navarretta (CST - Center for Sprogteknologi, Denmark). Constantin
Orasan (University of Wolverhampton, UK). Massimo Poesio (University of Essex, UK / Università di
Trento, Italy). Marta Recasens (Universitat de Barcelona). Emili Sapena (UPC). Mihai Surdeanu (Stanford,
CA, USA). Antal van den Bosch (Tilburg University, The Netherlands).
ISBN: 1135-5948
Depósito Legal: B:3941-91
Editado en: Universidad de Jaén, 2009.
Publicado por: Sociedad Española para el Procesamiento del Lenguaje Natural
Departamento de Informática. Universidad de Jaén
Campus Las Lagunillas, EdificioA3. Despacho 127. 23071 Jaén
[email protected]
Artículos
Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 9-16
recibido 03-11-08, aceptado 02-03-09
Consultas Degradadas en Recuperación de Información Textual∗
Corrupted Queries in Text Retrieval
Juan Otero Pombo
Depto. de Informática
Universidade de Vigo
Campus As Lagoas s/n
32002 - Ourense
[email protected]
Jesús Vilares Ferro
Depto. de Computación
Universidade da Coruña
Campus de Elviña s/n
15174 - A Coruña
[email protected]
Manuel Vilares Ferro
Depto. de Informática
Universidade de Vigo
Campus As Lagoas s/n
32002 - Ourense
[email protected]
Resumen: En este artı́culo proponemos dos alternativas para el tratamiento de consultas degradadas en aplicaciones de Recuperación de Información en español. La
primera de ellas es una estrategia basada en n-gramas de caracteres e independiente
del conocimiento y recursos lingüı́sticos disponibles. Como segunda alternativa, proponemos a su vez dos técnicas de corrección ortográfica, integrando una de ellas un
modelo estocástico que debe ser entrenado previamente a partir de un texto etiquetado. Con el fin de estudiar su validez, se ha diseñado un marco de pruebas sobre el
que se han evaluado ambas aproximaciones.
Palabras clave: n-gramas de caracteres, consultas degradadas, recuperación de
información, corrección ortográfica.
Abstract: In this paper, we propose two different alternatives to deal with degraded
queries on Spanish Information Retrieval applications. The first is based on character
n-grams, and has no dependence on the linguistic knowledge and resources available.
In the second, we propose two spelling correction techniques, one of which has a
strong dependence on a stochastic model that must be previously built from a PoStagged corpus. In order to study their validity, a testing framework has been designed
and applied on both approaches for evaluation.
Keywords: Character n-grams, degraded queries, information retrieval, spelling
correction.
1.
Introducción
Los modelos clásicos de recuperación de
información (ri) no contemplan, inicialmente, el caso de fenómenos de degradación en las
consultas del usuario tales como la introducción de errores ortográficos o palabras desconocidas, bien sea de forma accidental, o porque el término que está tratando de buscar
presenta ambigüedades ortográficas en la colección. Es por tanto imperativo el estudio de
este problema dado que puede deteriorar de
forma substancial el rendimiento del sistema.
En este sentido, muchos autores aplican
directamente técnicas de corrección de erroEste trabajo ha sido parcialmente subvencionado por el Ministerio de Educación y Ciencia y
FEDER (a través de los proyectos de investigación HUM2007-66607-C04-02 y HUM2007-66607C04-03), y por la Xunta de Galicia (a través de los
proyectos 05PXIC30501PN, 07SIN005206PR, INCITE07PXI104119ES y la ”Red Gallega de pln y ri”).
∗
ISSN 1135-5948
res en las formas léxicas de la consulta para
ası́ dotar al sistema de cierta robustez. Esta estrategia es a menudo empleada para el
análisis de textos degradados en el ámbito
del procesamiento del lenguaje natural (pln).
Sin embargo, si bien las herramientas de pln,
por lo general, toleran una primera adivinación poco eficiente en la que se interactúa con
el usuario mostrándole múltiples alternativas
de corrección para que sea éste el que realice
la elección final, esto no suele ocurrir en los
sistemas de ri, lo que incrementa la complejidad del problema.
Por otra parte, las aproximaciones de corrección ortográfica (Savary, 2002) aplican
modificaciones en las palabras con el fin de
minimizar la distancia de edición (Levenshtein, 1966) entre ellas; esto es, el número de
operaciones de edición 1 a aplicar para trans1
Inserción, borrado o substitución de un caracter,
o transposición de dos caracteres contiguos.
© 2009 Sociedad Española para el Procesamiento del Lenguaje Natural
Juan Otero Pombo, Jesús Vilares Ferro, Manuel Vilares Ferro
formar una cadena en otra.
Trabajos más recientes interpretan la corrección ortográfica como una cuestión estadı́stica, donde una consulta con errores es
vista como una degeneración probabilı́stica
de una correcta (Brill y Moore, 2000). Esta aproximación, conocida como modelo de
canal ruidoso (Kernighan, Church, y Gale,
1990),2 también proporciona formas de incorporar información de pronunciación para mejorar el rendimiento por medio de la captura
de similaridades en la pronunciación de las
palabras (Toutanova y Moore, 2002).
Sin embargo, en este trabajo proponemos
una estrategia basada en n-gramas de caracteres como alternativa para el tratamiento de
consultas degradadas en español, buscando,
además, una metodologı́a simple y que pueda ser utilizada independientemente de la base de datos documental considerada y de los
recursos lingüı́sticos disponibles. Presentaremos, también, dos aproximaciones basadas en
corrección ortográfica no interactiva.
Este artı́culo se estructura como sigue.
En primer lugar, en la Sección 2 describimos brevemente nuestra propuesta basada en
n-gramas de caracteres. A continuación, en
la Sección 3, se presentan las dos aproximaciones de corrección ortográfica que han sido comparadas con nuestra propuesta. En la
Sección 4 se describe nuestra metodologı́a de
evaluación y los experimentos realizados. Finalmente, la Sección 5 contiene nuestras conclusiones y propuestas de trabajo futuro.
2.
lugar de palabras. Los n-gramas resultantes
son entonces procesados como lo harı́a cualquier motor de recuperación. Su interés viene dado por las posibilidades que ofrecen, especialmente en lengua no inglesa, al facilitar
un modo alternativo para la normalización de
formas de palabras y permitir tratar lenguas
muy diferentes sin procesamiento especı́fico
al idioma y aún cuando los recursos lingüı́sticos disponibles son escasos o inexistentes.
Estarı́amos, pues, ante un prometedor
punto de partida sobre el cual desarrollar una
estrategia de indexación y recuperación efectiva para el tratamiento de consultas degradadas. Además, la utilización de ı́ndices basados en n-gramas desmonta el principal argumento que justifica la integración de métodos
de corrección ortográfica en aplicaciones de
ri robustas: la necesidad de una coincidencia
exacta con los términos almacenados en los
ı́ndices. De este modo, con el empleo de ngramas en lugar de palabras completas, sólo
se requerirı́a la coincidencia en subcadenas de
éstas. En la práctica, esto elimina la necesidad de normalizar los términos, minimizando
además el impacto de los errores ortográficos,
a los que no se les prestarı́a especial atención.
En general deberı́a, además, reducir de forma
considerable la incapacidad del sistema para
manejar las palabras desconocidas.
3.
Con el fin de justificar el interés práctico
de nuestra propuesta de ri robusta basada en
n-gramas de caracteres, introducimos también una aproximación más clásica asociada
a un corrector ortográfico contextual (Otero,
Graña, y Vilares, 2007), lo que nos permite
definir un marco de pruebas comparativo. En
un principio aplicaremos un algoritmo global
de corrección ortográfica sobre autómatas finitos, propuesto por Savary (Savary, 2002),
que encuentra todas las palabras cuya distancia de edición con la palabra errónea sea
mı́nima.
Desafortunadamente, esta técnica puede
devolver varias reparaciones candidatas posibles que, desde un punto de vista morfológico,
tengan una calidad similar, es decir, cuando
existan varias palabras cuya distancia de edición con la palabra errónea es la misma.
Sin embargo, es posible ir más allá de la
propuesta de Savary aprovechando la información lingüı́stica contextual embebida en
un proceso de etiquetación con el fin de
Recuperación de Texto
mediante N-Gramas de
Caracteres
Formalmente, un n-grama es una subsecuencia de longitud n de una secuencia dada.
Ası́, por ejemplo, podemos dividir la palabra
"patata" es los 3-gramas de caracteres superpuestos -pat-, -ata-, -tat- y -ata-. Este simple concepto ha sido redescubierto recientemente por el Johns Hopkins University
Applied Physics Lab (jhu/apl) (McNamee y
Mayfield, 2004a) de cara a la indexación de
documentos, y nosotros lo recuperamos ahora
para nuestra propuesta.
Al tratar con ri monolingüe, la adaptación resulta sencilla ya que tanto las consultas como los documentos son simplemente tokenizados en n-gramas superpuestos en
2
Corrección Ortográfica
Noisy channel model en inglés.
10
Consultas Degradadas en Recuperación de Información Textual
ordenar las correcciones candidatas. Hablamos entonces de corrección ortográfica contextual, cuyo núcleo, en nuestro caso, es un
etiquetador morfosintáctico estocástico basado en una extensión dinámica del algoritmo
de Viterbi sobre Modelos Ocultos de Markov (Graña, Alonso, y Vilares, 2002) de segundo orden. Esta extensión del algoritmo
de Viterbi original se aplica sobre retı́culas
en lugar de enrejados (ver Figura 1) ya que
éstas son mucho más flexibles al ser representadas las palabras en los arcos en lugar de en
los nodos. En el contexto de la corrección ortográfica, nos permite representar un par palabra/etiqueta en cada arco, y luego calcular
la probabilidad de cada uno de los caminos
por medio de una adaptación de las ecuaciones del algoritmo de Viterbi.
ser considerado un ejemplo significativo dado
que muestra una gran variedad de procesos
morfológicos, lo que lo convierte en una lengua difı́cil para la corrección ortográfica (Vilares, Otero, y Graña, 2004). Las caracterı́sticas más diferenciadoras se encuentran en los
verbos, con un paradigma de conjugación altamente complejo. En el caso de sustantivos
y adjetivos esta complejidad se extiende al
número y al género, con hasta 10 y 20 grupos de variación respectivamente.
1
stm-noerr (MAP=0.2990)
4gr-noerr (MAP=0.2667)
stm-10 (MAP=0.2461)
stm-20 (MAP=0.2241)
stm-30 (MAP=0.2049)
stm-40 (MAP=0.1802)
stm-50 (MAP=0.1482)
stm-60 (MAP=0.1183)
stm-70 (MAP=0.0863)
stm-80 (MAP=0.0708)
stm-90 (MAP=0.0513)
stm-100 (MAP=0.0174)
Precision (P)
0.8
0.6
0.4
bajo/P
fácil/Adjsn
0.2
bajo/Adj sn
No/Adv
es/V
trabajar/V
presión/Ssn
0
0
bajo/V
fáciles/Adjpl
0.1
0.2
0.3
0.4 0.5 0.6
Recall (Re)
0.7
0.8
0.9
1
baño/S sn
Figura 2: Precisión vs. Cobertura para las
consultas sin corregir (empleando stemming).
Figura 1: Alternativas de corrección ortográfica representadas en una retı́cula.
4.1.
Para ilustrar el proceso con un ejemplo,
consideremos la frase “No es fácile trabajar
baio presión”, cuya corrección esperada serı́a
“No es fácil trabajar bajo presión”, donde
las palabras “fácile” y “baio” son erróneas.
Asumamos ahora que nuestro corrector ortográfico nos ofrece “fácil”/Adjetivo singular y “fáciles”/Adjetivo plural como posibles
correcciones para “fácile”; y “bajo”/Adjetivo
singular, “bajo”/Preposición, “bajo”/Verbo y
“baño”/Sustantivo singular para “baio”. La
ejecución del algoritmo de Viterbi dinámico
sobre la retı́cula asociada, mostrada en la Figura 1, nos ofrecerı́a tanto las etiquetas de
las palabras como las correcciones más probables en el contexto de esa frase concreta, lo
que nos permitirı́a obtener una lista ordenada
de correcciones candidatas. De este modo obtendrı́amos, para nuestro ejemplo, que las correcciones deseadas, “fácil”/Adjetivo singular
y “bajo”/Preposición, serı́an las primeras opciones, ya que se corresponderı́an con la secuencia de etiquetas correcta.
4.
Procesamiento de Errores
La primera fase en el proceso de evaluación consiste en introducir errores ortográficos en el conjunto de consultas de prueba.
Estos errores son introducidos de forma aleatoria por un generador de errores automático
de acuerdo con un ratio de error dado. Inicialmente se genera un fichero maestro de errores
como sigue. Para cada palabra de más de 3
caracteres de la consulta, se introduce en una
posición aleatoria uno de los cuatro errores
de edición descritos por Damerau (Damerau,
1964). De este modo, los errores introducidos son similares a aquellos que cometerı́a un
ser humano o un dispositivo ocr. Al mismo
tiempo se genera un valor aleatorio entre 0 y
100 que representa la probabilidad de que la
palabra no contenga ningún error ortográfico.
De este modo obtenemos un fichero maestro
de errores que contiene, para cada palabra,
su forma errónea correspondiente, y un valor
de probabilidad.
Todos estos datos hacen posible generar
de una forma sencilla conjuntos de prueba
diferentes para distintos ratios de error, permitiéndonos ası́ valorar el impacto de esta
variable en los resultados. El procedimiento
Evaluación
Nuestra propuesta ha sido inicialmente
testeada para el español. Este idioma puede
11
Juan Otero Pombo, Jesús Vilares Ferro, Manuel Vilares Ferro
lexicón y, en el caso de la corrección contextual, también un corpus de entrenamiento etiquetado manualmente para entrenar con él el
etiquetador. En nuestros experimentos hemos
trabajado con el corpus de español MultexJOC (Véronis, 1999), que consta de alrededor de 200.000 palabras etiquetadas morfosintácticamente, y con su lexicón asociado,
de 15.548 palabras.
T=10%
1
∆ MAP
0.5
0
−0.5
−1
60
80
100
120
140
160
180
T=20%
1
∆ MAP
0.5
0
1
stm-noerr (MAP=0.2990)
4gr-noerr (MAP=0.2667)
stm-10 (MAP=0.2587)
stm-20 (MAP=0.2537)
stm-30 (MAP=0.2389)
stm-40 (MAP=0.2262)
stm-50 (MAP=0.2076)
stm-60 (MAP=0.1806)
stm-70 (MAP=0.1352)
stm-80 (MAP=0.1345)
stm-90 (MAP=0.1188)
stm-100 (MAP=0.0903)
−0.5
0.8
60
80
100
120
140
160
180
Precision (P)
−1
T=50%
1
∆ MAP
0.5
0.6
0.4
0
0.2
−0.5
−1
60
80
100
120
140
160
180
0
0
T=100%
1
∆ MAP
0.5
0.2
0.3
0.4 0.5 0.6
Recall (Re)
0.7
0.8
0.9
1
Figura 4: Precisión vs. Cobertura para las
consultas corregidas mediante el algoritmo de
Savary (empleando stemming).
0
−0.5
−1
0.1
60
80
100
120
QID
140
160
180
4.2.
Marco de Evaluación
En nuestros experimentos se ha empleado el corpus de español de la robust task del
clef 2006 (Nardi, Peters, y Vicedo, 2006),3
formado por 454.045 documentos (1,06 gb) y
160 topics —a partir de los cuales generar las
consultas— de los que hemos empleado únicamente un subconjunto del mismo (training
topics) formado por 60 topics proporcionados por el CLEF especı́ficamente para tareas
de entrenamiento y puesta a punto.4 Dichos
topics están formados por tres campos: tı́tulo, un breve tı́tulo como su nombre indica;
descripción, una somera frase de descripción;
y narrativa, un pequeño texto especificando
los criterios de relevancia. En cualquier caso únicamente hemos empleado el campo de
tı́tulo para ası́ simular el caso de las consultas
cortas utilizadas en motores comerciales.
Partiendo de dicha colección de documentos se han generado dos ı́ndices diferentes.
Primeramente, para probar las propuestas
basadas en corrección ortográfica, se ha usa-
Figura 3: Diferencias de map por consulta:
consultas sin corregir vs. consultas originales
(empleando stemming).
consiste en recorrer el fichero maestro de errores y seleccionar, para cada palabra, la forma
original en el caso de que su probabilidad sea
mayor que el ratio de error fijado, o la forma
errónea en caso contrario. Ası́, dado un ratio de error T , sólo el T % de las palabras de
las consultas contendrán un error. Una caracterı́stica interesante de esta solución es que
los errores son incrementales, ya que las formas erróneas que están presentes para un ratio de error determinado continuarán estando
presentes para ratios de error mayores, evitando ası́ cualquier distorsión en los resultados.
El siguiente paso consiste en procesar las
consultas con errores y lanzarlas contra el sistema de ri. En el caso de nuestra propuesta
basada en n-gramas no se precisan recursos
extra, ya que el único procesamiento necesario consiste en tokenizar las consultas en ngramas. Sin embargo, para las aproximaciones de corrección ortográfica se necesita un
3
Estos experimentos han de considerarse no oficiales, ya que los resultados no han sido evaluados por
la organización.
4
Topics C050-C059, C070-C079, C100-C109,
C120-C129, C150-159 y C180-189.
12
Consultas Degradadas en Recuperación de Información Textual
aunque no los signos ortográficos. El texto
resultante ha sido tokenizado e indexado utilizando 4-gramas como longitud de compromiso tras estudiar los resultados previos del
jhu/apl (McNamee y Mayfield, 2004b). En
este caso no se han empleado stopwords.
Finalmente, ya a nivel de implementación,
nuestro sistema emplea como motor de recuperación la plataforma de código abierto
Terrier (Ounis et al., 2006) con un modelo
InL2 (Amati y van Rijsbergen, 2002).7
T=10%
1
∆ MAP
0.5
0
−0.5
−1
60
80
100
120
140
160
180
140
160
180
T=20%
1
∆ MAP
0.5
0
−0.5
−1
1
60
80
100
120
T=50%
0.8
1
Precision (P)
∆ MAP
0.5
0
−0.5
−1
60
80
100
120
stm-noerr (MAP=0.2990)
4gr-noerr (MAP=0.2667)
stm-10 (MAP=0.2628)
stm-20 (MAP=0.2578)
stm-30 (MAP=0.2431)
stm-40 (MAP=0.2311)
stm-50 (MAP=0.2120)
stm-60 (MAP=0.1850)
stm-70 (MAP=0.1448)
stm-80 (MAP=0.1449)
stm-90 (MAP=0.1282)
stm-100 (MAP=0.0997)
140
160
180
0.6
0.4
0.2
T=100%
1
0
0
∆ MAP
0.5
0.1
0.2
0.3
0.4 0.5 0.6
Recall (Re)
0.7
0.8
0.9
1
0
Figura 6: Precisión vs. Cobertura para las
consultas corregidas mediante el algoritmo
de corrección contextual (empleando stemming).
−0.5
−1
60
80
100
120
QID
140
160
180
Figura 5: Diferencias de map por consulta:
consultas corregidas mediante el algoritmo
de Savary vs. consultas originales (empleando
stemming).
4.3.
Nuestra propuesta ha sido probada para
un amplio rango de ratios de error T con el fin
de estudiar el comportamiento del sistema no
sólo para densidades de error bajas, sino también para los elevados ratios de error propios
de entornos ruidosos como aquellos en que
la entrada se obtiene de dispositivos móviles
o basados en escritura a mano —pdas y tabletas digitalizadoras, por ejemplo. De este
modo se ha trabajado con:
do una aproximación clásica basada en stemming empleando snowball,5 basado en el
algoritmo de Porter (Porter, 1980), y la lista
de stopwords de la Universidad de Neuchatel.6 Ambos recursos son de uso amplio entre la comunidad de ir. Asimismo, en el caso
de las consultas, se ha utilizado una segunda
lista de meta-stopwords (Mittendorfer y Winiwarter, 2001; Mittendorfer y Winiwarter,
2002). Dichas stopwords corresponden a metacontenido, es decir, expresiones de formulación de la consulta que no aportan ninguna
información útil para la búsqueda, como en
el caso de la expresión “encuentre aquellos
documentos que describan . . .”.
En segundo lugar, a la hora de probar
nuestra solución basada en n-gramas, los documentos han sido convertidos a minúsculas
y se han eliminado los signos de puntuación,
5
6
Resultados Experimentales
T ∈ {0 %, 10 %, 20 %, 30 %, . . . , 100 %}
donde T =0 % significa que no se han introducido errores.
En el primer conjunto de experimentos
realizados se utilizaron las consultas sin corregir aplicando una aproximación clásica basada en stemming. Los resultados obtenidos
para cada ratio de error T se muestran en las
gráficas de la Figura 2 tomando como referencia tanto los resultados obtenidos para las
7
Inverse Document Frequency model with Laplace
after-effect and normalization 2.
http://snowball.tartarus.org
http://www.unine.ch/info/clef/
13
Juan Otero Pombo, Jesús Vilares Ferro, Manuel Vilares Ferro
consultas originales aplicando stemming —es
decir, para T =0 %— (stm-noerr ), como los
obtenidos aplicando la aproximación basada
en n-gramas (4gr-noerr). También se dan los
valores de precisión media (map).8 Estos primeros resultados muestran que el stemming
es sensible a los errores ortográficos. Como
se puede apreciar, aún un ratio de error bajo como T =10 % tiene un impacto significativo sobre el rendimiento9 —la map decrece
el 18 %—, empeorando conforme aumenta el
número de errores introducidos: pérdida del
25 % para T =20 %, 50 % para T =50 % (con 2
consultas que ya no recuperan ningún documento) y 94 % para T =100 % (con 13 consultas sin documentos), por ejemplo. Tales variaciones, ya a nivel de consulta, se muestran
en la Figura 3. Esto se debe al hecho de que
con el tipo de consultas que estamos utilizando aquı́ —con unas 4 palabras de media—,
cada palabra es de vital importancia, ya que
la información perdida cuando un término
ya no encuentra correspondencia debido a un
error ortográfico no puede ser recuperada a
partir de ningún otro término.
En nuestra segunda ronda de experimentos se estudió el comportamiento del sistema
al usar la primera de las aproximaciones de
corrección consideradas en este trabajo, esto
es, cuando lanzamos las consultas con errores tras ser procesadas con el algoritmo de
Savary. En este caso el módulo de corrección
toma como entrada la consulta con errores,
obteniendo como salida una versión corregida donde cada palabra incorrecta ha sido
substituida por el término más cercano del
lexicón de acuerdo a la distancia de edición.
En caso de empate —es decir, cuando existen varias palabras en el lexicón a la misma
distancia—, la consulta es expandida con todas las correcciones empatadas. Por ejemplo,
tomando como entrada la oración considerada en la Sección 3, “No es fácile trabajar baio
presión”, la salida serı́a “No es fácil fáciles
trabajar bajo baño presión”. Analizando los
resultados obtenidos, mostrados en la Figura 4, vemos que la corrección tiene un efecto general significativamente positivo sobre
el rendimiento, disminuyendo en gran medida —aunque no eliminando— el impacto de
los errores ortográficos, no sólo para ratios de
error bajos (la pérdida de map disminuye del
18 % al 13 % para T =10 % y del 25 % al 15 %
para T =20 %), sino también para ratios de
error altos y muy altos (del 50 % al 31 % para T =50 % y del 94 % al 70 % para T =100 %),
reduciéndose también el número de consultas
que no devuelven documentos (ahora sólo 1
para T =50 % y 5 para T =100 %). Las diferencias de map a nivel de consulta se muestran
en la Figura 5. Asimismo, el análisis de los
datos muestra que la efectividad relativa de
la corrección aumenta con el ratio de error.
1
stm-noerr (MAP=0.2990)
4gr-noerr (MAP=0.2667)
stm-10 (MAP=0.2554)
stm-20 (MAP=0.2486)
stm-30 (MAP=0.2433)
stm-40 (MAP=0.2353)
stm-50 (MAP=0.2260)
stm-60 (MAP=0.2134)
stm-70 (MAP=0.2073)
stm-80 (MAP=0.1999)
stm-90 (MAP=0.1767)
stm-100 (MAP=0.1627)
Precision (P)
0.8
0.6
0.4
0.2
0
0
0.1
0.2
0.3
0.4 0.5 0.6
Recall (Re)
0.7
0.8
0.9
1
Figura 7: Precisión vs. Cobertura para las
consultas sin corregir (empleando n-gramas).
Con el fin de eliminar el ruido introducido
por los empates al emplear el algoritmo de
Savary, se ha realizado un tercer conjunto de
pruebas usando nuestro corrector ortográfico contextual. Dichos resultados se muestran
en la Figura 6 y, como era de esperar, éstos
mejoran consistentemente con respecto a la
aproximación original, si bien la mejora obtenida mediante este procesamiento extra no
llega a ser significativa: un 2 % de pérdida de
map recuperado para 10 %≤ T ≤60 % y un
7–10 % para T >60 %.
Finalmente, hemos probado nuestra propuesta basada en n-gramas. La Figura 7
muestra los resultados obtenidos cuando las
consultas sin corregir son lanzadas contra
nuestro sistema de ri basado en n-gramas.
Aunque el stemming funciona significativamente mejor que los n-gramas para las consultas originales, no ocurre lo mismo cuando hay errores ortográficos, superando claramente el segundo método al primero no
sólo cuando no se aplica ningún tipo de corrección, siendo la mejora significativa para
T ≥40 %, sino también cuando se aplica cualquiera de los dos métodos basados en corrección ortográfica —salvo para ratios de error
muy bajos—, si bien la diferencia no es sig-
8
Mean average precision en inglés.
A lo largo de este trabajo se han empleado tests-t
bilaterales sobre las map con α=0.05.
9
14
Consultas Degradadas en Recuperación de Información Textual
hay consultas que no devuelven documentos,
ni siquiera para T =100 %. El rendimiento a
nivel de consulta se muestra en la Figura 8.
T=10%
0.5
∆ MAP
0.25
0
5.
−0.25
−0.5
60
80
100
120
140
160
180
140
160
180
140
160
180
140
160
180
Este trabajo es un primer paso hacia el diseño de técnicas de consulta para su empleo
en aplicaciones de base lingüı́stica para dominios genéricos no especializados. Nuestro objetivo es el tratamiento eficiente de las consultas degradadas en español, evitando métodos
clásicos de corrección ortográfica que requieran una implementación compleja, no sólo
desde el punto de vista computacional sino
también desde el lingüı́stico. En este sentido,
se proponen aquı́ dos aproximaciones diferentes. En primer lugar, se presenta un corrector ortográfico contextual desarrollado a partir de una técnica de corrección global previa ampliada para incluir información contextual obtenida mediante etiquetación morfosintáctica. Nuestra segunda propuesta consiste en trabajar directamente con las consultas con errores ortográficos, pero utilizando un sistema de ri basado en n-gramas en
lugar de uno clásico basado en stemming.
Las pruebas realizadas han mostrado que
las aproximaciones clásicas basadas en stemming son sensibles a los errores ortográficos, aunque el uso de mecanismos de corrección permiten reducir el impacto negativo de
éstos. Por su parte, los n-gramas de caracteres han mostrado ser altamente robustos,
superando claramente a las técnicas basadas
en corrección ortográfica, especialmente para
ratios de error medios o altos. Además, dado que no se precisa procesamiento especı́fico
al idioma, nuestra aproximación basada en
n-gramas puede ser utilizada con lenguas de
naturaleza diferente aún cuando los recursos
lingüı́sticos disponibles sean escasos o inexistentes.
Con respecto a nuestro trabajo futuro, tenemos la intención de ampliar el concepto
de stopword al caso de n-gramas de caracteres con el fin de incrementar el rendimiento del sistema ası́ como reducir sus requerimientos computacionales y de almacenamiento. Sin embargo, con el fin de mantener la independencia respecto al idioma, tales ”stopn-gramas” deberı́an ser generados de forma
automática a partir de los propios textos de
entrada (Lo, He, y Ounis, 2005). Finalmente, se están preparando nuevos experimentos
para otros idiomas.
T=20%
0.5
∆ MAP
0.25
0
−0.25
−0.5
60
80
100
120
T=50%
1
∆ MAP
0.5
0
−0.5
−1
60
80
100
120
T=100%
1
∆ MAP
0.5
0
−0.5
−1
60
80
100
120
QID
Conclusiones y Trabajo Futuro
Figura 8: Diferencias de map por consulta:
consultas sin corregir vs. consultas originales
(empleando n-gramas).
nificativa hasta T ≥70 %. Además, la robustez de nuestra propuesta basada en n-gramas
en presencia de errores ortográficos demuestra ser claramente superior a cualquiera de
las aproximaciones previas basadas en stemming. Como ejemplo, la pérdida de map para
stemming —como se dijo previamente— era
significativa incluso para T =10 %, con una
reducción del 18 % para T =10 %, 25 % para T =20 %, 50 % para T =50 % y 94 % para T =100 %. Para los mismos valores de T ,
la aplicación de nuestro corrector ortográfico
contextual —ligeramente superior a la propuesta de Savary— reducı́a dichas pérdidas
a 12 %, 14 %, 29 % y 67 %, respectivamente, con lo que dichas caı́das ya no eran significativas hasta T =20 %. Sin embargo, los
n-gramas superan a ambos de forma clara,
siendo la pérdida de map significativa sólo a
partir de T =40 %, y casi reduciendo a la mitad la cuantı́a de dichas pérdidas: 4 %, 7 %,
15 % y 39 %, respectivamente. Además, ya no
15
Juan Otero Pombo, Jesús Vilares Ferro, Manuel Vilares Ferro
Bibliografı́a
Nardi, A., C. Peters, y J. L. Vicedo,
eds.
2006.
En Working Notes of
the CLEF 2006 Workshop. Disponible
en http://www.clef-campaign.org (visitada en octubre 2008).
Amati, G. y C. J. van Rijsbergen. 2002. Probabilistic models of Information Retrieval
based on measuring divergence from randomness. ACM Transactions on Information Systems, 20(4):357–389.
Otero, J., J. Graña, y M. Vilares. 2007. Contextual spelling correction. Lecture Notes
in Computer Science, 4739:290–296.
Brill, E. y R. C. Moore. 2000. An improved error model for noisy channel spelling
correction. En Proc. of the ACL’00, pág.
286–293.
Ounis, I., G. Amati, V. Plachouras,
B. He, C. Macdonald, y C. Lioma.
2006.
Terrier: A high performance and scalable Information Retrieval
platform. En Proc. of the ACM SIGIR’06 Workshop on Open Source
Information Retrieval (OSIR 2006),
pág. 18–25.
Herramienta disponible
en http://ir.dcs.gla.ac.uk/terrier/
(visitada en octubre 2008).
Damerau, F. 1964. A technique for computer
detection and correction of spelling errors.
Communications of the ACM, 7(3):171–
176.
Graña, J., M. A. Alonso, y M. Vilares. 2002.
A common solution for tokenization and
part-of-speech tagging: One-pass Viterbi
algorithm vs. iterative approaches. Lecture Notes in Computer Science, 2448:3–10.
Porter, M. F. 1980. An algorithm for suffix
stripping. Program, 14(3):130–137.
Kernighan, M. D., K. W. Church, y W. A.
Gale. 1990. A spelling correction program
based on a noisy channel model. En Proc.
of the COLING’90, pág. 205–210.
Savary, A. 2002. Typographical nearestneighbor search in a finite-state lexicon
and its application to spelling correction. Lecture Notes in Computer Science,
2494:251–260.
Levenshtein, V.I. 1966. Binary codes capable
of correcting deletions, insertions and reversals. Soviet Physics-Doklandy, 6:707–
710.
Toutanova, K. y R. C. Moore. 2002. Pronunciation modeling for improved spelling
correction. En Proc. of the ACL’02, pág.
144–151.
Lo, R.T.W., B. He, y I. Ounis. 2005. Automatically building a stopword list for an
information retrieval system. En Proc. of
the 5th Dutch-Belgian Information Retrieval Workshop (DIR’05).
Vilares, M., J. Otero, y J. Graña. 2004. On
asymptotic finite-state error repair. Lecture Notes in Computer Science, 3246:271–
272.
McNamee, P. y J. Mayfield. 2004a. Character N-gram tokenization for European
language text retrieval. Information Retrieval, 7(1-2):73–97.
Véronis, J. 1999. Multext-corpora: An annotated corpus for five European languages. cd-rom. Distributed by elra/elda.
McNamee, P. y J. Mayfield.
2004b.
JHU/APL experiments in tokenization
and non-word translation. Lecture Notes
in Computer Science, 3237:85–97.
Mittendorfer, M. y W. Winiwarter. 2001.
A simple way of improving traditional IR
methods by structuring queries. En Proc.
of the 2001 IEEE International Workshop
on Natural Language Processing and Knowledge Engineering (NLPKE 2001).
Mittendorfer, M. y W. Winiwarter. 2002.
Exploiting syntactic analysis of queries for
information retrieval. Data & Knowledge
Engineering, 42(3):315–325.
16
Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 17-24
recibido 28-11-08, aceptado 02-03-09
Sistema de recomendación para un uso inclusivo del lenguaje∗
Inclusive Language Recommendation System
Maria Fuentes, Lluı́s Padró, Muntsa Padró, Jordi Turmo y Jordi T. Carrera
Grupo de Procesamiento del Lenguaje Natural
Departamento de Lenguajes y Sistemas Informáticos
Universitat Politècnica de Catalunya
c/Jordi Girona, 1-3
08034 Barcelona
mfuentes,padro,mpadro,turmo,[email protected]
Resumen: Sistema que procesa un texto escrito en castellano detectando usos del
lenguaje no inclusivos. Para cada sintagma nominal sospechoso el sistema propone
una serie de alternativas. El sistema permite también la adquisición automática de
ejemplos positivos a partir de documentos que hagan un uso inclusivo del lenguaje.
Éstos ejemplos seran usados, junto a su contexto, en la presentación de sugerencias.
Palabras clave: Lenguaje inclusivo, aprendizaje basado en ejemplos
Abstract: System to detect exclusive language in spanish documents. For each
noun phrase detected as exclusive, several alternative are suggested by the system.
Moreover, the system allows the automatic adquisition of positive examples from
inclusive documents to be presented within their context as alternatives.
Keywords: Inclusive language, example based learning
1.
Introducción
Hacer uso de un lenguaje inclusivo consiste en la selección de vocabulario y partı́culas
de la lengua que permitan minimizar o eliminar las palabras que implican o parecen
implicar la exclusión de un sexo. Por ejemplo
el personal de vuelo o la tripulación de cabina es lenguaje inclusivo, mientras que azafata
es claramente exclusivo (o sexista). De todas
formas, para determinar el grado de lenguaje
inclusivo a ser utilizado, (Wilson, 1993) remarca la importancia de tener en cuenta el
sentido común si no se quiere que por las buenas intenciones se acabe sacrificando la prosa.
Existen varios manuales y herramientas
que asisten a la producción de documentos
inclusivos. Una de las primeras iniciativas en
el estado español fue impulsada por el instituto de la mujer en el marco del proyecto
nombra.en.red (Alario et al., 1995). En este proyecto se construyó un software de libre
distribución, cuya base de datos fue creada
siguiendo las sugerencias de usos alternativos
que, en los años ochenta y noventa partieron,
entre otros, del Consejo de Europa (Consejo
Europa, 1986), del Institut Valencià de la DoLos autores desean mostrar su agradecimiento a
Eulàlia Lledó y a Marta de Blas por la cesión de textos
inclusivos, ası́ como a Edgar Gonzàlez por facilitarnos
su software de clustering.
∗
ISSN 1135-5948
na (Departamento Dona, 1987), del Instituto
de la Mujer, de UNESCO y de la Conferencia de Naciones Unidas sobre las Mujeres de
Pekı́n (Naciones Unidas, 1996).
Otra herramienta que podemos encontrar
en la red es la lupa violeta (Factoria de Empresas, 2002). Fue diseñada para ser instalada
en el procesador de textos Word, identifica los
términos que pueden tener una utilización sexista y propone diferentes sugerencias. En la
misma linea, recientemente se está comercializando Themis (The Reuse company, 2008),
que explora archivos y sitios web en busca
de usos exclusivos de la lengua ofreciendo alternativas de forma similar a los correctores
ortográficos integrados en editores de textos.
Este artı́culo presenta el recomendador
de alternativas inclusivas desarrollado en la
UPC (Universidad Politécnica de Cataluña)
para el proyecto Web con Género de la Fundación CTIC (Centro Tecnológico de la Información y la Comunicación)1 . El sistema utiliza técnicas de aprendizaje basado en ejemplos y adquisición automática de ejemplos.
La sección 2 muestra una visión global del
sistema, la 3 analiza el funcionamiento del
sistema actual, la 4 propone posibles mejoras
y la sección 5 concluye el artı́culo.
1
http://www.t-incluye.org
© 2009 Sociedad Española para el Procesamiento del Lenguaje Natural
Maria Fuentes, Lluís Padró, Muntsa Padró, Jordi Turmo, Jordi T. Carrera
2.
Arquitectura general
formateado como entrada del sistema, dividido en párrafos y codificado en XML. En el
Cuadro 5 puede verse el formato de salida.
Esta sección describe los componentes
básicos de la arquitectura general del sistema. La Figura 1 presenta la interacción entre
las cuatro componentes, cuyas funciones son:
extraer caracterı́sticas de un Sintagma Nominal (SN), filtrar el SN en función de si utiliza
un lenguaje inclusivo o exclusivo, buscar en
la Base de Datos (BD) ejemplos similares a
cada SN exclusivo y por último presentar las
mejores sugerencias inclusivas.
<DOC>
<INFO>
<URI>http:://www.un dominio.es/una pagina</URI>
<IP>192.168.2.243</IP>
<DATE>2998-03-13 11:34</DATE>
</INFO>
...
<P locator=”136”type=”texto”>
3. La Junta Consultiva está constituida por el rector o la rectora,
que la preside; la secretaria general o el secretario general, que
lo es de la Junta, y cuarenta miembros más designados por el
Consejo de Gobierno, a propuesta del rector o la rectora, entre
profesoras o profesores e investigadoras o investigadores de
reconocido prestigio, de todos los ámbitos temáticos presentes
en la Universidad y de todos los que se considere oportuno,
acreditados por las correspondientes evaluaciones positivas de
acuerdo con la normativa vigente, ocho de los cuales, al menos,
deben ser externos a la Universidad Politécnica de Cataluña.
</P>
...
<P locator=”164”type=”texto”>
4. A efectos de esta elección, la comunidad universitaria se
considera dividida en los cuatro sectores siguientes:
</P>
<P locator=”165”type=”texto”>
a)Profesorado doctor de los cuerpos docentes universitarios.
b)Personal docente e investigador, excluido el correspondiente
al sector a.
c)Estudiantes.
d)Personal de administración y servicios.
</P>
...
</DOC>
<xml_IN>
Texto
</xml_IN>
gramática
EXTRAER
CARACTERÍSTICAS
euroWN
atributos_SN
dic_lemas
FILTRAR
inclusivo/exclusivo
inclus
BD ejem
inclusivos
Cuadro 1: Documento de entrada.
El primer paso consiste en extraer una serie de caracterı́sticas (atributos) de cada SN.
En segundo lugar se tendrán en cuenta
SNs inclusivos, cuando el objetivo sea la adquisición de ejemplos y SNs exclusivos cuando el objetivo sea la recomendación. En el
primer caso se almacenarán en la BD los
ejemplos filtrados y sólo en el segundo caso será necesario buscar ejemplos inclusivos
similares existentes en la BD para finalmente
presentar las sugerencias más adecuadas.
exclus
BUSCAR
SIMILARES
mejores_clusters
PRESENTAR
SUGERENCIAS
2.1.
Extraer caracterı́sticas
El objetivo de esta fase es obtener una
serie de caracterı́sticas morfosintácticas y
semánticas necesarias en la siguiente fase para determinar si un sintagma es inclusivo los
hombres y las mujeres, exclusivo los hombres,
o irrelevante los coches y las motos.
La información extraı́da en esta fase también será utilizada en la búsqueda de ejemplos similares, tanto para indexar los ejemplos inclusivos en la BD cómo para seleccionar las mejores alternativas a un SN detectado como exclusivo.
La parte superior del Cuadro 2 presenta
un ejemplo de SN inclusivo en su contexto, los
hombres y las mujeres, y la inferior los atributos asociados. El número de atributos varı́a
en función de las caracterı́sticas del sintagma
<xml_OUT>
Texto_sug
</xml_OUT>
Figura 1: Componentes del recomendador.
Las dos funcionalidades básicas son:
la detección de SNs susceptibles de hacer
uso de lenguaje exclusivo y las correspondientes recomendaciones inclusivas.
la adquisición automática de SNs inclusivos para la creación de forma automática
de la BDs de ejemplos inclusivos.
El Cuadro 1 presenta un ejemplo de texto
18
Sistema de recomendación para un uso inclusivo del lenguaje
nominal. Los atributos contienen información
sobre lemas, formas, etiquetas morfológicas
(en el ejemplo parole), información semántica
(sense), etiquetas sintácticas (label, multiple).
En él se desarrollan algunos aspectos
relacionados con la violencia: sus significados,
los modos en que hombres y mujeres se
posicionan ante la misma, las causas de la
violencia ejercida especı́ficamente contra
las mujeres y el papel que juega la
socialización de niñas y niños en la formación
de conductas violentas.
atributos:
lemma=y form=y parole=CC
HasDoubleForm=false
lemma1=hombre form1=hombres
parole1=NCMP000 HasDoubleForm1=true
senses1=0:07391044 0:05957670 0:07392506
0:01967203 0:07331418 0:07392045 1:06951621
1:00017954 1:00004123 1:01966690 1:07602853
1:06951621 2:00004123 2:00003731 2:00002086
2:01964914 2:07356184 2:00004123 3:00003731
3:00002086 3:00001740 3:00001740 3:01402712
3:00004123 3:00003731 3:00002086 4:00001740
4:00001740 4:01378363 4:00003731 4:00002086
4:00001740 4:00001740 5:00995974 5:00001740
5:00001740 6:00990770 7:00008019 8:00002086
9:00001740
lemma2=mujer form2=mujeres
parole2=NCFP000 HasDoubleForm2=false
senses2=0:07684780 1:06948278 2:00004123
3:00003731 3:00002086 4:00001740
label=sn-doble multiple=true
Figura 2: Representación semántica de hombre y mujer (sense1 y sense2 en Cuadro 2)
te de la información semántica asociada a los
conceptos “hombre” y “mujer”. Según WordNet mientras mujer tiene un único significado
hombre puede tener varios y ambas palabras
tienen por hiperónimo el concepto persona.
Referente al análisis sintáctico, para el recomendador se ha creado una gramática de
SNs especı́fica y se ha modificado el diccionario para que palabras cómo prı́ncipe y princesa tengan el mismo lema.
2.2.
El componente Filtrar puede considerarse
como un clasificador de SNs. La Figura 3 presenta el árbol de decisión que se aplica para
identificar si un SN es inclusivo (CORRECTO), exclusivo (INCORRECTO), irrelevante
(DESCARTAR) o multiple (DESMONTAR).
En esta fase se aplican una serie de patrones que combinan información sintáctica
con información semántica. Sintácticamente
se tiene en cuenta si el SN es doble o sospechoso y semánticamente se tiene en cuenta si
la palabra tiene una relación de hiperonimia
con persona o grupo social.
La regla por defecto serı́a que si un SN hace referencia a una persona o grupo social en
masculino que tiene contraparte femenina y
esta no aparece reflejada se detecta cómo incorrecto, si aparece se detecta cómo correcto.
Para los casos a los que no se puede aplicar
la regla por defecto o requieren un tratamiento especial para desvincularlo de la información que tiene o deja de tener WordNet se ha
creado una serie de listas. A continuación se
describe cada lista y el Cuadro 3 presenta las
Cuadro 2: SN y las caracterı́sticas extraı́das
HasDoubleForm indica que un lema tiene forma para ambos géneros. Este atributo
será también cierto en palabras masculinas
que tienen contraparte femenina, pero que no
comparten lema con ella y por tanto no son
detectables vı́a diccionario, como hombre.
Esta fase utiliza la librerı́a Freeling2 (Atserias et al., 2006), que proporciona varios
analizadores del lenguaje: análisis morfológico, etiquetado gramatical, análisis sintáctico
superficial, detección y clasificación de entidades nominales y anotación semántica basada en WordNet (Vossen, 1998).
Un SN puede estar formado por varios
nombres y cada uno de ellos puede a su vez tener varios sentidos. La información semántica asociada se ve reflejada en los atributos
sense, Cuadro 2. La Figura 2 presenta par2
Filtrar
http://garraf.epsevg.upc.es/freeling/
19
Maria Fuentes, Lluís Padró, Muntsa Padró, Jordi Turmo, Jordi T. Carrera
palabras especiales
hombre varón macho padre papá papa padrino
marido caballero patrono obispo cardenal
poeta jinete judı́o primero segundo tercero
último penúltimo amo capellán albañil
palabras no relevantes
par tipo sector curso seminario tribunal nombre
corazón factor amor circo pueblo estado contacto
región elemento compromiso animal negocio
extremo conferencia servicio encuentro periódico
ejército encuentro colegio consejo departamento
instituto ejemplo cuerpo cabo centro congreso
simposio espectáculo cielo reparto cuadro
diario modelo banco capı́tulo campamento paı́s
conjunto éxito régimen bloque monstruo montón
comedor imperio talento club partido palacio
ministerio metro fantasma horario pájaro comité
reino municipio ángel ayuntamiento vehı́culo
cariño clan cerebro as cristianismo editorial sol
base maricón terror satélite violı́n baile bajo
testimonio bicho máquina academia laboratorio
aula taller clı́nica campo doble papel general
desastre demonio ex nazi rayo grande moro
movimiento cı́rculo miembro parte alfabeto
palabras inclusivas
persona
nombres vacı́os
persona equipo señor colectivo sindicato ramo
órgano población clase comunidad mundo coto
profesión personal público gente grupo habitante
asociación
palabras genéricas
profesorado alumnado ciudadanı́a estudiantado
electorado clientela vecindario funcionariado
voluntariado abogacı́a afición presidencia tropa
vicepresidencia gerencia jefatura secretarı́a
asesorı́a alcaldı́a coordinación redacción autorı́a
magistratura judicatura delegación descendencia
audiencia proletariado burguesı́a chiquillerı́a
humanidad juventud infancia adolescencia
tesorerı́a ingenierı́a ministerio consistorio
tripulación pasaje consultorı́a auditorı́a notarı́a
tutorı́a conserjerı́a empresa directiva
Cuadro 3: Palabras con tratamiento especial.
les)”. Ası́ mismo, “curso” o “sector” pueden
referirse a un grupo o colectivo (“el curso de
5o son unos gamberros”, “el sector del metal
esta en huelga”). La lista palabras no relevantes contiene lemas de palabras para las
que el sistema debe ignorar los sentidos persona/colectivo que puedan tener, ya que son
poco habituales. Eso evita la inclusión en la
BD de muchos ejemplos irrelevantes, corriendo el riesgo de descartar ejemplos relevantes
en las pocas ocasiones en que esas palabras
constituyan ejemplos a detectar.
La mayorı́a de palabras con género morfológico femenino o bien se refieren a objetos
o a animales hembras (silla, casa, gata, gallina, ...) o a personas de sexo femenino (niña,
amiga, ...). En el primer caso, no son relevantes para el tratamiento del lenguaje exclusivo. En el segundo, se considera que el
deseo era referirse a una/s persona/s de sexo femenino y por tanto, no se detecta como
sintagma incorrecto ni tampoco como sintagma candidato a sugerencia. Las palabras en la
lista palabras inclusivas (como p.e. “persona”) son excepciones a esta regla, y deben ser
consideradas candidatas a sugerencia aunque
sean morfológicamente femeninas.
Figura 3: Representación del árbol de decisión para filtrar SN inclusivos o exclusivos.
palabras que contienen inicialmente.
La lista palabras especiales contiene lemas de palabras masculinas que tienen una
palabra femenina, pero que no comparten lema con ella y por tanto no son detectables vı́a
diccionario. Por ej. “niños” es una palabra
masculina que comparte lema con “niñas”,
que es femenina. Palabras como “hombres”
no tienen esta caracterı́stica, dado que su
correspondiente femenino (“mujer” en este
caso) tiene un lema diferente.
El sistema usa información semántica extraı́da de WordNet para determinar si una
palabra puede referirse a personas o a colectivos, que son conceptos clave para la identificación de ejemplos correctos o incorrectos en
cuanto a género. Algunas palabras tienen sentidos poco frecuentes que caen en esas categorı́as (p.e. “un tipo” o “un par” pueden referirse a una persona, “un tipo majo”, “un Par
del Reino”, “estar con sus pares (sus igua20
Sistema de recomendación para un uso inclusivo del lenguaje
Número máximo de ejemplos en un cluster. Se usa en el proceso de decisión del número de clusters. Si el corte óptimo supone crear
un cluster de tamaño mayor al valor dado en
esta opción, se busca otro valor óptimo que
no viole esta restricción.
Los ejemplos de la BD se agrupan en clusters y para cada cluster se elige un ejemplo
representante (medoide). El Cuadro 4 presenta los ejemplos que forman el cluster representado por el medoide una educadora o un
educador.
La lista nombres vacı́os contiene aquellos nombres que se refieren a una persona
o colectivo, pero que en el caso de llevar un
adjetivo, es ése el que aporta la información
relevante (p.e. “persona usuaria” es relevante para “usuario”, o “equipo directivo” lo es
para “directivos” o “director”).
La lista palabras genéricas contiene palabras que se refieren a colectivos, pero que
en WordNet no aparecen como tal.
2.3.
Buscar similares
El sistema utiliza una BD de ejemplos inclusivos indexada para que el acceso a los
ejemplos sea eficiente utilizando técnicas de
clustering o agrupación de ejemplos. Lo que
significa que se agrupan los ejemplos según
su parecido, para facilitar su posterior recuperación por similitud. En concreto se accede a los clusters o conjuntos de ejemplos con
menor distancia (valor entre 1 y 0). La distancia entre ejemplos se calcula aplicando la
siguiente fórmula:
637: del equipo educativo
917: una educadora o un educador
1065: la persona ası́ educada
1771: educadoras y educadores
1798: como persona educadora
1803: educadoras o educadores
1804: de un equipo educativo
4292: la persona educadora
4698: educadoras/es
medoide: 917
num.ejemplos: 9
d = 1 − ((P la ∗ Sla + P f ∗ Sf + P le ∗ Sle +
P s ∗ Ss + P p ∗ Sp)/P normaliza)
Cuadro 4: Ejemplo de cluster y su medoide.
Para evitar comparar cada vez la distancia del SN tratado a todos los ejemplos de la
BD únicamente los medoides son tenidos en
cuenta en la selección del conjunto de clusters
que se encuentran a menor distancia. En esta fase, se calcula la distancia del SN tratado
con el medoide de cada cluster en la BD.
donde Sla, Sf, Sle, Ss y Sp son respectivamente las similitudes entre las etiquetas sintácticas, las formas, los lemas, los sentidos y las
etiquetas morfológicas y Pnormaliza es la suma de los pesos de cada similitud: Pla 0.1, Pf
3, Ple 5, Ps 8 y Pp 1.
2.4.
Se ha utilizado una implementación de
Clustering Jerárquico Aglomerativo (Jardine
y Sibson, 1971). Como distancia inter-grupo
hemos utilizado “Unweighted Pairwise Group
Method using Arithmetic Averages” (Zhao
y Karypis, 2002). Una vez el dendrograma
está construido, el número óptimo de clusters
se determina usando Silhouette (Rousseeuw,
1987). Se selecciona la profundidad del árbol
cuyos clusters obtienen un mayor valor Silhouette.
Adicionalmente el sistema tiene dos
parámetros relacionados con la construcción
de los clusters:
Número mı́nimo de clusters de ejemplos
que se crearan. El algoritmo decide automáticamente el número óptimo de grupos, pero en
algunos casos el criterio de decisión puede no
obtener un valor satisfactorio. En estos casos,
se usa el número de clusters especificado en
esta opción.
Presentar sugerencias
La selección de las sugerencias para un
ejemplo incorrecto requiere el paso previo de
selección de los clusters más prometedores.
En esta última fase sólo se analizan las posibles sugerencias que contienen los mejores
clusters, evitando ası́ un recorrido exhaustivo de toda la BD. De entre las sugerencias
analizadas, se seleccionan las más parecidas
al ejemplo incorrecto, siempre que se encuentren dentro de un margen de similitud, y procurando que sean lo más variadas posible.
A continuación se describen los parámetros que controlan la búsqueda y selección de
sugerencias:
Número máximo de sugerencias que
dará el recomendador. Puede dar menos si no
hay bastantes candidatos lo suficientemente
cercanos al ejemplo incorrecto.
Umbral de distancia a partir del cual no se
consideran las sugerencias, aunque no se haya
21
Maria Fuentes, Lluís Padró, Muntsa Padró, Jordi Turmo, Jordi T. Carrera
te por “toda persona usuaria”, sin embargo
sin tener en cuenta la preposición y adecuando el número, se puede considerar que todas
las sugerencias aportan información útil.
A veces información relevante de la sugerencia queda en lo que serı́a la zona de
contexto: “los colectivos de homosexuales” o
“los/las trabajadores/as”. En el primer caso,
sintácticamente se trata de dos sintagmas: un
sintagma nominal “los colectivos” y uno preposicional “de homosexuales”. Si el sistema
considerara que es un solo sintagma, entonces
se filtrarı́an como correctos ejemplos como
“las personas del bar de la esquina” o “[avisar a] las personas del peligro que corren”.
Cuando aparece ’/’ el etiquetado sintáctico
no acaba de ser del todo correcto, puesto que
su uso es gramaticalmente discutible.
La calidad de los documentos de los que
se han extraı́do los ejemplos es básica. Por
ejemplo en el caso de “para médicos, enfermeras, dietistas y otros profesionales” aparecen usos exclusivos de lenguaje, sin embargo
“para médicos” aparece como ejemplo porque
en el diccionario utilizado “médico” es una
palabra que se puede referir a ambos géneros. Ası́ pues, la primera sugerencia propone
la eliminación del artı́culo para que sean incluidos profesionales de ambos sexos. No obstante lo que sucede es que el sistema no comprueba que el contexto sea inclusivo. Por esta
razón “otros profesionales”, exclusivo, aparece en el contexto de un ejemplo positivo.
La tercera alternativa que se da a “los
médicos” es “doctor o doctora”, sugerencia
aceptable, aunque el significado en el contexto dado no sea sinónimo de “médico”. Cada
aparición de un SN es almacenado una sola
vez en la BD, independientemente de su contexto o de si pueda tener varios significados.
El sistema no suele presentar sugerencias a
los adjetivos. En el tercer párrafo, “los turistas alemanes” se da alternativas para “los turistas” proponiéndose quitar el determinante para incluir tanto turistas femeninos como
masculinos. Será necesario la posterior supervisión de las concordancias en el texto final.
Si el contenido de la BD ha sido creado a
partir de la adquisición automática de ejemplos es recomendable una supervisión de su
contenido. Ya que puede ocurrir que los contextos sean poco significativos o como en el
caso de “de mujer o por los investigadores”,
sugerencia propuesta a “los investigadores”,
se haya almacenado como inclusivo un ejem-
alcanzado el número máximo de sugerencias.
La distancia equivale a 1-similitud, por lo que
un umbral 0.55 implica que no se propondrán
sugerencias con una similitud inferior a 0.45.
Una distancia demasiado baja excluye ejemplos interesantes pero semánticamente alejados (p.e. ciudadanos de ciudadanı́a)
Número de clusters más cercanos al SN
incorrecto a explorar para la selección de sugerencias. Si el valor es muy alto, se pierde
eficiencia ya que se explora gran parte de la
BD. Este valor controla el porcentaje de la
BD que se explora en cada consulta. Si la BD
tiene muchos clusters, que este valor sea alto,
no necesariamente significa una gran perdida
de eficiencia, y en cambio, garantiza que se
encuentren los mejores ejemplos. Un valor de
1 puede funcionar bien con una BD rica en
ejemplos. Un valor de 2 o 3 introduce cierta
flexibilidad en la búsqueda que puede mejorar los resultados en ejemplos que quedan a
medio camino entre dos grupos.
Umbral de igualdad. Para aumentar la variedad de las sugerencias, el recomendador
omite los candidatos si son muy parecidos a
alguno ya propuesto. (ej: si en la lista ya figura “los profesores y las profesoras”, se omitirá “los profesores o las profesoras”). Este
umbral es la similitud mı́nima que deben tener dos ejemplos para ser considerados “demasiado parecidos”. Cuanto mayor es el valor, más estricta es la comparación (más parecidos se permite que sean los ejemplos de
la lista final). Si el valor baja, menos estricta
es la comparación (se consideraran parecidos
ejemplos con mayores diferencias).
En caso que no se seleccione ningún ejemplo candidato, siempre que sea posible, se
genera automáticamente una sugerencia sin
contexto a partir del diccionario, “alcaldesa
y alcalde” para el SN que contiene “alcalde”.
3.
Análisis del funcionamiento
Para mostrar lo que se puede esperar del
sistema, analizaremos las sugerencias ofrecidas a una serie de SNs detectados como exclusivos, ver Cuadro 5.
Para permitir el acceso a un mayor número de ejemplos en la decisión de si dos SNs
son similares no se tiene en cuenta las preposiciones, ni la mayorı́a de veces los adjetivos.
El sistema propone usos inclusivos parecidos
asociados a un contexto. Por ejemplo el primer SN detectado como incorrecto, “los usuarios”, sólo podrı́a ser remplazado directamen22
Sistema de recomendación para un uso inclusivo del lenguaje
<P locator=”1”type=”texto”> Los usuarios del recinto se manifiestan en contra de los homosexuales. </P>
<P locator=”1”type=”texto”>
<SN end=”14”fac=”1.0”start=”2”id=”1”>Los usuarios</SN>
<L SUG id=”1”> <SUG sim=”1.0”id=”1”>
... situación, que desorienta <EJ>a los colectivos usuarios</EJ> de los servicios formativos, se simplifica ...
</SUG> <SUG sim=”0.9490392648287383”id=”2”>
... seguridad de redes y sistemas o Informática <EJ>de usuario/a</EJ> o Programador/a de aplicaciones ...
</SUG> <SUG sim=”0.9172932330827067”id=”3”>
... guardar el rastreo de lo que hace <EJ>toda persona usuaria</EJ> de Internet durante un mı́nimo de ...
</SUG> </L SUG>
<SN end=”71”fac=”1.0”start=”42”id=”2”> en contra de los homosexuales</SN>
<L SUG id=”2”> <SUG sim=”0.9941520467836257”id=”1”>
Represión franquista y lucha de los colectivos <EJ>de homosexuales</EJ> y transexuales Fernando Olmeda, ...
</SUG> <SUG sim=”0.9422156790577841”id=”2”>
... especialmente en las escuelas, como estos pares: <EJ>homosexual</EJ>/heterosexual; femenino/masculino; ...
</SUG> <SUG sim=”0.9364319890635678”id=”3”>
... homosexual es no ser ya ni mujer ni hombre, como si <EJ>la persona homosexual</EJ>renunciara a su ...
</SUG> </L SUG>
Los usuarios del recinto se manifiestan en contra de los homosexuales.
</P>
<P locator=”2”type=”texto”> Los trabajadores optan por unirse a los médicos. </P>
<P locator=”2”type=”texto”> <SN end=”17”fac=”1.0”start=”1”id=”3”>Los trabajadores</SN>
<L SUG id=”3”> <SUG sim=”0.9941520467836257”id=”1”>
... Comisiones Obreras cuando pide la equiparación de los/<EJ>las trabajadores/as</EJ> del sexo al resto ...
</SUG> <SUG sim=”0.993815730994152”id=”2”>
Tanto <EJ>los trabajadores y trabajadoras</EJ> propuestos por la Fundación Universidad de Oviedo, como ...
</SUG> <SUG sim=”0.9294976571864444”id=”3”>
... fácil podrı́a ser cambiar el mundo si <EJ>toda persona trabajadora</EJ> donara una unidad monetaria ...
</SUG> </L SUG’>
<SN end=”48”fac=”1.0”start=”35”id=”4”> a los médicos</SN>
<L SUG id=”4”> <SUG sim=”0.9941520467836257”id=”1”>
... necesita para conducir un servicio de entrenamiento <EJ>para médicos</EJ>, enfermeras, dietistas y otros ...
</SUG> <SUG sim=”0.9406850459482038”id=”2”>
... enfermedad todavı́a muy desconocida incluso <EJ>para el colectivo médico</EJ>, y es objeto de miles de ...
</SUG> <SUG sim=”0.48454469507101083”id=”3”>
... personal docente e investigador con el grado <EJ>de doctor o doctora</EJ>, que ha de constituir, ...
</SUG> </L SUG>
Los trabajadores optan por unirse a los médicos.
</P>
<P locator=”3”type=”texto”> Los turistas alemanes serán premiados por los investigadores. </P>
<P locator=”3”type=”texto”>
<SN end=”24”fac=”1.0”start=”3”id=”5”> Los turistas alemanes</SN>
<L SUG id=”5”> <SUG sim=”0.9941520467836257”id=”1”>
Llegan a nuestro paı́s <EJ>como turistas</EJ> y la consiguiente exigencia de visados al poco de su estancia ...
</SUG> </L SUG>
<SN end=”63”fac=”1.0”start=”41”id=”6”> por los investigadores</SN>
<L SUG id=”6”> <SUG sim=”0.9941520467836257”id=”1”>
Bienestar reune en Madrid (CSIC, Serrano 117) <EJ>investigadores/as</EJ> de más de 30 paises.
</SUG> <SUG sim=”0.9472398946083156”id=”2”>
... bagaje colectivo <EJ>como grupo investigador</EJ>está formado por el pensamiento crı́tico de teóricos ...
</SUG> <SUG sim=”0.7571929824561403”id=”3”>
temas <EJ>de mujer o por los investigadores</EJ> que (¿casualmente?) son mayoritariamente mujeres, ...
</SUG> </L SUG>
Los turistas alemanes serán premiados por los investigadores.
</P>
<P locator=”4”type=”texto”> El director se reune con el alcalde. </P>
<P locator=”4”type=”texto”> <SN end=”13”fac=”1.0”start=”2”id=”7”>El director</SN>
<L SUG id=”7”> <SUG sim=”0.9941520467836257”id=”1”>
Cada vez es más habitual ver ’informático/a’ o ’<EJ>director/a</EJ>’, pero seguimos encontrándonos con ...
</SUG> <SUG sim=”0.9410175981620718”id=”2”>
Las decanas y los decanos y <EJ>las directoras y los directores</EJ> de las unidades deben elaborar y someter ...
</SUG> <SUG sim=”0.8624011007911937”id=”3”>
Una profesora me contó que el año pasado <EJ>el equipo directivo</EJ> de su instituto decidió gastarse todo ...
</SUG> </L SUG>
<SN end=”37”fac=”1.0”start=”23”id=”8”> con el alcalde</SN>
<L SUG id=”8”> <SUG sim=1.0”id=”1”>
<EJ>alcaldesa y alcalde</EJ>
</SUG> </L SUG>
El director se reune con el alcalde.
</P>
Cuadro 5: Ejemplo de párrafos no inclusivos y las sugerencias ofrecidas por el recomendador.
plo que en realidad es exclusivo.
Por último, toda sugerencia podrá ser susceptible de error, ya que el sistema no tiene
manera alguna de saber si el texto se está refiriendo a un varón concreto, por ejemplo, si el
alcalde es un hombre no tiene sentido sugerir
“alcaldesa y alcalde”.
4.
ción definitiva del sistema, ası́ como la ampliación de los ejemplos positivos de la BD, se
está llevando a cabo en la Fundación CTIC.
Una mejora del sistema consiste en tener en cuenta todas las partı́culas del SN, ya
que por el momento básicamente se tienen en
cuenta nombres. Los adjetivos sólo se tienen
en cuenta si el núcleo del SN es un nombre
que aparece en la lista nombres vacı́os.
Trabajo futuro
La definición final del contenido de las listas de palabras utilizadas para la configura-
Tratar los pronombres nos permitirı́a detectar ejemplos como “estamos todos y to23
Maria Fuentes, Lluís Padró, Muntsa Padró, Jordi Turmo, Jordi T. Carrera
Bibliografı́a
das” o malos usos como “contacte con nosotros”. De todas formas, por el momento el sistema tampoco trata verbos, por lo que ninguna construcción con clı́ticos, “contactarnos”,
puede ser detectada como correcta.
Retocar la gramática y el extractor de caracterı́sticas mejorarı́a el tratamiento de SNs
especialmente complejos cómo “de nuestras
hijas e hijos, amigas y amigos y colegas”. El
extractor actual sólo obtiene información de
tres elementos por SN: palabra “,” o “conjunción”, palabra1 y palabra2.
Refinar el árbol de decisión con que se implementa el filtrado de SNs en el tratamiento
de SNs dobles permitirı́a que no se filtrasen
cómo ejemplos positivos SNs del estilo “de
mujer o por los investigadores”.
El estudio de la calidad del contexto en la
extracción de SNs inclusivos también significarı́a una mejora, evitando incluir ejemplos,
como el anteriormente mencionado, cuyo contexto contiene “otros profesionales”.
Referente a la presentación de sugerencias,
no se tiene en cuenta si el SN viene precedido
por una preposición o no. Se podrı́a estudiar
la posibilidad de poner las preposiciones en
la zona de contexto. De manera que las sugerencias a “Los usuarios” serı́an: “los colectivos usuarios, usuario/a y toda persona usuaria”, en lugar de “a los colectivos usuarios, de
usuario/a y toda persona usuaria”.
Queda como trabajo futuro la detección y
corrección de SNs que excluyan a personas de
sexo masculino, “azafatas” o “enfermeras”.
5.
Alario, Carmen, Mercedes Bengoechea, Eulalia Lledó, y Ana Vargas. 1995. En femenino y en masculino. Madrid: Ministerio
de Trabajo y Asuntos Sociales.
Atserias, Jordi, Bernardino Casas, Elisabet
Comelles, Meritxell González, Lluı́s Padró, y Muntsa Padró. 2006. Freeling
1.3: Syntactic and semantic services in an
open-source nlp library. En Proceedings of
the fifth international conference on Language Resources and Evaluation (LREC
2006), ELRA, Genoa, Italy.
Consejo Europa. 1986. Igualdad de sexos en
el lenguaje. Comisión de terminologı́a en
el Comité para la igualdad entre mujeres
y hombres del Consejo de Europa.
Departamento Dona. 1987. Recomendaciones para un uso no sexista de la lengua.
Consellerı́a de Cultura, Educación y Ciencia de la Generalitat Valenciana.
Factoria de Empresas. 2002. La lupa violeta.
http://www.factoriaempresas.org/productos
yresultados/lupavioleta/lanzador.swf.
Jardine, N. y R. Sibson. 1971. Mathematical
Taxonomy. John Wiley and Sons, Inc.
Naciones Unidas. 1996. Declaración de pekı́n
y plataforma para la acción. IV Conferencia mundial sobre las mujeres, Pekı́n.
Rousseeuw, Peter. 1987. Silhouettes: A graphical aid to the interpretation and validation of cluster analysis. Journal of
Computational and Applied Mathematics,
20:53–65, November.
Conclusiones
The Reuse company.
2008.
http://www.themis.es.
El sistema presentado tiene dos funcionalidades básicas: la recomendación de un uso del
lenguaje inclusivo y la adquisición automática de ejemplos inclusivos a partir de textos
considerados correctos.
El sistema utiliza aprendizaje basado en
ejemplos. Por ello, la calidad de las recomendaciones es fuertemente dependiente de la calidad y cantidad de ejemplos previamente almacenados en la Base de Datos, aunque cómo
toda aplicación de inteligencia artificial tiene
asociado un cierto grado de error. Por esta
razón el recomendador debe ser considerado
como un asistente a la escritura de textos inclusivos y no como un corrector de textos exclusivos.
Themis.
Vossen, Piek. 1998. Eurowordnet: A multilingual database with lexical semantic networks. Dordrecht. Kluwer Academic Publishers.
Wilson, Kenneth G. 1993. The Columbia
Guide to Standard American English. Columbia University Press.
Zhao, Y. y G. Karypis. 2002. Evaluation
of hierarchical clustering algorithms for
document datasets. En Proceedings of
the Eleventh International Conference on
Information and Knowledge Management
(CIKM’02), páginas 515–524.
24
Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 25-30
recibido 14-01-09, aceptado 02-03-09
Aplicación de técnicas de extracción de información temporal a
los sistemas de búsqueda de respuestas*
Application of temporal information extraction techniques to question
answering systems
María Teresa
Paloma
Vicente-Díez
Martínez
Departamento de Informática.
Universidad Carlos III de Madrid
Avda. Universidad 30, 28911. Leganés,
Madrid
{tvicente, pmf}@inf.uc3m.es
Ángel MartínezJosé Luis MartínezGonzález
Fernández
DAEDALUS - Data, Decisions and
Language, S.A.
Edificio Villausa II
Avda. Albufera, 321, 28031. Madrid
{amartinez, jmartinez}@daedalus.es
Resumen: En este trabajo, proponemos la integración de un sistema de reconocimiento,
resolución y normalización de expresiones temporales en un sistema de búsqueda de respuestas
para español. Las fases de análisis de la pregunta y de extracción de respuestas han sido
adaptadas a las nuevas capacidades del sistema para la detección e inferencia temporal. Dicho
sistema ha sido evaluado a través de un corpus de preguntas propuesto para la tarea principal de
QA@CLEF2008. Los resultados obtenidos muestran mejoras relativamente significativas tanto
en la cantidad de las respuestas acertadas como en la calidad de las mismas.
Palabras clave: Sistemas de búsqueda de respuestas, tratamiento de información temporal,
razonamiento temporal
Abstract: This work proposes the integration of a temporal expressions recognition, resolution
and normalization system into a question answering system for Spanish. Both question analysis
and answer extraction stages have been adapted to the new capabilities for temporal detection
and inference of the system. It has been evaluated by means of a corpus composed of questions
that has been originally developed for the main task of QA@CLEF2008. The obtained results
show quite significant improvements both in terms of quantity of correct answers and in the
quality of them.
Keywords: Question-Answering systems, temporal information management, temporal
inference
1
Introducción
La mayoría de los sistemas de búsqueda de
respuestas (SSBBRR) actuales no aprovechan
todas las ventajas que podría suministrarles un
adecuado procesamiento de la información
temporal de sus recursos. Aquéllos podrían ver
mejorados sus resultados mediante el empleo de
técnicas de extracción e inferencia temporal,
tanto en la fase de formulación de la pregunta
como en la de recuperación de la respuesta.
*
Este trabajo ha sido parcialmente financiado por
la Comunidad de Madrid bajo la Red de
Investigación MAVIR (S-0505/TIC-0267), y por el
Ministerio de Educación en el marco del proyecto
BRAVO (TIN2007-67407-C3-01).
ISSN 1135-5948
La propuesta que se describe en este artículo
trata de solucionar esta problemática añadiendo
tratamiento temporal a un sistema de búsqueda
de respuestas existente, en las fases cuya mejora
es susceptible de ejercer una influencia más
significativa en el resultado final. Así, se han
considerado las etapas de indexación de
documentos, el análisis de la pregunta y la
extracción de la respuesta. Los principales
avances se consiguen mediante la adición de
meta-información temporal en las colecciones
indexadas, la normalización de las expresiones
temporales detectadas en la pregunta, y
mediante la inclusión de un mecanismo de
inferencia temporal a la hora de extraer la
respuesta.
© 2009 Sociedad Española para el Procesamiento del Lenguaje Natural
María Teresa Vicente-Díez, Paloma Martínez, Ángel Martínez-González, José Luis Martínez-Fernández
Pablo-Sánchez y Martínez, 2007) procesa los
textos de entrada e identifica fechas y
expresiones temporales, instantes de referencia,
duraciones
e
intervalos
en
ellos
(reconocimiento). Las expresiones reconocidas
son a su vez resueltas cuando por su naturaleza
así lo precisan (resolución), devolviéndose en el
formato estándar internacional ISO8601 (2004)
de representación de fechas y horas
(normalización). En la Figura 1 se muestra la
arquitectura general del sistema anteriormente
descrito.
El sistema de búsqueda de respuestas del
que se parte participa en CLEF desde el año
2003, a través del grupo de investigación
MIRACLE (Multilingual Information RetrievAl
for the CLEf campaign) (de Pablo-Sánchez et
al., 2007). En este trabajo el sistema
monolingüe, desarrollado inicialmente para
trabajar en español, se ha evaluado a través de
una batería de preguntas extraídas de la
colección de CLEF 2008. Otros trabajos previos
han abordado también este problema para el
tratamiento de otros idiomas, como en
(Hartrumpf y Leveling, 2006) o en (Moldovan
y Clark, 2005).
El artículo está estructurado como sigue: en
la sección 2 se describen las bases para el
tratamiento de información temporal. En la
sección 3 se presenta el sistema de búsqueda de
respuestas sobre el que se ha trabajado,
mientras que en la sección 4 se detallan las
mejoras llevadas a cabo sobre el mismo. La
sección 5 muestra los resultados de la
evaluación a la que se ha sometido al sistema.
Para finalizar, la sección 6 incluye las
conclusiones obtenidas y algunas líneas de
trabajo futuro.
Figura 1: Arquitectura general del sistema de
extracción de información temporal
2 Reconocimiento y Normalización de
Expresiones Temporales
En un SBR es primordial poder resolver
referencias que ayuden a responder a cuestiones
temporales (“¿En qué mes se celebra en España
la Navidad?”) o con restricciones de tiempo
(“¿Cuántas películas fueron filmadas en
2005?”). Particularmente en estos sistemas
resulta de especial interés la integración de
mecanismos de razonamiento sobre el tiempo
que doten a la aplicación de una nueva
dimensión temporal (Moldovan, Bowden, y
Tatu, 2006).
Un tratamiento de información temporal
adecuado ha de comenzar con una detección
precisa de las expresiones temporales en las
colecciones de documentos. Además, ha de ser
capaz de manejar cada detección en un formato
estándar que capture el valor temporal de la
expresión una vez resuelta, permitiendo el
razonamiento sin lugar a ambigüedad. De esta
manera, en un sistema de recuperación de
información que incorpore estas características
se puede concretar más el rango de la búsqueda
e incrementar la calidad de los resultados.
El sistema implementado para la extracción
de información temporal (Vicente-Díez, de
La base del sistema la constituye una
gramática de reglas de reconocimiento de
expresiones temporales que define el
funcionamiento de un autómata de estados
finitos. Conjuntamente, se ha desarrollado una
propuesta de resolución y normalización de las
detecciones llevadas a cabo, que también se
realiza de manera automática. Ambas
herramientas se han construido a partir de un
estudio exhaustivo de los diferentes tipos de
expresiones temporales que aparecen en
distintos corpus en español. Gracias a este
análisis se desarrolló una tipología de las
expresiones de tiempo y seguidamente se
definió la gramática de reconocimiento y las
reglas de resolución y normalización que
correspondían con los tipos de aparición más
frecuente (Vicente-Díez, Samy y Martínez,
2008).
La Tabla 1 presenta un ejemplo de
definición de patrones que constituyen las
reglas de la gramática de reconocimiento, así
como de las reglas para la resolución de las
detecciones y la definición del formato de
salida estandarizado.
26
Aplicación de técnicas de extracción de información temporal a los sistemas de búsqueda de respuestas
RECONOCIMIENTO
PATRON
DESCRIPCIÓN
EJEMPLOS
COMPLETE_DATE
REL_DEICTIC_UNIT
[ART|PREP]? DAY PREP MONTH_NAME PREP YYYY
DEICTIC_UNIT
el_3_de_enero_de_2005
mañana
FORMATO
ENTRADA
ABS_DATE
REL_
DEICTIC_UNIT_
FUTURE
[ART|PREP]?
DAY PREP
MONTH_NAME
PREP YYYY
mañana
RESOLUCIÓN Y NORMALIZACIÓN
REGLA DE RESOLUCIÓN
ENTRADA
EJEMPLO
REFERENCIA
SALIDA NORM
Day =toDD (DAY)
Month=toMM(MONTH_NAME)
Year=YYYY
[el] 31 de
diciembre
de 2005
NA
2005-12-31
Day=getDD(Creation_Time)+1
Month=getMM(Creation_Time)
Year=getYYYY(Creation_Time)
mañana
2008-06-01
2008-06-02
Tabla 1 Ejemplo de reglas de reconocimiento de la gramática temporal y reglas de resolución
correspondientes.
3
el módulo encargado de determinar si una
pregunta tiene rasgos de temporalidad, entre
otros.
Selector de Documentos
Proporciona
acceso
a
fuentes
de
información, es decir, a sistemas capaces de
proporcionar porciones de texto que pueden
contener la respuesta buscada para una
pregunta. El sistema da acceso a índices de
Lucene en los que previamente se han indexado
todos los documentos de las colecciones en las
que se procederá a buscar las respuestas.
Este módulo precisa de la funcionalidad de
análisis lingüístico que ofrece otro de los
módulos.
Extractor de Respuestas
Su funcionalidad radica en analizar el
contenido de un documento para determinar si
aparece o no la respuesta a una pregunta.
Para ello se definen dos tareas: seleccionar
las frases que pueden contener una respuesta y
determinar qué parte de una frase encierra la
respuesta a una pregunta.
Como posibles respuestas se extraen
aquellos tokens (o grupos de tokens) que tienen
asignada la etiqueta semántica adecuada. Este
componente devuelve una lista de respuestas
candidatas a las que asocia un valor de
confianza en su corrección.
Este módulo también hace uso de las
funciones de análisis lingüístico.
Evaluador de Respuestas (Ranker)
El sistema consta de un componente para
puntuar las posibles respuestas. Este sistema de
puntuación asigna un peso local y un peso
global a cada respuesta. El peso local sólo
depende de la frase en la que se encuentra la
respuesta. El peso global se calcula teniendo en
consideración todas las respuestas encontradas.
Sistema de Búsqueda de Respuestas
Los módulos principales que componen la
arquitectura general del SBR que ha sido
sometido a estudio en este en este trabajo son
presentados en la Figura 2.
Figura 2: Arquitectura modular del sistema de
búsqueda de respuestas
La flecha de bloque marca el recorrido que
sigue una pregunta durante su procesamiento.
Las flechas discontinuas indican qué uso hacen
unos componentes de otros.
A continuación se describe de forma
genérica la funcionalidad de cada módulo.
Analizador de Preguntas
Este componente se encarga de clasificar
una pregunta de entrada atendiendo a un
conjunto de características predefinidas. Para
ello emplea un clasificador basado en reglas. Es
27
María Teresa Vicente-Díez, Paloma Martínez, Ángel Martínez-González, José Luis Martínez-Fernández
normalizar expresiones temporales dentro de
esas preguntas.
Esto permite que en el tratamiento de las
preguntas temporales se pueda refinar el tipo de
respuesta que se espera del sistema. Por
ejemplo, ante una pregunta como “¿En qué
año…?” el sistema es capaz de detectar que la
respuesta ha de coincidir con un patrón que
corresponda a un año exclusivamente.
Por otra parte, en el caso de que la pregunta
contenga una expresión temporal, el sistema es
capaz
de
extraerla,
clasificando
automáticamente
dicha
pregunta
como
restringida temporalmente, y utilizando su
resolución para acotar la búsqueda.
De manera adicional, el uso de la forma
normalizada de las expresiones temporales
detectadas en las preguntas permite recuperar
aquellos
documentos
que
contienen
información temporal que coincide no sólo
literal sino también semánticamente con los
términos de la búsqueda (“15 de septiembre”,
“15/09”, “15 sept.”).
Ambos pesos se combinan para proporcionar
el peso asignado a la respuesta, siendo la
influencia de cada uno de ellos configurable.
Analizador Lingüístico
Este
componente
incluye
toda
la
funcionalidad relativa al tratamiento lingüístico
de los textos con los que se trabaja, sean textos
extraídos de documentos o preguntas.
Los textos son divididos y enriquecidos con
etiquetado gramatical, morfosintáctico y
semántico por las herramientas lingüísticas
StilusTokenizer y StilusReader, desarrolladas
por (DAEDALUS, 2008).
4 Integración del tratamiento temporal
en la Búsqueda de Respuestas
Algunos autores han denominado búsqueda de
respuestas temporal a aquella especialización de
la tarea de búsqueda de respuestas en la que las
preguntas tienen algún rasgo que denota
temporalidad (Saquete, 2005). Este tipo de
preguntas pueden ser clasificadas en 3
categorías de acuerdo al papel que juega el dato
temporal en su resolución:
Preguntas temporales: aquéllas para las
que la respuesta esperada es una fecha o
expresión de tiempo (“¿Cuándo se firmo el
tratado de Maastricht?”)
Preguntas con restricción temporal:
preguntas en cuyo contenido se encuentra una
fecha o expresión temporal que circunscribe su
respuesta (“¿Quién ganó el Oscar a la mejor
actriz en 1995?”).
Preguntas temporales con restricción
temporal: combinan las características de los
dos tipos anteriormente descritos (“¿En qué
temporada anterior a 1994 se enfrentaron
Barcelona y Milán?”).
Para que el SBR base sea capaz de resolver
este tipo de cuestiones temporales es necesaria
la integración de ciertas capacidades de
tratamiento de información temporal en algunos
de sus módulos. En este trabajo se presenta una
evolución del SBR base cuya implementación
se ha centrado en la mejora de los módulos de
análisis de preguntas y extracción de respuestas.
4.1
4.2
Extracción de respuestas
Detectar correctamente el tipo de pregunta
es fundamental para conseguir una buena
respuesta, pero también lo es extraer los
fragmentos de texto adecuados para responder a
la pregunta, así como asignar una valoración
conveniente a las posibles respuestas.
Este módulo extrae como respuesta aquéllos
tokens que tienen asignada la etiqueta semántica
correspondiente al tipo de pregunta formulada.
En el caso de las preguntas temporales el
sistema con tratamiento de información
temporal es capaz de proporcionar respuestas
que cumplen la restricción de ser expresiones
temporales o fechas, con la granularidad que
dicte la pregunta (fecha completa, año, mes,…).
Cuando se trata de responder a preguntas
con restricción temporal, el módulo aplica
nuevas reglas de extracción basadas en
inferencia temporal. En el caso de que una
respuesta candidata no cumpla la restricción
temporal impuesta en la pregunta, la regla
reducirá la valoración final de dicha respuesta.
Si por el contrario la cumple, la confianza en
que pueda ser una respuesta correcta aumenta
con respecto al resto.
Se ha desarrollado un mecanismo de
inferencia temporal básico fundamentado en el
principio de inclusión: de un instante de tiempo
en un intervalo, y de un intervalo en otro. Esta
Análisis de preguntas
Este módulo es el encargado de la
clasificación de las preguntas de entrada. Entre
otras, se encarga de clasificar las preguntas con
rasgo de temporalidad de acuerdo a la
categorización que se describió anteriormente.
Su funcionalidad ha sido incrementada
dotándole de capacidad para detectar, resolver y
28
Aplicación de técnicas de extracción de información temporal a los sistemas de búsqueda de respuestas
sistemas, habiéndose llevado a cabo el cómputo
en términos cuantitativos y cualitativos. Para
esta última medición se ha hecho un análisis en
función de si la respuesta correcta ha sido
ofrecida como primera, segunda o tercera
opción, descartándose el resto de posibilidades.
inferencia es facilitada por la normalización
previa de las expresiones de tiempo.
5
Evaluación y resultados
Esta sección muestra una comparativa entre los
resultados obtenidos por el SBR base y el
ampliado con tratamiento de expresiones
temporales. Ambos sistemas trabajan sobre los
índices de documentos obtenidos de las
colecciones que se muestran en la Tabla 2.
EFE 1994
EFE 1995
Wikipedia
Documentos
215.738
238.307
≈ 370.000
Tamaño
509 MB
577 MB
--
Preguntas Restricción Temporal
Preguntas Temporales
Preguntas Temporales con
Restricción Temporal
Total
Tipo
txt
txt
html
26
19
1
13%
10%
0,5%
46
23%
Tabla 3 Preguntas con rasgo de temporalidad en
QA@CLEF2008
Los resultados obtenidos por el SBR base,
sin mecanismos de inferencia y tratamiento
temporal, se muestran en la Tabla 4. Éste
responde correctamente a 8 de las 46 preguntas,
siendo 5 de esas respuestas ofrecidas como
primera opción.
En cuanto al SBR con capacidades
temporales, los resultados se muestran en la
Tabla 5. En este caso se observa un incremento
en el número de respuestas correctas obtenidas,
contabilizándose un total de 9. Además, los
resultados se ven también mejorados
cualitativamente, ya que 7 de esas respuestas se
ofrecen como primera opción.
La utilización del SBR temporal supone un
incremento en la tasa de acierto del 2,17% con
respecto al SBR base, y del 4,35% en el ratio de
respuestas correctas en primera instancia.
Tabla 2 Colecciones de documentos indexadas
Con el fin de realizar esta evaluación ha sido
también preciso emplear un corpus de preguntas
temporales que permitiera contrastar los
resultados de uno y otro sistema. Dicho corpus
se ha obtenido de la tarea principal de
QA@CLEF2008, y cuenta con un total de 200
preguntas. De éstas, 46 están clasificadas según
su cariz temporal dentro de alguno de los 3
tipos definidos en el punto anterior. Este
subconjunto de preguntas será sujeto de estudio
por su interés particular para este trabajo. La
Tabla 3 muestra las proporciones de cada tipo
de pregunta con temporalidad en el corpus.
Se ha realizado una evaluación manual de la
corrección de las respuestas a las preguntas con
rasgos de temporalidad obtenidas por ambos
1ª respuesta
1
3,85%
4
21,05%
0
0%
5
10,87%
Preguntas con Restricción Temporal
Preguntas Temporales
Preguntas Temporales con Restricción Temporal
Total
Aciertos en
2ª respuesta
1
3,85%
0
0%
0
0%
1
2,17%
3ª respuesta
1
3,85%
1
5,26%
0
0%
2
4,35%
Tabla 4 Resultados del SBR sin tratamiento de información temporal
1ª respuesta
3
11,54%
4
21,05%
0
0%
7
15,22%
Preguntas con Restricción Temporal
Preguntas Temporales
Preguntas Temporales con Restricción Temporal
Total
Aciertos en
2ª respuesta
0
0%
1
5,26%
0
0%
1
2,17%
Tabla 5 Resultados del SBR con tratamiento de información temporal
29
3ª respuesta
0
0%
1
5,26%
0
0%
1
2,17%
María Teresa Vicente-Díez, Paloma Martínez, Ángel Martínez-González, José Luis Martínez-Fernández
6
Hartrumpf, S. y Leveling, J. 2006. University of
Hagen at QA@CLEF 2006: Interpretation
and Normalization of Temporal Expressions.
En, Working Notes of the 2006 CLEF
Workshop. Alicante (Spain).
Conclusiones y líneas futuras
A la vista de los resultados obtenidos en este
trabajo, se puede concluir que el tratamiento de
la información temporal constituye una línea de
mejora a tener en cuenta por los SBR actuales.
Bien es cierto que el corpus de preguntas
disponibles con rasgos de temporalidad es
pequeño y por tanto los resultados no pueden
considerarse absolutamente concluyentes. No
obstante, mediante la integración de un sistema
de reconocimiento y normalización temporal
junto con el ajuste de los módulos de análisis de
la pregunta y extracción de la respuesta,
permitiéndose la realización de una inferencia
temporal sencilla, se consigue que el número de
respuestas correctamente satisfechas se vea
incrementado. Conjuntamente, también la
probabilidad de obtener la respuesta correcta en
la
primera
opción
aumenta.
Ambas
características hacen que consideremos
prometedora esta línea de trabajo.
Aun habiéndose obtenido resultados
positivos en términos cuantitativos y
cualitativos, sería interesante ahondar más en
las causas que originan dicho incremento. Del
mismo modo queda pendiente analizar los
motivos por los cuales en determinadas
ocasiones el sistema disminuye la valoración de
la respuesta correcta.
Se plantea también como línea futura la
mejora de otros módulos del SBR, añadiendo
nuevas capacidades de tratamiento del tiempo.
En este sentido se destaca la posibilidad de
combinar el sistema de indexación actual con
índices temporales constituidos de expresiones
temporales normalizadas. El enriquecimiento
del mecanismo actual de inferencia temporal es
otra mejora susceptible de llevar a cabo.
Por último, también el sistema de extracción
de expresiones temporales podría ser
perfeccionado con el fin de incrementar la
cantidad de información temporal completa y
correctamente manipulada.
ISO8601:2004(E). 2004. Data elements and
interchange
formats
–
Information
interchange – Representation of dates and
times. Tercera edición 2004-12-01.
Moldovan, D. y Clark, C. 2005. Temporally
Relevant Answer Selection. En Proceedings
of the 2005 International Conference on
Intelligence Analysis. Mayo 2005.
Moldovan, D. Bowden, M. y Tatu, M. 2006. A
Temporally-Enhanced PowerAnswer in
TREC 2006. En The Fifteenth Text
REtrieval Conference (TREC 2006)
Proceedings. Gaithersburg, MD, (USA).
de Pablo-Sánchez, C., Martínez, J.L., González
Ledesma, A., Samy, D., Martínez, P.,
Moreno-Sandoval, A. y Al-Jumaily, H.
2007. MIRACLE Question Answering
System for Spanish at CLEF2007. En
Working Notes of the 2007 CLEF Workshop.
Budapest (Hungary). Septiembre 2007.
Saquete, E. Resolución de Información
Temporal y su Aplicación a la Búsqueda de
Respuestas.
2005. Tesis Doctoral en
Informática, Universidad de Alicante.
Vicente-Díez, M.T., de Pablo-Sánchez, C. y
Martínez, P. 2007. Evaluación de un Sistema
de Reconocimiento y Normalización de
Expresiones Temporales en Español. En
Actas del XXIII Congreso de la Sociedad
Española de Procesamiento de Lenguaje
Natural (SEPLN 2007), páginas 113-120.
Sevilla, (Spain). Septiembre 2007.
Vicente-Díez, M.T., Samy, D. y Martínez, P.
2008. An Empirical Approach to a
Preliminary Successful Identification and
Resolution of Temporal Expressions in
Spanish News Corpora. En Proceedings of
the Sixth International Language Resources
and Evaluation (LREC'08). Marrakech,
(Morocco). Mayo 2008.
Bibliografía
DAEDALUS. 2008. Data, Decisions and
Language, S. A. http://www.daedalus.es.
Visitado: Enero 2009.
30
Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 31-38
recibido 29-12-08, aceptado 02-03-09
Evaluación de una Estrategia de Expansión Local Conservadora
en Recuperación de Información Visual
Evaluating a Conservative Automatic Local Expansion Strategy
for Visual Information Retrieval
Sergio Navarro, Rafael Muñoz y Fernando Llopis
Departamento de Lenguajes y Sistemas Informáticos
Universidad de Alicante
Carretera Sant Vicent del Raspeig s/n
03690 Sant Vicent del Raspeig (Alicante)
snavarro,rafael,[email protected]
Resumen: En este trabajo comparamos dos métodos de expansión de la pregunta
en el area de la Recuperación de Información Visual (RIV): Probabilistic Relevance
Feedback (PRF) y Local Context Analysis (LCA). La principal diferencia observada
entre ambos métodos es que mientras PRF utiliza para la expansión las anotaciones
correspondientes a las primeras imágenes de un ranking, LCA evita utilizar anotaciones corespondientes a imágenes no relevantes, situadas en esas primeras posiciones, mediante una heurı́stica basada en coocurrencia. Los resultados muestran
que LCA obtiene mejor precisión que PRF a medida que la precisión del ranking
utilizado para la expansión es menor. Esta observación hace de LCA un método
especialmente adecuado para su utilización con rankings de baja precisión como
los devueltos por sistemas de RIV basados en el contenido de la imagen. Y ası́ lo
demuestran los buenos resultados obtenidos utilizando la variante multimodal de
LCA, que es la única estrategia de expansión local que no daña a la diversidad de
los resultados, y a su vez la que obtiene nuestros mejores resultados de precisión con
el conjunto de consultas de la tarea ImageCLEFPhoto 2008 – 4o MAP y 5o P20 de
las 1039 ejecuciones automáticas enviadas por los participantes –.
Palabras clave: Recuperación de Información Visual, Expansión Local, LCA, PRF
Abstract: In this paper we compare two query expansion methods in the Visual Information Retrieval (VIR) area: Probabilistic Relevance Feedback (PRF) and
Local Context Analysis (LCA). The main difference observed between these methods is that while PRF assumes that annotations related to top-ranked images are
relevant, LCA avoids to include terms from top-ranked non relevant images of the
ranking using an heuristic based on coocurrence. The experiment results show us
that LCA increases its precision over PRF for those rankings with lowest precision.
Thus, LCA demonstrates to be specially suitable for low precision rankings as the
ones returned by the VIR systems based on the content of the image. Indeed, our
multimodal LCA variation is the only one local expansion strategy which do not
hurt the diversity of the results and the one which reach our best precision results
with the ImageCLEFPhoto 2008 task query set – 4o MAP and 5o P20 within the
1039 automatics runs submitted by the participants –.
Keywords: Visual Information Retrieval, Relevance Feedback, LCA, PRF
1.
Introducción
La gran variedad de formatos digitales existentes en la red y el boom de los contenidos
multimedia, hacen necesario desarrollar y/o
adaptar herramientas de búsqueda de información a las caracterı́sticas de estos nuevos
formátos como son el video y la imagen entre otros. Actualmente los buscadores comerciales de contenidos multimedia, como los
ISSN 1135-5948
bien conocidos Youtube1 o Flickr2 , basan las
búsquedas sólo en el texto que acompaña a la
imagen o al video. El desarrollo de este tipo
de herramientas está dentro del área de investigación de la Recuperación de Información Visual (RIV), que es donde se encuadra
el trabajo que aquı́ presentamos. La RIV po1
2
http://www.youtube.com
http://www.flickr.com
© 2009 Sociedad Española para el Procesamiento del Lenguaje Natural
Sergio Navarro, Rafael Muñoz, Fernando Llopis
drı́amos decir que es un área especı́fica dentro de la Recuperación de Información (RI),
en la cual de hecho inicialmente se han utilizado sistemas de RI tradicionales sin ninguna adaptación especifica a la RIV para llevar
a cabo búsquedas utilizando las anotaciones
que acompañan a las imágenes. Ası́, las colecciones que utilizan los sistemas de RIV estan
compuestas de colecciones de imágenes y de
las anotaciones que describen a las mismas.
Históricamente en el área de la RIV se han
utilizado dos enfoques para llevar a cabo la
RI de imágenes: En los inicios de la RIV a
finales de los años 70, los sistemas de RIV
se basan en las anotaciones que acompañan
a las imágenes, se trata pues de sistemas de
RIV Basados en Texto (RIBT). Más tarde a
principios de los años 90, en un intento de superar la dependencia de los sistemas de RIBT
de la existencia de anotaciones textuales de
una imagen para su indexación, surgen los
sistemas de RIV Basados en el Contenido de
la Imagen (RIBC) (Grubinger, 2007).
Finalmente en los últimos años a medida
que las tecnologı́as utilizadas por los sistemas
de RIBC han ido madurando, un tercer enfoque para afrontar el problema de la RIV
ha surgido, se trata de los sistemas que combinan tecnologı́as basadas en texto y en imagen. En este contexto se han venido organizando competiciones como el ImageCLEF3
que es una tarea especı́fica de RIV que busca estimular el desarrollo de sistemas multimodales utilizando colecciones de imágenes
con anotaciones reducidas de las mismas para
la evaluación y comparación entre sistemas,
y que se celebra en el marco de las competiciones anuales del CLEF4 .
El objetivo de este trabajo es comparar
dos estrategias textuales de expansión local
de la consulta que han sido utilizadas, por
un lado como técnicas de expansión local de
la consulta en sistemas textuales de RIV y
por el otro como estrategias de combinación
multimodal en sistemas basados en texto e
imagen. Las estrategias que comparamos son
Probabilistic Relevance Feedback (PRF) y
Local Context Analysis (LCA). PRF ha sido ampliamente utilizada como técnica de
expansión local en sistemas textuales (Dı́azGaliano et al., 2007) y como estrategia de
combinación multimodal (Gao et al., 2007) –
utilizando las anotaciones asociadas al rank3
4
ing devuelto por un sistema de RIBC –. En
cuanto a LCA, que es una estrategia de expansión local conservadora de la consulta
que goza de menor popularidad que PRF,
el único precedente que existe de utilización
como técnica de combinación multimodal en
RIV es el que presentamos en nuestra participación en la subtarea Photo de la edición
del 2008 del ImageCLEF. (Navarro, Llopis, y
Muñoz, 2008).
A partir de los buenos resultados
obtenidos con la versión multimodal de
LCA en nuestra participación en la citada
subtarea Photo del ImageCLEF 2008, en
este trabajo nos centramos en comparar
PRF y LCA como métodos de expansión
local en el ámbito de la RIBT. Nuestro
objetivo es hallar evidencias en el mayor
número posible de conjuntos de consultas y
de colecciones de imágenes, que justifiquen
los buenos resultados obtenidos por LCA en
su versión multimodal.
El sistema que hemos utilizado para la
RIBT es IR-n (Llopis, 2003), se trata de un
sistema basado en pasajes, que ha demostrado en diferentes competiciones mejores resultados que los obtenidos por la mayorı́a de los
sistemas de RIBT basados en documentos.
(Navarro, Muñoz, y Llopis, 2008a; Navarro,
Muñoz, y Llopis, 2008b).
El artı́culo esta estructurado como sigue:
en primer lugar presentamos las principales
caracterı́sticas del sistema IR-n centrándonos
en los métodos de expansión local automática
utilizados. A continuación describimos las
colecciones utilizadas, los experimentos y
los resultados obtenidos. Finalmente informamos de las conclusiones y de las propuestas de trabajos futuros extraı́das a partir de
los resultados.
2.
Sistema IR-n
Para llevar a cabo los experimentos hemos
utilizado IR-n, un sistema de recuperación
de información basado en pasajes. Este tipo
de sistemas tratan cada documento como un
conjunto de pasajes, donde cada pasaje delimita una porción de texto del documento.
Al contrario que los sistemas basados en documentos, los sistemas basados en pasajes permiten dar mayor relevancia a aquellos documentos donde los términos de la consulta
aparecen en posiciones más cercanas entre si
(Llopis, 2003).
IR-n utiliza listas de palabras de parada
http://www.imageclef.org
http://www.clef-campaign.org
32
Evaluación de una Estrategia de Expansión Local Conservadora en Recuperación de Información Visual
y stemmers para determinar que información
de un documento es utilizada para la recuperación de información. Por un lado, la lista
de palabras de parada de cada idioma contiene términos que son ignorados por el sistema por considerar que su presencia en la
consulta o en un documento no es lo suficientemente significativa como para determinar si
un documento es relevante para una consulta.
Por otro lado, el stemmer de cada idioma es
utilizado para obtener la raı́z de cada término – eliminando sufijos y/o prefijos – tanto
de los términos de la consulta en la fase de
búsqueda como de los términos de los documentos en la fase de indexacı̀ón de la colección. Una lista de los stemmers y las listas de
palabras de parada utilizadas por IR-n puede
ser consultada en www.unine.ch/info/clef.
Además IR-n permite seleccionar entre
diferentes modelos de recuperación. El modelo de recuperación utilizado determina como
se va a medir la similitud entre un texto y
una consulta, para ello cada modelo utiliza
una fórmula que valora el número de términos de la consulta que están presentes en el
documento y el poder discriminador de cada
uno de estos términos en la colección.
2.1.
los documentos situados en las primeras posiciones del ranking no sean relevantes, los resultados alcanzados por los sistemas que la
han utilizado en las conferencias TREC y
CLEF muestran que en términos generales es
una técnica efectiva (Xu y Croft, 2000), siendo de hecho la técnica de expansión local más
utilizada por sistemas de RIV en anteriores
ediciones del ImageCLEF (Gao et al., 2007)
(Dı́az-Galiano et al., 2007).
Una aproximación alternativa más conservadora que no parte de la asunción de que todos los documentos devueltos en las primeras
posiciones del ranking son relevantes, es Local Context Analysis (LCA) (Xu y Croft,
2000). Esta estrategia al igual que PRF se
basa en la frecuencia de aparición de los
términos presentes en los n primeros documentos del ranking para la selección de
términos a utilizar en la expansión, pero
al contrario que la primera, trata de evitar la utilización de términos pertenecientes
a documentos no relevantes, para ello da
una valoración más alta a aquellos términos pertenecientes a documentos con mayor
coocurrencia de términos con la consulta.
Ası́, los autores de LCA denominan conceptos a los términos de la expansión. Y utilizan una función f (c, Q), Fórmula (2), para
valorar cómo de adecuado es un concepto c
para expandir una consulta Q basándose en
las coocurrencias de c con los términos de la
consulta en los n primeros documentos del
ranking. Su Fórmula f (c, Q) viene dada por:
Expansión Local de la
Consulta
En RIBT la estrategia de expansión local
de la consulta más extendida es la de Probabilistic Relevance Feedback (PRF) (Robertson y Sparck Jones, 1977). Esta estrategia
considera como relevantes los m primeros
documentos devueltos en un ranking, a partir
de los cuales extrae los j primeros términos
mejor valorados según la Fórmula (1) aplicada a cada término t:
wt =
f (c, Q) =
Y
(δ + co de(c, wi ))idf (wi )
wi inQ
log10 (co(c, wi ) + 1)idf (c)
log10 (n)
X
co(c, wi ) =
tf (c, d)tf (wi , d)
co de(c, wi ) =
(mt + 0,5) · (n − nt − m + mt + 0,5)
(m − mt + 0,5) · (nt − mt + 0,5)
dinS
idf (c) = min(1,0, log10 (N/Nc )/5,0)
(1)
donde n es el número de documentos en
la colección, nt es el número de documentos en los que aparece el término t, y mt es
el número de documentos considerados relevantes en los que aparece t. De manera que wt
devuelve un valor mayor para aquellos términos cuya frecuencia entre los m primeros documentos del ranking es mayor que en toda la
colección.
Aunque esta técnica puede empeorar los
resultados en el caso de que la mayorı́a de
Donde w1 ,w2 ...wm son los términos de la
consulta Q, N es el número de documentos
en la colección, Nc el número de documentos que contienen el concepto c, y tf (c, d) y
tf (wi , d) son las frecuencias de c y wi en un
documento d respectivamente. Y finalmente
δ es utilizado simplemente como técnica de
suavizado para evitar valores nulos – los autores recomiendan utilizar un valor de 0.4 –.
La principal limitación de este método
basado en coocurrencia es que no siempre hay
33
Sergio Navarro, Rafael Muñoz, Fernando Llopis
coocurrencia entre un documento relevante y
la consulta (Liu y Junzhong Gu, 2007). Este
problema podrı́a acusarse más en colecciones
de imágenes, donde las anotaciones son reducidas, y por tanto la colección tiene reflejadas en sus documentos menos relaciones entre términos.
Los experimentos realizados por (Xu y
Croft, 2000) demuestran que el rendimiento
de LCA es más independiente que el de PRF
ante diferencias en el número de documentos
utilizados para la expansión. Lo que prueba
su efectividad a la hora de desechar documentos no relevantes en las primeras posiciones
del ranking. Contrariamente a lo que se podrı́a esperar, esta estrategia de expansión local no goza de tanta popularidad como PRF.
Desde él punto de vista de la utilización
de la expansión local como técnica de combinación multimodal, los trabajos previos del
estado de la cuestión basados en expansión
local textual como técnica de combinación
multimodal han utilizado PRF, no habiendo precedentes de utilización de LCA, salvo
nuestra participación en la tarea Photo del
ImageCLEF 2008
Para implementar la estrategia de realimentación multimodal, nuestro sistema
utiliza las n primeras anotaciones de las
imágenes en el ranking devuelto por un sistema de RIBC externo y las i primeras anotaciones en el ranking devuelto por un sistema
de RIBT obtenido con IR-n. Para a continuación, extraer los t términos mejor valorados
por el algoritmo utilizado – PRF o LCA –.
Indicar finalmente que IR-n permite configurar si se utilizan los documentos o los
pasajes más relevantes para la selección de
términos de la expansión local de la consulta.
3.
alta calidad, sus autores son expertos en
el área. Las mismas contienen un total
de 8 campos en texto plano, que son: un
tı́tulo corto y otro largo, localización, descripción, fecha, fotógrafo, notas y categorı́as. Siendo los dos últimos especialmente ricos en información del contexto de la fotografı́a – información que un
humano no podrı́a extraer sólo observando la misma –. Esta colección es la que
posee anotaciones de mayor calidad y extensión de las utilizadas.
IAPR TC-12 (Photo 2006 y Photo 2007 y 2008) (Clough et al., 2006;
Grubinger et al., 2007). Se trata de una
colección de imágenes de lugares del
mundo en su mayorı́a tomadas por una
compañı́a de viajes. Las mayores diferencias con la de St. Andrews son que IAPR
TC-12 utiliza imágenes de color y anotaciones en formato XML con los siguientes campos: tı́tulo, descripción, notas,
lugar y fecha.
Para la tarea del 2006 se proporciona
una versión de la colección IAPR TC12 a la que se le aplica un preproceso para reducir la calidad de las anotaciones, quedando como sigue: un 70 %
de las imágenes poseen todos los campos
completos, un 10 % no contienen descripción, otro 10 % no tienen ni descripción
ni tı́tulo, y finalmente otro 10 % no tiene
anotaciones.
Para la tarea del 2007 se proporciona
una versión para la cual las imágenes
contienen todos los campos salvo el de
descripción, que por otra parte es el más
rico en semántica. Esto reduce considerablemente la cantidad de información
textual de las anotaciones de la colección
si lo comparamos con las anotaciones de
la versión utilizada en el 2006.
Experimentos
Para nuestros experimentos hemos escogido las colecciones de imágenes y los conjuntos de preguntas utilizados en las tres ediciones anteriores a la edición de este año del
ImageCLEF. A continuación se comentan las
caracterı́sticas de cada una de las colecciones
utilizadas.
La Tabla 3 muestra los datos más relevantes de cada colección, donde:
Colección: Nombre de la colección junto a la tarea y las ediciones en que se
utilizó como colección de test.
St Andrews (Photo 2004) (Reid,
1999). Se trata de una colección de fotografı́as históricas en blanco y negro,
las anotaciones que acompañan a las
imágenes se puede considerar que son de
Idioma: Idioma de la colección utilizada
en nuestros experimentos.
N. Docs.: Número de imágenes de la
colección.
34
Evaluación de una Estrategia de Expansión Local Conservadora en Recuperación de Información Visual
Colección
St Andrews
(Photo 2004,2005)
IAPR TC-12
(Photo 2006)
IAPR TC-12
(Photo 2007,2008)
Idioma
N
Docs
Media
Pals
Media
Fra
Inglés
28.133
60.7
4.18
Inglés
20.000
27.46
2.32
Inglés
20.000
12.93
2,6
Cuadro 1: Colecciones de Datos para RIV
Media Pals.: Número medio de palabras que contienen las anotaciones de
una imagen.
multimodal denota el número de documentos que utilizará del ranking visual
obtenido por un sistema de RIBC, y finalmente, T indica el número de términos a añadir a la consulta textual.
Media Fra.: Número medio de frases
que contienen las anotaciones de una imagen.
Para los experimentos hemos utilizado como modelo de recuperación Divergence From
Randomness (DFR) (Amati y Van Rijsbergen, 2002), por ser el modelo de recuperación
que mejores resultados obtuvo en nuestra
participación para la colección en inglés en la
tarea Photo del ImageCLEF 2007 (Navarro
et al., 2008). Además, el tamaño de pasaje y
los parámetros de DFR utilizados corresponden con los que mejores resultados han devuelto para cada colección sin la utilización
de expansión local.
La estrategia seguida en los experimentos
ha sido la de utilizar para los parámetros de
configuración de la expansión local un rango de valores amplio que permita determinar que configuraciónes son más apropiadas
para cada técnica en relación al conjunto de
preguntas y colección utilizada. Los valores
utilizados para estos parámetros han sido de
5 a 100 documentos para el número de documentos utilizados para la consulta, y de 5
a 100 términos para el número de términos
seleccionados para la expansión, además se
han realizado experimentos utilizando tanto
pasajes como documentos para la expansión.
Las siguientes tablas de resultados muestran para cada conjunto de experimentos el
resultado del caso base – una ejecución sin expansión de la consulta – y las nueve mejores
ejecuciones en orden creciente de MAP, utilizando el mejor MAP obtenido por PRF y
LCA para esa misma configuración.
La Tabla 2 y la Tabla 3 muestran los resultados obtenidos en los experimentos realizados con la colección St. Andrews, podemos
observar como para la misma colección con
En cuanto a los conjuntos de consultas utilizadas, indicar que dependiendo de la edición
de la competición, las consultas contienen un
campo de tı́tulo y un campo de narrativa o
sólo un campo de tı́tulo. En nuestros experimentos sólo hemos utilizado el campo de tı́tulo de la pregunta, por considerar que no es realista utilizar la narrativa ya que un usuario
suele utilizar consultas de reducido tamaño
cuando utiliza un sistema de RIV. Por otro
lado comentar que mientras que el conjunto
de consultas de la edicı́ón del 2004 – 25 consultas – y de la edición del 2005 – 28 consultas
– es diferente, para la edición del 2006 y del
2007 se utiliza el mismo conjunto de consultas – 60 consultas –, variando sin embargo las
caracterı́sticas de la colección utilizada.
A continuación se muestra la notación
utilizada en las tablas de resultados para
referirnos a cada uno de los parámetros del
sistemas:
Expansión Local (FB): Indica el tipo
de expansión local que se utiliza. Permite las versión textual de PRF y LCA
y su versión multimodal PRFMM y
LCAMM.
Parámetros para la Expansión Local: Si E tiene valor 1, esto denota que
se está utilizando expansión local basada en pasajes. Pero, si E tiene valor 2,
la expansión local está basada en documentos. Además, N denota el número
de documentos que la expansión local usará del ranking textual obtenido, N cbir
en el caso de estar utilizando expansión
35
Sergio Navarro, Rafael Muñoz, Fernando Llopis
E
N
T
2
2
2
2
2
1
1
2
2
75
50
45
60
65
45
40
40
40
5
5
5
5
5
10
10
5
10
PRF
0.7262
0.7087
0.7254
0.7361
0.7129
0.7180
0.7385
0.7387
0.7395
0.7436
LCA
0.7262
0.7345
0.7355
0.7321
0.7368
0.7375
0.7104
0.7047
0.7404
0.7146
Cuadro 2: St. Andrews, 2004
E
N
T
1
2
2
1
2
2
2
2
2
55
25
5
25
70
80
5
10
50
5
5
15
5
5
5
5
5
5
PRF
0.3493
0.3504
0.3529
0.3545
0.3559
0.3246
0.3206
0.3455
0.3533
0.3307
LCA
0.3493
0.3501
0.3478
0.3436
0.3499
0.3566
0.3580
0.3596
0.3607
0.3607
T
1
2
1
2
2
1
2
2
20
20
10
10
40
5
25
5
10
10
10
10
10
5
5
5
PRF
0.1988
0.2126
0.2146
0.2174
0.2186
0.2025
0.2119
0.2004
0.2126
T
2
1
2
2
1
1
2
2
2
2
5
10
10
25
5
50
90
50
85
45
5
5
5
10
5
10
5
5
5
5
PRF
0.1544
0.1808
0.1827
0.1827
0.1811
0.1849
0.1675
0.1452
0.1551
0.1444
0.1598
LCA
0.1544
0.1810
0.1806
0.1817
0.1834
0.1781
0.1884
0.1898
0.1911
0.1918
0.1923
y para los experimentos con precisión más baja – consultas del 2005 – los resultados sean
considerablemente mejores utilizando LCA.
También podemos observar que mientras
que PRF obtiene peores resultados cuando
utiliza un número alto de documentos para
llevar a cabo la expansión de la consulta, por
el contrario LCA muestra resultados más independientes del número de documentos seleccionados para la expansión.
La Tabla 4 y la Tabla 5 muestran los resultados alcanzados para la colección del 2006 y
2007, podemos ver como afecta la reducción
en el tamaño de las anotaciones a la precisión
en estos experimentos. Además vemos como
el hecho de que el caso base obtenga precisiones más bajas influye en que LCA amplı́e
la mejora de sus resultados respecto a PRF.
Esto se explica porque en un ranking de baja precisión el número de imágenes no relevantes utilizadas para la expansión es mayor,
lo cual daña más a los resultados obtenidos
por PRF.
Se observa como LCA obtiene mejores resultados que PRF para todas las colecciones
y conjuntos de preguntas, salvo para el conjunto de preguntas del 2004. Siendo en este
último caso la diferencia de precisión entre
PRF y LCA muy poco significativa. Por otro
lado observamos como la diferencia obtenida
entre LCA y PRF para el resto de colecciones
se amplia a medida que la precisión del ranking devuelto por la ejecución del caso base
obtiene una menor precisión.
Además, los resultados muestran que en
general el número de documentos que LCA es
capaz de manejar para la expansión es muy
superior al número utilizado por PRF, con-
diferentes conjuntos de consultas se obtienen
resultados de precisión muy diferentes para
los casos base utilizados, ası́ las consultas del
2004 obtienen valores de precisión muy superiores a los alcanzados con las consultas del
2005.
Esto explica que para el conjunto de experimentos con un caso base con mayor precisión – consultas del 2004 – los resultados
sean ligeramente superiores utilizando PRF,
N
N
Cuadro 5: IAPR TC-12 No-Descriptions,
2007
Cuadro 3: St. Andrews, 2005
E
E
LCA
0.1988
0.2140
0.2191
0.2218
0.2222
0.2226
0.2233
0.2241
0.2242
Cuadro 4: IAPR TC-12, 2006
36
Evaluación de una Estrategia de Expansión Local Conservadora en Recuperación de Información Visual
FB
LCA
PRF
PRFMM
LCAMM
statándose ası́ las observaciones apuntadas
por los autores de LCA.
Finalmente, comparamos los resultados de
estos experimentos con los alcanzados por las
ejecuciones que utilizaron expansión local en
nuestra participación en la tarea Photo del
ImageCLEF 2008 (Navarro, Llopis, y Muñoz,
2008) – Tabla 6 –, en la cual se utilizó la
colección IAPR TC-12 No-Descriptions y un
subconjunto de las consultas utilizadas en la
edición del 2007.
E
N
Ncbir
T
1
2
2
2
5
5
5
0
0
0
5
20
5
5
5
5
MAP
0.2362
0.2656
0.2699
0.2856
0.3436
Cuadro 6: ImageCLEFPhoto 2008
Revisando todos los experimentos llevados
a cabo podemos afirmar que en todos ellos
cuando el ranking utilizado para la expansión
alcanza valores de precisión baja, LCA obtiene mejoras significativas respecto a PRF,
mientras que cuando se utilizan rankings de
precisión más alta PRF obtiene resultados
ligeramente superiores a los de LCA.
Podemos ver por un lado que a pesar de
haber utilizado la misma colección y un subconjunto de las consultas utilizadas en los experimentos del 2007, la precisión alcanzada
por el caso base en la participación del 2008
es superior a la obtenida por el caso base de
los experimentos del 2007. Esto explica que
en nuestra participación del 2008, PRF en
su versión textual haya mejorado ligeramente
los resultados obtenidos por LCA.
4.
Conclusiones y Trabajos
Futuros
El estudio de los experimentos realizados
ha puesto de manifiesto una relación clara entre la precisión del ranking utilizado para la
expansión y los resultados obtenidos por las
estrategias de expansión evaluadas.
Tener constancia de esta relación, nos permite afirmar que LCA es una estrategia robusta que encaja perfectamente con los rankings de baja precisión con que se trabaja en RIV, especialmente los devueltos por
sistemas de RIBC. Esta observación se refuerza por el hecho de que LCA es capaz de
aprovechar la presencia de términos coocurrentes con la consulta en estos rankings, lo
cual es una pista especialmente significativa
de relevancia, pues contienen anotaciones de
imágenes obtenidas sólo utilizando técnicas
visuales.
Por ello creemos que de cara a trabajos futuros su utilización como estrategia de combinación multimodal es prometedora pues tal
como algunos autores afirman el resto de estrategias de expansión local mejoran la precisión a costa de empeorar la diversidad de
los resultados devueltos (Sanderson, 2008),
mientras que LCA multimodal a demostrado no sólo ser la única que no perjudica a la
diversidad sino que además ha obtenido nuestros mejores resultados de precisión. Esto no
hace sino que demostrar que esta técnica es
capaz de utilizar ambas fuentes de información – imagen y texto – de forma óptima,
haciendo ascender en el ranking textual final sólo a las imágenes con anotaciones simi-
Por otro lado vemos que el mejor resultado multimodal ha sido alcanzado con LCA
utilizando el ranking devuelto por un sistema
de RIBC – este tipo de sistemas se caracterizan por devolver rankigs de baja precisión
–. Recalcar que en nuestra participación en
la tarea del 2008 esta variante multimodal
de LCA fue la única estrategia de expansión
local que no dañó a la diversidad de los resultados y a su vez nuestra mejor ejecución en
términos de precisión, obteniendo el 4o mejor
MAP y el 5o mejor P20 de las 1039 ejecuciones automáticas enviadas por los participantes, a pesar de ser el único grupo que no
utilizó la narrativa de la pregunta. Es importante tener en cuenta este dato, pues los resultados del único participante que envió ejecuciones con y sin narrativa demuestran que
simplemente incluyendo la primera frase de
la narrativa su sistema dobla los resultados
de precisión e incrementa notablemente sus
valores de diversidad (Demerdash, Kosseim,
y Bergler, 2008).
Se observa también como mientras la
mejor ejecución de PRF multimodal sólo es
capaz de utilizar los 5 primeros documentos del ranking textual y los 5 mejores documentos del ranking visual, LCA en cambio
en su mejor ejecución hace uso sólo de las
imágenes devueltas en el ranking visual, siendo capaz además de manejar un numero alto
de imágenes para la expansión – 20 imágenes
–.
37
Sergio Navarro, Rafael Muñoz, Fernando Llopis
of the 2007 CLEF Workshop, Budapest,
Hungary, Septiembre.
lares a las imágenes relevantes situadas en las
primeras posiciones del ranking visual, en lugar de a las imágenes similares a las ya situadas en las primeras posiciones del ranking
textual inicial.
5.
Liu, Haixue y Zhao Lv Junzhong Gu. 2007.
Improving the Effectiveness of Local Context Analysis Based on Semantic Similarity. En 2007 International Conference on
Convergence Information Technology (ICCIT 2007).
Agradecimientos
Esta investigación ha sido llevada a cabo
utilizando fondos procedentes del Gobierno
español a través del proyecto TEXT-MESS
(TIN-2006-15265-C06-01) y de la Unión Europea(UE) a través del proyecto QALL-ME
(FP6-IST-033860).
Llopis, Fernando. 2003. IR-n: Un Sistema
de Recuperación de Información Basado
en Pasajes. Ph.D. tesis, University of Alicante.
Navarro,
Sergio,
Fernando
Llopis,
Rafael Muñoz Guillena, y Elisa Noguera.
2008. Analysing an approach to information retrieval of visual descriptions
with ir-n, a system based on passages.
Advances in Multilingual and Multimodal
Information Retrieval: 8th Workshop of
the Cross-Language Evaluation Forum,
CLEF 2007, Budapest, Hungary, September 19-21, 2007, Revised Selected Papers,
páginas 522–529.
Bibliografı́a
Amati, G. y C. J. Van Rijsbergen. 2002.
Probabilistic Models of information retrieval based on measuring the divergence
from randomness. ACM TOIS, 20(4):357–
389.
Clough, Paul, Michael Grubinger, Thomas
Deselaers, Allan Hanbury, y Henning
Müller. 2006. Overview of the imageclef
2006 photographic retrieval and object annotation tasks. En Working Notes of the
2006 CLEF Workshop, Alicante, Spain,
Septiembre.
Navarro, Sergio, Fernando Llopis, y Rafael
Muñoz. 2008. Different Multimodal Approaches using IR-n in ImageCLEFphoto
2008. En on-line Working Notes, CLEF
2008.
Demerdash, Osama El, Leila Kosseim, y
Sabine Bergler. 2008. CLaC at ImageCLEFPhoto 2008. En on-line Working
Notes, CLEF 2008.
Navarro, Sergio, Rafael Muñoz, y Fernando
Llopis. 2008a. A Multimodal Approach
to the Medical Retrieval Task using IR-n.
En on-line Working Notes, CLEF 2008.
Dı́az-Galiano,
M.C.,
M.A.
Garcı́aCumbreras,
M.T.
Martı́n-Valdivia,
A. Montejo-Raez, y L.A. Ureña-López.
2007. Sinai at imageclef 2007. En Working Notes of the 2007 CLEF Workshop,
Budapest, Hungary, Septiembre.
Navarro, Sergio, Rafael Muñoz, y Fernando
Llopis. 2008b. A Textual Approach based
on Passages Using IR-n in WikipediaMM
Task 2008. En on-line Working Notes,
CLEF 2008.
Gao, Sheng, Jean-Pierre Chevallet, Thi
Hoang Diem Le, Trong Ton Pham, y
Joo Hwee Lim. 2007. Ipal at imageclef 2007 mixing features, models and
knowledge. En Working Notes of the
2007 CLEF Workshop, Budapest, Hungary, Septiembre.
Reid, N. 1999. The photographic collections
in st andrews university library. Scottish
Archives, 5:83–90.
Grubinger, Michael. 2007. Analysis and
Evaluation of Visual Information Systems
Performance. Ph.D. tesis, Engineering
and Science Victoria University.
Sanderson, Mark. 2008. Ambiguous queries:
Test collections need more sense. En SIGIR’08, páginas 20–24, July.
Robertson, S. E. y K. Sparck Jones. 1977.
Relevance weighting of search terms.
Journal of the American Society for Information Science, 27(3):129–146.
Xu, Jinxi y W. Bruce Croft. 2000. Improving
the effectiveness of information retrieval
with local context analysis. ACM Trans.
Inf. Syst., 18(1):79–112.
Grubinger, Michael, Paul Clough, Allan Hanbury, y Henning Müller. 2007. Overview
of the ImageCLEFphoto 2007 photographic retrieval task. En Working Notes
38
Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 39-46
recibido 09-01-09, aceptado 02-03-09
Detección de Web Spam basada en la Recuperación Automática
de Enlaces ∗
Detecting Web Spam using a Recovering Web Links System
Lourdes Araujo
NLP Group at UNED
28040 Madrid, Spain
[email protected]
Juan Martinez-Romo
NLP Group at UNED
28040 Madrid, Spain
[email protected]
Resumen: Actualmente el Web Spam es una guerra abierta entre los motores de
búsqueda, tratando de garantizar unos resultados relevantes al usuario, y una comunidad, cuyo interés reside en intentar engañar a los primeros en busca de un mejor
ranking para sus páginas. En este trabajo presentamos un estudio preliminar sobre
distintas medidas que podrı́an ser útiles para la construcción de un sistema novedoso
en la detección de Web Spam. Algunas de estas medidas se basan en los resultados
de un sistema de recuperación automática de enlaces web rotos. El sistema utiliza
distintas fuentes de información de la página analizada y la información extraı́da de
estas fuentes se utiliza para realizar una consulta a un motor de búsqueda usual, como Google o Yahoo!. Las páginas recuperadas son ordenadas posteriormente en base
a su contenido, utilizando técnicas de recuperación de información. Finalmente, el
análisis del grado de recuperación de los enlaces es empleado, junto a otras medidas,
como un indicador de Spam.
Palabras clave: recuperación de información, World Wide Web, enlaces rotos, web
spam
Abstract: Nowadays, Web Spam is a war between search engines, trying to ensure
that the results are relevant to the user, and a community that tries to mislead the
search engine to attract to the former ones to its pages.
In this work, we present a preliminary study about several features that can be
useful for building a novel web spam detection system. Some of these features are
obtained from a system for automatic recovery of broken Web links. This system uses
several sources of information from the analyzed page to extract useful data that
are used later to perform a query to a typical search engine, as Google or Yahoo!.
Afterwards, retrieved pages are ordered based on its content, using information
retrieval techniques. Finally, the recovery links degree is used, along with other
features, as an indicator of Spam.
Keywords: information retrieval, World Wide Web, broken links, web spam
1.
Introducción
Hoy en dı́a, la creciente popularidad de Internet entre los usuarios como fuente de información, ha convertido a los buscadores en
un objetivo de la publicidad. Los buscadores a su vez, basan su modelo de negocio en
la publicidad que añaden a los resultados de
una consulta. Pero además de esta publicidad
relevante a las consultas realizadas, una manera muy económica de conseguir publicidad,
consiste en aparecer en los primeros puestos
de las respuestas del buscador. En este sentido, estar entre los 30 primeros resultados es
∗
Trabajo financiado por el proyecto TIN2007-67581C02-01
ISSN 1135-5948
muy importante ya que hay estudios(Jansen
y Spink, 2003) que reflejan que la probabilidad de que un usuario llegue a mirar más
allá de la tercera página de resultados es muy
baja. Ante esta manera de aumentar los ingresos por publicidad ha surgido un fenómeno
denominado Web Spam o Spamdexing.
Según (Gyöngyi y Garcia-Molina, 2005)
Web Spam podrı́a definirse como cualquier
acción destinada a mejorar el ranking en un
buscador por encima de lo que se merece. En
general en la literatura (Gyöngyi y GarciaMolina, 2005; Baeza-Yates, Boldi, y Hidalgo,
2007) se distinguen tres tipos de Web Spam:
Link Spam, Content Spam y Cloacking.
El Link Spam o Spam de Enlaces consiste
© 2009 Sociedad Española para el Procesamiento del Lenguaje Natural
Lourdes Araujo, Juan Martinez-Romo
de un mecanismo de recuperación automática de enlaces para la detección de páginas
de Spam. Esta técnica, además de aplicar un
nuevo indicador de Spam, proporciona un sistema de análisis online frente a las tradicionales colecciones.
Nuestro sistema de recuperación de enlaces rotos se basa en técnicas clásicas de recuperación de información para extraer información relevante y realizar consultas a un
motor de búsqueda como Google o Yahoo!. El
sistema comprueba los enlaces de la página
que se le indica. Si alguno de ellos está roto,
hace una propuesta al usuario de una serie
de páginas candidatas para sustituir el enlace roto. Las páginas candidatas se obtienen
mediante búsquedas en Internet compuestas
de términos extraı́dos de distintas fuentes. A
las páginas recuperadas con la búsqueda Web
se les aplica un proceso de ordenación que
refina los resultados antes de hacer la recomendación al usuario. La figura 1 presenta
un esquema del sistema propuesto.
en añadir enlaces superfluos y/o engañosos a
una página Web o bien crear páginas superfluas que sólamente contienen enlaces. Uno de
los primeros trabajos que trataron este tipo
de Spam fue (Davison, 2000), donde se consideraba el nepotismo en los enlaces como una
forma de ser más relevante ante los buscadores. La manera más frecuente de encontrar
este tipo de Spam es en forma de granjas de
enlaces (Link Farms) donde un conjunto de
páginas son enlazadas entre sı́ empleando alguna de las topologı́as estudiadas en (BaezaYates, Castillo, y López, 2005), con el objetivo de incrementar la importancia de una
de ellas. Estas topologı́as han sido estudiadas en (Gyöngyi y Garcia-Molina, 2005).
El Content Spam o Spam de Contenido
es la práctica de realizar ingenierı́a sobre el
contenido de una página con el objetivo de resultar relevante para un conjunto de consultas. En (Fetterly, Manasse, y Najork, 2004) se
presenta un análisis estadı́stico sobre diferentes propiedades del contenido para detectar
Spam. Entre las técnicas más habituales se
encuentran el incluir términos engañosos en
las Urls, en el cuerpo (body) y en el texto del
ancla y cada vez menos habitual como una
Meta Tag. En (Ntoulas et al., 2006) se realiza una serie de medidas sobre el contenido y
luego se construye un árbol de decisión mediante el cual se realiza una clasificación de
este tipo de Spam. También existen trabajos (Abernethy, Chapelle, y Castillo, 2008)
que combinan información tanto de los enlaces como del contenido para construir un clasificador con SVM y detectar eficientemente
distintos tipos de Spam.
Finalmente, el Cloaking o Encubrimiento
consiste en diferenciar a un usuario de un
robot de búsqueda para responder con una
página distinta en cada caso. En (Gyöngyi y
Garcia-Molina, 2005) se presentan las técnicas más utilizadas en este tipo de Spam.
En la literatura existen múltiples trabajos
que exploran por separado o de manera conjunta estos tipos de Spam. Sin embargo, estos
estudios trabajan habitualmente con una colección etiquetada en la que previamente se
ha realizado un crawling y se han precalculado una serie de medidas relevantes.
En este trabajo analizamos la utilidad de
los distintos datos extraidos sobre los enlaces
de una página para la detección de Spam.
En particular, estudiamos la forma de utilizar los resultados extraı́dos de la aplicación
Pagina web
Enlace roto
Informacion
del enlace
Informacion
de la pagina
Extraccion de
terminos
relevantes
terminos
Buscador
paginas web
Ordenar
paginas recomendadas
Figura 1: Esquema del funcionamiento del
sistema de recomendación para la recuperación de enlaces rotos.
Al analizar los resultados de algunos experimentos, encontramos casos excepcionales
en los que el grado de recuperación de enlaces tenı́a una gran desviación con respecto a
la media. Estos casos consistı́an en páginas
con muchos enlaces en los que no se recuperaba ningún enlace o bien se recuperaban las
páginas originales de prácticamente todos los
40
Detección de Web Spam basada en la Recuperación Automática de Enlaces
2.1.
enlaces. En ambos casos se ha comprobado
manualmente que se trataba de páginas de
Spam. Esto sugiere la utilidad de aplicar estas técnicas a la detección de Spam. El resultado de la recuperación de los enlaces rotos
puede tomarse como un indicador de la coherencia entre un enlace y la página a la que
enlaza, dato que es útil para la detección de
Spam.
Existen algunos trabajos enfocados a la recuperación de enlaces, aunque se basan en
información anotada por anticipado en el enlace. El sistema Webvise (Grønbæk, Sloth,
y Ørbæk, 1999), permite cierto grado de recuperación de enlaces Web rotos utilizando
información redundante sobre los enlaces, almacenada en bases de datos de servidores de
Internet. Davis (Davis, 2000) analiza las causas del problema de los enlaces rotos y propone soluciones enfocadas a la recopilación de
información sobre la estructura de la red de
enlaces. Nakamizo y colaboradores (Nakamizo et al., 2005) han desarrollado un sistema
de recuperación de enlaces basado en lo que
denominan “enlaces con autoridad” de una
página. Shimada y Futakata (Shimada y Futakata, 1998) propusieron la creación de una
base de datos de enlaces, SEDB, en la que son
posibles ciertas operaciones de reparación de
los enlaces almacenados.
Nuestro trabajo difiere de los anteriores
ya que no presupone la existencia de ninguna
información almacenada de antemano sobre
los enlaces y es aplicable a cualquier página
de Internet, lo que le hace útil para analizar
el Spam de las páginas web.
El resto del artı́culo se organiza de la siguiente forma: en la sección 2 se describen las
técnicas que utilizamos para la recuperación
automática de enlaces web rotos. La sección 3
analiza la relación de distintos datos sobre los
enlaces de una página con su identificación
como Spam, en particular los resultados de
la aplicación de las técnicas de recuperación
automática. Finalmente, en la sección 4 se
realiza una discusión sobre los resultados y
se extraen una serie de conclusiones.
2.
Uso del Texto del ancla de los
enlaces
En muchos casos las palabras que componen el texto del ancla de un enlace son la
principal fuente de información para identificar la página apuntada. Para verificar esta
teorı́a, hemos realizado un estudio del número de casos en los que los enlaces rotos se han
recuperado buscando en Google el texto del
ancla entrecomillado.
Para considerar que un enlace se ha recuperado, aplicamos el modelo de espacio vectorial (Manning, Raghavan, y Schütze, 2008),
representando cada una de las páginas (original y candidata) a comparar por un vector de
términos, y hayamos la distancia dada por el
coseno entre ellos. Si este valor es mayor de
0.9, consideramos la página recuperada. Para valores menores que este umbral, como un
0.8, aunque en la mayorı́a de los casos se trata
de la misma página con pequeños cambios como los mencionados, hemos encontrado algún
caso en que se trataba de páginas distintas,
aunque del mismo sitio Web.
De esta forma se ha conseguido recuperar
un 41 % de los enlaces entre las diez primeras
posiciones (Google). Además un 66 % de los
enlaces recuperados han logrado encontrarse
en la primera posición. Estos datos demuestran que el texto del ancla de un enlace es
una gran fuente de información de cara a recuperar un enlace roto.
En este trabajo hemos optado por realizar un reconocimiento de entidades nombradas (nombres de personas, organizaciones o
lugares) sobre el texto del ancla, para poder
extraer determinados términos cuya importancia sea mayor que la del resto. Para tal
fin, existen varias soluciones software como
LingPipe, Gate, FreeLing, etc. También existen múltiples recursos en forma de gazetteers,
pero el amplio dominio sobre el que trabajamos ha impedido conseguir resultados precisos. Estamos en un entorno en el que analizamos páginas aleatorias cuyo único factor
común es el idioma (inglés). Además, el hecho de que el texto de las anclas sean conjuntos muy reducidos de palabras y/o números, hace que los sistemas usuales de reconocimiento de entidades proporcionen resultados
muy pobres. Por estos motivos, hemos decidido emplear la estrategia opuesta. En lugar de
encontrar entidades nombradas, hemos optado por recopilar un conjunto de diccionarios
y descartar las palabras comunes y números,
Técnicas de recuperación de
enlaces
En esta sección analizamos cada una de
las fuentes de información consideradas, extrayendo estadı́sticas de su utilidad para la
recuperación de enlaces cuando se aplican por
separado o combinadas.
41
Lourdes Araujo, Juan Martinez-Romo
decir, se expande con cada uno de ellos y se
toman los diez primeros documentos recuperados en cada caso.
En la tabla 2 se puede observar como la
expansión mejora globalmente los resultados
aumentando el número de enlaces recuperados en las diez primeras posiciones y por tanto reduciendo los enlaces no recuperados. A
pesar de esto, el número de enlaces recuperados en primera posición se ve reducido.
suponiendo que el resto de palabras son entidades nombradas. Aunque hemos encontrado
algunos falsos negativos, como por ejemplo la
compañı́a ”Apple”, en el caso de las anclas
hemos obtenido mejores resultados con esta
técnica.
La tabla 1 muestra los resultados de la recuperación de enlaces en función del contenido de entidades nombradas de las anclas
y del número de términos de las mismas. Los
resultados demuestran que la presencia de entidades nombradas en el ancla favorece la recuperación del enlace. Además cuando hay
entidades nombradas el número de casos recuperados es importante.
Terms.
1
2
3
4+
total
Análisis.
No EXP
EXP
1-10 pos.
380
418
E.N.R.
536
498
Cuadro 2: Análisis del número de documentos recuperados en primera posición (1 pos.),
entre las diez primeras posiciones (1-10 pos.)
o no recuperados (E.N.R.) en función de utilizar (EXP) o no (No EXP), el método de
expansión de la consulta.
Tipo de ancla
Ent. Nomb.
No Ent. Nomb.
E.N.R. E.R. E.N.R. E.R.
102
67
145
7
52
75
91
49
29
29
27
45
57
61
33
47
240
232
296
148
Por ello consideramos que lo más adecuado es aplicar ambas formas de recuperación, y
ordenar después los resultados para presentar
al usuario los más relevantes en primer lugar.
Analizando los casos en los que se consigue recuperar la página correcta con y sin
entidades nombradas y en función del número de términos del ancla (tabla 3) vemos que
las proporciones obtenidas recuperando sin
expandir la consulta se mantienen. Es decir, los mejores resultados se obtienen cuando
hay entidades nombradas y cuando hay dos
o más términos. Sin embargo, en este caso,
es decir con expansión, el número de enlaces recuperados cuando el ancla consta de un
único término y no es una entidad nombrada
es 25, que ya puede ser una cantidad significativa. Esto sugiere intentar recuperar con
expansión también en este caso, siempre que
sea posible comprobar la validez de los resultados.
Cuadro 1: Análisis de los enlaces no recuperados (E.N.R.) y recuperados (E.R.) en función del tipo de ancla — con (Ent. Nomb.) y
sin (No Ent.) entidades nombradas — y del
número de términos del ancla. 4+ term. se
refiere a anclas con cuatro o más términos.
2.2.
1 pos.
253
213
El texto de la página
Los términos más frecuentes encontrados
en una página Web son una forma de caracterizar el tema principal de dicha página. Esta
técnica requiere que el contenido de la página
sea suficientemente grande. Un ejemplo claro
de utilidad de esta información son los enlaces a páginas personales. Es muy frecuente
que el ancla de un enlace a una página personal esté formada por el nombre de la persona
a la que corresponde la página. Sin embargo,
en muchos casos los nombres, incluido el apellido, no identifican a una persona de forma
unı́voca.
Hemos aplicado técnicas clásicas de recuperación de información para extraer los
términos más representativos de la página.
Una vez eliminadas las palabras vacı́as, generamos un ı́ndice de términos ordenado por
frecuencias. Los diez primeros términos de este ı́ndice se utilizan, uno a uno, para expandir
la consulta formada por el texto del ancla. Es
2.3.
Ordenación de los enlaces por
relevancia
En este momento hemos recuperado un
conjunto de enlaces candidatos a sustituir al
enlace roto, procedentes de la búsqueda con
el ancla y con el ancla expandida con cada
uno de los diez primeros términos que representan a la página padre. Ahora queremos ordenarlos por relevancia para presentarlos al usuario. Para calcular esta relevancia hemos considerado dos fuentes de infor42
Detección de Web Spam basada en la Recuperación Automática de Enlaces
Terms.
1
2
3
4+
total
Tipo de ancla
Ent. Nomb.
No Ent. Nomb.
E.N.R. E.R. E.N.R. E.R.
104
65
127
25
55
72
70
70
30
28
22
50
59
59
31
49
248
224
250
194
Cuadro 3: Análisis de los enlaces no recuperados y recuperados en función del tipo de ancla
y del número de términos del ancla cuando la
expansión es aplicada.
Figura 2: Número de apariciones de páginas
correctas en el ranking elaborado, seleccionando los N mejores candidatos según la similitud con la página caché y padre.
mación. En primer lugar, si existe, la página
a la que apuntaba el enlace roto almacenada
en la caché del buscador, en nuestro caso de
Google. Si esta información no existe, entonces utilizamos la página padre que contiene el
enlace roto. La idea es que la página enlazada
tratará en general sobre una temática relacionada con la página en la que se encuentra el
enlace.
De nuevo hemos aplicado el modelo de
espacio vectorial (Manning, Raghavan, y
Schütze, 2008) para estudiar la similitud entre la página que contenı́a el enlace roto y las
páginas recuperadas. Con esta técnica calculamos la similitud o bien con la caché o bien
con la página padre. La figura 2 muestra los
resultados correspondientes. En el primer caso, la mayorı́a de los documentos correctos
recuperados se presentan entre los diez primeros documentos, con lo que si se dispone
de la caché, podremos hacer recomendaciones muy fiables. En el caso de la similitud
con la página padre, el orden de los resultados es peor. Por lo que sólo recurriremos a
esta información si no se dispone de la caché.
2.4.
que hacemos utilizando cada fuente de información. Para realizar el análisis, tomamos
diez enlaces por cada página elegidos aleatoriamente de un conjunto de 100 seleccionadas
igualmente de manera aleatoria mediante peticiones sucesivas a www.randomwebsite.com,
un sitio que proporciona páginas Web aleatorias. Este conjunto de páginas además deben
cumplir una serie de requisitos en cuanto a su
contenido como tener 250 palabras, estar escritas en ingles y tener al menos cinco enlaces
activos, ajenos al propio sitio y cuyo texto de
anclaje sea mı́nimamente descriptivo (no sea
únicamente un número, una Url, un signo de
puntuación o esté vacı́o).
Los resultados del análisis descrito en las
secciones anteriores sugieren criterios para
decidir en qué casos hay información suficiente para intentar la recuperación del enlace y
qué fuentes de información utilizar. Esta información se ha modelado dando origen a un
algoritmo cuyos resultados pasamos a describir.
Hemos aplicado este algoritmo a enlaces
que están realmente rotos, pero sólamente de
los que se dispone de caché, para poder evaluar los resultados. La tabla 4 muestra los
resultados de la posición de los documentos
más relevantes en una ordenación por similitud con la página padre. La relevancia se
mide por similitud con la caché. Hemos comprobado que en unos casos se trata de la página original, que ha cambiado de Url, y en
otros casos de páginas con contenido muy relacionado en una localización diferente. Podemos observar, que aún si no contamos con la
caché y ordenamos por similitud con la página padre, el sistema es capaz de presentar
Colección de páginas y
Resultados de la
Recuperación Automática de
Enlaces
Si analizamos la utilidad de las distintas
fuentes de información utilizadas directamente sobre enlaces rotos, es muy difı́cil evaluar
la calidad de las páginas candidatas a sustituir el enlace. Por ello, en esta fase de análisis
trabajamos con enlaces Web tomados de forma aleatoria, que no están realmente rotos,
y que denominamos supuestamente rotos. De
esta forma disponemos de la página a la que
apuntan y podemos evaluar la recomendación
43
Lourdes Araujo, Juan Martinez-Romo
do de Spam. Además fue imprescindible que
las páginas estuvieran online y que su cuerpo
contuviera al menos 100 palabras y un enlace
externo.
La primera medida corresponde a la diferencia entre los enlaces recuperados y no
recuperados por cada una de las páginas. El
análisis en este caso se ha realizado mediante
una recuperación de los enlaces activos para
poder verificar su recuperación. La intuición
en la interpretación de este valor es que una
página que hace Spam está enlazando a otras
páginas poco conocidas y por tanto, difı́ciles
de recuperar. Por lo tanto, cuanto más negativa es la diferencia entre los enlaces recuperados y no recuperados, mayor es la probabilidad de que la página esté haciendo Spam.
En la figura 3 se pueden apreciar las dos distribuciones de estas medidas para cada una
de las páginas y por cada uno de los dos conjuntos (Spam y no Spam). También se puede
observar como en el caso de las páginas que
no hacen Spam, sus valores casi siempre están
por encima de los de las páginas de Spam.
Las dos siguientes figuras 4 y 5 corresponden a las páginas de Spam y las de no Spam
respectivamente. En ellas se muestra la relación entre las distribuciones de los enlaces
de cada página y las páginas que las enlazan.
Se puede comprobar como en el primer caso
la diferencia es mucho mayor, estando siempre los enlaces entrantes por debajo de los
salientes. Estos datos indican que las páginas
de Spam contienen muchos enlaces pero en
cambio no reciben el mismo número.
En la figura 6 se muestran las distribuciones de la siguiente medida para cada una de
las páginas y por cada uno de los dos conjuntos (Spam y no Spam). Esta medida corresponde al valor absoluto de la diferencia
entre los enlaces externos y los que son internos. Las páginas de Spam normalmente toman dos estrategias distintas en cuanto a los
enlaces, o bien la mayorı́a son externos con
el objetivo de crear granjas de enlaces o por
el contrario intentan absorber la mayorı́a del
PageRank conteniendo mayoritariamente enlaces al mismo sitio. De esta forma, en la figura 6 se puede comprobar como el equilibrio
entre este tipo de enlaces es mayor en el caso
de las páginas que no realizan Spam.
Otras dos medidas interesantes (no mostradas en este trabajo) para clasificar una
página son el número de las mismas que la
enlazan ası́ como el número de enlaces cuyo
documentos sustitutos relevantes entre las 10
primeras posiciones en un 48 % de los casos
y entre las 20 primeras en un 76 %.
N primeros
1-10
10-20
20-50
E.R
12
7
6
Cuadro 4: Número de apariciones de páginas
sustitutas (de acuerdo con su similitud con el
contenido de la caché) entre los N primeros
documentos ordenados por similitud con la
página padre.
3.
Detección de Web Spam
Nuestro sistema de recuperación de enlaces analiza una Web tanto desde el punto
de vista de sus enlaces como desde el punto de vista de su contenido. Aplicando esta metodologı́a a los enlaces de una página
(no rotos), puede extraerse información relevante sobre la coherencia de los enlaces y las
páginas apuntadas por ellos, que es útil para determinar si una página esta realizando
Spamdexing. Nuestra propuesta es novedosa
para la detección de Spam, ya que habitualmente los sistemas que se encargan de esta
tarea realizan un crawling previo, reuniendo
una colección de páginas Web junto a una
serie de medidas relevantes. Posteriormente
y de una manera offline, se realiza una clasificación sobre la colección. En los últimos
años existe una colección de referencia (Castillo et al., 2006) siendo la primera que incluye las páginas y sus enlaces y que además ha
sido etiquetada manualmente por un conjunto de voluntarios. No obstante existen otros
trabajos que emplean colecciones propias elaboradas de una forma similar. Este sistema
serı́a novedoso ya que no necesita una colección con información sobre su contenido ni
sobre sus enlaces, sino que de una manera
online extrae de la red información relevante
sobre una Web dada para posteriormente ser
clasificada según su grado de Spam. Hemos
realizado un estudio comparativo aplicado a
dos conjuntos de 67 páginas Web, clasificadas
previamente como Spam o No Spam, en el
que tomando una serie de medidas podemos
apreciar ciertas caracterı́sticas propias de cada conjunto. Estos dos conjuntos han sido tomados de (Castillo et al., 2006), teniendo en
cuenta su clasificación en cuanto a su gra44
Detección de Web Spam basada en la Recuperación Automática de Enlaces
texto del ancla es una Url. Para la primera
hemos tomado el valor correspondiente aproximado que proporciona el buscador. De esta forma hemos podido comprobar como las
páginas de Spam tienen valores muy por debajo, verificando la teorı́a de que las páginas
de prestigio transfieren su confianza a páginas igualmente prestigiosas. Cabe mencionar
que existen páginas de Spam con valores elevados, sin embargo corresponden a sitios importantes pero clasificados como Spam por
su alto contenido de publicidad. En cuanto
al número de enlaces cuyo texto del ancla es
una Url, en términos generales las páginas de
Spam contienen una mayor cantidad.
Todas estas medidas junto con otras estudiadas en la literatura, tanto en relación al
contenido como a la estructura de los enlaces, podrı́an ser utilizadas para la detección
de páginas de Spam.
Figura 5: Distribución de los enlaces salientes
y entrantes para las páginas de No Spam.
Figura 6: Distribución de la diferencia entre
los enlaces externos e internos para dos conjuntos de páginas (Spam y no Spam).
4.
Conclusiones y Futuros
trabajos
En este trabajo presentamos un estudio
preliminar sobre una serie de medidas que
podrı́an ser útiles para la detección de Spam
en la Web. En particular, analizamos la medida de coherencia entre los enlaces y las páginas apuntadas por ellos. Otras medidas analizadas son las diferencias entre los enlaces entrantes y salientes, entre los enlaces externos
e internos o el número de enlaces cuyo texto de anclaje es una Url. Estas medidas son
obtenidas a su vez gracias a un sistema de recuperación de enlaces. El sistema resultante
resultarı́a novedoso ya que no necesitarı́a de
una colección con información precalculada
sino que funcionarı́a de una manera online.
En cuanto al sistema de recuperación de
enlaces, hemos analizado distintas fuentes de
información que podemos utilizar para hacer
una recuperación automática de enlaces Web
que han dejado de ser válidos. Los resultados indican que los términos del ancla pueden ser muy útiles, especialmente si hay más
Figura 3: Distribución de la diferencia entre los enlaces recuperados y no recuperados
para dos conjuntos de páginas (Spam y no
Spam).
Figura 4: Distribución de los enlaces salientes
y entrantes para las páginas de Spam.
45
Lourdes Araujo, Juan Martinez-Romo
Davison, B. 2000. Recognizing nepotistic
links on the web.
de uno y si contienen alguna entidad nombrada. Hemos estudiado también el efecto de
añadir términos procedentes de la página que
contiene el enlace, con el fin de reducir la ambigüedad que puede conllevar la cantidad limitada de términos del ancla. Este estudio
ha mostrado que los resultados mejoran a los
obtenidos utilizando sólo los términos del ancla. Sin embargo, como hay casos en los que
la expansión empeora el resultado de la recuperación, hemos decidido combinar ambos
métodos, ordenando después los documentos
obtenidos por relevancia. El resultado de este
análisis ha sido un algoritmo que ha conseguido recuperar una página muy cercana a la
desaparecida entre las diez primeras posiciones de los documentos candidatos en un 48 %
de los casos, y entre las 20 primeras en un
76 %.
En este momento trabajamos en analizar
otras fuentes de información que pueden ser
útiles tanto para la recuperación de enlaces
como para la detección de Spam, como las
propias Urls, las páginas que apuntan a la
página analizada o el contenido de sus distintas partes.
Fetterly, Dennis, Mark Manasse, y Marc Najork. 2004. Spam, damn spam, and statistics: using statistical analysis to locate
spam web pages. En WebDB ’04: Proceedings of the 7th International Workshop
on the Web and Databases, páginas 1–6,
New York, NY, USA. ACM.
Grønbæk, Kaj, Lennert Sloth, y Peter
Ørbæk. 1999. Webvise: Browser and
proxy support for open hypermedia structuring mechanisms on the world wide web.
Computer Networks, 31(1116):1331–1345.
Gyöngyi, Zoltán y Hector Garcia-Molina.
2005. Web spam taxonomy. En Proceedings of the first International Workshop
on Adversarial Information Retrieval on
the Web (AIRWeb).
Jansen, Bernard J. y Amanda Spink. 2003.
An analysis of web documents retrieved
and viewed. En International Conference
on Internet Computing, páginas 65–69.
Manning, Christopher D., Prabhakar Raghavan, y Hinrich Schütze. 2008. Introduction to Information Retrieval. Cambridge
University Press.
Bibliografı́a
Abernethy, Jacob, Olivier Chapelle, y Carlos Castillo. 2008. Webspam identification through content and hyperlinks.
En Proceedings of the fourth International Workshop on Adversarial Information
Retrieval on the Web (AIRWeb).
Nakamizo, A., T. Iida, A. Morishima, S. Sugimoto, , y H. Kitagawa. 2005. A tool to
compute reliable web links and its applications. En SWOD ’05: Proc. International
Special Workshop on Databases for Next
Generation Researchers, páginas 146–149.
IEEE Computer Society.
Baeza-Yates, Ricardo, Paolo Boldi, y
José Marı́a Gómez Hidalgo. 2007. Recuperación de información con adversario
en la web.
Novática: Revista de la
Asociación de Técnicos de Informática,
185:29–35.
Ntoulas, Alexandros, Marc Najork, Mark
Manasse, y Dennis Fetterly. 2006. Detecting spam web pages through content
analysis.
En WWW ’06: Proceedings
of the 15th international conference on
World Wide Web, páginas 83–92, New
York, NY, USA. ACM.
Baeza-Yates, Ricardo A., Carlos Castillo, y
Vicente López. 2005. Pagerank increase
under different collusion topologies. En
AIRWeb, páginas 17–24.
Shimada, Takehiro y Atsushi Futakata. 1998.
Automatic link generation and repair mechanism for document management. En
HICSS ’98: Proceedings of the ThirtyFirst Annual Hawaii International Conference on System Sciences-Volume 2, página 226, Washington, DC, USA. IEEE
Computer Society.
Castillo, Carlos, Debora Donato, Luca Becchetti, Paolo Boldi, Stefano Leonardi,
Massimo Santini, y Sebastiano Vigna.
2006. A reference collection for web spam.
SIGIR Forum, 40(2):11–24.
Davis, H.C. 2000. Hypertext link integrity. ACM Computing Surveys Electronic
Symposium on Hypertext and Hypermedia,
31(4).
46
Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 47-54
recibido 13-01-09, aceptado 02-03-09
A Semantic Relatedness Approach to Classifying Opinion from
Web Reviews
Un método de clasificación de opiniones de críticas extraídas de la Web
basado en la proximidad semántica
Alexandra Balahur
DLSI, University of Alicante
Ap. de Correos 99, 03080 Alicante
[email protected]
Andrés Montoyo
DLSI, University of Alicante
Ap. de Correos 99, 03080 Alicante
[email protected]
Resumen: Los últimos años han marcado el inicio y la rápida expansión de la web social, donde
cada persona puede expresar su libre opinión sobre diferentes "objetos", tales como productos,
personas, tópicos de política etc. en blogs, foros o portales Web de comercio electrónico. A su
vez, el rápido crecimiento del volumen de información en la web ha ido permitiendo a los
usuarios la toma de decisiones mejores y más informadas. A raíz de esta expansión ha surgido
la necesidad de desarrollar sistemas especializados de PLN que automáticamente escaneen la
web en busca de las opiniones expuestas (que recuperen, extraigan y clasifiquen las opiniones
existentes dada una consulta). La minería de opiniones (análisis de sentimientos) ha demostrado
ser un problema difícil debido a la gran variabilidad semántica del texto libre. En este artículo se
propone un método para extraer, clasificar y resumir opiniones sobre productos concretos
utilizando críticas realizadas en la Web. El método se basa en una taxonomía de características
de productos previamente construida, el cálculo de la proximidad semántica entre conceptos por
medio de la Distancia Normalizada de Google y el método de aprendizaje automático SVM.
Finalmente, demostramos que nuestro enfoque supera los resultados base de la tarea y ofrece
una alta precisión y una alta confianza en las clasificaciones obtenidas.
Palabras clave: Minería de opiniones, resúmenes automaticos, Distancia Normalizada de
Google, aprendizaje automatico SVM.
Abstract: Recent years have marked the beginning and rapid expansion of the social web,
where people can freely express their opinion on different “objects”, such as products, persons,
topics etc. on blogs, forums or e-commerce sites. While the rapid growth of the information
volume on the web allowed for better and more informed decisions from users, its expansion led
to the need to develop specialized NLP systems that automatically mine the web for opinions
(retrieve, extract and classify opinions of a query object). Opinion mining (sentiment analysis)
has been proven to be a difficult problem, due to the large semantic variability of free text. In
this article, we propose a method to extract, classify and summarize opinions on products from
web reviews, based on the prior building of product characteristics taxonomy and on the
semantic relatedness given by the Normalized Google Distance and SVM learning. We prove
that our approach outperforms the baselines and has a high precision and classification
confidence.
Keywords: Opinion mining, summarization, Normalized Google Distance, SVM machine
learning.
1
Introduction
Recent years have marked the strong influence
of the “participative, social web” on the lives of
both consumers and producer companies. This
ISSN 1135-5948
phenomenon encouraged the development of
specialized sites – blogs, forums, as well as the
inclusion of a review component in the already
existing e-commerce sites, where people can
write and read opinions and comments on their
“objects” of interest – products, people, topics,
© 2009 Sociedad Española para el Procesamiento del Lenguaje Natural
Alexandra Balahur, Andrés Montoyo
etc. Basically, one is able to obtain a high
volume of data representing opinion on
anything. However, a high volume of
information introduces a great back draw: the
time spent for reading all the data available and
the language barrier. The solution is obvious a system that automatically analyzes and
extracts the values of the features for a given
product, independent of the language the
customer review is written in. Such an NLP
system can then present the potential buyer with
percentages of positive and negative opinions
expressed about each of the product features
and possibly make suggestions based on buyer
preferences. What follows is a description of
such a system that presently works on Spanish
and English.
2
(Pang, Lee and Vaithyanathan, 2002), scoring
of features (Dave, Lawrence and Pennock,
2003) , using PMI, syntactic relations and other
attributes with SVM (Mullen and Collier,
2004), sentiment classification considering
rating scales (Pang, Lee and Vaithyanathan,
2002), supervised and unsupervised methods
(Chaovalit
and
Zhou,
2005)
and
semisupervised learning (Goldberg and Zhu,
2006). Research in classification at a document
level included sentiment classification of
reviews (Ng, Dasgupta and Arifin, 2006),
sentiment classification on customer feedback
data (Gamon et al., 2005), comparative
experiments (Cui, Mittal and Datar, 2006).
Other research has been conducted in analysing
sentiment at a sentence level using
bootstrapping techniques (Riloff and Wiebe,
2003),
considering
gradable
adjectives
(Hatzivassiloglou
and
Wiebe,
2000),
semisupervised learning with the initial training
set identified by some strong patterns and then
applying NB or self-training (Wiebe and Riloff,
2005), finding strength of opinions (Wilson,
Wiebe and Hwa, 2004) sum up orientations of
opinion words in a sentence (or within some
word window) (Kim and Hovy, 2004), (Lin et
al., 2006), determining the semantic orientation
of words and phrases (Tuney and Littman,
2003), identifying opinion holders (Stoyanov
and Cardie, 2006), comparative sentence and
relation extraction and feature-based opinion
mining and summarization (Tuney, 2002). The
approach we use is grounded on the featurebased opinion summarization paradigm, whose
theoretical background can be found in (Hu and
Liu, 2004) and (Liu, 2007). Relevant research
done in feature-based opinion summarization
can be found in (Turney, 2002) , (Pang, Lee and
Vaithyanathan, 2002), (Popescu and Etzioni,
2005), (Hu and Liu, 2004) and (Ding, Liu and
Yu, 2008). However, present research has not
included the discovery of implicit features and
furthermore, it has left the problem of explicit
features dependent on the mentioning of these
features in the individual user reviews or not.
The method we propose is language and
customer-review independent. It extracts a set
of general product features, finds product
specific features and feature attributes and is
thus applicable to all possible reviews in a
product class. We describe the steps performed
to obtain the features for each product class and
the manner in which input text is processed to
obtain the opinion expressed by customers.
Motivation and Contribution
In the approach proposed, we concentrated on
two main problems that had not been addressed
so far by research in the field. The first one was
that of discovering the features that will be
quantified. As previously noticed in (Liu,
2007), features are implicit or explicit. To this
respect, apart from a general class of features
(and their corresponding attributes), that are
applicable to all products, we propose a method
to discover product specific features and feature
attributes using knowledge from WordNet and
ConceptNet. The second problem we addressed
was that of quantifying the features in a
product-dependent manner, since, for example,
small for the size of a digital camera is a
positive fact, whereas for an LCD display it is a
rather negative one. We accomplished this by
classifying the feature attributes using positive
and negative examples from a corpus of
customer opinions that was polarity annotated
depending on the product category and SMO
SVM machine learning (Platt, 1998) with the
Normalized Google Distance (Cilibrasi and
Vitanyi, 2006). We will illustrate the manner in
which we solved the above mentioned
problems with examples and discuss on the
issues raised at each step by using different
methods, tools and resources.
3
Related Work
Previous work in customer review classification
includes
document
level
sentiment
classification using unsupervised methods
(Turney, 2002), machine learning techniques
48
A Semantic Relatedness Approach to Classifying Opinion from Web Reviews
4
these concepts, we retrieve from WordNet the
synonyms which have the same Relevant
Domain (Vázquez, Montoyo and Rigau, 2004),
the hyponyms of the concepts and their
synonyms and attributes, respectively.
2) Using WordNet to extract product
specific features and feature attributes: Once
the product category has been identified, we use
WordNet to extract the product specific features
and feature attributes. We accomplish this in the
following steps:
• For the term defining the product
category, we search its synonyms in
WordNet (Fellbaum, 1999)
• We eliminate the synonyms that do not
have the same top relevant domain as
the term defining the product category
• For the term defining the product, as
well as each
• for each of the remaining synonyms, we
obtain their meronyms from in
WordNet, which constitute the parts
forming the product.
• Since WordNet does not contain much
detail on the components of most of
new technological products, we use
ConceptNet (Liu and Singh, 2004) to
complete the process of determining the
specific product features. We explain
the manner in which we use
ConceptNet in the following section.
After performing the steps described
above, we conclude the process of obtaining the
possible terms that a customer buying a product
will comment on. The final step consists in
finding the attributes of the features discovered
by applying the “has attributes” relation in
WordNet to each of the nouns representing
product features. In the case of nouns which
have no term associated by the “has attribute”
relation, we add as attribute features the
concepts found in ConceptNet under the OUT
relations PropertyOf and CapableOf. In case
the concepts added are adjectives, we further
add their synonyms and antonyms from
WordNet.
3) Using ConceptNet to extract product
specific features and feature attributes:
In order to obtain additional features for
the product in question, we add the concepts
that are related to the term representing the
concept with terms related in ConceptNet by
the OUT relations UsedFor and CapableOf and
the IN relations PartOf and UsedFor.
System Architecture
Our method consists of two distinct steps: preprocessing and main processing, each
containing a series of sub modules and using
different language tools and resources.
4.1
Pre-processing
Figure 1: Pre-processing stage
As depicted in Figure 1, in our approach,
we start from the following scenario: a user
enters a query about a product that he/she is
interested to buy. The search engine will
retrieve a series of documents containing the
product name, in different languages. Further
on, two parallel operations are performed: the
first one uses language identifier software to
filter and obtain two categories - one containing
the reviews in English and the other the reviews
in Spanish. The second operation implies a
modified version of the system described in
(Kozareva and Montoyo, 2007) for the
classification of person names. We use this
system in order to determine the category the
product queried belongs to. Once the product
category is determined, we proceed to
extracting the product specific features and
feature attributes. This is accomplished using
WordNet
and
ConceptNet
and
the
corresponding mapping to Spanish using
EuroWordNet. Apart from the product specific
class of features and feature attributes, we
consider a core of features and feature attributes
that are product-independent and whose
importance
determines
their
frequent
occurrence in customer reviews.
1) Product-independent features and
feature attributes:
There are a series of features that are
product independent and that are important to
any prospective buyer. We consider these as
forming a core of product features. For each of
49
Alexandra Balahur, Andrés Montoyo
4) Mapping concepts using EuroWordNet:
We employ EuroWordNet and map the
features and feature attributes, both from the
main core of words, as well as the product
specific ones that were previously discovered
for English, independent of the sense number,
taking into account only the preservation of the
relevant domain. Certainly, we are aware of the
noise introduced by this mapping, however in
the preliminary research we found that the
concepts introduced that had no relation to the
product queried did not appear in the user
product reviews.
5) Discovering overlooked product
features: The majority of product features we
have identified so far are parts constituting
products. However, there remains a class of
undiscovered features that are indirectly related
to the product. These are the features of the
product constituting parts, such as battery life,
picture resolution, and auto mode. Further, we
propose to extract these overlooked product
features by determining bigrams made up of
target words constituting features and other
words in a corpus of customer reviews. In the
case of digital cameras, for example, we
considered a corpus of 200 customer reviews on
which we ran Pedersen’s Ngram Statistics
Package (Banerjee and Pedersen, 2003) to
determine target co-occurrences of the features
identified so far. As measure for term
association, we use the Pointwise Mutual
Information score. In this manner, we discover
bigram features such as “battery life”, “mode
settings” and “screen resolution”.
4.2
The main processing in our system is done in
parallel for English and Spanish. In the next
section, we will briefly describe the steps
followed in processing the initial input
containing the customer reviews in the two
considered language and offer as output the
summarized opinions on the features
considered. We part from the reviews filtered
according to language. For each of the two
language considered, we used a specialized tool
for anaphora resolution - JavaRAP1 for English
and SUPAR (Ferrández, Palomar and Moreno,
1999) for Spanish. Further on, we separate the
text into sentences and use a Named Entity
Recognizer to spot names of products, brands
or shops. Using the lists of general features and
feature attributes, product-specific features and
feature attributes, we extract from the set of
sentences contained in the text only those
containing at least one of the terms found in the
lists.
1) Anaphora resolution: In order to solve
the anaphoric references on the product features
and feature attributes, we employ two anaphora
resolution tools - JavaRAP for English and
SUPAR for Spanish. Using these tools, we
replace the anaphoric references with their
corresponding referents and obtain a text in
which the terms constituting product features
could be found.
Using JavaRAP, we obtain a version of the
text in which pronouns and lexical references
are resolved. For example, the text: ‘‘I bought
this camera about a week ago,and so far have
found it very very simple to use, takes good
quality pics for what I use it for (outings with
friends/family, special events). It is great that it
already comes w/ a rechargeable battery that
seems to last quite a while...’’, by resolving the
anaphoric pronominal reference, becomes ‘‘I
bought this camera about a week ago, and so
far have found <this camera > very very simple
to use, takes good quality pics for what I use
<this camera > for (outings with friends/family,
special events). It is great that <this camera>
already comes w/ a rechargeable battery that
seems to last quite a while...’’.
SUPAR (Slot Unification Parser for
Anaphora Resolution). We use SUPAR in the
same manner as JavaRAP, to solve the
anaphora for Spanish.
Main Processing
1
http://www.comp.nus.edu.sg/~qiul/NLPTools/
JavaRAP.html
Figure 2: Main processing stage
50
A Semantic Relatedness Approach to Classifying Opinion from Web Reviews
2) Sentence chunking and NER: Further
on, we split the text of the customer review into
sentences and identify the named entities in the
text. Splitting the text into sentences prevents
us from processing sentences that have no
importance as far as product features that a
possible customer could be interested in are
concerned.
We use LingPipe to split the customer
reviews in English into sentences and identify
the named entities referring to products of the
same category as the product queried. In this
manner, we can be sure that we identify
sentences referring to the product queried, even
the reference is done by making use of the
name of another product. For example, in the
text “For a little less, I could have bought the
Nikon Coolpix, but it is worth the extra
money.”, anaphora resolution replaces <it>
with <Nikon Coolpix> and this step will
replace it with <camera>. We employ
FreeLing in order to split the customer reviews
in Spanish into sentences and identify the
named entities referring to products of the same
category as the product queried.
3) Sentence extraction: Having completed
the feature and feature attributes identification
phase, we proceed to extracting for further
processing only the sentences that contain the
terms referring to the product, product features
or feature attributes. In this manner, we avoid
further processing of text that is of no
importance to the task we wish to accomplish.
For example, sentences of the type “I work in
the home appliances sector.” will not be taken
into account in further processing. Certainly, at
the overall level of review impact, such a
sentence might be of great importance to a
reader, since it proves the expertise of the
opinion given in the review. However, for the
problems we wish to solve by using this
method, such a sentence is of no importance.
4) Sentence parsing: Each of the sentences
that are filtered by the previous step are parsed
in order to obtain the sentence structure and
component dependencies. In order to
accomplish this, we use Minipar (Lin, 1998) for
English and FreeLing for Spanish. This step is
necessary in order to be able to extract the
values of the features mentioned based on the
dependency between the attributes identified
and the feature they determine.
5) Feature value extraction: Further on, we
extract features and feature attributes from each
of the identified sentences, using the following
rules:
1) We introduce the following categories of
context polarity shifters, in which we split the
modifiers and modal operators in two
categories - positive and negative:
- negation: no, not, never etc.
- modifiers: positive (extremely, very,
totally etc.) and negative (hardly, less,
possibly etc.) - modal operators:
positive (must, has) and negative (if,
would, could etc.)
2) For each identified feature that is found
in a sentence, we search for a corresponding
feature attribute that determines it. Further on,
we search to see if the feature attribute is
determined by any of the defined modifiers. We
consider a variable we name valueOfModifier,
with a default value of -1, that will account for
the existence of a positive or negative modifier
of the feature attribute. In the affirmative case,
we assign a value of 1 if the modifier is positive
and a value of 0 if the modifier is negative. If
no modifier exists, we consider the default
value of the variable. We extract triplets as
(feature, attributeFeature, valueOf Modifier).
In order to accomplish this, we use the syntactic
dependency structure of the phrase, we
determine all attribute features that determine
the given feature (in the case of Minipar, they
are the ones connected by the “mod” and
“pred” relations).
3) If a feature attribute is found without
determining a feature, we consider it to
implicitly evoke the feature that it is associated
with in the feature collection previously built
for the product. “The camera is small and
sleek.” becomes (camera, small, -1) and
(camera, sleek, -1), which is then transformed
by assigning the value “small” to the “size”
feature and the value “sleek” to the “design”
feature.
5
Assigning polarity to feature
attributes
In order to assign polarity to each of the
identified feature attributes of a product, we
employ SMO SVM machine learning and the
Normalized Google Distance (NGD). The main
advantage in using this type of polarity
assignment is that NGD is language
independent and offers a measure of semantic
similarity taking into account the meaning
51
Alexandra Balahur, Andrés Montoyo
given to words in all texts indexed by Google
from the World Wide Web.
The set of anchors contains the terms
{featureName, happy, unsatisfied, nice, small,
buy}, that have possible connection to all
possible classes of products and whose polarity
is known. Further on, we build the classes of
positive and negative examples for each of the
feature attributes considered. From the corpus
of annotated customer reviews, we consider all
positive and negative terms associated to the
considered attribute features. We then complete
the lists of positive and negative terms with
their WordNet synonyms. Since the number of
positive and negative examples must be equal,
we will consider from each of the categories a
number of elements equal to the size of the
smallest set among the two, with a size of at
least 10 and less or equal with 20. We give as
example the classification of the feature
attribute “tiny”, for the “size” feature. The set
of positive feature attributes considered
contains 15 terms such as (big, broad, bulky,
massive, voluminous, large-scale etc.) and the
set of negative feature attributes considered is
composed as opposed examples, such as (small,
petite, pocket-sized, little, etc.). We use the
anchor words to convert each of the 30 training
words to 6-dimensional training vectors defined
as v(j,i) = NGD(wi,aj), where aj with j ranging
from 1 to 6 are the anchors and wi, with i from
1 to 30 are the words from the positive and
negative categories. After obtaining the total
180 values for the vectors, we use SMO SVM
to learn to distinguish the product specific
nuances. For each of the new feature attributes
we wish to classify, we calculate a new value of
the vector vNew(j,word)=NGD(word, aj), with j
ranging from 1 to 6 and classify it using the
same anchors and trained SVM model. In the
example considered, we had the following
results (we specify between brackets the word
to which the scores refer to):
made was between 0.72 and 0.80, with a kappa
value above 0.45.
6
Summarization of feature polarity
For each of the features identified, we compute
its polarity depending on the polarity of the
feature attribute that it is determined by and the
polarity of the context modifier the feature
attribute is determined by, in case such a
modifier exists. Finally, we statistically
summarize the polarity of the feature attributes,
as shown in Formula (1) and Formula (2):
# pos_feature_attributes(i)
(1)
# feature_attributes(i)
# neg_feature_attributes(i)
Fneg (i) =
(2)
# feature_attributes(i)
Fpos (i) =
The results shown are triplets of the form
(feature, % Positive Opinions, % Negative
Opinions).
7
Evaluation and discussion
For the evaluation of the system, we annotated
a corpus of 50 customer reviews for each
language, collected from sites as amazon.com,
newegg.com,
dealsdirect.com,
ciao.es,
shopmania.es,
testfreaks.es
and
quesabesde.com. The corpus was annotated at
the level of feature attributes, by the following
scheme: <attribute> [name of attribute]
<feature> [feature it determines] </feature>
<value> [positive / negative] </value>
</attribute>.
It is difficult to evaluate the performance of
such a system, since we must take into
consideration both the accuracy in extracting
the features that reviews comment on, as well
as the correct assignation of identified feature
attributes to the positive or negative category.
Therefore,
we
measured
the
system
performance in terms of precision, recall and
accuracy. The results obtained are summarized
in Table 1. We show the scores for each of the
two languages considered separately and the
combined score when using both systems for
assigning polarity to feature attributes of a
product. In the last column, we present a
baseline, computed as average of using the
same formulas, but taking into consideration,
for each feature, only the feature attributes we
considered as training examples for our method.
We can notice how the use of NGD helped the
(small)1.52, 1.87, 0.82, 1.75, 1.92,1.93, positive
(little)1.44, 1.84, 0.80, 1.64, 2.11,1.85, positive
(big )2.27, 1.19, 0.86, 1.55, 1.16, 1.77, negative
(bulky) 1.33, 1.17 ,0.92,1.13,1.12,1.16, negative
The vector corresponding to the “tiny”
attribute feature is:
(tiny) 1.51, 1.41, 0.82, 1.32, 1.60, 1.36.
This vector was classified by SVM as
positive, using the training set specified above.
The precision value in the classifications we
52
A Semantic Relatedness Approach to Classifying Opinion from Web Reviews
system acquire significant new knowledge
about the polarity of feature attributes.
SA
FIP
FIR
Eng
Sp
Combined
Baseline
Eng
Baseline
Sp
0.82
0.80
0.79
0.80
0.78
0.79
0.81
0.79
0.79
0.21
0.20
0.40
0.19
0.20
0.40
features and feature attributes, alternate
methodologies for polarity assignation to
product dependent feature attributes and finally,
the application of a textual entailment system to
verify the quality of the feature extracted and
the assigned polarity.
References
Table 1: System results
Banerjee, S., Pedersen,T.: The Design,
Implementation and Use of the Ngram
Statistics Package. In Proceedings of the
Fourth
International
Conference
on
Intelligent
Text
Processing
and
Computational Linguistics, February 17-21,
2003, Mexico City. (2003)
The problems encountered were largely
related to the use of informal language,
disregard of spelling rules and punctuation
marks.
8
Conclusions and future work
In this paper we presented a method to extract,
for a given product, the features that could be
commented upon in a customer review. Further,
we have shown a method to acquire the feature
attributes on which a customer can comment in
a review. Moreover, we presented a method to
extract and assign polarity to these product
features and statistically summarize the polarity
they are given in the review texts in English and
Spanish. The method for polarity assignment is
largely language independent (it only requires
the use of a small number of training examples)
and the entire system can be implemented in
any language for which similar resources and
tools as the ones used for the presented system
exist. The main advantage obtained by using
this method is that one is able to extract and
correctly classify the polarity of feature
attributes, in a product dependent manner.
Furthermore, the features in texts are that are
identified are correct and the percentage of
identification is high. Also, the polarity given in
the training set determines the polarity given to
new terms, such that “large” in the context of
“display” will be trained as positive and in the
case of “size” as negative. The main
disadvantage consists in the fact that SVM
learning and classification is dependent on the
NGD scores obtained with a set of anchors that
must previously be established. This remains a
rather subjective matter. The most important
problem we encountered is that concerning the
informal language style, which makes the
identification of words and dependencies in
phrases sometimes impossible.
Future work includes the development of a
method to extend the list of product-dependent
Chaovalit, P., Zhou, L.: Movie Review Mining:
a Comparison between Supervised and
Unsupervised Classification Approaches. In
Proceedings of HICSS-05, the 38th Hawaii
International Conference on System
Sciences. (2005)
Cilibrasi, D., Vitanyi, P.: Automatic Meaning
Discovery Using Google. IEEE Journal of
Transactions on Knowledge and Data
Engineering. (2006)
Cui, H., Mittal, V., Datar, M.: Comparative
Experiments on Sentiment Classification for
Online Product Reviews. In Proceedings of
the 21st National Conference on Artificial
Intelligence AAAI 2006. (2006)
Dave, K., Lawrence, S., Pennock, D.: Mining
the Peanut Gallery: Opinion Extraction and
Semantic Classification of Product Reviews.
In Proceedings of WWW-03. (2003)
Ding, X., Liu, B., Yu, P.,: A Holistic Lexicon Based Approach to Opinion Mining. In
Proceedings of WSDM, 2008. (2008)
Fellbaum(ed.), C.: WordNet: An Electronic
Lexical Database. First edn. MIT Press.
(1999)
Ferrández, A., Palomar, M., Moreno, L.: An
Empirical Approach to Spanish Anaphora
Resolution. Machine Translation. Special
Issue on Anaphora Resolution In Machine
Translation. Special Issue on Anaphora
Resolution In Machine Translation. (1999)
Gamon, M., Aue, S., Corston-Oliver, S.,
Ringger, E.: Mining Customer Opinions
53
Alexandra Balahur, Andrés Montoyo
from Free Text. Lecture Notes in Computer
Science. (2005)
Association for Computational Linguistics.
(2006)
Goldberg, A.B., Zhu, J.: Seeing stars when
there aren’t many stars: Graph-based semisupervised
learning
for
sentiment
categorization. In HLT-NAACL 2006
Workshop on Textgraphs: Graph-based
Algorithms
for
Natural
Language
Processing. (2006)
Pang, B., Lee, L., Vaithyanathan, S.: Thumbs
up? Sentiment classification using machine
learning techniques. In Proceedings of
EMNLP-02, the Conference on Empirical
Methods in Natural Language Processing.
(2002)
Platt, J.: Sequential minimal optimization: A
fast algorithm for training support vector
machines. Microsoft Research Technical
Report MSRTR- 98-14. (1998)
Hatzivassiloglou, V., Wiebe, J.: Effects of
adjective orientation and gradability on
sentence subjectivity. In Proceedings of
COLING 2000. (2000)
Popescu, A.M., Etzioni, O.: Extracting Product
Features and Opinions from Reviews. In
Proceedings of EMNLP 2005. (2005)
Hu, M., Liu, B.: Mining Opinion Features in
Customer Reviews. In Proceedings of
Nineteenth
National
Conference
on
Artificial Intelligence AAAI-2004. (2004)
Riloff, E., Wiebe, J.: Learning Extraction
Patterns for Subjective Expressions. In
Proceedings of the 2003 Conference on
Empirical Methods in Natural Language
Processing. (2003)
Kim, S.M., Hovy, E.: Determining the
Sentiment of Opinions. In Proceedings of
COLING 2004. (2004)
Kozareva, Z., Montoyo, A.: Discovering the
Underlying Meanings and Categories of a
Name through Domain and Semantic
Information. In: Proceedings of the
Conference on Recent Advances in Natural
Language Processing RANLP 2007. (2007)
Stoyanov, V., Cardie, C.: Toward Opinion
Summarization: Linking the Sources. In:
COLING-ACL
2006
Workshop
on
Sentiment and Subjectivity in Text. (2006)
Turney, P., Littman, M.: Measuring praise and
criticism: Inference of semantic orientation
from association. ACM Transactions on
Information Systems 21. (2003)
Lin, D.: Dependency-based Evaluation of
MINIPAR. In Workshop on the Evaluation
of Parsing Systems. (1998)
Turney, P.: Thumbs up or thumbs down?
Semantic
orientation
applied
to
unsupervised classification of reviews. In
Proceedings of the 40th Annual Meeting of
the
Association
for
Computational
Linguistics. (2002)
Lin, W.H., Wilson, T., Wiebe, J., Hauptman,
A.: Which Side are You On? Identifying
Perspectives at the Document and Sentence
Levels. In Proceedings of the Tenth
Conference on Natural Language Learning
CoNLL’06. (2006)
Vázquez, S., Montoyo, A., Rigau, G.: Using
relevant domains resource for word sense
disambiguation. In Proceedings of the ICAI
2004. (2004)
Liu, B.: Web Data Mining. Exploring
Hyperlinks, Contents and Usage Data. First
edn. Springer (2007)
Liu, H., Singh, P.: ConceptNet: A Practical
Commonsense Reasoning Toolkit. BT
Technology Journal 22. (2004)
Wiebe, J., Riloff, E.: Creating Subjective and
Objective Sentence Classifiers from
Unannotated Texts. In Proceedings of the
6th
International
Conference
on
Computational Linguistics and Intelligent
Text Processing (CICLing-05). (2005)
Mullen, T., Collier, N.: Sentiment Analysis
Using Support Vector Machines with
Diverse Information Sources. In Proceedings
of EMNLP 2004. (2004)
Wilson, T., Wiebe, J., Hwa, R.: Just how mad
are you? Finding strong and weak opinion
clauses. In: Proceedings of AAAI 2004.
(2004)
Ng, V., Dasgupta, S., Arifin, S.M.N.:
Examining the Role of Linguistic
Knowledge Sources in the Automatic
Identification and Classification of Reviews.
In Proceedings 40th Annual Meeting of the
54
Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 55-62
recibido 13-01-09, aceptado 02-03-09
Estableciendo una línea base para un generador de resúmenes
extractivo basado en conceptos en el ámbito biomédico1
Setting a baseline for an automatic extractive concepts-based summarization
on the biomedical domain
Manuel de la Villa y Manuel J. Maña
Departamento Tecnologías de la Información
Universidad de Huelva.
Campus de La Rábida. Edif. Torreumbría,
21618, Palos de la Frontera, Huelva, España
{manuel.villa, manuel.mana}@dti.uhu.es
Resumen: Los métodos de generación de resúmenes basados en técnicas extractivas han
demostrado ser muy útiles por su adaptabilidad y eficiencia en tiempo de respuesta en cualquier
tipo de dominios. En el ámbito biomédico son numerosos los estudios que hablan de la
sobrecarga de información y recogen la necesidad de aplicación de técnicas eficientes de
recuperación y generación de resúmenes para una correcta aplicación de la medicina basada en
la evidencia. En este contexto vamos a presentar una propuesta de metodología de generación
automática de resúmenes basada en conocimiento estructurado y grafos. A partir de una
representación del documento original en un grafo, aplicando técnicas de similitud entre frases y
sus conceptos biomédicos, se obtienen las frases más relevantes para formar el resumen final.
Palabras clave: resumen automático, método extractivo, conceptos biomédicos, UMLS
Abstract: The methods for automatic summarization generation based in extractive techniques
have widely shown its utility for his adaptability and efficiency in the manner of response time
at any kind of application domain. In Biomedical domain are numerous the research results
about the overload information and the need of application of efficient recovery and
summarization methods for the proper use of evidence based medicine. In this context we are
going to present a proposal of methodology for automatic summarization based on structured
knowledge and graph's use. From a representation of the source document in form of a graph,
applying similarity methods between phrases and their containing biomedical concepts, we
obtain the most salient phrases to fill in the final summary.
Keywords: automatic summarization, extractive method, biomedical concept, UMLS
1
relevante y una mayor asimilación de conceptos
con menor esfuerzo.
Introducción
La generación de resúmenes de texto es un
proceso de reducción de la información, que
permite a un usuario tomar idea o conocer el
contenido de un texto completo, sin tener que
leer todas sus frases. Esta reducción de la
cantidad de información a leer produce una
mayor rapidez en la búsqueda de información
Numerosos artículos certifican la sobrecarga de
información tan común hoy día en nuestra
sociedad, y en especial en el ámbito biomédico,
donde la información está disponible desde una
variedad de fuentes, incluyendo artículos
científicos, bases de datos de resúmenes, bases
de datos estructuradas o semiestructuradas,
servicios web, webs de documentos o historia
1
Este trabajo ha sido financiado por el Ministerio de Ciencia e Innovación a través de los proyectos CICYT
TIN2007-67843-C06-03 y TIN2005-08998-C02-02.
ISSN 1135-5948
© 2009 Sociedad Española para el Procesamiento del Lenguaje Natural
Manuel de la Villa, Manuel J. Maña
clínica de pacientes (Afantenos, Karkaletsis y
Stamatopoulos, 2005).
En este trabajo presentamos un modelo de
generación de resúmenes de carácter extractivo
apoyado en conceptos del dominio biomédico.
El artículo se estructura de la siguiente manera:
en primer lugar se describe el proceso de
tratamiento extractivo del lenguaje natural
mediante el uso de grafos, para posteriormente
comentar algunos trabajos específicos del
dominio. Presentamos UMLS y el conjunto de
herramientas de procesamiento de lenguaje
natural orientadas al ámbito biomédico que
incorpora. En la sección cinco presentamos el
modelo de generación de resúmenes en que
estamos trabajando, dividido en cuatro fases: la
generación del grafo léxico, la aplicación de un
algoritmo de similitud conceptual, la aplicación
de un algoritmo de ranking y finalmente, la
creación del resumen. Finalmente enumeramos
los muchos temas abiertos que quedan en este
trabajo inicial y los posibles futuros trabajos.
Si a ello unimos el hecho de que gran parte de
los resultados de la investigación biomédica se
encuentran en forma de literatura escrita en
formato libre (no estructurados, formato
inadecuado para la búsqueda compleja) que se
acumulan en grandes bases de datos en línea,
podemos concluir que el proceso de reducción
de los resúmenes automáticos es especialmente
útil en el ámbito biomédico.
Por otro lado, el rápido crecimiento de los
resultados de la investigación del dominio
biomédico está produciendo un importante
cuello de botella. MEDLINE (Medical
Literature Analysis and Retrieval System
Online), la principal base de datos bibliográfica
de EE.UU (de la National Library of Medicine),
contiene más de 16 millones de referencias a
artículos de revistas, centrados principalmente
en biomedicina. Entre 2000 y 4000 referencias
completas se añaden cada día, más de 670000
fueron añadidas en 20072.
2
Trabajos relacionados en el ámbito
extractivo
Para generar resúmenes automáticos de texto
existen dos enfoques: extractivo y abstractivo.
El enfoque extractivo selecciona y extrae frases
o partes de ella del texto original. La mayor
ventaja que tiene este enfoque es que resulta
muy robusto y fácilmente aplicable a contextos
de propósito general, ya que, su independencia
del dominio, e incluso del género de los
documentos, es muy alta. El enfoque
abstractivo suele englobar técnicas de
procesamiento del lenguaje natural, más
complejo pues necesita un conocimiento léxico,
gramatical y sintáctico del dominio, para
modelar semánticamente el conocimiento y a
partir de éste ser capaz de generar un resumen.
La práctica de la medicina basada en la
evidencia ha sido tradicionalmente definida
como la combinación de los mejores resultados
de la investigación médica con el juicio clínico,
experto y experimentado (Sackett et Al., 1996).
La capacidad de buscar en la literatura médica
en un tiempo eficiente representa una parte
importante de una práctica basada en la
evidencia. Un reciente trabajo cualitativo
concluyó que dos de los seis obstáculos para
responder a cuestiones clínicas aplicando la
evidencia eran el tiempo requerido para
encontrar información y la dificultad para
seleccionar una estrategia óptima de búsqueda
(Ely y Osheroff, 2002). Es por todo esto que
herramientas de búsqueda como PubMed3,
BioMed Central4 o UpToDate5 se han
convertido en más y más importantes, para
encontrar formas adecuadas de localizar la
mejor evidencia de manera eficaz.
Típicamente, el proceso de resumen
extractivo consiste en identificar las sentencias
de un texto de origen que sean relevantes para
el usuario a la vez que se reduce la redundancia
de la información. Las sentencias son puntuadas
basándose en una serie de características y las n
sentencias de mayor puntuación son extraídas y
presentadas al usuario en su orden de aparición
en el texto original.
En este dominio, los profesionales en general
necesitan
herramientas
orientadas
a
proporcionar medios para acceder y visualizar
la información adecuada para sus necesidades.
Para trabajar con las frases y su puntuación,
un mecanismo de representación comúnmente
usado han sido los modelos de puntuación o
ranking basados en grafos. Los algoritmos de
2
http://www.nlm.nih.gov/pubs/ factsheets/medline.html
http://www.nlm.nih.gov/pubs/factsheets/pubmed.html
4
http://www.biomedcentral.com/info/
5
http://www.uptodate.com/home/about/index.html
3
56
Estableciendo una línea base para un generador de resúmenes extractivo basado en conceptos en el ámbito biomédico
Los trabajos específicos de un ámbito pueden
usar conceptos en vez de términos, para lo que
necesitan herramientas que den soporte a la
identificación de los conceptos en una
estructura de conocimiento del dominio y
capaces de determinar relaciones semánticas
entre estos conceptos.
ranking basados en grafos son un modo de
decidir sobre la importancia de un vértice
dentro del grafo, teniendo en cuenta
información referencial global del grafo,
obtenida recursivamente mejor que localmente
desde el vértice.
La aplicación de éste modo de trabajo a
grafos léxicos o semánticos extraídos de
documentos de lenguaje natural ha sido llevada
a cabo (Skorochod'ko, 1972) (Salton et al.,
1997) y se ha mostrado eficaz en tareas de
procesamiento del lenguaje como la extracción
automática de palabras clave, generación de
resúmenes extractiva o desambiguación del
sentido de las palabras (Mihalcea y Tarau,
2006).
3.1
Para el procesado semántico, consistente en el
análisis e identificación de los conceptos y
relaciones subyacentes en un texto, se requiere
para que el texto pueda ser mapeado a una
estructura de conocimiento, como la que en el
ámbito biomédico proporciona el proyecto
Unified Medical Language System (UMLS)
(Humphreys et al., 1998). El objetivo de este
proyecto es el desarrollo de herramientas que
ayuden a investigadores en la representación del
conocimiento, recuperación e integración de
información biomédica.
Otros trabajos relevantes en el ámbito que
destacaremos son (Radev y McKeown, 1998)
donde se presenta un sistema que genera un
resumen a partir de un conjunto de artículos
periodísticos sobre el mismo acontecimiento.
Para cada frase se determina su estructura a alto
nivel y las palabras que van a representar cada
papel semántico y, finalmente, se construye su
árbol sintáctico.
UMLS consiste en tres componentes, el
SPECIALIST Lexicon, el Metathesaurus y la
UMLS Semantic Network (Rindflesh, Fiszman y
Libbus, 2005).
El sistema SUMMARIST (Hovy y Lin, 1999)
se utiliza un recurso léxico, WordNet para
identificar conceptos genéricos y definir una
jerarquía. El proceso de generalización se
realiza mediante la propagación de pesos de los
conceptos, basados en frecuencias de aparición,
a través de la jerarquía de WordNet.
3
Conocimiento del dominio:
UMLS
z
El SPECIALIST Lexicon describe las
características sintácticas de terminos en inglés
de
carácter
biomédico
y
general,
proporcionando la base para el PLN en el
dominio biomédico.
Así, p.ej., la entrada 'Anaesthetic' produciría las
siguientes respuestas:
c {base=anesthetic
■ spelling_variant=anaesthetic
■ entry=E0330018
■ cat=noun
■ variants=reg
■ variants=uncount }
c {base=anesthetic
■ spelling_variant=anaesthetic
■ entry=E0330019
■ cat=adj
■ variants=inv
■ position=attrib(3)
■ position=pred stative },
que vendría a indicarnos que el término puede
aparecer como sustantivo o adjetivo, en un caso
con un plural regular, incontable, en el otro
indica que es invariante, que puede aparecer en
el predicado y que es un adj. atributivo.
Trabajos relacionados en el ámbito
biomédico.
En el ámbito biomédico destacaremos los
métodos de generación de resúmenes
extractivos como BioChain, (basado en cadenas
de conceptos o relaciones semánticas entre
conceptos vecinos en texto), FreqDist (centrado
en el uso de las distribuciones de frecuencia,
construyendo un resumen con similar
distribución que el original) y Chainfreq
(híbrido de los dos anteriores), que usan
conceptos específicos del dominio biomédico
para identificar las sentencias destacables del
texto completo (Reeve, Han y Brooks, 2007).
Sin embargo, la posterior evaluación de los
métodos no logra mejorar los resultados de los
enfoques basados en términos.
57
Manuel de la Villa, Manuel J. Maña
que combina técnicas de traducción automática
con ontologías biomédicas y MMTx para
producir una versión española de MMTx.
z
El Metathesaurus es una recopilación de
más de 100 vocabularios y terminologías
médicas, entre los que se incluyen desde MeSH
o SNOMED hasta subdominios más
especializados (odontología o enfermería,...)
asociando cada término a más de un millón de
conceptos semánticos que a su vez se engloban
en 135 tipos semánticos relevantes en el ámbito
biomédico (y siempre, al menos en uno).
Así, p.ej., la entrada 'Arthritis, Juvenile
Rheumatoid”produciría
la
siguiente
información jerárquica:
Immunologic Diseases
Autoimmune Diseases
Arthritis, Rheumatoid
Arthritis, Juvenile Rheumatoid
4
Propuesta de generación del
resumen
Los métodos de generación de resúmenes
basados en técnicas extractivas han demostrado
ser muy útiles por su adaptabilidad y eficiencia
en tiempo de respuesta en cualquier tipo de
dominios. Por contra, los métodos abstractivos,
por la necesidad de recursos léxicos, sintácticos
y semánticos han proporcionado unos mejores
resultados en cuanto a comprensibilidad a costa
de un mayor esfuerzo computacional y por
tanto, de tiempos de respuesta, aparte de la
especificidad del ámbito de uso de la
herramienta.
z
La UMLS Semantic Network constituye
una ontología del más alto nivel de la Medicina,
compuesta por 135 tipos semánticos asignados
a conceptos del Metathesaurus y por 54 tipos de
relaciones entre los tipos. Estas relaciones son a
menudo llamadas predicados o proposiciones y
están constituidas por argumentos (conceptos) y
predicados (relaciones). Algunos ejemplos
podrían ser:
-‘Therapeutic or Preventive Procedure’
TREATS ‘Injury or Poisoning’
-‘Organism
Attribute’
PROPERTY_OF
‘Mammal’
-‘Bacterium’ CAUSES ‘Pathologic Function'.
Como vimos en el punto dos, existen trabajos
previos para el dominio específico biomédico
de carácter extractivo que hacen uso de recursos
léxicos y semánticos, pero que no obtienen
unos mejores resultados trabajando con
conceptos que con términos. Nuestro objetivo
es intentar mejorar la capacidad y rapidez de los
métodos extractivos con la efectividad y
concreción de los métodos abstractivos. Para
ello vamos a presentar una primera propuesta
de una metodología de generación automática
de resúmenes basada en conocimiento
estructurado y grafos de ranking.
SemRep es una herramienta de procesado
semántico que integra los tres anteriores
componentes de UMLS para analizar de manera
automática textos con
lenguaje médico
identificando los conceptos y relaciones que
representan el contenido del documento.
SemRep devuelve una lista de relaciones a
partir de un conjunto de documentos obtenidos
por una búsqueda de un término especificado.
Nuestra propuesta, basada en (Mihalcea y
Tarau, 2006) es eminentemente extractiva, de
modo que el proceso podría resumirse en
identificar las sentencias en el texto de origen,
seleccionar aquellas que sean relevantes para el
usuario a la vez que disminuimos la
redundancia de la información. Para ello
asignamos una puntuación a cada frase de
acuerdo a un conjunto de características. Las nprimeras frases en cuanto a puntuación se
extraen y se presentan al usuario en su orden de
aparición en el texto original.
Usaremos el Metathesaurus y la herramienta
Metamap
Transfer
(MMTx)
para
la
identificación de los conceptos biomédicos de
cada frase, base para el cálculo del solape entre
frases. En cuanto a SemRep, añadiremos esta
lista de relaciones al grafo dirigido para
posteriores trabajos.
4.1
Fase 1. Generación del grafo.
Independientemente del tamaño del texto, sea
un texto completo o un abstract, la primera
tarea debe consistir en la identificación de cada
una de las sentencias del texto de origen, así
como en la creación de un grafo que incluya un
vértice en el grafo por cada sentencia. De
manera simultánea, se identifican con la ayuda
En castellano han existido esfuerzos para la
elaboración de un metathesauro, como
WordMed (Arranz et al., 2000). Destacaremos
el trabajo de (Carrero, Cortizo y Gómez, 2008)
58
Estableciendo una línea base para un generador de resúmenes extractivo basado en conceptos en el ámbito biomédico
Similitud c (Vi ,V j )=
de Metamap Transfer (integrada en SemRep,
ver Figura 1), los conceptos biomédicos
incluidos en la frase y se incluyen en el nodo,
así como las relaciones semánticas. Para el
trabajo con grafos en el prototipo que se ha
elaborado se ha usado la librería JUNG
(O’Madadhain et al., 2004).
k
| C k ∈Vi ∧ C k ∈V j })
log((Vi )) + log((V j ))
La Figura 2 muestra la matriz de adyacencia
que almacena los pesos de las aristas entre
nodos, así de cada nodo en una fila a un nodo
de una columna (grafo dirigido) se muestra en
la tabla el valor de similitud.
SE|00000000||tx|1|text|In order to
substantiate further the relationship between
these oral disorders and psoriasis, we
compared 200 patients with psoriasis to a
matched control group.
SE|00000000||tx|1|entity|C1517331|Further|spco
|||further||||888|26|32
SE|00000000||tx|1|entity|C0439849|Relationship
s|qlco|||relationship||||888|38|49
SE|00000000||tx|1|entity|C0026636|Mouth
Diseases|dsyn|||oral disorders||||983|65|78
SE|00000000||tx|1|entity|C0033860|Psoriasis|ds
yn|||psoriasis||||1000|84|92
SE|00000000||tx|1|entity|C0030705|Patients|pod
g|||patients||||861|111|118
SE|00000000||tx|1|entity|C0033860|Psoriasis|ds
yn|||psoriasis||||1000|125|133
SE|00000000||tx|1|entity|C0243148|control|ftcn
|||control||||901|148|154
SE|00000000||tx|1|entity|C0024908|Matched
Groups|grup|||matched control
group||||901|140|160
SE|00000000||tx|1|relation|2|1|C0033860|Psoria
sis|dsyn|dsyn|||psoriasis||||1000|125|133|PREP
|PROCESS_OF||120|123|5|1|C0030705|Patients|hum
n|humn|||patients||||861|111|118
Figura 2: Prototipo de la aplicación tras
aplicar algoritmo de solape
4.3
Fase 3. Aplicación de algoritmo
de ranking
Los algoritmos de ranking basados en grafos, a
partir de la asignación arbitraria de valores a
cada nodo, realizan cálculos para obtener la
puntuación S(Vi) de cada nodo de manera
iterativa, hasta que se produce convergencia
bajo un determinado umbral. Las referencias
entre nodos y/o conceptos son tratadas como
'votos' para decidir el elemento más importante.
La puntuación de cada vértice se obtiene
aplicando PageRank (Brin y Page, 1998):
Figura 1 Ejemplo de tratamiento realizado por
SemRep sobre una sentencia de un texto
biomédico
4.2
({C
Fase 2. Aplicación de algoritmo
de similitud.
Para la extracción de sentencias en resúmenes,
un concepto importante es la 'similitud' o grado
de solapamiento entre sentencias, cuánto del
contenido de una sentencia se encuentra
incluido en otra. Es como si consideráramos el
solape como una “recomendación” de una frase
de dirigirse a otras que tratan y abundan los
mismos conceptos. Una función de similitud,
que tome en cuenta el grado de repetición de
tokens entre sentencias de manera normalizada
proporcionará una medida de este concepto. En
particular, este concepto también nos
proporcionará información de lo cohesionado o
no del grupo de documentos devueltos en la
consulta y de la posible necesidad de un
tratamiento previo de clustering.
WS (Vi ) = (1 − d )+ d ∗
∑
∈I (V )
Vj
n
WS (V j )
W ji
∑W
∈O (V )
jk
i
Vk
ut
j
En la Figura 3 se observa el prototipo de la
aplicación con el grafo resultante, donde se
pueden observar los nodos etiquetados con los
pesos obtenidos y los valores asociados a las
aristas recalculados.
Tras la ejecución del algoritmo, los nodos se
ordenan atendiendo al peso o puntuación
asociada, que define la notoriedad (saliency) de
cada vértice en un grafo dirigido y ponderado.
Aplicamos una versión modificada (con
conceptos en vez de términos) de la formula de
similitud de (Milhacea y Tarau, 2006):
59
Manuel de la Villa, Manuel J. Maña
debe reflejarse en un buen resultado en una
futura evaluación de método.
Es evidente que la propuesta es un punto de
partida que acabará como un hito en un
proyecto más ambicioso y a más largo plazo.
Hablemos de cuáles serán los siguientes pasos a
realizar:
z
Elaboración u obtención de un corpus
evaluable. En este momento nos
encontramos en la búsqueda de un corpus
que podamos reutilizar para nuestros fines.
De no tener un resultado positivo,
optaríamos por elaborar nuestro propio
corpus de documentos, a partir de BioMed
Central, una editorial independiente
dedicada a la publicación de artículos de
investigación en Biología y Medicina que
se caracteriza por mantener una política de
acceso abierto a través de Internet,
agrupando a más de 180 revistas y más de
23000 artículos de investigación del ámbito
biomédico. Esto nos permitiría trabajar con
un amplio conjunto de documentos
completos en vez de abstracts.
z
Evaluación.
Cualquier
trabajo
mínimamente metódico requiere de una
comparación de su eficiencia frente a otras
propuestas de prestigio y frente a un
baseline que proporcione métricas sobre los
porcentajes de mejora por aplicación de tal
o cual modificación. Nos proponemos
evaluar nuestro modelo usando uno de estas
herramientas:
-ROUGE (Recall-Oriented Understudy
for Gisting Evaluation) (Lin y Hovy,
2003) es una herramienta automatizada
que compara un sumario generado por
un sistema automático con uno o más
resúmenes ideales, llamados modelos.
Usa N-gramas para determinar el solape
entre el resumen generado y los
modelos.
-Basic Elements (Hovy et al., 2006) es
un marco de trabajo en el que las
medidas de evaluación de los
resúmenes pueden instanciarse y
compararse dentro de un método de
evaluación que se basa en el trabajo con
unidades de contenido muy pequeñas,
llamados 'basic elements' que corrigen
algunos de los defectos de los ngramas.
Figura 3: Gráfico del Grafo con pesos
generado por algoritmo de ranking
4.4 Fase 4. Creación del resumen
Los nodos de mayor puntuación definirán
las frases a incluir en el resumen. El número de
frases puede ser fijo o basado en umbral o
porcentaje. En nuestro prototipo es el usuario el
que decide el porcentaje de frases.
Para facilitar la legibilidad del resumen, la
secuencialidad de presentación de las frases
seleccionadas se hace atendiendo a su
ordenamiento original.
5
Conclusión y temas abiertos
Se ha presentado una propuesta de generación
automática de resúmenes de carácter extractivo,
que usa una representación en grafo donde los
nodos son frases y las aristas un valor numérico
que mide el ‘grado de recomendación’ o
similitud entre frases. El algoritmo de ranking
producirá como resultado un peso en los nodos,
que representa la importancia global de la frase
dentro del documento, que ordenaremos de
mayor a menor. Seleccionaremos las primeras
en un número determinado por el porcentaje de
compresión indicado a la herramienta.
La novedad de la metodología se encuentra en
el uso del metathesauro UMLS para identificar
conceptos UMLS y que la similitud entre frases
se calcule a partir del número de conceptos
UMLS que compartan las frases. Entendemos
que la herramienta aúna las bondades de
técnicas extractivas con el conocimiento del
dominio que aportan los recursos UMLS y que
60
Estableciendo una línea base para un generador de resúmenes extractivo basado en conceptos en el ámbito biomédico
Automatic Text Summarization, pags. 81-94.
The MIT Press. 1999.
Hovy, E., C. Y. Lin, L. Zhou, J. Fukumoto.
2006. Automated Summarization Evaluation
with Basic Elements. En Proceedings of the
Fifth Conference on Language Resources
and Evaluation (LREC 2006), Genova,
Italia.
Humphreys, B.L., D.A. Lindberg, H.M.
Schoolman y G.O. Barnett. 1998. The
Unified Medical Language System: An
Informatics
Research Collaboration.
Journal of the American Medical
Informatics Association, 5(1), 1-11. 1998.
Lin, C. Y. y E. Hovy. 2003. Automatic
evaluation of summaries using N-gram coocurrence statistics. En Proceedings of 2003
language technology conference (HLTNAACL 2003) (Vol. 1(1), pag. 71-78).
Edmonton, Canada.
Mihalcea R. y P. Tarau. 2006. TextRank:
Bringing Order into Texts. En Proceedings
of Empirical Methods in Natural Language
Processing. ACL, 404-411, 2006.
O’Madadhain, J., S. White, D. Fisher y Y. B.
Boey.
2004.
JUNG–Java
Universal
Network/graph Framework. Available for
download at http://jung.sourceforge.net/.
Radev, D. R. y K. R. McKeown. 1998.
Generating Natural Language Summaries
from
Multiple
On-Line
Sources.
Computational Linguistics, 4:469-500.
Reeve, L.H., H. Han, A.D. Brooks. 2007. The
use of domain-specific concepts in
biomedical text summarization. Information
Processing and Management 43, 1765-1776.
2007.
Rindflesh, T.C., M. Fiszman, B. Libbus. 2005.
Semantic interpretation for the biomedical
research literature. Capítulo 14 del libro
Medical
Informatics.
Knowledge
Management and Data Mining in
Biomedicine (Springer's Integrated Series in
Information Systems), editores Chen, H.,
Fuller, S.S., Friedman C., Hersh, W.
Sackett D.L., W.M.C. Rosenberg, J.A.M. Gray,
R.B. Haynes y W.S. Richardson. 1996.
Evidence-based medicine: what it is and
what it isn’ t. British Medical Journal, 312:
71-72.
Salton, G., A. Singhal, M. Mitra, and C.
Buckley. 1997. Automatic text structuring
and summarization. Information Processing
and Management 33 (3), 193-207.
Parece lógico que la segunda herramienta,
basada en la comparación de pequeñas
unidades de contenido en vez de n-gramas,
favorecerá a una herramienta basada
en conceptos en vez de en cadenas. Sin
embargo, actualmente BE no se encuentra
soportado.
•
Nos planteamos la evolución y mejora de
esta propuesta analizando y haciendo uso
de las relaciones semánticas obtenidas
mediante SemRep. Nuestra idea es
incluirlas dentro del grafo, de modo que
dos conceptos unidos mediante una
relación generarán una arista dirigida entre
los nodos que incluyan a cada uno de esos
conceptos. El peso de cada arista vendrá
definido por el tipo de relación semántica
(una relación 'cause' o 'threats' será más
relevante que otra 'is-a').
Bibliografía
Afantenos, S. D., V. Karkaletsis y P.
Stamatopoulos. 2005. Summarization from
Medical Documents: A Survey en Artificial
Intelligence in Medicine, 33(2):157-177.
Arranz V., X. Carreras, M. A. Martí, J. Turmo,
J. Vilalta. 2000. WORDMED: Un recurso
conceptual terminológico para el desarrollo
de aplicaciones de PLN en el dominio
médico. VII Simpósio Ibero-Americano de
Terminologia: Terminologia e Indústrias da
Língua, Lisboa, (Portugal), noviembre de
2000.
Brin, S. y L. Page. 1998. The anatomy of a
large-scale hypertextual web search engine.
Computer Networks and ISDN Systems, 30
(1-7). 1998.
Ely, J.W., J.A. Osheroff, M.H. Ebell, M.L.
Chambliss, D.C. Vinson, J.J. Stevermer y
E.A. Pifer. 2002. Obstacles to answering
doctors' questions about patient care with
evidence: qualitative study. British Medical
Journal, 324: 710.
Carrero F.M., J.C. Cortizo y J.M. Gómez. 2008.
Building a Spanish MMTx by Using
Automatic Translation and Biomedical
Ontologies. IDEAL 2008: 346-353
Hovy, E. y C.Y. Lin. 1999. Automated Text
Summarization in SUMMARIST. En I.
Mani y M. T. Maybury, eds., Advances in
61
Manuel de la Villa, Manuel J. Maña
Skorochod'ko, E. F. 1972. Adaptive method of
automatic abstracting and indexing. En C.
Freiman, ed., Information Processing 71:
Proceedings of the IFIP Congress 71,
págs.1179-1182. North-Holland Publishing
Company, Amsterdam.
62
Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 63-70
recibido 13-01-09, aceptado 02-03-09
Comparativa de Aproximaciones a SVM Semisupervisado
Multiclase para Clasificación de Páginas Web
A Comparison of Approaches to Semi-supervised Multiclass SVM for Web
Page Classification
Arkaitz Zubiaga, Vı́ctor Fresno, Raquel Martı́nez
Departamento de Lenguajes y Sistemas Informáticos
Universidad Nacional de Educación a Distancia
C/Juan del Rosal, 16, E-28040 Madrid
{azubiaga, vfresno, raquel}@lsi.uned.es
Resumen: En este artı́culo se realiza un estudio de diferentes aproximaciones a
la clasificación semisupervisada multiclase de páginas web mediante SVM. Ante la
naturaleza binaria y supervisada de los algoritmos SVM clásicos, y tratando de
evitar problemas de optimización complejos, se propone un enfoque basado en la
combinación de clasificadores, tanto binarios semisupervisados como clasificadores
multiclase supervisados. Los resultados de los experimentos realizados sobre tres
colecciones de referencia muestran un rendimiento notablemente superior para la
combinación de clasificadores multiclase supervisados. Por otro lado, en este trabajo
también se realiza un estudio sobre la aportación de los documentos no etiquetados
en la fase de aprendizaje para este tipo de entornos. En nuestro caso, y a diferencia
de los problemas binarios, se obtiene una mayor efectividad cuando se ignora este
tipo de datos para problemas multiclase.
Palabras clave: SVM, multiclase, semisupervisado, clasificación de páginas web
Abstract: In this paper we present a study on semi-supervised multiclass web page
classification using SVM. Due to the binary and supervised nature of the classical
SVM algorithms, and trying to avoid complex optimization problems, we propose
an approach based on the combination of classifiers, not only binary semi-supervised
classifiers but also multiclass supervised ones. The results of our experiments over
three benchmark datasets show noticeably higher performance for the combination
of multiclass supervised classifiers. On the other hand, we analyze the contribution
of unlabeled documents during the learning process for these environments. In our
case, and unlike for binary tasks, we get higher effectiveness for multiclass tasks
when no unlabeled documents are taken into account.
Keywords: SVM, multiclass, semi-supervised, web page classification
1.
Introducción
El número de documentos web está creciendo muy rápidamente en los últimos años,
lo que hace que su organización resulte cada
vez más costosa y complicada. Es por ello que
la clasificación de páginas web se ha convertido en una tarea cada vez más necesaria y
crı́tica.
La clasificación de páginas web puede definirse como la tarea de organizar una serie
de documentos web etiquetándolos con sus
un conjunto de categorı́as prefijadas. Aunque se han realizado múltiples estudios para
clasificación de textos, sobre todo en la raISSN 1135-5948
ma de noticias, su aplicación sobre páginas
web está aún por profundizar (Qi y Davison,
2007). En este trabajo se pone el foco en la
clasificación de páginas web enmarcada dentro del paradigma del aprendizaje automático
(Mitchell, 1997).
Los problemas de clasificación se pueden
dividir en diferentes tipos. Por una parte, la
clasificación puede ser binaria, donde únicamente existen dos categorı́as posibles para cada documento, o puede ser multiclase, donde
se dispone de tres o más categorı́as; y por
otra, el sistema de aprendizaje con el que se
alimenta el clasificador puede ser supervisa-
© 2009 Sociedad Española para el Procesamiento del Lenguaje Natural
Arkaitz Zubiaga, Víctor Fresno, Raquel Martínez
do, donde todos los documentos de entrenamiento están previamente etiquetados, o semisupervisado, donde se aprende con una colección de entrenamiento compuesta por algunos documentos etiquetados y muchos no
etiquetados.
En los últimos años, se han aplicado diferentes tipos de algoritmos al problema de la
clasificación de textos (Sebastiani, 2002). Para esta tarea, las máquinas de vectores de soporte (SVM, Support Vector Machines (Joachims, 1998)) se han perfilado como una buena alternativa, que ofrecen, entre otras, las
siguientes ventajas:
se. En la sección 3, se presentan las alternativas propuestas en este trabajo para clasificación semisupervisada multiclase. En la
sección 4, se muestran los detalles de la experimentación realizada, para seguir en la sección 5 con el análisis de los resultados. En la
sección 6, para finalizar, se exponen las conclusiones extraı́das tras el proceso.
2.
Clasificación con SVM
En la última década, SVM se ha convertido en una de las técnicas más utilizadas para
tareas de clasificación, debido a los buenos
resultados que se han obtenido. Esta técnica
se basa en la representación de los documentos en un modelo de espacio vectorial, donde
se asume que los documentos de cada clase
se agrupan en regiones separables del espacio
de representación. En base a ello, trata de
buscar un hiperplano que separe cada clase,
maximizando la distancia entre los documentos y el propio hiperplano, lo que se denomina margen (ver Figura 1). Este hiperplano se
define mediante la siguiente función:
No se requiere una selección o reducción
de términos. En caso de que una clase se
distribuya en áreas separadas del espacio vectorial, será la transformación del
espacio mediante la función de kernel la
que se ocupe de solucionarlo.
No es necesario realizar un esfuerzo de
ajuste de parámetros en el caso de problemas linealmente separables, ya que
dispone de su propio método para ello.
f (x) = w · x + b
Su transformación a aprendizaje semisupervisado se convierte, generalmente, en
un comportamiento transductivo, lo que
posibilita el máximo refinamiento en la
definición del clasificador.
Teniendo en cuenta que la clasificación de
páginas web es, generalmente, un problema
multiclase, y que el número de documentos
etiquetados del que se dispone, comparado
con las dimensiones de la Web, es muy reducido, el problema se convierte de forma natural
en un problema multiclase y semisupervisado. Por ello, y debido a su naturaleza binaria
y supervisada, es necesaria una adaptación
de la técnica SVM clásica. Existen diversos
estudios referentes tanto a SVM multiclase
como a SVM semisupervisado, pero apenas
se ha investigado en la unión de ambos casos. Frente a una aproximación directa, basada en un problema de optimización complejo, este artı́culo propone y evalúa diferentes aproximaciones para la implementación
de un método de SVM multiclase y semisupervisado, basándose en la combinación de
clasificadores.
En la sección 2 se explican los avances obtenidos en los últimos años en la clasificación
mediante SVM, tanto para aprendizaje semisupervisado como para taxonomı́as multicla-
Figura 1: Ejemplo de maximización del margen con SVM, donde la lı́nea más gruesa serı́a
la escogida por el sistema.
La optimización de esta función supondrı́a
tener en cuenta todos los valores posibles para w y b, para después quedarse con aquéllos
que maximicen los márgenes. Esto resulta
muy difı́cil de optimizar, por lo que en la
práctica se utiliza la siguiente función de optimización equivalente (ver Figura 2):
l
X
1
ξid
mı́n ||w||2 + C
2
i=1
Sujeto a: yi (w · xi + b) ≥ 1 − ξi , ξi ≥ 0
64
Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web
Sujeto a:
donde C es el parámetro de penalización
y ξi es la distancia entre el hiperplano y el
documento i.
wyi · xi + byi ≥ wm · xi + bm + 2 − ξim , ξim ≥ 0
Otras técnicas para la aproximación a
SVM multiclase de k clases se han basado
en la combinación de clasificadores binarios
(Hsu y Lin, 2002). Estas técnicas descomponen el problema multiclase en pequeños problemas binarios, aplicando después diferentes
funciones de decisión para unirlos. Las técnicas más conocidas para clasificación mediante combinación de problemas binarios son las
siguientes:
one-against-all descompone un problema multiclase con k clases en otros tantos problemas binarios, en los cuales cada una de clases se enfrenta al resto. Ası́,
se construyen k clasificadores que definen otros tantos hiperplanos que separan la clase i de los k-1 restantes. Como
función de decisión, a cada nuevo documento se le asigna aquella clase sobre la
que su clasificador maximice el margen:
Figura 2: Representación gráfica de la función
de clasificación de SVM.
De esta manera únicamente se resuelven
problemas linealmente separables, por lo que
en muchos casos se requiere de la utilización
de una función de kernel para la redimensión
del espacio. Ası́, el nuevo espacio obtenido resultará linealmente separable. Posteriormente, la redimensión se deshace, de modo que el
hiperplano encontrado será transformado al
espacio original, constituyendo la función de
clasificación.
Es importante destacar que esta función
únicamente puede resolver problemas binarios y de forma supervisada.
2.1.
Ĉi = arg máx (wi x + bi )
i=1,...,k
one-against-one descompone el probleproblemas bima de k clases en k(k−1)
2
narios, donde se crean todos los posibles
enfrentamientos uno a uno entre clases.
Ası́, se obtiene un hiperplano para cada
uno de estos problemas binarios. Posteriormente, se somete cada nuevo documento a todos estos clasificadores, y se
añade un voto a la clase ganadora para cada caso, resultando como clase propuesta la que más votos suma.
SVM multiclase
Debido a la naturaleza dicotómica de
SVM, surgió la necesidad de implementar
nuevos métodos que pudieran resolver problemas multiclase, en los que la taxonomı́a
está compuesta por más de dos clases. Como aproximación directa, (Weston y Watkins, 1999) proponen una modificación de la
función de optimización que tiene en cuenta
todas las clases, generalizando la función de
optimización binaria para el número deseado
k de clases:
mı́n
2.2.
Aprendizaje semisupervisado
para SVM (S3 VM)
Las técnicas de aprendizaje semisupervisado se diferencian en que, además de los documentos previamente etiquetados, se utilizan documentos no etiquetados para la fase
de entrenamiento (Joachims, 1999) (ver Figura 3). Ası́, las predicciones del propio sistema
sobre los documentos no etiquetados sirven,
a su vez, para seguir alimentando el sistema
de aprendizaje.
Las SVM semisupervisadas se conocen
también por sus iniciales S3 VM. En el caso de SVM, su adaptación al aprendizaje semisupervisado supone a priori un gran coste
k
l X
X
1 X
||wm ||2 + C
ξim
2 m=1
i=1 m6=y
i
65
Arkaitz Zubiaga, Víctor Fresno, Raquel Martínez
computacional, ya que la función resultante
no es convexa, por lo que es mucho más complicada la optimización en busca del mı́nimo.
Para relajar el cálculo de esta función se suelen utilizar técnicas de optimización convexa (Xu et al., 2007), donde la obtención del
mı́nimo para la función resultante es mucho
más sencilla. No obstante, casi todo el trabajo existente en la literatura relativa a este
aspecto ha sido para clasificaciones binarias,
por lo que no se ha profundizado en el estudio
sobre su aplicación a entornos multiclase.
mı́n
+C
y
máx{0, 1 − (βj j − βji )}2
j=1 i6=yj
donde β representa el producto entre un
vector de variables y una matriz de kernel
definidas por el autor.
Esta función de optimización, sin embargo, puede resultar muy costosa, debido a la
cantidad de variables que se deben tener en
cuenta en el proceso de minimización de la
misma, lo que hace interesante el problema
de encontrar otros enfoques a S3 VM multiclase.
Por otro lado, algunos trabajos han empleado otros enfoques para la consecución
de una técnica S3 VM multiclase. (Qi et al.,
2004) utilizan Fuzzy C-Means (FCM) para
predecir la clase a la que pertenecen los documentos no etiquetados, tras lo cual utilizan
SVM supervisado para aprender con la nueva colección ampliada, y clasifican el resto de
documentos. (Xu y Schuurmans, 2005) utilizan una aproximación basada en clustering
para la predicción de documentos no etiquetados, para posteriormente entrenar un clasificador SVM. (Chapelle et al., 2006), por último, presentan un método S3 VM multiclase
basado en Continuation Method, y trasladan
las técnicas basadas en combinación de binarios, one-against-all y one-against-one, al
entorno semisupervisado. Aplican estas técnicas sobre colecciones de noticias, para las que
obtienen unos resultados muy bajos. No obstante, estas técnicas nunca han sido trasladadas a la clasificación de páginas web.
Figura 3: SVM vs S3 VM, donde los documentos etiquetados están representados por +/y los no etiquetados por puntos.
2.3.
l X
X
h
1X
T
β i K −1 β i
2 i=1
S3 VM multiclase
En los problemas donde la taxonomı́a dispone de más de dos categorı́as y el número
de documentos previamente etiquetados es
muy pequeño, se precisa la combinación de
las dos caracterı́sticas anteriormente expuestas, lo que supone un método de S3 VM multiclase. Los problemas reales de clasificación
de páginas web suelen cumplir con estas caracterı́sticas, ya que el número de categorı́as
suele ser mayor que dos, y la pequeña colección de documentos etiquetados de la que se
dispone normalmente implica la necesidad de
utilizar documentos no clasificados en la fase
de entrenamiento.
Actualmente, son pocos los trabajos que
se han centrado en la transformación de SVM
a semisupervisado y multiclase. Como aproximación directa, se encuentra la propuesta
de (Yajima y Kuo, 2006), con una técnica
que traslada la función multiclase directa al
entorno semisupervisado. La función de optimización resultante es la siguiente:
3.
Alternativas propuestas para
S3 VM multiclase
Ante la carencia de estudios comparativos sobre métodos de S3 VM multiclase, nuestro objetivo es el de proponer y comparar
diversas técnicas aplicables a este entorno,
basándose en técnicas ya utilizadas para problemas supervisados multiclase y semisupervisados binarios.
En cuanto a la utilización de documentos
no etiquetados en fase de aprendizaje para
SVM, (Joachims, 1998) presenta un estudio
en el que se muestra una gran mejora cuando
éstos son considerados para problemas binarios. No obstante, no se ha evaluado su apor66
Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web
tación en problemas multiclase, cuando las
predicciones sobre un número mayor de clases
pueden aumentar el error de forma considerable, perjudicando ası́ a la fase de aprendizaje.
Realizamos dos tipos de propuestas alternativas a la aproximación directa para S3 VM
multiclase. Por una parte, proponemos la utilización de técnicas ya empleadas en entornos
supervisados, aunque sin un profundo análisis, y basados en la combinación de clasificadores binarios semisupervisados:
ser utilizada tanto para aprendizaje supervisado como para semisupervisado.
En ella se definen 2n−1 − 1 clasificadores, correspondientes a todos los enfrentamientos posibles entre las clases, teniendo en cuenta que todas las clases deben caer en uno u otro lado de la clasificación. Por ejemplo, para un problema
de cuatro clases, se generarán los clasificadores 1 vs 2-3-4, 1-2 vs 3-4, 1-2-3 vs 4,
1-3 vs 2-4, 1-4 vs 2-3, 1-2-4 vs 3 y 1-34 vs 2. Cada nuevo documento recibido
en la fase de clasificación se someterá a
cada uno de los clasificadores generados,
sumando, como voto, el valor del margen obtenido en cada caso para las clases en el lado positivo. Una vez realizado
esto, se procede a la fase de predicción,
en la que se asignará la clase para la que
mayor votación ha obtenido cada documento. Aunque esta aproximación puede ser muy costosa para grandes taxonomı́as, ya que el número de clasificadores aumentarı́a de forma exponencial, se
podrı́a esperar un buen rendimiento para un número reducido de clases.
one-against-all-S3 VM y one-againstone-S3 VM son propuestas basadas en
la combinación de clasificadores binarios
semisupervisados, vistos en la sección
2.1, que aunque se han utilizado en colecciones supervisadas, apenas han sido
aplicadas y estudiadas sobre colecciones
con documentos no etiquetados. Cabe
destacar que el enfoque one-against-oneS3 VM plantea un problema intrı́nseco de
ruido en la fase de entrenamiento con
los documentos no etiquetados, ya que
cada clasificador para un par de categorı́as únicamente debe ser alimentado
por documentos que le correspondan, y
el problema radica en la imposibilidad
de excluir aquellos ejemplos no etiquetados que no deberı́an incluirse (Chapelle
et al., 2006).
4.
Diseño de la experimentación
Para la realización de la experimentación
se ha procedido a la implementación de los
algoritmos descritos en el apartado anterior,
y su ejecución sobre las colecciones de datos
escogidas. Todos los documentos de las colecciones utilizadas están etiquetados, por lo
que cada una de ellas se ha dividido en:
Por otra parte, introducimos dos nuevas
técnicas para el desarrollo de un sistema de
clasificación semisupervisado multiclase basado en SVM:
2-steps-SVM : Hemos denominado ası́ a
la técnica que se basa en la aproximación supervisada multiclase explicada en
la sección 2.1. Este método trabaja, en
el primer paso, sobre la colección de entrenamiento, aprendiendo con los documentos etiquetados y prediciendo los no
etiquetados; a posteriori, se etiquetan estos últimos según las predicciones obtenidas. Como segundo paso, se realiza la
clasificación habitual para este método,
ya que ahora la colección se ha convertido en supervisada, con todos los ejemplos de entrenamiento etiquetados.
una colección de entrenamiento, que sirve para que el clasificador aprenda, en el
que no se considerarán las categorı́as de
algunos documentos, para ası́ tener una
colección semisupervisada,
y otra de test, que sirva para que el sistema cree las predicciones y se pueda evaluar su rendimiento.
A continuación se explican con más detalle las caracterı́sticas de la experimentación
llevada a cabo.
4.1.
all-against-all-S3 VM : Además de las anteriores, en este trabajo se presenta una
nueva propuesta de combinación de clasificadores binarios, que hemos denominado all-against-all-S3 VM, y que podrı́a
Colecciones de datos
Para esta experimentación se han utilizado colecciones de páginas web de referencia,
que ya han sido utilizadas anteriormente para
problemas de clasificación automática:
67
Arkaitz Zubiaga, Víctor Fresno, Raquel Martínez
BankSearch (Sinka y Corne, 2002), compuesta por 10.000 páginas web sobre 10
clases, de muy diversos temas: bancos
comerciales, construcción, agencias aseguradoras, java, C, visual basic, astronomı́a, biologı́a, fútbol y motociclismo.
4.000 ejemplos han sido asignados a la
colección de entrenamiento, y los 6.000
restantes a la de test.
correspondientes métodos para el comportamiento 2-steps-SVM supervisado y las técnicas one-against-all-S3 VM, one-against-oneS3 VM y all-against-all-S3 VM semisupervisadas.
Finalmente, además de los algoritmos comentados, se ha simplificado el algoritmo 2steps-SVM a un solo paso, 1-step-SVM, donde utilizando únicamente un clasificador supervisado multiclase se entrena con los ejemplos etiquetados y se predicen los ejemplos de
test, ignorando por tanto los ejemplos no etiquetados. Este método sirve para evaluar la
aportación de los documentos no etiquetados
en el aprendizaje.
WebKB 1 , formada por 4.518 documentos extraı́dos de 4 sitios universitarios
y clasificados sobre 7 clases (estudiante,
facultad, personal, departamento, curso,
proyecto y miscelanea). La clase miscelanea se ha eliminado de la colección debido a la ambigüedad, resultando 6 categorı́as. De todos los ejemplos que componen la colección, 2.000 se han asignado
al entrenamiento y 2.518 al de test.
4.3.
La medida de evaluación escogida para el
rendimiento de los algoritmos propuestos ha
sido el ”accuracy”, ya que es la que suele utilizarse en el área de la clasificación de textos,
sobre todo cuando el problema a tratar es
multiclase. El ”accuracy” mide el porcentaje de predicciones correctas sobre el total de
documentos testeados.
Se han considerado de la misma manera
los aciertos sobre cualquiera de las clases, sin
que ninguna de ellas tenga una mayor importancia respecto a las demás, por lo que no
existe ponderación alguna en la evaluación.
Yahoo! Science (Tan et al., 2002), que
tiene 788 documentos cientı́ficos, clasificados sobre 6 ámbitos diferentes de la
ciencia (agricultura, biologı́a, ciencias terrestres, matemáticas, quı́mica y otros).
Se han definido 200 documentos para el
entrenamiento, y 588 para el test.
Desde la colección de entrenamiento, para
cada caso, se han creado diferentes versiones,
entre las que varı́a el número de documentos etiquetados, dejando el resto como no etiquetados, pudiendo probar ası́ las diferentes
aproximaciones semisupervisadas.
Para la representación vectorial de los
documentos que componen cada colección,
se han utilizado los valores tf-idf de los
unitérminos encontrados en los textos, excluyendo los de mayor y menor frecuencia. Los
unitérminos resultantes han sido los que han
definido las dimensiones del espacio vectorial.
4.2.
Medidas de evaluación
5.
Análisis de los resultados
En las figuras 4, 5 y 6 se muestran los resultados obtenidos durante la experimentación con las colecciones BankSearch, WebKB
y Yahoo! Science, respectivamente. Estos resultados se presentan en forma de gráfica, en
función del tamaño de la muestra etiquetada.
Para cada una de las muestras se realizaron 9
ejecuciones. El valor que se representa en las
gráficas es la media de todas las ejecuciones
realizadas.
Los resultados obtenidos pueden resumirse en los siguientes puntos:
Implementación de los
métodos
Para la implementación de los diferentes
métodos de clasificación descritos en la sección 3, se requiere un clasificador semisupervisado binario y otro supervisado multiclase,
para después combinarlos. Para el primer caso, se ha escogido SVMlight2 , y para el segundo, su derivado SVMmulticlass. Basándose en
ambos algoritmos, se han implementado los
1
http://www.cs.cmu.edu/afs/cs.cmu.edu/project/theo20/www/data/
2
http://svmlight.joachims.org
68
En todos los casos el mejor comportamiento se obtiene para uno de los algoritmos basados en clasificadores multiclase supervisados, bien sea el 1-step-SVM
o el 2-steps-SVM ; incluso en los casos
con menos documentos etiquetados, estos métodos destacan sobre los basados
en clasificadores semisupervisados binarios.
Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web
Figura 4: Resultados para BankSearch.
Figura 6: Resultados para Yahoo! Science.
colecciones BankSearch y Yahoo! Science, pero notablemente superiores para
WebKB, donde las clases son más homogeneas. En este caso es donde mejor resulta ignorar los documentos no etiquetados, mediante el método 1-step-SVM,
un método más sencillo y menos costoso
computacionalmente que 2-steps-SVM.
Para todas las colecciones, según se aumenta el número de documentos etiquetados, se mantiene el ranking obtenido
por los algoritmos.
6.
Conclusiones
En este trabajo se ha realizado un estudio
comparativo de clasificación multiclase semisupervisada de páginas web mediante SVM.
Se han introducido dos nuevas técnicas para
S3 VM multiclase, que hemos llamado 2-stepsSVM y all-against-all-S3 VM. El primero, 2steps-SVM, ha obtenido los mejores resultados en dos de las tres colecciones. Además,
se han aplicado las técnicas one-against-allS3 VM y one-against-one-S3 VM sobre clasificación semisupervisada, con unos resultados
considerables para la primera, pero inferiores
para la segunda.
Entre los algoritmos que combinan clasificadores binarios, all-against-all-S3 VM ha
demostrado la mayor efectividad, aunque el
gran número de clasificadores a considerar
hace que su coste computacional aumente,
por lo que su mejora en cuanto a eficiencia
resultarı́a un interesante avance.
A su vez, al igual que (Chapelle et al.,
2006) muestran en sus resultados sobre colec-
Figura 5: Resultados para WebKB.
De las tres técnicas semisupervisadas comparadas, destaca la propuesta all-against-all-S3 VM para las colecciones BankSearch y WebKB, ligeramente superior al de one-against-allS3 VM, y muy superior al de one-againstone-S3 VM. Únicamente one-against-allS3 VM, en el caso de la colección Yahoo!
Search, es algo superior a all-against-allS3 VM.
La técnica one-against-one-S3 VM demuestra que el ruido que se habı́a previsto existe, y que, por ello, la calidad
de los resultados obtenidos es baja.
El método 1-step-SVM, que ignora los
documentos no etiquetados para la fase
de aprendizaje, muestra unos resultados
similares a los de 2-steps-SVM para las
69
Arkaitz Zubiaga, Víctor Fresno, Raquel Martínez
ciones de noticias, los resultados sobre páginas web son también bajos, por lo que se confirma la baja efectividad de one-against-allS3 VM y one-against-one-S3 VM para problemas semisupervisados multiclase.
Por otro lado, se ha estudiado la influencia de la no inclusión de documentos no etiquetados en la fase de aprendizaje, aplicada
mediante la técnica 1-step-SVM, y se ha mostrado que en algunas ocasiones puede influir
de forma positiva. Ignorar los documentos no
etiquetados para aprender ha resultado mejor
cuando las clases son más homogéneas. Para
las colecciones más heterogéneas, por otro lado, se han obtenido unos resultados parejos
tanto considerando como ignorando los documentos no etiquetados. Estos resultados hacen pensar que para un problema multiclase
y semisupervisado puede ser más interesante no utilizar datos no etiquetados, ya que
los resultados son similares y el coste computacional es menor.
Por último, los resultados obtenidos en este trabajo complementan el estudio presentado por (Joachims, 1999), donde se muestra la
superioridad de S3 VM respecto a SVM para
problemas binarios. En el caso de un problema multiclase y semisupervisado de páginas
web, la inclusión de documentos no etiquetados para problemas multiclase basados en
SVM no resulta interesante para las colecciones testeadas, ya que una técnica supervisada
obtiene, como mı́nimo, la misma efectividad
para este tipo de entornos.
Como trabajo futuro, quedan por comparar los resultados respecto al algoritmo semisupervisado multiclase nativo.
T. Joachims. 1999. Transductive Inference
for Text Classification Using Support Vector Machines. Proceedings of ICML99,
16th International Conference on Machine Learning.
Bibliografı́a
Z. Xu, R. Jin, J. Zhu, I. King y M. R.
Lyu. 2007. Efficient Convex Optimization
for Transductive Support Vector Machine.
Advances in Neural Information Processing Systems.
T. Mitchell. 1997. Machine Learning. McGraw Hill.
H.-N. Qi, J.-G. Yang, Y.-W. Zhong y C. Deng
2004. Multi-class SVM Based Remote
Sensing Image Classification and its Semisupervised Improvement Scheme. Proceedings of the 3rd ICMLC.
X. Qi y B.D. Davison. 2007. Web Page Classification: Features and Algorithms. Informe Técnico LU-CSE-07-010.
F. Sebastiani. 2002. Machine Learning
in Automated Text Categorization ACM
Computing Surveys, pp. 1-47.
M.P. Sinka y D.W. Corne. 2002. A New Benchmark Dataset for Web Document Clustering. Soft Computing Systems.
C.M. Tan, Y.F. Wang y C.D. Lee. 2002. The
Use of Bigrams to Enhance Text Categorization. Information Processing and Management.
J. Weston y C. Watkins. 1999. Multi-class
Support Vector Machines. Proceedings of
ESAAN, the European Symposium on Artificial Neural Networks.
L. Xu y D. Schuurmans. 2005. Unsupervised and Semi-supervised Multiclass
Support Vector Machines Proceedings of
AAAI’05, the 20th National Conference
on Artificial Intelligence.
O. Chapelle, M. Chi y A. Zien 2006. A
Continuation Method for Semi-supervised
SVMs.
Proceedings of ICML’06, the
23rd International Conference on Machine Learning.
Y. Yajima y T.-F. Kuo.
2006.
Optimization Approaches for Semi-Supervised
Multiclass Classification. Proceedings of
ICDMW’06, the 6th International Conference on Data Mining.
C.-H. Hsu y C.-J. Lin. 2002. A Comparison
of Methods for Multiclass Support Vector
Machines. IEEE Transactions on Neural
Networks.
T. Joachims. 1998. Text Categorization with
Support Vector Machines: Learning with
many Relevant Features. Proceedings of
ECML98, 10th European Conference on
Machine Learning.
70
Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 71-78
recibido 14-01-09, aceptado 02-03-09
Using a Generative Lexicon Resource to Compute Bridging
Anaphora in Italian.∗
Utilización de un recurso de léxico generativo para calcular Anáfora
asociativas en Italiano.
Tommaso Caselli
ILC- CNR and Dip. Linguistica “T.Bolelli”, Università degli Studi di Pisa
Via Moruzzi, 1 56124 Pisa, Italy
[email protected]
Resumen: Este artı́culo presenta un trabajo preliminar sobre el uso de un recurso
léxico basado en la teorı́a del léxico generativo para resolver las anáforas asociativas
en italiano. Los resultados obtenidos, a pesar de no ser demasiado satisfactorios,
parecen respaldar el uso de un recurso de este tipo respecto a los recursos de tipo
WordNet debido al mayor número de anáforas asociativas que puede tratar.
Palabras clave: léxico generativo, resoluccion de anáfora, bridging, anáforas asociativas
Abstract: This article reports on a preliminary work on the use of a Generative
Lexicon based lexical resource to resolve bridging anaphors in Italian. The results
obtained, though not very satisfying, seem to support the use of such a resource with
respect to WordNet-like ones due to the wider range of bridging anaphors which can
be treated.
Keywords: generative lexicon, anaphora resolution, bridging
1
Introduction
Anaphora resolution is essential to capture
the knowledge encoded in text. Bridging
anaphora are a very challenging phenomenon
because they are a “type of indirect textual reference whereby a new referent is introduced as an anaphoric not of but via
the referent of an antecedent expression”
(Kleiber, 1999, 339), as in the following example (bridging NPs are in bold):
(1)
Maria ha comprato una macchina
nuova, ma il motore si è rotto dopo
due giorni.
Maria bought a new car, but the
engine broke down two days later.
Bridging anaphors are constrained to a set
of semantic and pragmatic conditions. The
aim of this paper is to present a preliminary
study on the use of a Generative Lexicon
based lexical resource (SIMPLE) as a source
of these constraints to automatically resolve
this kind of anaphoric definites. In order
to develop the system, we have preliminary
∗
A preliminary version of this work has been presented at the CBA Workshop at the Universitat de
Barcelona, Barcelona, 13-15 November 2008. The author wants to thank the organizers and participants
for the useful comments and discussion.
ISSN 1135-5948
conducted a corpus study on the identification and classification of bridging anaphors in
Italian. The corpus study has been grounded
on a set of theoretical statements describing
the phenomenon of bridging, providing empirical evidences of their validity and also further information on their organization.
The paper is organized as follows: in section 2, we will present the semantic and pragmatic contraints underlying the phenomenon
of bridging anaphora. The corpus study and
its results are illustrated in section 3. We
will then describe how the lexical resource is
structured and what levels of semantic information encoded in it are the most relevant
to accomplish the task of resolving bridging
anaphors in section 4. Finally in section 5, we
will describe the results obtained from the use
of SIMPLE and compare its perfomance with
that of a WordNet-based resource, namely
ItalWordNet, and present our concluding remarks and observations in section 6.
2
Theoretical background
A trend in linguistic theories, which has
counterparts in computational frameworks,
tends to emphasize the idea that Full Definite Noun Phrases (FDNPs henceforth) are
a matter of the global discourse focus, i.e.
© 2009 Sociedad Española para el Procesamiento del Lenguaje Natural
Tommaso Caselli
• use your informational resources as little
as possible (Effort Condition);
they are used to retrieve a referent which is
no longer accessible or to construct a conceptual representation which uniquely identifies
a referent. On the contrary, empirical studies
provided evidence in favor of Sidner (1979)’s
hypothesis that bridging FDNPs are different
from other occurrences of anaphoric FDNPs,
since, in the process of identification of their
antecedents, they are more sensitive to the
local focus. In addition to this, bridging FDNPs trigger an inferential presupposition of
the kind:
the[N 1]R[N 2]
(1)
• make as few assumptions as possible
(Plausibility Condition).
The Effort Condition has to do with the mental capacity the interpreter needs to resort to
in order to construct a “bridge”. In particular, it states that the less time consuming
inference to retrieve the right anchor should
be preferred over the others. The Plausibility
Condition, on the other hand, has to do with
the admissibility of the constructed bridges.
It is a simple consistency condition, with relevance as a side effect. The Plausibility Condition plays a major role in selecting the most
plausible reading among those which passed
the Effort Condition, helping us to determine
the bridge and avoid ambiguity. Obviously,
if the Effort Condition selects only one reading, this is considered the most plausible by
definition.
The inference the hearer has to perform in
order to bridge the gap from what s/he knows
to the intended antecedent, bears on the possible relation(s) between the referent of the
antecedent and the referent of the anaphor.
The existence of such a relation is necessary
for the speaker to create the bridge and for
the hearer to resolve it. Most classifications
of bridging anaphoras are all based on this
idea (Hawkins, 1978) (Sidner, 1979). The
relations that link the anaphor to the antecedent can be of various types, but they
can be reduced to three pragma-cognitive dimensions: a lexical semantic dimension, a cotextual, or textual, dimension and a contextual, or extralinguistic, dimension.
These elements represent the theoretical
background which we have used both in
the corpus-study and in the development of
the automatic procedure to resolve bridging
anaphors. In particular, the identification of
the R relation between the bridging definite
and its anchor has been used to identify the
various classes of bridging anaphors, and the
Effort and Plausibility conditions have been
exploited to restrict the type and number of
NPs which could be identified as anchors.
where N1 represents the FDNP, i.e. the
bridging anaphor, R is the inferential relation
or bridge the interpreter has to perform in order to interpret correctly its occurrence1 , and
N2 is the antecedent or anchor. Applying the
formula in 1 to the example in 1 we obtain
the following paraphrasis “the [engine]N 1 is
a part ofR [a car]N 2 ” which justifies the occurrence of the FDNP.
Kleiber (1999) identifies some semantic restrictions on what kinds of FDNPs can enter
a bridging relation. Drawing on the notion of
functional nouns2 , he identifies two very general, language-independent factors which are
at work in the mechanism of the bridging relation between the referents involved: a condition of alienation and the principle of ontological congruence. A bridging description
can be conceived of as a Functional Concept
of type 2 (FC2), with an implicit argument.
This type of semantic definite NP introduces
the referent by means of the sole sortal predicate N, without semantic subordination to
another individual. In other words, the head
noun looks as semantically autonomous or
alienated.
Next to these semantic restrictions, a couple of pragmatic constraints can be identified.
We propose to use the following pragmatic restrictions on inferencing: an Effort Condition
and a Plausibility Condition as suggested by
Krahmer and Piwek (2000). The two constraints can be represented by the following
maxims:
1
The R relation can be thought as deriving from
Chierchia (1995)’s compositional semantics of FDNPs, according to which “the + N” denotes a noun
N which is related in an anaphorically undetermined
way B to an antecedent u.
2
By functional nouns we intend NPs denoting a
non-ambiguous interpretation, or a functional concept (FC), as proposed by Lobner (1985).
3
Bridging Anaphora in Italian:
a corpus study
In order to verify the realizations of bridging anaphors in Italian, we have conducted
a corpus study on 17 randomly chosen arti72
Using a Generative Lexicon Resource to Compute Bridging Anaphora in Italian
cles from the Italian financial newspaper “il
Sole-24 Ore”, a workpackage of the SI-TAL
Project, the syntactic-semantic Treebank of
Italian (Montemagni et al., 2003).
The texts considered contain a total number of 1412 full definite noun phrases (FDNPs) of the form “definite article + (possessive) + N”, which represent 31.54% of all the
occurrences of FDNPs in the corpus. Each
newspaper article was first read entirely, and
only after it was divided into segments of five
sentence windows which is an arbitrary strategy to give an account of the local focus of
the text i.e. the most probable place to look
for anchors for bridging FDNPs.
In the classification exercise we have used
an operational device such as processing requirements3 since when a FDNP is encountered in a discourse can be reduced to one of
these four cases:
FDNPs Classes
First Mention
Possessives
Direct Anaphora
Bridging
Idiom
Doubt
Total
Figures
833 (58.61%)
36 (2.54%)
170 (12.03%)
299 (21.17%)
25 (1.62%)
49 (3.47%)
1412 (100%)
Table 1: Classes of FDNPs.
thus suggesting that bridging is a more productive cohesive strategy in Italian with respect to other languages, i.e. English (Vieira
and Poesio, 2000).
Five subclasses of bridging anaphors have
been identified, in particular:
• Lexical: (199/299 - 39.79%) those instances of bridging descriptions whose
link with the antecedent is clearly based
on lexical semantics, e.g.: la pistola l’arma (the gun – the weapon);
• it is used to pick up an entity mentioned
before in the text, which, in our experiment, could be either directly or indirectly realized;
• Event: (18/299 - 6.02%) the antecedent
is represented by a verb or a VP; it contains what Clark categorizes as indirect
reference by necessary roles and optional
roles, and Strand’s event-argument relations, e.g.: fece esplodere - le macerie
(exploded – the debris);
• it is not mentioned before, but its interpretation depends on , is based on, or
is related in some way to an entity already present in the discourse (directly
or indirectly realized);
• it is not mentioned before and is not related to any previous mentioned entity,
but it refers to something which is part
of the common shared knowledge of the
writer and reader;
• Rhetorical Relation5 : (27/299 - 9.03%)
it includes bridging anaphors whose antecedent can be identified through discourse relations, e.g.: l’elezione – i componenti (the election – the members);
• it is self-explanatory or it is given together with its own identification.
• Discourse Topic: (26/299 - 8.69%) this
kind of bridging is related on implicit
way to the main discourse topic of a text,
rather than to a specific NP or VP;
These four types of FDNPs use reflect the
classes of Direct Anaphora, Bridging and
First Mention, respectively. The same operational device i.e. processing requirements,
was used for the analysis and classification of
bridging anaphors.
The classification task has led to the identification of 6 main classes of FDNPs (Table
1)4 . One of the main interesting results deriving from the classification in 1 is represented
by the class of Bridging which represents the
63.88% (299/469) of all anaphoric FDNPs,
• Inferential: (109/29 - 36.45%) all cases
of bridging based on complex inferential reasoning which entails use of encyclopedic, background or common shared
knowledge, e.g.: la Cina – Pechino
(China – Bejing).
As the classes show, different sources of
information (lexical, encyclopedic and discourse structure) have important roles for
5
It contains Clark (1997)’s relations of reasons,
causes and consequences, part of Vieira and Poesio (2000)’s inferential bridging and Strand (1997)’s
argument-event.
3
See alsoVieira and Poesio (2000).
4
For detailed figures and comments on the corpus
study readers are referred to Caselli (2007).
73
Tommaso Caselli
the resolution of these kinds of anaphoric relations. The results also suggest a preference
order for the different sources of bridging
anaphora: lexical semantic relations are
preferred over the use of common sense
inferencing and background knowledge i.e.
pragmatics, which is preferred over discourse
structure. Nevertheless, as it emerged from
the corpus study, more than the 45% of the R
relations needed to resolve bridging anaphors
are based on commonsense knowledge (the
Inferential class) and on general discourse
structure (the Rhetorical Relation class).
Different strategies have been proposed
to automatically resolve bridging anaphors.
Most of them rely on the use of lexical
resources like WordNet or WordNet-like.
However, the results obtained are not very
satisfactory for two main reasons: on the
one hand, lexical resources have limits due
to the fact that they represent closed representations of natural language and could
present mistakes and missing information
due to their human-based nature, and, on
the other hand, the theoretical background
behind their construction is unable to deal
with lots of instances of R relations, as we
have called them, which govern the ways in
which bridging anaphors can be retrieved
and inferred by the interpreters.
In this work we propose to use a
lexical resource as well, namely PAROLE/SIMPLE/CLIPS (henceforth SIMPLE) (Ruimy et al., 2003), but the novelty
of our proposal does not rely in the use of
a lexical resource per sè, but in the use of a
resource grounded on a robust lexical theory
like that of Generative Lexicon (Pustejovsky,
1995). Generative Lexicon, and its developments, represents a device to model and deal
both with classical lexical semantic relations,
like merological relations, synonymy and
others, and also with encyclopedic knowledge
and even some kinds of discourse relations.
The use of this lexical theory to retrieve the
R relation responsible for the building of the
bridge between the anaphoric element and
its anchor will broaden the view of bridging
anaphora resolution as a general problem
of how much of background knowledge
can be coded as part of the meaning of
linguistic constituents. In the next sections,
after having introduced SIMPLE, we will
present the results of the performance of
a semi-authomatic algorithm for resolving
bridging anaphors which uses SIMPLE as its
knowledge base.
4
SIMPLE: a Generative Lexicon
Resource for Italian
The SIMPLE lexicon6 is a four-layered7 computational lexicon developed under two EUsponsored project (PAROLE and SIMPLE)
and extended under the Italian government
founded project CLIPS. It represents the
largest computational lexical knowledge base
of Italian language, containing over 45 thousand lemmas and more that 57 thousand
word senses, or semantic units.
At the semantic layer of information, lexical units are structured in terms of a semantic
type system and are characterized and interconnected by means of a rich set of semantic
features and relations. Combining both topdown and bottom-up approaches, the SIMPLE ontology has been elaborated in such a
way as to permit an exhaustive characterization of different levels of complexity of lexical
meanings.
The SIMPLE type system reflects the
G.L. assumption that lexical items are multidimensional entities which present various
degrees of internal complexity and thus call
for a lexical semantic description able to account for different ranges of meaning components. Accordingly, a semantic type is not
simply a label to be associated to a word
meaning, it is rather the repository of a structured set of semantic information. Therefore,
the membership of a word sense in a semantic
type inherently triggers the instantiation of a
rich bundle of semantic features and relations
that represent the type-defining information
that intrinsically characterizes the ontological type.
The core of the SIMPLE semantic relations rely on the Qualia Structure, which is
one of the four representational level proposed by the G.L. framework. Qualia structure consists of four roles (Agentive, Telic,
Formal and Constitutive) encoding the multifaceted nature of word meaning. Qualia relations enable capturing orthogonal relations
existing between semantic units, regardless
of their ontological classification. Querying
the whole set of semantic relations in which
a single keyword is involved throughout the
6
http://www.ilc.cnr.it/clips/CLIPS ENGLISH.htm
Phonological, morphological, syntactic and semantic levels.
7
74
Using a Generative Lexicon Resource to Compute Bridging Anaphora in Italian
(7)
lexicon allows retrieving and extracting a set
of semantic units belonging to different semantic types forming a semantic network.
Moreover, qualia relations enable to establish a connection between a word sense and
a number of events or entities strictly related to its meaning and to define the role
of those events/entities in the lexical semantics of the word itself. In SIMPLE a revision of the original qualia structure was undertaken which led to the design of the Extended Qualia Structure whereby each of the
four roles subsumes a set of semantic relations. Sixty extended qualia relations were
therefore created, which allow to model the
componential aspect of a word’s meaning and
to structure its relationships to other lexical
units, on both the paradigmatic and syntagmatic axes.
However, the semantic relations are not
exhausted by the (extended) qualia structure. Each semantic unit has three more relations such as synonymy, derivation, which
allows a further type of connection between
lexical items, and regular polisemy.
4.1
The use of a G.L. approach allows us to
claim that the R relations to resolve these
cases of bridging are already encoded in the
meanings of the lexical items themselves.
Thus, for instance, in 3, the fact that a trial
involves a convicted is formalized by exploiting a qualia relation between the two words,
namely the constitutive “member of ”. In 7,
the fact that if there is a vote, then there
is an election (cause/consequence), can be
formalized by exploiting the extended telic
quale “purpose”. Moreover, bridging relations which take as anchor a verb (examples
4, 5 and 6) could as well be resolved by exploiting the extended qualia in SIMPLE. For
instance, in 5, the FDNP the debris can be
resolved by exploiting the extended agentive
quale “result of”. It is quite trivial to remark
that bridging relations classified as Lexical
can be easily resolved as well by means of the
qualia structure, including both classical lexical semantic relations and more fine-grained
ones, like the one illustrated in 8, where the
R relation can be expressed by the telic quale
“is the activity of ”:
Exploiting qualia relations to
resolve bridging anaphors
The core of our proposal is based on the idea
that the qualia relations encoded in SIMPLE
can be used to represent the R relations between a bridging element and its antecedent.
To illustrate how to exploit qualia consider
the examples from 2 to 7, all extracted from
our corpus, which can only be resolved by
making use of non-classical semantic relations; the anchor is in italics, the bridging
element in bold and, in capital letters, the
processing requirements (i.e. the R relations)
needed to resolve the anaphoric link:
(2)
(8)
l’attentato - i terroristi [the attack
- the terrorists]; LEXICAL
Before presenting the experimental data,
another remark is necessary. The use of
SIMPLE qualia relations has the further advantage of making explicit also what is the
semantic relation which connects the bridging element to its antecedent, thus overcoming the shortcomings of machine learning approaches like Market, Nissim, and Modjeska
(2003), which remain silent on this issue, i.e.
do not specify what is the relation between
the bridging anaphor and its antecedent.
i prezzi – al consumatore [the
prices – the customer]; INFERENTIAL
(3)
il processo – gli imputati [the trial
– the convicted]; INFERENTIAL
(4)
essersi sparato – il suicidio [to
shoot himself – the suicide];
EVENT
(5)
fatto esplodere – le macerie [exploded – the debris]; EVENT
(6)
condannare – il pubblico ministero [to condemn – the attorney];
EVENT
il voto – l’elezione [the vote – the
election] RHET. RELATION
5
Preliminary Experiments and
Evaluation
To evaluate the reliability of the resource we
have conducted an experiment on a subset8 of
129 bridging anaphors from our corpus. We
have developed a semi-automatic procedure
to query the resource. The workflow is the
following: we manually provided to the system both the bridging anaphor and its an8
All bridging relations which involved either as anchors or anaphoric elements named entities have been
eliminated (144/299 - 48.16%), as well as those for the
Discourse Topic class.
75
Tommaso Caselli
tecedent. The system, then, looks for a semantic relation between the two, either by
looking for a direct connection between the
two words, i.e. semantic units, or by looking for a common semantic type between the
two entities. If more than a semantic relation
between the two words is identified, the one
with the shortest lexical distance (i.e. the
one with the shortest semantic path) is selected. In case that more than a semantic
relations with same lexical distance between
the anaphor and the anchor is identify, both
relations are considered as valid. This choice
is a device to reflect the fact that even human
beings when resolving bridging anaphors may
agree on the anchor, but disagree on the type
of relation, i.e. allow more than one relation.
The maximum number of arcs allowed has
been set to two. This is due to the fact that
a wider range would result into inappropriate
relations since the two semantic units may be
linked at a very abstract level.
In order to verify our claim that a
G.L. based resource should perform better in resolving bridging anaphors respect
to WordNet-like ones, we have performed a
compartive evaluation (by applying the same
procedure) using ItalWordNet (IWN). In Table 2 we report the overall results of the two
resources in terms of matching an existing semantic relation for the 129 couples of bridging anaphors and anchor, which corresponds
to the number of possible bridging anaphors
which could be resolved using these resources.
The results are not very good, since only 22
Lexical Resource
SIMPLE
IWN
be retrieved by using IWN, only 11 of them
cannot be identified by SIMPLE and this is
due to missing information in the resource (5
over 11 couples cannot be identified because
the proper semantic relations have not been
introduced by the compilers of the resource)
and not to theoretical shortcomings of the resource itself. Moreover, 13 of the 22 relations
identified by using SIMPLE are completely
out of reach for IWN, since they correspond
to extended qualia.
Going into the details of the various subclasses of bridging relations the results are
quite encouraging. What emerges is that
the two resources can be thought as being
specialized for the identification of particular subclasses of bridging anaphors. As the
data in Table 3 show there is a relative high
competition only for the subclass of Lexical
bridging. The relative high performance of
IWN in Inferential subclass is attributable to
an extension of its original semantic relations
as proposed by the EuroWordNet Project, of
which IWN is a part. However, it is interesting to notice that all 5 Inferential bridging
retrieved with IWN are identified by SIMPLE as well. The same observations hold for
the class of Event as well. Finally, it is interesting to point out the fact that the subclasses of Rhetorical Relation and Inferential
in SIMPLE are mainly resolved by two types
of qualia (and their extensions) that is Constitutive and Telic.
Subclass
Lexical
Inferential
Rhet. Relation
Event
Bridging
22 (17.05%)
19 (14.72%)
SIMPLE
11 (50%)
7 (31.82%)
2 (9.09%)
2 (9.09%)
IWN
12 (63.2%)
5 (26.31%)
0 (0%)
2 (10.52%)
Table 3: Subclasses of bridging matched.
Table 2: Numbers of correctly matched
bridging anaphors.
6
couples of anchor-bridging anaphor can be resolved by using SIMPLE, a figure which is not
so bigger than those which can be resolved by
using IWN. The very low results are essentially due to (unexpected) missing relations
and lexical entries in the SIMPLE resource.
The low values for IWN are due to the absence of the necessary semantic relations, as
expected and in compliance with its theoretical background. It is also interesting to notice that of the 19 correct relations which can
Conclusion
The approach we have proposed is still a
work-in progress and more refinements are
needed. Of course a large-scale evaluation
is compelling in order to provide further evidences of our proposal and a better evaluation of the SIMPLE lexicon. However, we
would like to point out and emphasize some
interesting aspects of this proposal:
• the use of a G.L. based resource can be
seen as a way of reducing the influence
76
Using a Generative Lexicon Resource to Compute Bridging Anaphora in Italian
of being specialized in restricted sets of lexical relations. This could result in better resources with less mistakes and missing information and easier to be integrated in NLP
algorithms.
of extralinguistic knowledge;
• bridging can be used as a way of discovering semantic relations among linguistic
entities and can be used to improve both
the creation and maintenance of linguistic resources like SIMPLE. In particular,
G.L. pattern induction from a corpusbased study can improve the resource by
adding missing relations;
References
Caselli, T. 2007. An annotation scheme for
bridging anaphors and its evaluation. In
Andrea Sansò, editor, Language Resources
and Linguistic Theory, volume 59 of Materiali Linguistici. Franco Angeli, Milano,
pages 149–166.
• the problem of bridging anaphora resolution becomes part of a more general
problem of identification of semantic relations between linguistic elements;
Chierchia, G. 1995. Dynamics of Meaning:
anaphora, presuppositions and the Theory
of Grammar. University of Chicago Press,
Chicago.
• a resource with G.L. qualia relations encoded in it should not be compared with
a world-knowledge database or similar
(effort expensive and difficult) resources.
G.L.-based relations are dynamic, in the
sense that they allow to discover new
relations between lexical items and can
provide an account for the creative use
of language;
Clark, H. 1997. Bridging. In P.N. JohnsonLaird and P.C. Wason, editors, Thinking:
Readings in Cognitive Science. Cambridge
University Press, Cambridge and London.
Hawkins, J.A. 1978. Definiteness and Indefiniteness. Croom Helm, London.
• qualia relations can represent new features for machine learning approaches;
considering an annotation task for
anaphora resolution, it would be very
useful to introduce a new attribute
which expresses the qualia relation between the anchor and the anaphoric element, thus providing information to
a learner to resolve also difficult (i.e.
non strictly lexical) cases of bridging
anaphors.
Kleiber, G. 1999. Associative anaphora and
part-whole relationship: the condition of
alienation and the principle of ontological congruence. Journal of Pragmatics,
31:339–362.
Krahmer, E. and P. Piwek. 2000. Varieties
of Anaphora. Course Notes, ESSLLI00,
Birmingham, August 11-23.
Lobner, S. 1985. Definites. Journal of Semantics, 4:297–326.
The results obtained are not very satisfying
and seem to support criticisms to the use of
lexical resources in tasks of anaphora resolutions. We agree on some of this criticism, but
we would like to point out that the resolution
of bridging anaphors is not a trivial task and
the use of lexical resources like SIMPLE can
represent a useful strategy for the development of robust algorithms for anaphora resolutions. As for SIMPLE an extended work
of revision and correction of the various mistakes and missing elements is compelling in
order to be used reliably. A further point
which emerges from this work is represented
by the observation that SIMPLE and IWN
are not competitive resources, i.e. one being
the extension of the other, but more complementary ones. The final proposal we suggest is a call for a new generation of lexical resources. Resources whose scope is that
Market, K., M. Nissim, and N. Modjeska. 2003. Using the Web for nominal anaphora resolution. In EACL Workshop on the Computational Treatment of
Anaphora.
Montemagni, S., F. Barsotti, M. Battista,
N. Calzolari, O. Corazzari, A. Lenci,
V. Pirelli, A. Zampolli, F. Fanciulli,
M. Massetani, R. Raffaelli, R. Basili,
M. T. Pazienza, D. Saracino, F. Zanzotto,
N. Mana, F. Pianesi, and R. Delmonte.
2003. The syntactic-semantic Treebank of
Italian. An Overview. Linguistica Computazionale, Computational Linguistics in
Pisa, special Issue, XVI-XVII:461–493.
Pustejovsky, J. 1995. The Generative Lexicon. MIT Press, Cambridge, MA, USA.
77
Tommaso Caselli
Ruimy, N., M. Monachini, E. Gola,
A. Spanu, N. Calzolari, M.C. Del
Fiorentino, M. Ulivieri, and S. Rossi.
2003. A computational semantic lexicon
of Italian: SIMPLE. Linguistica Computazionale, Computational Linguistics in
Pisa, special Issue, XVI-XVII:821–864.
Sidner, C.L. 1979. Towards a computational
theory of definite anaphora comprehension
in English discourse. Ph.D. thesis, MIT.
Strand, K. 1997. A taxonomy of Linking
Relations. Manuscript.
Vieira, R. and M. Poesio.
2000.
An
Empirically-Based System for Processing FDNPs. Computational Linguistics,
26(4):539–593.
78
Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 79-86
recibido 14-01-09, aceptado 02-03-09
Una Representación Basada en Lógica Borrosa para el
Clustering de páginas web con Mapas Auto-Organizativos
A fuzzy logic-based representation for web page clustering using
self-organizing maps
Alberto P. Garcı́a-Plaza, Vı́ctor Fresno, Raquel Martı́nez
NLP & IR Group
Universidad Nacional de Educación a Distancia
C/Juan del Rosal, 16, E-28040 Madrid
{alpgarcia, vfresno, raquel}@lsi.uned.es
Resumen: En este trabajo se evalúa un modelo de representación de páginas
web para clustering de documentos por medio de mapas autoorganizativos (SOM).
Esta representación pretende reproducir o modelar en una primera aproximación
la forma en que una persona observa una página web con la intención de saber
si su contenido es o no de su interés. Para ello se aplican diferentes heurı́sticas por
medio de una combinación borrosa de criterios. Los experimentos muestran un mejor
comportamiento del modelo propuesto respecto a representaciones clásicas como TF,
Bin-IDF y TF-IDF, para diferentes dimensiones del vector de representación, y sobre
una colección de referencia.
Palabras clave: Clustering, Mapas autoorganizativos, Lógica borrosa, MAO, SOM
Abstract: This article evaluates a web page-oriented representation model for
document clustering, using self-organizing maps. The representation is based
on heuristic combinations of criteria by means of a fuzzy rules system. The
experiments show an improvement in the proposed model behaviour versus
traditional representations as TF, Bin-IDF and TF-IDF, with different vector
dimensions, and using a reference collection.
Keywords: Clustering, Self-organizing maps, Fuzzy, SOM
1.
Introducción
2002).
A medida que aumenta el número de
páginas web en Internet, crece la necesidad
de dotar de cierta organización los contenidos
disponibles. Ası́, agrupar documentos con
contenidos similares puede ser muy útil, no
sólo para facilitar el acceso a la información,
sino también para clasificar o representar
dicha información, permitiendo su visualización, e incluso la navegación a través de ella.
Entre los diferentes algoritmos de clustering que han sido aplicados a este problema, en este trabajo nos centramos en
los mapas autoorganizativos (Self-Organizing
Map, SOM) (Kohonen, 1990), ya que han
demostrado ser una buena forma no sólo de
organizar la información, sino también de
visualizarla, e incluso de realizar búsquedas
orientadas a contenido en grandes colecciones
documentales (Vesanto y Alhoniemi, 2000),
(Russell, Yin, y Allinson, 2002), (Dittenbach,
Merkl, y Rauber, 2000), (Perelomov et al.,
ISSN 1135-5948
El sistema WEBSOM, desarrollado por
el grupo de Teuvo Kohonen en la Helsinki
University of Technology (Kohonen et al.,
2000) fue el primero en utilizar un SOM
para organizar, visualizar y navegar a través
de una gran colección de documentos, en
concreto resúmenes de patentes, aunque este
sistema también ha sido aplicado a otros
tipos de documentos con contenido textual
como news o resúmenes de artı́culos cientı́ficos (Lagus, 1998).
El presente trabajo se apoya en la hipótesis de que una mejora en la representación
de los documentos supondrá un aumento de
la calidad de estos mapas. Se propone la
aplicación de un modelo de representación
de páginas web que aprovecha caracterı́sticas propias de los documentos HTML para
tratar de mejorar la calidad de los mapas en
problemas de clasificación automática. Nuestra representación combina, mediante lógica
© 2009 Sociedad Española para el Procesamiento del Lenguaje Natural
Alberto P. García-Plaza, Víctor Fresno, Raquel Martínez
dificarse. Las neuronas están conectadas con
sus vecinas mediante una relación de vecindario que impone la propia estructura del
SOM. El tamaño del vecindario disminuirá a
lo largo del entrenamiento; esa es la clave de
la autoorganización. La función de actualización de pesos del mapa tiene la forma:
borrosa, criterios heurı́sticos que aprovechan
la semántica inherente a algunas etiquetas
HTML, ası́ como a la posición del término
dentro del texto. La idea fundamental es
tratar de reproducir la manera en que una
persona lee las partes que considera más representativas de una página web para obtener
una visión general de su contenido y ası́ poder
concluir si esa página puede o no interesarle.
Existen varias diferencias entre nuestro
enfoque y el presentado en WEBSOM.
En primer lugar nuestra representación
está orientada a páginas web. Además,
asumimos que todo el proceso de
representación de documentos será no
supervisado; algo que no siempre se asume
en los modelos que utilizan SOMs para el
agrupamiento de documentos.
Este artı́culo se estructura como sigue: en
el apartado 2 se resumirá de forma básica
el proceso de creación de un SOM; en el
apartado 3 se revisan algunos modelos de
representación de documentos aplicados al
SOM; en el 4 se describe el modelo propuesto, basado en lógica borrosa; en el 5
se explica la experimentación llevada a cabo
para, posteriormente, analizar los resultados
en el apartado 6. Finalmente se exponen las
conclusiones en el apartado 7.
2.
mi (t + 1) = mi (t) + hci (t) [x(t) − mi (t)] (1)
donde t es el instante de tiempo discreto correspondiente a una iteración del algoritmo,
x(t) es el vector de entrada en la iteración t y
hci es la región de influencia que el vector de
entrada tiene sobre el SOM, también llamado
núcleo de vecindad. Esta función es la que
define la “rigidez” de la “red élástica” del
SOM en el espacio de los datos((Kohonen et
al., 1996)).
La función que define el núcleo de vecindad hci puele ser de tipo gaussiano (2), como
en nuestro caso, y se expresa como:
||rc − ri ||2
hci = α(t) · exp −
2σ 2 (t)
!
(2)
lo que hará que la modificación de valores
disminuya con la distancia en el vecindario,
siendo σ(t) la función que define este radio
de vecindario, que se va reduciendo después
de cada iteración t. En los mapas bidimensionales las neuronas pueden ordenarse en un
retı́culo rectangular o hexagonal, con lo que
cada neurona tendrá 6 u 8 vecinos respectivamente. En nuestro caso se utilizó un mapa
rectangular.
La modificación de pesos depende también
de la distancia entre una neurona ni y la
ganadora nc (siendo rc y ri las posiciones de
las neuronas en el grid) y tiende a cero según
aumenta ésta. La tasa de aprendizaje α(t) es
una función monótona decreciente respecto al
tiempo t en el rango [0,1] (0 < α(t) < 1). En
otras palabras, tiende a cero a medida que se
van procesando los vectores del conjunto de
entrenamiento.
De este modo, una vez entrenado el mapa,
después de un número fijo de iteraciones o
cuando se cumpla la condición de parada
establecida, ya se pueden introducir vectores
clasificados manualmente que permiten etiquetar las zonas del mapa correspondientes.
Por tanto, y a modo de resumen, los
tres pasos fundamentales en la creación de
un SOM son: inicialización, entrenamiento
y calibración. Una vez etiquetado, un SOM
Mapas autoorganizativos
Los mapas autoorganizativos de Kohonen son estructuras neuronales que utilizan
aprendizaje competitivo para tratar de generar una relación espacial-topológica entre
los vectores que caracterizan sus neuronas, a
partir de un entrenamiento y en función de
los vectores de entrada.
En este tipo de aprendizaje las neuronas
compiten entre si, activándose sólo una de
ellas ante la presencia de un patrón o estı́mulo
de entrada. El objetivo es, a partir de un proceso iterativo de comparación con la colección
de datos de entrada, agrupar estos datos en
base a su similitud. Para ello se presentan al
mapa vectores de entrada de igual dimensión
que la de sus vectores caracterı́sticos.
Para la creación de un SOM lo primero
que ha de hacerse es inicializar la red, definiendo el número de neuronas y su topologı́a,
e inicializando el vector de pesos de cada neurona, algo que puede realizarse simplemente
de forma aleatoria.
La neurona ganadora establecerá el conjunto de neuronas cuyos vectores deben mo80
Una Representación Basada en Lógica Borrosa para el Clustering de páginas web con Mapas Auto-Organizativos
la representación, sino que va más allá al
proponer un nuevo modelo, lo que se aleja
de nuestra propuesta, que ataca el problema
desde el punto de vista de la representación
de los documentos y no pretende modificar el
algoritmo utilizado para agruparlos.
puede usarse como un clasificador que asigna
a cada vector de entrada la categorı́a con
la que se haya etiquetado la neurona que se
active en cada caso.
3.
Representación de documentos
En la literatura pueden encontrarse diversas propuestas para la representación de
documentos en sistemas basados en SOMs,
destinados al clustering, la clasificación o la
visualización de grandes colecciones. Algunas
de estas propuestas serán analizadas a lo
largo de este apartado. Además, se describirá la representación que proponemos y que
queremos evaluar.
3.1.
3.2.
Fuzzy Combination of
Criteria (FCC)
La lógica borrosa se basa principalmente
en la aplicación de heurı́sticas con el objeto
de resolver la ambigüedad inherente a procesos de razonamiento cualitativo, permitiendo
establecer cierta relación entre los factores
observados. Profundizando un poco más, podemos decir que mediante la lógica borrosa se
tratan de modelar relaciones entre variables
que, en nuestro caso, se definirán a partir de
las frecuencias de aparición de los términos en
determinados elementos HTML. Esto la convierte en un entorno adecuado para capturar
el conocimiento experto humano.
La pieza básica sobre la que se construye
todo sistema borroso es la llamada variable
lingüı́stica, cuyo valor puede venir dado por
palabras del lenguaje natural y se define
por medio de conjuntos borrosos (Zadeh,
1965), cuyos lı́mites son imprecisos. Con estos
conjuntos se permite describir el grado de
pertenencia de un objeto a una determinada
clase y se definen a partir de conocimiento
experto.
La arquitectura básica de un sistema de
inferencia borroso se compone de tres etapas
de procesamiento: borrosificación de entradas, aplicación de las reglas de inferencia que
constituyen la base de conocimiento del sistema, y desborrosificación, que permite obtener
el valor final. La base de conocimiento se define mediante un conjunto de reglas IF-THEN
que describirán, a partir del conocimiento
experto, el comportamiento que deberı́a tener
el sistema con la máxima precisión posible; es
decir, reflejan, junto con la propia definición
de las variables lingüisticas y los conjuntos
borrosos, el conocimiento heurı́stico que se
tiene sobre el problema. La finalidad de
estas reglas es la combinación de uno o
varios conjuntos borrosos de entrada, llamados antecedentes, asociándolos a un conjunto
borroso de salida, llamado consecuente. Una
vez obtenidos los consecuentes de cada regla,
y tras una etapa de agregación, se obtiene un
conjunto agregado final, que será la entrada
para la etapa de desborrosificación, donde
Trabajos relacionados
En el sistema WEBSOM, la representación de los documentos se realiza dentro del
modelo de espacio vectorial (Salton, Wong,
y Yang, 1975). De este modo, la entrada es
un conjunto de vectores de representación
de documentos donde cada dimensión representa el peso de un término en el contenido
del mismo. Este peso se puede calcular, bien
de forma sencilla en base al número de
ocurrencias del término en el documento, por
ejemplo usando la frecuencia inversa de documento, o bien, si existe información sobre
las categorı́as de los documentos, utilizando
la entropı́a de Shannon sobre el conjunto de
clases de documentos, para lo que se utiliza la información de clasificación. Además,
las distintas aproximaciones al problema se
han basado en documentos textuales, mientras la que aquı́ se presenta está orientada
especificamente a páginas web en formato
HTML, aunque serı́a fácilmente aplicable
a documentos XML con vocabularios con
semántica relacionada con la documentación
electrónica, como es el caso de docbook.
En (Bakus, Hussin, y Kamel, 2002) la
representación utilizada se basa en sintagmas
en lugar de palabras para formar los vectores
de representación, utilizando dichos sintagmas como unidades de entrada para las funciones de pesado tradicionales: Binaria, TF y
TF-IDF. Por otro lado, el modelo ConSOM
(Liu, Wang, y Wu, 2008) usa dos vectores
en lugar de uno para representar tanto los
documentos de entrada, como las neuronas
del mapa, con el objetivo de combinar el
espacio vectorial con lo que denominan espacio conceptual. Esto supone una modificación
en el SOM, por lo que no sólo afecta a
81
Alberto P. García-Plaza, Víctor Fresno, Raquel Martínez
se hace corresponder el conjunto borroso de
salida con un punto concreto, llamado salida
nı́tida o “crisp”.
En nuestra propuesta para la representación de documentos asumimos que no usaremos ningún tipo de información de clasificación previa que pudiera existir. Esta información sólo se utilizará para la evaluación
de los resultados, ya que como veremos más
adelante, para llevar a cabo la comparación
entre las distintas representaciones, fijaremos
el tamaño del mapa en función del número
de clústers que queremos obtener y que se
corresponderá con el número de clases a las
que pertenecen los documentos de entrada.
Las variables lingüı́sticas que usaremos
como entrada del sistema serán la frecuencia
del término en el documento, en el tı́tulo
(contenido en el elemento title), en los enfatizados (contenidos en los elementos em,
h1, b, etc.) y la posición global del término
dentro de la página. Las frecuencias son
normalizadas con el mayor valor encontrado
para cada criterio, con el objetivo de independizar las reglas del tamaño del documento
y del tamaño de los textos presentes en
cada criterio. La posición global se calcula
mediante un sistema borroso auxiliar, que
tomando como entrada las posiciones en las
que aparece el término dentro del documento,
devuelve la posición global por medio de dos
conjuntos borrosos: estándar y preferente.
Las figuras 1 y 2 muestran los conjuntos
borrosos empleados.
Figura 2: Sistema borroso auxiliar para el
cálculo del valor global de la posición
Una palabra que aparece en el tı́tulo
puede que no siempre sea relevante (el
tı́tulo podrı́a haber sido generado, por
ejemplo, por un editor de HTML), o bien
podrı́a tener una componente retórica.
Generalmente, la posición es un criterio
que da más peso en páginas largas que
en cortas.
Una palabra con alta frecuencia de aparición en una página podrı́a tener un
significado muy general, y por lo tanto,
no discriminante.
Figura 3: Conjuntos borrosos para definir la
relevancia del término
Los conjuntos completos de reglas tanto
del sistema borroso auxiliar como del global
se muestran en los cuadros 1 y 2
Figura 1: Reglas basadas en frecuencia de
aparición
IF
IF
IF
La salida del sistema borroso es una única
variable lingüı́stica denominada relevancia,
cuyos valores pueden ser: no relevante, poco
relevante, medianamente relevante, bastante
relevante y muy relevante. Los conjuntos
borrosos definidos para esta variable pueden
verse en la figura 3. Las reglas utilizadas se
han basado en los siguientes aspectos:
posición relativa
introducción
cuerpo
conclusión
THEN
THEN
THEN
posición global
preferente
estándar
preferente
Cuadro 1: Conjunto de reglas del sistema
borroso auxiliar
Por último, el motor de inferencia está basado en el algoritmo de centro de masas, que
evalúa la salida de cada regla en función del
grado de verdad de cada antecedente.Una explicación detallada del sistema borroso puede
encontrarse en (Fresno, 2006).
Una página web puede no tener palabras
enfatizadas.
82
Una Representación Basada en Lógica Borrosa para el Clustering de páginas web con Mapas Auto-Organizativos
Tı́tulo
IF
IF
IF
IF
IF
IF
IF
IF
IF
IF
IF
IF
IF
IF
IF
IF
IF
IF
IF
IF
IF
IF
IF
IF
IF
IF
IF
IF
IF
IF
IF
Alto
Alto
Alto
Alto
Alto
Alto
Bajo
Bajo
Bajo
Alto
Alto
Alto
Alto
Alto
Alto
Bajo
Bajo
Bajo
Bajo
Bajo
Bajo
Bajo
Bajo
Bajo
Bajo
Bajo
Bajo
Bajo
Bajo
Alto
Alto
Frecuencia
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
Alta
Media
Media
Alta
Baja
Baja
Baja
Alta
Alta
Baja
Baja
Baja
Baja
Alta
Alta
Baja
Baja
Baja
Baja
Media
Media
Media
Media
Media
Media
Alta
Alta
Alta
Alta
Media
Media
Enfatizado
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
Alto
Alto
Medio
Medio
Bajo
Bajo
Bajo
Alto
Alto
Medio
Medio
Alto
Alto
Bajo
Bajo
Medio
Medio
Alto
Alto
Bajo
Bajo
Medio
Medio
Alto
Alto
Bajo
Bajo
Medio
Medio
Bajo
Bajo
Posición
AND
AND
Preferente
Estándar
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
AND
Preferente
Estándar
Preferente
Estándar
Preferente
Estándar
Preferente
Estándar
Preferente
Estándar
Preferente
Estándar
Preferente
Estándar
Preferente
Estándar
Preferente
Estándar
Preferente
Estándar
Preferente
Estándar
Preferente
Estándar
Relevancia
THEN
THEN
THEN
THEN
THEN
THEN
THEN
THEN
THEN
THEN
THEN
THEN
THEN
THEN
THEN
THEN
THEN
THEN
THEN
THEN
THEN
THEN
THEN
THEN
THEN
THEN
THEN
THEN
THEN
THEN
THEN
Muy Alta
Muy Alta
Alta
Muy Alta
Media
Poca
Nada
Muy Alta
Alta
Alta
Media
Muy Alta
Alta
Muy Alta
Alta
Media
Poca
Alta
Media
Poca
Nada
Media
Poca
Muy Alta
Alta
Media
Poca
Alta
Media
Media
Poca
Cuadro 2: Conjunto de reglas del sistema borroso global
4.
Experimentación
Antes de extraer la información necesaria para la entrada del sistema borroso,
se eliminaron un conjunto de términos de
una lista de stopwords compuesta por 621
términos en inglés, se convirtieron las entidades particulares del lenguaje HTML, se
eliminaron los signos de puntuación y se
utilizó el algoritmo de Porter para hacer
stemming de las palabras.
Los pasos seguidos para realizar la experimentación se describen a continuación.
4.1.
Colección
Para la experimentación se ha utilizado la
colección Banksearch (Sinka y Corne, 2005),
en concreto un subconjunto de 10 clases etiquetadas como: Commercial banks, Building
societies, Insurance agencies, Java, C/C++,
Visual Basic, Astronomy, Biology, Soccer y
Motor sport. Cada una de estas clases consta
de 1000 páginas web en formato HTML,
haciendo un total de 10000 documentos. De
estos, algunos fueron descartados por problemas con el parser HTML utilizado, ya que
algunos documentos no estaban bien formados o, incluso, la página estaba incompleta
por problemas en su descarga durante la
creación de la colección. Finalmente, tras los
descartes, 9897 documentos fueron usados en
los experimentos.
4.2.
Detalles del SOM
El tamaño del SOM utilizado en la experimentación es 5x2, haciendo un total de 10
neuronas, con el objetivo de que exista una
única neurona por cada clase. Este hecho supone un pequeño grado de supervisión, pero
ésta no se aplica a la fase de representación,
sino al proceso posterior de clustering, ya
que fijamos el k. Los vectores de entrada
fueron reducidos a varios tamaños entre 100
y 5000 con la intención de evaluar el comportamiento de las diferentes representaciones
83
Alberto P. García-Plaza, Víctor Fresno, Raquel Martínez
en un rango de dimensiones. De este modo
podremos ver si el comportamiento empeora
al representar con un número reducido de
rasgos y, además, averiguar con que dimensiones podemos encontrar un equilibrio entre
la calidad de la representación y el coste
computacional. Este aspecto adquiere gran
importancia en tareas como el clustering
que generalmente conllevan un alto coste
computacional.
Durante el entrenamiento del mapa, la
tasa de aprendizaje inicial se fijo en 0,1,
el vecindario inicial en 5 y el número de
iteraciones en 50000. Todos estos datos se
eligieron después de la realización de diversas
pruebas, por ser aquellos con los que se
obtuvieron unos resultados de clustering y
calidad del mapa más satisfactorios. El resto
de información acerca del mapa coincide con
la utilizada en la implementación SOMlib
(Dittenbach, Merkl, y Rauber, 2000), distribuı́do como proyecto de software libre1 .
Dicha librerı́a, escrita en lenguaje Java, ha
sido la utilizada para la creación del SOM.
4.3.
documento o en la colección, por lo que no
tiene sentido reducir usando únicamente
la frecuencia de documentos. Dado que la
representación pondera cada término y le
asigna un valor que indica su relevancia,
eliminar los términos menos relevantes
consistirı́a sólo en eliminar aquellos con
las puntuaciones de pesado más bajas,
o bien quedarnos con los que tengan las
puntuaciones más altas. Por otra parte,
queremos que, de alguna forma, cada
documento se vea reflejado en el vocabulario
final y valorar positivamente que un término
aparezca bien puntuado en diferentes
documentos.
Por todo lo anterior, la reducción que
se presenta en este estudio, llamada M F Tn
(More Frequent Terms) consiste en la extracción de los términos más puntuados por
niveles, es decir, por cada documento se hace
un ranking de sus términos más representativos, es decir, los que tienen mayor peso
dentro del documento, y se van tomando
secuencialmente los términos que aparecen
en primera posición, después en segunda,
etc. hasta que se cubren las dimensiones
requeridas. A medida que se extraen los
términos de un nivel, se ordenan en una
lista global por frecuencia, esto es, se colocan
primero aquellos que han aparecido en un
mayor número de documentos. Entre aquellos que resultan empatados tras la primera
ordenación, se utiliza la relevancia para determinar su posición. Al final de cada nivel
se comprueba si se tienen suficientes términos
para el tamaño de vocabulario solicitado y si
es ası́, se toman, ordenadamente, los términos
necesarios de la lista global.
Reducción del número de
rasgos
Para la comparación usamos tres funciones de pesado de términos diferentes: TF,
Bin-IDF y TF-IDF. Cada vector debe contener una entrada por cada término del vocabulario, es decir, por cada término que aparezca
en la colección, lo que da lugar a vectores con
gran número de dimensiones. Esto supone
un problema en lo que a rendimiento se
refiere. Para paliarlo, se utilizan distintos
tipos de reducciones que permiten utilizar un
número menor de dimensiones sin perder la
información esencial.
En todos los casos se probaron tanto
la reducción por frecuencia de documentos,
como la proyección aleatoria (Kaski, 1998)
con cinco unos distribuı́dos aleatoriamente
en cada columna de la matriz de proyección.
Esta reducción tiene la ventaja de reducir el
coste computacional. En este último caso se
ha añadido al preproceso descrito en el apartado 4.1, la eliminación de los términos que
aparecı́an en la colección con una frecuencia
global de menos de 50, tal como se indica en
Kohonen et al. (2000).
En nuestro caso, la relevancia de un
término no depende únicamente de la
frecuencia de aparición del término en un
1
Además de esta reducción, se han realizado experimentos con otras basadas sólo
en el valor de la relevancia, tomándolo por
niveles o de forma global, combinando otros
métodos como la reducción por frecuencia
de documentos o la proyección aleatoria.
No obstante los mejores resultados fueron
obtenidos utilizando la reducción M F Tn y
ası́, por claridad y brevedad, los resultados
obtenidos con el resto de reducciones han
quedado fuera de este artı́culo.
Finalmente, para validar la función de
pesado FCC, hemos aplicado también la reducción M F Tn a TF, Bin-IDF y TF-IDF, con
el objetivo de verificar que la mejora no venga
dada únicamente por la reducción.
http://www.ifs.tuwien.ac.at/ andi/somlib/
84
Una Representación Basada en Lógica Borrosa para el Clustering de páginas web con Mapas Auto-Organizativos
4.4.
Métodos de evaluación
5.
En las figuras 4 y 5 se muestran los
resultados para la tasa de aciertos y la medida F obtenidos en los diferentes casos.
Cabe destacar que cada uno de los resultados presentados en ellas corresponde a la
media de cinco ejecuciones diferentes con
los mismos parámetros. El motivo para ello
es la inicialización aleatoria del mapa, que
provocará que cada ejecución del proceso
concluya con resultados diferentes, y aunque
por la convergencia del mapa serán bastante
similares, se han querido evitar los valores
demasiado buenos o demasiado malos.
Se puede apreciar cómo FCC supera a
las funciones tradicionales que, a medida que
aumenta el número de rasgos, se aproximan
a los resultados de nuestra propuesta a la vez
que sus resultados se estabilizan. Además, si
se selecciona un número excesivo de rasgos
(a partir de 1000 aproximadamente en las
figuras 4 y 5), se introducirán sucesivamente
términos poco relevantes, pudiendo introducir ruido y afectando a los resultados.
Para evaluar el clustering, una vez entrenado el SOM, se mapea toda la colección sobre él, de forma que cada documento
quedará asociado a la neurona del mapa a
la que más se asemeje. Después se etiqueta
cada neurona eligiendo para ello la clase
predominante en función de los vectores que
activaron dicha neurona, es decir, se utiliza
como etiqueta la clase a la que pertenecen el
mayor porcentaje de documentos mapeados
en la neurona. Todos los documentos que hayan activado esa neurona durante el proceso
de mapeo y no pertenezcan a la clase que
etiqueta dicha neurona, son contados como
errores.
Utilizaremos dos medidas para evaluar los
resultados. La primera es la tasa de aciertos
(accuracy), es decir, el porcentaje de documentos que activan una neurona etiquetada
con su misma clase. Esta medida y la forma
de llevarla a cabo ha sido basada en Kohonen et al. (2000): “[...] each document was
mapped onto one of the grid points of each
map, and all documents that represented a
minority class at any grid point were counted
as classification errors.”
El segundo método elegido es la medida
F, véase la fórmula 3, siendo i la clase y j el
cluster. El recall y la precisión vienen dados
por las fórmulas 4 y 5.
F (i, j) =
Análisis de resultados
2 · Recall(i, j) · P recision(i, j)
Recall(i, j) + P recision(i, j)
(3)
Recall(i, j) =
nij
nj
P recision(i, j) =
nij
ni
(4)
Figura 4: Tasa de aciertos para diferentes
dimensiones de los vectores de documentos
(5)
En ambos casos con un número de rasgos
pequeño, en concreto por debajo de 2000, la
representación propuesta obtiene los mejores
resultados tanto en tasa de aciertos como en
calidad del clustering, o al menos resultados
tan buenos como cuando se utilizan 2000 o
más rasgos por documento. Asimismo, las
funciones basadas en la frecuencia (TF y TFIDF) se muestran mucho más estables con la
reducción M F Tn , es decir, que con dimensiones reducidas sus resultados no disminuyen
drásticamente, situándose al nivel de FCC
con el mı́nimo número de rasgos elegido,
Siendo nij es el número de documentos etiquetados con la clase i en el cluster j, ni
el número de documentos etiquetados con la
clase i, nj el número de documentos en el
cluster j y n el número total de documentos. Para todos los clusters, la medida F se
calcula según la fórmula 6. Un mayor valor
de esta medida indica una mayor calidad del
clustering.
F =
X ni
i
n
· máx{F (i, j)}
j
(6)
85
Alberto P. García-Plaza, Víctor Fresno, Raquel Martínez
phrases. En ICONIP ’02.
Dittenbach, Michael, Dieter Merkl, y Andreas Rauber.
2000.
The growing
hierarchical self-organizing map. IJCNN.
Fresno, Victor.
2006.
Representacion
autocontenida de documentos HTML: una
propuesta basada en combinaciones heuristicas de criterios. Ph.D. tesis.
Kaski, S. 1998. Dimensionality reduction by
random mapping: fast similarity computation for clustering. En Neural Networks
Proceedings, 1998.
Kohonen, T. 1990. The self-organizing map.
Proceedings of the IEEE, 78(9):1464–1480.
Figura 5: Medida F para diferentes dimensiones de los vectores de documentos
Kohonen, T., J. Hynninen, J. Kangas, y
J. Laaksonen. 1996. Som pak: The selforganizing map program package.
aunque posteriormente su mejora es menor
que la obtenida por FCC. En resumen, la
representación propuesta funciona mejor que
las clásicas y con pocos rasgos está más cerca
de sus propios máximos.
6.
Kohonen, T., S. Kaski, K. Lagus, J. Salojarvi,
J. Honkela, V. Paatero, y A. Saarela.
2000.
Self organization of a massive
document collection. Neural Networks,
IEEE Transactions on.
Conclusiones
Lagus, Krista. 1998. Generalizability of the
websom method to document collections
of various types.
A lo largo del presente trabajo se ha
descrito un método de representación basado
en lógica borrosa, de forma que se trata de
recoger parte de la semántica implı́cita en el
lenguaje HTML, con el objetivo de realizar
clustering de documentos basado en mapas
autoorganizativos. Los experimentos realizados han demostrado que la representación
propuesta mejora el agrupamiento por medio de SOM respecto a las representaciones
clásicas basadas únicamente en la frecuencia
de los términos.
Cabe destacar que la representación basada en lógica borrosa mejora no sólo los valores
máximos obtenidos por las representaciones
clásicas, sino que con el mı́nimo número
de rasgos probado, esto es 100 rasgos para
representar cada documento, está prácticamente al nivel de los máximos de las clásicas.
Esto permite la obtención de los mismos
resultados con un vocabulario menor, lo que
reduce notablemente el tamaño de los datos
de entrada del SOM y de los vectores de pesos
de sus neuronas, teniendo como principal
efecto una reducción importante en el tiempo
de computo necesario.
Liu, Yuanchao, Xiaolong Wang, y Chong
Wu. 2008. Consom: A conceptional selforganizing map model for text clustering.
Neurocomput.
Perelomov, Ivan, Arnulfo P. Azcarraga,
Jonathan Tan, y Tat Seng Chua. 2002.
Using structured self-organizing maps in
news integration websites.
Russell, Ben, Hujun Yin, y Nigel M. Allinson.
2002. Document clustering using the 1
+ 1 dimensional self-organising map. En
IDEAL ’02.
Salton, G., A. Wong, y C. S. Yang. 1975.
A vector space model for automatic
indexing. Commun. ACM.
Sinka, Mark P. y David W. Corne. 2005.
The banksearch web document dataset:
investigating unsupervised clustering and
category similarity. J. Netw. Comput.
Appl.
Vesanto, J. y E. Alhoniemi. 2000. Clustering
of the self-organizing map. IEEE-NN,
11(3):586, May.
Bibliografı́a
Zadeh, L. A. 1965. Fuzzy sets. Information
and control.
Bakus, J., M.F. Hussin, y M. Kamel. 2002.
A som-based document clustering using
86
Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 87-96
recibido 15-01-09, aceptado 02-03-09
Global joint models for coreference resolution and named entity
classification
Modelos juntos globales para la resolución de la correferencia y de la
clasificación de las entidades nombradas
Pascal Denis
Alpage Project-Team
INRIA and Université Paris 7
30, rue Château des Rentiers
75013 Paris, FRANCE
[email protected]
Jason Baldridge
Department of Linguistics
University of Texas at Austin
1 University Station B5100
Austin, TX 78712-0198 USA
[email protected]
Resumen: En este artı́culo, combinamos modelos de correferencia, anaforicidad
y clasificación de las entidades nombradas, como un problema de inferencia junta
global utilizando la Programación Lineal Entera (ilp). Nuestras restricciones garantizan: (i) la coherencia entre las decisiones finales de los tres modelos locales, y (ii)
la transitividad de las decisiones de correferencia. Este enfoque proporciona mejoras
significativas en el f -score sobre los corpora ace con las tres métricas de evaluación
principales para la correferencia: muc, b3 , y ceaf. A través de ejemplos, modelos
de oráculo y nuestros resultados, se muestra también que es fundamental utilizar estas tres métricas y, en particular, que no se puede confiar únicamente en la métrica
muc.
Palabras clave: Resolución de la correferencia, entidades nombradas, aprendizaje
automático, Programación Lineal Entera (ILP)
Abstract: In this paper, we combine models for coreference, anaphoricity and
named entity classification as a joint, global inference problem using Integer Linear
Programming (ilp). Our constraints ensure: (i) coherence between the final decisions of the three local models, and (ii) transitivity of multiple coreference decisions.
This approach provides significant f -score improvements on the ace datasets for
all three main coreference metrics: muc, b3 , and ceaf. Through examples, oracle
models, and our results, we also show that it is fundamental to use all three of these
metrics, and in particular, to never rely solely on the muc metric.
Keywords: Coreference Resolution, Named Entities, Machine Learning, Integer
Linear Programming (ILP)
1
Introduction
Coreference resolution involves imposing a
partition on a set of mentions in a text; each
partition corresponds to some entity in a discourse model. Early machine learning approaches for the task which rely on local,
discriminative pairwise classifiers (Soon, Ng,
and Lim, 2001; Ng and Cardie, 2002b; Morton, 2000; Kehler et al., 2004) made considerable progress in creating robust coreference
systems, but their performance still left much
room for improvement. This stems from two
main deficiencies:
• Decision locality. Decisions are made
independently of others; a separate clustering step forms chains from pairwise
ISSN 1135-5948
classifications. But, coreference clearly
should be conditioned on properties of
an entity as a whole.
• Knowledge bottlenecks.
Coreference involves many different factors, e.g.,
morphosyntax, discourse structure and
reasoning. Yet most systems rely on
small sets of shallow features. Accurately predicting such information and
using it to constrain coreference is difficult, so its potential benefits often go
unrealized due to error propagation.
More recent work has sought to address
these limitations.
For example, to address decision locality, McCallum and Wellner (2004) use conditional random fields with
© 2009 Sociedad Española para el Procesamiento del Lenguaje Natural
Pascal Denis, Jason Baldridge
model structures in which pairwise decisions
influence others. Denis (2007) and Klenner
(2007) use integer linear programming (ilp)
to perform global inference via transitivity
constraints between different coreference decisions.1 Haghighi and Klein (2007) provide
a fully generative model that combines global
properties of entities across documents with
local attentional states. Denis and Baldridge
(2008) use a ranker to compare antecedents
for an anaphor simultaneously rather than
in the standard pairwise manner. To address the knowledge bottleneck problem, Denis and Baldridge (2007) use ilp for joint
inference using a pairwise coreference model
and a model for determining the anaphoricity of mentions. Also, Denis and Baldridge
(2008) and Bengston and Roth (2008) use
models and features, respectively, that attend to particular types of mentions (e.g.,
full noun phrases versus pronouns). Furthermore, Bengston and Roth (2008) use a wider
range of features than are normally considered, and in particular use predicted features
for later classifiers, to considerably boost performance.
In this paper, we use ilp to extend the
joint formulation of Denis and Baldridge
(2007) using named entity classification and
combine it with the transitivity constraints
(Denis, 2007; Klenner, 2007). Intuitively, we
only should identify antecedents for the mentions which are likely to have one (Ng and
Cardie, 2002a), and we should only make a
set of mentions coreferent if they are all instances of the same entity type (eg, person
or location). ilp enables such constraints
to be declared between the outputs of independent classifiers to ensure coherent assignments are made. It also leads to global inference via both constraints on named entity
types and transitivity constraints since both
relate multiple pairwise decisions.
We show that this strategy leads to improvements across the three main metrics
proposed for coreference: the muc metric
(Vilain et al., 1995), the b3 metric (Bagga
and Baldwin, 1998), and ceaf metric (Luo,
2005). In addition, we contextualize the performance of our system with respect to cascades of multiple models and oracle systems
that assume perfect information (e.g. about
entity types). We furthermore demonstrate
the inadequacy of using only the muc metric and argue that results should always be
given for all three. We include a simple composite of the three metrics, called mela, for
Mention, Entity, and Link Average score.2
2
Data and evaluation
We use the ACE corpus (Phase 2) for training and testing. The corpus has three parts:
npaper, nwire, and bnews, and each set is
split into a train part and a devtest part.
The corpus text was preprocessed with the
OpenNLP Toolkit3 (i.e., a sentence detector,
a tokenizer, and a POS tagger). In our experiments, we consider only true ACE mentions instead of detecting them; our focus is
on evaluating pairwise local approaches versus the global ilp approach rather than on
building a full coreference resolution system.
Three primary metrics have been proposed for evaluating coreference performance: (i) the link based muc metric (Vilain et al., 1995), (ii) the mention based b3
metric (Bagga and Baldwin, 1998), and (iii)
the entity based ceaf metric (Luo, 2005).
All these metrics compare the set of chains S
produced by a system against the true chains
T , and report performance in terms of recall
and precision. They however differ in how
they computes these scores, and each embeds
a different bias.
The muc metric is the oldest and still
most commonly used. muc operates by determining the number of links (i.e., pairs of
mentions) that are common to S and T . Recall is the number of common links divided
by the total number of links in the T ; precision is the number of common links divided
by the total number of links in S. By focusing
on the links, this metric has two main biases,
which are now well-known (Bagga and Baldwin, 1998; Luo, 2005) but merit re-emphasis
due its continued use as the sole evaluation
measure. First, it favors systems that create
large chains (hence, fewer entities). For instance, a system that produces a single chain
achieves 100% recall without severe degradation in precision. Second, it ignores recall for
single mention entities, since no link can be
found in these; however, putting such mentions in the wrong chain does hurt precision.4
2
Interestingly, mela means “gathering” in Sanskrit, so this acronym seems appropriate.
3
Available from opennlp.sf.net.
4
It is worth noting that the muc corpus for which
1
These were independent, simultaneous developments.
88
Global joint models for coreference resolution and named entity classification
T = {m1 , m3 , m5 }, {m2 }, {m4 , m6 , m7 }
S 1 = {m1 , m2 , m3 , m6 }, {m4 , m5 , m7 }
S 2 = {m1 , m2 , m3 , m4 , m5 , m6 , m7 }
S1
S2
Figure 1: Two competiting partitionings for
mention set {m1 , m2 , m3 , m4 , m5 , m6 , m7 }.
muc
R
P
F
.50 .40 .44
1.0 .66 .79
R
.62
1.0
b3
P
.45
.39
F
.52
.56
ceaf
F
.57
.43
Table 1: Recall (R), precision (P), and f score (F) using muc, b3 , and ceaf for partitionings of Figure 1
The b3 metric addresses the muc metric’s
shortcomings, by computing recall and precision scores for each mention m. Let S be
the system chain containing m, T be the true
chain containing m. The set of correct elements in S is thus |S ∩ T |. The recall score
|
for a mention m is thus computed as |S∩T
|T | ,
The bias of the muc metric for large chains
is shown by the fact that it gives better recall
and precision scores for S 2 even though this
partition is completely uninformative. More
intuitively, b3 highly penalizes the precision
of this partition: precision errors are here
computed for each mention. ceaf is the
harshest on S 2 , and in fact is the only metric
that prefers S 1 over S 2 .
muc is known for being an applicable metric when one is only interested in precision
on pairwise links (Bagga and Baldwin, 1998).
Given that much recent work —including the
present paper— seeks to move beyond simple pairwise coreference and produce good
entities, it is crucial that they are scored
on the other metrics as well as muc. Most
tellingly, our results show that both b3 and
ceaf scores can show degradation even when
muc appears to show an improvement.
|
while the precision score for m is |S∩T
|S| . Overall recall/precision is obtained by averaging
over the individual mention scores. The fact
that this metric is mention-based by definition solves the problem of single mention entities. It also does not favor larger chains,
since they will be penalized in the precision
score of each mention.
The Constrained Entity Aligned FMeasure5 (ceaf) aligns each system chain S
with at most one true chain T . It finds the
best one-to-one mapping between the set of
chains S and T , which is equivalent to finding
the optimal alignment in a bipartite graph.
The best mapping is that which maximizes
the similarity over pairs of chains (Si , Ti ),
where the similarity of two chains is the number of common mentions between them. For
ceaf, recall is the total similarity divided by
the number of mentions in all the T , while
precision is the total similarity divided by
the number of mentions in S. Note that
when true mentions are used, ceaf assigns
the same recall and precision: this is because
the two systems partition the same set of
mentions.
A simple example illustrating how the
metrics operate is presented in Figure 1 (see
Luo (2005) for more examples). T is the set
of true chains, S 1 and S 2 are the partitions
produced by two hypothetical resolvers. Recall, precision, and f -score for these metrics
are given in Table 1.
3
Base models
Here we define the three base classifiers
for pairwise coreference, anaphoricity, and
named entity classification. They form the
basis for several cascades and joint inference
with ilp. Like Kehler et al. (2004) and Morton (2000), we estimate the parameters of
all models using maximum entropy (Berger,
Pietra, and Pietra, 1996); specifically, we
use the limited memory variable metric algorithm (Malouf, 2002).6 Gaussian priors for
the models were optimized on development
data.
3.1
The coreference classifier
Our coreference classifier is based on that
of Soon, Ng, and Lim (2001), though the
features have been extended and are similar
(though not equivalent) to those used by Ng
and Cardie (2002a). Features fall into 3 categories: (i) features of the anaphor, (ii) features of antecedent mention, and (iii) pairwise features (i.e., such as distance between
the metric was devised does not annotate single mention entities. However, the ACE corpus does include
such entities.
5
We use the mention-based ceaf measure (Luo,
2005). This is the same metric as ECM-F (Luo et al.,
2004) used by Klenner (2007).
6
This algorithm is implemented in Toolkit for Advanced Discriminative Modeling (tadm.sf.net).
89
Pascal Denis, Jason Baldridge
3.2
the two mentions). We omit details here for
brevity (details on the different feature sets
can be found in Denis (2007)); the ilp approach could be equally well applied to models using other, extended feature sets such
as those discussed in Denis and Baldridge
(2008) and Bengston and Roth (2008).
Using the coreference classifier on its own
involves: (i) estimating PC (coref|hi, ji), the
probability of having a coreferential outcome given a pair of mentions hi, ji, and
(ii) applying a selection algorithm that picks
one or more mentions out of the candidates
for which PC (coref|hi, ji) surpasses a given
threshold (here, .5).
exp(
PC (coref|hi, ji) =
n
P
λk fk (hi, ji, coref))
k=1
Z(hi, ji)
where fk (i, j) is the number of times feature
k occurs for i and j, λk is the weight assigned
to feature k during training, and Z(hi, ji) is
a normalization factor over both outcomes
(coref and ¬coref).
Training instances are constructed based
on pairs of mentions of the form hi, ji, where
j and i describe an anaphor and an antecedent candidate, respectively. Each such
pair is assigned a label, either coref or
¬coref, depending on whether or not the
two mentions corefer. We followed the sampling method of Soon, Ng, and Lim (2001)
for creating the training material for each
anaphor: (i) a positive instance for the pair
hi, ji where i is the closest antecedent for j,
and (ii) a negative instance for each pair hi, ki
where k intervenes between i and j.
Once trained, the classifier can be used
to choose pairwise coreference links–and thus
determine the partition of entities–in two
ways. The first is to pick a unique antecedent
with closest-first link-clustering (Soon, Ng,
and Lim, 2001); this is the standard strategy, referred to as COREFclosest . The second
is to simply take all links with probability
above .5, which we refer to as COREFabove .5 .
The purpose of including this latter strategy
is primarily to demonstrate an easy way to
improve muc scores that actually degrades
b3 and ceaf scores. This strategy indeed
results in positing significantly larger chains,
since each anaphor is allowed to link to several antecedents.
The anaphoricity classifier
Ng and Cardie (2002a) introduced the use of
an anaphoricity classifier to act as a filter for
coreference resolution to correct errors where
non-anaphoric mentions are mistakenly resolved or where anaphoric mentions failed to
be resolved. Their approach produces improvements in precision, but larger losses in
recall. Ng (2004) improves recall by optimizing the anaphoricity threshold. By using joint inference for anaphoricity and coreference, Denis and Baldridge (2007) avoid
cascade-induced errors without the need to
separately optimize the threshold. They realize gains in both recall and precision; however, they report only muc scores. As we will
show, these improvements do not hold for b3
and ceaf.
The task for the anaphoricity determination component is the following: one wants
to decide for each mention i in a document
whether i is anaphoric or not. This task can
be performed using a simple classifier with
two outcomes: anaph and ¬anaph. The
classifier estimates the conditional probabilities P (anaph|i) and predicts anaph for i
when P (anaph|i) > .5. The anaphoricity
model is as follows:
exp(
PA (anaph|i) =
n
P
λk fk (i, anaph))
k=1
Z(i)
The features used for the anaphoricity
classifier are quite simple. They include information regarding (i) the mention itself,
such as the number of words and whether it is
a pronoun, and (ii) properties of the potential
antecedent set, such as whether there is a previous mention with a matching string. This
classifier achieves 80.8% on the entire ace
corpus (bnews: 80.1, npaper: 82.2, nwire:
80.1).
3.3
The named entity classifier
Named entity classification involves predicting one of the five ACE class labels.
The set of named entity types T are:
facility, gpe (geo-political entity), location,
organization, person. The classifier estimates the conditional probabilities P (t|i)
for each t∈T and predicts the named entity type b
t for mention i such that b
t =
argmaxt∈T P (t|i).
90
Global joint models for coreference resolution and named entity classification
exp(
PE (t|i) =
n
P
almost identical. Given the nature of the
two strategies COREFclosest and COREFabove .5 ,
these differences across metrics strongly support arguments that muc is too indiscriminate and can in fact be gamed (knowingly or
not) by simply creating larger chains.
Table 2 also shows that cascades in general
fail to produce significant F improvements
over the pairwise model COREFclosest . These
systems are far behind the performance of
their corresponding oracles. This tendency is
even stronger when both classifiers filter possible assignments: CASCADEa,e→c does much
worse than COREFclosest on all metrics. In
fact, this system has the lowest F on the
b3 evaluation metric, suggesting that the errors of the two filters accumulate in this case.
In contrast, the corresponding oracle, ORACLEa,e,c , achieves the best results across all
measures. It does so by capitalizing on the
improvements given by the separate oracles.
Furthermore, note that the use of the two
auxiliary models have complementary effects
on the muc and b3 metrics, in both the cascade and the oracle systems. Thus, the use
of the anaphoricity classifier improves recall
(suggesting that some true anaphors get “rescued” by this model), while the the use of
the named entity model leads to precision improvements (suggesting that this model manages to filter out incorrect candidates that
would have been chosen by the coreference
model). In the case of the oracle systems,
these gains translate in overall F improvements. But, as noted, this is generally not
the case with the cascade systems. Only CASCADEa→c shows significant gains with muc
and ceaf (and not with b3 ). CASCADEe→c
underperforms in all three metrics. This latter system indeed shows a large drop in recall,
suggesting that this model filter is overzealous in filtering true antecedents.
The oracle results suggest that joint modeling could deliver large performance gains
by not falling prey to cascade errors. In the
next section, we build on previous ilp formulations and show such improvements can
indeed be realized.
λk fk (i, t))
k=1
Z(i)
The features for this model include: (i)
the string of the mention, (ii) features defined
over the string (e.g., capitalization, punctuations, head word), (iii) features describing
the word and POS context around the mention. The classifier achieves 79.5% on the
entire ace corpus (bnews: 79.8, npaper:
73.0, nwire: 72.7).
4
Base model results
This section describes coreference performance when the pairwise coreference classifier is used alone with closest-first clustering
(COREFclosest ) or with the liberal all-linksabove-.5 clustering (COREFabove .5 ), or when
COREFclosest is constrained by the anaphoricity and named entity classifiers as filters in
a cascade or by gold-standard information as
filters in oracle systems. The cascades are:
• CASCADEa→c : the anaphoricity classifier
specificies which mentions to resolve
• CASCADEe→c : the named entity classifier specifies which antecedents have the
same type as the mention to be resolved;
others are excluded from consideration
• CASCADEa,e→c : the two classifiers acting
as combined filters
We also provide results for the corresponding oracle systems which have perfect knowledge about anaphoricity and/or named entity types: ORACLEa,c , ORACLEe,c , and ORACLEa,e,c .
Table 2 summarizes the results in terms
of recall (R), precision (P), and f -score (F)
on the three coreference metrics: muc, b3 ,
and ceaf. The first thing to note is the contrast between COREFclosest and COREFabove .5 .
Recall that the only difference between the
two clustering strategies is that the latter creates strictly larger entities than the former by
adding all links above .5. By doing so, it gains
about 10% in R for both muc and b3 . However, whereas muc does not register a drop in
precision, b3 P is 14% lower, which produces
an overall 1% drop in F. ceaf punishes this
strategy even more, with a 3.6% drop. Note
that the resulting composite mela scores are
5
Integer programming
formulations
ilp is an optimization framework for global
inference over the outputs of various base
classifiers (Roth and Yih, 2004). Previous
uses of ilp for nlp tasks include eg. Roth
91
Pascal Denis, Jason Baldridge
System
COREFclosest
COREFabove .5
CASCADEa→c
CASCADEe→c
CASCADEa,e→c
ORACLEa,c
ORACLEe,c
ORACLEa,e,c
R
60.8
70.3
64.9
56.3
61.3
75.6
62.5
83.2
b3
muc
P
F
72.6 66.2
72.7 71.5
72.3 68.4
75.2 64.4
68.8 64.8
75.6 75.6
81.3 70.7
83.2 83.2
R
62.4
73.2
65.6
59.6
62.5
71.4
62.9
79.0
P
77.7
63.7
74.1
82.4
73.8
70.7
85.5
78.2
F
69.2
68.1
69.6
69.2
67.7
71.1
72.4
78.6
ceaf
R/P/F
62.3
58.7
63.4
61.6
61.9
71.5
65.2
78.7
mela
F-avg
65.9
66.1
67.1
65.1
64.8
72.7
69.4
80.2
Table 2: Recall (R), precision (P), and f -score (F) using muc, b3 , and ceaf on the entire
ace corpus for the basic coreference system, the cascade systems, and the corresponding oracle
systems.
and Yih (2004), Barzilay and Lapata (2006),
and Clarke and Lapata (2006). Here, we provide several ilp formulations for coreference.
The first formulation ILPc,a is based on Denis and Baldridge (2007) and performs joint
inference over the coreference classifier and
the anaphoricity classifier. A second formulation ILPc,e combines the coreference classifier with the named entity classifier. A third
formulation ILPc,a,e combines all three models together. In each of these joint formulation, a set of consistency constraints mutually constrain the ultimate assignments of
each model. Finally, a fourth formulation
ILPc,a,e|trans adds to ILPc,a,e a set of transitivity constraints (similar to those of Klenner (2007)). These latter constraints ensure
better global coherence between the various
pairwise coreference decisions, hence making
this fourth formulation both a joint and a
global model.
For solving the ilp problem, we use
cplex, a commercial lp solver.7 In practice,
each document is processed to define a distinct ilp problem that is then submitted to
the solver.
5.1
Each model introduces a set of indicator variables: (i) coreference variables hi, ji ∈ 0, 1
depending on whether i and j corefer or
not, and (ii) anaphoricity variables xhi,ji ∈
0, 1 depending on whether j is anaphoric
or not. These variables are associated with
assignment costs that are derived from the
model probabilities pC = PC (coref|i, j)
and pA = PA (anaph|j), respectively. The
cost of commiting to a coreference link is
cC
hi,ji = −log(pC ) and the complement cost
of choosing not to establish a link is cC
hi,ji =
−log(1−pC ). Analogously, we define costs on
anaphoricity decisions as cA
j = −log(pA ) and
A
cj = −log(1−pA ), the costs associated with
making j anaphoric or not, respectively. The
resulting objective function takes the following form:
X
C
min
cC
hi,ji · xhi,ji + chi,ji · (1−xhi,ji )
hi,ji∈P
+
A
cA
j · yj + cj · (1−yj )
j∈M
subject to:
ILPc,a : anaphoricity-coreference
formulation
xhi,ji ∈ {0, 1}
∀hi, ji ∈ P
yj ∈ {0, 1}
∀j ∈ M
The final assignments of xhi,ji and yj variables are forced to respect the following two
consistency constraints (where Mj is the set
of all mentions preceding mention j in the
document):
Resolve all anaphors: if a mention is
anaphoric (yj =1), it must have at least one
antecedent.
X
yj ≤
xhi,ji
∀j ∈ M
The ILPc,a system of Denis and Baldridge
(2007) brings the two decisions of coreference and anaphoricity together by including
both in a single objective function and enforcing consistency constraints on the final
outputs of both tasks. More technically, let
first M denotes the set of mentions, and P
the set of possible coreference links over M:
P = {hi, ji|hi, ji ∈ M × M and i < j}.
7
X
i∈Mj
http://www.ilog.com/products/cplex/
92
Global joint models for coreference resolution and named entity classification
Resolve only anaphors: if a pair of mentions hi, ji is coreferent (xhi,ji =1), then j is
anaphoric (yj =1).
xhi,ji ≤ yj
These constraints above make sure that the
coreference decisions (the x values) are informed by the named entity classifier and
vice versa. Furthermore, because these constraints ensure like assignments to coreferent
pairs of mentions, they have a “propagating”
effect that makes the overall system global.
Coreference assignments that have low cost
(i.e., high confidence) can influence named
entity assignments (e.g., from a org to a
per). This in turn influences other coreference assignments involving further mentions
radiating out from one core, highly likely assignment.
∀hi, ji ∈ P
These constraints make sure that the
anaphoricity classifier are not taken on faith
as they were with CASCADEa→c . Instead, we
optimize over consideration of both possibilities in the objective function (relative to the
probability output by the classifier) while ensuring that the final assignments respect the
signifance of what it is to be anaphoric or
non-anaphoric.
5.3
5.2
ILPc,e : entity-coreference
coreference
formulation
formulation
In this second joint formulation, we combine
coreference decisions with named entity classification. New indicator variables for the
assignments of this model are introduced,
namely zhi,ji , where hi, ti ∈ M × T . Since
entity classification is not a binary decision,
each assigment variable encode a mention i
and a named entity type t. Each of these
variables have an associated cost cE
hi,ti , which
is the probability that mention i has type t:
cE
hi,ti = −log(PE (t|i)). The objective function
for this formulation is:
X
C
min
cC
hi,ji · xhi,ji + chi,ji · (1−xhi,ji )
For the third joint model, we combine all
three base models with an objective function that is the composite of those of ILPc,a
and ILPc,e and incorporate all the constraints
that go with them. By creating a triple joint
model, we get constraints between anaphoricity and named entity classification for free, as
a result of the interaction of the consistency
constraints between anaphoricity and coreference and of those between named entity
and coreference. For example, if a mention
of type t is anaphoric, then there must be at
least one mention of type t preceding it.
5.4
hi,ji∈P
X
+
cE
hi,ti · zhi,ti
Adding transitivity constraints
The previous formulations relate coreference decisions to the decisions made by
two auxiliary models in a joint formulation.
In addition one would also like to make
coreference decisions dependent on one another, thus ensuring globally coherent entities. This is achieved through the use transitivity constraints that relate triples of mentions hi, j, ki ∈ M×M×M, where i < j < k
(Denis, 2007; Klenner, 2007). These constraints directly exploit the fact that coreference is an equivalence relation.
Transitivity: if xhi,ji and xhj,ki are coreferential pairs (i.e., xhi,ji = xhj,ki = 1), then so
is xhi,ki :
hi,ti∈M×T
subject to:
zhi,ti ∈ {0, 1}
X
zhi,ti = 1
ILPc,a,e : anaphoricity-entity-
∀hi, ti ∈ M × T
∀i ∈ M
i∈M
The last constraint ensures that each mention is only assigned a unique named entity
type. Consistency between the two models is
ensured with the constraint:
Coreferential mentions have the same
entity type: if i and j are coreferential
(xhi,ji =1), they must have the same type
(zhi,ti − zhj,ti = 0):
xhi,ki ≥ xhi,ji + xhj,ki − 1 ∀hi, j, ki ∈ Mi,j,k
Euclideanity: if xhi,ji and xhi,ki are coreferential pairs (i.e., xhi,ji = xhi,ki = 1), then so
is xhj,ki .
1 − xhi,ji ≥ zhi,ti − zhj,ti ∀hi, ji ∈ P, ∀t ∈ T
1 − xhi,ji ≥ zhj,ti − zhi,ti ∀hi, ji ∈ P, ∀t ∈ T
93
Pascal Denis, Jason Baldridge
the other metrics go down. This is in fact
unsurprising: COREFabove .5 can be viewed as
an unconstrained ilp formulation; similarly,
ILPc,a takes all links above .5 subject to meeting the constraints on anaphoricity. The constraining effect of anaphoricity improves muc
R and P and b3 R over COREFabove .5 , but not
b3 P nor ceaf. Despite the encouraging muc
scores, more is thus needed.
The next thing to note is that joint named
entity classification and coreference (ILPc,e )
nearly beats COREFclosest across the metrics,
but fails for ceaf. As for ILPc,a , ILPc,e can
also be viewed as constraining COREFabove .5 :
in this case, precision is improved (compare
muc: 72.7 to 75.0 and b3 : 63.7 to 71.2), while
still retaining over half the gain in recall that
COREFabove .5 obtained over COREFclosest . In
doing so, the degradation in ceaf is just 1%,
compared to ILPc,a ’s 3.4%. In addition to improving coreference resolution performance,
this joint formulation also yields a slight improvement on the named entity classification:
specifically, accuracy for that task went from
79.5% to over 80.0% using the ILPc,e model.
Joint inference over all three models
(ILPc,a,e ) delivers larger improvements for
both muc and b3 without any ceaf degradation, thus mirroring the improvements found
with the corresponding oracle. In particular, R is boosted nearly to the level of
COREFabove .5 without the dramatic loss in
P (in fact P is better than COREFclosest for
muc). By adding the Anti-Euclideanity constraint to this formulation (ILPc,a,e|trans ), we
see the best across-the-metric scores of any
system. For muc and b3 , both P and R
are boosted over COREFclosest , and there is
a jump of 4% for ceaf. Both the muc
and ceaf improvements for ILPc,a,e|trans are
in line with the improvements that Klenner (2007) found using transitivity, though
it should be noted that he scored on all mentions, not just true mentions as we do here.
The composite mela metric provides an
interesting overall view, showing step-wise
improvements through the addition of the
various models and the global constraints.
These results are in sharp contrast with
those obtained by the cascade model CASCADEa,e→c : recall that this system, while also
using the two auxiliary models as filters was
worse than COREFclosest . The joint ilp formulation is clearly better able to integrate the
extra information provided by the anaphoric-
xhj,ki ≥ xhi,ji + xhi,ki − 1 ∀hi, j, ki ∈ Mi,j,k
Anti-Euclideanity: if xhi,ki and xhj,ki are
coreferential pairs (i.e., xhi,ki = xhj,ki = 1),
then so is xhi,ji :
xhi,ji ≥ xhi,ki + xhj,ki − 1 ∀hi, j, ki ∈ Mi,j,k
Enforcing Anti-Euclideanity alone
guarantees that the final assignment will not
produce any “implicit” anaphors: that is, a
configuration wherein xhj,ki = 1, xhi,ki = 1,
and yj = 0. The interaction of this constraint with resolve only anaphors indeed
guarantees that such configuration cannot
arise, since all three equalities cannot hold
together. This means that mention j must
be a good match for mention i as well as for
mention k.
Note that one could have one unique transitivity constraint if we had symmetry in
our model; concretely, capturing symmetry
means: (i) adding a new indicator variable
xhj,ii for each variable xhi,ji , and (ii) making
sure xhj,ii agrees with xhi,ji .
Enforcing each of these constraints above
means adding 61 × n × (n − 1) × (n − 2) constraints, for a document containing n mentions. This means close to 500, 000 of these
constraints for a document containing just
100 mentions. The inclusion of such a large
set of constraints turned out to be difficult, causing memory issues with large documents (some of the ace documents have more
than 250 mentions). Consequently, we investigated during development various simpler scenarios, such as enforcing these constraints for documents that had a relatively
small number of mentions (e.g., 100) or just
using one of these types of constraint (in
particular Anti-Euclideanity given the way
it interacts with the discourse status assignments). In the following, ILPc,a,e|trans will refer to the ILPc,a,e formulation augmented with
the Anti-Euclideanity constraints.
6
ILP Results
Table 3 summarizes the scores for the different ilp systems, along with COREFclosest .
Like Denis and Baldridge (2007), we find that
joint anaphoricity and coreference (ILPc,a )
greatly improves muc F. However, we also
see that this model suffers from the same
problem as COREFabove .5 : performance on
94
Global joint models for coreference resolution and named entity classification
System
COREFclosest
COREFabove .5
ILPc,a
ILPc,e
ILPc,a,e
ILPc,a,e|trans
R
60.8
70.3
73.2
66.2
69.6
63.7
b3
muc
P
F
72.6 66.2
72.7 71.5
73.4 73.3
75.0 70.4
75.4 72.4
77.8 70.1
R
62.4
73.2
75.3
69.6
72.2
65.6
P
77.7
63.7
62.0
71.2
69.7
81.4
F
69.2
68.1
68.0
70.4
70.9
72.7
ceaf
R/P/F
62.3
58.7
58.9
61.2
62.3
66.2
mela
F
65.9
66.1
66.7
67.3
68.5
69.7
Table 3: Recall (R), precision (P), and f -score (F) using the muc, b3 , and ceaf evaluation
metric on the entire ace dataset for the ilp coreference systems.
ILPc,a,e|trans , our best ilp system. This un-
ity and named entity classifiers. In doing
so, it does not require fine-tuning thresholds,
and it can further benefit from constraints,
such as transitivity.
Further experiments reveal that bringing
the other transitivity constraints into the
ilp formulation results in additional precision gains, although not in overall F gains.
The effect of these constraints is to withdraw
incoherent links, rather than producing new
links. At the global level, this results in the
creation of smaller, more coherent clusters
of mentions. In some cases, this will lead
to a single entity being split across multiple chains. Switching on these constraints
may therefore be useful for certain applications where precision is more important than
recall.
Though in general ceaf appears to be the
most discriminating metric, this point brings
up the reason why using ceaf on its own is
not ideal. When one entity is split across two
or more chains, all the links between the mentions are indeed correct and will thus be useful for applications like information retrieval.
muc and b3 give points to such assignments,
whereas only the largest of such chains will be
used for ceaf, leaving the others—and their
correct links—out of the score. It is also interesting to consider muc and b3 as they can
be useful for teasing apart the behavior of
different models, for example, with ILPc,a,e
compared to COREFclosest , where ceaf was
the same but the others were different.
There is an interesting point of comparison with our results using rankers rather
than classifiers and using models specialized
to particular types of mentions (Denis and
Baldridge, 2008). This work does not use
ilp, but the best system there, with f -scores
of 71.6, 72.7, and 67.0 for muc, b3 , and
ceaf, respectively, actually slightly beats
derscores the importance of attending carefully to the base classifiers and features used
(see also Bengston and Roth (2008) in this regard). The ilp approach in this paper could
straightforwardly swap in these better base
models. We expect this to lead to further performance improvements, which we intend to
test in future work, as well as testing the performance of these models and methods when
using predicted, rather than gold, mentions.
7
Conclusion
We have shown that joint inference over
coreference, anaphoricity, and named entity
classification using ilp leads to improvements
for all three main coreference metrics: muc,
b3 , and ceaf. The fact that b3 and ceaf
scores were also improved is significant: the
ilp formulations tend to construct larger
coreference chains—these are rewarded by
muc without precision penalties, but b3 and
ceaf are not as lenient.
As importantly, we have provided a careful study of cascaded systems, oracle systems and the joint systems with respect to
all of the metrics. We demonstrated that the
muc metric’s bias for larger chains leads it
to give much higher scores while performance
according to the other metrics actually drops.
Nonetheless, b3 and ceaf also have weaknesses; it is thus important to report all of
these scores. We also include the mela score
as a simple at-a-glance composite metric.
Acknowledgments
We would like to thank Nicholas Asher,
David Beaver, Andrew Kehler, Ray Mooney,
and the three anonymous reviewers for their
comments, as well as the audience at the
workshop for their questions. This work was
supported by NSF grant IIS-0535154.
95
Pascal Denis, Jason Baldridge
References
Luo, X. 2005. On coreference resolution performance metrics. In Proceedings of HLTNAACL 2005, pages 25–32.
Bagga, A. and B. Baldwin. 1998. Algorithms
for scoring coreference chains. In Proceedings of LREC 1998, pages 563–566.
Luo, Xiaoqiang, Abe Ittycheriah, Hogyan
Jing, Nanda Kambhatla, and Salim
Roukos. 2004. A mention-synchronous
coreference resolution algorithm based on
the bell tree. In Proceedings of ACL 2004,
pages 135–142, Barcelona, Spain.
Barzilay, Regina and Mirella Lapata. 2006.
Aggregation via set partitioning for natural language generation. In Proceedings of
HLT-NAACL 2006, pages 359–366, New
York City, USA.
Malouf, R. 2002. A comparison of algorithms
for maximum entropy parameter estimation. In Proceedings of the Sixth Workshop
on Natural Language Learning, pages 49–
55, Taipei, Taiwan.
Bengston, Eric and Dan Roth. 2008. Understanding the value of features for coreference resolution.
In Proceedings of
EMNLP 2008, pages 294–303, Honolulu,
Hawaii.
McCallum, A. and B. Wellner. 2004. Conditional models of identity uncertainty with
application to noun coreference. In Proceedings of NIPS 2004.
Berger, A., S. Della Pietra, and V. Della
Pietra. 1996. A maximum entropy approach to natural language processing.
Computational Linguistics, 22(1):39–71.
Morton, T. 2000. Coreference for NLP applications. In Proceedings of ACL 2000,
Hong Kong.
Clarke, James and Mirella Lapata. 2006.
Constraint-based sentence compression:
An integer programming approach. In
Proceedings of COLING-ACL 2006, pages
144–151.
Ng, V.
2004.
Learning noun phrase
anaphoricity to improve coreference resolution: Issues in representation and optimization. In Proceedings of ACL 2004.
Denis, P. 2007. New Learning Models for
Robust Reference Resolution. Ph.D. thesis, University of Texas at Austin.
Ng, V. and C. Cardie. 2002a. Identifying anaphoric and non-anaphoric noun
phrases to improve coreference resolution.
In Proceedings of COLING 2002.
Denis, P. and J. Baldridge. 2007. Joint determination of anaphoricity and coreference
resolution using integer programming.
In Proceedings of HLT-NAACL 2007,
Rochester, NY.
Ng, V. and C. Cardie. 2002b. Improving machine learning approaches to coreference
resolution. In Proceedings of ACL 2002,
pages 104–111.
Denis, Pascal and Jason Baldridge. 2008.
Specialized models and ranking for coreference resolution.
In Proceedings of
EMNLP 2008, pages 660–669, Honolulu,
Hawaii.
Roth, Dan and Wen-tau Yih. 2004. A linear
programming formulation for global inference in natural language tasks. In Proceedings of CoNLL.
Haghighi, A. and D. Klein. 2007. Unsupervised coreference resolution in a nonparametric bayesian model. In Proceedings of
ACL 2007, pages 848–855, Prague, Czech
Republic.
Soon, W. M., H. T. Ng, and D. Lim. 2001.
A machine learning approach to coreference resolution of noun phrases. Computational Linguistics, 27(4):521–544.
Vilain, M., J. Burger, J. Aberdeen, D. Connolly, and L. Hirschman. 1995. A modeltheoretic coreference scoring scheme. In
Proceedings fo the 6th Message Understanding Conference (MUC-6), pages 45–
52, San Mateo, CA. Morgan Kaufmann.
Kehler, A., D. Appelt, L. Taylor, and
A. Simma. 2004. The (non)utility of
predicate-argument frequencies for pronoun interpretation. In Proceedings of
HLT-NAACL 2004.
Klenner, M. 2007. Enforcing coherence
on coreference sets. In Proceedings of
RANLP 2007.
96
Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 97-104
recibido 15-01-09, aceptado 02-03-09
AQA: a multilingual Anaphora annotation scheme for Question
Answering∗
AQA: Un modelo de anotación anafórico multilingüe para Búsqueda de
Respuestas
E. Boldrini1 , M. Puchol-Blasco1 , B. Navarro1 , P. Martı́nez-Barco1 and C. Vargas-Sierra2
1
Grupo de Investigación en Procesamiento del Lenguaje Natural y Sistemas de Información
Departamento de Lenguajes y Sistemas Informáticos
Universidad de Alicante
2
Departamento de Filologı́a Inglesa
Universidad de Alicante
Alicante, Spain
{eboldrini, marcel, borja, patricio}@dlsi.ua.es and [email protected]
Resumen: En este trabajo presentamos AQA, un modelo multilingüe de anotación
de expresiones anafóricas, ideado para ser utilizado en Aprendizaje Automático para
mejorar los sistemas de Búsqueda de Repuestas. Con este modelo se ha anotado la
colección de preguntas-respuestas del CLEF 2008, concretamente en los idiomas
español, italiano e inglés. AQA está inspirado en el meta-modelo MATE, ajustado
a nuestras necesidades. Con AQA se especifica la relación entre la anáfora y su antecedente (que puede ser directa o indirecta), las agrupaciones por tópico y cambios
de subtópico, ası́ como diferentes tipos de anáforas (pronominal, adverbial, superficial, descripciones definidas y elipsis). Se ha realizado una anotación ciega entre dos
anotadores más un árbitro que decide en caso de desacuerdo. Los resultados de la
evaluación muestran un 87% de acuerdo entre los anotadores. Algunos problemas de
anotación serán expuestos en el trabajo. Nuestra finalidad es ampliar este modelo
a otras lenguas y otros corpus, y aplicarlo finalmente en el desarrollo de un sistema
de resolución de la anáfora en preguntas-respuestas multilingüe basado en técnicas
de aprendizaje automático para mejorar la interacción hombre-máquina.
Palabras clave: resolución anáfora, corpus multilingüe, Aprendizaje Automático,
acuerdo de anotación, interacción, sistemas de Búsqueda de Respuestas.
Abstract: This paper presents AQA, a multilingual anaphora annotation scheme
that can be applied in Machine Learning for the improvement of Question Answering
systems. It has been used to annotate the collection of CLEF 2008 in Spanish, Italian
and English. AQA is inspired by the MATE meta-model, which has been adjusted
to our needs. By using AQA we specify the relationshiop between the anaphora and
its antecedent, cases of topic and subtopic, and we label different types of anaphoric
expressions. A blind annotation was carried out by two annotators, and a referee
for solving cases of disagreement. The results of the evaluation show an 87% level
of inter-annotator agreement. Some annotation problems will be reported in this
paper. Our aim is to extend this model to other languages, and to apply it to
the development of an Anaphora Resolution system based on Machine Learning
techinques in order to improve a real human machine-interaction.
Keywords: anaphora resolution, multilingual corpora, Machine Learning, interannotator agreement, interaction, Question Answering systems.
ISSN 1135-5948
© 2009 Sociedad Española para el Procesamiento del Lenguaje Natural
E. Boldrini, M. Puchol-Blasco, B. Navarro, P. Martínez-Barco, C. Vargas-Sierra
1
Introduction
is to achieve an anaphora resolution system
for collection of multilingual questions and
answers capable of providing a more realistic
interaction between the user and the system.
The remainder of this paper is organized
as follows: Section 2 describes the principles
we adopted for the annotation. Sections 3
and 4 present the main aspects of the annotation scheme, the tag set developed and
an analysis of problematic cases. Sections 5
and 6 illustrate the evaluation and the results, and finally conclusions from the study
are discussed in section 6.
This paper presents AQA, a multilingual
anaphora annotation scheme that can be applied to every question-answer corpus (QA)
with cases of anaphora.
In recent years there has been a growing interest in the creation of anaphora annotation schemes, especially for English. In
this context, it is worth mentioning the
UCREL anaphora annotation scheme (Fligelstone, 1992), developed at Lancaster University. The SGML-based MUC annotation
scheme (Hirschman y Chincho, 1998), created for MUC-7, focused on anaphora for Information Extraction task, and other annotation schemes based on MUC are by Mitkov et
al. (2000) or by Navarro (2007), among others. Proposals for other languages could also
be found. To mention but a few examples, we
find proposals for French (Popescu-Belis and
Robba (1997); Tutin et al. (2000)); for Spanish and Catalan (Recasens et al. (2007)); or
for Basque (Aduriz et al. (2007)).
As it is well-known, the MATE/GNOME
meta-scheme by Massimo Poesio (2004) can
be adjusted to meet different needs and goals.
AQA annotation scheme is inspired by this
meta-model.
The problem of anaphora resolution in dialogues and/or in QA series has been explored in several works (Martı́nez-Barco y
Palomar, 2001; Jain et al., 2004; Negri
y Kouylekov, 2007). However, as far as
we know, little work has been reported on
anaphora resolution in QA series in a multilingual framework1 .
In this paper, we focus on this subject.
We have developed a multilingual anaphora
annotation scheme in order to label the QA
corpus of CLEF 2008 in Spanish, Italian, and
English, aiming at using this annotated corpus for the application of Machine Learning (ML) techniques in the development of
anaphora resolution systems. Our final goal
2
Principles
The design of an annotation scheme involves
a number of decisions that are crucial for the
final result of its performance. The approach
pursued with AQA is based on the next general principles:
1. AQA scheme is specific for QA texts.
The behaviour of anaphoric and coreferencial expressions in question-answering
and, in general, in dialogues, is different
from narrative texts. In fact, the dialogue structure (QA structure) has significant influence on anaphoric relations,
and, especially, where the antecedent is
located. In this sense, the antecedent of
a specific anaphoric expression in a question could be located at the same question, at previous questions or at previous
anwers (Negri y Kouylekov, 2007).
2. AQA scheme has been created ad hoc for
multilingual applications. Indeed, our
objective is to develop the same annotation scheme for different languages to
have the possibility to employ it in multilingual QA systems. At present, the
working languages in the project are English, Spanish and Italian.
3. With AQA annotation scheme we focus
on the highest computational efficiency.
Our final aim is to develop an anaphora
resolution system for multilingual QA
based on ML techniques. Consequently,
the design of the specific scheme for ML
has always been taken into account.
∗
This paper has been supported by the following projects: “Question Answering Learning technologies in a multiLingual and Multimodal Environment QALL-ME” (FP6 IST-033860), “Intelligent, Interactive and Multilingual Text Mining based
on Human Language Technologies, TEXT-MESS”
(TIN2006-15265-C06-01), by the Generalitat Valenciana throught the research grant BFPI06/182, and
by the grant BII2008-7898717 of the University of Alicante.
1
About multilingual question-answering, see
CLEF campaign at http://clef-campaign.org/
4. With AQA annotation scheme we are
looking for a broad applicability. In this
sense, we do not follow any specific linguistic theory about anaphoric relations.
Instead, we assume a standard point of
98
AQA: a multilingual Anaphora annotation scheme for Question Answering
information about the anaphora. The
available attributes for this tag are the
following:
view about the anaphoric phenomenon
(Mitkov, 2002).
The first step of our work consisted in deciding what had to be annotated, and in creating the resulting markup scheme. In the
next section the main aspects of the markup
scheme are presented.
3
– rel="dir|indir" (direct or bridging): this element indicates the relationship between the anaphora and
its antecedent: direct (dir) or bridging (indir).
– status="ok|no" (sure or uncertain): by inserting this attribute
the annotator marks his/her
(un)certainty with respect to a
given annotation.
– type="pron|sup|adv|elips|dd":
this attribute specifies the type of
anaphora, i.e., pronominal, adverbial, superficial. It is also used for
ellipsis or definite description.
– ref="n1": for indicating the number of the discourse entity (de) the
anaphora is referring to.
– ant="q|a" question or answer : this
tag specifies if the antecedent is in
the question or in the answer. If
the answer does not appear in the
corpus, but the antecedent is within
the answer, the ant="ref" tag will
not appear.
The antecedent is
marked only with the tag ant="a".
– refq="q1": the question-answer
pair in which the anaphora antecedent is situated. It will correspond to a specific q id labelled in
the corpus.
Markup scheme and tags
The anaphoric elements that are manually
specified are the following:
• the anaphora type: we label pronominal, superficial, and adverbial anaphora,
as well as some cases of ellipsis (elliptical subject, elliptical object, and nominal phrases with nominal complement
but with elliptical head) and definite descriptions.
• the relation type between anaphoric expression and its direct or bridging antecedent. Thanks to the link between
the anaphora and its antecedent we are
able to detect all the coreference chains
throughout the corpus.
• the topic change in a set of questions.
We decided to detect the beginning and
the end of each topic and subtopic.
Questions grouped together share the
same topic. However, we also observed
some cases of subtopic in the same
group.
The tags created to build up our model
are the following:
Figure 1 shows a group of questions annotated using AQA. Some of these tags and a
case of subtopic change can be observed.
• <t></t> (topic): the function of this tag
is to group questions about the same
topic.
4 Some problematic cases
4.1 Antecedent detection
• <subt></subt> (subtopic): this tag is
used to mark the cases of topic change
in the same group of questions.
Anaphora annotation is a difficult task with
a poor level of inter-annotator agreement
(Mitkov, 2002). One of the main complex
aspects is the ambiguity for the antecedent
detection. In fact, there are cases in which
more than one discourse entity could be the
antecedent of an anaphoric expression.
In the CLEF 2008 QA corpus there are
many cases in which the antecedent can be
labelled in the question, but also in the answer. In these cases, the annotators always
mark the antecedent closest to the anaphoric
• <q></q> (question): this tag indicates
the question/answer pair. It has the ID
attribute, which identifies the pair.
• <de></de> (discourse entity): discourse
entities (antecedents) are detected by assigning to the ant="ref" attribute of
each anaphora the same ID attribute of
its antecedent.
• <link></link> (anaphora):
anaphora element includes all
the
the
99
E. Boldrini, M. Puchol-Blasco, B. Navarro, P. Martínez-Barco, C. Vargas-Sierra
<t>
<q id="q538">
What was the name of the plane used by
<de id="n52">John Paul II</de> in
<link rel="indir" status="ok" ant="q"
refq="q538" type="dd" ref="n52"> his
travel</link> to the USA in 1995?
</q>
<subt>
<q id="q539">
What instrument did Niccol Paganini
play?
</q>
</subt>
</t>
It is not an easy task to deal with these
cases of ambiguity arising from a lack of pragmatic or cultural knowledge. As a consequence, they are the main cause of mistakes
during the annotation.
4.3
We also detect some cases of collective nouns,
which are singular nouns referring to a plural concept. The problem here is that the
anaphora does not always match up in number with its antecedent, and this situation
could produce cases of ambiguity. Annotators must apply semantic criteria and common sense in order to detect the correct antecedent.
In this example:
Figure 1: Sample of the QA corpus CLEF
2008 annotated with AQA scheme.
expression. However, if the corpus does not
contain the answer (as in CLEF 2008 QA corpus), questions are given priority, as we work
only with a collection of queries. When the
annotators cannot find the antecedent of the
anaphora under analysis in one of the questions of the collection, they will be forced to
label the antecedent in the answer, although
it does not appear explicitly in the corpus.
4.2
Collective nouns
<t>
<q id="q432">
What is <de id="n18">the starring cast
</de> of the film Beetlejuice?
</q>
<q id="q433">
Who of <link rel="dir" status="ok"
type="pron" ref="n18" ant="q" refq="q432">
them</link> is the main character?
</q>
</t>
World knowledge
As the previous example shows, the pronominal anaphora “them” is referring to the “starring cast”: “them” is plural and “the starring
cast” is singular. The relation between them
is correct, since the starring cast is a collective noun that refers to the group of actors
who are performing in a movie.
In order to label the anaphora and its antecedent properly, the annotators must activate sometimes their world knowledge. The
problem may arise when it is not possible to
know if annotators have the necessary world
and cultural knowledge to detect the correct
antecedent.
For example, in this case,
4.4
<t>
<q id="q404">
Which was <de id="n2">the "gordo" in the
1995 Christmas</de>?
</q>
<q id="q405">
Which was <link rel="indir" status="no"
type="dd" ref="n2" ant="q" refq="q404">
the prize</link>?
</q>
</t>
Doubtful position of the
antecedent
We also detected cases in which the antecedent recognition could be ambiguous, because the annotator has to choose between
multiple options.
Let us see an example:
<t>
<q id="q465">
What transport was used in <de id="n36">the Kon-Tiki
Expedition</de>?
</q>
<q id="q466">
How many people crewed <link rel="dir"
status="ok" type="pron" ref="n36" ant="q"
refq="q465">it</link>?
</q>
</t>
“the prize” is the definite description of
“gordo”, but if the annotators do not know
that in Spain the “gordo” is a typical Christmas lottery prize (and not Santa Claus or a
“fat” men2 ), they will not be able to detect
the correct antecedent for this anaphora.
The annotator does not know whether the
antecedent of “it” is the “transport” or “the
2
The literal translation of “gordo” in English is
“fat”.
100
AQA: a multilingual Anaphora annotation scheme for Question Answering
Kon-Tiki Expedition”. In fact this pronoun
does not provide any information regarding
its genre.
As we have just mentioned, the general
rule is to select the closest antecedent to the
anaphora, which in this case is “the Kon-Tiki
Expedition”.
4.5
the clitic pronouns. They appear attached
to the verb. When clitic pronouns are detected, we do not separate the verb from the
pronoun.
5
Evaluation
In order to know the quality of this annotation scheme, we have developed a pilot evaluation, manually annotating the CLEF multilingual QA corpus. There are 600 questions
in the corpus, each one translated into English (200), Italian (200) and Spanish (200).
At the current state of the project, these results are preliminary. In the near future, our
aim is to annotate a larger corpus.
A blind annotation was carried out by two
annotators. After this process, we evaluated
the inter-annotator agreement independently
for each aspect of anaphoric annotation and
language. Finally we calculated the general
agreement. The evaluation aspects we took
into consideration are the following:
Nested antecedent
The problems mentioned in this subsection
and in the next one do not represent special
cases of difficulty, but they could produce ambiguity when specifying the correct size of the
antecedent.
There are cases in which we have an antecedent inside another one, and they are referring to two different anaphors. The next
example shows this specific case:
<t>
<q id="q427">
Who were <de id="n14">the founders of <de
id="n15">Magnum Photos</de> </de>?
</q>
<q id="q428">
In what year did <link rel="dir"
status="ok" ant="q" refq="q427"
type="pron" ref="n14">they</link> found
<link rel="dir" status="ok" type="pron"
ref="n15" ant="q" refq="q427">it</link>?
</q>
</t>
1. topic boundary;
2. anaphora detection;
3. anaphora attributes; and
4. antecedent recognition.
The antecedent of “them” is “the founders of
Magnum Photos”, while the antecedent for
“it” is only “Magnum Photos”.
4.6
5.1
Measures used
The measures used to calculate the interannotator agreement are the kappa value
(when static classes are present), and the observed agreement (when non static classes are
present). Kappa is computed according to
Cohen method (Cohen, 1960; Carletta, 1996;
Artstein y Poesio, 2008):
An anaphora inside an
antecedent of another one
There are cases in which the anaphoric element has to be annotated inside the antecedent of an anaphora that has another antecedent. For example:
<t>
<q id="q434">
What is <de id="n19">a censer</de>?
</q>
<q id="q435">
What name is given to <de id="n20"> <link
rel="dir" status="no" type="pron"
ref="n19" ant="q" refq="q434">the one
</link> of the Cathedral of Santiago de
Compostela </de>?
</q>
<q id="q436">
How much does <link rel="dir" status="ok"
type="pron" ref="n20" ant="q" refq="q435">
it</link> weight?
</q>
</t>
k=
P (A)−P (E)
1−P (E)
where P (A) is the observed agreement
among annotators, and P (E) the probability
that annotators agree by chance.
5.2
Topic boundary evaluation
Topic boundary can be seen as a binary classification. For each question the class “n”
is assigned to mark a new topic, while the
class “s” is employed when the question is
about the same topic as the previous query.
Taking into account these premises, Table 1
shows the contingency table and the kappa
measure.
Finally, we would like to mention a specific
problem in the Italian and Spanish corpus:
101
E. Boldrini, M. Puchol-Blasco, B. Navarro, P. Martínez-Barco, C. Vargas-Sierra
A1/A2
S
N
Kappa
Spanish
S
N
62
0
0 138
1
Italian
S
N
62
0
0 138
1
English
S
N
61
0
1 138
0.988
(Adv), Superficial (Sup) and Definite Description (DD). The results for the type attribute are shown at Table 4.
Elips
Pron
Adv
Sup
DD
P(A)
Kappa
Table 1: Contingency table for topic boundary evaluation.
5.3
Anaphora detection
Anaphora detection has not specific classes
for using kappa measure. As a consequence,
only the observed agreement among the annotators can be extracted. The anaphora
detection agreement is presented in Table
2. The acronyms used in this table mean:
A1: anaphors detected by annotator 1;
A2: anaphors detected by annotator 2; AA:
anaphors detection agreement; DAB: different anaphora boundary, that is, anaphors
that coincide in the two corpora, but having
different content.
A1
A2
AA
DAB
Spanish
70
70
70
1
Italian
69
69
69
1
English
67
68
67
0
A1/A2
D
I
Kappa
Italian
Q A
62 0
0
7
1
Spanish
D
I
52
0
4
14
0.838
Italian
D
I
51 0
1 17
0.961
English
D
I
52
0
2
13
0.909
Table 5: Contingency table for relation attribute evaluation.
5.5
Once the anaphora has been detected, the
method used for anaphora attribute evaluation is the kappa statistic. The results of
the anaphora detection agreement are: 70
anaphors in Spanish, 69 in Italian, and 67
in English.
Regarding the antecedent attribute, Q is
used when the antecedent is detected in the
question, while A is used when the antecedent
is in the answer. Table 3 presents the contingency table for this attribute.
Spanish
Q
A
64
0
0
6
1
English
A1 A2
3
3
42
42
1
1
0
0
21
21
1
1
We also evaluated the agreement obtained
regarding the relation attribute. In this case,
it is possible to choose between two options;
the first one is D (direct relation), while the
second is I (indirect relation). Table 5 illustrates the results.
Anaphora attributes
A1/A2
Q
A
Kappa
Italian
A1 A2
32
32
13
13
2
2
0
0
22
22
1
1
Table 4: Anaphora type agreement.
Table 2: Anaphora detection agreement.
5.4
Spanish
A1 A2
33
33
13
15
1
1
1
0
22
21
0.97
0.955
Antecedent recognition
Antecedent recognition has no fixed classes
for using kappa measure, and as a consequence, the observed agreement among the
annotators should be extracted. The antecedent recognition agreement is presented
in Table 6. The acronyms used in this table
mean: TAA: total antecedents into the answer; TAQ: total antecedents into the question; ASQ: anaphors pointing the same questions, it means, refq agreement; and ADB:
antecedents with different boundary.
English
Q
A
61
0
0
6
1
TAA
TAQ
ASQ
ADB
Spanish
6
64
64
2
Italian
7
62
62
3
English
6
61
61
1
Table 3: Contingency table for antecedent attribute evaluation.
Table 6: Antecedent recognition agreement.
The anaphora type was lebelled taking into consideration 5 attributes: Elipsis (Elips), Pronominal (Pron), Adverbial
5.6
General agreement
The general agreement is showed in Table 7.
In this evaluation, all the aforementioned at102
AQA: a multilingual Anaphora annotation scheme for Question Answering
tributes have been considered: first column
shows the amount of anaphors detected, and
second column the amount of anaphors with
exact agreement. Finally, the average for all
languages is calculated as general agreement.
Spanish
Italian
English
Average
Total
70
69
67
Agreement
60
60
59
As we mentioned in the previous section,
we carried out the research with three languages involved. This multilingualism offers
some advantages, but it is also a source of
complexity. The main advantage is that the
corpus shows cases in which the anaphoric
relation is the same in different languages,
so we can extract cross-linguistic features for
anaphora resolution. However, using different languages may cause problems. In
fact, languages are very complex and different from each other. Working with a parallel
corpus does not provide any guarantee of similarity between them: there are cases in which
the same query is different in the three languages, and the annotator should take into
account these differences in order to annotate
the corpus properly.
In any case, as Future Work, we will apply the AQA annotation scheme to a larger
corpus with more texts written in more languages in order to check its reliability, and,
finally, to improve a multilingual anaphora
resolution system for QA.
%
0.857
0.869
0.880
0.868
Table 7: General agreement.
Surprisingly, all these results show a high
level of agreement between two annotators in
all aspects evaluated.
With these results we can conclude that
the annotation scheme has been well designed, and its application to this multilingual QA corpus has been carried out correctly. However, as we said before, these
results are only preliminary. Probably, the
ambiguity level of this corpus is not too
high, thus we will apply the same annotation scheme to a larger corpus, with more
languages, more anaphoric expressions, and
more cases of ambiguity.
In this case, the results are promising, and
they indicate that the project is progressing
successfully.
6
Bibliografı́a
Aduriz, I., K. Ceberio, y A. Dı́az de Ilarraza. 2007. Pronominal Anaphora in
Basque: Annotation issues for later computational treatment. En A. Branco, editor, Anaphora: Analysis, Algorithms and
Applications. 6th Discourse Anaphora and
Anaphor Resolution Colloquium, DAARC
2007, volumen 4410 de Selected Papers.
Lecture Notes in Computer Science, Lagos Portugal.
Conclusion and Future Work
In this paper we have presented AQA, an
anaphora annotation scheme for the manual annotation of multilingual QA corpora.
With this scheme we mark different types of
anaphors, the relationship between anaphora
and its antecedent, and the groups of questions with the same topic.
The main purpose of this scheme is to develop an anaphora resolution system based in
ML techniques in order to improve the interaction between the user and the QA system
and, in this way, establishing a dialogue between them. In fact, by using AQA, a ML
system will be able to extract many features
capable of detecting the correct antecedent
for each anaphora.
As we can conclude from the evaluation results, we reached a considerable interannotator agreement rate. However, our intention is to apply the scheme to other collections of questions and other languages to
check AQA reliability.
Artstein, R. y M. Poesio. 2008. Inter-Coder
Agreement for Computational Linguistics.
Computationl Linguistics, 34(4):555–596.
Carletta, J.
1996.
Assessing agreement on classification task: the kappa
statistic.
Computational Linguistics,
22(2):249–254.
Cohen, J. 1960. A coefficient of agreement
for nominal scales. Educational and Psychological Measurement, 20:37–46.
Fligelstone, S. 1992. Developing a Scheme
for Annotating Text to Show Anaphoric
relations. En G. Leitner, editor, New
Direction in English Language Corpora:
Methodology, Results, Software Developments. Mouton de Gruyter, Berlin,
páginas 153–170.
103
E. Boldrini, M. Puchol-Blasco, B. Navarro, P. Martínez-Barco, C. Vargas-Sierra
Hirschman, L. y N. Chincho. 1998. Muc7 coreference task definition (version 3.0).
En Proceedings of Message Understanding
Conference (MUC-7).
Recasens, M., M.A. Martı́, y M. Taulé.
2007. Text as a Scene: Discourse deixis
and Bridging relations. Procesamiento del
Lenguaje Natural, 39:205–212.
Jain, P., M. Mital, S. Kumar, A. Mukerjee,
y A. Raina. 2004. Anaphora resolution
in multi-person dialogues. En Michael
Strube y Candy Sidner, editores, Proceedings of the 5th SIGdial Workshop on Discourse and Dialogue, páginas 47–50, Cambridge, Massachusetts, USA.
Tutin, A., F. Trouilleux, C. Clouzot,
E. Gaussier, A. Zaenen, S. Rayot, y G. Antoniadis. 2000. Anotating a large corpus with anaphoric links. En Proceedings
of the Discourse, Anaphora and Reference
Resolution Conference (DAARC 2000),
Lancaster.
Martı́nez-Barco, P. y M. Palomar. 2001.
Computational Approach to Anaphora
Resolution in Spanish Dialogues. Journal
of Artificial Intelligence Research, 15:263–
287.
Mitkov, R. 2002.
Longman.
Anaphora Resolution.
Mitkov, R., R. Evans, C. Orasan, C. Barbu,
L. Jones, y V. Sotirova. 2000. Coreference and anaphora: developing annotating tools, annotated resources and annotation strategies. En Proceedings of the
Discourse, Anaphora and Reference Resolution Conference (DAARC 2000), Lancaster.
Navarro, B.
2007.
Metodologı́a, construcción y explotación de corpus anotados semántica y anafóricamente. Ph.D.
tesis, University of Alicante, Alicante.
Negri, M. y M. Kouylekov. 2007. ’Who
Are We Talking About?’ Tracking the
Referent in a Question Answering Series.
En A. Branco, editor, Anaphora: Analysis, Algorithms and Applications. 6th Discourse Anaphora and Anaphor Resolution
Colloquium, DAARC 2007, volumen 4410
de Selected Papers. Lecture Notes in Computer Science, Lagos Portugal.
Poesio, M. 2004. Discourse annotation and
semantic annotation in the gnome corpus.
En Proceedings of the 2004 ACL Workshop on Discourse Annotation, páginas
72–79, Barcelona.
Popescu-Belis, A. y I. Robba. 1997. Cooperation between pronoun and reference
resolution for unrestricted texts. En Proceedings of the ACL’97/EACL’97 workshop on Operational Factor in Practical,
Robust Anaphora Resolution, Madrid.
104
Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 105-112
recibido 15-01-09, aceptado 02-03-09
Co-referential chains and discourse topic shifts in parallel and
comparable corpora∗
Cadenas correferenciales y cambios de tópico discursivo en corpus
paralelos y comparables
Costanza Navarretta
University of Copenhagen
Njalsgade 140-142, build. 25
2300 Copenhagen - Denmark
Resumen: En este artı́culo se describen los textos del italiano y danés comparables
y anotados con cadenas de correferencia e información sobre los cambios de tópico
discursivo, ası́ como una evaluación de dicha anotación. También se discuten las
diferencias generales en el modo de referir las expresiones en danés e italiano. Se
presenta también el análisis de la relación entre el uso de tipos de expresiones referidas y cambios de tópico discursivo en parte de los datos utilizando el marco teórico
del Centering.
Palabras clave: italiano, danés, cadenas correferenciales, tópico discursivo, anotación de corpus
Abstract: In this paper we describe Danish and Italian parallel and comparable
texts annotated with (co)referential chains and information about discourse topic
shifts, and present an evaluation of the annotation. We also discuss general differences in the way referring expressions are used in Danish and Italian and present the
analysis of the relation between the use of types of referring expression and discourse
topic shifts in part of the data using the Centering framework.
Keywords: Italian, Danish, referential chains, discourse topics, corpus annotation
1
Introduction
Identifying co-referential chains in corpora
is important for many applications involving natural language processing. Studying
the relation between co-referential chains,
the use of nominal expressions and discourse
topic shifts is furthermore useful for particular NLP applications such as summarization,
abstracting, natural language generation and
machine translation. A theoretic framework
for analysing the relation between the use of
types of referring expression and discourse
topic shifts is provided by the Centering Theory (Grosz, Joshi, and Weinstein, 1995; Brennan, Friedman, and Pollard, 1987). This theory mainly focuses on pronouns and follows
cognitive models of reference of nominal expressions, among many (Ariel, 1994; Prince,
1981; Gundel, Hedberg, and Zacharski, 1993;
Lambrecht, 1994), according to which reference by pronouns reflects the assumption
made by speakers that the referred entities
are the most central (salient, known, given)
in the addressee’s mental state at that point
in discourse, while reference by other types
of nominal phrase usually indicate that the
referred entities are less central in the addressees’ discourse model.
Versions of Centering have implemented
different salience models based on factors
such as word order, syntactic or semantic
function of entities, information structure
and anaphoric distance, see among many
(Brennan, Friedman, and Pollard, 1987;
Strube and Hahn, 1999; Navarretta, 2002).
Some of these Centering versions have been
motivated by language specific characteristics which cannot be accounted for by
salience models based on English.
To our knowledge, there is no systematic
study of the use of different referring expressions in various transition states and a comparison of this use in different types of language1 .
The main objectives behind our work have
been the following: i) to provide a pilot corpus of parallel and comparable Danish and
1
∗
Thanks to Sussi Olsen, Delia Malatesta, Daniele
Prada e Elisabetta Cerini.
ISSN 1135-5948
A partial exception is Di Eugenio (1996)’s analysis of subject referring expressions in Italian, see section 2.
© 2009 Sociedad Española para el Procesamiento del Lenguaje Natural
Costanza Navarretta
Italian texts annotated with co-reference and
with discourse topic shifts; ii) to investigate
whether there is a systematic relation between various types of referring expressions
and their use in different transition states in
the two languages; iii) to individuate similarities and differences in co-referential chains
and in the use of referring expressions in discourse topic shifts in Danish and Italian; iv)
to study whether different referring strategies
are used in fiction and non-fiction texts.
The paper is organised as follows. In section 2 we discuss related work and research
which have inspired us. In section 3 we
shortly present our data and in section 4 we
describe our annotation scheme and discuss
inter-annotator agreement results. In section 5 we discuss the results of our analysis of the annotated data and finally, in section 6 we make some concluding remarks and
present work still to be done.
2
ferring expression after the various transition
states is not explored in the Centering theory.
However, many researchers in the Centering
framework have looked at aspects which are
central to the relation between reference and
discourse structure including the definition of
transition states, the presence and/or uniqueness of backward-looking centers and the realisation of centers, see especially (Brennan,
Friedman, and Pollard, 1987; Strube and
Hahn, 1999; Fais, 2004; Poesio et al., 2004;
Kibble and Power, 2004).
Independently from the Centering framework, Givón (1983) provides an analysis of
the relation between topic shifts and use of
subject referring expressions in English and
Pidgin English monologues. He recognises
two kinds of junctures in his data: minor
junctures after clauses and major junctures
after sentences.
In this paper we look at both global and
local coherence and are especially interested
in the types of nominal referring expression
used in Danish and Italian texts after various transitions. We are strongly inspired by
the work of Di Eugenio (1996) who analysed
occurrences of Italian pronouns and full nominal phrases in subject position respect to a
particular version of the Centering’s transition states. Her focus was on the use of zero
pronouns2 .
We adopt a combination of two cognitive
models of referring expressions: the Givenness Hierarchy proposed by Gundel, Hedberg, and Zacharski (1993) and Ariel (1988),
(1994)’s Accessibility Marker Scale.
Gundel, Hedberg, and Zacharski (1993)
organise the assumed cognitive statuses of
discourse entities in their Givenness Hierarchy and connect each status to a precisely
identified referring expression, exemplified by
an English nominal phrase (table 2). They
argue for the universality of their hierarchy,
although they notice that not all languages
have referring expressions for each status in
the hierarchy. The Givenness Hierarchy
is interesting because, differing from related
cognitive models, it assumes that the various
cognitive statuses are implicationally related
and not mutually exclusive. Thus, according
to this theory, a referring form encodes the
necessary and sufficient status it belongs to
as well as all the higher statuses in the hierar-
Related Work
The relation between reference and discourse
structure has been pointed out in numerous
studies, among many (Kuno, 1972; Halliday
and Hasan, 1976; Hobbs, 1979; Grosz and
Sidner, 1986; Cristea and Ide, 1998). Centering is about local coherence, but the theory presupposes global coherence as proposed
by Grosz and Sidner (1986). In Centering
the relation between continuations or shifts
in co-reference chains and the use of referring
expressions is modelled in terms of so-called
transition states and of the preferences holding among them. These preferences reflect
the assumption that the mental effort to process reference is less when the central topic of
discourse is maintained and when this topic
is realised by the most salient entity than
when the central topic changes or is realised
by a less prominent entity. Because pronouns
signal reference to the most salient entities,
pronominal chains are assumed to be more
frequent in center continuations than in center shifts. The transition types proposed by
Brennan, Friedman, and Pollard (1987) are
in (table 1). The use of other types of reCb (Un ) = Cb (Un−1 )
OR no Cb (Un−1 )
Cb (Un ) =
Cp (Un )
Cb (Un ) 6=
Cp (Un )
Cb (Un ) 6= Cb (Un−1 )
CONTINUE
SOFT-SHIFT
RETAIN
ROUGH-SHIFT
Table 1: Transition states
2
106
Italian is a subject pro-drop language.
Co-referential chains and discourse topic shifts in parallel and comparable corpora
in
focus
it
>
activated
that
this
this N
>
familiar
>
that N
uniquely
identifiable
the N
>
referential
indefinite
this N
>
type
identifiable
a N
Table 2: The Givenness Hierarchy
(unambiguously) and/or the less attenuated
the form (longer or louder) of a referring expression the lower accessibility it marks.
We use Ariel’s classification of referring
expressions, but assume with Gundel, Hedberg, and Zacharski (1993) that the cognitive statuses related to the different referring
expressions are implicationally related.
chy (the statuses on its left). This accounts
for cases in discourse where a speaker uses
a referring expression signalling a less given
cognitive status than required by the context,
e.g. to emphasise some entities.
One problem with the Givenness Hierarchy is that it does not account for differences between types of referring expression
which do not occur in English. This is the
case for the Italian zero anaphora and clitics.
A more fine-grained hierarchy of nominal referring expressions is presented by Ariel
(1994). Also Ariel points out that speakers code how accessible a referent is to the
addressee by using different referring expressions. Analysing the distance between antecedent and referring expressions, one of
the factors that determine the accessibility of
these expressions, Ariel builds up an accessibility marker system for referring expressions. In her system unmarked means prototypical, while the concept of markedness
presupposes the notion of formal complexity
and is connected with structural complexity,
low frequency and cognitive complexity. A
simplified version of Ariel’s Accessibility
Marking Scale (Ariel, 1994) is given in figure 1. The accessibility of the expressions de-
3
The data
We have annotated the following Danish and
Italian data:
• Parallel texts: i) European law texts
(7,631 running words in Italian and
7,101 running words in Danish); ii) Italian stories by Pirandello (9,018 words)
and their Danish translations (9,933
words)
• Comparable texts: i) Financial newspapers: the Italian Il Sole 24 Ore (6,964
words) and the Danish Børsen (3,325
words)
The source language of the European texts
is not known, but it is probably English or
French.
The parallel texts and some of the comparable texts which we have annotated belong
to the MULINCO corpus (Maegaard et al.,
2006). Part of these texts are freely available.
In order to obviate some of the problems connected with the use of translated
texts3 we have annotated articles from financial newspapers in the two languages describing similar events and written in the same
period of time. Although these articles are
covered by copyright restrictions, they can
be obtained by the publishing editors for research.
zero < reflexives < cliticised pronouns
< unstressed pronouns < stressed pronouns < stressed pronouns + gesture
< proximal demonstrative (+ NP) <
distal demonstrative (+ NP)< proximal
demonstrative + NP + modifier < distal
demonstrative + NP + modifier < first
name or last name < definite description
< full name
Figure 1: Ariel’s Accessibility Marking Scale
creases from left to right: the highest accessibility markers being the most unmarked linguistic expressions. Thus the symbol < in the
scale refers to the degree of markedness. The
more (lexically) informative, the more rigidly
3
One of these problems is the use of referring expressions in the target language being influenced by
the referring expressions used in the source language.
Examples of these influence are in (Navarretta, 2007).
107
Costanza Navarretta
4
The annotation
drop language and has both independent and
clitic pronouns. A kind of seg markers,
seg1 is used to mark verbal phrases containing one or more clitic pronouns, as illustrated in example 2 where the verb form
promettendoglielo (promising it to him) contains two clitic pronouns gli (to him) and lo
(it), which co-refer with two entities whose
identifiers are n150 and i24 respectively
(promettendo[gli]n150 e[lo]i24 ).
The data we have annotated with coreference had been previously annotated with
abstract pronominal anaphora information in
the DAD project. These anaphora are thirdperson singular pronouns whose linguistic antecedents are predicates in copula constructions, verbal phrases, clauses and discourse
segments. The annotation specific to abstract anaphora is described in (Navarretta
and Olsen, 2008) and comprises the semantic
type of abstract referents, partially inspired
by the classification of abstract objects by
Asher (1993).
Discourse topics have been annotated using a variation of the annotation proposed
by Rocha (2000) who distinguishes among
discourse topics, segment topics and subsegment topics in English and Portuguese dialogues.
In our data paragraphs correspond in
most cases to discourse segments, see (Grosz
and Sidner, 1986). Discourse segments have
been further divided into subtopics and subsubtopics.
A subset of the data has been marked
with the transition types proposed in (Brennan, Friedman, and Pollard, 1987)5 . The
salience model adopted for annotating transition states in both Danish and Italian is
mainly that proposed in (Navarretta, 2002;
Navarretta, 2005) (figure 2).
We have used PALinkA (Orăsan, 2003) as
annotation tool.
The first 4000 words of the Italian
data were annotated by four annotators
and inter-annotator agreement was automatically calculated on these data in terms of
weighed kappa statistics6 (J.Cohen, 1968) using PRAM7 . The obtained results varied
from 0.60 to 0.95, depending on the type of
Co-referential and referential chains in the
corpus have been annotated using an extension of the MATE/GNOME annotation
scheme (Poesio, 2004). Bridging anaphora
have not been annotated.
We use the
markables proposed in the MATE/GNOME
scheme, i.e. de to mark discourse entities and
seg to annotate non nominal referring expressions. The markable link marks the relation between referring expressions and their
antecedents.
We have added a number of attributes to
these markables to encode the following information: a) the type of referring expression comprising the pronominal and nominal types recognised by Ariel (1994); b) the
syntactic type of the antecedent including
nominal and non-nominal antecedents, such
as predicates in copula constructions, verbal
phrases, clauses and discourse segments; c)
the pronominal function, such as cataphoric,
individual anaphoric, deictic, pleonastic, abstract anaphoric.
Only two types of relation between referring expressions and antecedents are used:
identity and non-identity. The identity relation is used for co-reference, while nonidentity is used for all other cases, comprising the relations between antecedents
and anaphora referring to different semantic
types of entity, and the relation connecting
appositions to the nominal phrases they define or modify. Example 1 contains the annotation of the two appositions in the text segment Lina Sarulli, prima Lina Taddei, ora
Lina Fiorenzo (Lina Sarulli, previously Lina
Taddei, now Lina Fiorenzo) from Pirandello’s
story La buon’ anima. The two appositions
are bound to the proper Lina Sarulli by a
non-identity relation.
We have added some markables to the
MATE/GNOME scheme to mark pleonastic pronouns and pronouns in abandoned utterances4 . Possessive pronouns and deictic
pronouns in direct speech are also annotated.
These occurrences of deictic pronouns are in
most cases part of the co-referential chains in
the fiction data.
Two slightly different annotation schemes
are used for Danish and Italian, accounting for language specific differences, such
as the fact that Italian is a subject PRO4
5
Only the author annotated this information.
Other evaluation methods are discussed by Arstein and Poesio (2008).
7
http://www.geocities.com/skymegsoftware
/pram.html.
6
These occur in direct speech in our fiction data.
108
Co-referential chains and discourse topic shifts in parallel and comparable corpora
(1) <de ID="n643" firstm="MNO" syn-type="PR">
<link Ltype="ident" POINT-BACK="n334"/>
<W id="w2.24.15" lemma="lina" pos="NPR">Lina</W>
<W id="w2.24.16" lemma="sarulli" pos="NPR">Sarulli</W></de>
<W id="w2.24.17" lemma="," pos="PON">,</W>
<W id="w2.24.18" lemma="prima" pos="ADV">prima</W>
<de ID="n644" firstm="MNO" syn-type="PR">
<link Ltype="no_ident" POINT-BACK="n643"/>
<W id="w2.24.19" lemma="lina" pos="NPR">Lina</W>
<W id="w2.24.20" lemma="taddei" pos="NPR">Taddei</W></de>
<W id="w2.24.21" lemma="," pos="PON">,</W>
<W id="w2.24.22" lemma="ora" pos="ADV">ora</W>
<de ID="n645" firstm="MNO" syn-type="PR">
<link Ltype="no_ident" POINT-BACK="n643"/>
<W id="w2.24.23" lemma="lina" pos="NPR">Lina</W>
<W id="w2.24.24" lemma="fiorenzo" pos="NPR">Fiorenzo</W></de>
(2) <seg1 ATYPE="indiv" ID="i25" PTYPE="lo-clitico" syn-type="V">
<link Ltype="ident" POINT-BACK="i24"/>
<seg1 ATYPE="indiv" ID="i151" PTYPE="gli-clitico" syn-type="V">
<link Ltype="ident"POINT-BACK="n150"/>
<W id="w25.57.60" lemma="promettere" pos="VER:geru">promettendoglielo</W></seg1></seg1>
markable. The worse results were obtained
in the annotation of discourse segment antecedents of abstract substantives. Examples
of these abstract referring expression are tali
situazioni (such situations) and questa discussione (this discussion). Inter-coder agreement for the annotation of pronominal abstract anaphora was not calculated because it
had been tested in the DAD project (Navarretta and Olsen, 2008).
An annotation example is in 3. The annotated text segment is [La Acqua M arcia]i
può evitare il fallimento. [La finanziaria di
[V incenzo Romagnoli]j ]i . . . ([La Acqua
M arcia]i can avoid bankruptcy. [[V incenzo
Romagnoli]j ’s investment company]i ) [Il
Sole 24 ore(31.12.1992)].
The annotation of co-reference is expressed
by saying that the nominal phrase Vincenzo
Romagnoli’s investment company, is related
to the proper La Acqua Marcia by an identity relation.
5
it
da
Zero
1225
-
Clit
240
-
PRO
1075
2331
Name
762
602
NPs
1995
1524
Table 3: Number of markables
in literary texts are much longer than those
in non-literary texts. This is not surprising
because the stories are longer than the financial articles and they focus on fewer subjects
(persons, objects) than the analysed European texts.
In our data there are nearly 5 times more
pronouns pr. 1000 words in literary data than
in non-literary texts. Reference by substantives was on the contrary higher in the nonliterary texts than in the literary data (here
the proportion pr. 1000 words was 4 to 1).
The average distance in terms of sentences
between referring expressions and their antecedents is higher in literary data than in
non literary data. We have not investigated
yet whether there is a relation between referential distance and number of discourse entities and possible candidate antecedents in
the involved texts.
Inferable entities are more often anchored
to known entities by genitives in Danish than
in Italian. An example is in 4.
Results
The number of markables annotated in the
data are given in table 3. To these markables must be added the seg elements which
code the non-nominal antecedents of abstract anaphora, pleonastic and abandoned
occurrences of pronouns. The length of
co-referential chains varies consistently from
text type to text type independently from the
analysed language. The (co)referential chains
(4) Fin dal primo giorno, Bartolino
Fiorenzo s’era sentito dire dalla
promessa sposa. . . (the fiancèe)
Fra første dag havde Bartolino
109
Costanza Navarretta
Fiorenzo hørt sin tilkommende
sige. . . (his fiancée)
(From the very first day Bartolino
Fiorenzo had heard his fiancée
say. . . ) Pirandello: La buon’ anima
cussed some dissimilarities in the use of referring expressions in the two languages. The
relation between types of referring expression
used to refer to the backward-looking center
after different types of transition have been
studied in the fiction data. Although the results are interesting they can only be considered preliminary because of the limited
amount of data. Furthermore the analysed
Danish texts are translations of the Italian
stories, thus more differences in-between the
two languages might be found in comparable
data. However we believe that the strategy
of looking at the relation between transition
types and types of referring expression is very
useful especially if conducted on more languages and on more types of text.
Currently we are annotating the transition
types on the remaining data and we plan to
extend our analysis to the referential distance
and to the number of competing antecedent
candidates.
In Italian the distal demonstrative determiners quel /quello/quella (that) and
quelli /quelle (those) followed by a substantive are used if i) there are other clauses or
nominal phrases in-between the referring expression and antecedent; ii) there is temporal or spatial distance from the antecedent.
In Danish the proximal demonstrative determiners denne/dette/disse (this/these) are
used in the same contexts: quella donna (that
woman)/denne kvinde (this woman); quella
sciagura (that calamity)/denne ulykke (this
calamity). Only if the antecedent is the immediately preceding discourse segment the
proximal demonstrative determiners are used
in both languages.
As noticed in (Navarretta, 2007; Navarretta and Olsen, 2008) abstract substantives
are used in Italian in most cases where Danish uses abstract pronouns.
The analysis of the relation between transition states and types of referring expressions in the three stories by Pirandello is
given for Italian in figure 3 and for Danish in
figure 4. The figures give a scale of the significantly most frequent referring expressions occurring as centers after the various Centering
transition types8 . The results in the figures
only partially confirm existing classifications
of the givenness or salience of referring expressions and reflect some of the differences
between Danish and Italian that we have previously discussed. An interesting fact, which
cannot be seen in the figures is that in these
particular data deictic pronouns are in 96%
”locally” deictic and have thus been linked to
the local co-referential chains. Because the
amount of our data is not large, the present
results are only preliminary.
6
References
Ariel, M. 1988. Referring and accessibility.
Journal of Linguistics, 24(1):65–87.
Ariel, M. 1994. Interpreting anaphoric expressions: a cognitive versus a pragmatic
approach. Journal of Linguistics, 30(1):3–
40.
Arstein, R. and M. Poesio.
2008.
Inter-coder Agreement for Computational
Liguistics.
Computational Linguistics,
34(4):555–596.
Asher, N. 1993. Reference to Abstract Objects in Discourse, volume 50 of Studies in
Linguistics and Philosophy. Kluwer Academic Publishers, Dordrecht, the Netherlands.
Brennan, S. F., M. W. Friedman, and C. J.
Pollard. 1987. A Centering Approach
to Pronouns. In Proceedings of ACL 87,
pages 155–162, California, USA. Stanford
University.
Conclusion
Cristea, D. and N. Ide. 1998. Veins theory: A model of global discourse cohesion
and coherence. In Proceedings of COLING/ACL 98, pages 281–285, Montreal.
We have presented a rich annotation of (co)referential chains in Danish and Italian comparable and/or parallel data and we have dis-
Di Eugenio, B. 1996. The discourse functions
of Italian subjects: a centering approach.
In Proceedings of COLING 96, pages 352–
357, Copenhagen, Denmark. Centre for
Language Technology.
8
In the two figures Def N. anchored refer to all
definite nominal phrases which are bound to entities
previously introduced in discourse (Prince, 1981) via
e.g. genitive phrases, propositional phrases, relative
clauses.
110
Co-referential chains and discourse topic shifts in parallel and comparable corpora
Fais, L.
2004.
Inferable centers, centering transitions and the notion of
coherence.
Computational Linguistics,
30(2):119–150.
Navarretta, C. 2005. Combining information structure and centering-based models of salience for resolving danish intersentential pronominal anaphora. In
A. Branco, T. McEnery, and R. Mitkov,
editors, Anaphora Processing. Linguistic,
cognitive and computational modeling, volume 263 of Current Issues in Linguistic
Theory. John Benjamins Publishing Company, pages 329–350.
Givón, T., editor. 1983. Topic Continuity in Discourse: A Quantitative CrossLanguage Study. John Benjamin, Amsterdam.
Grosz, B., A. K. Joshi, and S. Weinstein. 1995. Centering:A Framework
for Modeling the Local Coherence of
Discourse.
Computational Linguistics,
21(2):203–225.
Navarretta, C. 2007. A contrastive analysis of abstract anaphora in danish, english
and italian. In A. Branco, T. McEnery,
R. Mitkov, and F. Silva, editors, Proceedings of DAARC 2007, pages 103–109.
Centro de Linguistica da Universidade do
Porto, March.
Grosz, B. J. and C. L. Sidner. 1986. Attention, Intentions, and the Structure
of Discourse. Computational Linguistics,
12(3):175–284.
Navarretta, C. and S. Olsen. 2008. Annotating abstract pronominal anaphora in the
DAD project. In Proceedings of LREC2008, Marrakesh, Marocco, May.
Gundel, J. K., N. Hedberg, and R. Zacharski.
1993. Cognitive status and the form of
referring expressions in discourse. Language, 69(2):274–307.
Orăsan, Constantin. 2003.
highly customizable tool for
notation. In Proceedings of
dial Workshop, pages 39 –
Japan, July, 5 -6.
Halliday, M. and R. Hasan. 1976. Cohesion
in English. Longman, London.
Hobbs, J. R. 1979. Coherence and Coreference. Cognitive Science, 3(1):67–90.
PALinkA: a
discourse anthe 4th SIG43, Sapporo,
Poesio, M, R. Stevenson, B. Di Eugenio, and
J. Hitzeman. 2004. Centering: A parametric theory and its instantiations. Computational Linguistics, 30(3):309–364.
J.Cohen. 1968. Weighted kappa: nominal
scale agreement with provision for scaled
disagreement or partial credit. Psychological Bulletin, 70(4):213–220.
Poesio, Massimo. 2004. The mate/gnome
proposals for anaphoric annotation, revisited. In Michael Strube and Candy
Sidner, editors, Proceedings of the 5th
SIGdial Workshop, pages 154–162, Cambridge, Massachusetts, USA, April 30 May 1. Association for Computational
Linguistics.
Kibble, R. and R. Power. 2004. Optimizing Referential Coherence in Text
Generation. Computational Linguistics,
30(4):401–416.
Kuno, S. 1972. Functional sentence perspective. Linguistic Inquiry,, 3:269–320.
Prince, E. F. 1981. Toward a taxonomy of
given-new information. In P. Cole, editor, Radical Pragmatics. Academic Press,
pages 223–255.
Lambrecht, K. 1994. Information structure
and sentence form - Topic, focus and the
mental representations of discourse referents, volume 71 of Cambridge Studies in
Linguistics. Cambridge University Press.
Rocha, M.A.E.
2000.
A corpus-based
study of anaphora in english and portuguese. In S.P Botley and T. McEnery,
editors, Corpus-based and Computational
Approaches to Discourse Anaphora. Benjamins Publishing Company, pages 81–94.
Maegaard, B., L. Offersgaard, L. Henriksen,
H. Jansen, X. Lepetit, C. Navarretta, and
C. Povlsen. 2006. The MULINCO corpus and corpus platform. In Proceedings
of LREC-06), pages 2148–2153, Genova.
Strube, M. and U. Hahn. 1999. Functional
Centering - Grounding Referential Coherence in Information Structure. Computational Linguistics, 25(3):309–344.
Navarretta, C. 2002. The use and resolution
of Intersentential Pronominal Anaphora
in Danish Discourse. Ph.D. thesis, University of Copenhagen, February.
111
Costanza Navarretta
FOCUS PROPER < SUBJECT < OBJECT/PrepOBJECT < OBJECT2 < OTHER
COMPLEMENTS < ADJUNCTS
Figure 2: Hierarchy of verbal complements with focality preference
(3) <P id="p35" topic="t35.1">
<S id="s35.1">
<de ID="n173" firstm="MYES" syn-type="PR">
<link Ltype="ident" POINT-BACK="n172"/>
<W id="w35.1.1" lemma="il" pos="DET:def">La</W>
<W id="w35.1.2" lemma="acqua" pos="NOM">Acqua</W>
<W id="w35.1.3." lemma="marcio" pos="ADJ">Marcia</W></de>
<W id="w35.1.4" lemma="potere"pos="VER:pres">può</W>
<W id="w35.1.5" lemma="evitare" pos="VER:infi">evitare</W>
<de ID="n521" firstm="MYES" syn-type="DefN">
<W id="w35.1.6" lemma="il" pos="DET:def">il</W>
<W id="w35.1.7" lemma="fallimento" pos="NOM">fallimento</W></de>
<W id="w35.1.8" lemma="." pos="SENT">.</W></S>
<S id="s35.2">
<de ID="n174" firstm="MNO" syn-type="DefN-anch">
<link Ltype="ident" POINT-BACK="n173"/>
<W id="w35.2.1" lemma="il" pos="DET:def">La</W>
<W id="w35.2.2" lemma="finanziaria" pos="NOM">finanziaria</W>
<W id="w35.2.3" lemma="di" pos="PRE">di</W>
<de ID="n522" syn-type="PR">
<W id="w35.2.4" lemma="Vincenzo" pos="NPR">Vincenzo</W>
<W id="w35.2.5" lemma="romagnoli" pos="NPR">Romagnoli</W></de>
</de>... </S>...
</P>
Continue: Zero> Pronoun>clitic> Dem. N
Retain: Clitic>Pronoun > Proper Name > Def. N >Def. N anchored> Zero > Dem. N
Smooth Shift: Proper Name > Def. N > Pronoun>Def. N anchored
Rough Shift: Def. N > Def. N anchored> Proper Name> Dem. N >Pronoun
NULL: Proper name > Def. N anchored > Indef. N > Def. N
Figure 3: Transition types and referring expressions in Italian
Continue: Pronoun>Name>Def. N anchored
Retain: Pronoun > Proper Name > Def. N anchored >Def. N>
Smooth Shift: Proper Name > Def. N anchored > Pronoun>Def N
Rough Shift: Def. N anchored> Proper Name> Def. N>Pronoun
NULL: Proper name > Def. N anchored > Indef. N > Def. N
Figure 4: Transition types and referring expressions in Danish
112
Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 113-120
recibido 15-01-09, aceptado 02-03-09
Detecting Anaphoricity and Antecedenthood for Coreference
Resolution
Detección de la anaforicidad y de los antecedentes para la resolución de la
correferencia
Olga Uryupina
Institute of Linguistics, Russian Academy of Science
B. Kislovky per. 1/12, Moscow
[email protected]
Resumen: La mayorı́a de sistemas de resolución de la correferencia (CR) intentan
resolver todos los candidatos a anáfora comparándolos a todos los antecedentes
candidatos precedentes hasta que se encuentra el correcto. En este estudio se
investigan las posibilidades de identificar las anáforas y antecedentes improbables.
Se evalúa nuestra aproximación con el corpus MUC-7.
Palabras clave: Correferencia, anaforicidad
Abstract: Most coreference resolution (CR) systems try to resolve all “candidate
anaphors” by comparing them to all preceding “candidate antecedents” until the
correct one is found. In this study we investigate possibilities to identify unlikely
anaphors and antecedents. We evaluate our approach on the MUC-7 corpus.
Keywords: Coreference, Anaphoricity
1
Introduction
Most coreference resolution (CR) systems try
to resolve all “candidate anaphors” by comparing them to all preceding “candidate antecedents” until the correct one is found. Not
all noun phrases in a document, however,
participate in coreference relations, and, even
if they do, they often can only be anaphors
or antecedents, but not both. Present study
investigates possibilities to automatically reduce the pool of anaphors and antecedents
by filtering out unlikely candidates.
In some cases, we can determine if a markable could potentially be an anaphor or an
antecedent by looking at its structure and
surrounding context. Consider the following
example:
(1) Shares in [Loral Space]1 will be
distributed to Loral shareholders. [The
new company]2,ante=1 will start life with
[no debt]3 and $700 million in cash.
[Globalstar]4 still needs to raise [$600
million]5 , and Schwartz said that [the
company]6,ante=4 would try to raise [the
money]7,ante=5 in [the debt market]8 .
The third markable, “no debt” can be neither an anaphor, nor an antecedent. We can
tell that by looking at its structure – with the
determiner “no”, this description does not reISSN 1135-5948
fer to any entity. The second, sixth and seventh markables are all definite descriptions
and therefore are likely to be anaphoric. The
eighth markable, “the debt market” is a definite NP, but it is a uniquely referring description and thus it might as well be non
anaphoric. Finally, the fifth markable, “$600
million” is a possible antecedent (and is indeed mentioned again as “the money” later),
but not a very likely anaphor.
Most CR systems, including, for example,
the algorithm of Soon, Ng, and Lim (2001)
try to resolve all “candidate anaphors” by
comparing them to all preceding “candidate
antecedents” until the correct one is found.
Such approaches require substantial amount
of processing: in the worst case one has to
check n(n − 1)/2 candidate pairs, where n
is the total number of markables found by
the system. Moreover, spurious coreference
links may appear when, for example, a nonanaphoric description is resolved to some preceding markable.
Vieira and Poesio (2000) have shown that
such an exhaustive search is not needed, because many noun phrases are not anaphoric
at all: more than 50% of definite NPs in their
corpus have no prior referents. Obviously,
this number is even higher if one takes into
© 2009 Sociedad Española para el Procesamiento del Lenguaje Natural
Olga Uryupina
account all the other types of NPs – for example, only 30% of our (automatically extracted) markables are anaphoric.
We can conclude that a coreference resolution engine might benefit from a pre-filtering
algorithm for identifying non-anaphoric and
non-antecedent descriptions. First, we save
much processing time by discarding at least
half of the markables. Second, the prefiltering module is expected to improve the system’s precision by discarding spurious candidates.
In Section 2 we briefly summarise theoretical research on anaphoricity and referentiality and discuss the related applications.
Note that theoretical studies focus on referentiality, whereas we will consider a related
task of detecting antecedenthood (this will
be described in details below). In Section 3
we experiment on learning anaphoricity and
antecedenthood filters from the MUC data.
In Section 4 we incorporate the anaphoricity
and antecedenthood classifiers into a baseline
no-prefiltering coreference resolution system
to see if such prefiltering modules help.
2
cific indefinite NP is to be associated with
a referent, a text-interpreting device must be
able to assign a truth value to the proposition
represented by the sentence in which the NP
appears. It must be sensitive to the semantic
properties of verbs that take sentential complements; distinguish between assertion, implication, and presupposition; and finally, it
must distinguish what exists for the speaker
from what exists only for somebody else”.
Byron and Gegg-Harrison (2004) present
an algorithm for identifying “nonlicensing”
NPs based on Karttunen’s theory of referentiality. Their approach relies on a handcrafted heuristic, encoding some of (Karttunen, 1976) factors. In the present study
we represent this information as features for
machine learning.
Numerous theories of anaphoricity, especially for definite descriptions, have been proposed in the literature. We point the reader
to Vieira (1998) for an extensive overview and
comparison of the major theoretic studies in
the field. The theories aim at interpreting
(definite) descriptions by relating them to the
linguistic and situational context and, more
specifically, to their antecedents.
From this perspective, an NP may be
given (related to the preceding discourse)
or new (introducing an independent entity).
The theories of anaphoricity provide different detailed subclassifications of given and
new descriptions. For example, Prince (1981)
distinguishes between the discourse and the
hearer givenness. This results in the following taxonomy:
Related Work
In this section, we present an overview of
theoretical studies of referentiality (Karttunen, 1976) and anaphoricity (Prince,
1981). We also discuss relevant computational approaches (Bean and Riloff, 1999; Ng
and Cardie, 2002; Uryupina, 2003; Vieira
and Poesio, 2000; Byron and Gegg-Harrison,
2004).
Karttunen (1976) points out that in some
cases an NP, in particular an indefinite one,
does not refer to any entity:
(2) Bill doesn’t have [a car].
Obviously, (2) does not imply the existence of any specific “car”. In Karttunen’s
terms, the NP “a car” does not establish
a discourse referent and therefore it cannot
participate in any coreference chain – none
of the alternatives in (3) can follow (2):
(3) A.[It] is black.
B.[The car] is black.
C.[Bill’s car] is black.
• brand new NPs introduce entities which
are both discourse and hearer new (“a
bus”), some of them, brand new anchored NPs, contain explicit link to some
given discourse entity (“a guy I work
with”),
• unused NPs introduce discourse new,
but hearer old entities (“Noam Chomsky”),
• evoked NPs introduce entities already
present in the discourse model and
thus discourse and hearer old: textually
evoked NPs refer to entities which have
already been mentioned in the previous
discourse (“he” in “A guy I worked with
says he knows your sister”), whereas situationally evoked are known for situ-
Karttunen (1976) identifies several factors
affecting referential status of NPs, including modality, negation, or nonfactive verbs.
He argues that an extensive analysis of the
phenomenon requires sophisticated inference:
“In order to decide whether or not a nonspe114
Detecting Anaphoricity and Antecedenthood for Coreference Resolution
preting NPs, accounting for documents information structure.However, it is not a priori clear whether such approaches are useful for coreference resolution. On the one
hand, discarding discourse-new and/or nonreferential NPs from the pool of candidate
anaphors and antecedents, we can drastically
narrow down the algorithm’s search space.
This reduces the processing time and makes
candidate re-ranking much easier. On the
other hand, errors, introduced by automatic
anaphoricity or referentiality detectors, may
propagate and thus deteriorate the performance of a coreference resolution engine.
ational reasons (“you” in “Would you
have change of a quarter?”),
• inferrables are not discourse or hearer
old, however, the speaker assumes the
hearer can infer them via logical reasoning from evoked entities or other inferrables (“the driver” in “I got on a bus
yesterday and the driver was drunk”),
containing inferrables make this inference link explicit (“one of these eggs”).
Linguistic theories, including (Prince,
1981), focus on anaphoric usages of definite
descriptions (either evoked or inferrables).
Recent corpus studies (Poesio and Vieira,
1998) have revealed, however, that more than
50% of (definite) NPs in newswire texts are
not anaphoric. These findings have motivated recent approaches to automatic identification of discourse new vs. old NPs.
Several
algorithms
for
identifying
discourse-new markables have been proposed in the literature, especially for definite
descriptions. Vieira and Poesio (2000) use
hand-crafted heuristics, encoding syntactic
information. For example, the noun phrase
“the inequities of the current land-ownership
system” is classified by their system as
discourse new, because it contains the
restrictive postmodification “of the current
land-ownership system”.
This approach
leads to 72% precision and 69% recall for
definite discourse-new NPs on their corpus.
Palomar and Muñoz (2000) propose a related
algorithm for Spanish.
Bean and Riloff (1999) make use of syntactic heuristics, but also mine additional
patterns for discourse-new markables from
corpus data. Using various combinations
of these methods, (Bean and Riloff, 1999)
achieve an F-measure for existential NPs of
about 81–82% on the MUC-4 data.1
In an earlier paper (Uryupina, 2003)
we have proposed a web-based algorithm
for identifying discourse-new and unique
NPs. Our approach helps overcome the data
sparseness problem of Bean and Riloff (1999)
by relying on Internet counts.
The above-mentioned algorithms for automatic detection of discourse-new and nonreferential descriptions are helpful for inter-
Ng and Cardie (2002) have shown that
an automatically induced detector of nonanaphoric descriptions leads to performance
losses for their coreference resolution engine, because too many anaphors are
misclassified as discourse-new.
To deal
with the problem, they have augmented
their discourse-new classifier with several
precision-improving heuristics. In our webbased study (Uryupina, 2003) we have tuned
machine learning parameters to obtain a classifier with a better precision level. In a later
study, Ng (2004) relies on held-out data to
optimise relevant learning parameters and to
decide on the possible system architecture.
Byron and Gegg-Harrison (2004) report
ambivalent results concerning the importance
of a referentiality detector for pronominal
coreference. On the one hand, the incorporation of referentiality prefiltering in several
pronoun resolution algorithms does not yield
any significant precision gains. On the other
hand, such a prefiltering significantly reduced
the systems’ processing time.
To summarise, several algorithms for detecting non-referring or non-anaphoric descriptions have been proposed in the literature. These studies revealed two major problems. First, it is necessary to identify and
represent relevant linguistic factors affecting
the referentiality or anaphoricity status of an
NP. Second, incorporating error-prone automatic modules for identifying discourse-new
or non-referential descriptions into a coreference resolution engine is a non-trivial task of
its own: when not properly optimised, such
modules may lead to performance losses. We
will address these two problems in the following sections.
1
(Bean and Riloff, 1999) existential class contains
not only brand new NPs, but also all mentions (including anaphoric) of unique descriptions, such as
“the pope” or “the FBI”.
115
Olga Uryupina
3
Identifying Non-anaphors and
Non-antecedents
is an antecedent for some subsequent markable. We have therefore changed the scope
of the present experiment to detecting antecedenthood – the probability for a markable to be an antecedent.
In the present experiment, we rely on
30 MUC-7 “dry-run” documents for training. For testing, we use the validation
(3 MUC-7 “train” documents) and testing (20 MUC-7 “formal test” documents)
sets. This results in 5028 noun phrases
for training and 976/3375 for the validation/testing data. 3325 training instances
were annotated as +discourse new/−ante
and 1703 – as −discourse new/+ante2
(613/2245and 363/1130 for testing). All the
performance figures reported below are for
+discourse new and −ante classes.
Corpus studies (Poesio and Vieira, 1998) suggest that human annotators are able to successfully distinguish between anaphoric (discourse old) and non-anaphoric (discoursenew) descriptions.
This motivates the
present experiment: using machine learning
techniques we try to automatically detect
probable anaphors and antecedents. In our
next experiment (Section 4) we will incorporate our anaphoricity and referentiality classifiers into a coreference resolution system.
3.1
Data
We use the MUC-7 corpus in our experiment. We have automatically extracted noun
phrases using Charniak’s parser (Charniak,
2000) and C&C NE-tagging system (Curran
and Clark, 2003).
We have automatically annotated our
NPs as ±discourse new using the following simple rule: an NP is considered
−discourse new if and only if it is marked
in the corpus and has an antecedent.
Extracting referentiality information from
coreference annotated data is by far less
trivial. By definition (Karttunen, 1976),
non-referential descriptions cannot be antecedents for any subsequent NPs. Consider,
however, the following example:
(7) There was [no listing]1 for [the
company]2 in [Wilmington]3 .
In (7), the NP “no listing” is not referential and, therefore, cannot be an antecedent
for any subsequent markable. Both “the company” and “Wilmington”, on the contrary,
are referential and could potentially be rementioned. However, this does not happen,
as the document ends with the next sentence.
By looking at coreference annotated data, we
can only say whether an NP is an antecedent,
but, if it is not, we cannot decide if it is
referential (as “the company” or “Wilmington”) or not (as “no listing”). Consequently,
we cannot automatically induce referentiality
annotation from coreference data.
For our main task, coreference resolution,
we are not exactly interested in the referential vs. non-referential distinction. We would
rather like to know how likely it is for a markable to be an antecedent. Therefore, instead
of a referentiality detector in the strict sense,
we need a ±ante labelling: an NP is considered +ante, if it is annotated in MUC-7 and
3.2
Features
We encode our markables with feature vectors, representing different linguistic factors:
surface, syntactic, semantic, salience, samehead, and (Karttunen, 1976) properties.
Surface features encode the most shallow properties of an NP, such as its length,
amount of upper and lower case characters
and digits etc. Syntactic features include
POS tags, number and person values, determiner and pre- and post-modification. Semantic features encode gender ans semantic class properties. Salience features encode various rankings within a sentence and
a paragraph according to the linear order of
the NPs and their grammatical role.
“Same-head” features represent coreference knowledge on a very simplistic level.
The boolean feature same head exists
shows if there exists a markable in the
preceding discourse with the same head as
the given NP, and the continuous feature
same head distance encodes the distance
to this markable. Obtaining values for these
features does not require exhaustive search
when heads are stored in an appropriate
data structure, for example, in a trie. The
motivation for “same-head” features comes
from (Vieira and Poesio, 2000) and (Poesio
et al., 2004): they show that anaphoricity detectors might benefit from an early
inclusion of a simplified coreference check.
2
As each anaphor is linked to exactly one antecedent according to the MUC-7 annotation guidelines, there is a one-to-one correspondence between
−discourse new and +ante classes.
116
Detecting Anaphoricity and Antecedenthood for Coreference Resolution
The last group encodes the referentialityrelated factors investigated by Karttunen
(1976) and Byron and Gegg-Harrison (2004):
apposition, copula, negation, modal constructions, determiner, grammatical role, and
semantic class. The values are extracted from
the parser’s and the NE-tagger’s output.
Altogether we have 49 features: 12
surface, 20 syntactic, 3 semantic, 10
salience, 2 “same-head”, and 7 of Karttunen’s constructions, corresponding to 123
boolean/continuous features.
3.3
In fact, the classifier based on these features
alone (Table 1, last line) achieves almost the
same performance level as the one based on
all features taken together (no significant difference in precision and recall, χ2 -test).
As we have already mentioned when discussing the baseline, from a coreference resolution perspective, we are interested in a
discourse-new detector with a high precision
level: each anaphor misclassified as discourse
new is excluded from further processing and
therefore cannot be resolved. On the contrary, if we misclassify a non-anaphoric entity
as discourse old, we still can hope to correctly
leave it unresolved by rejecting all the candidate antecedents. Therefore we might want
to improve the precision of our discourse-new
detector as much as possible, even at the expense of recall.
To increase the precision level, we have
chosen another machine learner, Ripper, that
allows to control the precision/recall tradeoff by manually optimising the LossRatio parameter: by varying the LossRatio from 0.33
to 1.0, we obtain different precision and recall
values. As in SVM’s case, the best performing groups are syntactic and “same head” features. With all the features activated, the
precision gets as high as 90% when the LossRatio is low. In Section 4 we will see if
this performance is reliable enough to help
a coreference resolution engine.
Identifying discourse-new
markables
As a baseline for our experiments we use the
major class labelling: all markables are classified as +discourse new. This results in Fscores of 79.9% and 77.2% for the testing and
validation data. This baseline can be used
as a comparison point for ±discourse new
detectors. However, it has no practical relevance for our main task, coreference resolution: if we classify all the markables as
+discourse new and, consequently, discard
them, the system would not even try to resolve any anaphors. In all the tables in this
paper we show significant improvements over
the baseline for p < 0.05/p < 0.01 by ∗/ ∗ ∗
and significant losses – by †/ † †.
We have trained the SVMlight classifier for ±discourse new descriptions. Its
performance is summarised in Table 1.
Compared to the baseline, the recall goes
down (the baseline classifies everything as
+discourse new, showing the recall level of
100%), but the precision improves significantly. This results in an F-score improvement of 5-8%, corresponding to 23-38% relative error reduction.
Among different feature groups, surface,
salience, and (Karttunen, 1976) factors show
virtually no performance gain over the baseline.
Surface features are too shallow.
Salience and (Karttunen, 1976)-motivated
features have primarily been designed to account for the probability of a markable being an antecedent, not an anaphor. Based
on semantic features alone, the classifier does
not perform different from the baseline – although, by bringing the recall and precision
values closer together, the F-score improves,
the precision is still low.
The two groups with the best precision
level are syntactic and “same head” features.
3.4
Identifying non-antecedents
We have trained another family of classifiers
to detect non-antecedents. Table 2 shows
SVM’s performance for the ±ante task. The
major class labelling, −ante serves as a baseline. The classifier’s performance is lower
than for the ±discourse new task, with only
syntactic and semantic features leading to
a significant precision improvement over the
baseline.
The lower performance level reflects the
intrinsic difficulty of the task. When processing a text, the reader has to decide if an
encountered description is a re-mention or a
new entity to be able to correctly ground it
in the discourse model. Therefore we can expect linguistic cues to signal if a markable is
±discourse new. For ±ante descriptions, on
the contrary, there is no need for such signals:
often an entity is introduced but then never
3
Lower values result in the trivial labelling (“classify everything as discourse old”).
117
Olga Uryupina
Features
Baseline
All
Surface
Syntactic
Semantic
Salience
Same-head
Karttunen’s
mentioned again as the topic changes.
As Table 2 shows, the classifier mostly
makes precision errors. For non-antecedents,
precision is not as crucial as for nonanaphors: if we erroneously discard a correct antecedent, we still can resolve subsequent anaphors to other markables from the
same chain. However, if we misclassify the
first markable and discard it from the pool of
antecedents, we have no chance to correctly
resolve the subsequent anaphors.
Consequently, we would still prefer recall
errors over precision errors, although not to
such extent as for the ±discourse new classifier. We have trained a family of Ripper
classifiers to improve the precision level by
decreasing the LossRatio parameter from 1.0
to 0.3. The best observed precision level is
80.4% for the “all features” classifier.
To summarise, the present experiment
shows that automatically induced classifiers, both SVM and Ripper-based, can
successfully identify unlikely anaphors and
antecedents.
The performance level (Fscore) varies around 75-88% for different
test sets (validation vs. testing) and tasks
(±discourse new vs. ±ante).
Features
Baseline
All
Surface
Syntactic
Semantic
Salience
Same-head
Karttunen’s
Synt+SH
Recall
100
††93.54
100
††97.37
††98.53
††91.22
††84.45
††91.63
††89.98
Precision
66.52
**82.29
66.52
**71.96
*68.89
*69.26
**81.16
**71.15
**83.51
Precision
66.52
*69.23
68.50
*69.23
*69.41
67.0
66.52
67.31
F
79.89
80.35
79.45
80.35
80.18
79.88
79.89
80.23
Table 2: An SVM-based antecedenthood detector: performance for the −ante class on
the test data (20 MUC-7 “formal” documents).
4.1
Oracle settings
To investigate the relevance of anaphoricity
and antecedenthood for coreference resolution, we start by incorporating oracle-based
prefiltering into the baseline system. For
example, our oracle-based anaphoricity filter discards all the discourse-new markables
(according to the MUC-7 coreference chains)
from the pool of anaphors.
The impact of our ideal filters on the
main system is summarised in Table 3. As
expected, by constraining the set of possible anaphors and/or antecedents, we dramatically improve the algorithm’s precision.
Slightly unexpected, the recall goes down
even in the oracle setting. This reflects a
peculiarity of the MUC-7 scoring scheme –
it strongly favours long chains. Prefiltering
modules, on the contrary, split long chains
into smaller ones.
Several other studies (Ng and Cardie,
2002; Mitkov, Evans, and Orasan, 2002) have
revealed similar problems: existing coreference scoring schemes cannot capture the performance of an anaphoricity classifier.
With precision getting much higher at
the cost of a slight recall loss, the ideal
±discourse new and ±ante detectors improve the baseline coreference engine’s performance by up to 10% (F-score).
F
79.89
87.56
79.89
82.76
81.09
78.74
82.77
80.10
86.62
Table 1: An SVM-based anaphoricity detector: performance for the ±discourse new
class on the test data (20 MUC-7 “formal”
documents).
4
Recall
100
††95.72
††94.56
††95.72
††94.92
††98.88
100
††99.29
Integrating Anaphoricity and
Antecedenthood Prefiltering
into a Coreference Resolution
Engine
4.2
Automatically acquired
detectors
Getting from the oracle setting to a more realistic scenario, we have combined our baseline system with the ±discourse new and
±ante detectors we have learnt in our first
experiment.
The evaluation has been organised as follows. For a given LossRatio value, we have
In the previous experiment we have learnt
two families of classifiers, detecting unlikely
anaphors and antecedents. In this section we
incorporate them into a baseline coreference
resolution system – an SVM classifier with
(Soon, Ng, and Lim, 2001) features.
118
Detecting Anaphoricity and Antecedenthood for Coreference Resolution
Prefiltering
No prefiltering (baseline)
Ideal discourse new detector
Ideal ante detector
Ideal discourse new and ante detectors
Recall
54.5
49.6
54.2
52.9
Precision
56.9
**73.6
**69.4
**81.9
F-score
55.7
59.3
60.9
64.3
Table 3: Incorporating oracle-based ±discourse new and ±ante prefiltering into a baseline coreference resolution system: performance on the validation data (3 MUC-7 “train” documents).
learnt a ±discourse new/ ± ante detector as
described above. The detector is then incorporated as a pre-filtering module into the
baseline system. This allows us to evaluate
the performance level of the main coreference
resolution engine (the MUC score) depending
on the precision/recall trade-off of the prefiltering modules.
The results (Figures 1 and 2) show that
automatically induced detectors drastically
decrease the main system’s recall: it goes
down to 40% (for ±discourse new, L = 0.8)
or even 33% (for ±ante, L = 1). For small L
values, the system’s recall is slightly lower,
and the precision higher than the baseline
(both differences are not significant). The
resulting F-score for the system with prefiltering is slightly lower than the baseline’s
performance for small values of the Loss Ratio parameter and then decreases rapidly for
L > 0.5.
To summarise, the results of the present
experiment are ambivalent. On the one hand,
ideal detectors bring F-score gains by significantly increasing the system’s precision. On
the other hand, error-prone automatically induced detectors are not reliable enough to
produce a similar precision gain and the system’s F-score goes down because of the recall
loss, as the baseline’s recall is already relatively low. Consequently, a coreference resolution algorithm might profit from an automatic ±discourse new or ±ante detector if
its precision has to be improved, for example, if it mainly makes recall errors or, for a
specific application, if a high-precision coreference resolution algorithm is required (as,
for example, the CogNIAC system proposed
by (Baldwin, 1996)).
5
60
Discourse new prefiltering
No prefiltering
59.5
59
Precision
L=1
L=0.3
58.5
58
57.5
57
56.5
40
42
44
46
48
Recall
50
52
54
56
Figure 1: A baseline coreference resolution engine augmented with Ripper-based
anaphoricity prefiltering: performance on
the validation (3 MUC-7 “train” documents)
data for different LossRatio (L) values of prefiltering classifiers.
60
59
L=0.3
Precision
58
57
56
Antecedenthood prefiltering
No prefiltering
55
L=1
54
30
35
40
45
50
55
Recall
Figure 2: A baseline coreference resolution engine augmented with Ripper-based antecedenthood prefiltering: performance on
the validation (3 MUC-7 “train” documents)
data for different LossRatio (L) values of prefiltering classifiers.
texts participate in coreference chains, our
±discourse new and ±ante detectors might
significantly constrain the main algorithm’s
search space, improving its speed and performance.
We have compared different feature
groups for the tasks of ±discourse new and
±ante detection. We have seen that, for both
tasks, SVM and Ripper classifiers based on
all the investigated features outperform the
Conclusion
In this paper we have investigated the
possibility of automatically identifying unlikely anaphors and antecedents. As only
around 30% of markables in newswire
119
Olga Uryupina
baseline. We have also learnt two families
of classifiers with different precision/recall
trade-offs.
We
have
incorporated
our
±discourse new and ±ante detectors
into a baseline coreference resolution system.
We have seen that ideal prefiltering significantly improves the system’s precision at
the expense of a slight recall loss. This leads
to an F-score improvement of up to 10%.
Automatically acquired detectors can only
moderately improve the system’s precision
and therefore do not bring any F-score gains.
We still believe, however, that anaphoricity and antecedenthood detectors might help
a coreference resolution system with a lower
precision and higher recall.
guistics and Intelligent Text Processing.
Springer, pages 169–187.
Ng, Vincent. 2004. Learning noun phrase
anaphoricity to improve coreference resolution: Issues in representation and optimization. In Proceedings of the 42nd Annual Meeting of the Association for Computationa Linguistics.
Ng, Vincent and Claire Cardie. 2002. Identifying anaphoric and non-anaphoric noun
phrases to improve coreference resolution.
In Proceedings of the 19th International
Conference on Computational Linguistics.
Palomar, Manuel and Rafael Muñoz. 2000.
Definite descriptions in an information extraction systems. In IBERAMIA-SBIA,
pages 320–328.
References
Poesio, Massimo, Olga Uryupina, Renata
Vieira, Mijail Alexandrov-Kabadjov, and
Rodrigo Goulart. 2004. Discourse-new
detectors for definite description resolution: a survey and preliminary proposal.
In Proceedings of the Refrence Resolution
Workshop at ACL’04.
Baldwin, Breck. 1996. Cogniac: A high precision pronoun resolution engine. Technical report, University of Pennsylvania.
Bean, David L. and Ellen Riloff. 1999.
Corpus-based identification of nonanaphoric noun phrases. In Proceedings
of the 37th Annual Meeting of the Association for Computationa Linguistics,
pages 373–380.
Poesio, Massimo and Renata Vieira. 1998. A
corpus-based investigation of definite description use. Computational Linguistics,
24(2):183–216.
Byron, Donna and Whitney Gegg-Harrison.
2004.
Eliminating non-referring noun
phrases from coreference resolution. In
Proceedings of the 4th Discourse Anaphora
and Anaphor Resolution Colloquium.
Prince, Ellen E. 1981. Toward a taxonomy
of given-new information. In P. Cole, editor, Radical Pragmatics. Academic Press,
pages 223–256.
Charniak, Eugene. 2000. A maximumentropy-inspired parser. In Proceedings
of the 1st Meeting of the North American
Chapter of the Association for Computational Linguistics, pages 132–139.
Soon, Wee Meng, Hwee Tou Ng, and Daniel
Chung Yong Lim. 2001. A machine
learning approach to coreference resolution of noun phrases. Computational Linguistics (Special Issue on Computational
Anaphora Resolution), 27(4):521–544.
Curran, James R. and Stephen Clark. 2003.
Language independent NER using a maximum entropy tagger. In Proceedings of the
Seventh Conference on Natural Language
Learning, pages 164–167.
Uryupina, Olga. 2003. High-precision identification of discourse-new and unique noun
phrases. In Proceedings of the ACL’03
Student Workshop, pages 80–86.
Karttunen, Lauri. 1976. Discourse referents.
In J. McKawley, editor, Sytax and Semantics, volume 7. Academic Press, pages
361–385.
Vieira, Renata. 1998. A review of the linguistic literature on definite descriptions.
Acta Semiotica et Linguistica, 7:219–258.
Vieira, Renata and Massimo Poesio. 2000.
An empirically-based system for processing definite descriptions. Computational
Linguistics, 26(4):539–593.
Mitkov, Ruslan, Richard Evans, and Constantin Orasan. 2002. A new, fully automatic version of mitkov’s knowledge-poor
pronoun resolution method. In Alexander Gelbukh, editor, Computational Lin120
Tesis
Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 123-124
recibido 28-11-08, aceptado 02-03-09
Empleo de métodos no supervisados basados en corpus para
construir traductores automáticos basados en reglas∗
Using unsupervised corpus-based methods to build rule-based
machine translation systems
Felipe Sánchez-Martı́nez
Departament de Llenguatges i Sistemes Informàtics
Universitat d’Alacant. E-03071, Alacant, Spain
[email protected]
Resumen: Tesis doctoral en Informática realizada en la Universitat d’Alacant por
Felipe Sánchez Martı́nez bajo la dirección de los doctores Juan Antonio Pérez Ortiz
y Mikel L. Forcada. La defensa de la tesis tuvo lugar el 30 de junio de 2008 ante
el tribunal formado por los doctores Rafael C. Carrasco (Univ. d’Alacant), Lluı́s
Padró y Lluı́s Màrquez (Univ. Politècnica de Catalunya), Harold Somers (Univ. of
Manchester) y Andy Way (Dublin City Univ.). La calificación obtenida fue Sobresaliente Cum Laude por unanimidad, con mención de Doctor Europeo.
Palabras clave: Traducción automática, desambiguación léxica categorial, inferencia de reglas de transferencia, modelado del lenguaje.
Abstract: PhD thesis in Computer Engineering written by Felipe Sánchez-Martı́nez
at Universitat d’Alacant under the joint supervision of Dr. Juan Antonio Pérez-Ortiz
and Dr. Mikel L. Forcada. Author was examined on June 30th , 2008 by the committee formed by Dr. Rafael C. Carrasco (Univ. d’Alacant), Dr. Lluı́s Padró and
Dr. Lluı́s Màrquez (Univ. Politècnica de Catalunya), Dr. Harold Somers (Univ. of
Manchester) and Dr. Andy Way (Dublin City Univ.). The grade obtained was Sobresaliente Cum Laude (highest mark), with the European Doctor mention.
Keywords: Machine translation, part-of-speech tagging, language modeling, transfer rules inference.
1.
Introducción
Recientemente los enfoques basados en
corpus para el desarrollo de sistemas de traducción automática (TA) han visto incrementada la atención recibida; sin embargo, los sistemas de TA basados en reglas siguen siendo
desarrollados dado que no todos los pares de
lenguas para los cuales existe demanda tienen a su disposición la gran cantidad de textos paralelos necesarios para entrenar sistemas de TA de propósito general basados en
corpus; y también porque los sistemas basados en reglas son más fácilmente diagnosticables y los errores que producen suelen tener
una naturaleza más repetitiva y previsible, lo
cual ayuda a los profesionales que tienen que
corregir su salida.
Esta tesis se centra en el desarrollo de sistemas de TA basados en reglas y más concretamente en sistemas de TA por transfe∗
Tesis financiada por el Ministerio de Educación y
Ciencia y el Fondo Social Europeo a través de la ayuda a la investigación BES-2004-4711.
ISSN 1135-5948
rencia estructural superficial (Hutchins y Somers, 1992) para la traducción entre lenguas
emparentadas.
De todos los recursos que son necesarios
para construir un sistema de TA por transferencia (estructural) superficial esta tesis se
centra en la obtención de forma no supervisada, a partir de corpus, de:
los desambiguadores léxicos categoriales
empleados para resolver la ambigüedad
léxica de los textos a traducir, y
el conjunto de reglas de transferencia que
se emplean para adecuar la traducción a
la reglas gramaticales de la lengua meta.
2.
Desambiguadores léxicos
categoriales para TA
En TA, la correcta elección de la categorı́a
léxica de las palabras a traducir es crucial dado que la traducción de una palabra en lengua origen (LO) a la lengua meta (LM) puede
diferir de una categorı́a léxica a otra.
© 2009 Sociedad Española para el Procesamiento del Lenguaje Natural
Felipe Sánchez-Martínez
De entre los diferentes enfoques existentes
para la obtención de desambiguadores léxicos
categoriales, esta tesis se centra en el desarrollo de desambiguadores léxicos categoriales basados en modelos ocultos de Markov
(MOM) (Cutting et al., 1992). Éstos pueden entrenarse de forma supervisada mediante el empleo de textos desambiguados (o etiquetados) a mano, o bien de forma no supervisada mediante el uso del algoritmo de
Baum y Welch con texto no etiquetado. Estos métodos sólo emplean información de la
lengua que pretenden desambiguar. Sin embargo, cuando el desambiguador léxico categorial resultante se integra en un sistema de
TA hay que tener en consideración:
Una vez obtenidas, las plantillas de alineamiento son filtradas atendiendo a su frecuencia de aparición en la colección de textos
paralelos. Finalmente las plantillas de alineamiento seleccionadas se emplean para la generación de reglas de transferencia en el formato usado por el ingenio de TA Apertium.
Para evaluar las reglas inferidas se han
realizado experimentos con tres pares de lenguas de Apertium. Las reglas inferidas ofrecen mejores resultados que la traducción palabra por palabra, y resultados próximos a los
obtenidos cuando las reglas de transferencia
son codificadas a mano por lingüistas.
En cuanto a la cantidad de corpus paralelos necesarios para obtener un conjunto de
reglas de transferencia que proporcionen una
calidad de traducción aceptable, los experimentos realizados con distintos tamaños de
corpus demuestran que con un corpus de medio millón de palabras la calidad de las reglas
inferidas es satisfactoria, incluso para algunos pares de lenguas la calidad es similar a la
obtenida cuando las reglas de transferencia
se obtiene a partir de un corpus de entrenamiento de dos millones de palabras.
que un modelo estadı́stico de la LM puede utilizarse de forma no supervisada
para obtener mejores desambiguadores
léxicos categoriales, y
que en TA lo que realmente importa es
la calidad final de la traducción, no la
precisión del desambiguador.
Se propone un nuevo método, inspirado
en los dos hechos arriba mencionados, para
el entrenamiento de desambiguadores léxicos
categoriales de la LO basados en MOM, mediante el empleo de información de la LM,
ası́ como del resto de módulos del sistema de
TA en el que el desambiguador se integra. Los
experimentos realizados con tres pares de lenguas de Apertium (http://www.apertium.
org) muestran que el sistema de TA ofrece mejores resultado cuando el desambiguador léxico categorial es entrenado usando este
nuevo método que cuando es entrenado con
el algoritmo de Baum y Welch.
3.
Información adicional
Los métodos descritos en esta tesis han sido liberados como código
abierto y pueden descargarse desde
http://sf.net/projects/apertium/; paquetes apertium-tagger-training-tools
y apertium-transfer-tools. Estos paquetes se integran perfectamente en el proceso
de desarrollo de nuevos pares de lenguas
para Apertium. La tesis está disponible en
http://www.dlsi.ua.es/~fsanchez/pub/
thesis/thesis.pdf.
Bibliografı́a
Inferencia automática de
reglas de transferencia
estructural
Cutting, D., J. Kupiec, J. Pedersen, y P. Sibun. 1992. A practical part-of-speech tagger. En Proceedings of the Third Conference on Applied Natural Language Processing, páginas 133–140.
Esta tesis también propone un método
no supervisado para la inferencia de reglas
de transferencia estructural superficial. Esta
reglas se basan en plantillas de alineamiento (Och y Ney, 2004) como las usadas en TA
estadı́stica. Para su empleo en sistemas de TA
basados en reglas las plantillas de alineamiento han tenido que ser adaptadas y extendidas
con un conjunto de restricciones que controlan su aplicación como reglas de transferencia.
Hutchins, W. J. y H. L. Somers. 1992. An Introduction to Machine Translation. Academic Press.
Och, F. J. y H. Ney. 2004. The alignment
template approach to statistical machine
translation. Computational Linguistics,
30(4):417–449.
124
Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 125-126
recibido 22-12-08, aceptado 02-03-09
Los Roles Semánticos en la Tecnologı́a del Lenguaje Humano:
Anotación y Aplicación∗
Semantic Roles in Human Language Technology: Annotation and
Application
P. Moreda
Grupo de Procesamiento del Lenguage Natural - Universidad de Alicante
Carretera San Vicente del Raspeig s/n 03690 - Alicante, Spain
[email protected]
Resumen: La tesis presentada se centra en el análisis semántico de textos, y más
concretamente, en el proceso de anotación de roles semánticos y su aplicación a otras
tareas de Procesamiento de Lenguaje Natural. Dicho trabajo se puede resumir en
tres objetivos principales: i) Investigar en los conjuntos de roles semánticos y recursos lingüı́sticos definidos sobre ellos que hay disponibles hasta la fecha; ii) Abordar
el desarrollo de una herramienta para la anotación automática de roles semánticos,
SemRol, que permita realizar un análisis de las necesidades de dichas herramientas;
iii) Aportar información y conclusiones sobre la influencia de los roles semánticos en
sistemas de búsqueda de respuestas.
Palabras clave: Roles semánticos, etiquetado automático de roles semánticos,
aprendizaje automático supervisado, selección de caracterı́sticas, búsqueda de respuestas
Abstract: The presented PhD focuses on semantic analysis, and more specifically
in semantic role labeling processes and their application to other Natural Language
Processing areas. So, the main goals of this work could be defined as follows: i) To
research into semantic role sets and linguistic resources using them that are avaliable
to date; ii) To develop a semantic role labeling tool, named SemRol, to analyze the
information needed for these kind of processes: iii) To contribute conclusions about
the influence of semantic roles in question answering systems.
Keywords: Semantic roles, automatic semantic role labeling, supervised machine
learning, feature selection, question answering
Introducción
y tiempo, respectivamente.
Un rol semántico es la relación entre un
constituyente sintáctico (generalmente, aunque no siempre, argumento del verbo) y un
predicado (generalmente, aunque no siempre,
un verbo). Ejemplos de roles semánticos son
agente, paciente, beneficiario, etc. o también
adjuntos como causa, manera, lugar, etc.
Por ejemplo, la oración (1), tiene cinco constituyentes cada uno de ellos con
un rol semántico diferente. El constituyente
sintáctico “Mary” tiene el rol agente, y los
constituyentes, “John” y “with a baseball ”
tienen los roles paciente e instrumento, respectivamente. Además, los constituyentes “in
the park ” y “yesterday” tienen los roles lugar
∗
Esta tesis ha sido parcialmente financiada por el
proyecto TEXT-MESS : Minerı́a de Textos Inteligente, Interactiva y Multilingüe basada en Tecnologı́a del
Lenguage Humano (TIN2006-15265-C06-01)
ISSN 1135-5948
(1)
[AGEN T Mary] hit [P ACIEN T John]
[IN ST RU M EN T with a baseball] [T EM P
yesterday] [LOC in the park]
Una caracterı́stica importante de los roles semánticos es que aunque cambie el orden de los constituyentes o incluso la voz o el
tiempo verbal de la oración, los roles semánticos de los constituyentes no varı́an. Por ejemplo, consideremos la oración anterior (1), si la
cambiamos por la oración (2):
(2)
[T EM P Yesterday] [P ACIEN T John] was
hit [AGEN T by Mary] [IN ST RU M EN T
with a baseball] [LOC in the park]
o incluso si la traducimos al castellano y aún
habiendo diferencias sintácticas como en el
ejemplo (3):
(3)
[T EM P Ayer] [AGEN T Marı́a] golpeó [P ACIEN T a Juan] [LOC en el par-
© 2009 Sociedad Española para el Procesamiento del Lenguaje Natural
P. Moreda
Análisis de los procesos de selección de
caracterı́sticas más importantes definidos hasta el momento, necesarios en enfoques basados en aprendizaje automático.
que] [IN ST RU M EN T con una pelota de
béisbol]
se obtiene que en cualquiera de los casos
“Mary/Marı́a” continúa jugando el rol agente, “John/Juan” el rol paciente, “with a baseball/con una pelota de béisbol” el rol instrumento, “in the park/en el parque” el rol
de lugar y “yesterday/ayer ” el rol temporal.
Por tanto, se podrı́a concluir, que los roles semánticos permiten interpretar los textos
determinando las relaciones semánticas entre
las entidades y los eventos en los que participan. Es decir, los roles semánticos ayudan
a determinar, capturar y representar “quién
hizo qué a quién, dónde, cuando, cómo y por
qué”, pudiendo con ello responder a preguntas como “quién”, “cuándo”, “dónde”, etc.
Ver figura 1.
Investigación en cuanto a sistemas de
anotación automática de roles semánticos desarrollados, atendiendo al corpus
utilizado, a la lengua para la que se han
definido, al conjunto de roles semánticos
utilizado en la anotación, a la información requerida para afrontar el proceso
de anotación, y a la estrategia o enfoque
seguido en dicho proceso de anotación.
Desarrollo de una herramienta de anotación propia, denominada SemRol, que
hace uso de enfoques basados en aprendizaje automático supervisado, y que
permite seleccionar el clasificador y la información concreta a utilizar en función
de las necesidades de la anotación.
WHERE
WHEN
WHAT
WHO
WHOM
Mary hit John
AGENT
with a baseball yesterday in the park
PACIENT
INSTRUMENT
TEMP
Experimentación y prueba de un proceso
de ajuste de la información requerida por
SemRol.
LOC
WHERE
WHEN
WHO
WHOM
Yesterday,
John
TEMP
PACIENT
WHAT
was hit with a baseball by Mary in the park
INSTRUMENT
AGENT
LOC
Evaluación de diferentes estrategias de
anotación seguidas en SemRol: i) anotación por sentidos frente a única, ii) anotación global frente a individual.
Desarrollo de un sistema de búsqueda de
respuestas modular, basado en Web, que
permite extraer a partir de snippets posibles respuestas atendiendo a diferentes
criterios: i) entidades nombradas, ii) reglas semánticas, y iii) patrones semánticos.
Figura 1: Utilidad de los roles semánticos en
búsqueda de respuestas
Aportaciones
Atendiendo a los objetivos fijados, las
principales aportaciones de este trabajo al
conocimiento de la investigación en roles
semánticos se pueden resumir en:
Evaluación de la aportación de los roles semánticos a los sistemas de búsqueda de respuesta, desde dos perspectivas
diferentes: i) comportamiento de reglas
y patrones basados en roles semánticos,
ii) comportamiento de entidades nombradas y roles semánticos.
Amplia recopilación de la gran diversidad de propuestas de conjuntos de roles
semánticos realizadas hasta la fecha.
Información general de la tesis
Propuesta de un conjunto de roles
semánticos propio, desarrollado atendiendo a criterios de aplicabilidad, generalidad, jerarquı́a y conexión con otras
propuestas de anotación.
Tesis doctoral en Informática realizada en la Universidad de Alicante por Paloma Moreda Pozo bajo la dirección
del Dr. Manuel Palomar Sanz. La defensa de la tesis tuvo
lugar el 21 de Julio de 2008 ante el tribunal formado por
los doctores Antonio Ferrández, Estela Saquete, Ruslan
Mitkov, Lidia Moreno y L. Alfonso Ureña. La calificación
obtenida fue Sobresaliente Cum Laude por unanimidad.
Evaluación y estudio exhaustivos de los
diferentes recursos lingüı́sticos basados
en roles semánticos desarrollados hasta
el momento.
La tesis completa puede consultarse en la dirección
http://gplsi.dlsi.ua.es/mwgplsi/upload/5/51/TesisMoreda.pdf
126
Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 127-128
recibido 23-12-08, aceptado 02-03-09
Arquitectura multilingüe de sistemas de búsqueda de respuestas
basada en ILI y Wikipedia
Cross–Lingual Question Answering Architecture based on ILI and
Wikipedia
Sergio Ferrández Escámez
Dept. de Lenguajes y Sistemas Informáticos (Universidad de Alicante)
Carretera San Vicente s/n 03690 Alicante España
[email protected]
Resumen: Tesis doctoral en Informática realizada en la U. Alicante (UA) por Sergio
Ferrández bajo la dirección de Antonio Ferrández. La defensa de la tesis tuvo lugar
ante un tribunal formado por los doctores Manuel Palomar (UA), Rafael Muñoz
(UA), Paolo Rosso (UPV), Horacio Rodrı́guez (UPC) y Marı́a Teresa Martı́n (UJ)
el 30 de junio de 2008. Calificación: Sobresaliente Cum Laude por unanimidad.
Palabras clave: Búsqueda de Respuestas Multilingüe, ILI, Wikipedia
Abstract: PhD Tesis in Computer Science written by Sergio Ferrández under the
supervision of Dr. Antonio Ferrández. The author was examined in June 30, 2008
by the committee formed by doctors Manuel Palomar (UA), Rafael Muñoz (UA),
Paolo Rosso (UPV), Horacio Rodrı́guez (UPC), and Marı́a Teresa Martı́n (UJ).
Grade: Sobresaliente Cum Laude unanimously.
Keywords: Cross–Lingual Question Answering, ILI, Wikipedia
1.
Introducción y objetivos
Los sistemas de Búsqueda de Respuestas
(BR) multilingüe se diseñan con el objetivo
de encontrar respuestas concisas dentro de
documentos escritos en lenguas diferentes a la
lengua con la que se formula la pregunta. Esta visión, amplia el campo de búsqueda, permitiendo localizar respuestas en documentos
que operando de forma monolingüe no serı́an
procesados.
“Who directed The Sting? ”(¿Quién dirigió El Golpe?) Responder a una pregunta
simple como ésta en un dominio abierto multilingüe es actualmente un reto por conseguir.
Esta situación de imprecisión es provocada,
en la mayorı́a de los casos, por la falta de
exactitud de los servicios de Traducción Automática (TA). Actualmente, el volumen de
textos en lenguaje natural en diferentes lenguas provoca la necesidad de diferentes formas de acceso a la información. Ciertamente,
la multilingualidad es una de las dificultades
principales que impide la correcta adquisición
de información.
Ningún sistema de BR multilingüe basado en el uso de servicios de TA serı́a capaz
de resolver una pregunta como la anteriormente citada, ya que el nombre de la pelı́cula
ISSN 1135-5948
siempre serı́a erróneamente traducido por la
herramienta de TA.1 El trabajo de investigación desarrollado en esta tesis doctoral se
centra en el diseño e implementación de una
técnica robusta de BR multilingüe que minimice este tipo de errores y que aproxime la
precisión entre BR monolingüe y multilingüe.
El objetivo principal de la tesis versa en
el diseño de una metodologı́a y arquitectura general de sistemas que resuelva la tarea
de la BR multilingüe, explotando al máximo
los recursos multilingües disponibles y minimizando la pérdida de precisión implı́cita en
los procesos en los que diferentes lenguas se
ven implicadas.
2.
Contenido
La memoria que redacta la tesis doctoral2
se compone de un total de 9 capı́tulos:
Capı́tulo 1: Introduce el problema de la
BR multilingüe, realizando un repaso histórico, estableciendo los problemas principales y
definiendo la necesidad e importancia actual
de este tipo de tareas.
Capı́tulo 2: Introduce el origen y necesidad del acceso a la información multilingüe,
1
Quién dirige el Sting? (traducción por http:
//www.google.es/translate_t?langpair=en|es
2
Disponible en -
© 2009 Sociedad Española para el Procesamiento del Lenguaje Natural
Sergio Ferrández Escámez
realiza un estudio de los principales foros, sistemas y diseños de BR multilingüe, presentando los resultados obtenidos por los principales sistemas y mostrando cómo sus técnicas
para resolver la tarea influyen directamente
en la precisión global.
Capı́tulo 3: Presenta un estudio realizado sobre los errores provocados por el uso de
servicios de TA en la BR bilingüe. Con el objetivo de ejemplificar y corroborar cómo la
TA de las preguntas genera errores que dificultan la localización de respuestas.
Capı́tulo 4: Expone un estudio realizado
con el objetivo de demostrar la importancia
del reconocimiento y clasificación de las entidades de las preguntas. Además, se estudia
la necesidad de traducción de las mismas en
los procesos multilingües.
Capı́tulo 5: Describe nuestro sistema de
BR monolingüe para la lengua castellana,
AliQAn, el cual es utilizado como baseline de
nuestra arquitectura multilingüe.
Capı́tulo 6: Presenta nuestra propuesta,
la arquitectura de BR multilingüe BRILIW
(Búsqueda de Respuestas usando ILI (Inter
Lingua Index ) y Wikipedia) (ver figura 1).
Entre otros aspectos, se detalla cómo nuestra arquitectura BRILIW soluciona los problemas que ocasionan el uso de servicios de
TA.
presenta el diseño de nuestro objeto XML que
proporciona un modelo para la comunicación
y almacenamiento de la esencia de nuestra
arquitectura BRILIW.
Capı́tulo 8: Muestra la evaluación efectuada sobre la arquitectura BRILIW. En ella,
se evalúa nuestra arquitectura, y se compara con ejecuciones monolingües y aplicaciones basadas en el uso de TA. Además, también se realizan experimentos que evalúan la
bondad de nuestra técnica de control y traducción de las entidades de las preguntas de
entrada. Los experimentos realizados revelan
que nuestras estrategias mejoran los resultados de la utilización de máquinas de TA, y
de acuerdo con las publicaciones existentes,
obtienen mejores resultados que los actuales
sistemas de BR bilingüe. Por otro lado, en
este capı́tulo también se exponen las pruebas
externas realizadas en nuestra participación
en el CLEF.
Capı́tulo 9: Pretende exponer las principales aportaciones y conclusiones extraı́das
de nuestro trabajo de investigación en la BR
multilingüe, ası́ como los trabajos en progreso
y futuros.
3.
Módulo de Identificación
del Lenguaje
Wikipedia
Módulo de Traducción de las
Entidades Nombradas
NERUA
Módulo ILI
Módulo de Referencia
Inter - Lingual
Documentos
Módulo de
Análisis de la Pregunta
Módulo de Selección de
Pasajes Relevantes
IR-n
SUPAR
Módulo de
Extracción de la Respuesta
Conclusiones y aportaciones
Tres pilares sustentan nuestra arquitectura y la diferencian del resto de propuestas
actuales: 1) Explotación de diferentes fuentes de conocimiento multilingüe en diferentes etapas del proceso de BR multilingüe y
con diferentes objetivos de traducción; 2) La
búsqueda de respuestas candidatas se realiza
haciendo uso de más de una traducción de cada una de las palabras de la pregunta; y 3) El
análisis de la pregunta de entrada se realiza
en el lenguaje original de la misma.
La arquitectura BRILIW proporciona una
metodologı́a alternativa al uso de servicios de
TA. Dentro del campo de la BR multilingüe,
nuestra arquitectura ha sido la primera en
diseñar e implementar procesos multilingües
que exploten el módulo ILI de EuroWordNet
y el conocimiento multilingüe codificado en
Wikipedia.
Agradecimientos
Esta investigación ha sido parcialmente financiada bajo los proyectos QALL-ME, dentro del Sexto Programa Marco de Investigación de la Unión Europea con referencia FP6IST-033860, y TEX–MESS, CICyT número
TIN2006-15265-C06-01.
Figura 1: Arquitectura BRILIW
Capı́tulo 7: Presenta las herramientas y
diseños software desarrollados dentro del trabajo de investigación. Al mismo tiempo, se
128
Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 129-130
recibido 16-01-09, aceptado 02-03-09
On Clustering and Evaluation of
Narrow Domain Short-Text Corpora∗
Agrupamiento y Evaluación de Corpora
de Textos Cortos y de Dominios Restringidos
David Eduardo Pinto Avendaño
Natural Language Engineering Lab., DSIC
Universidad Politécnica de Valencia
Facultad de Ciencias de la Computación, BUAP
[email protected]
Resumen: Tesis doctoral en Informática realizada por David Eduardo Pinto Avendaño y dirigida por los doctores Paolo Rosso (Univ. Politécnica de Valencia) y Héctor
Jiménez (Univ. Autónoma Metropolitana, México). El acto de defensa de tesis tuvo
lugar en Valencia en Julio de 2008 ante el tribunal formado por los doctores Manuel
Palomar Sanz (Univ. de Alicante), Alfonso Ureña López (Univ. de Jaén), Eneko
Agirre (Univ. del Paı́s Vasco), Benno Stein (Univ. de Weimar, Alemania) y Encarna
Segarra Soriano (Univ. Politécnica de Valencia). La calificación obtenida fue Sobresaliente Cum Laude.
Palabras clave: Agrupamiento, Evaluación, Textos cortos, Dominios restringidos
Abstract: PhD thesis in Computer Science written by David Eduardo Pinto Avendaño under the supervision of Paolo Rosso (Univ. Politécnica de Valencia) and
Héctor Jiménez (Univ. Autónoma Metropolitana, México). The author was examined in July 2008 in Valencia by the following committee: Manuel Palomar Sanz
(Univ. de Alicante), Alfonso Ureña López (Univ. de Jaén), Eneko Agirre (Univ. del
Paı́s Vasco), Benno Stein (Weimar Univ., Germany) and Encarna Segarra Soriano
(Univ. Politécnica de Valencia). The grade obtained was Sobresaliente Cum Laude.
Keywords: Clustering, Evaluation, Narrow Domain Short-text corpora
1.
Introduction
In this Ph.D. thesis we investigate the problem of clustering a particular set of documents namely narrow domain short texts.
To achieve this goal, we have analysed datasets and clustering methods. Moreover, we
have introduced some corpus evaluation measures, term selection techniques and clustering validity measures in order to study the
following problems:
1. To determine the relative hardness of a
corpus to be clustered and to study some of its features such as shortness, domain broadness, stylometry, class imbalance and structure.
2. To improve the state of the art of clustering narrow domain short-text corpora.
The research work we have carried out is
partially focused on “short-text clustering”.
This PhD thesis was supported by the BUAP-701
PROMEP/103.5/-05/1536 grant.
∗
ISSN 1135-5948
We consider this issue to be quite relevant,
given the current and future way people use
“small-language” (e.g. blogs, snippets, news
and text-message generation such as email or
chat). Moreover, we study the domain broadness of corpora. A corpus may be considered
to be narrow or wide domain if the level of
the document vocabulary overlapping is high
or low, respectively. In fact, in the categorization task, it is very difficult to deal with
narrow domain corpora such as scientific papers, technical reports, patents, etc.
The aim of this research work is to study
possible strategies to tackle the following two
problems: a) the low frequencies of vocabulary terms in short texts, and b) the high
vocabulary overlapping associated to narrow
domains.
Each problem alone is challenging enough,
however, the clustering of narrow domain
short-text corpora is considered one of the
most difficult tasks of unsupervised data
analysis.
© 2009 Sociedad Española para el Procesamiento del Lenguaje Natural
David Eduardo Pinto Avendaño
2.
3.
Thesis overview
The major contributions of the investigations carried out are:
In this thesis, we deal with the treatment
of narrow domain short-text collections in three areas: evaluation, clustering and validation of corpora.
The document is structured as follows:
In Chapter 1, we introduce basic concepts
and we summarize the major contributions of
the research work carried out.
Chapter 2 gives an overview of the clustering methods, clustering measures, term selection techniques and datasets used in this
study.
In Chapter 3, we analyse the implications
of clustering narrow domain short-text corpora, studying the role of the term selection
process as well as the instability of a term
selection technique based on the selection of
mid-frequency terms. We also make a comparison of different clustering methods in the
narrow domain short-text framework. Finally, we evaluate the performance of the term
selection techniques on a standard narrow domain short-text corpus.
Chapter 4 proposes the use of several measures (most of which are introduced in this
work) to assess different corpus features. These measures are tested on several corpora and
implemented in the Watermarking Corpora
On-line System (WaCOS)1,2 .
Chapter 5 presents a new methodology
(based on term co-occurrence) for improving
document representation for clustering narrow domain short texts. The self-term expansion methodology, which is independent
of any external knowledge resource, greatly
improves the results obtained by using classical document representation. This fact was
confirmed in the practical task of word sense
induction whose obtained results are shown
in Chapter 6.
In Chapter 7, we study the impact of internal clustering validity measures by using
narrow domain short-text corpora.
Finally, in Chapter 8 we draw the conclusions of the research that we have carried out.
In this last chapter we also discuss some interesting research directions, which are derived from the obtained results of this Ph.D.
thesis and which we consider to be useful for
future work.
1
2
Thesis contributions
1. The study and introduction of evaluation measures to analyse the following
features of a corpus: shortness, domain
broadness, class imbalance, stylometry
and structure.
2. The development of WaCOS for the assessment of corpus features.
3. A new unsupervised methodology
(which does not use any external
knowledge resource) for dealing with
narrow domain short-text corpora. This
methodology suggests first applying
self-term expansion and then term
selection.
We analysed different corpus features as
evidence of the relative hardness of a given
corpus with respect to clustering algorithms.
In particular, the degree of shortness, domain broadness, class imbalance, stylometry
and structure were studied.
We introduced some (un)supervised measures in order to assess these features. The
supervised measures were used both to evaluate the corpus features and, even more importantly, to assess the gold standard provided by experts for the corpus to be clustered.
The unsupervised measures evaluate the document collections directly (i.e., without any
gold standard) and, therefore, they may also
be used for other purposes, for instance, to
adjust clustering methods while being executed in order to improve the results.
The most successful measures were compiled in a freely functional web-based system
that allows linguistics and computational linguistics researchers to easily assess the quality of corpora with respect to the aforementioned features.
The experiments conducted confirmed
that the clustering of narrow domain shorttext corpora is a very challenging task. However, the contributions of this research work
are proof that it is possible to deal with this
difficult problem. The aim is now to investigate subjective scenarios such as the blogsphere.
http://nlp.cs.buap.mx/watermarker/
http://nlp.dsic.upv.es:8080/watermarker/
130
Reseñas
Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 133-134
recibido 18-12-08, aceptado 02-03-09
Storrer, A., Geyken, A., Siebert, A. and Würzner, K.M. (eds.).
2008. Text Resources and Lexical Knowledge. Mouton de
Gruyter: Berlin/New York. 260 p.
Isabel Durán Muñoz
Universidad de Málaga
Campus de Teatinos s/n
29071-Málaga
[email protected]
This book is published in the series Text,
Translation, Computational Processing
[TTCP], by Walter de Gruyter, and
contains selected contributions to the 9th
biennial conference on Natural Language
Processing (KONVENS 2008), organized by
the scientific societies DEGA, DGfS, GI,
GLDV, ITG and ÖGAI in Berlin.
The central theme of this conference
was the dynamic interaction between digital
text resources and lexical knowledge
representations, illustrating in particular the
importance of methods in corpus linguistics
for building lexical resources on the one
hand, and the relevance of lexical resources
for analysis of and intelligent search
methods for text corpora on the other. The
most innovative works presented at the
conference were selected in order to publish
a reliable and state-of-the-art book for all
academics and professionals in the field.
The contributions provide a substantial
overview of current trends and issues in the
fields of computational lexicography and
lexicology, corpus linguistics and text
technology. They show the most current
research in these disciplines and also shed
new light on the researchers in question. All
the works include a common element in
their experiments and studies: the textual
corpus, which is considered to be the base
of their studies, as in most of the studies
carried out in Computational Linguistics.
The book is divided into three sections,
which coincide with the conference’s three
main topics of interest.
The first section of the book,
“Linguistic Analysis of Text Resources”,
discusses techniques, tools and models for
the automated linguistic analysis of text
resources.
ISSN 1135-5948
These studies are based on essential
tools and techniques of Computational
Linguistics, such as Treebank alignment,
annotation, evaluation of theme and rheme,
and distributional similarity, among others.
The six contributions focus on discourse
and syntactic elements, and their common
aim is to improve the analysis of discourse
by Computational Linguistics tools.
The following section, “Extraction of
Lexical Knowledge from Text Resources”,
describes and evaluates methods for the
automatic acquisition of lexical knowledge
from digitized and linguistically annotated
textual corpora. They implement corpus
techniques to improve existing resources,
such as WordNet (Towards improved text
understanding with WordNet, by Fellmaun,
Clark and Hobbs), machine translation
dictionaries
(Rapid construction
of
explicative dictionaries using hybrid
machine translation, by Eberle and Rapp)
and other lexicographical resources, such as
juridical resources. Also, they present
original studies on dialectology and on oral
corpora.
The last section, “Representation of
Lexical Knowledge”, presents innovative
approaches to the representation of lexical
knowledge in digital media for various
purposes and user groups. In this section,
we find new and original resources based
on textual corpora, such as the Spanish
WordNet (The Spanish version of WordNet
3.0, by Fernández-Montraveta, Vázquez
and Fellmaun), and also innovative tools to
improve the functionality of existing or
general resources. In this sense, these
contributions provide tools for the
generation, analysis and management of
different aspects of resources, such as the
GUI-based tools meant to facilitate the
© 2009 Sociedad Española para el Procesamiento del Lenguaje Natural
Isabel Durán Muñoz
navigation through and exploration of
GermaNet (Tools for exploring GermaNet
in the context of cl-teaching, by Cramer and
Finthammer)
and
the
development
presented by Müller-Spitzer (Research on
dictionary use and the development of useradapted views) of user-adapted views of
lexicographic data.
For all researchers interested in NLP
and Computational Linguistics, I consider
this book can be of great value, since it
presents cutting-edge studies in the
lexicographical
and
computational
linguistic fields, either in progress or
already finished, and it opens new lines of
research in the future. In conclusion, I can
say that this book includes innovative and
exhaustive studies about the topics
involved, and it is a coherent and concise
book in its whole.
134
Información General
SEPLN'2009
XXV CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL
PROCESAMIENTO DEL LENGUAJE NATURAL
Palacio de Miramar. Donostia – San Sebastián (España)
8-10 de septiembre 2009
http://ixa2.si.ehu.es/sepln2009/
1
Presentación
La XXV edición del congreso anual de la
Sociedad Española para el Procesamiento del
Lenguaje Natural se celebrará en Donostia –
San Sebastián (España) del día 8 al 10 de
septiembre de 2009, organizado por la Sociedad
Española para el Procesamiento del Lenguaje
Natural junto con la Universidad del País Vasco
(Euskal Herriko Unibertsitatea). Como en
ediciones anteriores, con este evento la SEPLN
pretende promover la difusión de las
actividades de investigación, desarrollo e
innovación que realizan en cualquiera de los
ámbitos del procesamiento del lenguaje natural
los diversos grupos e investigadores españoles
y extranjeros. El congreso aspira a ofrecer un
foro de discusión y comunicación en el que se
favorezca el intercambio de la información y
materiales científicos necesarios para promover
la publicación de trabajos y la colaboración con
instituciones nacionales e internacionales que
actúen en el ámbito de interés del congreso.
2
Objetivos
El objetivo principal de este congreso es el de
ofrecer a la comunidad científica y empresarial
del sector el foro idóneo para la presentación de
las últimas investigaciones y desarrollos del
ámbito de trabajo en PLN, así como mostrar las
posibilidades reales de aplicación y conocer
nuevos proyectos. De esta manera, el XXV
Congreso de la SEPLN pretende ser un lugar de
encuentro para la comunicación de resultados e
intercambio de opiniones sobre el desarrollo de
esta área en la actualidad.
Además, se desea conseguir el objetivo de
anteriores ediciones de este congreso
identificando las futuras directrices de la
investigación básica y de las aplicaciones
ISSN 1135-5948
previstas por los profesionales, con el fin de
contrastarlas con las necesidades reales del
mercado. Igualmente el congreso pretende ser
un marco propicio para introducir a otras
personas interesadas en esta área de
conocimiento.
3
Areas Temáticas
Se anima a grupos e investigadores a enviar
comunicaciones, resúmenes de proyectos o
demostraciones en alguna de las áreas temáticas
siguientes:
• Modelos lingüísticos, matemáticos y
psicolingüísticos del lenguaje
• Lingüística de corpus
• Extracción y recuperación de información
monolingüe y multilingüe
• Gramáticas y formalismos para el análisis
morfológico y sintáctico
• Lexicografía computacional
• Generación
textual
monolingüe
y
multilingüe
• Traducción automática
• Reconocimiento y síntesis de voz
• Semántica, pragmática y discurso
• Resolución de la ambigüedad léxica
• Aplicaciones industriales del PLN
• Análisis automático del contenido textual
4
Formato del Congreso
La duración prevista del congreso será de tres
días, con ponencias invitadas y sesiones
dedicadas a la presentación de comunicaciones
y de proyectos o demostraciones.
5
Consejo Asesor
Miembros:
• Prof. José Gabriel Amores Carredano
(Universidad de Sevilla)
© Sociedad Española para el Procesamiento del Lenguaje Natural
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Prof. Toni Badia i Cardús (Universitat
Pompeu Fabra)
Prof. Manuel de Buenaga Rodríguez
(Universidad Europea de Madrid)
Prof. Fco. Javier Calle Gómez
(Universidad Carlos III de Madrid)
Prof.ª Irene Castellón Masalles
(Universitat de Barcelona)
Prof.ª Arantza Díaz de Ilarraza (Euskal
Herriko Unibertsitatea)
Prof. Antonio Ferrández Rodríguez
(Universitat d'Alacant)
Prof. Mikel Forcada Zubizarreta
(Universitat d'Alacant)
Prof.ª Ana María García Serrano
(Universidad Politécnica de Madrid)
Prof. Koldo Gojenola Galletebeitia
(Euskal Herriko Unibertsitatea)
Prof. Xavier Gómez Guinovart
(Universidade de Vigo)
Prof.
Julio
Gonzalo
Arroyo
(Universidad Nacional de Educación a
Distancia)
Prof. José Miguel Goñi Menoyo
(Universidad Politécnica de Madrid)
José B. Mariño Acebal(Universitat
Politécnica de Catalunya)
Prof.ª M. Antonia Martí Antonín
(Universitat de Barcelona)
Prof.ª Mª Teresa Martín Valdivia
(Universidad de Jaén)
Prof.
Patricio
Martínez
Barco
(Universitat d'Alacant)
Prof. Paloma Martínez Fernández
(Universidad Carlos III de Madrid)
Profª. Raquel Martínez Unanue
(Universidad Nacional de Educación a
Distancia)
Prof.ª Lidia Ana Moreno Boronat
(Universitat Politécnica de Valencia)
Prof.
Lluis
Padró
(Universitat
Politécnica de Catalunya)
Prof.
Manuel
Palomar
Sanz
(Universitat d'Alacant)
Prof.
Ferrán
Pla
(Universitat
Politécnica de Valencia)
Prof. Germán Rigau (Euskal Herriko
Unibertsitatea)
Prof. Horacio Rodríguez Hontoria
(Universitat Politécnica de Catalunya)
Prof. Kepa Sarasola Gabiola (Euskal
Herriko Unibertsitatea)
•
•
•
•
•
•
•
•
•
•
•
•
6
Prof. Emilio Sanchís (Universitat
Politécnica de Valencia)
Prof. L. Alfonso Ureña López
(Universidad de Jaén)
Prof.ª Mª Felisa Verdejo Maillo
(Universidad Nacional de Educación a
Distancia)
Prof.
Manuel
Vilares
Ferro
(Universidade de Vigo)
Prof. Ruslan Mitkov (Universidad de
Wolverhampton)
Prof.ª Sylviane Cardey-Greenfield
(Centre de recherche en linguistique et
traitement automatique des langues,
Lucien Tesnière. Besançon, France)
Prof. Leonel Ruiz Miyares (Centro de
Linguistica Aplicada de Santiago de
Cuba)
Investigador Luis Villaseñor-Pineda
(Instituto Nacional de Astrofísica,
Óptica y Electrónica. México)
Investigador Manuel Montes y Gómez
(Instituto Nacional de Astrofísica,
Óptica y Electrónica. México)
Prof. Alexander Gelbukh (Instituto
Politécnico Nacional. México)
Prof. Nuno J. Mamede (Instituto de
Engenharia
de
Sistemas
e
Computadores
Investigação
e
Desenvolvimento em Lisboa. Portugal)
Prof. Bernardo Magnini (Fondazione
Bruno Kessler. Italia)
Fechas importantes
Fechas para la presentación y aceptación de
comunicaciones:
• Fecha límite para la entrega de
comunicaciones: 24 de abril de 2009.
• Notificación de aceptación: 25 de mayo
de 2009.
• Fecha límite para entrega de la versión
definitiva: 19 de junio de 2009.
• Plazo para inscripción a coste reducido:
15 de julio de 2009.
Hoja de Inscripción para Socios
Datos Personales
Apellidos
Nombre
DNI
Teléfono
Domicilio
Municipio
Provincia
: .................................................................................................................................................
: .................................................................................................................................................
: ............................................................ Fecha de Nacimiento : ...........................................
: ............................................................
E-mail : ...........................................
: .................................................................................................................................................
: ................................................................................................. Código Postal : .................
: .................................................................................................................................................
Datos Profesionales
Centro de trabajo : .....................................................................................................................................
Domicilio
: .....................................................................................................................................
Código Postal
: .................... Municipio : .....................................................................................
Provincia
: ...........................................
Teléfono
: ................................. Fax : ............................. E-mail : .....................................
Áreas de investigación o interés: ...................................................................................................................
........................................................................................................................................................................
Preferencia para envío de correo:
[ ] Dirección personal
[ ] Dirección Profesional
Datos Bancarios:
Nombre de la Entidad
Domicilio
Cód. Postal y Municipio
Provincia
: ............................................................................................................................
: ............................................................................................................................
: ............................................................................................................................
: ............................................................................................................................
Cód. Banco (4 dig.)
Cód. Suc. (4 dig.)
Dig. Control (2 Dig.)
Núm.cuenta (10 dig.)
........................................ ........................................ ........................................ ........................................
En.....................a....................................de..............................................de...........................
(firma)
-------------------------------------------------------------------------------------------------------------------------------------------------------
Sociedad Española para el Procesamiento del Lenguaje Natural. SEPLN
Sr. Director de:
Entidad
Núm. Sucursal
Domicilio
Municipio
Provincia
Tipo cuenta
(corriente/caja de ahorro)
: .........................................................................................................
: .........................................................................................................
: .........................................................................................................
: ............................................................... Cód. Postal : ..............
: .........................................................................................................
: .........................................................................................................
Ruego a Vds. que a partir de la fecha y hasta nueva orden se sirvan de abonar a la
Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN) los recibos
anuales correspondientes a las cuotas vigentes de dicha asociación.
Les saluda atentamente
Fdo: ...........................................................................
(nombre y apellidos del firmante)
............................de ..................................de.................
-----------------------------------------------------------------------------------------------------------------------------------------------------Cuotas de los socios: 18 € (residentes en España) o 24 € (socios residentes en el extranjero).
Nota: La parte inferior debe enviarse al banco o caja de ahorros del socio
Hoja de Inscripción para Instituciones
Datos Entidad/Empresa
Nombre
: .................................................................................................................................................
NIF
: ............................................................ Teléfono : ............................................................
E-mail
: ............................................................
Fax : ............................................................
Domicilio : .................................................................................................................................................
Municipio : ................................................... Código Postal : ............ Provincia : ..........................
Áreas de investigación o interés: ...................................................................................................................
........................................................................................................................................................................
Datos de envío
Dirección
Municipio
Teléfono
: .............................................................................................. Código Postal : .................
: .......................................................................... Provincia : ..............................................
: ........................................... Fax : ................................ E-mail : ...............................
Datos Bancarios:
Nombre de la Entidad
Domicilio
Cód. Postal y Municipio
Provincia
: ............................................................................................................................
: ............................................................................................................................
: ............................................................................................................................
: ............................................................................................................................
Cód. Banco (4 dig.)
Cód. Suc. (4 dig.)
Dig. Control (2 Dig.)
Núm.cuenta (10 dig.)
........................................ ........................................ ........................................ ........................................
--------------------------------------------------------------------------------------------------------------------------------------------------
Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN).
Sr. Director de:
Entidad
Núm. Sucursal
Domicilio
Municipio
Provincia
Tipo cuenta
(corriente/caja de ahorro)
Núm Cuenta
: ..........................................................................................................................
: ..........................................................................................................................
: ..........................................................................................................................
: ............................................................................. Cód. Postal : .................
: ..........................................................................................................................
: ..........................................................................................................................
: ..........................................................................................................................
Ruego a Vds. que a partir de la fecha y hasta nueva orden se sirvan de abonar a la
Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN) los recibos
anuales correspondientes a las cuotas vigentes de dicha asociación.
Les saluda atentamente
Fdo: ...........................................................................
(nombre y apellidos del firmante)
............................de ..................................de.................
-------------------------------------------------------------------------------------------------------------------------------------------------..........................................................................................................................................................................
Cuotas de los socios institucionales: 300 €.
Nota: La parte inferior debe enviarse al banco o caja de ahorros del socio
Información para los Autores
Formato de los Trabajos
• La longitud máxima admitida para las contribuciones será de 8 páginas DIN A4 (210 x 297
mm.), incluidas referencias y figuras.
• Los artículos pueden estar escritos en inglés o español. El título, resumen y palabras clave
deben escribirse en ambas lenguas.
• El formato será en Word ó LaTeX
Envío de los Trabajos
• El envío de los trabajos se realizará electrónicamente a través de la página web de la Sociedad
Española para el Procesamiento del Lenguaje Natural (http://www.sepln.org)
• Para los trabajos con formato LaTeX se mandará el archivo PDF junto a todos los fuentes
necesarios para compilación LaTex
• Para los trabajos con formato Word se mandará el archivo PDF junto al DOC o RTF
Descargar