Procesamiento del Lenguaje Natural, Revista nº 42, marzo

Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009 ISSN: 1135-5948 Artículos Consultas Degradadas en Recuperación de Información Textual Juan Otero Pombo, Jesús Vilares Ferro, Manuel Vilares Ferro ................................................................... 9 Sistema de recomendación para un uso inclusivo del lenguaje Maria Fuentes, Lluís Padró, Muntsa Padró, Jordi Turmo, Jordi T. Carrera ................................................ 17 Aplicación de técnicas de extracción de información temporal a los sistemas de búsqueda de respuestas María Teresa Vicente-Díez, Paloma Martínez, Ángel Martínez-González, José Luis Martínez-Fernández ................................................................................................................... 25 Evaluación de una Estrategia de Expansión Local Conservadora en Recuperación de Información Visual Sergio Navarro, Rafael Muñoz, Fernando Llopis ....................................................................................... 31 Detección de Web Spam basada en la Recuperación Automática de Enlaces Lourdes Araujo, Juan Martinez-Romo......................................................................................................... 39 A Semantic Relatedness Approach to Classifying Opinion from Web Reviews Alexandra Balahur, Andrés Montoyo........................................................................................................... 47 Estableciendo una línea base para un generador de resúmenes extractivo basado en conceptos en el ámbito biomédico Manuel de la Villa, Manuel J. Maña ........................................................................................................... 55 Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web Arkaitz Zubiaga, Víctor Fresno, Raquel Martínez........................................................................................ 63 Using a Generative Lexicon Resource to Compute Bridging Anaphora in Italian Tommaso Caselli ........................................................................................................................................ 71 Una Representación Basada en Lógica Borrosa para el Clustering de páginas web con Mapas AutoOrganizativos Alberto P. García-Plaza, Víctor Fresno, Raquel Martínez........................................................................... 79 Global joint models for coreference resolution and named entity classification Pascal Denis, Jason Baldridge ................................................................................................................... 87 AQA: a multilingual Anaphora annotation scheme for Question Answering E. Boldrini, M. Puchol-Blasco, B. Navarro, P. Martínez-Barco, C. Vargas-Sierra........................................ 97 Co-referential chains and discourse topic shifts in parallel and comparable corpora Costanza Navarretta ................................................................................................................................. 105 Detecting Anaphoricity and Antecedenthood for Coreference Resolution Olga Uryupina ........................................................................................................................................... 113 Tesis Empleo de métodos no supervisados basados en corpus para construir traductores automáticos basados en reglas Felipe Sánchez-Martínez .......................................................................................................................... 123 Los Roles Semánticos en la Tecnología del Lenguaje Humano: Anotación y Aplicación P. Moreda ................................................................................................................................................. 125 Arquitectura multilingüe de sistemas de búsqueda de respuestas basada en ILI y Wikipedia Sergio Ferrández Escámez....................................................................................................................... 127 On Clustering and Evaluation of Narrow Domain Short-Text Corpora David Eduardo Pinto Avendaño ................................................................................................................ 129 Reseñas Storrer, A., Geyken, A., Siebert, A. and Würzner, K.M. (eds.). Text Resources and Lexical Knowledge Isabel Durán Muñoz .................................................................................................................................. 133 Información General XXV Congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural ........................... 137 Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009 ISSN: 1135-5948 Artículos Consultas Degradadas en Recuperación de Información Textual Juan Otero Pombo, Jesús Vilares Ferro, Manuel Vilares Ferro ................................................................... 9 Sistema de recomendación para un uso inclusivo del lenguaje Maria Fuentes, Lluís Padró, Muntsa Padró, Jordi Turmo, Jordi T. Carrera ................................................ 17 Aplicación de técnicas de extracción de información temporal a los sistemas de búsqueda de respuestas María Teresa Vicente-Díez, Paloma Martínez, Ángel Martínez-González, José Luis Martínez-Fernández ................................................................................................................... 25 Evaluación de una Estrategia de Expansión Local Conservadora en Recuperación de Información Visual Sergio Navarro, Rafael Muñoz, Fernando Llopis ....................................................................................... 31 Detección de Web Spam basada en la Recuperación Automática de Enlaces Lourdes Araujo, Juan Martinez-Romo......................................................................................................... 39 A Semantic Relatedness Approach to Classifying Opinion from Web Reviews Alexandra Balahur, Andrés Montoyo........................................................................................................... 47 Estableciendo una línea base para un generador de resúmenes extractivo basado en conceptos en el ámbito biomédico Manuel de la Villa, Manuel J. Maña ........................................................................................................... 55 Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web Arkaitz Zubiaga, Víctor Fresno, Raquel Martínez........................................................................................ 63 Using a Generative Lexicon Resource to Compute Bridging Anaphora in Italian Tommaso Caselli ........................................................................................................................................ 71 Una Representación Basada en Lógica Borrosa para el Clustering de páginas web con Mapas AutoOrganizativos Alberto P. García-Plaza, Víctor Fresno, Raquel Martínez........................................................................... 79 Global joint models for coreference resolution and named entity classification Pascal Denis, Jason Baldridge ................................................................................................................... 87 AQA: a multilingual Anaphora annotation scheme for Question Answering E. Boldrini, M. Puchol-Blasco, B. Navarro, P. Martínez-Barco, C. Vargas-Sierra........................................ 97 Co-referential chains and discourse topic shifts in parallel and comparable corpora Costanza Navarretta ................................................................................................................................. 105 Detecting Anaphoricity and Antecedenthood for Coreference Resolution Olga Uryupina ........................................................................................................................................... 113 Tesis Empleo de métodos no supervisados basados en corpus para construir traductores automáticos basados en reglas Felipe Sánchez-Martínez .......................................................................................................................... 123 Los Roles Semánticos en la Tecnología del Lenguaje Humano: Anotación y Aplicación P. Moreda ................................................................................................................................................. 125 Arquitectura multilingüe de sistemas de búsqueda de respuestas basada en ILI y Wikipedia Sergio Ferrández Escámez....................................................................................................................... 127 On Clustering and Evaluation of Narrow Domain Short-Text Corpora David Eduardo Pinto Avendaño ................................................................................................................ 129 Reseñas Storrer, A., Geyken, A., Siebert, A. and Würzner, K.M. (eds.). Text Resources and Lexical Knowledge Isabel Durán Muñoz .................................................................................................................................. 133 Información General XXV Congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural ........................... 137 Impresos de Inscripción Procesamiento del Lenguaje Natural, Revista nº 42, Marzo de 2009 ISSN: 1135-5948 Editores: Mariona Taulé Delor Universitat de Barcelona [email protected] Mª Teresa Martín Valdivia Universidad de Jaén [email protected] Mª Antonia Martí Antonín Universitat de Barcelona [email protected] Mª Felisa Verdejo Maillo UNED felisa@@lsi.uned.es Consejo de Redacción: L. Alfonso Ureña López Universidad de Jaén [email protected] Manuel Palomar Sanz Universidad de Alicante [email protected] Patricio Martínez Barco Universidad de Alicante [email protected] Mª Felisa Verdejo Maillo UNED [email protected] Consejo Asesor: José Gabriel Amores (Universidad de Sevilla). Toni Badía (Universitat Pompeu Fabra). Manuel de Buenaga (Universidad Europea de Madrid). Irene Castellón (Universitat de Barcelona). Arantza Díaz de Ilarraza (Euskal Herriko Unibertsitatea). Antonio Ferrández (Universitat d'Alacant). Mikel Forcada (Universitat d'Alacant). Ana García-Serrano (Universidad Politécnica de Madrid). Koldo Gojenola (Euskal Herriko Unibertsitatea). Xavier Gómez Guinovart (Universidade de Vigo). Julio Gonzalo (UNED). José Miguel Goñi (Universidad Politécnica de Madrid). José Mariño (Universitat Politècnica de Catalunya). M. Antonia Martí (Universitat de Barcelona). M. Teresa Martín (Universidad de Jaén). Patricio Martínez-Barco (Universitat d'Alacant). Raquel Martínez (UNED). Lidia Moreno (Universitat Politècnica de València). Lluís Padro (Universitat Politècnica de Catalunya). Manuel Palomar (Universitat d'Alacant). Ferrán Pla (Universitat Politècnica de València). German Rigau (Euskal Herriko Unibertsitatea). Horacio Rodríguez (Universitat Politècnica de Catalunya). Kepa Sarasola (Euskal Herriko Unibertsitatea). Emilio Sanchís (Universitat Politècnica de València). Mariona Taulé (Universitat de Barcelona). L. Alfonso Ureña (Universidad de Jaén). Felisa Verdejo (UNED). Manuel Vilares (Universidad de A Coruña). Ruslan Mitkov(Universidad de Wolverhampton, UK). Sylviane Cardey-Greenfield (Centre de recherche en linguistique et traitement automatique des langues, France). Leonel Ruiz Miyares (Centro de Linguistica Aplicada de Santiago de Cuba). Luis Villaseñor-Pineda (Instituto Nacional de Astrofísica, Óptica y Electrónica, México). Manuel Montes y Gómez (Instituto Nacional de Astrofísica, Óptica y Electrónica, México). Alexander Gelbukh (Instituto Politécnico Nacional, México). Nuno J. Mamede (Instituto de Engenharia de Sistemas e Computadores, Portugal). Bernardo Magnini (Fondazione Bruno Kessler, Italia) Revisores adicionales: Andrés Montoyo (Universitat d'Alacant). Anselmo Peñas (UNED). Zornitza Kozareva (Universitat d'Alacant). Jordi Turmo (UPC). Víctor Fresno (UNED). Antonio Balvet (Université Lille 3, France). Richard Evans (University of Woverhampton, UK). Roser Morante (University of Antwerp, Belgium). Rafael Muñoz (Universitat d'Alacant). Costanza Navarretta (CST - Center for Sprogteknologi, Denmark). Constantin Orasan (University of Wolverhampton, UK). Massimo Poesio (University of Essex, UK / Università di Trento, Italy). Marta Recasens (Universitat de Barcelona). Emili Sapena (UPC). Mihai Surdeanu (Stanford, CA, USA). Antal van den Bosch (Tilburg University, The Netherlands). ISBN: 1135-5948 Depósito Legal: B:3941-91 Editado en: Universidad de Jaén, 2009. Publicado por: Sociedad Española para el Procesamiento del Lenguaje Natural Departamento de Informática. Universidad de Jaén Campus Las Lagunillas, EdificioA3. Despacho 127. 23071 Jaén [email protected] Artículos Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 9-16 recibido 03-11-08, aceptado 02-03-09 Consultas Degradadas en Recuperación de Información Textual∗ Corrupted Queries in Text Retrieval Juan Otero Pombo Depto. de Informática Universidade de Vigo Campus As Lagoas s/n 32002 - Ourense [email protected] Jesús Vilares Ferro Depto. de Computación Universidade da Coruña Campus de Elviña s/n 15174 - A Coruña [email protected] Manuel Vilares Ferro Depto. de Informática Universidade de Vigo Campus As Lagoas s/n 32002 - Ourense [email protected] Resumen: En este artı́culo proponemos dos alternativas para el tratamiento de consultas degradadas en aplicaciones de Recuperación de Información en español. La primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos lingüı́sticos disponibles. Como segunda alternativa, proponemos a su vez dos técnicas de corrección ortográfica, integrando una de ellas un modelo estocástico que debe ser entrenado previamente a partir de un texto etiquetado. Con el fin de estudiar su validez, se ha diseñado un marco de pruebas sobre el que se han evaluado ambas aproximaciones. Palabras clave: n-gramas de caracteres, consultas degradadas, recuperación de información, corrección ortográfica. Abstract: In this paper, we propose two different alternatives to deal with degraded queries on Spanish Information Retrieval applications. The first is based on character n-grams, and has no dependence on the linguistic knowledge and resources available. In the second, we propose two spelling correction techniques, one of which has a strong dependence on a stochastic model that must be previously built from a PoStagged corpus. In order to study their validity, a testing framework has been designed and applied on both approaches for evaluation. Keywords: Character n-grams, degraded queries, information retrieval, spelling correction. 1. Introducción Los modelos clásicos de recuperación de información (ri) no contemplan, inicialmente, el caso de fenómenos de degradación en las consultas del usuario tales como la introducción de errores ortográficos o palabras desconocidas, bien sea de forma accidental, o porque el término que está tratando de buscar presenta ambigüedades ortográficas en la colección. Es por tanto imperativo el estudio de este problema dado que puede deteriorar de forma substancial el rendimiento del sistema. En este sentido, muchos autores aplican directamente técnicas de corrección de erroEste trabajo ha sido parcialmente subvencionado por el Ministerio de Educación y Ciencia y FEDER (a través de los proyectos de investigación HUM2007-66607-C04-02 y HUM2007-66607C04-03), y por la Xunta de Galicia (a través de los proyectos 05PXIC30501PN, 07SIN005206PR, INCITE07PXI104119ES y la ”Red Gallega de pln y ri”). ∗ ISSN 1135-5948 res en las formas léxicas de la consulta para ası́ dotar al sistema de cierta robustez. Esta estrategia es a menudo empleada para el análisis de textos degradados en el ámbito del procesamiento del lenguaje natural (pln). Sin embargo, si bien las herramientas de pln, por lo general, toleran una primera adivinación poco eficiente en la que se interactúa con el usuario mostrándole múltiples alternativas de corrección para que sea éste el que realice la elección final, esto no suele ocurrir en los sistemas de ri, lo que incrementa la complejidad del problema. Por otra parte, las aproximaciones de corrección ortográfica (Savary, 2002) aplican modificaciones en las palabras con el fin de minimizar la distancia de edición (Levenshtein, 1966) entre ellas; esto es, el número de operaciones de edición 1 a aplicar para trans1 Inserción, borrado o substitución de un caracter, o transposición de dos caracteres contiguos. © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural Juan Otero Pombo, Jesús Vilares Ferro, Manuel Vilares Ferro formar una cadena en otra. Trabajos más recientes interpretan la corrección ortográfica como una cuestión estadı́stica, donde una consulta con errores es vista como una degeneración probabilı́stica de una correcta (Brill y Moore, 2000). Esta aproximación, conocida como modelo de canal ruidoso (Kernighan, Church, y Gale, 1990),2 también proporciona formas de incorporar información de pronunciación para mejorar el rendimiento por medio de la captura de similaridades en la pronunciación de las palabras (Toutanova y Moore, 2002). Sin embargo, en este trabajo proponemos una estrategia basada en n-gramas de caracteres como alternativa para el tratamiento de consultas degradadas en español, buscando, además, una metodologı́a simple y que pueda ser utilizada independientemente de la base de datos documental considerada y de los recursos lingüı́sticos disponibles. Presentaremos, también, dos aproximaciones basadas en corrección ortográfica no interactiva. Este artı́culo se estructura como sigue. En primer lugar, en la Sección 2 describimos brevemente nuestra propuesta basada en n-gramas de caracteres. A continuación, en la Sección 3, se presentan las dos aproximaciones de corrección ortográfica que han sido comparadas con nuestra propuesta. En la Sección 4 se describe nuestra metodologı́a de evaluación y los experimentos realizados. Finalmente, la Sección 5 contiene nuestras conclusiones y propuestas de trabajo futuro. 2. lugar de palabras. Los n-gramas resultantes son entonces procesados como lo harı́a cualquier motor de recuperación. Su interés viene dado por las posibilidades que ofrecen, especialmente en lengua no inglesa, al facilitar un modo alternativo para la normalización de formas de palabras y permitir tratar lenguas muy diferentes sin procesamiento especı́fico al idioma y aún cuando los recursos lingüı́sticos disponibles son escasos o inexistentes. Estarı́amos, pues, ante un prometedor punto de partida sobre el cual desarrollar una estrategia de indexación y recuperación efectiva para el tratamiento de consultas degradadas. Además, la utilización de ı́ndices basados en n-gramas desmonta el principal argumento que justifica la integración de métodos de corrección ortográfica en aplicaciones de ri robustas: la necesidad de una coincidencia exacta con los términos almacenados en los ı́ndices. De este modo, con el empleo de ngramas en lugar de palabras completas, sólo se requerirı́a la coincidencia en subcadenas de éstas. En la práctica, esto elimina la necesidad de normalizar los términos, minimizando además el impacto de los errores ortográficos, a los que no se les prestarı́a especial atención. En general deberı́a, además, reducir de forma considerable la incapacidad del sistema para manejar las palabras desconocidas. 3. Con el fin de justificar el interés práctico de nuestra propuesta de ri robusta basada en n-gramas de caracteres, introducimos también una aproximación más clásica asociada a un corrector ortográfico contextual (Otero, Graña, y Vilares, 2007), lo que nos permite definir un marco de pruebas comparativo. En un principio aplicaremos un algoritmo global de corrección ortográfica sobre autómatas finitos, propuesto por Savary (Savary, 2002), que encuentra todas las palabras cuya distancia de edición con la palabra errónea sea mı́nima. Desafortunadamente, esta técnica puede devolver varias reparaciones candidatas posibles que, desde un punto de vista morfológico, tengan una calidad similar, es decir, cuando existan varias palabras cuya distancia de edición con la palabra errónea es la misma. Sin embargo, es posible ir más allá de la propuesta de Savary aprovechando la información lingüı́stica contextual embebida en un proceso de etiquetación con el fin de Recuperación de Texto mediante N-Gramas de Caracteres Formalmente, un n-grama es una subsecuencia de longitud n de una secuencia dada. Ası́, por ejemplo, podemos dividir la palabra "patata" es los 3-gramas de caracteres superpuestos -pat-, -ata-, -tat- y -ata-. Este simple concepto ha sido redescubierto recientemente por el Johns Hopkins University Applied Physics Lab (jhu/apl) (McNamee y Mayfield, 2004a) de cara a la indexación de documentos, y nosotros lo recuperamos ahora para nuestra propuesta. Al tratar con ri monolingüe, la adaptación resulta sencilla ya que tanto las consultas como los documentos son simplemente tokenizados en n-gramas superpuestos en 2 Corrección Ortográfica Noisy channel model en inglés. 10 Consultas Degradadas en Recuperación de Información Textual ordenar las correcciones candidatas. Hablamos entonces de corrección ortográfica contextual, cuyo núcleo, en nuestro caso, es un etiquetador morfosintáctico estocástico basado en una extensión dinámica del algoritmo de Viterbi sobre Modelos Ocultos de Markov (Graña, Alonso, y Vilares, 2002) de segundo orden. Esta extensión del algoritmo de Viterbi original se aplica sobre retı́culas en lugar de enrejados (ver Figura 1) ya que éstas son mucho más flexibles al ser representadas las palabras en los arcos en lugar de en los nodos. En el contexto de la corrección ortográfica, nos permite representar un par palabra/etiqueta en cada arco, y luego calcular la probabilidad de cada uno de los caminos por medio de una adaptación de las ecuaciones del algoritmo de Viterbi. ser considerado un ejemplo significativo dado que muestra una gran variedad de procesos morfológicos, lo que lo convierte en una lengua difı́cil para la corrección ortográfica (Vilares, Otero, y Graña, 2004). Las caracterı́sticas más diferenciadoras se encuentran en los verbos, con un paradigma de conjugación altamente complejo. En el caso de sustantivos y adjetivos esta complejidad se extiende al número y al género, con hasta 10 y 20 grupos de variación respectivamente. 1 stm-noerr (MAP=0.2990) 4gr-noerr (MAP=0.2667) stm-10 (MAP=0.2461) stm-20 (MAP=0.2241) stm-30 (MAP=0.2049) stm-40 (MAP=0.1802) stm-50 (MAP=0.1482) stm-60 (MAP=0.1183) stm-70 (MAP=0.0863) stm-80 (MAP=0.0708) stm-90 (MAP=0.0513) stm-100 (MAP=0.0174) Precision (P) 0.8 0.6 0.4 bajo/P fácil/Adjsn 0.2 bajo/Adj sn No/Adv es/V trabajar/V presión/Ssn 0 0 bajo/V fáciles/Adjpl 0.1 0.2 0.3 0.4 0.5 0.6 Recall (Re) 0.7 0.8 0.9 1 baño/S sn Figura 2: Precisión vs. Cobertura para las consultas sin corregir (empleando stemming). Figura 1: Alternativas de corrección ortográfica representadas en una retı́cula. 4.1. Para ilustrar el proceso con un ejemplo, consideremos la frase “No es fácile trabajar baio presión”, cuya corrección esperada serı́a “No es fácil trabajar bajo presión”, donde las palabras “fácile” y “baio” son erróneas. Asumamos ahora que nuestro corrector ortográfico nos ofrece “fácil”/Adjetivo singular y “fáciles”/Adjetivo plural como posibles correcciones para “fácile”; y “bajo”/Adjetivo singular, “bajo”/Preposición, “bajo”/Verbo y “baño”/Sustantivo singular para “baio”. La ejecución del algoritmo de Viterbi dinámico sobre la retı́cula asociada, mostrada en la Figura 1, nos ofrecerı́a tanto las etiquetas de las palabras como las correcciones más probables en el contexto de esa frase concreta, lo que nos permitirı́a obtener una lista ordenada de correcciones candidatas. De este modo obtendrı́amos, para nuestro ejemplo, que las correcciones deseadas, “fácil”/Adjetivo singular y “bajo”/Preposición, serı́an las primeras opciones, ya que se corresponderı́an con la secuencia de etiquetas correcta. 4. Procesamiento de Errores La primera fase en el proceso de evaluación consiste en introducir errores ortográficos en el conjunto de consultas de prueba. Estos errores son introducidos de forma aleatoria por un generador de errores automático de acuerdo con un ratio de error dado. Inicialmente se genera un fichero maestro de errores como sigue. Para cada palabra de más de 3 caracteres de la consulta, se introduce en una posición aleatoria uno de los cuatro errores de edición descritos por Damerau (Damerau, 1964). De este modo, los errores introducidos son similares a aquellos que cometerı́a un ser humano o un dispositivo ocr. Al mismo tiempo se genera un valor aleatorio entre 0 y 100 que representa la probabilidad de que la palabra no contenga ningún error ortográfico. De este modo obtenemos un fichero maestro de errores que contiene, para cada palabra, su forma errónea correspondiente, y un valor de probabilidad. Todos estos datos hacen posible generar de una forma sencilla conjuntos de prueba diferentes para distintos ratios de error, permitiéndonos ası́ valorar el impacto de esta variable en los resultados. El procedimiento Evaluación Nuestra propuesta ha sido inicialmente testeada para el español. Este idioma puede 11 Juan Otero Pombo, Jesús Vilares Ferro, Manuel Vilares Ferro lexicón y, en el caso de la corrección contextual, también un corpus de entrenamiento etiquetado manualmente para entrenar con él el etiquetador. En nuestros experimentos hemos trabajado con el corpus de español MultexJOC (Véronis, 1999), que consta de alrededor de 200.000 palabras etiquetadas morfosintácticamente, y con su lexicón asociado, de 15.548 palabras. T=10% 1 ∆ MAP 0.5 0 −0.5 −1 60 80 100 120 140 160 180 T=20% 1 ∆ MAP 0.5 0 1 stm-noerr (MAP=0.2990) 4gr-noerr (MAP=0.2667) stm-10 (MAP=0.2587) stm-20 (MAP=0.2537) stm-30 (MAP=0.2389) stm-40 (MAP=0.2262) stm-50 (MAP=0.2076) stm-60 (MAP=0.1806) stm-70 (MAP=0.1352) stm-80 (MAP=0.1345) stm-90 (MAP=0.1188) stm-100 (MAP=0.0903) −0.5 0.8 60 80 100 120 140 160 180 Precision (P) −1 T=50% 1 ∆ MAP 0.5 0.6 0.4 0 0.2 −0.5 −1 60 80 100 120 140 160 180 0 0 T=100% 1 ∆ MAP 0.5 0.2 0.3 0.4 0.5 0.6 Recall (Re) 0.7 0.8 0.9 1 Figura 4: Precisión vs. Cobertura para las consultas corregidas mediante el algoritmo de Savary (empleando stemming). 0 −0.5 −1 0.1 60 80 100 120 QID 140 160 180 4.2. Marco de Evaluación En nuestros experimentos se ha empleado el corpus de español de la robust task del clef 2006 (Nardi, Peters, y Vicedo, 2006),3 formado por 454.045 documentos (1,06 gb) y 160 topics —a partir de los cuales generar las consultas— de los que hemos empleado únicamente un subconjunto del mismo (training topics) formado por 60 topics proporcionados por el CLEF especı́ficamente para tareas de entrenamiento y puesta a punto.4 Dichos topics están formados por tres campos: tı́tulo, un breve tı́tulo como su nombre indica; descripción, una somera frase de descripción; y narrativa, un pequeño texto especificando los criterios de relevancia. En cualquier caso únicamente hemos empleado el campo de tı́tulo para ası́ simular el caso de las consultas cortas utilizadas en motores comerciales. Partiendo de dicha colección de documentos se han generado dos ı́ndices diferentes. Primeramente, para probar las propuestas basadas en corrección ortográfica, se ha usa- Figura 3: Diferencias de map por consulta: consultas sin corregir vs. consultas originales (empleando stemming). consiste en recorrer el fichero maestro de errores y seleccionar, para cada palabra, la forma original en el caso de que su probabilidad sea mayor que el ratio de error fijado, o la forma errónea en caso contrario. Ası́, dado un ratio de error T , sólo el T % de las palabras de las consultas contendrán un error. Una caracterı́stica interesante de esta solución es que los errores son incrementales, ya que las formas erróneas que están presentes para un ratio de error determinado continuarán estando presentes para ratios de error mayores, evitando ası́ cualquier distorsión en los resultados. El siguiente paso consiste en procesar las consultas con errores y lanzarlas contra el sistema de ri. En el caso de nuestra propuesta basada en n-gramas no se precisan recursos extra, ya que el único procesamiento necesario consiste en tokenizar las consultas en ngramas. Sin embargo, para las aproximaciones de corrección ortográfica se necesita un 3 Estos experimentos han de considerarse no oficiales, ya que los resultados no han sido evaluados por la organización. 4 Topics C050-C059, C070-C079, C100-C109, C120-C129, C150-159 y C180-189. 12 Consultas Degradadas en Recuperación de Información Textual aunque no los signos ortográficos. El texto resultante ha sido tokenizado e indexado utilizando 4-gramas como longitud de compromiso tras estudiar los resultados previos del jhu/apl (McNamee y Mayfield, 2004b). En este caso no se han empleado stopwords. Finalmente, ya a nivel de implementación, nuestro sistema emplea como motor de recuperación la plataforma de código abierto Terrier (Ounis et al., 2006) con un modelo InL2 (Amati y van Rijsbergen, 2002).7 T=10% 1 ∆ MAP 0.5 0 −0.5 −1 60 80 100 120 140 160 180 140 160 180 T=20% 1 ∆ MAP 0.5 0 −0.5 −1 1 60 80 100 120 T=50% 0.8 1 Precision (P) ∆ MAP 0.5 0 −0.5 −1 60 80 100 120 stm-noerr (MAP=0.2990) 4gr-noerr (MAP=0.2667) stm-10 (MAP=0.2628) stm-20 (MAP=0.2578) stm-30 (MAP=0.2431) stm-40 (MAP=0.2311) stm-50 (MAP=0.2120) stm-60 (MAP=0.1850) stm-70 (MAP=0.1448) stm-80 (MAP=0.1449) stm-90 (MAP=0.1282) stm-100 (MAP=0.0997) 140 160 180 0.6 0.4 0.2 T=100% 1 0 0 ∆ MAP 0.5 0.1 0.2 0.3 0.4 0.5 0.6 Recall (Re) 0.7 0.8 0.9 1 0 Figura 6: Precisión vs. Cobertura para las consultas corregidas mediante el algoritmo de corrección contextual (empleando stemming). −0.5 −1 60 80 100 120 QID 140 160 180 Figura 5: Diferencias de map por consulta: consultas corregidas mediante el algoritmo de Savary vs. consultas originales (empleando stemming). 4.3. Nuestra propuesta ha sido probada para un amplio rango de ratios de error T con el fin de estudiar el comportamiento del sistema no sólo para densidades de error bajas, sino también para los elevados ratios de error propios de entornos ruidosos como aquellos en que la entrada se obtiene de dispositivos móviles o basados en escritura a mano —pdas y tabletas digitalizadoras, por ejemplo. De este modo se ha trabajado con: do una aproximación clásica basada en stemming empleando snowball,5 basado en el algoritmo de Porter (Porter, 1980), y la lista de stopwords de la Universidad de Neuchatel.6 Ambos recursos son de uso amplio entre la comunidad de ir. Asimismo, en el caso de las consultas, se ha utilizado una segunda lista de meta-stopwords (Mittendorfer y Winiwarter, 2001; Mittendorfer y Winiwarter, 2002). Dichas stopwords corresponden a metacontenido, es decir, expresiones de formulación de la consulta que no aportan ninguna información útil para la búsqueda, como en el caso de la expresión “encuentre aquellos documentos que describan . . .”. En segundo lugar, a la hora de probar nuestra solución basada en n-gramas, los documentos han sido convertidos a minúsculas y se han eliminado los signos de puntuación, 5 6 Resultados Experimentales T ∈ {0 %, 10 %, 20 %, 30 %, . . . , 100 %} donde T =0 % significa que no se han introducido errores. En el primer conjunto de experimentos realizados se utilizaron las consultas sin corregir aplicando una aproximación clásica basada en stemming. Los resultados obtenidos para cada ratio de error T se muestran en las gráficas de la Figura 2 tomando como referencia tanto los resultados obtenidos para las 7 Inverse Document Frequency model with Laplace after-effect and normalization 2. http://snowball.tartarus.org http://www.unine.ch/info/clef/ 13 Juan Otero Pombo, Jesús Vilares Ferro, Manuel Vilares Ferro consultas originales aplicando stemming —es decir, para T =0 %— (stm-noerr ), como los obtenidos aplicando la aproximación basada en n-gramas (4gr-noerr). También se dan los valores de precisión media (map).8 Estos primeros resultados muestran que el stemming es sensible a los errores ortográficos. Como se puede apreciar, aún un ratio de error bajo como T =10 % tiene un impacto significativo sobre el rendimiento9 —la map decrece el 18 %—, empeorando conforme aumenta el número de errores introducidos: pérdida del 25 % para T =20 %, 50 % para T =50 % (con 2 consultas que ya no recuperan ningún documento) y 94 % para T =100 % (con 13 consultas sin documentos), por ejemplo. Tales variaciones, ya a nivel de consulta, se muestran en la Figura 3. Esto se debe al hecho de que con el tipo de consultas que estamos utilizando aquı́ —con unas 4 palabras de media—, cada palabra es de vital importancia, ya que la información perdida cuando un término ya no encuentra correspondencia debido a un error ortográfico no puede ser recuperada a partir de ningún otro término. En nuestra segunda ronda de experimentos se estudió el comportamiento del sistema al usar la primera de las aproximaciones de corrección consideradas en este trabajo, esto es, cuando lanzamos las consultas con errores tras ser procesadas con el algoritmo de Savary. En este caso el módulo de corrección toma como entrada la consulta con errores, obteniendo como salida una versión corregida donde cada palabra incorrecta ha sido substituida por el término más cercano del lexicón de acuerdo a la distancia de edición. En caso de empate —es decir, cuando existen varias palabras en el lexicón a la misma distancia—, la consulta es expandida con todas las correcciones empatadas. Por ejemplo, tomando como entrada la oración considerada en la Sección 3, “No es fácile trabajar baio presión”, la salida serı́a “No es fácil fáciles trabajar bajo baño presión”. Analizando los resultados obtenidos, mostrados en la Figura 4, vemos que la corrección tiene un efecto general significativamente positivo sobre el rendimiento, disminuyendo en gran medida —aunque no eliminando— el impacto de los errores ortográficos, no sólo para ratios de error bajos (la pérdida de map disminuye del 18 % al 13 % para T =10 % y del 25 % al 15 % para T =20 %), sino también para ratios de error altos y muy altos (del 50 % al 31 % para T =50 % y del 94 % al 70 % para T =100 %), reduciéndose también el número de consultas que no devuelven documentos (ahora sólo 1 para T =50 % y 5 para T =100 %). Las diferencias de map a nivel de consulta se muestran en la Figura 5. Asimismo, el análisis de los datos muestra que la efectividad relativa de la corrección aumenta con el ratio de error. 1 stm-noerr (MAP=0.2990) 4gr-noerr (MAP=0.2667) stm-10 (MAP=0.2554) stm-20 (MAP=0.2486) stm-30 (MAP=0.2433) stm-40 (MAP=0.2353) stm-50 (MAP=0.2260) stm-60 (MAP=0.2134) stm-70 (MAP=0.2073) stm-80 (MAP=0.1999) stm-90 (MAP=0.1767) stm-100 (MAP=0.1627) Precision (P) 0.8 0.6 0.4 0.2 0 0 0.1 0.2 0.3 0.4 0.5 0.6 Recall (Re) 0.7 0.8 0.9 1 Figura 7: Precisión vs. Cobertura para las consultas sin corregir (empleando n-gramas). Con el fin de eliminar el ruido introducido por los empates al emplear el algoritmo de Savary, se ha realizado un tercer conjunto de pruebas usando nuestro corrector ortográfico contextual. Dichos resultados se muestran en la Figura 6 y, como era de esperar, éstos mejoran consistentemente con respecto a la aproximación original, si bien la mejora obtenida mediante este procesamiento extra no llega a ser significativa: un 2 % de pérdida de map recuperado para 10 %≤ T ≤60 % y un 7–10 % para T >60 %. Finalmente, hemos probado nuestra propuesta basada en n-gramas. La Figura 7 muestra los resultados obtenidos cuando las consultas sin corregir son lanzadas contra nuestro sistema de ri basado en n-gramas. Aunque el stemming funciona significativamente mejor que los n-gramas para las consultas originales, no ocurre lo mismo cuando hay errores ortográficos, superando claramente el segundo método al primero no sólo cuando no se aplica ningún tipo de corrección, siendo la mejora significativa para T ≥40 %, sino también cuando se aplica cualquiera de los dos métodos basados en corrección ortográfica —salvo para ratios de error muy bajos—, si bien la diferencia no es sig- 8 Mean average precision en inglés. A lo largo de este trabajo se han empleado tests-t bilaterales sobre las map con α=0.05. 9 14 Consultas Degradadas en Recuperación de Información Textual hay consultas que no devuelven documentos, ni siquiera para T =100 %. El rendimiento a nivel de consulta se muestra en la Figura 8. T=10% 0.5 ∆ MAP 0.25 0 5. −0.25 −0.5 60 80 100 120 140 160 180 140 160 180 140 160 180 140 160 180 Este trabajo es un primer paso hacia el diseño de técnicas de consulta para su empleo en aplicaciones de base lingüı́stica para dominios genéricos no especializados. Nuestro objetivo es el tratamiento eficiente de las consultas degradadas en español, evitando métodos clásicos de corrección ortográfica que requieran una implementación compleja, no sólo desde el punto de vista computacional sino también desde el lingüı́stico. En este sentido, se proponen aquı́ dos aproximaciones diferentes. En primer lugar, se presenta un corrector ortográfico contextual desarrollado a partir de una técnica de corrección global previa ampliada para incluir información contextual obtenida mediante etiquetación morfosintáctica. Nuestra segunda propuesta consiste en trabajar directamente con las consultas con errores ortográficos, pero utilizando un sistema de ri basado en n-gramas en lugar de uno clásico basado en stemming. Las pruebas realizadas han mostrado que las aproximaciones clásicas basadas en stemming son sensibles a los errores ortográficos, aunque el uso de mecanismos de corrección permiten reducir el impacto negativo de éstos. Por su parte, los n-gramas de caracteres han mostrado ser altamente robustos, superando claramente a las técnicas basadas en corrección ortográfica, especialmente para ratios de error medios o altos. Además, dado que no se precisa procesamiento especı́fico al idioma, nuestra aproximación basada en n-gramas puede ser utilizada con lenguas de naturaleza diferente aún cuando los recursos lingüı́sticos disponibles sean escasos o inexistentes. Con respecto a nuestro trabajo futuro, tenemos la intención de ampliar el concepto de stopword al caso de n-gramas de caracteres con el fin de incrementar el rendimiento del sistema ası́ como reducir sus requerimientos computacionales y de almacenamiento. Sin embargo, con el fin de mantener la independencia respecto al idioma, tales ”stopn-gramas” deberı́an ser generados de forma automática a partir de los propios textos de entrada (Lo, He, y Ounis, 2005). Finalmente, se están preparando nuevos experimentos para otros idiomas. T=20% 0.5 ∆ MAP 0.25 0 −0.25 −0.5 60 80 100 120 T=50% 1 ∆ MAP 0.5 0 −0.5 −1 60 80 100 120 T=100% 1 ∆ MAP 0.5 0 −0.5 −1 60 80 100 120 QID Conclusiones y Trabajo Futuro Figura 8: Diferencias de map por consulta: consultas sin corregir vs. consultas originales (empleando n-gramas). nificativa hasta T ≥70 %. Además, la robustez de nuestra propuesta basada en n-gramas en presencia de errores ortográficos demuestra ser claramente superior a cualquiera de las aproximaciones previas basadas en stemming. Como ejemplo, la pérdida de map para stemming —como se dijo previamente— era significativa incluso para T =10 %, con una reducción del 18 % para T =10 %, 25 % para T =20 %, 50 % para T =50 % y 94 % para T =100 %. Para los mismos valores de T , la aplicación de nuestro corrector ortográfico contextual —ligeramente superior a la propuesta de Savary— reducı́a dichas pérdidas a 12 %, 14 %, 29 % y 67 %, respectivamente, con lo que dichas caı́das ya no eran significativas hasta T =20 %. Sin embargo, los n-gramas superan a ambos de forma clara, siendo la pérdida de map significativa sólo a partir de T =40 %, y casi reduciendo a la mitad la cuantı́a de dichas pérdidas: 4 %, 7 %, 15 % y 39 %, respectivamente. Además, ya no 15 Juan Otero Pombo, Jesús Vilares Ferro, Manuel Vilares Ferro Bibliografı́a Nardi, A., C. Peters, y J. L. Vicedo, eds. 2006. En Working Notes of the CLEF 2006 Workshop. Disponible en http://www.clef-campaign.org (visitada en octubre 2008). Amati, G. y C. J. van Rijsbergen. 2002. Probabilistic models of Information Retrieval based on measuring divergence from randomness. ACM Transactions on Information Systems, 20(4):357–389. Otero, J., J. Graña, y M. Vilares. 2007. Contextual spelling correction. Lecture Notes in Computer Science, 4739:290–296. Brill, E. y R. C. Moore. 2000. An improved error model for noisy channel spelling correction. En Proc. of the ACL’00, pág. 286–293. Ounis, I., G. Amati, V. Plachouras, B. He, C. Macdonald, y C. Lioma. 2006. Terrier: A high performance and scalable Information Retrieval platform. En Proc. of the ACM SIGIR’06 Workshop on Open Source Information Retrieval (OSIR 2006), pág. 18–25. Herramienta disponible en http://ir.dcs.gla.ac.uk/terrier/ (visitada en octubre 2008). Damerau, F. 1964. A technique for computer detection and correction of spelling errors. Communications of the ACM, 7(3):171– 176. Graña, J., M. A. Alonso, y M. Vilares. 2002. A common solution for tokenization and part-of-speech tagging: One-pass Viterbi algorithm vs. iterative approaches. Lecture Notes in Computer Science, 2448:3–10. Porter, M. F. 1980. An algorithm for suffix stripping. Program, 14(3):130–137. Kernighan, M. D., K. W. Church, y W. A. Gale. 1990. A spelling correction program based on a noisy channel model. En Proc. of the COLING’90, pág. 205–210. Savary, A. 2002. Typographical nearestneighbor search in a finite-state lexicon and its application to spelling correction. Lecture Notes in Computer Science, 2494:251–260. Levenshtein, V.I. 1966. Binary codes capable of correcting deletions, insertions and reversals. Soviet Physics-Doklandy, 6:707– 710. Toutanova, K. y R. C. Moore. 2002. Pronunciation modeling for improved spelling correction. En Proc. of the ACL’02, pág. 144–151. Lo, R.T.W., B. He, y I. Ounis. 2005. Automatically building a stopword list for an information retrieval system. En Proc. of the 5th Dutch-Belgian Information Retrieval Workshop (DIR’05). Vilares, M., J. Otero, y J. Graña. 2004. On asymptotic finite-state error repair. Lecture Notes in Computer Science, 3246:271– 272. McNamee, P. y J. Mayfield. 2004a. Character N-gram tokenization for European language text retrieval. Information Retrieval, 7(1-2):73–97. Véronis, J. 1999. Multext-corpora: An annotated corpus for five European languages. cd-rom. Distributed by elra/elda. McNamee, P. y J. Mayfield. 2004b. JHU/APL experiments in tokenization and non-word translation. Lecture Notes in Computer Science, 3237:85–97. Mittendorfer, M. y W. Winiwarter. 2001. A simple way of improving traditional IR methods by structuring queries. En Proc. of the 2001 IEEE International Workshop on Natural Language Processing and Knowledge Engineering (NLPKE 2001). Mittendorfer, M. y W. Winiwarter. 2002. Exploiting syntactic analysis of queries for information retrieval. Data & Knowledge Engineering, 42(3):315–325. 16 Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 17-24 recibido 28-11-08, aceptado 02-03-09 Sistema de recomendación para un uso inclusivo del lenguaje∗ Inclusive Language Recommendation System Maria Fuentes, Lluı́s Padró, Muntsa Padró, Jordi Turmo y Jordi T. Carrera Grupo de Procesamiento del Lenguaje Natural Departamento de Lenguajes y Sistemas Informáticos Universitat Politècnica de Catalunya c/Jordi Girona, 1-3 08034 Barcelona mfuentes,padro,mpadro,turmo,[email protected] Resumen: Sistema que procesa un texto escrito en castellano detectando usos del lenguaje no inclusivos. Para cada sintagma nominal sospechoso el sistema propone una serie de alternativas. El sistema permite también la adquisición automática de ejemplos positivos a partir de documentos que hagan un uso inclusivo del lenguaje. Éstos ejemplos seran usados, junto a su contexto, en la presentación de sugerencias. Palabras clave: Lenguaje inclusivo, aprendizaje basado en ejemplos Abstract: System to detect exclusive language in spanish documents. For each noun phrase detected as exclusive, several alternative are suggested by the system. Moreover, the system allows the automatic adquisition of positive examples from inclusive documents to be presented within their context as alternatives. Keywords: Inclusive language, example based learning 1. Introducción Hacer uso de un lenguaje inclusivo consiste en la selección de vocabulario y partı́culas de la lengua que permitan minimizar o eliminar las palabras que implican o parecen implicar la exclusión de un sexo. Por ejemplo el personal de vuelo o la tripulación de cabina es lenguaje inclusivo, mientras que azafata es claramente exclusivo (o sexista). De todas formas, para determinar el grado de lenguaje inclusivo a ser utilizado, (Wilson, 1993) remarca la importancia de tener en cuenta el sentido común si no se quiere que por las buenas intenciones se acabe sacrificando la prosa. Existen varios manuales y herramientas que asisten a la producción de documentos inclusivos. Una de las primeras iniciativas en el estado español fue impulsada por el instituto de la mujer en el marco del proyecto nombra.en.red (Alario et al., 1995). En este proyecto se construyó un software de libre distribución, cuya base de datos fue creada siguiendo las sugerencias de usos alternativos que, en los años ochenta y noventa partieron, entre otros, del Consejo de Europa (Consejo Europa, 1986), del Institut Valencià de la DoLos autores desean mostrar su agradecimiento a Eulàlia Lledó y a Marta de Blas por la cesión de textos inclusivos, ası́ como a Edgar Gonzàlez por facilitarnos su software de clustering. ∗ ISSN 1135-5948 na (Departamento Dona, 1987), del Instituto de la Mujer, de UNESCO y de la Conferencia de Naciones Unidas sobre las Mujeres de Pekı́n (Naciones Unidas, 1996). Otra herramienta que podemos encontrar en la red es la lupa violeta (Factoria de Empresas, 2002). Fue diseñada para ser instalada en el procesador de textos Word, identifica los términos que pueden tener una utilización sexista y propone diferentes sugerencias. En la misma linea, recientemente se está comercializando Themis (The Reuse company, 2008), que explora archivos y sitios web en busca de usos exclusivos de la lengua ofreciendo alternativas de forma similar a los correctores ortográficos integrados en editores de textos. Este artı́culo presenta el recomendador de alternativas inclusivas desarrollado en la UPC (Universidad Politécnica de Cataluña) para el proyecto Web con Género de la Fundación CTIC (Centro Tecnológico de la Información y la Comunicación)1 . El sistema utiliza técnicas de aprendizaje basado en ejemplos y adquisición automática de ejemplos. La sección 2 muestra una visión global del sistema, la 3 analiza el funcionamiento del sistema actual, la 4 propone posibles mejoras y la sección 5 concluye el artı́culo. 1 http://www.t-incluye.org © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural Maria Fuentes, Lluís Padró, Muntsa Padró, Jordi Turmo, Jordi T. Carrera 2. Arquitectura general formateado como entrada del sistema, dividido en párrafos y codificado en XML. En el Cuadro 5 puede verse el formato de salida. Esta sección describe los componentes básicos de la arquitectura general del sistema. La Figura 1 presenta la interacción entre las cuatro componentes, cuyas funciones son: extraer caracterı́sticas de un Sintagma Nominal (SN), filtrar el SN en función de si utiliza un lenguaje inclusivo o exclusivo, buscar en la Base de Datos (BD) ejemplos similares a cada SN exclusivo y por último presentar las mejores sugerencias inclusivas. <DOC> <INFO> <URI>http:://www.un dominio.es/una pagina</URI> <IP>192.168.2.243</IP> <DATE>2998-03-13 11:34</DATE> </INFO> ... 3. La Junta Consultiva está constituida por el rector o la rectora, que la preside; la secretaria general o el secretario general, que lo es de la Junta, y cuarenta miembros más designados por el Consejo de Gobierno, a propuesta del rector o la rectora, entre profesoras o profesores e investigadoras o investigadores de reconocido prestigio, de todos los ámbitos temáticos presentes en la Universidad y de todos los que se considere oportuno, acreditados por las correspondientes evaluaciones positivas de acuerdo con la normativa vigente, ocho de los cuales, al menos, deben ser externos a la Universidad Politécnica de Cataluña. ... 4. A efectos de esta elección, la comunidad universitaria se considera dividida en los cuatro sectores siguientes: a)Profesorado doctor de los cuerpos docentes universitarios. b)Personal docente e investigador, excluido el correspondiente al sector a. c)Estudiantes. d)Personal de administración y servicios. ... </DOC> <xml_IN> Texto </xml_IN> gramática EXTRAER CARACTERÍSTICAS euroWN atributos_SN dic_lemas FILTRAR inclusivo/exclusivo inclus BD ejem inclusivos Cuadro 1: Documento de entrada. El primer paso consiste en extraer una serie de caracterı́sticas (atributos) de cada SN. En segundo lugar se tendrán en cuenta SNs inclusivos, cuando el objetivo sea la adquisición de ejemplos y SNs exclusivos cuando el objetivo sea la recomendación. En el primer caso se almacenarán en la BD los ejemplos filtrados y sólo en el segundo caso será necesario buscar ejemplos inclusivos similares existentes en la BD para finalmente presentar las sugerencias más adecuadas. exclus BUSCAR SIMILARES mejores_clusters PRESENTAR SUGERENCIAS 2.1. Extraer caracterı́sticas El objetivo de esta fase es obtener una serie de caracterı́sticas morfosintácticas y semánticas necesarias en la siguiente fase para determinar si un sintagma es inclusivo los hombres y las mujeres, exclusivo los hombres, o irrelevante los coches y las motos. La información extraı́da en esta fase también será utilizada en la búsqueda de ejemplos similares, tanto para indexar los ejemplos inclusivos en la BD cómo para seleccionar las mejores alternativas a un SN detectado como exclusivo. La parte superior del Cuadro 2 presenta un ejemplo de SN inclusivo en su contexto, los hombres y las mujeres, y la inferior los atributos asociados. El número de atributos varı́a en función de las caracterı́sticas del sintagma <xml_OUT> Texto_sug </xml_OUT> Figura 1: Componentes del recomendador. Las dos funcionalidades básicas son: la detección de SNs susceptibles de hacer uso de lenguaje exclusivo y las correspondientes recomendaciones inclusivas. la adquisición automática de SNs inclusivos para la creación de forma automática de la BDs de ejemplos inclusivos. El Cuadro 1 presenta un ejemplo de texto 18 Sistema de recomendación para un uso inclusivo del lenguaje nominal. Los atributos contienen información sobre lemas, formas, etiquetas morfológicas (en el ejemplo parole), información semántica (sense), etiquetas sintácticas (label, multiple). En él se desarrollan algunos aspectos relacionados con la violencia: sus significados, los modos en que hombres y mujeres se posicionan ante la misma, las causas de la violencia ejercida especı́ficamente contra las mujeres y el papel que juega la socialización de niñas y niños en la formación de conductas violentas. atributos: lemma=y form=y parole=CC HasDoubleForm=false lemma1=hombre form1=hombres parole1=NCMP000 HasDoubleForm1=true senses1=0:07391044 0:05957670 0:07392506 0:01967203 0:07331418 0:07392045 1:06951621 1:00017954 1:00004123 1:01966690 1:07602853 1:06951621 2:00004123 2:00003731 2:00002086 2:01964914 2:07356184 2:00004123 3:00003731 3:00002086 3:00001740 3:00001740 3:01402712 3:00004123 3:00003731 3:00002086 4:00001740 4:00001740 4:01378363 4:00003731 4:00002086 4:00001740 4:00001740 5:00995974 5:00001740 5:00001740 6:00990770 7:00008019 8:00002086 9:00001740 lemma2=mujer form2=mujeres parole2=NCFP000 HasDoubleForm2=false senses2=0:07684780 1:06948278 2:00004123 3:00003731 3:00002086 4:00001740 label=sn-doble multiple=true Figura 2: Representación semántica de hombre y mujer (sense1 y sense2 en Cuadro 2) te de la información semántica asociada a los conceptos “hombre” y “mujer”. Según WordNet mientras mujer tiene un único significado hombre puede tener varios y ambas palabras tienen por hiperónimo el concepto persona. Referente al análisis sintáctico, para el recomendador se ha creado una gramática de SNs especı́fica y se ha modificado el diccionario para que palabras cómo prı́ncipe y princesa tengan el mismo lema. 2.2. El componente Filtrar puede considerarse como un clasificador de SNs. La Figura 3 presenta el árbol de decisión que se aplica para identificar si un SN es inclusivo (CORRECTO), exclusivo (INCORRECTO), irrelevante (DESCARTAR) o multiple (DESMONTAR). En esta fase se aplican una serie de patrones que combinan información sintáctica con información semántica. Sintácticamente se tiene en cuenta si el SN es doble o sospechoso y semánticamente se tiene en cuenta si la palabra tiene una relación de hiperonimia con persona o grupo social. La regla por defecto serı́a que si un SN hace referencia a una persona o grupo social en masculino que tiene contraparte femenina y esta no aparece reflejada se detecta cómo incorrecto, si aparece se detecta cómo correcto. Para los casos a los que no se puede aplicar la regla por defecto o requieren un tratamiento especial para desvincularlo de la información que tiene o deja de tener WordNet se ha creado una serie de listas. A continuación se describe cada lista y el Cuadro 3 presenta las Cuadro 2: SN y las caracterı́sticas extraı́das HasDoubleForm indica que un lema tiene forma para ambos géneros. Este atributo será también cierto en palabras masculinas que tienen contraparte femenina, pero que no comparten lema con ella y por tanto no son detectables vı́a diccionario, como hombre. Esta fase utiliza la librerı́a Freeling2 (Atserias et al., 2006), que proporciona varios analizadores del lenguaje: análisis morfológico, etiquetado gramatical, análisis sintáctico superficial, detección y clasificación de entidades nominales y anotación semántica basada en WordNet (Vossen, 1998). Un SN puede estar formado por varios nombres y cada uno de ellos puede a su vez tener varios sentidos. La información semántica asociada se ve reflejada en los atributos sense, Cuadro 2. La Figura 2 presenta par2 Filtrar http://garraf.epsevg.upc.es/freeling/ 19 Maria Fuentes, Lluís Padró, Muntsa Padró, Jordi Turmo, Jordi T. Carrera palabras especiales hombre varón macho padre papá papa padrino marido caballero patrono obispo cardenal poeta jinete judı́o primero segundo tercero último penúltimo amo capellán albañil palabras no relevantes par tipo sector curso seminario tribunal nombre corazón factor amor circo pueblo estado contacto región elemento compromiso animal negocio extremo conferencia servicio encuentro periódico ejército encuentro colegio consejo departamento instituto ejemplo cuerpo cabo centro congreso simposio espectáculo cielo reparto cuadro diario modelo banco capı́tulo campamento paı́s conjunto éxito régimen bloque monstruo montón comedor imperio talento club partido palacio ministerio metro fantasma horario pájaro comité reino municipio ángel ayuntamiento vehı́culo cariño clan cerebro as cristianismo editorial sol base maricón terror satélite violı́n baile bajo testimonio bicho máquina academia laboratorio aula taller clı́nica campo doble papel general desastre demonio ex nazi rayo grande moro movimiento cı́rculo miembro parte alfabeto palabras inclusivas persona nombres vacı́os persona equipo señor colectivo sindicato ramo órgano población clase comunidad mundo coto profesión personal público gente grupo habitante asociación palabras genéricas profesorado alumnado ciudadanı́a estudiantado electorado clientela vecindario funcionariado voluntariado abogacı́a afición presidencia tropa vicepresidencia gerencia jefatura secretarı́a asesorı́a alcaldı́a coordinación redacción autorı́a magistratura judicatura delegación descendencia audiencia proletariado burguesı́a chiquillerı́a humanidad juventud infancia adolescencia tesorerı́a ingenierı́a ministerio consistorio tripulación pasaje consultorı́a auditorı́a notarı́a tutorı́a conserjerı́a empresa directiva Cuadro 3: Palabras con tratamiento especial. les)”. Ası́ mismo, “curso” o “sector” pueden referirse a un grupo o colectivo (“el curso de 5o son unos gamberros”, “el sector del metal esta en huelga”). La lista palabras no relevantes contiene lemas de palabras para las que el sistema debe ignorar los sentidos persona/colectivo que puedan tener, ya que son poco habituales. Eso evita la inclusión en la BD de muchos ejemplos irrelevantes, corriendo el riesgo de descartar ejemplos relevantes en las pocas ocasiones en que esas palabras constituyan ejemplos a detectar. La mayorı́a de palabras con género morfológico femenino o bien se refieren a objetos o a animales hembras (silla, casa, gata, gallina, ...) o a personas de sexo femenino (niña, amiga, ...). En el primer caso, no son relevantes para el tratamiento del lenguaje exclusivo. En el segundo, se considera que el deseo era referirse a una/s persona/s de sexo femenino y por tanto, no se detecta como sintagma incorrecto ni tampoco como sintagma candidato a sugerencia. Las palabras en la lista palabras inclusivas (como p.e. “persona”) son excepciones a esta regla, y deben ser consideradas candidatas a sugerencia aunque sean morfológicamente femeninas. Figura 3: Representación del árbol de decisión para filtrar SN inclusivos o exclusivos. palabras que contienen inicialmente. La lista palabras especiales contiene lemas de palabras masculinas que tienen una palabra femenina, pero que no comparten lema con ella y por tanto no son detectables vı́a diccionario. Por ej. “niños” es una palabra masculina que comparte lema con “niñas”, que es femenina. Palabras como “hombres” no tienen esta caracterı́stica, dado que su correspondiente femenino (“mujer” en este caso) tiene un lema diferente. El sistema usa información semántica extraı́da de WordNet para determinar si una palabra puede referirse a personas o a colectivos, que son conceptos clave para la identificación de ejemplos correctos o incorrectos en cuanto a género. Algunas palabras tienen sentidos poco frecuentes que caen en esas categorı́as (p.e. “un tipo” o “un par” pueden referirse a una persona, “un tipo majo”, “un Par del Reino”, “estar con sus pares (sus igua20 Sistema de recomendación para un uso inclusivo del lenguaje Número máximo de ejemplos en un cluster. Se usa en el proceso de decisión del número de clusters. Si el corte óptimo supone crear un cluster de tamaño mayor al valor dado en esta opción, se busca otro valor óptimo que no viole esta restricción. Los ejemplos de la BD se agrupan en clusters y para cada cluster se elige un ejemplo representante (medoide). El Cuadro 4 presenta los ejemplos que forman el cluster representado por el medoide una educadora o un educador. La lista nombres vacı́os contiene aquellos nombres que se refieren a una persona o colectivo, pero que en el caso de llevar un adjetivo, es ése el que aporta la información relevante (p.e. “persona usuaria” es relevante para “usuario”, o “equipo directivo” lo es para “directivos” o “director”). La lista palabras genéricas contiene palabras que se refieren a colectivos, pero que en WordNet no aparecen como tal. 2.3. Buscar similares El sistema utiliza una BD de ejemplos inclusivos indexada para que el acceso a los ejemplos sea eficiente utilizando técnicas de clustering o agrupación de ejemplos. Lo que significa que se agrupan los ejemplos según su parecido, para facilitar su posterior recuperación por similitud. En concreto se accede a los clusters o conjuntos de ejemplos con menor distancia (valor entre 1 y 0). La distancia entre ejemplos se calcula aplicando la siguiente fórmula: 637: del equipo educativo 917: una educadora o un educador 1065: la persona ası́ educada 1771: educadoras y educadores 1798: como persona educadora 1803: educadoras o educadores 1804: de un equipo educativo 4292: la persona educadora 4698: educadoras/es medoide: 917 num.ejemplos: 9 d = 1 − ((P la ∗ Sla + P f ∗ Sf + P le ∗ Sle + P s ∗ Ss + P p ∗ Sp)/P normaliza) Cuadro 4: Ejemplo de cluster y su medoide. Para evitar comparar cada vez la distancia del SN tratado a todos los ejemplos de la BD únicamente los medoides son tenidos en cuenta en la selección del conjunto de clusters que se encuentran a menor distancia. En esta fase, se calcula la distancia del SN tratado con el medoide de cada cluster en la BD. donde Sla, Sf, Sle, Ss y Sp son respectivamente las similitudes entre las etiquetas sintácticas, las formas, los lemas, los sentidos y las etiquetas morfológicas y Pnormaliza es la suma de los pesos de cada similitud: Pla 0.1, Pf 3, Ple 5, Ps 8 y Pp 1. 2.4. Se ha utilizado una implementación de Clustering Jerárquico Aglomerativo (Jardine y Sibson, 1971). Como distancia inter-grupo hemos utilizado “Unweighted Pairwise Group Method using Arithmetic Averages” (Zhao y Karypis, 2002). Una vez el dendrograma está construido, el número óptimo de clusters se determina usando Silhouette (Rousseeuw, 1987). Se selecciona la profundidad del árbol cuyos clusters obtienen un mayor valor Silhouette. Adicionalmente el sistema tiene dos parámetros relacionados con la construcción de los clusters: Número mı́nimo de clusters de ejemplos que se crearan. El algoritmo decide automáticamente el número óptimo de grupos, pero en algunos casos el criterio de decisión puede no obtener un valor satisfactorio. En estos casos, se usa el número de clusters especificado en esta opción. Presentar sugerencias La selección de las sugerencias para un ejemplo incorrecto requiere el paso previo de selección de los clusters más prometedores. En esta última fase sólo se analizan las posibles sugerencias que contienen los mejores clusters, evitando ası́ un recorrido exhaustivo de toda la BD. De entre las sugerencias analizadas, se seleccionan las más parecidas al ejemplo incorrecto, siempre que se encuentren dentro de un margen de similitud, y procurando que sean lo más variadas posible. A continuación se describen los parámetros que controlan la búsqueda y selección de sugerencias: Número máximo de sugerencias que dará el recomendador. Puede dar menos si no hay bastantes candidatos lo suficientemente cercanos al ejemplo incorrecto. Umbral de distancia a partir del cual no se consideran las sugerencias, aunque no se haya 21 Maria Fuentes, Lluís Padró, Muntsa Padró, Jordi Turmo, Jordi T. Carrera te por “toda persona usuaria”, sin embargo sin tener en cuenta la preposición y adecuando el número, se puede considerar que todas las sugerencias aportan información útil. A veces información relevante de la sugerencia queda en lo que serı́a la zona de contexto: “los colectivos de homosexuales” o “los/las trabajadores/as”. En el primer caso, sintácticamente se trata de dos sintagmas: un sintagma nominal “los colectivos” y uno preposicional “de homosexuales”. Si el sistema considerara que es un solo sintagma, entonces se filtrarı́an como correctos ejemplos como “las personas del bar de la esquina” o “[avisar a] las personas del peligro que corren”. Cuando aparece ’/’ el etiquetado sintáctico no acaba de ser del todo correcto, puesto que su uso es gramaticalmente discutible. La calidad de los documentos de los que se han extraı́do los ejemplos es básica. Por ejemplo en el caso de “para médicos, enfermeras, dietistas y otros profesionales” aparecen usos exclusivos de lenguaje, sin embargo “para médicos” aparece como ejemplo porque en el diccionario utilizado “médico” es una palabra que se puede referir a ambos géneros. Ası́ pues, la primera sugerencia propone la eliminación del artı́culo para que sean incluidos profesionales de ambos sexos. No obstante lo que sucede es que el sistema no comprueba que el contexto sea inclusivo. Por esta razón “otros profesionales”, exclusivo, aparece en el contexto de un ejemplo positivo. La tercera alternativa que se da a “los médicos” es “doctor o doctora”, sugerencia aceptable, aunque el significado en el contexto dado no sea sinónimo de “médico”. Cada aparición de un SN es almacenado una sola vez en la BD, independientemente de su contexto o de si pueda tener varios significados. El sistema no suele presentar sugerencias a los adjetivos. En el tercer párrafo, “los turistas alemanes” se da alternativas para “los turistas” proponiéndose quitar el determinante para incluir tanto turistas femeninos como masculinos. Será necesario la posterior supervisión de las concordancias en el texto final. Si el contenido de la BD ha sido creado a partir de la adquisición automática de ejemplos es recomendable una supervisión de su contenido. Ya que puede ocurrir que los contextos sean poco significativos o como en el caso de “de mujer o por los investigadores”, sugerencia propuesta a “los investigadores”, se haya almacenado como inclusivo un ejem- alcanzado el número máximo de sugerencias. La distancia equivale a 1-similitud, por lo que un umbral 0.55 implica que no se propondrán sugerencias con una similitud inferior a 0.45. Una distancia demasiado baja excluye ejemplos interesantes pero semánticamente alejados (p.e. ciudadanos de ciudadanı́a) Número de clusters más cercanos al SN incorrecto a explorar para la selección de sugerencias. Si el valor es muy alto, se pierde eficiencia ya que se explora gran parte de la BD. Este valor controla el porcentaje de la BD que se explora en cada consulta. Si la BD tiene muchos clusters, que este valor sea alto, no necesariamente significa una gran perdida de eficiencia, y en cambio, garantiza que se encuentren los mejores ejemplos. Un valor de 1 puede funcionar bien con una BD rica en ejemplos. Un valor de 2 o 3 introduce cierta flexibilidad en la búsqueda que puede mejorar los resultados en ejemplos que quedan a medio camino entre dos grupos. Umbral de igualdad. Para aumentar la variedad de las sugerencias, el recomendador omite los candidatos si son muy parecidos a alguno ya propuesto. (ej: si en la lista ya figura “los profesores y las profesoras”, se omitirá “los profesores o las profesoras”). Este umbral es la similitud mı́nima que deben tener dos ejemplos para ser considerados “demasiado parecidos”. Cuanto mayor es el valor, más estricta es la comparación (más parecidos se permite que sean los ejemplos de la lista final). Si el valor baja, menos estricta es la comparación (se consideraran parecidos ejemplos con mayores diferencias). En caso que no se seleccione ningún ejemplo candidato, siempre que sea posible, se genera automáticamente una sugerencia sin contexto a partir del diccionario, “alcaldesa y alcalde” para el SN que contiene “alcalde”. 3. Análisis del funcionamiento Para mostrar lo que se puede esperar del sistema, analizaremos las sugerencias ofrecidas a una serie de SNs detectados como exclusivos, ver Cuadro 5. Para permitir el acceso a un mayor número de ejemplos en la decisión de si dos SNs son similares no se tiene en cuenta las preposiciones, ni la mayorı́a de veces los adjetivos. El sistema propone usos inclusivos parecidos asociados a un contexto. Por ejemplo el primer SN detectado como incorrecto, “los usuarios”, sólo podrı́a ser remplazado directamen22 Sistema de recomendación para un uso inclusivo del lenguaje Los usuarios del recinto se manifiestan en contra de los homosexuales. <SN end=”14”fac=”1.0”start=”2”id=”1”>Los usuarios</SN> <L SUG id=”1”> <SUG sim=”1.0”id=”1”> ... situación, que desorienta <EJ>a los colectivos usuarios</EJ> de los servicios formativos, se simplifica ... </SUG> <SUG sim=”0.9490392648287383”id=”2”> ... seguridad de redes y sistemas o Informática <EJ>de usuario/a</EJ> o Programador/a de aplicaciones ... </SUG> <SUG sim=”0.9172932330827067”id=”3”> ... guardar el rastreo de lo que hace <EJ>toda persona usuaria</EJ> de Internet durante un mı́nimo de ... </SUG> </L SUG> <SN end=”71”fac=”1.0”start=”42”id=”2”> en contra de los homosexuales</SN> <L SUG id=”2”> <SUG sim=”0.9941520467836257”id=”1”> Represión franquista y lucha de los colectivos <EJ>de homosexuales</EJ> y transexuales Fernando Olmeda, ... </SUG> <SUG sim=”0.9422156790577841”id=”2”> ... especialmente en las escuelas, como estos pares: <EJ>homosexual</EJ>/heterosexual; femenino/masculino; ... </SUG> <SUG sim=”0.9364319890635678”id=”3”> ... homosexual es no ser ya ni mujer ni hombre, como si <EJ>la persona homosexual</EJ>renunciara a su ... </SUG> </L SUG> Los usuarios del recinto se manifiestan en contra de los homosexuales. Los trabajadores optan por unirse a los médicos. <SN end=”17”fac=”1.0”start=”1”id=”3”>Los trabajadores</SN> <L SUG id=”3”> <SUG sim=”0.9941520467836257”id=”1”> ... Comisiones Obreras cuando pide la equiparación de los/<EJ>las trabajadores/as</EJ> del sexo al resto ... </SUG> <SUG sim=”0.993815730994152”id=”2”> Tanto <EJ>los trabajadores y trabajadoras</EJ> propuestos por la Fundación Universidad de Oviedo, como ... </SUG> <SUG sim=”0.9294976571864444”id=”3”> ... fácil podrı́a ser cambiar el mundo si <EJ>toda persona trabajadora</EJ> donara una unidad monetaria ... </SUG> </L SUG’> <SN end=”48”fac=”1.0”start=”35”id=”4”> a los médicos</SN> <L SUG id=”4”> <SUG sim=”0.9941520467836257”id=”1”> ... necesita para conducir un servicio de entrenamiento <EJ>para médicos</EJ>, enfermeras, dietistas y otros ... </SUG> <SUG sim=”0.9406850459482038”id=”2”> ... enfermedad todavı́a muy desconocida incluso <EJ>para el colectivo médico</EJ>, y es objeto de miles de ... </SUG> <SUG sim=”0.48454469507101083”id=”3”> ... personal docente e investigador con el grado <EJ>de doctor o doctora</EJ>, que ha de constituir, ... </SUG> </L SUG> Los trabajadores optan por unirse a los médicos. Los turistas alemanes serán premiados por los investigadores. <SN end=”24”fac=”1.0”start=”3”id=”5”> Los turistas alemanes</SN> <L SUG id=”5”> <SUG sim=”0.9941520467836257”id=”1”> Llegan a nuestro paı́s <EJ>como turistas</EJ> y la consiguiente exigencia de visados al poco de su estancia ... </SUG> </L SUG> <SN end=”63”fac=”1.0”start=”41”id=”6”> por los investigadores</SN> <L SUG id=”6”> <SUG sim=”0.9941520467836257”id=”1”> Bienestar reune en Madrid (CSIC, Serrano 117) <EJ>investigadores/as</EJ> de más de 30 paises. </SUG> <SUG sim=”0.9472398946083156”id=”2”> ... bagaje colectivo <EJ>como grupo investigador</EJ>está formado por el pensamiento crı́tico de teóricos ... </SUG> <SUG sim=”0.7571929824561403”id=”3”> temas <EJ>de mujer o por los investigadores</EJ> que (¿casualmente?) son mayoritariamente mujeres, ... </SUG> </L SUG> Los turistas alemanes serán premiados por los investigadores. El director se reune con el alcalde. <SN end=”13”fac=”1.0”start=”2”id=”7”>El director</SN> <L SUG id=”7”> <SUG sim=”0.9941520467836257”id=”1”> Cada vez es más habitual ver ’informático/a’ o ’<EJ>director/a</EJ>’, pero seguimos encontrándonos con ... </SUG> <SUG sim=”0.9410175981620718”id=”2”> Las decanas y los decanos y <EJ>las directoras y los directores</EJ> de las unidades deben elaborar y someter ... </SUG> <SUG sim=”0.8624011007911937”id=”3”> Una profesora me contó que el año pasado <EJ>el equipo directivo</EJ> de su instituto decidió gastarse todo ... </SUG> </L SUG> <SN end=”37”fac=”1.0”start=”23”id=”8”> con el alcalde</SN> <L SUG id=”8”> <SUG sim=1.0”id=”1”> <EJ>alcaldesa y alcalde</EJ> </SUG> </L SUG> El director se reune con el alcalde. Cuadro 5: Ejemplo de párrafos no inclusivos y las sugerencias ofrecidas por el recomendador. plo que en realidad es exclusivo. Por último, toda sugerencia podrá ser susceptible de error, ya que el sistema no tiene manera alguna de saber si el texto se está refiriendo a un varón concreto, por ejemplo, si el alcalde es un hombre no tiene sentido sugerir “alcaldesa y alcalde”. 4. ción definitiva del sistema, ası́ como la ampliación de los ejemplos positivos de la BD, se está llevando a cabo en la Fundación CTIC. Una mejora del sistema consiste en tener en cuenta todas las partı́culas del SN, ya que por el momento básicamente se tienen en cuenta nombres. Los adjetivos sólo se tienen en cuenta si el núcleo del SN es un nombre que aparece en la lista nombres vacı́os. Trabajo futuro La definición final del contenido de las listas de palabras utilizadas para la configura- Tratar los pronombres nos permitirı́a detectar ejemplos como “estamos todos y to23 Maria Fuentes, Lluís Padró, Muntsa Padró, Jordi Turmo, Jordi T. Carrera Bibliografı́a das” o malos usos como “contacte con nosotros”. De todas formas, por el momento el sistema tampoco trata verbos, por lo que ninguna construcción con clı́ticos, “contactarnos”, puede ser detectada como correcta. Retocar la gramática y el extractor de caracterı́sticas mejorarı́a el tratamiento de SNs especialmente complejos cómo “de nuestras hijas e hijos, amigas y amigos y colegas”. El extractor actual sólo obtiene información de tres elementos por SN: palabra “,” o “conjunción”, palabra1 y palabra2. Refinar el árbol de decisión con que se implementa el filtrado de SNs en el tratamiento de SNs dobles permitirı́a que no se filtrasen cómo ejemplos positivos SNs del estilo “de mujer o por los investigadores”. El estudio de la calidad del contexto en la extracción de SNs inclusivos también significarı́a una mejora, evitando incluir ejemplos, como el anteriormente mencionado, cuyo contexto contiene “otros profesionales”. Referente a la presentación de sugerencias, no se tiene en cuenta si el SN viene precedido por una preposición o no. Se podrı́a estudiar la posibilidad de poner las preposiciones en la zona de contexto. De manera que las sugerencias a “Los usuarios” serı́an: “los colectivos usuarios, usuario/a y toda persona usuaria”, en lugar de “a los colectivos usuarios, de usuario/a y toda persona usuaria”. Queda como trabajo futuro la detección y corrección de SNs que excluyan a personas de sexo masculino, “azafatas” o “enfermeras”. 5. Alario, Carmen, Mercedes Bengoechea, Eulalia Lledó, y Ana Vargas. 1995. En femenino y en masculino. Madrid: Ministerio de Trabajo y Asuntos Sociales. Atserias, Jordi, Bernardino Casas, Elisabet Comelles, Meritxell González, Lluı́s Padró, y Muntsa Padró. 2006. Freeling 1.3: Syntactic and semantic services in an open-source nlp library. En Proceedings of the fifth international conference on Language Resources and Evaluation (LREC 2006), ELRA, Genoa, Italy. Consejo Europa. 1986. Igualdad de sexos en el lenguaje. Comisión de terminologı́a en el Comité para la igualdad entre mujeres y hombres del Consejo de Europa. Departamento Dona. 1987. Recomendaciones para un uso no sexista de la lengua. Consellerı́a de Cultura, Educación y Ciencia de la Generalitat Valenciana. Factoria de Empresas. 2002. La lupa violeta. http://www.factoriaempresas.org/productos yresultados/lupavioleta/lanzador.swf. Jardine, N. y R. Sibson. 1971. Mathematical Taxonomy. John Wiley and Sons, Inc. Naciones Unidas. 1996. Declaración de pekı́n y plataforma para la acción. IV Conferencia mundial sobre las mujeres, Pekı́n. Rousseeuw, Peter. 1987. Silhouettes: A graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20:53–65, November. Conclusiones The Reuse company. 2008. http://www.themis.es. El sistema presentado tiene dos funcionalidades básicas: la recomendación de un uso del lenguaje inclusivo y la adquisición automática de ejemplos inclusivos a partir de textos considerados correctos. El sistema utiliza aprendizaje basado en ejemplos. Por ello, la calidad de las recomendaciones es fuertemente dependiente de la calidad y cantidad de ejemplos previamente almacenados en la Base de Datos, aunque cómo toda aplicación de inteligencia artificial tiene asociado un cierto grado de error. Por esta razón el recomendador debe ser considerado como un asistente a la escritura de textos inclusivos y no como un corrector de textos exclusivos. Themis. Vossen, Piek. 1998. Eurowordnet: A multilingual database with lexical semantic networks. Dordrecht. Kluwer Academic Publishers. Wilson, Kenneth G. 1993. The Columbia Guide to Standard American English. Columbia University Press. Zhao, Y. y G. Karypis. 2002. Evaluation of hierarchical clustering algorithms for document datasets. En Proceedings of the Eleventh International Conference on Information and Knowledge Management (CIKM’02), páginas 515–524. 24 Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 25-30 recibido 14-01-09, aceptado 02-03-09 Aplicación de técnicas de extracción de información temporal a los sistemas de búsqueda de respuestas* Application of temporal information extraction techniques to question answering systems María Teresa Paloma Vicente-Díez Martínez Departamento de Informática. Universidad Carlos III de Madrid Avda. Universidad 30, 28911. Leganés, Madrid {tvicente, pmf}@inf.uc3m.es Ángel MartínezJosé Luis MartínezGonzález Fernández DAEDALUS - Data, Decisions and Language, S.A. Edificio Villausa II Avda. Albufera, 321, 28031. Madrid {amartinez, jmartinez}@daedalus.es Resumen: En este trabajo, proponemos la integración de un sistema de reconocimiento, resolución y normalización de expresiones temporales en un sistema de búsqueda de respuestas para español. Las fases de análisis de la pregunta y de extracción de respuestas han sido adaptadas a las nuevas capacidades del sistema para la detección e inferencia temporal. Dicho sistema ha sido evaluado a través de un corpus de preguntas propuesto para la tarea principal de QA@CLEF2008. Los resultados obtenidos muestran mejoras relativamente significativas tanto en la cantidad de las respuestas acertadas como en la calidad de las mismas. Palabras clave: Sistemas de búsqueda de respuestas, tratamiento de información temporal, razonamiento temporal Abstract: This work proposes the integration of a temporal expressions recognition, resolution and normalization system into a question answering system for Spanish. Both question analysis and answer extraction stages have been adapted to the new capabilities for temporal detection and inference of the system. It has been evaluated by means of a corpus composed of questions that has been originally developed for the main task of QA@CLEF2008. The obtained results show quite significant improvements both in terms of quantity of correct answers and in the quality of them. Keywords: Question-Answering systems, temporal information management, temporal inference 1 Introducción La mayoría de los sistemas de búsqueda de respuestas (SSBBRR) actuales no aprovechan todas las ventajas que podría suministrarles un adecuado procesamiento de la información temporal de sus recursos. Aquéllos podrían ver mejorados sus resultados mediante el empleo de técnicas de extracción e inferencia temporal, tanto en la fase de formulación de la pregunta como en la de recuperación de la respuesta. * Este trabajo ha sido parcialmente financiado por la Comunidad de Madrid bajo la Red de Investigación MAVIR (S-0505/TIC-0267), y por el Ministerio de Educación en el marco del proyecto BRAVO (TIN2007-67407-C3-01). ISSN 1135-5948 La propuesta que se describe en este artículo trata de solucionar esta problemática añadiendo tratamiento temporal a un sistema de búsqueda de respuestas existente, en las fases cuya mejora es susceptible de ejercer una influencia más significativa en el resultado final. Así, se han considerado las etapas de indexación de documentos, el análisis de la pregunta y la extracción de la respuesta. Los principales avances se consiguen mediante la adición de meta-información temporal en las colecciones indexadas, la normalización de las expresiones temporales detectadas en la pregunta, y mediante la inclusión de un mecanismo de inferencia temporal a la hora de extraer la respuesta. © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural María Teresa Vicente-Díez, Paloma Martínez, Ángel Martínez-González, José Luis Martínez-Fernández Pablo-Sánchez y Martínez, 2007) procesa los textos de entrada e identifica fechas y expresiones temporales, instantes de referencia, duraciones e intervalos en ellos (reconocimiento). Las expresiones reconocidas son a su vez resueltas cuando por su naturaleza así lo precisan (resolución), devolviéndose en el formato estándar internacional ISO8601 (2004) de representación de fechas y horas (normalización). En la Figura 1 se muestra la arquitectura general del sistema anteriormente descrito. El sistema de búsqueda de respuestas del que se parte participa en CLEF desde el año 2003, a través del grupo de investigación MIRACLE (Multilingual Information RetrievAl for the CLEf campaign) (de Pablo-Sánchez et al., 2007). En este trabajo el sistema monolingüe, desarrollado inicialmente para trabajar en español, se ha evaluado a través de una batería de preguntas extraídas de la colección de CLEF 2008. Otros trabajos previos han abordado también este problema para el tratamiento de otros idiomas, como en (Hartrumpf y Leveling, 2006) o en (Moldovan y Clark, 2005). El artículo está estructurado como sigue: en la sección 2 se describen las bases para el tratamiento de información temporal. En la sección 3 se presenta el sistema de búsqueda de respuestas sobre el que se ha trabajado, mientras que en la sección 4 se detallan las mejoras llevadas a cabo sobre el mismo. La sección 5 muestra los resultados de la evaluación a la que se ha sometido al sistema. Para finalizar, la sección 6 incluye las conclusiones obtenidas y algunas líneas de trabajo futuro. Figura 1: Arquitectura general del sistema de extracción de información temporal 2 Reconocimiento y Normalización de Expresiones Temporales En un SBR es primordial poder resolver referencias que ayuden a responder a cuestiones temporales (“¿En qué mes se celebra en España la Navidad?”) o con restricciones de tiempo (“¿Cuántas películas fueron filmadas en 2005?”). Particularmente en estos sistemas resulta de especial interés la integración de mecanismos de razonamiento sobre el tiempo que doten a la aplicación de una nueva dimensión temporal (Moldovan, Bowden, y Tatu, 2006). Un tratamiento de información temporal adecuado ha de comenzar con una detección precisa de las expresiones temporales en las colecciones de documentos. Además, ha de ser capaz de manejar cada detección en un formato estándar que capture el valor temporal de la expresión una vez resuelta, permitiendo el razonamiento sin lugar a ambigüedad. De esta manera, en un sistema de recuperación de información que incorpore estas características se puede concretar más el rango de la búsqueda e incrementar la calidad de los resultados. El sistema implementado para la extracción de información temporal (Vicente-Díez, de La base del sistema la constituye una gramática de reglas de reconocimiento de expresiones temporales que define el funcionamiento de un autómata de estados finitos. Conjuntamente, se ha desarrollado una propuesta de resolución y normalización de las detecciones llevadas a cabo, que también se realiza de manera automática. Ambas herramientas se han construido a partir de un estudio exhaustivo de los diferentes tipos de expresiones temporales que aparecen en distintos corpus en español. Gracias a este análisis se desarrolló una tipología de las expresiones de tiempo y seguidamente se definió la gramática de reconocimiento y las reglas de resolución y normalización que correspondían con los tipos de aparición más frecuente (Vicente-Díez, Samy y Martínez, 2008). La Tabla 1 presenta un ejemplo de definición de patrones que constituyen las reglas de la gramática de reconocimiento, así como de las reglas para la resolución de las detecciones y la definición del formato de salida estandarizado. 26 Aplicación de técnicas de extracción de información temporal a los sistemas de búsqueda de respuestas RECONOCIMIENTO PATRON DESCRIPCIÓN EJEMPLOS COMPLETE_DATE REL_DEICTIC_UNIT [ART|PREP]? DAY PREP MONTH_NAME PREP YYYY DEICTIC_UNIT el_3_de_enero_de_2005 mañana FORMATO ENTRADA ABS_DATE REL_ DEICTIC_UNIT_ FUTURE [ART|PREP]? DAY PREP MONTH_NAME PREP YYYY mañana RESOLUCIÓN Y NORMALIZACIÓN REGLA DE RESOLUCIÓN ENTRADA EJEMPLO REFERENCIA SALIDA NORM Day =toDD (DAY) Month=toMM(MONTH_NAME) Year=YYYY [el] 31 de diciembre de 2005 NA 2005-12-31 Day=getDD(Creation_Time)+1 Month=getMM(Creation_Time) Year=getYYYY(Creation_Time) mañana 2008-06-01 2008-06-02 Tabla 1 Ejemplo de reglas de reconocimiento de la gramática temporal y reglas de resolución correspondientes. 3 el módulo encargado de determinar si una pregunta tiene rasgos de temporalidad, entre otros. Selector de Documentos Proporciona acceso a fuentes de información, es decir, a sistemas capaces de proporcionar porciones de texto que pueden contener la respuesta buscada para una pregunta. El sistema da acceso a índices de Lucene en los que previamente se han indexado todos los documentos de las colecciones en las que se procederá a buscar las respuestas. Este módulo precisa de la funcionalidad de análisis lingüístico que ofrece otro de los módulos. Extractor de Respuestas Su funcionalidad radica en analizar el contenido de un documento para determinar si aparece o no la respuesta a una pregunta. Para ello se definen dos tareas: seleccionar las frases que pueden contener una respuesta y determinar qué parte de una frase encierra la respuesta a una pregunta. Como posibles respuestas se extraen aquellos tokens (o grupos de tokens) que tienen asignada la etiqueta semántica adecuada. Este componente devuelve una lista de respuestas candidatas a las que asocia un valor de confianza en su corrección. Este módulo también hace uso de las funciones de análisis lingüístico. Evaluador de Respuestas (Ranker) El sistema consta de un componente para puntuar las posibles respuestas. Este sistema de puntuación asigna un peso local y un peso global a cada respuesta. El peso local sólo depende de la frase en la que se encuentra la respuesta. El peso global se calcula teniendo en consideración todas las respuestas encontradas. Sistema de Búsqueda de Respuestas Los módulos principales que componen la arquitectura general del SBR que ha sido sometido a estudio en este en este trabajo son presentados en la Figura 2. Figura 2: Arquitectura modular del sistema de búsqueda de respuestas La flecha de bloque marca el recorrido que sigue una pregunta durante su procesamiento. Las flechas discontinuas indican qué uso hacen unos componentes de otros. A continuación se describe de forma genérica la funcionalidad de cada módulo. Analizador de Preguntas Este componente se encarga de clasificar una pregunta de entrada atendiendo a un conjunto de características predefinidas. Para ello emplea un clasificador basado en reglas. Es 27 María Teresa Vicente-Díez, Paloma Martínez, Ángel Martínez-González, José Luis Martínez-Fernández normalizar expresiones temporales dentro de esas preguntas. Esto permite que en el tratamiento de las preguntas temporales se pueda refinar el tipo de respuesta que se espera del sistema. Por ejemplo, ante una pregunta como “¿En qué año…?” el sistema es capaz de detectar que la respuesta ha de coincidir con un patrón que corresponda a un año exclusivamente. Por otra parte, en el caso de que la pregunta contenga una expresión temporal, el sistema es capaz de extraerla, clasificando automáticamente dicha pregunta como restringida temporalmente, y utilizando su resolución para acotar la búsqueda. De manera adicional, el uso de la forma normalizada de las expresiones temporales detectadas en las preguntas permite recuperar aquellos documentos que contienen información temporal que coincide no sólo literal sino también semánticamente con los términos de la búsqueda (“15 de septiembre”, “15/09”, “15 sept.”). Ambos pesos se combinan para proporcionar el peso asignado a la respuesta, siendo la influencia de cada uno de ellos configurable. Analizador Lingüístico Este componente incluye toda la funcionalidad relativa al tratamiento lingüístico de los textos con los que se trabaja, sean textos extraídos de documentos o preguntas. Los textos son divididos y enriquecidos con etiquetado gramatical, morfosintáctico y semántico por las herramientas lingüísticas StilusTokenizer y StilusReader, desarrolladas por (DAEDALUS, 2008). 4 Integración del tratamiento temporal en la Búsqueda de Respuestas Algunos autores han denominado búsqueda de respuestas temporal a aquella especialización de la tarea de búsqueda de respuestas en la que las preguntas tienen algún rasgo que denota temporalidad (Saquete, 2005). Este tipo de preguntas pueden ser clasificadas en 3 categorías de acuerdo al papel que juega el dato temporal en su resolución: Preguntas temporales: aquéllas para las que la respuesta esperada es una fecha o expresión de tiempo (“¿Cuándo se firmo el tratado de Maastricht?”) Preguntas con restricción temporal: preguntas en cuyo contenido se encuentra una fecha o expresión temporal que circunscribe su respuesta (“¿Quién ganó el Oscar a la mejor actriz en 1995?”). Preguntas temporales con restricción temporal: combinan las características de los dos tipos anteriormente descritos (“¿En qué temporada anterior a 1994 se enfrentaron Barcelona y Milán?”). Para que el SBR base sea capaz de resolver este tipo de cuestiones temporales es necesaria la integración de ciertas capacidades de tratamiento de información temporal en algunos de sus módulos. En este trabajo se presenta una evolución del SBR base cuya implementación se ha centrado en la mejora de los módulos de análisis de preguntas y extracción de respuestas. 4.1 4.2 Extracción de respuestas Detectar correctamente el tipo de pregunta es fundamental para conseguir una buena respuesta, pero también lo es extraer los fragmentos de texto adecuados para responder a la pregunta, así como asignar una valoración conveniente a las posibles respuestas. Este módulo extrae como respuesta aquéllos tokens que tienen asignada la etiqueta semántica correspondiente al tipo de pregunta formulada. En el caso de las preguntas temporales el sistema con tratamiento de información temporal es capaz de proporcionar respuestas que cumplen la restricción de ser expresiones temporales o fechas, con la granularidad que dicte la pregunta (fecha completa, año, mes,…). Cuando se trata de responder a preguntas con restricción temporal, el módulo aplica nuevas reglas de extracción basadas en inferencia temporal. En el caso de que una respuesta candidata no cumpla la restricción temporal impuesta en la pregunta, la regla reducirá la valoración final de dicha respuesta. Si por el contrario la cumple, la confianza en que pueda ser una respuesta correcta aumenta con respecto al resto. Se ha desarrollado un mecanismo de inferencia temporal básico fundamentado en el principio de inclusión: de un instante de tiempo en un intervalo, y de un intervalo en otro. Esta Análisis de preguntas Este módulo es el encargado de la clasificación de las preguntas de entrada. Entre otras, se encarga de clasificar las preguntas con rasgo de temporalidad de acuerdo a la categorización que se describió anteriormente. Su funcionalidad ha sido incrementada dotándole de capacidad para detectar, resolver y 28 Aplicación de técnicas de extracción de información temporal a los sistemas de búsqueda de respuestas sistemas, habiéndose llevado a cabo el cómputo en términos cuantitativos y cualitativos. Para esta última medición se ha hecho un análisis en función de si la respuesta correcta ha sido ofrecida como primera, segunda o tercera opción, descartándose el resto de posibilidades. inferencia es facilitada por la normalización previa de las expresiones de tiempo. 5 Evaluación y resultados Esta sección muestra una comparativa entre los resultados obtenidos por el SBR base y el ampliado con tratamiento de expresiones temporales. Ambos sistemas trabajan sobre los índices de documentos obtenidos de las colecciones que se muestran en la Tabla 2. EFE 1994 EFE 1995 Wikipedia Documentos 215.738 238.307 ≈ 370.000 Tamaño 509 MB 577 MB -- Preguntas Restricción Temporal Preguntas Temporales Preguntas Temporales con Restricción Temporal Total Tipo txt txt html 26 19 1 13% 10% 0,5% 46 23% Tabla 3 Preguntas con rasgo de temporalidad en QA@CLEF2008 Los resultados obtenidos por el SBR base, sin mecanismos de inferencia y tratamiento temporal, se muestran en la Tabla 4. Éste responde correctamente a 8 de las 46 preguntas, siendo 5 de esas respuestas ofrecidas como primera opción. En cuanto al SBR con capacidades temporales, los resultados se muestran en la Tabla 5. En este caso se observa un incremento en el número de respuestas correctas obtenidas, contabilizándose un total de 9. Además, los resultados se ven también mejorados cualitativamente, ya que 7 de esas respuestas se ofrecen como primera opción. La utilización del SBR temporal supone un incremento en la tasa de acierto del 2,17% con respecto al SBR base, y del 4,35% en el ratio de respuestas correctas en primera instancia. Tabla 2 Colecciones de documentos indexadas Con el fin de realizar esta evaluación ha sido también preciso emplear un corpus de preguntas temporales que permitiera contrastar los resultados de uno y otro sistema. Dicho corpus se ha obtenido de la tarea principal de QA@CLEF2008, y cuenta con un total de 200 preguntas. De éstas, 46 están clasificadas según su cariz temporal dentro de alguno de los 3 tipos definidos en el punto anterior. Este subconjunto de preguntas será sujeto de estudio por su interés particular para este trabajo. La Tabla 3 muestra las proporciones de cada tipo de pregunta con temporalidad en el corpus. Se ha realizado una evaluación manual de la corrección de las respuestas a las preguntas con rasgos de temporalidad obtenidas por ambos 1ª respuesta 1 3,85% 4 21,05% 0 0% 5 10,87% Preguntas con Restricción Temporal Preguntas Temporales Preguntas Temporales con Restricción Temporal Total Aciertos en 2ª respuesta 1 3,85% 0 0% 0 0% 1 2,17% 3ª respuesta 1 3,85% 1 5,26% 0 0% 2 4,35% Tabla 4 Resultados del SBR sin tratamiento de información temporal 1ª respuesta 3 11,54% 4 21,05% 0 0% 7 15,22% Preguntas con Restricción Temporal Preguntas Temporales Preguntas Temporales con Restricción Temporal Total Aciertos en 2ª respuesta 0 0% 1 5,26% 0 0% 1 2,17% Tabla 5 Resultados del SBR con tratamiento de información temporal 29 3ª respuesta 0 0% 1 5,26% 0 0% 1 2,17% María Teresa Vicente-Díez, Paloma Martínez, Ángel Martínez-González, José Luis Martínez-Fernández 6 Hartrumpf, S. y Leveling, J. 2006. University of Hagen at QA@CLEF 2006: Interpretation and Normalization of Temporal Expressions. En, Working Notes of the 2006 CLEF Workshop. Alicante (Spain). Conclusiones y líneas futuras A la vista de los resultados obtenidos en este trabajo, se puede concluir que el tratamiento de la información temporal constituye una línea de mejora a tener en cuenta por los SBR actuales. Bien es cierto que el corpus de preguntas disponibles con rasgos de temporalidad es pequeño y por tanto los resultados no pueden considerarse absolutamente concluyentes. No obstante, mediante la integración de un sistema de reconocimiento y normalización temporal junto con el ajuste de los módulos de análisis de la pregunta y extracción de la respuesta, permitiéndose la realización de una inferencia temporal sencilla, se consigue que el número de respuestas correctamente satisfechas se vea incrementado. Conjuntamente, también la probabilidad de obtener la respuesta correcta en la primera opción aumenta. Ambas características hacen que consideremos prometedora esta línea de trabajo. Aun habiéndose obtenido resultados positivos en términos cuantitativos y cualitativos, sería interesante ahondar más en las causas que originan dicho incremento. Del mismo modo queda pendiente analizar los motivos por los cuales en determinadas ocasiones el sistema disminuye la valoración de la respuesta correcta. Se plantea también como línea futura la mejora de otros módulos del SBR, añadiendo nuevas capacidades de tratamiento del tiempo. En este sentido se destaca la posibilidad de combinar el sistema de indexación actual con índices temporales constituidos de expresiones temporales normalizadas. El enriquecimiento del mecanismo actual de inferencia temporal es otra mejora susceptible de llevar a cabo. Por último, también el sistema de extracción de expresiones temporales podría ser perfeccionado con el fin de incrementar la cantidad de información temporal completa y correctamente manipulada. ISO8601:2004(E). 2004. Data elements and interchange formats – Information interchange – Representation of dates and times. Tercera edición 2004-12-01. Moldovan, D. y Clark, C. 2005. Temporally Relevant Answer Selection. En Proceedings of the 2005 International Conference on Intelligence Analysis. Mayo 2005. Moldovan, D. Bowden, M. y Tatu, M. 2006. A Temporally-Enhanced PowerAnswer in TREC 2006. En The Fifteenth Text REtrieval Conference (TREC 2006) Proceedings. Gaithersburg, MD, (USA). de Pablo-Sánchez, C., Martínez, J.L., González Ledesma, A., Samy, D., Martínez, P., Moreno-Sandoval, A. y Al-Jumaily, H. 2007. MIRACLE Question Answering System for Spanish at CLEF2007. En Working Notes of the 2007 CLEF Workshop. Budapest (Hungary). Septiembre 2007. Saquete, E. Resolución de Información Temporal y su Aplicación a la Búsqueda de Respuestas. 2005. Tesis Doctoral en Informática, Universidad de Alicante. Vicente-Díez, M.T., de Pablo-Sánchez, C. y Martínez, P. 2007. Evaluación de un Sistema de Reconocimiento y Normalización de Expresiones Temporales en Español. En Actas del XXIII Congreso de la Sociedad Española de Procesamiento de Lenguaje Natural (SEPLN 2007), páginas 113-120. Sevilla, (Spain). Septiembre 2007. Vicente-Díez, M.T., Samy, D. y Martínez, P. 2008. An Empirical Approach to a Preliminary Successful Identification and Resolution of Temporal Expressions in Spanish News Corpora. En Proceedings of the Sixth International Language Resources and Evaluation (LREC'08). Marrakech, (Morocco). Mayo 2008. Bibliografía DAEDALUS. 2008. Data, Decisions and Language, S. A. http://www.daedalus.es. Visitado: Enero 2009. 30 Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 31-38 recibido 29-12-08, aceptado 02-03-09 Evaluación de una Estrategia de Expansión Local Conservadora en Recuperación de Información Visual Evaluating a Conservative Automatic Local Expansion Strategy for Visual Information Retrieval Sergio Navarro, Rafael Muñoz y Fernando Llopis Departamento de Lenguajes y Sistemas Informáticos Universidad de Alicante Carretera Sant Vicent del Raspeig s/n 03690 Sant Vicent del Raspeig (Alicante) snavarro,rafael,[email protected] Resumen: En este trabajo comparamos dos métodos de expansión de la pregunta en el area de la Recuperación de Información Visual (RIV): Probabilistic Relevance Feedback (PRF) y Local Context Analysis (LCA). La principal diferencia observada entre ambos métodos es que mientras PRF utiliza para la expansión las anotaciones correspondientes a las primeras imágenes de un ranking, LCA evita utilizar anotaciones corespondientes a imágenes no relevantes, situadas en esas primeras posiciones, mediante una heurı́stica basada en coocurrencia. Los resultados muestran que LCA obtiene mejor precisión que PRF a medida que la precisión del ranking utilizado para la expansión es menor. Esta observación hace de LCA un método especialmente adecuado para su utilización con rankings de baja precisión como los devueltos por sistemas de RIV basados en el contenido de la imagen. Y ası́ lo demuestran los buenos resultados obtenidos utilizando la variante multimodal de LCA, que es la única estrategia de expansión local que no daña a la diversidad de los resultados, y a su vez la que obtiene nuestros mejores resultados de precisión con el conjunto de consultas de la tarea ImageCLEFPhoto 2008 – 4o MAP y 5o P20 de las 1039 ejecuciones automáticas enviadas por los participantes –. Palabras clave: Recuperación de Información Visual, Expansión Local, LCA, PRF Abstract: In this paper we compare two query expansion methods in the Visual Information Retrieval (VIR) area: Probabilistic Relevance Feedback (PRF) and Local Context Analysis (LCA). The main difference observed between these methods is that while PRF assumes that annotations related to top-ranked images are relevant, LCA avoids to include terms from top-ranked non relevant images of the ranking using an heuristic based on coocurrence. The experiment results show us that LCA increases its precision over PRF for those rankings with lowest precision. Thus, LCA demonstrates to be specially suitable for low precision rankings as the ones returned by the VIR systems based on the content of the image. Indeed, our multimodal LCA variation is the only one local expansion strategy which do not hurt the diversity of the results and the one which reach our best precision results with the ImageCLEFPhoto 2008 task query set – 4o MAP and 5o P20 within the 1039 automatics runs submitted by the participants –. Keywords: Visual Information Retrieval, Relevance Feedback, LCA, PRF 1. Introducción La gran variedad de formatos digitales existentes en la red y el boom de los contenidos multimedia, hacen necesario desarrollar y/o adaptar herramientas de búsqueda de información a las caracterı́sticas de estos nuevos formátos como son el video y la imagen entre otros. Actualmente los buscadores comerciales de contenidos multimedia, como los ISSN 1135-5948 bien conocidos Youtube1 o Flickr2 , basan las búsquedas sólo en el texto que acompaña a la imagen o al video. El desarrollo de este tipo de herramientas está dentro del área de investigación de la Recuperación de Información Visual (RIV), que es donde se encuadra el trabajo que aquı́ presentamos. La RIV po1 2 http://www.youtube.com http://www.flickr.com © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural Sergio Navarro, Rafael Muñoz, Fernando Llopis drı́amos decir que es un área especı́fica dentro de la Recuperación de Información (RI), en la cual de hecho inicialmente se han utilizado sistemas de RI tradicionales sin ninguna adaptación especifica a la RIV para llevar a cabo búsquedas utilizando las anotaciones que acompañan a las imágenes. Ası́, las colecciones que utilizan los sistemas de RIV estan compuestas de colecciones de imágenes y de las anotaciones que describen a las mismas. Históricamente en el área de la RIV se han utilizado dos enfoques para llevar a cabo la RI de imágenes: En los inicios de la RIV a finales de los años 70, los sistemas de RIV se basan en las anotaciones que acompañan a las imágenes, se trata pues de sistemas de RIV Basados en Texto (RIBT). Más tarde a principios de los años 90, en un intento de superar la dependencia de los sistemas de RIBT de la existencia de anotaciones textuales de una imagen para su indexación, surgen los sistemas de RIV Basados en el Contenido de la Imagen (RIBC) (Grubinger, 2007). Finalmente en los últimos años a medida que las tecnologı́as utilizadas por los sistemas de RIBC han ido madurando, un tercer enfoque para afrontar el problema de la RIV ha surgido, se trata de los sistemas que combinan tecnologı́as basadas en texto y en imagen. En este contexto se han venido organizando competiciones como el ImageCLEF3 que es una tarea especı́fica de RIV que busca estimular el desarrollo de sistemas multimodales utilizando colecciones de imágenes con anotaciones reducidas de las mismas para la evaluación y comparación entre sistemas, y que se celebra en el marco de las competiciones anuales del CLEF4 . El objetivo de este trabajo es comparar dos estrategias textuales de expansión local de la consulta que han sido utilizadas, por un lado como técnicas de expansión local de la consulta en sistemas textuales de RIV y por el otro como estrategias de combinación multimodal en sistemas basados en texto e imagen. Las estrategias que comparamos son Probabilistic Relevance Feedback (PRF) y Local Context Analysis (LCA). PRF ha sido ampliamente utilizada como técnica de expansión local en sistemas textuales (Dı́azGaliano et al., 2007) y como estrategia de combinación multimodal (Gao et al., 2007) – utilizando las anotaciones asociadas al rank3 4 ing devuelto por un sistema de RIBC –. En cuanto a LCA, que es una estrategia de expansión local conservadora de la consulta que goza de menor popularidad que PRF, el único precedente que existe de utilización como técnica de combinación multimodal en RIV es el que presentamos en nuestra participación en la subtarea Photo de la edición del 2008 del ImageCLEF. (Navarro, Llopis, y Muñoz, 2008). A partir de los buenos resultados obtenidos con la versión multimodal de LCA en nuestra participación en la citada subtarea Photo del ImageCLEF 2008, en este trabajo nos centramos en comparar PRF y LCA como métodos de expansión local en el ámbito de la RIBT. Nuestro objetivo es hallar evidencias en el mayor número posible de conjuntos de consultas y de colecciones de imágenes, que justifiquen los buenos resultados obtenidos por LCA en su versión multimodal. El sistema que hemos utilizado para la RIBT es IR-n (Llopis, 2003), se trata de un sistema basado en pasajes, que ha demostrado en diferentes competiciones mejores resultados que los obtenidos por la mayorı́a de los sistemas de RIBT basados en documentos. (Navarro, Muñoz, y Llopis, 2008a; Navarro, Muñoz, y Llopis, 2008b). El artı́culo esta estructurado como sigue: en primer lugar presentamos las principales caracterı́sticas del sistema IR-n centrándonos en los métodos de expansión local automática utilizados. A continuación describimos las colecciones utilizadas, los experimentos y los resultados obtenidos. Finalmente informamos de las conclusiones y de las propuestas de trabajos futuros extraı́das a partir de los resultados. 2. Sistema IR-n Para llevar a cabo los experimentos hemos utilizado IR-n, un sistema de recuperación de información basado en pasajes. Este tipo de sistemas tratan cada documento como un conjunto de pasajes, donde cada pasaje delimita una porción de texto del documento. Al contrario que los sistemas basados en documentos, los sistemas basados en pasajes permiten dar mayor relevancia a aquellos documentos donde los términos de la consulta aparecen en posiciones más cercanas entre si (Llopis, 2003). IR-n utiliza listas de palabras de parada http://www.imageclef.org http://www.clef-campaign.org 32 Evaluación de una Estrategia de Expansión Local Conservadora en Recuperación de Información Visual y stemmers para determinar que información de un documento es utilizada para la recuperación de información. Por un lado, la lista de palabras de parada de cada idioma contiene términos que son ignorados por el sistema por considerar que su presencia en la consulta o en un documento no es lo suficientemente significativa como para determinar si un documento es relevante para una consulta. Por otro lado, el stemmer de cada idioma es utilizado para obtener la raı́z de cada término – eliminando sufijos y/o prefijos – tanto de los términos de la consulta en la fase de búsqueda como de los términos de los documentos en la fase de indexacı̀ón de la colección. Una lista de los stemmers y las listas de palabras de parada utilizadas por IR-n puede ser consultada en www.unine.ch/info/clef. Además IR-n permite seleccionar entre diferentes modelos de recuperación. El modelo de recuperación utilizado determina como se va a medir la similitud entre un texto y una consulta, para ello cada modelo utiliza una fórmula que valora el número de términos de la consulta que están presentes en el documento y el poder discriminador de cada uno de estos términos en la colección. 2.1. los documentos situados en las primeras posiciones del ranking no sean relevantes, los resultados alcanzados por los sistemas que la han utilizado en las conferencias TREC y CLEF muestran que en términos generales es una técnica efectiva (Xu y Croft, 2000), siendo de hecho la técnica de expansión local más utilizada por sistemas de RIV en anteriores ediciones del ImageCLEF (Gao et al., 2007) (Dı́az-Galiano et al., 2007). Una aproximación alternativa más conservadora que no parte de la asunción de que todos los documentos devueltos en las primeras posiciones del ranking son relevantes, es Local Context Analysis (LCA) (Xu y Croft, 2000). Esta estrategia al igual que PRF se basa en la frecuencia de aparición de los términos presentes en los n primeros documentos del ranking para la selección de términos a utilizar en la expansión, pero al contrario que la primera, trata de evitar la utilización de términos pertenecientes a documentos no relevantes, para ello da una valoración más alta a aquellos términos pertenecientes a documentos con mayor coocurrencia de términos con la consulta. Ası́, los autores de LCA denominan conceptos a los términos de la expansión. Y utilizan una función f (c, Q), Fórmula (2), para valorar cómo de adecuado es un concepto c para expandir una consulta Q basándose en las coocurrencias de c con los términos de la consulta en los n primeros documentos del ranking. Su Fórmula f (c, Q) viene dada por: Expansión Local de la Consulta En RIBT la estrategia de expansión local de la consulta más extendida es la de Probabilistic Relevance Feedback (PRF) (Robertson y Sparck Jones, 1977). Esta estrategia considera como relevantes los m primeros documentos devueltos en un ranking, a partir de los cuales extrae los j primeros términos mejor valorados según la Fórmula (1) aplicada a cada término t: wt = f (c, Q) = Y (δ + co de(c, wi ))idf (wi ) wi inQ log10 (co(c, wi ) + 1)idf (c) log10 (n) X co(c, wi ) = tf (c, d)tf (wi , d) co de(c, wi ) = (mt + 0,5) · (n − nt − m + mt + 0,5) (m − mt + 0,5) · (nt − mt + 0,5) dinS idf (c) = min(1,0, log10 (N/Nc )/5,0) (1) donde n es el número de documentos en la colección, nt es el número de documentos en los que aparece el término t, y mt es el número de documentos considerados relevantes en los que aparece t. De manera que wt devuelve un valor mayor para aquellos términos cuya frecuencia entre los m primeros documentos del ranking es mayor que en toda la colección. Aunque esta técnica puede empeorar los resultados en el caso de que la mayorı́a de Donde w1 ,w2 ...wm son los términos de la consulta Q, N es el número de documentos en la colección, Nc el número de documentos que contienen el concepto c, y tf (c, d) y tf (wi , d) son las frecuencias de c y wi en un documento d respectivamente. Y finalmente δ es utilizado simplemente como técnica de suavizado para evitar valores nulos – los autores recomiendan utilizar un valor de 0.4 –. La principal limitación de este método basado en coocurrencia es que no siempre hay 33 Sergio Navarro, Rafael Muñoz, Fernando Llopis coocurrencia entre un documento relevante y la consulta (Liu y Junzhong Gu, 2007). Este problema podrı́a acusarse más en colecciones de imágenes, donde las anotaciones son reducidas, y por tanto la colección tiene reflejadas en sus documentos menos relaciones entre términos. Los experimentos realizados por (Xu y Croft, 2000) demuestran que el rendimiento de LCA es más independiente que el de PRF ante diferencias en el número de documentos utilizados para la expansión. Lo que prueba su efectividad a la hora de desechar documentos no relevantes en las primeras posiciones del ranking. Contrariamente a lo que se podrı́a esperar, esta estrategia de expansión local no goza de tanta popularidad como PRF. Desde él punto de vista de la utilización de la expansión local como técnica de combinación multimodal, los trabajos previos del estado de la cuestión basados en expansión local textual como técnica de combinación multimodal han utilizado PRF, no habiendo precedentes de utilización de LCA, salvo nuestra participación en la tarea Photo del ImageCLEF 2008 Para implementar la estrategia de realimentación multimodal, nuestro sistema utiliza las n primeras anotaciones de las imágenes en el ranking devuelto por un sistema de RIBC externo y las i primeras anotaciones en el ranking devuelto por un sistema de RIBT obtenido con IR-n. Para a continuación, extraer los t términos mejor valorados por el algoritmo utilizado – PRF o LCA –. Indicar finalmente que IR-n permite configurar si se utilizan los documentos o los pasajes más relevantes para la selección de términos de la expansión local de la consulta. 3. alta calidad, sus autores son expertos en el área. Las mismas contienen un total de 8 campos en texto plano, que son: un tı́tulo corto y otro largo, localización, descripción, fecha, fotógrafo, notas y categorı́as. Siendo los dos últimos especialmente ricos en información del contexto de la fotografı́a – información que un humano no podrı́a extraer sólo observando la misma –. Esta colección es la que posee anotaciones de mayor calidad y extensión de las utilizadas. IAPR TC-12 (Photo 2006 y Photo 2007 y 2008) (Clough et al., 2006; Grubinger et al., 2007). Se trata de una colección de imágenes de lugares del mundo en su mayorı́a tomadas por una compañı́a de viajes. Las mayores diferencias con la de St. Andrews son que IAPR TC-12 utiliza imágenes de color y anotaciones en formato XML con los siguientes campos: tı́tulo, descripción, notas, lugar y fecha. Para la tarea del 2006 se proporciona una versión de la colección IAPR TC12 a la que se le aplica un preproceso para reducir la calidad de las anotaciones, quedando como sigue: un 70 % de las imágenes poseen todos los campos completos, un 10 % no contienen descripción, otro 10 % no tienen ni descripción ni tı́tulo, y finalmente otro 10 % no tiene anotaciones. Para la tarea del 2007 se proporciona una versión para la cual las imágenes contienen todos los campos salvo el de descripción, que por otra parte es el más rico en semántica. Esto reduce considerablemente la cantidad de información textual de las anotaciones de la colección si lo comparamos con las anotaciones de la versión utilizada en el 2006. Experimentos Para nuestros experimentos hemos escogido las colecciones de imágenes y los conjuntos de preguntas utilizados en las tres ediciones anteriores a la edición de este año del ImageCLEF. A continuación se comentan las caracterı́sticas de cada una de las colecciones utilizadas. La Tabla 3 muestra los datos más relevantes de cada colección, donde: Colección: Nombre de la colección junto a la tarea y las ediciones en que se utilizó como colección de test. St Andrews (Photo 2004) (Reid, 1999). Se trata de una colección de fotografı́as históricas en blanco y negro, las anotaciones que acompañan a las imágenes se puede considerar que son de Idioma: Idioma de la colección utilizada en nuestros experimentos. N. Docs.: Número de imágenes de la colección. 34 Evaluación de una Estrategia de Expansión Local Conservadora en Recuperación de Información Visual Colección St Andrews (Photo 2004,2005) IAPR TC-12 (Photo 2006) IAPR TC-12 (Photo 2007,2008) Idioma N Docs Media Pals Media Fra Inglés 28.133 60.7 4.18 Inglés 20.000 27.46 2.32 Inglés 20.000 12.93 2,6 Cuadro 1: Colecciones de Datos para RIV Media Pals.: Número medio de palabras que contienen las anotaciones de una imagen. multimodal denota el número de documentos que utilizará del ranking visual obtenido por un sistema de RIBC, y finalmente, T indica el número de términos a añadir a la consulta textual. Media Fra.: Número medio de frases que contienen las anotaciones de una imagen. Para los experimentos hemos utilizado como modelo de recuperación Divergence From Randomness (DFR) (Amati y Van Rijsbergen, 2002), por ser el modelo de recuperación que mejores resultados obtuvo en nuestra participación para la colección en inglés en la tarea Photo del ImageCLEF 2007 (Navarro et al., 2008). Además, el tamaño de pasaje y los parámetros de DFR utilizados corresponden con los que mejores resultados han devuelto para cada colección sin la utilización de expansión local. La estrategia seguida en los experimentos ha sido la de utilizar para los parámetros de configuración de la expansión local un rango de valores amplio que permita determinar que configuraciónes son más apropiadas para cada técnica en relación al conjunto de preguntas y colección utilizada. Los valores utilizados para estos parámetros han sido de 5 a 100 documentos para el número de documentos utilizados para la consulta, y de 5 a 100 términos para el número de términos seleccionados para la expansión, además se han realizado experimentos utilizando tanto pasajes como documentos para la expansión. Las siguientes tablas de resultados muestran para cada conjunto de experimentos el resultado del caso base – una ejecución sin expansión de la consulta – y las nueve mejores ejecuciones en orden creciente de MAP, utilizando el mejor MAP obtenido por PRF y LCA para esa misma configuración. La Tabla 2 y la Tabla 3 muestran los resultados obtenidos en los experimentos realizados con la colección St. Andrews, podemos observar como para la misma colección con En cuanto a los conjuntos de consultas utilizadas, indicar que dependiendo de la edición de la competición, las consultas contienen un campo de tı́tulo y un campo de narrativa o sólo un campo de tı́tulo. En nuestros experimentos sólo hemos utilizado el campo de tı́tulo de la pregunta, por considerar que no es realista utilizar la narrativa ya que un usuario suele utilizar consultas de reducido tamaño cuando utiliza un sistema de RIV. Por otro lado comentar que mientras que el conjunto de consultas de la edicı́ón del 2004 – 25 consultas – y de la edición del 2005 – 28 consultas – es diferente, para la edición del 2006 y del 2007 se utiliza el mismo conjunto de consultas – 60 consultas –, variando sin embargo las caracterı́sticas de la colección utilizada. A continuación se muestra la notación utilizada en las tablas de resultados para referirnos a cada uno de los parámetros del sistemas: Expansión Local (FB): Indica el tipo de expansión local que se utiliza. Permite las versión textual de PRF y LCA y su versión multimodal PRFMM y LCAMM. Parámetros para la Expansión Local: Si E tiene valor 1, esto denota que se está utilizando expansión local basada en pasajes. Pero, si E tiene valor 2, la expansión local está basada en documentos. Además, N denota el número de documentos que la expansión local usará del ranking textual obtenido, N cbir en el caso de estar utilizando expansión 35 Sergio Navarro, Rafael Muñoz, Fernando Llopis E N T 2 2 2 2 2 1 1 2 2 75 50 45 60 65 45 40 40 40 5 5 5 5 5 10 10 5 10 PRF 0.7262 0.7087 0.7254 0.7361 0.7129 0.7180 0.7385 0.7387 0.7395 0.7436 LCA 0.7262 0.7345 0.7355 0.7321 0.7368 0.7375 0.7104 0.7047 0.7404 0.7146 Cuadro 2: St. Andrews, 2004 E N T 1 2 2 1 2 2 2 2 2 55 25 5 25 70 80 5 10 50 5 5 15 5 5 5 5 5 5 PRF 0.3493 0.3504 0.3529 0.3545 0.3559 0.3246 0.3206 0.3455 0.3533 0.3307 LCA 0.3493 0.3501 0.3478 0.3436 0.3499 0.3566 0.3580 0.3596 0.3607 0.3607 T 1 2 1 2 2 1 2 2 20 20 10 10 40 5 25 5 10 10 10 10 10 5 5 5 PRF 0.1988 0.2126 0.2146 0.2174 0.2186 0.2025 0.2119 0.2004 0.2126 T 2 1 2 2 1 1 2 2 2 2 5 10 10 25 5 50 90 50 85 45 5 5 5 10 5 10 5 5 5 5 PRF 0.1544 0.1808 0.1827 0.1827 0.1811 0.1849 0.1675 0.1452 0.1551 0.1444 0.1598 LCA 0.1544 0.1810 0.1806 0.1817 0.1834 0.1781 0.1884 0.1898 0.1911 0.1918 0.1923 y para los experimentos con precisión más baja – consultas del 2005 – los resultados sean considerablemente mejores utilizando LCA. También podemos observar que mientras que PRF obtiene peores resultados cuando utiliza un número alto de documentos para llevar a cabo la expansión de la consulta, por el contrario LCA muestra resultados más independientes del número de documentos seleccionados para la expansión. La Tabla 4 y la Tabla 5 muestran los resultados alcanzados para la colección del 2006 y 2007, podemos ver como afecta la reducción en el tamaño de las anotaciones a la precisión en estos experimentos. Además vemos como el hecho de que el caso base obtenga precisiones más bajas influye en que LCA amplı́e la mejora de sus resultados respecto a PRF. Esto se explica porque en un ranking de baja precisión el número de imágenes no relevantes utilizadas para la expansión es mayor, lo cual daña más a los resultados obtenidos por PRF. Se observa como LCA obtiene mejores resultados que PRF para todas las colecciones y conjuntos de preguntas, salvo para el conjunto de preguntas del 2004. Siendo en este último caso la diferencia de precisión entre PRF y LCA muy poco significativa. Por otro lado observamos como la diferencia obtenida entre LCA y PRF para el resto de colecciones se amplia a medida que la precisión del ranking devuelto por la ejecución del caso base obtiene una menor precisión. Además, los resultados muestran que en general el número de documentos que LCA es capaz de manejar para la expansión es muy superior al número utilizado por PRF, con- diferentes conjuntos de consultas se obtienen resultados de precisión muy diferentes para los casos base utilizados, ası́ las consultas del 2004 obtienen valores de precisión muy superiores a los alcanzados con las consultas del 2005. Esto explica que para el conjunto de experimentos con un caso base con mayor precisión – consultas del 2004 – los resultados sean ligeramente superiores utilizando PRF, N N Cuadro 5: IAPR TC-12 No-Descriptions, 2007 Cuadro 3: St. Andrews, 2005 E E LCA 0.1988 0.2140 0.2191 0.2218 0.2222 0.2226 0.2233 0.2241 0.2242 Cuadro 4: IAPR TC-12, 2006 36 Evaluación de una Estrategia de Expansión Local Conservadora en Recuperación de Información Visual FB LCA PRF PRFMM LCAMM statándose ası́ las observaciones apuntadas por los autores de LCA. Finalmente, comparamos los resultados de estos experimentos con los alcanzados por las ejecuciones que utilizaron expansión local en nuestra participación en la tarea Photo del ImageCLEF 2008 (Navarro, Llopis, y Muñoz, 2008) – Tabla 6 –, en la cual se utilizó la colección IAPR TC-12 No-Descriptions y un subconjunto de las consultas utilizadas en la edición del 2007. E N Ncbir T 1 2 2 2 5 5 5 0 0 0 5 20 5 5 5 5 MAP 0.2362 0.2656 0.2699 0.2856 0.3436 Cuadro 6: ImageCLEFPhoto 2008 Revisando todos los experimentos llevados a cabo podemos afirmar que en todos ellos cuando el ranking utilizado para la expansión alcanza valores de precisión baja, LCA obtiene mejoras significativas respecto a PRF, mientras que cuando se utilizan rankings de precisión más alta PRF obtiene resultados ligeramente superiores a los de LCA. Podemos ver por un lado que a pesar de haber utilizado la misma colección y un subconjunto de las consultas utilizadas en los experimentos del 2007, la precisión alcanzada por el caso base en la participación del 2008 es superior a la obtenida por el caso base de los experimentos del 2007. Esto explica que en nuestra participación del 2008, PRF en su versión textual haya mejorado ligeramente los resultados obtenidos por LCA. 4. Conclusiones y Trabajos Futuros El estudio de los experimentos realizados ha puesto de manifiesto una relación clara entre la precisión del ranking utilizado para la expansión y los resultados obtenidos por las estrategias de expansión evaluadas. Tener constancia de esta relación, nos permite afirmar que LCA es una estrategia robusta que encaja perfectamente con los rankings de baja precisión con que se trabaja en RIV, especialmente los devueltos por sistemas de RIBC. Esta observación se refuerza por el hecho de que LCA es capaz de aprovechar la presencia de términos coocurrentes con la consulta en estos rankings, lo cual es una pista especialmente significativa de relevancia, pues contienen anotaciones de imágenes obtenidas sólo utilizando técnicas visuales. Por ello creemos que de cara a trabajos futuros su utilización como estrategia de combinación multimodal es prometedora pues tal como algunos autores afirman el resto de estrategias de expansión local mejoran la precisión a costa de empeorar la diversidad de los resultados devueltos (Sanderson, 2008), mientras que LCA multimodal a demostrado no sólo ser la única que no perjudica a la diversidad sino que además ha obtenido nuestros mejores resultados de precisión. Esto no hace sino que demostrar que esta técnica es capaz de utilizar ambas fuentes de información – imagen y texto – de forma óptima, haciendo ascender en el ranking textual final sólo a las imágenes con anotaciones simi- Por otro lado vemos que el mejor resultado multimodal ha sido alcanzado con LCA utilizando el ranking devuelto por un sistema de RIBC – este tipo de sistemas se caracterizan por devolver rankigs de baja precisión –. Recalcar que en nuestra participación en la tarea del 2008 esta variante multimodal de LCA fue la única estrategia de expansión local que no dañó a la diversidad de los resultados y a su vez nuestra mejor ejecución en términos de precisión, obteniendo el 4o mejor MAP y el 5o mejor P20 de las 1039 ejecuciones automáticas enviadas por los participantes, a pesar de ser el único grupo que no utilizó la narrativa de la pregunta. Es importante tener en cuenta este dato, pues los resultados del único participante que envió ejecuciones con y sin narrativa demuestran que simplemente incluyendo la primera frase de la narrativa su sistema dobla los resultados de precisión e incrementa notablemente sus valores de diversidad (Demerdash, Kosseim, y Bergler, 2008). Se observa también como mientras la mejor ejecución de PRF multimodal sólo es capaz de utilizar los 5 primeros documentos del ranking textual y los 5 mejores documentos del ranking visual, LCA en cambio en su mejor ejecución hace uso sólo de las imágenes devueltas en el ranking visual, siendo capaz además de manejar un numero alto de imágenes para la expansión – 20 imágenes –. 37 Sergio Navarro, Rafael Muñoz, Fernando Llopis of the 2007 CLEF Workshop, Budapest, Hungary, Septiembre. lares a las imágenes relevantes situadas en las primeras posiciones del ranking visual, en lugar de a las imágenes similares a las ya situadas en las primeras posiciones del ranking textual inicial. 5. Liu, Haixue y Zhao Lv Junzhong Gu. 2007. Improving the Effectiveness of Local Context Analysis Based on Semantic Similarity. En 2007 International Conference on Convergence Information Technology (ICCIT 2007). Agradecimientos Esta investigación ha sido llevada a cabo utilizando fondos procedentes del Gobierno español a través del proyecto TEXT-MESS (TIN-2006-15265-C06-01) y de la Unión Europea(UE) a través del proyecto QALL-ME (FP6-IST-033860). Llopis, Fernando. 2003. IR-n: Un Sistema de Recuperación de Información Basado en Pasajes. Ph.D. tesis, University of Alicante. Navarro, Sergio, Fernando Llopis, Rafael Muñoz Guillena, y Elisa Noguera. 2008. Analysing an approach to information retrieval of visual descriptions with ir-n, a system based on passages. Advances in Multilingual and Multimodal Information Retrieval: 8th Workshop of the Cross-Language Evaluation Forum, CLEF 2007, Budapest, Hungary, September 19-21, 2007, Revised Selected Papers, páginas 522–529. Bibliografı́a Amati, G. y C. J. Van Rijsbergen. 2002. Probabilistic Models of information retrieval based on measuring the divergence from randomness. ACM TOIS, 20(4):357– 389. Clough, Paul, Michael Grubinger, Thomas Deselaers, Allan Hanbury, y Henning Müller. 2006. Overview of the imageclef 2006 photographic retrieval and object annotation tasks. En Working Notes of the 2006 CLEF Workshop, Alicante, Spain, Septiembre. Navarro, Sergio, Fernando Llopis, y Rafael Muñoz. 2008. Different Multimodal Approaches using IR-n in ImageCLEFphoto 2008. En on-line Working Notes, CLEF 2008. Demerdash, Osama El, Leila Kosseim, y Sabine Bergler. 2008. CLaC at ImageCLEFPhoto 2008. En on-line Working Notes, CLEF 2008. Navarro, Sergio, Rafael Muñoz, y Fernando Llopis. 2008a. A Multimodal Approach to the Medical Retrieval Task using IR-n. En on-line Working Notes, CLEF 2008. Dı́az-Galiano, M.C., M.A. Garcı́aCumbreras, M.T. Martı́n-Valdivia, A. Montejo-Raez, y L.A. Ureña-López. 2007. Sinai at imageclef 2007. En Working Notes of the 2007 CLEF Workshop, Budapest, Hungary, Septiembre. Navarro, Sergio, Rafael Muñoz, y Fernando Llopis. 2008b. A Textual Approach based on Passages Using IR-n in WikipediaMM Task 2008. En on-line Working Notes, CLEF 2008. Gao, Sheng, Jean-Pierre Chevallet, Thi Hoang Diem Le, Trong Ton Pham, y Joo Hwee Lim. 2007. Ipal at imageclef 2007 mixing features, models and knowledge. En Working Notes of the 2007 CLEF Workshop, Budapest, Hungary, Septiembre. Reid, N. 1999. The photographic collections in st andrews university library. Scottish Archives, 5:83–90. Grubinger, Michael. 2007. Analysis and Evaluation of Visual Information Systems Performance. Ph.D. tesis, Engineering and Science Victoria University. Sanderson, Mark. 2008. Ambiguous queries: Test collections need more sense. En SIGIR’08, páginas 20–24, July. Robertson, S. E. y K. Sparck Jones. 1977. Relevance weighting of search terms. Journal of the American Society for Information Science, 27(3):129–146. Xu, Jinxi y W. Bruce Croft. 2000. Improving the effectiveness of information retrieval with local context analysis. ACM Trans. Inf. Syst., 18(1):79–112. Grubinger, Michael, Paul Clough, Allan Hanbury, y Henning Müller. 2007. Overview of the ImageCLEFphoto 2007 photographic retrieval task. En Working Notes 38 Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 39-46 recibido 09-01-09, aceptado 02-03-09 Detección de Web Spam basada en la Recuperación Automática de Enlaces ∗ Detecting Web Spam using a Recovering Web Links System Lourdes Araujo NLP Group at UNED 28040 Madrid, Spain [email protected] Juan Martinez-Romo NLP Group at UNED 28040 Madrid, Spain [email protected] Resumen: Actualmente el Web Spam es una guerra abierta entre los motores de búsqueda, tratando de garantizar unos resultados relevantes al usuario, y una comunidad, cuyo interés reside en intentar engañar a los primeros en busca de un mejor ranking para sus páginas. En este trabajo presentamos un estudio preliminar sobre distintas medidas que podrı́an ser útiles para la construcción de un sistema novedoso en la detección de Web Spam. Algunas de estas medidas se basan en los resultados de un sistema de recuperación automática de enlaces web rotos. El sistema utiliza distintas fuentes de información de la página analizada y la información extraı́da de estas fuentes se utiliza para realizar una consulta a un motor de búsqueda usual, como Google o Yahoo!. Las páginas recuperadas son ordenadas posteriormente en base a su contenido, utilizando técnicas de recuperación de información. Finalmente, el análisis del grado de recuperación de los enlaces es empleado, junto a otras medidas, como un indicador de Spam. Palabras clave: recuperación de información, World Wide Web, enlaces rotos, web spam Abstract: Nowadays, Web Spam is a war between search engines, trying to ensure that the results are relevant to the user, and a community that tries to mislead the search engine to attract to the former ones to its pages. In this work, we present a preliminary study about several features that can be useful for building a novel web spam detection system. Some of these features are obtained from a system for automatic recovery of broken Web links. This system uses several sources of information from the analyzed page to extract useful data that are used later to perform a query to a typical search engine, as Google or Yahoo!. Afterwards, retrieved pages are ordered based on its content, using information retrieval techniques. Finally, the recovery links degree is used, along with other features, as an indicator of Spam. Keywords: information retrieval, World Wide Web, broken links, web spam 1. Introducción Hoy en dı́a, la creciente popularidad de Internet entre los usuarios como fuente de información, ha convertido a los buscadores en un objetivo de la publicidad. Los buscadores a su vez, basan su modelo de negocio en la publicidad que añaden a los resultados de una consulta. Pero además de esta publicidad relevante a las consultas realizadas, una manera muy económica de conseguir publicidad, consiste en aparecer en los primeros puestos de las respuestas del buscador. En este sentido, estar entre los 30 primeros resultados es ∗ Trabajo financiado por el proyecto TIN2007-67581C02-01 ISSN 1135-5948 muy importante ya que hay estudios(Jansen y Spink, 2003) que reflejan que la probabilidad de que un usuario llegue a mirar más allá de la tercera página de resultados es muy baja. Ante esta manera de aumentar los ingresos por publicidad ha surgido un fenómeno denominado Web Spam o Spamdexing. Según (Gyöngyi y Garcia-Molina, 2005) Web Spam podrı́a definirse como cualquier acción destinada a mejorar el ranking en un buscador por encima de lo que se merece. En general en la literatura (Gyöngyi y GarciaMolina, 2005; Baeza-Yates, Boldi, y Hidalgo, 2007) se distinguen tres tipos de Web Spam: Link Spam, Content Spam y Cloacking. El Link Spam o Spam de Enlaces consiste © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural Lourdes Araujo, Juan Martinez-Romo de un mecanismo de recuperación automática de enlaces para la detección de páginas de Spam. Esta técnica, además de aplicar un nuevo indicador de Spam, proporciona un sistema de análisis online frente a las tradicionales colecciones. Nuestro sistema de recuperación de enlaces rotos se basa en técnicas clásicas de recuperación de información para extraer información relevante y realizar consultas a un motor de búsqueda como Google o Yahoo!. El sistema comprueba los enlaces de la página que se le indica. Si alguno de ellos está roto, hace una propuesta al usuario de una serie de páginas candidatas para sustituir el enlace roto. Las páginas candidatas se obtienen mediante búsquedas en Internet compuestas de términos extraı́dos de distintas fuentes. A las páginas recuperadas con la búsqueda Web se les aplica un proceso de ordenación que refina los resultados antes de hacer la recomendación al usuario. La figura 1 presenta un esquema del sistema propuesto. en añadir enlaces superfluos y/o engañosos a una página Web o bien crear páginas superfluas que sólamente contienen enlaces. Uno de los primeros trabajos que trataron este tipo de Spam fue (Davison, 2000), donde se consideraba el nepotismo en los enlaces como una forma de ser más relevante ante los buscadores. La manera más frecuente de encontrar este tipo de Spam es en forma de granjas de enlaces (Link Farms) donde un conjunto de páginas son enlazadas entre sı́ empleando alguna de las topologı́as estudiadas en (BaezaYates, Castillo, y López, 2005), con el objetivo de incrementar la importancia de una de ellas. Estas topologı́as han sido estudiadas en (Gyöngyi y Garcia-Molina, 2005). El Content Spam o Spam de Contenido es la práctica de realizar ingenierı́a sobre el contenido de una página con el objetivo de resultar relevante para un conjunto de consultas. En (Fetterly, Manasse, y Najork, 2004) se presenta un análisis estadı́stico sobre diferentes propiedades del contenido para detectar Spam. Entre las técnicas más habituales se encuentran el incluir términos engañosos en las Urls, en el cuerpo (body) y en el texto del ancla y cada vez menos habitual como una Meta Tag. En (Ntoulas et al., 2006) se realiza una serie de medidas sobre el contenido y luego se construye un árbol de decisión mediante el cual se realiza una clasificación de este tipo de Spam. También existen trabajos (Abernethy, Chapelle, y Castillo, 2008) que combinan información tanto de los enlaces como del contenido para construir un clasificador con SVM y detectar eficientemente distintos tipos de Spam. Finalmente, el Cloaking o Encubrimiento consiste en diferenciar a un usuario de un robot de búsqueda para responder con una página distinta en cada caso. En (Gyöngyi y Garcia-Molina, 2005) se presentan las técnicas más utilizadas en este tipo de Spam. En la literatura existen múltiples trabajos que exploran por separado o de manera conjunta estos tipos de Spam. Sin embargo, estos estudios trabajan habitualmente con una colección etiquetada en la que previamente se ha realizado un crawling y se han precalculado una serie de medidas relevantes. En este trabajo analizamos la utilidad de los distintos datos extraidos sobre los enlaces de una página para la detección de Spam. En particular, estudiamos la forma de utilizar los resultados extraı́dos de la aplicación Pagina web Enlace roto Informacion del enlace Informacion de la pagina Extraccion de terminos relevantes terminos Buscador paginas web Ordenar paginas recomendadas Figura 1: Esquema del funcionamiento del sistema de recomendación para la recuperación de enlaces rotos. Al analizar los resultados de algunos experimentos, encontramos casos excepcionales en los que el grado de recuperación de enlaces tenı́a una gran desviación con respecto a la media. Estos casos consistı́an en páginas con muchos enlaces en los que no se recuperaba ningún enlace o bien se recuperaban las páginas originales de prácticamente todos los 40 Detección de Web Spam basada en la Recuperación Automática de Enlaces 2.1. enlaces. En ambos casos se ha comprobado manualmente que se trataba de páginas de Spam. Esto sugiere la utilidad de aplicar estas técnicas a la detección de Spam. El resultado de la recuperación de los enlaces rotos puede tomarse como un indicador de la coherencia entre un enlace y la página a la que enlaza, dato que es útil para la detección de Spam. Existen algunos trabajos enfocados a la recuperación de enlaces, aunque se basan en información anotada por anticipado en el enlace. El sistema Webvise (Grønbæk, Sloth, y Ørbæk, 1999), permite cierto grado de recuperación de enlaces Web rotos utilizando información redundante sobre los enlaces, almacenada en bases de datos de servidores de Internet. Davis (Davis, 2000) analiza las causas del problema de los enlaces rotos y propone soluciones enfocadas a la recopilación de información sobre la estructura de la red de enlaces. Nakamizo y colaboradores (Nakamizo et al., 2005) han desarrollado un sistema de recuperación de enlaces basado en lo que denominan “enlaces con autoridad” de una página. Shimada y Futakata (Shimada y Futakata, 1998) propusieron la creación de una base de datos de enlaces, SEDB, en la que son posibles ciertas operaciones de reparación de los enlaces almacenados. Nuestro trabajo difiere de los anteriores ya que no presupone la existencia de ninguna información almacenada de antemano sobre los enlaces y es aplicable a cualquier página de Internet, lo que le hace útil para analizar el Spam de las páginas web. El resto del artı́culo se organiza de la siguiente forma: en la sección 2 se describen las técnicas que utilizamos para la recuperación automática de enlaces web rotos. La sección 3 analiza la relación de distintos datos sobre los enlaces de una página con su identificación como Spam, en particular los resultados de la aplicación de las técnicas de recuperación automática. Finalmente, en la sección 4 se realiza una discusión sobre los resultados y se extraen una serie de conclusiones. 2. Uso del Texto del ancla de los enlaces En muchos casos las palabras que componen el texto del ancla de un enlace son la principal fuente de información para identificar la página apuntada. Para verificar esta teorı́a, hemos realizado un estudio del número de casos en los que los enlaces rotos se han recuperado buscando en Google el texto del ancla entrecomillado. Para considerar que un enlace se ha recuperado, aplicamos el modelo de espacio vectorial (Manning, Raghavan, y Schütze, 2008), representando cada una de las páginas (original y candidata) a comparar por un vector de términos, y hayamos la distancia dada por el coseno entre ellos. Si este valor es mayor de 0.9, consideramos la página recuperada. Para valores menores que este umbral, como un 0.8, aunque en la mayorı́a de los casos se trata de la misma página con pequeños cambios como los mencionados, hemos encontrado algún caso en que se trataba de páginas distintas, aunque del mismo sitio Web. De esta forma se ha conseguido recuperar un 41 % de los enlaces entre las diez primeras posiciones (Google). Además un 66 % de los enlaces recuperados han logrado encontrarse en la primera posición. Estos datos demuestran que el texto del ancla de un enlace es una gran fuente de información de cara a recuperar un enlace roto. En este trabajo hemos optado por realizar un reconocimiento de entidades nombradas (nombres de personas, organizaciones o lugares) sobre el texto del ancla, para poder extraer determinados términos cuya importancia sea mayor que la del resto. Para tal fin, existen varias soluciones software como LingPipe, Gate, FreeLing, etc. También existen múltiples recursos en forma de gazetteers, pero el amplio dominio sobre el que trabajamos ha impedido conseguir resultados precisos. Estamos en un entorno en el que analizamos páginas aleatorias cuyo único factor común es el idioma (inglés). Además, el hecho de que el texto de las anclas sean conjuntos muy reducidos de palabras y/o números, hace que los sistemas usuales de reconocimiento de entidades proporcionen resultados muy pobres. Por estos motivos, hemos decidido emplear la estrategia opuesta. En lugar de encontrar entidades nombradas, hemos optado por recopilar un conjunto de diccionarios y descartar las palabras comunes y números, Técnicas de recuperación de enlaces En esta sección analizamos cada una de las fuentes de información consideradas, extrayendo estadı́sticas de su utilidad para la recuperación de enlaces cuando se aplican por separado o combinadas. 41 Lourdes Araujo, Juan Martinez-Romo decir, se expande con cada uno de ellos y se toman los diez primeros documentos recuperados en cada caso. En la tabla 2 se puede observar como la expansión mejora globalmente los resultados aumentando el número de enlaces recuperados en las diez primeras posiciones y por tanto reduciendo los enlaces no recuperados. A pesar de esto, el número de enlaces recuperados en primera posición se ve reducido. suponiendo que el resto de palabras son entidades nombradas. Aunque hemos encontrado algunos falsos negativos, como por ejemplo la compañı́a ”Apple”, en el caso de las anclas hemos obtenido mejores resultados con esta técnica. La tabla 1 muestra los resultados de la recuperación de enlaces en función del contenido de entidades nombradas de las anclas y del número de términos de las mismas. Los resultados demuestran que la presencia de entidades nombradas en el ancla favorece la recuperación del enlace. Además cuando hay entidades nombradas el número de casos recuperados es importante. Terms. 1 2 3 4+ total Análisis. No EXP EXP 1-10 pos. 380 418 E.N.R. 536 498 Cuadro 2: Análisis del número de documentos recuperados en primera posición (1 pos.), entre las diez primeras posiciones (1-10 pos.) o no recuperados (E.N.R.) en función de utilizar (EXP) o no (No EXP), el método de expansión de la consulta. Tipo de ancla Ent. Nomb. No Ent. Nomb. E.N.R. E.R. E.N.R. E.R. 102 67 145 7 52 75 91 49 29 29 27 45 57 61 33 47 240 232 296 148 Por ello consideramos que lo más adecuado es aplicar ambas formas de recuperación, y ordenar después los resultados para presentar al usuario los más relevantes en primer lugar. Analizando los casos en los que se consigue recuperar la página correcta con y sin entidades nombradas y en función del número de términos del ancla (tabla 3) vemos que las proporciones obtenidas recuperando sin expandir la consulta se mantienen. Es decir, los mejores resultados se obtienen cuando hay entidades nombradas y cuando hay dos o más términos. Sin embargo, en este caso, es decir con expansión, el número de enlaces recuperados cuando el ancla consta de un único término y no es una entidad nombrada es 25, que ya puede ser una cantidad significativa. Esto sugiere intentar recuperar con expansión también en este caso, siempre que sea posible comprobar la validez de los resultados. Cuadro 1: Análisis de los enlaces no recuperados (E.N.R.) y recuperados (E.R.) en función del tipo de ancla — con (Ent. Nomb.) y sin (No Ent.) entidades nombradas — y del número de términos del ancla. 4+ term. se refiere a anclas con cuatro o más términos. 2.2. 1 pos. 253 213 El texto de la página Los términos más frecuentes encontrados en una página Web son una forma de caracterizar el tema principal de dicha página. Esta técnica requiere que el contenido de la página sea suficientemente grande. Un ejemplo claro de utilidad de esta información son los enlaces a páginas personales. Es muy frecuente que el ancla de un enlace a una página personal esté formada por el nombre de la persona a la que corresponde la página. Sin embargo, en muchos casos los nombres, incluido el apellido, no identifican a una persona de forma unı́voca. Hemos aplicado técnicas clásicas de recuperación de información para extraer los términos más representativos de la página. Una vez eliminadas las palabras vacı́as, generamos un ı́ndice de términos ordenado por frecuencias. Los diez primeros términos de este ı́ndice se utilizan, uno a uno, para expandir la consulta formada por el texto del ancla. Es 2.3. Ordenación de los enlaces por relevancia En este momento hemos recuperado un conjunto de enlaces candidatos a sustituir al enlace roto, procedentes de la búsqueda con el ancla y con el ancla expandida con cada uno de los diez primeros términos que representan a la página padre. Ahora queremos ordenarlos por relevancia para presentarlos al usuario. Para calcular esta relevancia hemos considerado dos fuentes de infor42 Detección de Web Spam basada en la Recuperación Automática de Enlaces Terms. 1 2 3 4+ total Tipo de ancla Ent. Nomb. No Ent. Nomb. E.N.R. E.R. E.N.R. E.R. 104 65 127 25 55 72 70 70 30 28 22 50 59 59 31 49 248 224 250 194 Cuadro 3: Análisis de los enlaces no recuperados y recuperados en función del tipo de ancla y del número de términos del ancla cuando la expansión es aplicada. Figura 2: Número de apariciones de páginas correctas en el ranking elaborado, seleccionando los N mejores candidatos según la similitud con la página caché y padre. mación. En primer lugar, si existe, la página a la que apuntaba el enlace roto almacenada en la caché del buscador, en nuestro caso de Google. Si esta información no existe, entonces utilizamos la página padre que contiene el enlace roto. La idea es que la página enlazada tratará en general sobre una temática relacionada con la página en la que se encuentra el enlace. De nuevo hemos aplicado el modelo de espacio vectorial (Manning, Raghavan, y Schütze, 2008) para estudiar la similitud entre la página que contenı́a el enlace roto y las páginas recuperadas. Con esta técnica calculamos la similitud o bien con la caché o bien con la página padre. La figura 2 muestra los resultados correspondientes. En el primer caso, la mayorı́a de los documentos correctos recuperados se presentan entre los diez primeros documentos, con lo que si se dispone de la caché, podremos hacer recomendaciones muy fiables. En el caso de la similitud con la página padre, el orden de los resultados es peor. Por lo que sólo recurriremos a esta información si no se dispone de la caché. 2.4. que hacemos utilizando cada fuente de información. Para realizar el análisis, tomamos diez enlaces por cada página elegidos aleatoriamente de un conjunto de 100 seleccionadas igualmente de manera aleatoria mediante peticiones sucesivas a www.randomwebsite.com, un sitio que proporciona páginas Web aleatorias. Este conjunto de páginas además deben cumplir una serie de requisitos en cuanto a su contenido como tener 250 palabras, estar escritas en ingles y tener al menos cinco enlaces activos, ajenos al propio sitio y cuyo texto de anclaje sea mı́nimamente descriptivo (no sea únicamente un número, una Url, un signo de puntuación o esté vacı́o). Los resultados del análisis descrito en las secciones anteriores sugieren criterios para decidir en qué casos hay información suficiente para intentar la recuperación del enlace y qué fuentes de información utilizar. Esta información se ha modelado dando origen a un algoritmo cuyos resultados pasamos a describir. Hemos aplicado este algoritmo a enlaces que están realmente rotos, pero sólamente de los que se dispone de caché, para poder evaluar los resultados. La tabla 4 muestra los resultados de la posición de los documentos más relevantes en una ordenación por similitud con la página padre. La relevancia se mide por similitud con la caché. Hemos comprobado que en unos casos se trata de la página original, que ha cambiado de Url, y en otros casos de páginas con contenido muy relacionado en una localización diferente. Podemos observar, que aún si no contamos con la caché y ordenamos por similitud con la página padre, el sistema es capaz de presentar Colección de páginas y Resultados de la Recuperación Automática de Enlaces Si analizamos la utilidad de las distintas fuentes de información utilizadas directamente sobre enlaces rotos, es muy difı́cil evaluar la calidad de las páginas candidatas a sustituir el enlace. Por ello, en esta fase de análisis trabajamos con enlaces Web tomados de forma aleatoria, que no están realmente rotos, y que denominamos supuestamente rotos. De esta forma disponemos de la página a la que apuntan y podemos evaluar la recomendación 43 Lourdes Araujo, Juan Martinez-Romo do de Spam. Además fue imprescindible que las páginas estuvieran online y que su cuerpo contuviera al menos 100 palabras y un enlace externo. La primera medida corresponde a la diferencia entre los enlaces recuperados y no recuperados por cada una de las páginas. El análisis en este caso se ha realizado mediante una recuperación de los enlaces activos para poder verificar su recuperación. La intuición en la interpretación de este valor es que una página que hace Spam está enlazando a otras páginas poco conocidas y por tanto, difı́ciles de recuperar. Por lo tanto, cuanto más negativa es la diferencia entre los enlaces recuperados y no recuperados, mayor es la probabilidad de que la página esté haciendo Spam. En la figura 3 se pueden apreciar las dos distribuciones de estas medidas para cada una de las páginas y por cada uno de los dos conjuntos (Spam y no Spam). También se puede observar como en el caso de las páginas que no hacen Spam, sus valores casi siempre están por encima de los de las páginas de Spam. Las dos siguientes figuras 4 y 5 corresponden a las páginas de Spam y las de no Spam respectivamente. En ellas se muestra la relación entre las distribuciones de los enlaces de cada página y las páginas que las enlazan. Se puede comprobar como en el primer caso la diferencia es mucho mayor, estando siempre los enlaces entrantes por debajo de los salientes. Estos datos indican que las páginas de Spam contienen muchos enlaces pero en cambio no reciben el mismo número. En la figura 6 se muestran las distribuciones de la siguiente medida para cada una de las páginas y por cada uno de los dos conjuntos (Spam y no Spam). Esta medida corresponde al valor absoluto de la diferencia entre los enlaces externos y los que son internos. Las páginas de Spam normalmente toman dos estrategias distintas en cuanto a los enlaces, o bien la mayorı́a son externos con el objetivo de crear granjas de enlaces o por el contrario intentan absorber la mayorı́a del PageRank conteniendo mayoritariamente enlaces al mismo sitio. De esta forma, en la figura 6 se puede comprobar como el equilibrio entre este tipo de enlaces es mayor en el caso de las páginas que no realizan Spam. Otras dos medidas interesantes (no mostradas en este trabajo) para clasificar una página son el número de las mismas que la enlazan ası́ como el número de enlaces cuyo documentos sustitutos relevantes entre las 10 primeras posiciones en un 48 % de los casos y entre las 20 primeras en un 76 %. N primeros 1-10 10-20 20-50 E.R 12 7 6 Cuadro 4: Número de apariciones de páginas sustitutas (de acuerdo con su similitud con el contenido de la caché) entre los N primeros documentos ordenados por similitud con la página padre. 3. Detección de Web Spam Nuestro sistema de recuperación de enlaces analiza una Web tanto desde el punto de vista de sus enlaces como desde el punto de vista de su contenido. Aplicando esta metodologı́a a los enlaces de una página (no rotos), puede extraerse información relevante sobre la coherencia de los enlaces y las páginas apuntadas por ellos, que es útil para determinar si una página esta realizando Spamdexing. Nuestra propuesta es novedosa para la detección de Spam, ya que habitualmente los sistemas que se encargan de esta tarea realizan un crawling previo, reuniendo una colección de páginas Web junto a una serie de medidas relevantes. Posteriormente y de una manera offline, se realiza una clasificación sobre la colección. En los últimos años existe una colección de referencia (Castillo et al., 2006) siendo la primera que incluye las páginas y sus enlaces y que además ha sido etiquetada manualmente por un conjunto de voluntarios. No obstante existen otros trabajos que emplean colecciones propias elaboradas de una forma similar. Este sistema serı́a novedoso ya que no necesita una colección con información sobre su contenido ni sobre sus enlaces, sino que de una manera online extrae de la red información relevante sobre una Web dada para posteriormente ser clasificada según su grado de Spam. Hemos realizado un estudio comparativo aplicado a dos conjuntos de 67 páginas Web, clasificadas previamente como Spam o No Spam, en el que tomando una serie de medidas podemos apreciar ciertas caracterı́sticas propias de cada conjunto. Estos dos conjuntos han sido tomados de (Castillo et al., 2006), teniendo en cuenta su clasificación en cuanto a su gra44 Detección de Web Spam basada en la Recuperación Automática de Enlaces texto del ancla es una Url. Para la primera hemos tomado el valor correspondiente aproximado que proporciona el buscador. De esta forma hemos podido comprobar como las páginas de Spam tienen valores muy por debajo, verificando la teorı́a de que las páginas de prestigio transfieren su confianza a páginas igualmente prestigiosas. Cabe mencionar que existen páginas de Spam con valores elevados, sin embargo corresponden a sitios importantes pero clasificados como Spam por su alto contenido de publicidad. En cuanto al número de enlaces cuyo texto del ancla es una Url, en términos generales las páginas de Spam contienen una mayor cantidad. Todas estas medidas junto con otras estudiadas en la literatura, tanto en relación al contenido como a la estructura de los enlaces, podrı́an ser utilizadas para la detección de páginas de Spam. Figura 5: Distribución de los enlaces salientes y entrantes para las páginas de No Spam. Figura 6: Distribución de la diferencia entre los enlaces externos e internos para dos conjuntos de páginas (Spam y no Spam). 4. Conclusiones y Futuros trabajos En este trabajo presentamos un estudio preliminar sobre una serie de medidas que podrı́an ser útiles para la detección de Spam en la Web. En particular, analizamos la medida de coherencia entre los enlaces y las páginas apuntadas por ellos. Otras medidas analizadas son las diferencias entre los enlaces entrantes y salientes, entre los enlaces externos e internos o el número de enlaces cuyo texto de anclaje es una Url. Estas medidas son obtenidas a su vez gracias a un sistema de recuperación de enlaces. El sistema resultante resultarı́a novedoso ya que no necesitarı́a de una colección con información precalculada sino que funcionarı́a de una manera online. En cuanto al sistema de recuperación de enlaces, hemos analizado distintas fuentes de información que podemos utilizar para hacer una recuperación automática de enlaces Web que han dejado de ser válidos. Los resultados indican que los términos del ancla pueden ser muy útiles, especialmente si hay más Figura 3: Distribución de la diferencia entre los enlaces recuperados y no recuperados para dos conjuntos de páginas (Spam y no Spam). Figura 4: Distribución de los enlaces salientes y entrantes para las páginas de Spam. 45 Lourdes Araujo, Juan Martinez-Romo Davison, B. 2000. Recognizing nepotistic links on the web. de uno y si contienen alguna entidad nombrada. Hemos estudiado también el efecto de añadir términos procedentes de la página que contiene el enlace, con el fin de reducir la ambigüedad que puede conllevar la cantidad limitada de términos del ancla. Este estudio ha mostrado que los resultados mejoran a los obtenidos utilizando sólo los términos del ancla. Sin embargo, como hay casos en los que la expansión empeora el resultado de la recuperación, hemos decidido combinar ambos métodos, ordenando después los documentos obtenidos por relevancia. El resultado de este análisis ha sido un algoritmo que ha conseguido recuperar una página muy cercana a la desaparecida entre las diez primeras posiciones de los documentos candidatos en un 48 % de los casos, y entre las 20 primeras en un 76 %. En este momento trabajamos en analizar otras fuentes de información que pueden ser útiles tanto para la recuperación de enlaces como para la detección de Spam, como las propias Urls, las páginas que apuntan a la página analizada o el contenido de sus distintas partes. Fetterly, Dennis, Mark Manasse, y Marc Najork. 2004. Spam, damn spam, and statistics: using statistical analysis to locate spam web pages. En WebDB ’04: Proceedings of the 7th International Workshop on the Web and Databases, páginas 1–6, New York, NY, USA. ACM. Grønbæk, Kaj, Lennert Sloth, y Peter Ørbæk. 1999. Webvise: Browser and proxy support for open hypermedia structuring mechanisms on the world wide web. Computer Networks, 31(1116):1331–1345. Gyöngyi, Zoltán y Hector Garcia-Molina. 2005. Web spam taxonomy. En Proceedings of the first International Workshop on Adversarial Information Retrieval on the Web (AIRWeb). Jansen, Bernard J. y Amanda Spink. 2003. An analysis of web documents retrieved and viewed. En International Conference on Internet Computing, páginas 65–69. Manning, Christopher D., Prabhakar Raghavan, y Hinrich Schütze. 2008. Introduction to Information Retrieval. Cambridge University Press. Bibliografı́a Abernethy, Jacob, Olivier Chapelle, y Carlos Castillo. 2008. Webspam identification through content and hyperlinks. En Proceedings of the fourth International Workshop on Adversarial Information Retrieval on the Web (AIRWeb). Nakamizo, A., T. Iida, A. Morishima, S. Sugimoto, , y H. Kitagawa. 2005. A tool to compute reliable web links and its applications. En SWOD ’05: Proc. International Special Workshop on Databases for Next Generation Researchers, páginas 146–149. IEEE Computer Society. Baeza-Yates, Ricardo, Paolo Boldi, y José Marı́a Gómez Hidalgo. 2007. Recuperación de información con adversario en la web. Novática: Revista de la Asociación de Técnicos de Informática, 185:29–35. Ntoulas, Alexandros, Marc Najork, Mark Manasse, y Dennis Fetterly. 2006. Detecting spam web pages through content analysis. En WWW ’06: Proceedings of the 15th international conference on World Wide Web, páginas 83–92, New York, NY, USA. ACM. Baeza-Yates, Ricardo A., Carlos Castillo, y Vicente López. 2005. Pagerank increase under different collusion topologies. En AIRWeb, páginas 17–24. Shimada, Takehiro y Atsushi Futakata. 1998. Automatic link generation and repair mechanism for document management. En HICSS ’98: Proceedings of the ThirtyFirst Annual Hawaii International Conference on System Sciences-Volume 2, página 226, Washington, DC, USA. IEEE Computer Society. Castillo, Carlos, Debora Donato, Luca Becchetti, Paolo Boldi, Stefano Leonardi, Massimo Santini, y Sebastiano Vigna. 2006. A reference collection for web spam. SIGIR Forum, 40(2):11–24. Davis, H.C. 2000. Hypertext link integrity. ACM Computing Surveys Electronic Symposium on Hypertext and Hypermedia, 31(4). 46 Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 47-54 recibido 13-01-09, aceptado 02-03-09 A Semantic Relatedness Approach to Classifying Opinion from Web Reviews Un método de clasificación de opiniones de críticas extraídas de la Web basado en la proximidad semántica Alexandra Balahur DLSI, University of Alicante Ap. de Correos 99, 03080 Alicante [email protected] Andrés Montoyo DLSI, University of Alicante Ap. de Correos 99, 03080 Alicante [email protected] Resumen: Los últimos años han marcado el inicio y la rápida expansión de la web social, donde cada persona puede expresar su libre opinión sobre diferentes "objetos", tales como productos, personas, tópicos de política etc. en blogs, foros o portales Web de comercio electrónico. A su vez, el rápido crecimiento del volumen de información en la web ha ido permitiendo a los usuarios la toma de decisiones mejores y más informadas. A raíz de esta expansión ha surgido la necesidad de desarrollar sistemas especializados de PLN que automáticamente escaneen la web en busca de las opiniones expuestas (que recuperen, extraigan y clasifiquen las opiniones existentes dada una consulta). La minería de opiniones (análisis de sentimientos) ha demostrado ser un problema difícil debido a la gran variabilidad semántica del texto libre. En este artículo se propone un método para extraer, clasificar y resumir opiniones sobre productos concretos utilizando críticas realizadas en la Web. El método se basa en una taxonomía de características de productos previamente construida, el cálculo de la proximidad semántica entre conceptos por medio de la Distancia Normalizada de Google y el método de aprendizaje automático SVM. Finalmente, demostramos que nuestro enfoque supera los resultados base de la tarea y ofrece una alta precisión y una alta confianza en las clasificaciones obtenidas. Palabras clave: Minería de opiniones, resúmenes automaticos, Distancia Normalizada de Google, aprendizaje automatico SVM. Abstract: Recent years have marked the beginning and rapid expansion of the social web, where people can freely express their opinion on different “objects”, such as products, persons, topics etc. on blogs, forums or e-commerce sites. While the rapid growth of the information volume on the web allowed for better and more informed decisions from users, its expansion led to the need to develop specialized NLP systems that automatically mine the web for opinions (retrieve, extract and classify opinions of a query object). Opinion mining (sentiment analysis) has been proven to be a difficult problem, due to the large semantic variability of free text. In this article, we propose a method to extract, classify and summarize opinions on products from web reviews, based on the prior building of product characteristics taxonomy and on the semantic relatedness given by the Normalized Google Distance and SVM learning. We prove that our approach outperforms the baselines and has a high precision and classification confidence. Keywords: Opinion mining, summarization, Normalized Google Distance, SVM machine learning. 1 Introduction Recent years have marked the strong influence of the “participative, social web” on the lives of both consumers and producer companies. This ISSN 1135-5948 phenomenon encouraged the development of specialized sites – blogs, forums, as well as the inclusion of a review component in the already existing e-commerce sites, where people can write and read opinions and comments on their “objects” of interest – products, people, topics, © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural Alexandra Balahur, Andrés Montoyo etc. Basically, one is able to obtain a high volume of data representing opinion on anything. However, a high volume of information introduces a great back draw: the time spent for reading all the data available and the language barrier. The solution is obvious a system that automatically analyzes and extracts the values of the features for a given product, independent of the language the customer review is written in. Such an NLP system can then present the potential buyer with percentages of positive and negative opinions expressed about each of the product features and possibly make suggestions based on buyer preferences. What follows is a description of such a system that presently works on Spanish and English. 2 (Pang, Lee and Vaithyanathan, 2002), scoring of features (Dave, Lawrence and Pennock, 2003) , using PMI, syntactic relations and other attributes with SVM (Mullen and Collier, 2004), sentiment classification considering rating scales (Pang, Lee and Vaithyanathan, 2002), supervised and unsupervised methods (Chaovalit and Zhou, 2005) and semisupervised learning (Goldberg and Zhu, 2006). Research in classification at a document level included sentiment classification of reviews (Ng, Dasgupta and Arifin, 2006), sentiment classification on customer feedback data (Gamon et al., 2005), comparative experiments (Cui, Mittal and Datar, 2006). Other research has been conducted in analysing sentiment at a sentence level using bootstrapping techniques (Riloff and Wiebe, 2003), considering gradable adjectives (Hatzivassiloglou and Wiebe, 2000), semisupervised learning with the initial training set identified by some strong patterns and then applying NB or self-training (Wiebe and Riloff, 2005), finding strength of opinions (Wilson, Wiebe and Hwa, 2004) sum up orientations of opinion words in a sentence (or within some word window) (Kim and Hovy, 2004), (Lin et al., 2006), determining the semantic orientation of words and phrases (Tuney and Littman, 2003), identifying opinion holders (Stoyanov and Cardie, 2006), comparative sentence and relation extraction and feature-based opinion mining and summarization (Tuney, 2002). The approach we use is grounded on the featurebased opinion summarization paradigm, whose theoretical background can be found in (Hu and Liu, 2004) and (Liu, 2007). Relevant research done in feature-based opinion summarization can be found in (Turney, 2002) , (Pang, Lee and Vaithyanathan, 2002), (Popescu and Etzioni, 2005), (Hu and Liu, 2004) and (Ding, Liu and Yu, 2008). However, present research has not included the discovery of implicit features and furthermore, it has left the problem of explicit features dependent on the mentioning of these features in the individual user reviews or not. The method we propose is language and customer-review independent. It extracts a set of general product features, finds product specific features and feature attributes and is thus applicable to all possible reviews in a product class. We describe the steps performed to obtain the features for each product class and the manner in which input text is processed to obtain the opinion expressed by customers. Motivation and Contribution In the approach proposed, we concentrated on two main problems that had not been addressed so far by research in the field. The first one was that of discovering the features that will be quantified. As previously noticed in (Liu, 2007), features are implicit or explicit. To this respect, apart from a general class of features (and their corresponding attributes), that are applicable to all products, we propose a method to discover product specific features and feature attributes using knowledge from WordNet and ConceptNet. The second problem we addressed was that of quantifying the features in a product-dependent manner, since, for example, small for the size of a digital camera is a positive fact, whereas for an LCD display it is a rather negative one. We accomplished this by classifying the feature attributes using positive and negative examples from a corpus of customer opinions that was polarity annotated depending on the product category and SMO SVM machine learning (Platt, 1998) with the Normalized Google Distance (Cilibrasi and Vitanyi, 2006). We will illustrate the manner in which we solved the above mentioned problems with examples and discuss on the issues raised at each step by using different methods, tools and resources. 3 Related Work Previous work in customer review classification includes document level sentiment classification using unsupervised methods (Turney, 2002), machine learning techniques 48 A Semantic Relatedness Approach to Classifying Opinion from Web Reviews 4 these concepts, we retrieve from WordNet the synonyms which have the same Relevant Domain (Vázquez, Montoyo and Rigau, 2004), the hyponyms of the concepts and their synonyms and attributes, respectively. 2) Using WordNet to extract product specific features and feature attributes: Once the product category has been identified, we use WordNet to extract the product specific features and feature attributes. We accomplish this in the following steps: • For the term defining the product category, we search its synonyms in WordNet (Fellbaum, 1999) • We eliminate the synonyms that do not have the same top relevant domain as the term defining the product category • For the term defining the product, as well as each • for each of the remaining synonyms, we obtain their meronyms from in WordNet, which constitute the parts forming the product. • Since WordNet does not contain much detail on the components of most of new technological products, we use ConceptNet (Liu and Singh, 2004) to complete the process of determining the specific product features. We explain the manner in which we use ConceptNet in the following section. After performing the steps described above, we conclude the process of obtaining the possible terms that a customer buying a product will comment on. The final step consists in finding the attributes of the features discovered by applying the “has attributes” relation in WordNet to each of the nouns representing product features. In the case of nouns which have no term associated by the “has attribute” relation, we add as attribute features the concepts found in ConceptNet under the OUT relations PropertyOf and CapableOf. In case the concepts added are adjectives, we further add their synonyms and antonyms from WordNet. 3) Using ConceptNet to extract product specific features and feature attributes: In order to obtain additional features for the product in question, we add the concepts that are related to the term representing the concept with terms related in ConceptNet by the OUT relations UsedFor and CapableOf and the IN relations PartOf and UsedFor. System Architecture Our method consists of two distinct steps: preprocessing and main processing, each containing a series of sub modules and using different language tools and resources. 4.1 Pre-processing Figure 1: Pre-processing stage As depicted in Figure 1, in our approach, we start from the following scenario: a user enters a query about a product that he/she is interested to buy. The search engine will retrieve a series of documents containing the product name, in different languages. Further on, two parallel operations are performed: the first one uses language identifier software to filter and obtain two categories - one containing the reviews in English and the other the reviews in Spanish. The second operation implies a modified version of the system described in (Kozareva and Montoyo, 2007) for the classification of person names. We use this system in order to determine the category the product queried belongs to. Once the product category is determined, we proceed to extracting the product specific features and feature attributes. This is accomplished using WordNet and ConceptNet and the corresponding mapping to Spanish using EuroWordNet. Apart from the product specific class of features and feature attributes, we consider a core of features and feature attributes that are product-independent and whose importance determines their frequent occurrence in customer reviews. 1) Product-independent features and feature attributes: There are a series of features that are product independent and that are important to any prospective buyer. We consider these as forming a core of product features. For each of 49 Alexandra Balahur, Andrés Montoyo 4) Mapping concepts using EuroWordNet: We employ EuroWordNet and map the features and feature attributes, both from the main core of words, as well as the product specific ones that were previously discovered for English, independent of the sense number, taking into account only the preservation of the relevant domain. Certainly, we are aware of the noise introduced by this mapping, however in the preliminary research we found that the concepts introduced that had no relation to the product queried did not appear in the user product reviews. 5) Discovering overlooked product features: The majority of product features we have identified so far are parts constituting products. However, there remains a class of undiscovered features that are indirectly related to the product. These are the features of the product constituting parts, such as battery life, picture resolution, and auto mode. Further, we propose to extract these overlooked product features by determining bigrams made up of target words constituting features and other words in a corpus of customer reviews. In the case of digital cameras, for example, we considered a corpus of 200 customer reviews on which we ran Pedersen’s Ngram Statistics Package (Banerjee and Pedersen, 2003) to determine target co-occurrences of the features identified so far. As measure for term association, we use the Pointwise Mutual Information score. In this manner, we discover bigram features such as “battery life”, “mode settings” and “screen resolution”. 4.2 The main processing in our system is done in parallel for English and Spanish. In the next section, we will briefly describe the steps followed in processing the initial input containing the customer reviews in the two considered language and offer as output the summarized opinions on the features considered. We part from the reviews filtered according to language. For each of the two language considered, we used a specialized tool for anaphora resolution - JavaRAP1 for English and SUPAR (Ferrández, Palomar and Moreno, 1999) for Spanish. Further on, we separate the text into sentences and use a Named Entity Recognizer to spot names of products, brands or shops. Using the lists of general features and feature attributes, product-specific features and feature attributes, we extract from the set of sentences contained in the text only those containing at least one of the terms found in the lists. 1) Anaphora resolution: In order to solve the anaphoric references on the product features and feature attributes, we employ two anaphora resolution tools - JavaRAP for English and SUPAR for Spanish. Using these tools, we replace the anaphoric references with their corresponding referents and obtain a text in which the terms constituting product features could be found. Using JavaRAP, we obtain a version of the text in which pronouns and lexical references are resolved. For example, the text: ‘‘I bought this camera about a week ago,and so far have found it very very simple to use, takes good quality pics for what I use it for (outings with friends/family, special events). It is great that it already comes w/ a rechargeable battery that seems to last quite a while...’’, by resolving the anaphoric pronominal reference, becomes ‘‘I bought this camera about a week ago, and so far have found <this camera > very very simple to use, takes good quality pics for what I use <this camera > for (outings with friends/family, special events). It is great that <this camera> already comes w/ a rechargeable battery that seems to last quite a while...’’. SUPAR (Slot Unification Parser for Anaphora Resolution). We use SUPAR in the same manner as JavaRAP, to solve the anaphora for Spanish. Main Processing 1 http://www.comp.nus.edu.sg/~qiul/NLPTools/ JavaRAP.html Figure 2: Main processing stage 50 A Semantic Relatedness Approach to Classifying Opinion from Web Reviews 2) Sentence chunking and NER: Further on, we split the text of the customer review into sentences and identify the named entities in the text. Splitting the text into sentences prevents us from processing sentences that have no importance as far as product features that a possible customer could be interested in are concerned. We use LingPipe to split the customer reviews in English into sentences and identify the named entities referring to products of the same category as the product queried. In this manner, we can be sure that we identify sentences referring to the product queried, even the reference is done by making use of the name of another product. For example, in the text “For a little less, I could have bought the Nikon Coolpix, but it is worth the extra money.”, anaphora resolution replaces <it> with <Nikon Coolpix> and this step will replace it with <camera>. We employ FreeLing in order to split the customer reviews in Spanish into sentences and identify the named entities referring to products of the same category as the product queried. 3) Sentence extraction: Having completed the feature and feature attributes identification phase, we proceed to extracting for further processing only the sentences that contain the terms referring to the product, product features or feature attributes. In this manner, we avoid further processing of text that is of no importance to the task we wish to accomplish. For example, sentences of the type “I work in the home appliances sector.” will not be taken into account in further processing. Certainly, at the overall level of review impact, such a sentence might be of great importance to a reader, since it proves the expertise of the opinion given in the review. However, for the problems we wish to solve by using this method, such a sentence is of no importance. 4) Sentence parsing: Each of the sentences that are filtered by the previous step are parsed in order to obtain the sentence structure and component dependencies. In order to accomplish this, we use Minipar (Lin, 1998) for English and FreeLing for Spanish. This step is necessary in order to be able to extract the values of the features mentioned based on the dependency between the attributes identified and the feature they determine. 5) Feature value extraction: Further on, we extract features and feature attributes from each of the identified sentences, using the following rules: 1) We introduce the following categories of context polarity shifters, in which we split the modifiers and modal operators in two categories - positive and negative: - negation: no, not, never etc. - modifiers: positive (extremely, very, totally etc.) and negative (hardly, less, possibly etc.) - modal operators: positive (must, has) and negative (if, would, could etc.) 2) For each identified feature that is found in a sentence, we search for a corresponding feature attribute that determines it. Further on, we search to see if the feature attribute is determined by any of the defined modifiers. We consider a variable we name valueOfModifier, with a default value of -1, that will account for the existence of a positive or negative modifier of the feature attribute. In the affirmative case, we assign a value of 1 if the modifier is positive and a value of 0 if the modifier is negative. If no modifier exists, we consider the default value of the variable. We extract triplets as (feature, attributeFeature, valueOf Modifier). In order to accomplish this, we use the syntactic dependency structure of the phrase, we determine all attribute features that determine the given feature (in the case of Minipar, they are the ones connected by the “mod” and “pred” relations). 3) If a feature attribute is found without determining a feature, we consider it to implicitly evoke the feature that it is associated with in the feature collection previously built for the product. “The camera is small and sleek.” becomes (camera, small, -1) and (camera, sleek, -1), which is then transformed by assigning the value “small” to the “size” feature and the value “sleek” to the “design” feature. 5 Assigning polarity to feature attributes In order to assign polarity to each of the identified feature attributes of a product, we employ SMO SVM machine learning and the Normalized Google Distance (NGD). The main advantage in using this type of polarity assignment is that NGD is language independent and offers a measure of semantic similarity taking into account the meaning 51 Alexandra Balahur, Andrés Montoyo given to words in all texts indexed by Google from the World Wide Web. The set of anchors contains the terms {featureName, happy, unsatisfied, nice, small, buy}, that have possible connection to all possible classes of products and whose polarity is known. Further on, we build the classes of positive and negative examples for each of the feature attributes considered. From the corpus of annotated customer reviews, we consider all positive and negative terms associated to the considered attribute features. We then complete the lists of positive and negative terms with their WordNet synonyms. Since the number of positive and negative examples must be equal, we will consider from each of the categories a number of elements equal to the size of the smallest set among the two, with a size of at least 10 and less or equal with 20. We give as example the classification of the feature attribute “tiny”, for the “size” feature. The set of positive feature attributes considered contains 15 terms such as (big, broad, bulky, massive, voluminous, large-scale etc.) and the set of negative feature attributes considered is composed as opposed examples, such as (small, petite, pocket-sized, little, etc.). We use the anchor words to convert each of the 30 training words to 6-dimensional training vectors defined as v(j,i) = NGD(wi,aj), where aj with j ranging from 1 to 6 are the anchors and wi, with i from 1 to 30 are the words from the positive and negative categories. After obtaining the total 180 values for the vectors, we use SMO SVM to learn to distinguish the product specific nuances. For each of the new feature attributes we wish to classify, we calculate a new value of the vector vNew(j,word)=NGD(word, aj), with j ranging from 1 to 6 and classify it using the same anchors and trained SVM model. In the example considered, we had the following results (we specify between brackets the word to which the scores refer to): made was between 0.72 and 0.80, with a kappa value above 0.45. 6 Summarization of feature polarity For each of the features identified, we compute its polarity depending on the polarity of the feature attribute that it is determined by and the polarity of the context modifier the feature attribute is determined by, in case such a modifier exists. Finally, we statistically summarize the polarity of the feature attributes, as shown in Formula (1) and Formula (2): # pos_feature_attributes(i) (1) # feature_attributes(i) # neg_feature_attributes(i) Fneg (i) = (2) # feature_attributes(i) Fpos (i) = The results shown are triplets of the form (feature, % Positive Opinions, % Negative Opinions). 7 Evaluation and discussion For the evaluation of the system, we annotated a corpus of 50 customer reviews for each language, collected from sites as amazon.com, newegg.com, dealsdirect.com, ciao.es, shopmania.es, testfreaks.es and quesabesde.com. The corpus was annotated at the level of feature attributes, by the following scheme: <attribute> [name of attribute] <feature> [feature it determines] </feature> <value> [positive / negative] </value> </attribute>. It is difficult to evaluate the performance of such a system, since we must take into consideration both the accuracy in extracting the features that reviews comment on, as well as the correct assignation of identified feature attributes to the positive or negative category. Therefore, we measured the system performance in terms of precision, recall and accuracy. The results obtained are summarized in Table 1. We show the scores for each of the two languages considered separately and the combined score when using both systems for assigning polarity to feature attributes of a product. In the last column, we present a baseline, computed as average of using the same formulas, but taking into consideration, for each feature, only the feature attributes we considered as training examples for our method. We can notice how the use of NGD helped the (small)1.52, 1.87, 0.82, 1.75, 1.92,1.93, positive (little)1.44, 1.84, 0.80, 1.64, 2.11,1.85, positive (big )2.27, 1.19, 0.86, 1.55, 1.16, 1.77, negative (bulky) 1.33, 1.17 ,0.92,1.13,1.12,1.16, negative The vector corresponding to the “tiny” attribute feature is: (tiny) 1.51, 1.41, 0.82, 1.32, 1.60, 1.36. This vector was classified by SVM as positive, using the training set specified above. The precision value in the classifications we 52 A Semantic Relatedness Approach to Classifying Opinion from Web Reviews system acquire significant new knowledge about the polarity of feature attributes. SA FIP FIR Eng Sp Combined Baseline Eng Baseline Sp 0.82 0.80 0.79 0.80 0.78 0.79 0.81 0.79 0.79 0.21 0.20 0.40 0.19 0.20 0.40 features and feature attributes, alternate methodologies for polarity assignation to product dependent feature attributes and finally, the application of a textual entailment system to verify the quality of the feature extracted and the assigned polarity. References Table 1: System results Banerjee, S., Pedersen,T.: The Design, Implementation and Use of the Ngram Statistics Package. In Proceedings of the Fourth International Conference on Intelligent Text Processing and Computational Linguistics, February 17-21, 2003, Mexico City. (2003) The problems encountered were largely related to the use of informal language, disregard of spelling rules and punctuation marks. 8 Conclusions and future work In this paper we presented a method to extract, for a given product, the features that could be commented upon in a customer review. Further, we have shown a method to acquire the feature attributes on which a customer can comment in a review. Moreover, we presented a method to extract and assign polarity to these product features and statistically summarize the polarity they are given in the review texts in English and Spanish. The method for polarity assignment is largely language independent (it only requires the use of a small number of training examples) and the entire system can be implemented in any language for which similar resources and tools as the ones used for the presented system exist. The main advantage obtained by using this method is that one is able to extract and correctly classify the polarity of feature attributes, in a product dependent manner. Furthermore, the features in texts are that are identified are correct and the percentage of identification is high. Also, the polarity given in the training set determines the polarity given to new terms, such that “large” in the context of “display” will be trained as positive and in the case of “size” as negative. The main disadvantage consists in the fact that SVM learning and classification is dependent on the NGD scores obtained with a set of anchors that must previously be established. This remains a rather subjective matter. The most important problem we encountered is that concerning the informal language style, which makes the identification of words and dependencies in phrases sometimes impossible. Future work includes the development of a method to extend the list of product-dependent Chaovalit, P., Zhou, L.: Movie Review Mining: a Comparison between Supervised and Unsupervised Classification Approaches. In Proceedings of HICSS-05, the 38th Hawaii International Conference on System Sciences. (2005) Cilibrasi, D., Vitanyi, P.: Automatic Meaning Discovery Using Google. IEEE Journal of Transactions on Knowledge and Data Engineering. (2006) Cui, H., Mittal, V., Datar, M.: Comparative Experiments on Sentiment Classification for Online Product Reviews. In Proceedings of the 21st National Conference on Artificial Intelligence AAAI 2006. (2006) Dave, K., Lawrence, S., Pennock, D.: Mining the Peanut Gallery: Opinion Extraction and Semantic Classification of Product Reviews. In Proceedings of WWW-03. (2003) Ding, X., Liu, B., Yu, P.,: A Holistic Lexicon Based Approach to Opinion Mining. In Proceedings of WSDM, 2008. (2008) Fellbaum(ed.), C.: WordNet: An Electronic Lexical Database. First edn. MIT Press. (1999) Ferrández, A., Palomar, M., Moreno, L.: An Empirical Approach to Spanish Anaphora Resolution. Machine Translation. Special Issue on Anaphora Resolution In Machine Translation. Special Issue on Anaphora Resolution In Machine Translation. (1999) Gamon, M., Aue, S., Corston-Oliver, S., Ringger, E.: Mining Customer Opinions 53 Alexandra Balahur, Andrés Montoyo from Free Text. Lecture Notes in Computer Science. (2005) Association for Computational Linguistics. (2006) Goldberg, A.B., Zhu, J.: Seeing stars when there aren’t many stars: Graph-based semisupervised learning for sentiment categorization. In HLT-NAACL 2006 Workshop on Textgraphs: Graph-based Algorithms for Natural Language Processing. (2006) Pang, B., Lee, L., Vaithyanathan, S.: Thumbs up? Sentiment classification using machine learning techniques. In Proceedings of EMNLP-02, the Conference on Empirical Methods in Natural Language Processing. (2002) Platt, J.: Sequential minimal optimization: A fast algorithm for training support vector machines. Microsoft Research Technical Report MSRTR- 98-14. (1998) Hatzivassiloglou, V., Wiebe, J.: Effects of adjective orientation and gradability on sentence subjectivity. In Proceedings of COLING 2000. (2000) Popescu, A.M., Etzioni, O.: Extracting Product Features and Opinions from Reviews. In Proceedings of EMNLP 2005. (2005) Hu, M., Liu, B.: Mining Opinion Features in Customer Reviews. In Proceedings of Nineteenth National Conference on Artificial Intelligence AAAI-2004. (2004) Riloff, E., Wiebe, J.: Learning Extraction Patterns for Subjective Expressions. In Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing. (2003) Kim, S.M., Hovy, E.: Determining the Sentiment of Opinions. In Proceedings of COLING 2004. (2004) Kozareva, Z., Montoyo, A.: Discovering the Underlying Meanings and Categories of a Name through Domain and Semantic Information. In: Proceedings of the Conference on Recent Advances in Natural Language Processing RANLP 2007. (2007) Stoyanov, V., Cardie, C.: Toward Opinion Summarization: Linking the Sources. In: COLING-ACL 2006 Workshop on Sentiment and Subjectivity in Text. (2006) Turney, P., Littman, M.: Measuring praise and criticism: Inference of semantic orientation from association. ACM Transactions on Information Systems 21. (2003) Lin, D.: Dependency-based Evaluation of MINIPAR. In Workshop on the Evaluation of Parsing Systems. (1998) Turney, P.: Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews. In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. (2002) Lin, W.H., Wilson, T., Wiebe, J., Hauptman, A.: Which Side are You On? Identifying Perspectives at the Document and Sentence Levels. In Proceedings of the Tenth Conference on Natural Language Learning CoNLL’06. (2006) Vázquez, S., Montoyo, A., Rigau, G.: Using relevant domains resource for word sense disambiguation. In Proceedings of the ICAI 2004. (2004) Liu, B.: Web Data Mining. Exploring Hyperlinks, Contents and Usage Data. First edn. Springer (2007) Liu, H., Singh, P.: ConceptNet: A Practical Commonsense Reasoning Toolkit. BT Technology Journal 22. (2004) Wiebe, J., Riloff, E.: Creating Subjective and Objective Sentence Classifiers from Unannotated Texts. In Proceedings of the 6th International Conference on Computational Linguistics and Intelligent Text Processing (CICLing-05). (2005) Mullen, T., Collier, N.: Sentiment Analysis Using Support Vector Machines with Diverse Information Sources. In Proceedings of EMNLP 2004. (2004) Wilson, T., Wiebe, J., Hwa, R.: Just how mad are you? Finding strong and weak opinion clauses. In: Proceedings of AAAI 2004. (2004) Ng, V., Dasgupta, S., Arifin, S.M.N.: Examining the Role of Linguistic Knowledge Sources in the Automatic Identification and Classification of Reviews. In Proceedings 40th Annual Meeting of the 54 Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 55-62 recibido 13-01-09, aceptado 02-03-09 Estableciendo una línea base para un generador de resúmenes extractivo basado en conceptos en el ámbito biomédico1 Setting a baseline for an automatic extractive concepts-based summarization on the biomedical domain Manuel de la Villa y Manuel J. Maña Departamento Tecnologías de la Información Universidad de Huelva. Campus de La Rábida. Edif. Torreumbría, 21618, Palos de la Frontera, Huelva, España {manuel.villa, manuel.mana}@dti.uhu.es Resumen: Los métodos de generación de resúmenes basados en técnicas extractivas han demostrado ser muy útiles por su adaptabilidad y eficiencia en tiempo de respuesta en cualquier tipo de dominios. En el ámbito biomédico son numerosos los estudios que hablan de la sobrecarga de información y recogen la necesidad de aplicación de técnicas eficientes de recuperación y generación de resúmenes para una correcta aplicación de la medicina basada en la evidencia. En este contexto vamos a presentar una propuesta de metodología de generación automática de resúmenes basada en conocimiento estructurado y grafos. A partir de una representación del documento original en un grafo, aplicando técnicas de similitud entre frases y sus conceptos biomédicos, se obtienen las frases más relevantes para formar el resumen final. Palabras clave: resumen automático, método extractivo, conceptos biomédicos, UMLS Abstract: The methods for automatic summarization generation based in extractive techniques have widely shown its utility for his adaptability and efficiency in the manner of response time at any kind of application domain. In Biomedical domain are numerous the research results about the overload information and the need of application of efficient recovery and summarization methods for the proper use of evidence based medicine. In this context we are going to present a proposal of methodology for automatic summarization based on structured knowledge and graph's use. From a representation of the source document in form of a graph, applying similarity methods between phrases and their containing biomedical concepts, we obtain the most salient phrases to fill in the final summary. Keywords: automatic summarization, extractive method, biomedical concept, UMLS 1 relevante y una mayor asimilación de conceptos con menor esfuerzo. Introducción La generación de resúmenes de texto es un proceso de reducción de la información, que permite a un usuario tomar idea o conocer el contenido de un texto completo, sin tener que leer todas sus frases. Esta reducción de la cantidad de información a leer produce una mayor rapidez en la búsqueda de información Numerosos artículos certifican la sobrecarga de información tan común hoy día en nuestra sociedad, y en especial en el ámbito biomédico, donde la información está disponible desde una variedad de fuentes, incluyendo artículos científicos, bases de datos de resúmenes, bases de datos estructuradas o semiestructuradas, servicios web, webs de documentos o historia 1 Este trabajo ha sido financiado por el Ministerio de Ciencia e Innovación a través de los proyectos CICYT TIN2007-67843-C06-03 y TIN2005-08998-C02-02. ISSN 1135-5948 © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural Manuel de la Villa, Manuel J. Maña clínica de pacientes (Afantenos, Karkaletsis y Stamatopoulos, 2005). En este trabajo presentamos un modelo de generación de resúmenes de carácter extractivo apoyado en conceptos del dominio biomédico. El artículo se estructura de la siguiente manera: en primer lugar se describe el proceso de tratamiento extractivo del lenguaje natural mediante el uso de grafos, para posteriormente comentar algunos trabajos específicos del dominio. Presentamos UMLS y el conjunto de herramientas de procesamiento de lenguaje natural orientadas al ámbito biomédico que incorpora. En la sección cinco presentamos el modelo de generación de resúmenes en que estamos trabajando, dividido en cuatro fases: la generación del grafo léxico, la aplicación de un algoritmo de similitud conceptual, la aplicación de un algoritmo de ranking y finalmente, la creación del resumen. Finalmente enumeramos los muchos temas abiertos que quedan en este trabajo inicial y los posibles futuros trabajos. Si a ello unimos el hecho de que gran parte de los resultados de la investigación biomédica se encuentran en forma de literatura escrita en formato libre (no estructurados, formato inadecuado para la búsqueda compleja) que se acumulan en grandes bases de datos en línea, podemos concluir que el proceso de reducción de los resúmenes automáticos es especialmente útil en el ámbito biomédico. Por otro lado, el rápido crecimiento de los resultados de la investigación del dominio biomédico está produciendo un importante cuello de botella. MEDLINE (Medical Literature Analysis and Retrieval System Online), la principal base de datos bibliográfica de EE.UU (de la National Library of Medicine), contiene más de 16 millones de referencias a artículos de revistas, centrados principalmente en biomedicina. Entre 2000 y 4000 referencias completas se añaden cada día, más de 670000 fueron añadidas en 20072. 2 Trabajos relacionados en el ámbito extractivo Para generar resúmenes automáticos de texto existen dos enfoques: extractivo y abstractivo. El enfoque extractivo selecciona y extrae frases o partes de ella del texto original. La mayor ventaja que tiene este enfoque es que resulta muy robusto y fácilmente aplicable a contextos de propósito general, ya que, su independencia del dominio, e incluso del género de los documentos, es muy alta. El enfoque abstractivo suele englobar técnicas de procesamiento del lenguaje natural, más complejo pues necesita un conocimiento léxico, gramatical y sintáctico del dominio, para modelar semánticamente el conocimiento y a partir de éste ser capaz de generar un resumen. La práctica de la medicina basada en la evidencia ha sido tradicionalmente definida como la combinación de los mejores resultados de la investigación médica con el juicio clínico, experto y experimentado (Sackett et Al., 1996). La capacidad de buscar en la literatura médica en un tiempo eficiente representa una parte importante de una práctica basada en la evidencia. Un reciente trabajo cualitativo concluyó que dos de los seis obstáculos para responder a cuestiones clínicas aplicando la evidencia eran el tiempo requerido para encontrar información y la dificultad para seleccionar una estrategia óptima de búsqueda (Ely y Osheroff, 2002). Es por todo esto que herramientas de búsqueda como PubMed3, BioMed Central4 o UpToDate5 se han convertido en más y más importantes, para encontrar formas adecuadas de localizar la mejor evidencia de manera eficaz. Típicamente, el proceso de resumen extractivo consiste en identificar las sentencias de un texto de origen que sean relevantes para el usuario a la vez que se reduce la redundancia de la información. Las sentencias son puntuadas basándose en una serie de características y las n sentencias de mayor puntuación son extraídas y presentadas al usuario en su orden de aparición en el texto original. En este dominio, los profesionales en general necesitan herramientas orientadas a proporcionar medios para acceder y visualizar la información adecuada para sus necesidades. Para trabajar con las frases y su puntuación, un mecanismo de representación comúnmente usado han sido los modelos de puntuación o ranking basados en grafos. Los algoritmos de 2 http://www.nlm.nih.gov/pubs/ factsheets/medline.html http://www.nlm.nih.gov/pubs/factsheets/pubmed.html 4 http://www.biomedcentral.com/info/ 5 http://www.uptodate.com/home/about/index.html 3 56 Estableciendo una línea base para un generador de resúmenes extractivo basado en conceptos en el ámbito biomédico Los trabajos específicos de un ámbito pueden usar conceptos en vez de términos, para lo que necesitan herramientas que den soporte a la identificación de los conceptos en una estructura de conocimiento del dominio y capaces de determinar relaciones semánticas entre estos conceptos. ranking basados en grafos son un modo de decidir sobre la importancia de un vértice dentro del grafo, teniendo en cuenta información referencial global del grafo, obtenida recursivamente mejor que localmente desde el vértice. La aplicación de éste modo de trabajo a grafos léxicos o semánticos extraídos de documentos de lenguaje natural ha sido llevada a cabo (Skorochod'ko, 1972) (Salton et al., 1997) y se ha mostrado eficaz en tareas de procesamiento del lenguaje como la extracción automática de palabras clave, generación de resúmenes extractiva o desambiguación del sentido de las palabras (Mihalcea y Tarau, 2006). 3.1 Para el procesado semántico, consistente en el análisis e identificación de los conceptos y relaciones subyacentes en un texto, se requiere para que el texto pueda ser mapeado a una estructura de conocimiento, como la que en el ámbito biomédico proporciona el proyecto Unified Medical Language System (UMLS) (Humphreys et al., 1998). El objetivo de este proyecto es el desarrollo de herramientas que ayuden a investigadores en la representación del conocimiento, recuperación e integración de información biomédica. Otros trabajos relevantes en el ámbito que destacaremos son (Radev y McKeown, 1998) donde se presenta un sistema que genera un resumen a partir de un conjunto de artículos periodísticos sobre el mismo acontecimiento. Para cada frase se determina su estructura a alto nivel y las palabras que van a representar cada papel semántico y, finalmente, se construye su árbol sintáctico. UMLS consiste en tres componentes, el SPECIALIST Lexicon, el Metathesaurus y la UMLS Semantic Network (Rindflesh, Fiszman y Libbus, 2005). El sistema SUMMARIST (Hovy y Lin, 1999) se utiliza un recurso léxico, WordNet para identificar conceptos genéricos y definir una jerarquía. El proceso de generalización se realiza mediante la propagación de pesos de los conceptos, basados en frecuencias de aparición, a través de la jerarquía de WordNet. 3 Conocimiento del dominio: UMLS z El SPECIALIST Lexicon describe las características sintácticas de terminos en inglés de carácter biomédico y general, proporcionando la base para el PLN en el dominio biomédico. Así, p.ej., la entrada 'Anaesthetic' produciría las siguientes respuestas: c {base=anesthetic ■ spelling_variant=anaesthetic ■ entry=E0330018 ■ cat=noun ■ variants=reg ■ variants=uncount } c {base=anesthetic ■ spelling_variant=anaesthetic ■ entry=E0330019 ■ cat=adj ■ variants=inv ■ position=attrib(3) ■ position=pred stative }, que vendría a indicarnos que el término puede aparecer como sustantivo o adjetivo, en un caso con un plural regular, incontable, en el otro indica que es invariante, que puede aparecer en el predicado y que es un adj. atributivo. Trabajos relacionados en el ámbito biomédico. En el ámbito biomédico destacaremos los métodos de generación de resúmenes extractivos como BioChain, (basado en cadenas de conceptos o relaciones semánticas entre conceptos vecinos en texto), FreqDist (centrado en el uso de las distribuciones de frecuencia, construyendo un resumen con similar distribución que el original) y Chainfreq (híbrido de los dos anteriores), que usan conceptos específicos del dominio biomédico para identificar las sentencias destacables del texto completo (Reeve, Han y Brooks, 2007). Sin embargo, la posterior evaluación de los métodos no logra mejorar los resultados de los enfoques basados en términos. 57 Manuel de la Villa, Manuel J. Maña que combina técnicas de traducción automática con ontologías biomédicas y MMTx para producir una versión española de MMTx. z El Metathesaurus es una recopilación de más de 100 vocabularios y terminologías médicas, entre los que se incluyen desde MeSH o SNOMED hasta subdominios más especializados (odontología o enfermería,...) asociando cada término a más de un millón de conceptos semánticos que a su vez se engloban en 135 tipos semánticos relevantes en el ámbito biomédico (y siempre, al menos en uno). Así, p.ej., la entrada 'Arthritis, Juvenile Rheumatoid”produciría la siguiente información jerárquica: Immunologic Diseases Autoimmune Diseases Arthritis, Rheumatoid Arthritis, Juvenile Rheumatoid 4 Propuesta de generación del resumen Los métodos de generación de resúmenes basados en técnicas extractivas han demostrado ser muy útiles por su adaptabilidad y eficiencia en tiempo de respuesta en cualquier tipo de dominios. Por contra, los métodos abstractivos, por la necesidad de recursos léxicos, sintácticos y semánticos han proporcionado unos mejores resultados en cuanto a comprensibilidad a costa de un mayor esfuerzo computacional y por tanto, de tiempos de respuesta, aparte de la especificidad del ámbito de uso de la herramienta. z La UMLS Semantic Network constituye una ontología del más alto nivel de la Medicina, compuesta por 135 tipos semánticos asignados a conceptos del Metathesaurus y por 54 tipos de relaciones entre los tipos. Estas relaciones son a menudo llamadas predicados o proposiciones y están constituidas por argumentos (conceptos) y predicados (relaciones). Algunos ejemplos podrían ser: -‘Therapeutic or Preventive Procedure’ TREATS ‘Injury or Poisoning’ -‘Organism Attribute’ PROPERTY_OF ‘Mammal’ -‘Bacterium’ CAUSES ‘Pathologic Function'. Como vimos en el punto dos, existen trabajos previos para el dominio específico biomédico de carácter extractivo que hacen uso de recursos léxicos y semánticos, pero que no obtienen unos mejores resultados trabajando con conceptos que con términos. Nuestro objetivo es intentar mejorar la capacidad y rapidez de los métodos extractivos con la efectividad y concreción de los métodos abstractivos. Para ello vamos a presentar una primera propuesta de una metodología de generación automática de resúmenes basada en conocimiento estructurado y grafos de ranking. SemRep es una herramienta de procesado semántico que integra los tres anteriores componentes de UMLS para analizar de manera automática textos con lenguaje médico identificando los conceptos y relaciones que representan el contenido del documento. SemRep devuelve una lista de relaciones a partir de un conjunto de documentos obtenidos por una búsqueda de un término especificado. Nuestra propuesta, basada en (Mihalcea y Tarau, 2006) es eminentemente extractiva, de modo que el proceso podría resumirse en identificar las sentencias en el texto de origen, seleccionar aquellas que sean relevantes para el usuario a la vez que disminuimos la redundancia de la información. Para ello asignamos una puntuación a cada frase de acuerdo a un conjunto de características. Las nprimeras frases en cuanto a puntuación se extraen y se presentan al usuario en su orden de aparición en el texto original. Usaremos el Metathesaurus y la herramienta Metamap Transfer (MMTx) para la identificación de los conceptos biomédicos de cada frase, base para el cálculo del solape entre frases. En cuanto a SemRep, añadiremos esta lista de relaciones al grafo dirigido para posteriores trabajos. 4.1 Fase 1. Generación del grafo. Independientemente del tamaño del texto, sea un texto completo o un abstract, la primera tarea debe consistir en la identificación de cada una de las sentencias del texto de origen, así como en la creación de un grafo que incluya un vértice en el grafo por cada sentencia. De manera simultánea, se identifican con la ayuda En castellano han existido esfuerzos para la elaboración de un metathesauro, como WordMed (Arranz et al., 2000). Destacaremos el trabajo de (Carrero, Cortizo y Gómez, 2008) 58 Estableciendo una línea base para un generador de resúmenes extractivo basado en conceptos en el ámbito biomédico Similitud c (Vi ,V j )= de Metamap Transfer (integrada en SemRep, ver Figura 1), los conceptos biomédicos incluidos en la frase y se incluyen en el nodo, así como las relaciones semánticas. Para el trabajo con grafos en el prototipo que se ha elaborado se ha usado la librería JUNG (O’Madadhain et al., 2004). k | C k ∈Vi ∧ C k ∈V j }) log((Vi )) + log((V j )) La Figura 2 muestra la matriz de adyacencia que almacena los pesos de las aristas entre nodos, así de cada nodo en una fila a un nodo de una columna (grafo dirigido) se muestra en la tabla el valor de similitud. SE|00000000||tx|1|text|In order to substantiate further the relationship between these oral disorders and psoriasis, we compared 200 patients with psoriasis to a matched control group. SE|00000000||tx|1|entity|C1517331|Further|spco |||further||||888|26|32 SE|00000000||tx|1|entity|C0439849|Relationship s|qlco|||relationship||||888|38|49 SE|00000000||tx|1|entity|C0026636|Mouth Diseases|dsyn|||oral disorders||||983|65|78 SE|00000000||tx|1|entity|C0033860|Psoriasis|ds yn|||psoriasis||||1000|84|92 SE|00000000||tx|1|entity|C0030705|Patients|pod g|||patients||||861|111|118 SE|00000000||tx|1|entity|C0033860|Psoriasis|ds yn|||psoriasis||||1000|125|133 SE|00000000||tx|1|entity|C0243148|control|ftcn |||control||||901|148|154 SE|00000000||tx|1|entity|C0024908|Matched Groups|grup|||matched control group||||901|140|160 SE|00000000||tx|1|relation|2|1|C0033860|Psoria sis|dsyn|dsyn|||psoriasis||||1000|125|133|PREP |PROCESS_OF||120|123|5|1|C0030705|Patients|hum n|humn|||patients||||861|111|118 Figura 2: Prototipo de la aplicación tras aplicar algoritmo de solape 4.3 Fase 3. Aplicación de algoritmo de ranking Los algoritmos de ranking basados en grafos, a partir de la asignación arbitraria de valores a cada nodo, realizan cálculos para obtener la puntuación S(Vi) de cada nodo de manera iterativa, hasta que se produce convergencia bajo un determinado umbral. Las referencias entre nodos y/o conceptos son tratadas como 'votos' para decidir el elemento más importante. La puntuación de cada vértice se obtiene aplicando PageRank (Brin y Page, 1998): Figura 1 Ejemplo de tratamiento realizado por SemRep sobre una sentencia de un texto biomédico 4.2 ({C Fase 2. Aplicación de algoritmo de similitud. Para la extracción de sentencias en resúmenes, un concepto importante es la 'similitud' o grado de solapamiento entre sentencias, cuánto del contenido de una sentencia se encuentra incluido en otra. Es como si consideráramos el solape como una “recomendación” de una frase de dirigirse a otras que tratan y abundan los mismos conceptos. Una función de similitud, que tome en cuenta el grado de repetición de tokens entre sentencias de manera normalizada proporcionará una medida de este concepto. En particular, este concepto también nos proporcionará información de lo cohesionado o no del grupo de documentos devueltos en la consulta y de la posible necesidad de un tratamiento previo de clustering. WS (Vi ) = (1 − d )+ d ∗ ∑ ∈I (V ) Vj n WS (V j ) W ji ∑W ∈O (V ) jk i Vk ut j En la Figura 3 se observa el prototipo de la aplicación con el grafo resultante, donde se pueden observar los nodos etiquetados con los pesos obtenidos y los valores asociados a las aristas recalculados. Tras la ejecución del algoritmo, los nodos se ordenan atendiendo al peso o puntuación asociada, que define la notoriedad (saliency) de cada vértice en un grafo dirigido y ponderado. Aplicamos una versión modificada (con conceptos en vez de términos) de la formula de similitud de (Milhacea y Tarau, 2006): 59 Manuel de la Villa, Manuel J. Maña debe reflejarse en un buen resultado en una futura evaluación de método. Es evidente que la propuesta es un punto de partida que acabará como un hito en un proyecto más ambicioso y a más largo plazo. Hablemos de cuáles serán los siguientes pasos a realizar: z Elaboración u obtención de un corpus evaluable. En este momento nos encontramos en la búsqueda de un corpus que podamos reutilizar para nuestros fines. De no tener un resultado positivo, optaríamos por elaborar nuestro propio corpus de documentos, a partir de BioMed Central, una editorial independiente dedicada a la publicación de artículos de investigación en Biología y Medicina que se caracteriza por mantener una política de acceso abierto a través de Internet, agrupando a más de 180 revistas y más de 23000 artículos de investigación del ámbito biomédico. Esto nos permitiría trabajar con un amplio conjunto de documentos completos en vez de abstracts. z Evaluación. Cualquier trabajo mínimamente metódico requiere de una comparación de su eficiencia frente a otras propuestas de prestigio y frente a un baseline que proporcione métricas sobre los porcentajes de mejora por aplicación de tal o cual modificación. Nos proponemos evaluar nuestro modelo usando uno de estas herramientas: -ROUGE (Recall-Oriented Understudy for Gisting Evaluation) (Lin y Hovy, 2003) es una herramienta automatizada que compara un sumario generado por un sistema automático con uno o más resúmenes ideales, llamados modelos. Usa N-gramas para determinar el solape entre el resumen generado y los modelos. -Basic Elements (Hovy et al., 2006) es un marco de trabajo en el que las medidas de evaluación de los resúmenes pueden instanciarse y compararse dentro de un método de evaluación que se basa en el trabajo con unidades de contenido muy pequeñas, llamados 'basic elements' que corrigen algunos de los defectos de los ngramas. Figura 3: Gráfico del Grafo con pesos generado por algoritmo de ranking 4.4 Fase 4. Creación del resumen Los nodos de mayor puntuación definirán las frases a incluir en el resumen. El número de frases puede ser fijo o basado en umbral o porcentaje. En nuestro prototipo es el usuario el que decide el porcentaje de frases. Para facilitar la legibilidad del resumen, la secuencialidad de presentación de las frases seleccionadas se hace atendiendo a su ordenamiento original. 5 Conclusión y temas abiertos Se ha presentado una propuesta de generación automática de resúmenes de carácter extractivo, que usa una representación en grafo donde los nodos son frases y las aristas un valor numérico que mide el ‘grado de recomendación’ o similitud entre frases. El algoritmo de ranking producirá como resultado un peso en los nodos, que representa la importancia global de la frase dentro del documento, que ordenaremos de mayor a menor. Seleccionaremos las primeras en un número determinado por el porcentaje de compresión indicado a la herramienta. La novedad de la metodología se encuentra en el uso del metathesauro UMLS para identificar conceptos UMLS y que la similitud entre frases se calcule a partir del número de conceptos UMLS que compartan las frases. Entendemos que la herramienta aúna las bondades de técnicas extractivas con el conocimiento del dominio que aportan los recursos UMLS y que 60 Estableciendo una línea base para un generador de resúmenes extractivo basado en conceptos en el ámbito biomédico Automatic Text Summarization, pags. 81-94. The MIT Press. 1999. Hovy, E., C. Y. Lin, L. Zhou, J. Fukumoto. 2006. Automated Summarization Evaluation with Basic Elements. En Proceedings of the Fifth Conference on Language Resources and Evaluation (LREC 2006), Genova, Italia. Humphreys, B.L., D.A. Lindberg, H.M. Schoolman y G.O. Barnett. 1998. The Unified Medical Language System: An Informatics Research Collaboration. Journal of the American Medical Informatics Association, 5(1), 1-11. 1998. Lin, C. Y. y E. Hovy. 2003. Automatic evaluation of summaries using N-gram coocurrence statistics. En Proceedings of 2003 language technology conference (HLTNAACL 2003) (Vol. 1(1), pag. 71-78). Edmonton, Canada. Mihalcea R. y P. Tarau. 2006. TextRank: Bringing Order into Texts. En Proceedings of Empirical Methods in Natural Language Processing. ACL, 404-411, 2006. O’Madadhain, J., S. White, D. Fisher y Y. B. Boey. 2004. JUNG–Java Universal Network/graph Framework. Available for download at http://jung.sourceforge.net/. Radev, D. R. y K. R. McKeown. 1998. Generating Natural Language Summaries from Multiple On-Line Sources. Computational Linguistics, 4:469-500. Reeve, L.H., H. Han, A.D. Brooks. 2007. The use of domain-specific concepts in biomedical text summarization. Information Processing and Management 43, 1765-1776. 2007. Rindflesh, T.C., M. Fiszman, B. Libbus. 2005. Semantic interpretation for the biomedical research literature. Capítulo 14 del libro Medical Informatics. Knowledge Management and Data Mining in Biomedicine (Springer's Integrated Series in Information Systems), editores Chen, H., Fuller, S.S., Friedman C., Hersh, W. Sackett D.L., W.M.C. Rosenberg, J.A.M. Gray, R.B. Haynes y W.S. Richardson. 1996. Evidence-based medicine: what it is and what it isn’ t. British Medical Journal, 312: 71-72. Salton, G., A. Singhal, M. Mitra, and C. Buckley. 1997. Automatic text structuring and summarization. Information Processing and Management 33 (3), 193-207. Parece lógico que la segunda herramienta, basada en la comparación de pequeñas unidades de contenido en vez de n-gramas, favorecerá a una herramienta basada en conceptos en vez de en cadenas. Sin embargo, actualmente BE no se encuentra soportado. • Nos planteamos la evolución y mejora de esta propuesta analizando y haciendo uso de las relaciones semánticas obtenidas mediante SemRep. Nuestra idea es incluirlas dentro del grafo, de modo que dos conceptos unidos mediante una relación generarán una arista dirigida entre los nodos que incluyan a cada uno de esos conceptos. El peso de cada arista vendrá definido por el tipo de relación semántica (una relación 'cause' o 'threats' será más relevante que otra 'is-a'). Bibliografía Afantenos, S. D., V. Karkaletsis y P. Stamatopoulos. 2005. Summarization from Medical Documents: A Survey en Artificial Intelligence in Medicine, 33(2):157-177. Arranz V., X. Carreras, M. A. Martí, J. Turmo, J. Vilalta. 2000. WORDMED: Un recurso conceptual terminológico para el desarrollo de aplicaciones de PLN en el dominio médico. VII Simpósio Ibero-Americano de Terminologia: Terminologia e Indústrias da Língua, Lisboa, (Portugal), noviembre de 2000. Brin, S. y L. Page. 1998. The anatomy of a large-scale hypertextual web search engine. Computer Networks and ISDN Systems, 30 (1-7). 1998. Ely, J.W., J.A. Osheroff, M.H. Ebell, M.L. Chambliss, D.C. Vinson, J.J. Stevermer y E.A. Pifer. 2002. Obstacles to answering doctors' questions about patient care with evidence: qualitative study. British Medical Journal, 324: 710. Carrero F.M., J.C. Cortizo y J.M. Gómez. 2008. Building a Spanish MMTx by Using Automatic Translation and Biomedical Ontologies. IDEAL 2008: 346-353 Hovy, E. y C.Y. Lin. 1999. Automated Text Summarization in SUMMARIST. En I. Mani y M. T. Maybury, eds., Advances in 61 Manuel de la Villa, Manuel J. Maña Skorochod'ko, E. F. 1972. Adaptive method of automatic abstracting and indexing. En C. Freiman, ed., Information Processing 71: Proceedings of the IFIP Congress 71, págs.1179-1182. North-Holland Publishing Company, Amsterdam. 62 Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 63-70 recibido 13-01-09, aceptado 02-03-09 Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web A Comparison of Approaches to Semi-supervised Multiclass SVM for Web Page Classification Arkaitz Zubiaga, Vı́ctor Fresno, Raquel Martı́nez Departamento de Lenguajes y Sistemas Informáticos Universidad Nacional de Educación a Distancia C/Juan del Rosal, 16, E-28040 Madrid {azubiaga, vfresno, raquel}@lsi.uned.es Resumen: En este artı́culo se realiza un estudio de diferentes aproximaciones a la clasificación semisupervisada multiclase de páginas web mediante SVM. Ante la naturaleza binaria y supervisada de los algoritmos SVM clásicos, y tratando de evitar problemas de optimización complejos, se propone un enfoque basado en la combinación de clasificadores, tanto binarios semisupervisados como clasificadores multiclase supervisados. Los resultados de los experimentos realizados sobre tres colecciones de referencia muestran un rendimiento notablemente superior para la combinación de clasificadores multiclase supervisados. Por otro lado, en este trabajo también se realiza un estudio sobre la aportación de los documentos no etiquetados en la fase de aprendizaje para este tipo de entornos. En nuestro caso, y a diferencia de los problemas binarios, se obtiene una mayor efectividad cuando se ignora este tipo de datos para problemas multiclase. Palabras clave: SVM, multiclase, semisupervisado, clasificación de páginas web Abstract: In this paper we present a study on semi-supervised multiclass web page classification using SVM. Due to the binary and supervised nature of the classical SVM algorithms, and trying to avoid complex optimization problems, we propose an approach based on the combination of classifiers, not only binary semi-supervised classifiers but also multiclass supervised ones. The results of our experiments over three benchmark datasets show noticeably higher performance for the combination of multiclass supervised classifiers. On the other hand, we analyze the contribution of unlabeled documents during the learning process for these environments. In our case, and unlike for binary tasks, we get higher effectiveness for multiclass tasks when no unlabeled documents are taken into account. Keywords: SVM, multiclass, semi-supervised, web page classification 1. Introducción El número de documentos web está creciendo muy rápidamente en los últimos años, lo que hace que su organización resulte cada vez más costosa y complicada. Es por ello que la clasificación de páginas web se ha convertido en una tarea cada vez más necesaria y crı́tica. La clasificación de páginas web puede definirse como la tarea de organizar una serie de documentos web etiquetándolos con sus un conjunto de categorı́as prefijadas. Aunque se han realizado múltiples estudios para clasificación de textos, sobre todo en la raISSN 1135-5948 ma de noticias, su aplicación sobre páginas web está aún por profundizar (Qi y Davison, 2007). En este trabajo se pone el foco en la clasificación de páginas web enmarcada dentro del paradigma del aprendizaje automático (Mitchell, 1997). Los problemas de clasificación se pueden dividir en diferentes tipos. Por una parte, la clasificación puede ser binaria, donde únicamente existen dos categorı́as posibles para cada documento, o puede ser multiclase, donde se dispone de tres o más categorı́as; y por otra, el sistema de aprendizaje con el que se alimenta el clasificador puede ser supervisa- © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural Arkaitz Zubiaga, Víctor Fresno, Raquel Martínez do, donde todos los documentos de entrenamiento están previamente etiquetados, o semisupervisado, donde se aprende con una colección de entrenamiento compuesta por algunos documentos etiquetados y muchos no etiquetados. En los últimos años, se han aplicado diferentes tipos de algoritmos al problema de la clasificación de textos (Sebastiani, 2002). Para esta tarea, las máquinas de vectores de soporte (SVM, Support Vector Machines (Joachims, 1998)) se han perfilado como una buena alternativa, que ofrecen, entre otras, las siguientes ventajas: se. En la sección 3, se presentan las alternativas propuestas en este trabajo para clasificación semisupervisada multiclase. En la sección 4, se muestran los detalles de la experimentación realizada, para seguir en la sección 5 con el análisis de los resultados. En la sección 6, para finalizar, se exponen las conclusiones extraı́das tras el proceso. 2. Clasificación con SVM En la última década, SVM se ha convertido en una de las técnicas más utilizadas para tareas de clasificación, debido a los buenos resultados que se han obtenido. Esta técnica se basa en la representación de los documentos en un modelo de espacio vectorial, donde se asume que los documentos de cada clase se agrupan en regiones separables del espacio de representación. En base a ello, trata de buscar un hiperplano que separe cada clase, maximizando la distancia entre los documentos y el propio hiperplano, lo que se denomina margen (ver Figura 1). Este hiperplano se define mediante la siguiente función: No se requiere una selección o reducción de términos. En caso de que una clase se distribuya en áreas separadas del espacio vectorial, será la transformación del espacio mediante la función de kernel la que se ocupe de solucionarlo. No es necesario realizar un esfuerzo de ajuste de parámetros en el caso de problemas linealmente separables, ya que dispone de su propio método para ello. f (x) = w · x + b Su transformación a aprendizaje semisupervisado se convierte, generalmente, en un comportamiento transductivo, lo que posibilita el máximo refinamiento en la definición del clasificador. Teniendo en cuenta que la clasificación de páginas web es, generalmente, un problema multiclase, y que el número de documentos etiquetados del que se dispone, comparado con las dimensiones de la Web, es muy reducido, el problema se convierte de forma natural en un problema multiclase y semisupervisado. Por ello, y debido a su naturaleza binaria y supervisada, es necesaria una adaptación de la técnica SVM clásica. Existen diversos estudios referentes tanto a SVM multiclase como a SVM semisupervisado, pero apenas se ha investigado en la unión de ambos casos. Frente a una aproximación directa, basada en un problema de optimización complejo, este artı́culo propone y evalúa diferentes aproximaciones para la implementación de un método de SVM multiclase y semisupervisado, basándose en la combinación de clasificadores. En la sección 2 se explican los avances obtenidos en los últimos años en la clasificación mediante SVM, tanto para aprendizaje semisupervisado como para taxonomı́as multicla- Figura 1: Ejemplo de maximización del margen con SVM, donde la lı́nea más gruesa serı́a la escogida por el sistema. La optimización de esta función supondrı́a tener en cuenta todos los valores posibles para w y b, para después quedarse con aquéllos que maximicen los márgenes. Esto resulta muy difı́cil de optimizar, por lo que en la práctica se utiliza la siguiente función de optimización equivalente (ver Figura 2): l X 1 ξid mı́n ||w||2 + C 2 i=1 Sujeto a: yi (w · xi + b) ≥ 1 − ξi , ξi ≥ 0 64 Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web Sujeto a: donde C es el parámetro de penalización y ξi es la distancia entre el hiperplano y el documento i. wyi · xi + byi ≥ wm · xi + bm + 2 − ξim , ξim ≥ 0 Otras técnicas para la aproximación a SVM multiclase de k clases se han basado en la combinación de clasificadores binarios (Hsu y Lin, 2002). Estas técnicas descomponen el problema multiclase en pequeños problemas binarios, aplicando después diferentes funciones de decisión para unirlos. Las técnicas más conocidas para clasificación mediante combinación de problemas binarios son las siguientes: one-against-all descompone un problema multiclase con k clases en otros tantos problemas binarios, en los cuales cada una de clases se enfrenta al resto. Ası́, se construyen k clasificadores que definen otros tantos hiperplanos que separan la clase i de los k-1 restantes. Como función de decisión, a cada nuevo documento se le asigna aquella clase sobre la que su clasificador maximice el margen: Figura 2: Representación gráfica de la función de clasificación de SVM. De esta manera únicamente se resuelven problemas linealmente separables, por lo que en muchos casos se requiere de la utilización de una función de kernel para la redimensión del espacio. Ası́, el nuevo espacio obtenido resultará linealmente separable. Posteriormente, la redimensión se deshace, de modo que el hiperplano encontrado será transformado al espacio original, constituyendo la función de clasificación. Es importante destacar que esta función únicamente puede resolver problemas binarios y de forma supervisada. 2.1. Ĉi = arg máx (wi x + bi ) i=1,...,k one-against-one descompone el probleproblemas bima de k clases en k(k−1) 2 narios, donde se crean todos los posibles enfrentamientos uno a uno entre clases. Ası́, se obtiene un hiperplano para cada uno de estos problemas binarios. Posteriormente, se somete cada nuevo documento a todos estos clasificadores, y se añade un voto a la clase ganadora para cada caso, resultando como clase propuesta la que más votos suma. SVM multiclase Debido a la naturaleza dicotómica de SVM, surgió la necesidad de implementar nuevos métodos que pudieran resolver problemas multiclase, en los que la taxonomı́a está compuesta por más de dos clases. Como aproximación directa, (Weston y Watkins, 1999) proponen una modificación de la función de optimización que tiene en cuenta todas las clases, generalizando la función de optimización binaria para el número deseado k de clases: mı́n 2.2. Aprendizaje semisupervisado para SVM (S3 VM) Las técnicas de aprendizaje semisupervisado se diferencian en que, además de los documentos previamente etiquetados, se utilizan documentos no etiquetados para la fase de entrenamiento (Joachims, 1999) (ver Figura 3). Ası́, las predicciones del propio sistema sobre los documentos no etiquetados sirven, a su vez, para seguir alimentando el sistema de aprendizaje. Las SVM semisupervisadas se conocen también por sus iniciales S3 VM. En el caso de SVM, su adaptación al aprendizaje semisupervisado supone a priori un gran coste k l X X 1 X ||wm ||2 + C ξim 2 m=1 i=1 m6=y i 65 Arkaitz Zubiaga, Víctor Fresno, Raquel Martínez computacional, ya que la función resultante no es convexa, por lo que es mucho más complicada la optimización en busca del mı́nimo. Para relajar el cálculo de esta función se suelen utilizar técnicas de optimización convexa (Xu et al., 2007), donde la obtención del mı́nimo para la función resultante es mucho más sencilla. No obstante, casi todo el trabajo existente en la literatura relativa a este aspecto ha sido para clasificaciones binarias, por lo que no se ha profundizado en el estudio sobre su aplicación a entornos multiclase. mı́n +C y máx{0, 1 − (βj j − βji )}2 j=1 i6=yj donde β representa el producto entre un vector de variables y una matriz de kernel definidas por el autor. Esta función de optimización, sin embargo, puede resultar muy costosa, debido a la cantidad de variables que se deben tener en cuenta en el proceso de minimización de la misma, lo que hace interesante el problema de encontrar otros enfoques a S3 VM multiclase. Por otro lado, algunos trabajos han empleado otros enfoques para la consecución de una técnica S3 VM multiclase. (Qi et al., 2004) utilizan Fuzzy C-Means (FCM) para predecir la clase a la que pertenecen los documentos no etiquetados, tras lo cual utilizan SVM supervisado para aprender con la nueva colección ampliada, y clasifican el resto de documentos. (Xu y Schuurmans, 2005) utilizan una aproximación basada en clustering para la predicción de documentos no etiquetados, para posteriormente entrenar un clasificador SVM. (Chapelle et al., 2006), por último, presentan un método S3 VM multiclase basado en Continuation Method, y trasladan las técnicas basadas en combinación de binarios, one-against-all y one-against-one, al entorno semisupervisado. Aplican estas técnicas sobre colecciones de noticias, para las que obtienen unos resultados muy bajos. No obstante, estas técnicas nunca han sido trasladadas a la clasificación de páginas web. Figura 3: SVM vs S3 VM, donde los documentos etiquetados están representados por +/y los no etiquetados por puntos. 2.3. l X X h 1X T β i K −1 β i 2 i=1 S3 VM multiclase En los problemas donde la taxonomı́a dispone de más de dos categorı́as y el número de documentos previamente etiquetados es muy pequeño, se precisa la combinación de las dos caracterı́sticas anteriormente expuestas, lo que supone un método de S3 VM multiclase. Los problemas reales de clasificación de páginas web suelen cumplir con estas caracterı́sticas, ya que el número de categorı́as suele ser mayor que dos, y la pequeña colección de documentos etiquetados de la que se dispone normalmente implica la necesidad de utilizar documentos no clasificados en la fase de entrenamiento. Actualmente, son pocos los trabajos que se han centrado en la transformación de SVM a semisupervisado y multiclase. Como aproximación directa, se encuentra la propuesta de (Yajima y Kuo, 2006), con una técnica que traslada la función multiclase directa al entorno semisupervisado. La función de optimización resultante es la siguiente: 3. Alternativas propuestas para S3 VM multiclase Ante la carencia de estudios comparativos sobre métodos de S3 VM multiclase, nuestro objetivo es el de proponer y comparar diversas técnicas aplicables a este entorno, basándose en técnicas ya utilizadas para problemas supervisados multiclase y semisupervisados binarios. En cuanto a la utilización de documentos no etiquetados en fase de aprendizaje para SVM, (Joachims, 1998) presenta un estudio en el que se muestra una gran mejora cuando éstos son considerados para problemas binarios. No obstante, no se ha evaluado su apor66 Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web tación en problemas multiclase, cuando las predicciones sobre un número mayor de clases pueden aumentar el error de forma considerable, perjudicando ası́ a la fase de aprendizaje. Realizamos dos tipos de propuestas alternativas a la aproximación directa para S3 VM multiclase. Por una parte, proponemos la utilización de técnicas ya empleadas en entornos supervisados, aunque sin un profundo análisis, y basados en la combinación de clasificadores binarios semisupervisados: ser utilizada tanto para aprendizaje supervisado como para semisupervisado. En ella se definen 2n−1 − 1 clasificadores, correspondientes a todos los enfrentamientos posibles entre las clases, teniendo en cuenta que todas las clases deben caer en uno u otro lado de la clasificación. Por ejemplo, para un problema de cuatro clases, se generarán los clasificadores 1 vs 2-3-4, 1-2 vs 3-4, 1-2-3 vs 4, 1-3 vs 2-4, 1-4 vs 2-3, 1-2-4 vs 3 y 1-34 vs 2. Cada nuevo documento recibido en la fase de clasificación se someterá a cada uno de los clasificadores generados, sumando, como voto, el valor del margen obtenido en cada caso para las clases en el lado positivo. Una vez realizado esto, se procede a la fase de predicción, en la que se asignará la clase para la que mayor votación ha obtenido cada documento. Aunque esta aproximación puede ser muy costosa para grandes taxonomı́as, ya que el número de clasificadores aumentarı́a de forma exponencial, se podrı́a esperar un buen rendimiento para un número reducido de clases. one-against-all-S3 VM y one-againstone-S3 VM son propuestas basadas en la combinación de clasificadores binarios semisupervisados, vistos en la sección 2.1, que aunque se han utilizado en colecciones supervisadas, apenas han sido aplicadas y estudiadas sobre colecciones con documentos no etiquetados. Cabe destacar que el enfoque one-against-oneS3 VM plantea un problema intrı́nseco de ruido en la fase de entrenamiento con los documentos no etiquetados, ya que cada clasificador para un par de categorı́as únicamente debe ser alimentado por documentos que le correspondan, y el problema radica en la imposibilidad de excluir aquellos ejemplos no etiquetados que no deberı́an incluirse (Chapelle et al., 2006). 4. Diseño de la experimentación Para la realización de la experimentación se ha procedido a la implementación de los algoritmos descritos en el apartado anterior, y su ejecución sobre las colecciones de datos escogidas. Todos los documentos de las colecciones utilizadas están etiquetados, por lo que cada una de ellas se ha dividido en: Por otra parte, introducimos dos nuevas técnicas para el desarrollo de un sistema de clasificación semisupervisado multiclase basado en SVM: 2-steps-SVM : Hemos denominado ası́ a la técnica que se basa en la aproximación supervisada multiclase explicada en la sección 2.1. Este método trabaja, en el primer paso, sobre la colección de entrenamiento, aprendiendo con los documentos etiquetados y prediciendo los no etiquetados; a posteriori, se etiquetan estos últimos según las predicciones obtenidas. Como segundo paso, se realiza la clasificación habitual para este método, ya que ahora la colección se ha convertido en supervisada, con todos los ejemplos de entrenamiento etiquetados. una colección de entrenamiento, que sirve para que el clasificador aprenda, en el que no se considerarán las categorı́as de algunos documentos, para ası́ tener una colección semisupervisada, y otra de test, que sirva para que el sistema cree las predicciones y se pueda evaluar su rendimiento. A continuación se explican con más detalle las caracterı́sticas de la experimentación llevada a cabo. 4.1. all-against-all-S3 VM : Además de las anteriores, en este trabajo se presenta una nueva propuesta de combinación de clasificadores binarios, que hemos denominado all-against-all-S3 VM, y que podrı́a Colecciones de datos Para esta experimentación se han utilizado colecciones de páginas web de referencia, que ya han sido utilizadas anteriormente para problemas de clasificación automática: 67 Arkaitz Zubiaga, Víctor Fresno, Raquel Martínez BankSearch (Sinka y Corne, 2002), compuesta por 10.000 páginas web sobre 10 clases, de muy diversos temas: bancos comerciales, construcción, agencias aseguradoras, java, C, visual basic, astronomı́a, biologı́a, fútbol y motociclismo. 4.000 ejemplos han sido asignados a la colección de entrenamiento, y los 6.000 restantes a la de test. correspondientes métodos para el comportamiento 2-steps-SVM supervisado y las técnicas one-against-all-S3 VM, one-against-oneS3 VM y all-against-all-S3 VM semisupervisadas. Finalmente, además de los algoritmos comentados, se ha simplificado el algoritmo 2steps-SVM a un solo paso, 1-step-SVM, donde utilizando únicamente un clasificador supervisado multiclase se entrena con los ejemplos etiquetados y se predicen los ejemplos de test, ignorando por tanto los ejemplos no etiquetados. Este método sirve para evaluar la aportación de los documentos no etiquetados en el aprendizaje. WebKB 1 , formada por 4.518 documentos extraı́dos de 4 sitios universitarios y clasificados sobre 7 clases (estudiante, facultad, personal, departamento, curso, proyecto y miscelanea). La clase miscelanea se ha eliminado de la colección debido a la ambigüedad, resultando 6 categorı́as. De todos los ejemplos que componen la colección, 2.000 se han asignado al entrenamiento y 2.518 al de test. 4.3. La medida de evaluación escogida para el rendimiento de los algoritmos propuestos ha sido el ”accuracy”, ya que es la que suele utilizarse en el área de la clasificación de textos, sobre todo cuando el problema a tratar es multiclase. El ”accuracy” mide el porcentaje de predicciones correctas sobre el total de documentos testeados. Se han considerado de la misma manera los aciertos sobre cualquiera de las clases, sin que ninguna de ellas tenga una mayor importancia respecto a las demás, por lo que no existe ponderación alguna en la evaluación. Yahoo! Science (Tan et al., 2002), que tiene 788 documentos cientı́ficos, clasificados sobre 6 ámbitos diferentes de la ciencia (agricultura, biologı́a, ciencias terrestres, matemáticas, quı́mica y otros). Se han definido 200 documentos para el entrenamiento, y 588 para el test. Desde la colección de entrenamiento, para cada caso, se han creado diferentes versiones, entre las que varı́a el número de documentos etiquetados, dejando el resto como no etiquetados, pudiendo probar ası́ las diferentes aproximaciones semisupervisadas. Para la representación vectorial de los documentos que componen cada colección, se han utilizado los valores tf-idf de los unitérminos encontrados en los textos, excluyendo los de mayor y menor frecuencia. Los unitérminos resultantes han sido los que han definido las dimensiones del espacio vectorial. 4.2. Medidas de evaluación 5. Análisis de los resultados En las figuras 4, 5 y 6 se muestran los resultados obtenidos durante la experimentación con las colecciones BankSearch, WebKB y Yahoo! Science, respectivamente. Estos resultados se presentan en forma de gráfica, en función del tamaño de la muestra etiquetada. Para cada una de las muestras se realizaron 9 ejecuciones. El valor que se representa en las gráficas es la media de todas las ejecuciones realizadas. Los resultados obtenidos pueden resumirse en los siguientes puntos: Implementación de los métodos Para la implementación de los diferentes métodos de clasificación descritos en la sección 3, se requiere un clasificador semisupervisado binario y otro supervisado multiclase, para después combinarlos. Para el primer caso, se ha escogido SVMlight2 , y para el segundo, su derivado SVMmulticlass. Basándose en ambos algoritmos, se han implementado los 1 http://www.cs.cmu.edu/afs/cs.cmu.edu/project/theo20/www/data/ 2 http://svmlight.joachims.org 68 En todos los casos el mejor comportamiento se obtiene para uno de los algoritmos basados en clasificadores multiclase supervisados, bien sea el 1-step-SVM o el 2-steps-SVM ; incluso en los casos con menos documentos etiquetados, estos métodos destacan sobre los basados en clasificadores semisupervisados binarios. Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web Figura 4: Resultados para BankSearch. Figura 6: Resultados para Yahoo! Science. colecciones BankSearch y Yahoo! Science, pero notablemente superiores para WebKB, donde las clases son más homogeneas. En este caso es donde mejor resulta ignorar los documentos no etiquetados, mediante el método 1-step-SVM, un método más sencillo y menos costoso computacionalmente que 2-steps-SVM. Para todas las colecciones, según se aumenta el número de documentos etiquetados, se mantiene el ranking obtenido por los algoritmos. 6. Conclusiones En este trabajo se ha realizado un estudio comparativo de clasificación multiclase semisupervisada de páginas web mediante SVM. Se han introducido dos nuevas técnicas para S3 VM multiclase, que hemos llamado 2-stepsSVM y all-against-all-S3 VM. El primero, 2steps-SVM, ha obtenido los mejores resultados en dos de las tres colecciones. Además, se han aplicado las técnicas one-against-allS3 VM y one-against-one-S3 VM sobre clasificación semisupervisada, con unos resultados considerables para la primera, pero inferiores para la segunda. Entre los algoritmos que combinan clasificadores binarios, all-against-all-S3 VM ha demostrado la mayor efectividad, aunque el gran número de clasificadores a considerar hace que su coste computacional aumente, por lo que su mejora en cuanto a eficiencia resultarı́a un interesante avance. A su vez, al igual que (Chapelle et al., 2006) muestran en sus resultados sobre colec- Figura 5: Resultados para WebKB. De las tres técnicas semisupervisadas comparadas, destaca la propuesta all-against-all-S3 VM para las colecciones BankSearch y WebKB, ligeramente superior al de one-against-allS3 VM, y muy superior al de one-againstone-S3 VM. Únicamente one-against-allS3 VM, en el caso de la colección Yahoo! Search, es algo superior a all-against-allS3 VM. La técnica one-against-one-S3 VM demuestra que el ruido que se habı́a previsto existe, y que, por ello, la calidad de los resultados obtenidos es baja. El método 1-step-SVM, que ignora los documentos no etiquetados para la fase de aprendizaje, muestra unos resultados similares a los de 2-steps-SVM para las 69 Arkaitz Zubiaga, Víctor Fresno, Raquel Martínez ciones de noticias, los resultados sobre páginas web son también bajos, por lo que se confirma la baja efectividad de one-against-allS3 VM y one-against-one-S3 VM para problemas semisupervisados multiclase. Por otro lado, se ha estudiado la influencia de la no inclusión de documentos no etiquetados en la fase de aprendizaje, aplicada mediante la técnica 1-step-SVM, y se ha mostrado que en algunas ocasiones puede influir de forma positiva. Ignorar los documentos no etiquetados para aprender ha resultado mejor cuando las clases son más homogéneas. Para las colecciones más heterogéneas, por otro lado, se han obtenido unos resultados parejos tanto considerando como ignorando los documentos no etiquetados. Estos resultados hacen pensar que para un problema multiclase y semisupervisado puede ser más interesante no utilizar datos no etiquetados, ya que los resultados son similares y el coste computacional es menor. Por último, los resultados obtenidos en este trabajo complementan el estudio presentado por (Joachims, 1999), donde se muestra la superioridad de S3 VM respecto a SVM para problemas binarios. En el caso de un problema multiclase y semisupervisado de páginas web, la inclusión de documentos no etiquetados para problemas multiclase basados en SVM no resulta interesante para las colecciones testeadas, ya que una técnica supervisada obtiene, como mı́nimo, la misma efectividad para este tipo de entornos. Como trabajo futuro, quedan por comparar los resultados respecto al algoritmo semisupervisado multiclase nativo. T. Joachims. 1999. Transductive Inference for Text Classification Using Support Vector Machines. Proceedings of ICML99, 16th International Conference on Machine Learning. Bibliografı́a Z. Xu, R. Jin, J. Zhu, I. King y M. R. Lyu. 2007. Efficient Convex Optimization for Transductive Support Vector Machine. Advances in Neural Information Processing Systems. T. Mitchell. 1997. Machine Learning. McGraw Hill. H.-N. Qi, J.-G. Yang, Y.-W. Zhong y C. Deng 2004. Multi-class SVM Based Remote Sensing Image Classification and its Semisupervised Improvement Scheme. Proceedings of the 3rd ICMLC. X. Qi y B.D. Davison. 2007. Web Page Classification: Features and Algorithms. Informe Técnico LU-CSE-07-010. F. Sebastiani. 2002. Machine Learning in Automated Text Categorization ACM Computing Surveys, pp. 1-47. M.P. Sinka y D.W. Corne. 2002. A New Benchmark Dataset for Web Document Clustering. Soft Computing Systems. C.M. Tan, Y.F. Wang y C.D. Lee. 2002. The Use of Bigrams to Enhance Text Categorization. Information Processing and Management. J. Weston y C. Watkins. 1999. Multi-class Support Vector Machines. Proceedings of ESAAN, the European Symposium on Artificial Neural Networks. L. Xu y D. Schuurmans. 2005. Unsupervised and Semi-supervised Multiclass Support Vector Machines Proceedings of AAAI’05, the 20th National Conference on Artificial Intelligence. O. Chapelle, M. Chi y A. Zien 2006. A Continuation Method for Semi-supervised SVMs. Proceedings of ICML’06, the 23rd International Conference on Machine Learning. Y. Yajima y T.-F. Kuo. 2006. Optimization Approaches for Semi-Supervised Multiclass Classification. Proceedings of ICDMW’06, the 6th International Conference on Data Mining. C.-H. Hsu y C.-J. Lin. 2002. A Comparison of Methods for Multiclass Support Vector Machines. IEEE Transactions on Neural Networks. T. Joachims. 1998. Text Categorization with Support Vector Machines: Learning with many Relevant Features. Proceedings of ECML98, 10th European Conference on Machine Learning. 70 Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 71-78 recibido 14-01-09, aceptado 02-03-09 Using a Generative Lexicon Resource to Compute Bridging Anaphora in Italian.∗ Utilización de un recurso de léxico generativo para calcular Anáfora asociativas en Italiano. Tommaso Caselli ILC- CNR and Dip. Linguistica “T.Bolelli”, Università degli Studi di Pisa Via Moruzzi, 1 56124 Pisa, Italy [email protected] Resumen: Este artı́culo presenta un trabajo preliminar sobre el uso de un recurso léxico basado en la teorı́a del léxico generativo para resolver las anáforas asociativas en italiano. Los resultados obtenidos, a pesar de no ser demasiado satisfactorios, parecen respaldar el uso de un recurso de este tipo respecto a los recursos de tipo WordNet debido al mayor número de anáforas asociativas que puede tratar. Palabras clave: léxico generativo, resoluccion de anáfora, bridging, anáforas asociativas Abstract: This article reports on a preliminary work on the use of a Generative Lexicon based lexical resource to resolve bridging anaphors in Italian. The results obtained, though not very satisfying, seem to support the use of such a resource with respect to WordNet-like ones due to the wider range of bridging anaphors which can be treated. Keywords: generative lexicon, anaphora resolution, bridging 1 Introduction Anaphora resolution is essential to capture the knowledge encoded in text. Bridging anaphora are a very challenging phenomenon because they are a “type of indirect textual reference whereby a new referent is introduced as an anaphoric not of but via the referent of an antecedent expression” (Kleiber, 1999, 339), as in the following example (bridging NPs are in bold): (1) Maria ha comprato una macchina nuova, ma il motore si è rotto dopo due giorni. Maria bought a new car, but the engine broke down two days later. Bridging anaphors are constrained to a set of semantic and pragmatic conditions. The aim of this paper is to present a preliminary study on the use of a Generative Lexicon based lexical resource (SIMPLE) as a source of these constraints to automatically resolve this kind of anaphoric definites. In order to develop the system, we have preliminary ∗ A preliminary version of this work has been presented at the CBA Workshop at the Universitat de Barcelona, Barcelona, 13-15 November 2008. The author wants to thank the organizers and participants for the useful comments and discussion. ISSN 1135-5948 conducted a corpus study on the identification and classification of bridging anaphors in Italian. The corpus study has been grounded on a set of theoretical statements describing the phenomenon of bridging, providing empirical evidences of their validity and also further information on their organization. The paper is organized as follows: in section 2, we will present the semantic and pragmatic contraints underlying the phenomenon of bridging anaphora. The corpus study and its results are illustrated in section 3. We will then describe how the lexical resource is structured and what levels of semantic information encoded in it are the most relevant to accomplish the task of resolving bridging anaphors in section 4. Finally in section 5, we will describe the results obtained from the use of SIMPLE and compare its perfomance with that of a WordNet-based resource, namely ItalWordNet, and present our concluding remarks and observations in section 6. 2 Theoretical background A trend in linguistic theories, which has counterparts in computational frameworks, tends to emphasize the idea that Full Definite Noun Phrases (FDNPs henceforth) are a matter of the global discourse focus, i.e. © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural Tommaso Caselli • use your informational resources as little as possible (Effort Condition); they are used to retrieve a referent which is no longer accessible or to construct a conceptual representation which uniquely identifies a referent. On the contrary, empirical studies provided evidence in favor of Sidner (1979)’s hypothesis that bridging FDNPs are different from other occurrences of anaphoric FDNPs, since, in the process of identification of their antecedents, they are more sensitive to the local focus. In addition to this, bridging FDNPs trigger an inferential presupposition of the kind: the[N 1]R[N 2] (1) • make as few assumptions as possible (Plausibility Condition). The Effort Condition has to do with the mental capacity the interpreter needs to resort to in order to construct a “bridge”. In particular, it states that the less time consuming inference to retrieve the right anchor should be preferred over the others. The Plausibility Condition, on the other hand, has to do with the admissibility of the constructed bridges. It is a simple consistency condition, with relevance as a side effect. The Plausibility Condition plays a major role in selecting the most plausible reading among those which passed the Effort Condition, helping us to determine the bridge and avoid ambiguity. Obviously, if the Effort Condition selects only one reading, this is considered the most plausible by definition. The inference the hearer has to perform in order to bridge the gap from what s/he knows to the intended antecedent, bears on the possible relation(s) between the referent of the antecedent and the referent of the anaphor. The existence of such a relation is necessary for the speaker to create the bridge and for the hearer to resolve it. Most classifications of bridging anaphoras are all based on this idea (Hawkins, 1978) (Sidner, 1979). The relations that link the anaphor to the antecedent can be of various types, but they can be reduced to three pragma-cognitive dimensions: a lexical semantic dimension, a cotextual, or textual, dimension and a contextual, or extralinguistic, dimension. These elements represent the theoretical background which we have used both in the corpus-study and in the development of the automatic procedure to resolve bridging anaphors. In particular, the identification of the R relation between the bridging definite and its anchor has been used to identify the various classes of bridging anaphors, and the Effort and Plausibility conditions have been exploited to restrict the type and number of NPs which could be identified as anchors. where N1 represents the FDNP, i.e. the bridging anaphor, R is the inferential relation or bridge the interpreter has to perform in order to interpret correctly its occurrence1 , and N2 is the antecedent or anchor. Applying the formula in 1 to the example in 1 we obtain the following paraphrasis “the [engine]N 1 is a part ofR [a car]N 2 ” which justifies the occurrence of the FDNP. Kleiber (1999) identifies some semantic restrictions on what kinds of FDNPs can enter a bridging relation. Drawing on the notion of functional nouns2 , he identifies two very general, language-independent factors which are at work in the mechanism of the bridging relation between the referents involved: a condition of alienation and the principle of ontological congruence. A bridging description can be conceived of as a Functional Concept of type 2 (FC2), with an implicit argument. This type of semantic definite NP introduces the referent by means of the sole sortal predicate N, without semantic subordination to another individual. In other words, the head noun looks as semantically autonomous or alienated. Next to these semantic restrictions, a couple of pragmatic constraints can be identified. We propose to use the following pragmatic restrictions on inferencing: an Effort Condition and a Plausibility Condition as suggested by Krahmer and Piwek (2000). The two constraints can be represented by the following maxims: 1 The R relation can be thought as deriving from Chierchia (1995)’s compositional semantics of FDNPs, according to which “the + N” denotes a noun N which is related in an anaphorically undetermined way B to an antecedent u. 2 By functional nouns we intend NPs denoting a non-ambiguous interpretation, or a functional concept (FC), as proposed by Lobner (1985). 3 Bridging Anaphora in Italian: a corpus study In order to verify the realizations of bridging anaphors in Italian, we have conducted a corpus study on 17 randomly chosen arti72 Using a Generative Lexicon Resource to Compute Bridging Anaphora in Italian cles from the Italian financial newspaper “il Sole-24 Ore”, a workpackage of the SI-TAL Project, the syntactic-semantic Treebank of Italian (Montemagni et al., 2003). The texts considered contain a total number of 1412 full definite noun phrases (FDNPs) of the form “definite article + (possessive) + N”, which represent 31.54% of all the occurrences of FDNPs in the corpus. Each newspaper article was first read entirely, and only after it was divided into segments of five sentence windows which is an arbitrary strategy to give an account of the local focus of the text i.e. the most probable place to look for anchors for bridging FDNPs. In the classification exercise we have used an operational device such as processing requirements3 since when a FDNP is encountered in a discourse can be reduced to one of these four cases: FDNPs Classes First Mention Possessives Direct Anaphora Bridging Idiom Doubt Total Figures 833 (58.61%) 36 (2.54%) 170 (12.03%) 299 (21.17%) 25 (1.62%) 49 (3.47%) 1412 (100%) Table 1: Classes of FDNPs. thus suggesting that bridging is a more productive cohesive strategy in Italian with respect to other languages, i.e. English (Vieira and Poesio, 2000). Five subclasses of bridging anaphors have been identified, in particular: • Lexical: (199/299 - 39.79%) those instances of bridging descriptions whose link with the antecedent is clearly based on lexical semantics, e.g.: la pistola l’arma (the gun – the weapon); • it is used to pick up an entity mentioned before in the text, which, in our experiment, could be either directly or indirectly realized; • Event: (18/299 - 6.02%) the antecedent is represented by a verb or a VP; it contains what Clark categorizes as indirect reference by necessary roles and optional roles, and Strand’s event-argument relations, e.g.: fece esplodere - le macerie (exploded – the debris); • it is not mentioned before, but its interpretation depends on , is based on, or is related in some way to an entity already present in the discourse (directly or indirectly realized); • it is not mentioned before and is not related to any previous mentioned entity, but it refers to something which is part of the common shared knowledge of the writer and reader; • Rhetorical Relation5 : (27/299 - 9.03%) it includes bridging anaphors whose antecedent can be identified through discourse relations, e.g.: l’elezione – i componenti (the election – the members); • it is self-explanatory or it is given together with its own identification. • Discourse Topic: (26/299 - 8.69%) this kind of bridging is related on implicit way to the main discourse topic of a text, rather than to a specific NP or VP; These four types of FDNPs use reflect the classes of Direct Anaphora, Bridging and First Mention, respectively. The same operational device i.e. processing requirements, was used for the analysis and classification of bridging anaphors. The classification task has led to the identification of 6 main classes of FDNPs (Table 1)4 . One of the main interesting results deriving from the classification in 1 is represented by the class of Bridging which represents the 63.88% (299/469) of all anaphoric FDNPs, • Inferential: (109/29 - 36.45%) all cases of bridging based on complex inferential reasoning which entails use of encyclopedic, background or common shared knowledge, e.g.: la Cina – Pechino (China – Bejing). As the classes show, different sources of information (lexical, encyclopedic and discourse structure) have important roles for 5 It contains Clark (1997)’s relations of reasons, causes and consequences, part of Vieira and Poesio (2000)’s inferential bridging and Strand (1997)’s argument-event. 3 See alsoVieira and Poesio (2000). 4 For detailed figures and comments on the corpus study readers are referred to Caselli (2007). 73 Tommaso Caselli the resolution of these kinds of anaphoric relations. The results also suggest a preference order for the different sources of bridging anaphora: lexical semantic relations are preferred over the use of common sense inferencing and background knowledge i.e. pragmatics, which is preferred over discourse structure. Nevertheless, as it emerged from the corpus study, more than the 45% of the R relations needed to resolve bridging anaphors are based on commonsense knowledge (the Inferential class) and on general discourse structure (the Rhetorical Relation class). Different strategies have been proposed to automatically resolve bridging anaphors. Most of them rely on the use of lexical resources like WordNet or WordNet-like. However, the results obtained are not very satisfactory for two main reasons: on the one hand, lexical resources have limits due to the fact that they represent closed representations of natural language and could present mistakes and missing information due to their human-based nature, and, on the other hand, the theoretical background behind their construction is unable to deal with lots of instances of R relations, as we have called them, which govern the ways in which bridging anaphors can be retrieved and inferred by the interpreters. In this work we propose to use a lexical resource as well, namely PAROLE/SIMPLE/CLIPS (henceforth SIMPLE) (Ruimy et al., 2003), but the novelty of our proposal does not rely in the use of a lexical resource per sè, but in the use of a resource grounded on a robust lexical theory like that of Generative Lexicon (Pustejovsky, 1995). Generative Lexicon, and its developments, represents a device to model and deal both with classical lexical semantic relations, like merological relations, synonymy and others, and also with encyclopedic knowledge and even some kinds of discourse relations. The use of this lexical theory to retrieve the R relation responsible for the building of the bridge between the anaphoric element and its anchor will broaden the view of bridging anaphora resolution as a general problem of how much of background knowledge can be coded as part of the meaning of linguistic constituents. In the next sections, after having introduced SIMPLE, we will present the results of the performance of a semi-authomatic algorithm for resolving bridging anaphors which uses SIMPLE as its knowledge base. 4 SIMPLE: a Generative Lexicon Resource for Italian The SIMPLE lexicon6 is a four-layered7 computational lexicon developed under two EUsponsored project (PAROLE and SIMPLE) and extended under the Italian government founded project CLIPS. It represents the largest computational lexical knowledge base of Italian language, containing over 45 thousand lemmas and more that 57 thousand word senses, or semantic units. At the semantic layer of information, lexical units are structured in terms of a semantic type system and are characterized and interconnected by means of a rich set of semantic features and relations. Combining both topdown and bottom-up approaches, the SIMPLE ontology has been elaborated in such a way as to permit an exhaustive characterization of different levels of complexity of lexical meanings. The SIMPLE type system reflects the G.L. assumption that lexical items are multidimensional entities which present various degrees of internal complexity and thus call for a lexical semantic description able to account for different ranges of meaning components. Accordingly, a semantic type is not simply a label to be associated to a word meaning, it is rather the repository of a structured set of semantic information. Therefore, the membership of a word sense in a semantic type inherently triggers the instantiation of a rich bundle of semantic features and relations that represent the type-defining information that intrinsically characterizes the ontological type. The core of the SIMPLE semantic relations rely on the Qualia Structure, which is one of the four representational level proposed by the G.L. framework. Qualia structure consists of four roles (Agentive, Telic, Formal and Constitutive) encoding the multifaceted nature of word meaning. Qualia relations enable capturing orthogonal relations existing between semantic units, regardless of their ontological classification. Querying the whole set of semantic relations in which a single keyword is involved throughout the 6 http://www.ilc.cnr.it/clips/CLIPS ENGLISH.htm Phonological, morphological, syntactic and semantic levels. 7 74 Using a Generative Lexicon Resource to Compute Bridging Anaphora in Italian (7) lexicon allows retrieving and extracting a set of semantic units belonging to different semantic types forming a semantic network. Moreover, qualia relations enable to establish a connection between a word sense and a number of events or entities strictly related to its meaning and to define the role of those events/entities in the lexical semantics of the word itself. In SIMPLE a revision of the original qualia structure was undertaken which led to the design of the Extended Qualia Structure whereby each of the four roles subsumes a set of semantic relations. Sixty extended qualia relations were therefore created, which allow to model the componential aspect of a word’s meaning and to structure its relationships to other lexical units, on both the paradigmatic and syntagmatic axes. However, the semantic relations are not exhausted by the (extended) qualia structure. Each semantic unit has three more relations such as synonymy, derivation, which allows a further type of connection between lexical items, and regular polisemy. 4.1 The use of a G.L. approach allows us to claim that the R relations to resolve these cases of bridging are already encoded in the meanings of the lexical items themselves. Thus, for instance, in 3, the fact that a trial involves a convicted is formalized by exploiting a qualia relation between the two words, namely the constitutive “member of ”. In 7, the fact that if there is a vote, then there is an election (cause/consequence), can be formalized by exploiting the extended telic quale “purpose”. Moreover, bridging relations which take as anchor a verb (examples 4, 5 and 6) could as well be resolved by exploiting the extended qualia in SIMPLE. For instance, in 5, the FDNP the debris can be resolved by exploiting the extended agentive quale “result of”. It is quite trivial to remark that bridging relations classified as Lexical can be easily resolved as well by means of the qualia structure, including both classical lexical semantic relations and more fine-grained ones, like the one illustrated in 8, where the R relation can be expressed by the telic quale “is the activity of ”: Exploiting qualia relations to resolve bridging anaphors The core of our proposal is based on the idea that the qualia relations encoded in SIMPLE can be used to represent the R relations between a bridging element and its antecedent. To illustrate how to exploit qualia consider the examples from 2 to 7, all extracted from our corpus, which can only be resolved by making use of non-classical semantic relations; the anchor is in italics, the bridging element in bold and, in capital letters, the processing requirements (i.e. the R relations) needed to resolve the anaphoric link: (2) (8) l’attentato - i terroristi [the attack - the terrorists]; LEXICAL Before presenting the experimental data, another remark is necessary. The use of SIMPLE qualia relations has the further advantage of making explicit also what is the semantic relation which connects the bridging element to its antecedent, thus overcoming the shortcomings of machine learning approaches like Market, Nissim, and Modjeska (2003), which remain silent on this issue, i.e. do not specify what is the relation between the bridging anaphor and its antecedent. i prezzi – al consumatore [the prices – the customer]; INFERENTIAL (3) il processo – gli imputati [the trial – the convicted]; INFERENTIAL (4) essersi sparato – il suicidio [to shoot himself – the suicide]; EVENT (5) fatto esplodere – le macerie [exploded – the debris]; EVENT (6) condannare – il pubblico ministero [to condemn – the attorney]; EVENT il voto – l’elezione [the vote – the election] RHET. RELATION 5 Preliminary Experiments and Evaluation To evaluate the reliability of the resource we have conducted an experiment on a subset8 of 129 bridging anaphors from our corpus. We have developed a semi-automatic procedure to query the resource. The workflow is the following: we manually provided to the system both the bridging anaphor and its an8 All bridging relations which involved either as anchors or anaphoric elements named entities have been eliminated (144/299 - 48.16%), as well as those for the Discourse Topic class. 75 Tommaso Caselli tecedent. The system, then, looks for a semantic relation between the two, either by looking for a direct connection between the two words, i.e. semantic units, or by looking for a common semantic type between the two entities. If more than a semantic relation between the two words is identified, the one with the shortest lexical distance (i.e. the one with the shortest semantic path) is selected. In case that more than a semantic relations with same lexical distance between the anaphor and the anchor is identify, both relations are considered as valid. This choice is a device to reflect the fact that even human beings when resolving bridging anaphors may agree on the anchor, but disagree on the type of relation, i.e. allow more than one relation. The maximum number of arcs allowed has been set to two. This is due to the fact that a wider range would result into inappropriate relations since the two semantic units may be linked at a very abstract level. In order to verify our claim that a G.L. based resource should perform better in resolving bridging anaphors respect to WordNet-like ones, we have performed a compartive evaluation (by applying the same procedure) using ItalWordNet (IWN). In Table 2 we report the overall results of the two resources in terms of matching an existing semantic relation for the 129 couples of bridging anaphors and anchor, which corresponds to the number of possible bridging anaphors which could be resolved using these resources. The results are not very good, since only 22 Lexical Resource SIMPLE IWN be retrieved by using IWN, only 11 of them cannot be identified by SIMPLE and this is due to missing information in the resource (5 over 11 couples cannot be identified because the proper semantic relations have not been introduced by the compilers of the resource) and not to theoretical shortcomings of the resource itself. Moreover, 13 of the 22 relations identified by using SIMPLE are completely out of reach for IWN, since they correspond to extended qualia. Going into the details of the various subclasses of bridging relations the results are quite encouraging. What emerges is that the two resources can be thought as being specialized for the identification of particular subclasses of bridging anaphors. As the data in Table 3 show there is a relative high competition only for the subclass of Lexical bridging. The relative high performance of IWN in Inferential subclass is attributable to an extension of its original semantic relations as proposed by the EuroWordNet Project, of which IWN is a part. However, it is interesting to notice that all 5 Inferential bridging retrieved with IWN are identified by SIMPLE as well. The same observations hold for the class of Event as well. Finally, it is interesting to point out the fact that the subclasses of Rhetorical Relation and Inferential in SIMPLE are mainly resolved by two types of qualia (and their extensions) that is Constitutive and Telic. Subclass Lexical Inferential Rhet. Relation Event Bridging 22 (17.05%) 19 (14.72%) SIMPLE 11 (50%) 7 (31.82%) 2 (9.09%) 2 (9.09%) IWN 12 (63.2%) 5 (26.31%) 0 (0%) 2 (10.52%) Table 3: Subclasses of bridging matched. Table 2: Numbers of correctly matched bridging anaphors. 6 couples of anchor-bridging anaphor can be resolved by using SIMPLE, a figure which is not so bigger than those which can be resolved by using IWN. The very low results are essentially due to (unexpected) missing relations and lexical entries in the SIMPLE resource. The low values for IWN are due to the absence of the necessary semantic relations, as expected and in compliance with its theoretical background. It is also interesting to notice that of the 19 correct relations which can Conclusion The approach we have proposed is still a work-in progress and more refinements are needed. Of course a large-scale evaluation is compelling in order to provide further evidences of our proposal and a better evaluation of the SIMPLE lexicon. However, we would like to point out and emphasize some interesting aspects of this proposal: • the use of a G.L. based resource can be seen as a way of reducing the influence 76 Using a Generative Lexicon Resource to Compute Bridging Anaphora in Italian of being specialized in restricted sets of lexical relations. This could result in better resources with less mistakes and missing information and easier to be integrated in NLP algorithms. of extralinguistic knowledge; • bridging can be used as a way of discovering semantic relations among linguistic entities and can be used to improve both the creation and maintenance of linguistic resources like SIMPLE. In particular, G.L. pattern induction from a corpusbased study can improve the resource by adding missing relations; References Caselli, T. 2007. An annotation scheme for bridging anaphors and its evaluation. In Andrea Sansò, editor, Language Resources and Linguistic Theory, volume 59 of Materiali Linguistici. Franco Angeli, Milano, pages 149–166. • the problem of bridging anaphora resolution becomes part of a more general problem of identification of semantic relations between linguistic elements; Chierchia, G. 1995. Dynamics of Meaning: anaphora, presuppositions and the Theory of Grammar. University of Chicago Press, Chicago. • a resource with G.L. qualia relations encoded in it should not be compared with a world-knowledge database or similar (effort expensive and difficult) resources. G.L.-based relations are dynamic, in the sense that they allow to discover new relations between lexical items and can provide an account for the creative use of language; Clark, H. 1997. Bridging. In P.N. JohnsonLaird and P.C. Wason, editors, Thinking: Readings in Cognitive Science. Cambridge University Press, Cambridge and London. Hawkins, J.A. 1978. Definiteness and Indefiniteness. Croom Helm, London. • qualia relations can represent new features for machine learning approaches; considering an annotation task for anaphora resolution, it would be very useful to introduce a new attribute which expresses the qualia relation between the anchor and the anaphoric element, thus providing information to a learner to resolve also difficult (i.e. non strictly lexical) cases of bridging anaphors. Kleiber, G. 1999. Associative anaphora and part-whole relationship: the condition of alienation and the principle of ontological congruence. Journal of Pragmatics, 31:339–362. Krahmer, E. and P. Piwek. 2000. Varieties of Anaphora. Course Notes, ESSLLI00, Birmingham, August 11-23. Lobner, S. 1985. Definites. Journal of Semantics, 4:297–326. The results obtained are not very satisfying and seem to support criticisms to the use of lexical resources in tasks of anaphora resolutions. We agree on some of this criticism, but we would like to point out that the resolution of bridging anaphors is not a trivial task and the use of lexical resources like SIMPLE can represent a useful strategy for the development of robust algorithms for anaphora resolutions. As for SIMPLE an extended work of revision and correction of the various mistakes and missing elements is compelling in order to be used reliably. A further point which emerges from this work is represented by the observation that SIMPLE and IWN are not competitive resources, i.e. one being the extension of the other, but more complementary ones. The final proposal we suggest is a call for a new generation of lexical resources. Resources whose scope is that Market, K., M. Nissim, and N. Modjeska. 2003. Using the Web for nominal anaphora resolution. In EACL Workshop on the Computational Treatment of Anaphora. Montemagni, S., F. Barsotti, M. Battista, N. Calzolari, O. Corazzari, A. Lenci, V. Pirelli, A. Zampolli, F. Fanciulli, M. Massetani, R. Raffaelli, R. Basili, M. T. Pazienza, D. Saracino, F. Zanzotto, N. Mana, F. Pianesi, and R. Delmonte. 2003. The syntactic-semantic Treebank of Italian. An Overview. Linguistica Computazionale, Computational Linguistics in Pisa, special Issue, XVI-XVII:461–493. Pustejovsky, J. 1995. The Generative Lexicon. MIT Press, Cambridge, MA, USA. 77 Tommaso Caselli Ruimy, N., M. Monachini, E. Gola, A. Spanu, N. Calzolari, M.C. Del Fiorentino, M. Ulivieri, and S. Rossi. 2003. A computational semantic lexicon of Italian: SIMPLE. Linguistica Computazionale, Computational Linguistics in Pisa, special Issue, XVI-XVII:821–864. Sidner, C.L. 1979. Towards a computational theory of definite anaphora comprehension in English discourse. Ph.D. thesis, MIT. Strand, K. 1997. A taxonomy of Linking Relations. Manuscript. Vieira, R. and M. Poesio. 2000. An Empirically-Based System for Processing FDNPs. Computational Linguistics, 26(4):539–593. 78 Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 79-86 recibido 14-01-09, aceptado 02-03-09 Una Representación Basada en Lógica Borrosa para el Clustering de páginas web con Mapas Auto-Organizativos A fuzzy logic-based representation for web page clustering using self-organizing maps Alberto P. Garcı́a-Plaza, Vı́ctor Fresno, Raquel Martı́nez NLP & IR Group Universidad Nacional de Educación a Distancia C/Juan del Rosal, 16, E-28040 Madrid {alpgarcia, vfresno, raquel}@lsi.uned.es Resumen: En este trabajo se evalúa un modelo de representación de páginas web para clustering de documentos por medio de mapas autoorganizativos (SOM). Esta representación pretende reproducir o modelar en una primera aproximación la forma en que una persona observa una página web con la intención de saber si su contenido es o no de su interés. Para ello se aplican diferentes heurı́sticas por medio de una combinación borrosa de criterios. Los experimentos muestran un mejor comportamiento del modelo propuesto respecto a representaciones clásicas como TF, Bin-IDF y TF-IDF, para diferentes dimensiones del vector de representación, y sobre una colección de referencia. Palabras clave: Clustering, Mapas autoorganizativos, Lógica borrosa, MAO, SOM Abstract: This article evaluates a web page-oriented representation model for document clustering, using self-organizing maps. The representation is based on heuristic combinations of criteria by means of a fuzzy rules system. The experiments show an improvement in the proposed model behaviour versus traditional representations as TF, Bin-IDF and TF-IDF, with different vector dimensions, and using a reference collection. Keywords: Clustering, Self-organizing maps, Fuzzy, SOM 1. Introducción 2002). A medida que aumenta el número de páginas web en Internet, crece la necesidad de dotar de cierta organización los contenidos disponibles. Ası́, agrupar documentos con contenidos similares puede ser muy útil, no sólo para facilitar el acceso a la información, sino también para clasificar o representar dicha información, permitiendo su visualización, e incluso la navegación a través de ella. Entre los diferentes algoritmos de clustering que han sido aplicados a este problema, en este trabajo nos centramos en los mapas autoorganizativos (Self-Organizing Map, SOM) (Kohonen, 1990), ya que han demostrado ser una buena forma no sólo de organizar la información, sino también de visualizarla, e incluso de realizar búsquedas orientadas a contenido en grandes colecciones documentales (Vesanto y Alhoniemi, 2000), (Russell, Yin, y Allinson, 2002), (Dittenbach, Merkl, y Rauber, 2000), (Perelomov et al., ISSN 1135-5948 El sistema WEBSOM, desarrollado por el grupo de Teuvo Kohonen en la Helsinki University of Technology (Kohonen et al., 2000) fue el primero en utilizar un SOM para organizar, visualizar y navegar a través de una gran colección de documentos, en concreto resúmenes de patentes, aunque este sistema también ha sido aplicado a otros tipos de documentos con contenido textual como news o resúmenes de artı́culos cientı́ficos (Lagus, 1998). El presente trabajo se apoya en la hipótesis de que una mejora en la representación de los documentos supondrá un aumento de la calidad de estos mapas. Se propone la aplicación de un modelo de representación de páginas web que aprovecha caracterı́sticas propias de los documentos HTML para tratar de mejorar la calidad de los mapas en problemas de clasificación automática. Nuestra representación combina, mediante lógica © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural Alberto P. García-Plaza, Víctor Fresno, Raquel Martínez dificarse. Las neuronas están conectadas con sus vecinas mediante una relación de vecindario que impone la propia estructura del SOM. El tamaño del vecindario disminuirá a lo largo del entrenamiento; esa es la clave de la autoorganización. La función de actualización de pesos del mapa tiene la forma: borrosa, criterios heurı́sticos que aprovechan la semántica inherente a algunas etiquetas HTML, ası́ como a la posición del término dentro del texto. La idea fundamental es tratar de reproducir la manera en que una persona lee las partes que considera más representativas de una página web para obtener una visión general de su contenido y ası́ poder concluir si esa página puede o no interesarle. Existen varias diferencias entre nuestro enfoque y el presentado en WEBSOM. En primer lugar nuestra representación está orientada a páginas web. Además, asumimos que todo el proceso de representación de documentos será no supervisado; algo que no siempre se asume en los modelos que utilizan SOMs para el agrupamiento de documentos. Este artı́culo se estructura como sigue: en el apartado 2 se resumirá de forma básica el proceso de creación de un SOM; en el apartado 3 se revisan algunos modelos de representación de documentos aplicados al SOM; en el 4 se describe el modelo propuesto, basado en lógica borrosa; en el 5 se explica la experimentación llevada a cabo para, posteriormente, analizar los resultados en el apartado 6. Finalmente se exponen las conclusiones en el apartado 7. 2. mi (t + 1) = mi (t) + hci (t) [x(t) − mi (t)] (1) donde t es el instante de tiempo discreto correspondiente a una iteración del algoritmo, x(t) es el vector de entrada en la iteración t y hci es la región de influencia que el vector de entrada tiene sobre el SOM, también llamado núcleo de vecindad. Esta función es la que define la “rigidez” de la “red élástica” del SOM en el espacio de los datos((Kohonen et al., 1996)). La función que define el núcleo de vecindad hci puele ser de tipo gaussiano (2), como en nuestro caso, y se expresa como: ||rc − ri ||2 hci = α(t) · exp − 2σ 2 (t) ! (2) lo que hará que la modificación de valores disminuya con la distancia en el vecindario, siendo σ(t) la función que define este radio de vecindario, que se va reduciendo después de cada iteración t. En los mapas bidimensionales las neuronas pueden ordenarse en un retı́culo rectangular o hexagonal, con lo que cada neurona tendrá 6 u 8 vecinos respectivamente. En nuestro caso se utilizó un mapa rectangular. La modificación de pesos depende también de la distancia entre una neurona ni y la ganadora nc (siendo rc y ri las posiciones de las neuronas en el grid) y tiende a cero según aumenta ésta. La tasa de aprendizaje α(t) es una función monótona decreciente respecto al tiempo t en el rango [0,1] (0 < α(t) < 1). En otras palabras, tiende a cero a medida que se van procesando los vectores del conjunto de entrenamiento. De este modo, una vez entrenado el mapa, después de un número fijo de iteraciones o cuando se cumpla la condición de parada establecida, ya se pueden introducir vectores clasificados manualmente que permiten etiquetar las zonas del mapa correspondientes. Por tanto, y a modo de resumen, los tres pasos fundamentales en la creación de un SOM son: inicialización, entrenamiento y calibración. Una vez etiquetado, un SOM Mapas autoorganizativos Los mapas autoorganizativos de Kohonen son estructuras neuronales que utilizan aprendizaje competitivo para tratar de generar una relación espacial-topológica entre los vectores que caracterizan sus neuronas, a partir de un entrenamiento y en función de los vectores de entrada. En este tipo de aprendizaje las neuronas compiten entre si, activándose sólo una de ellas ante la presencia de un patrón o estı́mulo de entrada. El objetivo es, a partir de un proceso iterativo de comparación con la colección de datos de entrada, agrupar estos datos en base a su similitud. Para ello se presentan al mapa vectores de entrada de igual dimensión que la de sus vectores caracterı́sticos. Para la creación de un SOM lo primero que ha de hacerse es inicializar la red, definiendo el número de neuronas y su topologı́a, e inicializando el vector de pesos de cada neurona, algo que puede realizarse simplemente de forma aleatoria. La neurona ganadora establecerá el conjunto de neuronas cuyos vectores deben mo80 Una Representación Basada en Lógica Borrosa para el Clustering de páginas web con Mapas Auto-Organizativos la representación, sino que va más allá al proponer un nuevo modelo, lo que se aleja de nuestra propuesta, que ataca el problema desde el punto de vista de la representación de los documentos y no pretende modificar el algoritmo utilizado para agruparlos. puede usarse como un clasificador que asigna a cada vector de entrada la categorı́a con la que se haya etiquetado la neurona que se active en cada caso. 3. Representación de documentos En la literatura pueden encontrarse diversas propuestas para la representación de documentos en sistemas basados en SOMs, destinados al clustering, la clasificación o la visualización de grandes colecciones. Algunas de estas propuestas serán analizadas a lo largo de este apartado. Además, se describirá la representación que proponemos y que queremos evaluar. 3.1. 3.2. Fuzzy Combination of Criteria (FCC) La lógica borrosa se basa principalmente en la aplicación de heurı́sticas con el objeto de resolver la ambigüedad inherente a procesos de razonamiento cualitativo, permitiendo establecer cierta relación entre los factores observados. Profundizando un poco más, podemos decir que mediante la lógica borrosa se tratan de modelar relaciones entre variables que, en nuestro caso, se definirán a partir de las frecuencias de aparición de los términos en determinados elementos HTML. Esto la convierte en un entorno adecuado para capturar el conocimiento experto humano. La pieza básica sobre la que se construye todo sistema borroso es la llamada variable lingüı́stica, cuyo valor puede venir dado por palabras del lenguaje natural y se define por medio de conjuntos borrosos (Zadeh, 1965), cuyos lı́mites son imprecisos. Con estos conjuntos se permite describir el grado de pertenencia de un objeto a una determinada clase y se definen a partir de conocimiento experto. La arquitectura básica de un sistema de inferencia borroso se compone de tres etapas de procesamiento: borrosificación de entradas, aplicación de las reglas de inferencia que constituyen la base de conocimiento del sistema, y desborrosificación, que permite obtener el valor final. La base de conocimiento se define mediante un conjunto de reglas IF-THEN que describirán, a partir del conocimiento experto, el comportamiento que deberı́a tener el sistema con la máxima precisión posible; es decir, reflejan, junto con la propia definición de las variables lingüisticas y los conjuntos borrosos, el conocimiento heurı́stico que se tiene sobre el problema. La finalidad de estas reglas es la combinación de uno o varios conjuntos borrosos de entrada, llamados antecedentes, asociándolos a un conjunto borroso de salida, llamado consecuente. Una vez obtenidos los consecuentes de cada regla, y tras una etapa de agregación, se obtiene un conjunto agregado final, que será la entrada para la etapa de desborrosificación, donde Trabajos relacionados En el sistema WEBSOM, la representación de los documentos se realiza dentro del modelo de espacio vectorial (Salton, Wong, y Yang, 1975). De este modo, la entrada es un conjunto de vectores de representación de documentos donde cada dimensión representa el peso de un término en el contenido del mismo. Este peso se puede calcular, bien de forma sencilla en base al número de ocurrencias del término en el documento, por ejemplo usando la frecuencia inversa de documento, o bien, si existe información sobre las categorı́as de los documentos, utilizando la entropı́a de Shannon sobre el conjunto de clases de documentos, para lo que se utiliza la información de clasificación. Además, las distintas aproximaciones al problema se han basado en documentos textuales, mientras la que aquı́ se presenta está orientada especificamente a páginas web en formato HTML, aunque serı́a fácilmente aplicable a documentos XML con vocabularios con semántica relacionada con la documentación electrónica, como es el caso de docbook. En (Bakus, Hussin, y Kamel, 2002) la representación utilizada se basa en sintagmas en lugar de palabras para formar los vectores de representación, utilizando dichos sintagmas como unidades de entrada para las funciones de pesado tradicionales: Binaria, TF y TF-IDF. Por otro lado, el modelo ConSOM (Liu, Wang, y Wu, 2008) usa dos vectores en lugar de uno para representar tanto los documentos de entrada, como las neuronas del mapa, con el objetivo de combinar el espacio vectorial con lo que denominan espacio conceptual. Esto supone una modificación en el SOM, por lo que no sólo afecta a 81 Alberto P. García-Plaza, Víctor Fresno, Raquel Martínez se hace corresponder el conjunto borroso de salida con un punto concreto, llamado salida nı́tida o “crisp”. En nuestra propuesta para la representación de documentos asumimos que no usaremos ningún tipo de información de clasificación previa que pudiera existir. Esta información sólo se utilizará para la evaluación de los resultados, ya que como veremos más adelante, para llevar a cabo la comparación entre las distintas representaciones, fijaremos el tamaño del mapa en función del número de clústers que queremos obtener y que se corresponderá con el número de clases a las que pertenecen los documentos de entrada. Las variables lingüı́sticas que usaremos como entrada del sistema serán la frecuencia del término en el documento, en el tı́tulo (contenido en el elemento title), en los enfatizados (contenidos en los elementos em, h1, b, etc.) y la posición global del término dentro de la página. Las frecuencias son normalizadas con el mayor valor encontrado para cada criterio, con el objetivo de independizar las reglas del tamaño del documento y del tamaño de los textos presentes en cada criterio. La posición global se calcula mediante un sistema borroso auxiliar, que tomando como entrada las posiciones en las que aparece el término dentro del documento, devuelve la posición global por medio de dos conjuntos borrosos: estándar y preferente. Las figuras 1 y 2 muestran los conjuntos borrosos empleados. Figura 2: Sistema borroso auxiliar para el cálculo del valor global de la posición Una palabra que aparece en el tı́tulo puede que no siempre sea relevante (el tı́tulo podrı́a haber sido generado, por ejemplo, por un editor de HTML), o bien podrı́a tener una componente retórica. Generalmente, la posición es un criterio que da más peso en páginas largas que en cortas. Una palabra con alta frecuencia de aparición en una página podrı́a tener un significado muy general, y por lo tanto, no discriminante. Figura 3: Conjuntos borrosos para definir la relevancia del término Los conjuntos completos de reglas tanto del sistema borroso auxiliar como del global se muestran en los cuadros 1 y 2 Figura 1: Reglas basadas en frecuencia de aparición IF IF IF La salida del sistema borroso es una única variable lingüı́stica denominada relevancia, cuyos valores pueden ser: no relevante, poco relevante, medianamente relevante, bastante relevante y muy relevante. Los conjuntos borrosos definidos para esta variable pueden verse en la figura 3. Las reglas utilizadas se han basado en los siguientes aspectos: posición relativa introducción cuerpo conclusión THEN THEN THEN posición global preferente estándar preferente Cuadro 1: Conjunto de reglas del sistema borroso auxiliar Por último, el motor de inferencia está basado en el algoritmo de centro de masas, que evalúa la salida de cada regla en función del grado de verdad de cada antecedente.Una explicación detallada del sistema borroso puede encontrarse en (Fresno, 2006). Una página web puede no tener palabras enfatizadas. 82 Una Representación Basada en Lógica Borrosa para el Clustering de páginas web con Mapas Auto-Organizativos Tı́tulo IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF Alto Alto Alto Alto Alto Alto Bajo Bajo Bajo Alto Alto Alto Alto Alto Alto Bajo Bajo Bajo Bajo Bajo Bajo Bajo Bajo Bajo Bajo Bajo Bajo Bajo Bajo Alto Alto Frecuencia AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND Alta Media Media Alta Baja Baja Baja Alta Alta Baja Baja Baja Baja Alta Alta Baja Baja Baja Baja Media Media Media Media Media Media Alta Alta Alta Alta Media Media Enfatizado AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND Alto Alto Medio Medio Bajo Bajo Bajo Alto Alto Medio Medio Alto Alto Bajo Bajo Medio Medio Alto Alto Bajo Bajo Medio Medio Alto Alto Bajo Bajo Medio Medio Bajo Bajo Posición AND AND Preferente Estándar AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND Preferente Estándar Preferente Estándar Preferente Estándar Preferente Estándar Preferente Estándar Preferente Estándar Preferente Estándar Preferente Estándar Preferente Estándar Preferente Estándar Preferente Estándar Preferente Estándar Relevancia THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN Muy Alta Muy Alta Alta Muy Alta Media Poca Nada Muy Alta Alta Alta Media Muy Alta Alta Muy Alta Alta Media Poca Alta Media Poca Nada Media Poca Muy Alta Alta Media Poca Alta Media Media Poca Cuadro 2: Conjunto de reglas del sistema borroso global 4. Experimentación Antes de extraer la información necesaria para la entrada del sistema borroso, se eliminaron un conjunto de términos de una lista de stopwords compuesta por 621 términos en inglés, se convirtieron las entidades particulares del lenguaje HTML, se eliminaron los signos de puntuación y se utilizó el algoritmo de Porter para hacer stemming de las palabras. Los pasos seguidos para realizar la experimentación se describen a continuación. 4.1. Colección Para la experimentación se ha utilizado la colección Banksearch (Sinka y Corne, 2005), en concreto un subconjunto de 10 clases etiquetadas como: Commercial banks, Building societies, Insurance agencies, Java, C/C++, Visual Basic, Astronomy, Biology, Soccer y Motor sport. Cada una de estas clases consta de 1000 páginas web en formato HTML, haciendo un total de 10000 documentos. De estos, algunos fueron descartados por problemas con el parser HTML utilizado, ya que algunos documentos no estaban bien formados o, incluso, la página estaba incompleta por problemas en su descarga durante la creación de la colección. Finalmente, tras los descartes, 9897 documentos fueron usados en los experimentos. 4.2. Detalles del SOM El tamaño del SOM utilizado en la experimentación es 5x2, haciendo un total de 10 neuronas, con el objetivo de que exista una única neurona por cada clase. Este hecho supone un pequeño grado de supervisión, pero ésta no se aplica a la fase de representación, sino al proceso posterior de clustering, ya que fijamos el k. Los vectores de entrada fueron reducidos a varios tamaños entre 100 y 5000 con la intención de evaluar el comportamiento de las diferentes representaciones 83 Alberto P. García-Plaza, Víctor Fresno, Raquel Martínez en un rango de dimensiones. De este modo podremos ver si el comportamiento empeora al representar con un número reducido de rasgos y, además, averiguar con que dimensiones podemos encontrar un equilibrio entre la calidad de la representación y el coste computacional. Este aspecto adquiere gran importancia en tareas como el clustering que generalmente conllevan un alto coste computacional. Durante el entrenamiento del mapa, la tasa de aprendizaje inicial se fijo en 0,1, el vecindario inicial en 5 y el número de iteraciones en 50000. Todos estos datos se eligieron después de la realización de diversas pruebas, por ser aquellos con los que se obtuvieron unos resultados de clustering y calidad del mapa más satisfactorios. El resto de información acerca del mapa coincide con la utilizada en la implementación SOMlib (Dittenbach, Merkl, y Rauber, 2000), distribuı́do como proyecto de software libre1 . Dicha librerı́a, escrita en lenguaje Java, ha sido la utilizada para la creación del SOM. 4.3. documento o en la colección, por lo que no tiene sentido reducir usando únicamente la frecuencia de documentos. Dado que la representación pondera cada término y le asigna un valor que indica su relevancia, eliminar los términos menos relevantes consistirı́a sólo en eliminar aquellos con las puntuaciones de pesado más bajas, o bien quedarnos con los que tengan las puntuaciones más altas. Por otra parte, queremos que, de alguna forma, cada documento se vea reflejado en el vocabulario final y valorar positivamente que un término aparezca bien puntuado en diferentes documentos. Por todo lo anterior, la reducción que se presenta en este estudio, llamada M F Tn (More Frequent Terms) consiste en la extracción de los términos más puntuados por niveles, es decir, por cada documento se hace un ranking de sus términos más representativos, es decir, los que tienen mayor peso dentro del documento, y se van tomando secuencialmente los términos que aparecen en primera posición, después en segunda, etc. hasta que se cubren las dimensiones requeridas. A medida que se extraen los términos de un nivel, se ordenan en una lista global por frecuencia, esto es, se colocan primero aquellos que han aparecido en un mayor número de documentos. Entre aquellos que resultan empatados tras la primera ordenación, se utiliza la relevancia para determinar su posición. Al final de cada nivel se comprueba si se tienen suficientes términos para el tamaño de vocabulario solicitado y si es ası́, se toman, ordenadamente, los términos necesarios de la lista global. Reducción del número de rasgos Para la comparación usamos tres funciones de pesado de términos diferentes: TF, Bin-IDF y TF-IDF. Cada vector debe contener una entrada por cada término del vocabulario, es decir, por cada término que aparezca en la colección, lo que da lugar a vectores con gran número de dimensiones. Esto supone un problema en lo que a rendimiento se refiere. Para paliarlo, se utilizan distintos tipos de reducciones que permiten utilizar un número menor de dimensiones sin perder la información esencial. En todos los casos se probaron tanto la reducción por frecuencia de documentos, como la proyección aleatoria (Kaski, 1998) con cinco unos distribuı́dos aleatoriamente en cada columna de la matriz de proyección. Esta reducción tiene la ventaja de reducir el coste computacional. En este último caso se ha añadido al preproceso descrito en el apartado 4.1, la eliminación de los términos que aparecı́an en la colección con una frecuencia global de menos de 50, tal como se indica en Kohonen et al. (2000). En nuestro caso, la relevancia de un término no depende únicamente de la frecuencia de aparición del término en un 1 Además de esta reducción, se han realizado experimentos con otras basadas sólo en el valor de la relevancia, tomándolo por niveles o de forma global, combinando otros métodos como la reducción por frecuencia de documentos o la proyección aleatoria. No obstante los mejores resultados fueron obtenidos utilizando la reducción M F Tn y ası́, por claridad y brevedad, los resultados obtenidos con el resto de reducciones han quedado fuera de este artı́culo. Finalmente, para validar la función de pesado FCC, hemos aplicado también la reducción M F Tn a TF, Bin-IDF y TF-IDF, con el objetivo de verificar que la mejora no venga dada únicamente por la reducción. http://www.ifs.tuwien.ac.at/ andi/somlib/ 84 Una Representación Basada en Lógica Borrosa para el Clustering de páginas web con Mapas Auto-Organizativos 4.4. Métodos de evaluación 5. En las figuras 4 y 5 se muestran los resultados para la tasa de aciertos y la medida F obtenidos en los diferentes casos. Cabe destacar que cada uno de los resultados presentados en ellas corresponde a la media de cinco ejecuciones diferentes con los mismos parámetros. El motivo para ello es la inicialización aleatoria del mapa, que provocará que cada ejecución del proceso concluya con resultados diferentes, y aunque por la convergencia del mapa serán bastante similares, se han querido evitar los valores demasiado buenos o demasiado malos. Se puede apreciar cómo FCC supera a las funciones tradicionales que, a medida que aumenta el número de rasgos, se aproximan a los resultados de nuestra propuesta a la vez que sus resultados se estabilizan. Además, si se selecciona un número excesivo de rasgos (a partir de 1000 aproximadamente en las figuras 4 y 5), se introducirán sucesivamente términos poco relevantes, pudiendo introducir ruido y afectando a los resultados. Para evaluar el clustering, una vez entrenado el SOM, se mapea toda la colección sobre él, de forma que cada documento quedará asociado a la neurona del mapa a la que más se asemeje. Después se etiqueta cada neurona eligiendo para ello la clase predominante en función de los vectores que activaron dicha neurona, es decir, se utiliza como etiqueta la clase a la que pertenecen el mayor porcentaje de documentos mapeados en la neurona. Todos los documentos que hayan activado esa neurona durante el proceso de mapeo y no pertenezcan a la clase que etiqueta dicha neurona, son contados como errores. Utilizaremos dos medidas para evaluar los resultados. La primera es la tasa de aciertos (accuracy), es decir, el porcentaje de documentos que activan una neurona etiquetada con su misma clase. Esta medida y la forma de llevarla a cabo ha sido basada en Kohonen et al. (2000): “[...] each document was mapped onto one of the grid points of each map, and all documents that represented a minority class at any grid point were counted as classification errors.” El segundo método elegido es la medida F, véase la fórmula 3, siendo i la clase y j el cluster. El recall y la precisión vienen dados por las fórmulas 4 y 5. F (i, j) = Análisis de resultados 2 · Recall(i, j) · P recision(i, j) Recall(i, j) + P recision(i, j) (3) Recall(i, j) = nij nj P recision(i, j) = nij ni (4) Figura 4: Tasa de aciertos para diferentes dimensiones de los vectores de documentos (5) En ambos casos con un número de rasgos pequeño, en concreto por debajo de 2000, la representación propuesta obtiene los mejores resultados tanto en tasa de aciertos como en calidad del clustering, o al menos resultados tan buenos como cuando se utilizan 2000 o más rasgos por documento. Asimismo, las funciones basadas en la frecuencia (TF y TFIDF) se muestran mucho más estables con la reducción M F Tn , es decir, que con dimensiones reducidas sus resultados no disminuyen drásticamente, situándose al nivel de FCC con el mı́nimo número de rasgos elegido, Siendo nij es el número de documentos etiquetados con la clase i en el cluster j, ni el número de documentos etiquetados con la clase i, nj el número de documentos en el cluster j y n el número total de documentos. Para todos los clusters, la medida F se calcula según la fórmula 6. Un mayor valor de esta medida indica una mayor calidad del clustering. F = X ni i n · máx{F (i, j)} j (6) 85 Alberto P. García-Plaza, Víctor Fresno, Raquel Martínez phrases. En ICONIP ’02. Dittenbach, Michael, Dieter Merkl, y Andreas Rauber. 2000. The growing hierarchical self-organizing map. IJCNN. Fresno, Victor. 2006. Representacion autocontenida de documentos HTML: una propuesta basada en combinaciones heuristicas de criterios. Ph.D. tesis. Kaski, S. 1998. Dimensionality reduction by random mapping: fast similarity computation for clustering. En Neural Networks Proceedings, 1998. Kohonen, T. 1990. The self-organizing map. Proceedings of the IEEE, 78(9):1464–1480. Figura 5: Medida F para diferentes dimensiones de los vectores de documentos Kohonen, T., J. Hynninen, J. Kangas, y J. Laaksonen. 1996. Som pak: The selforganizing map program package. aunque posteriormente su mejora es menor que la obtenida por FCC. En resumen, la representación propuesta funciona mejor que las clásicas y con pocos rasgos está más cerca de sus propios máximos. 6. Kohonen, T., S. Kaski, K. Lagus, J. Salojarvi, J. Honkela, V. Paatero, y A. Saarela. 2000. Self organization of a massive document collection. Neural Networks, IEEE Transactions on. Conclusiones Lagus, Krista. 1998. Generalizability of the websom method to document collections of various types. A lo largo del presente trabajo se ha descrito un método de representación basado en lógica borrosa, de forma que se trata de recoger parte de la semántica implı́cita en el lenguaje HTML, con el objetivo de realizar clustering de documentos basado en mapas autoorganizativos. Los experimentos realizados han demostrado que la representación propuesta mejora el agrupamiento por medio de SOM respecto a las representaciones clásicas basadas únicamente en la frecuencia de los términos. Cabe destacar que la representación basada en lógica borrosa mejora no sólo los valores máximos obtenidos por las representaciones clásicas, sino que con el mı́nimo número de rasgos probado, esto es 100 rasgos para representar cada documento, está prácticamente al nivel de los máximos de las clásicas. Esto permite la obtención de los mismos resultados con un vocabulario menor, lo que reduce notablemente el tamaño de los datos de entrada del SOM y de los vectores de pesos de sus neuronas, teniendo como principal efecto una reducción importante en el tiempo de computo necesario. Liu, Yuanchao, Xiaolong Wang, y Chong Wu. 2008. Consom: A conceptional selforganizing map model for text clustering. Neurocomput. Perelomov, Ivan, Arnulfo P. Azcarraga, Jonathan Tan, y Tat Seng Chua. 2002. Using structured self-organizing maps in news integration websites. Russell, Ben, Hujun Yin, y Nigel M. Allinson. 2002. Document clustering using the 1 + 1 dimensional self-organising map. En IDEAL ’02. Salton, G., A. Wong, y C. S. Yang. 1975. A vector space model for automatic indexing. Commun. ACM. Sinka, Mark P. y David W. Corne. 2005. The banksearch web document dataset: investigating unsupervised clustering and category similarity. J. Netw. Comput. Appl. Vesanto, J. y E. Alhoniemi. 2000. Clustering of the self-organizing map. IEEE-NN, 11(3):586, May. Bibliografı́a Zadeh, L. A. 1965. Fuzzy sets. Information and control. Bakus, J., M.F. Hussin, y M. Kamel. 2002. A som-based document clustering using 86 Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 87-96 recibido 15-01-09, aceptado 02-03-09 Global joint models for coreference resolution and named entity classification Modelos juntos globales para la resolución de la correferencia y de la clasificación de las entidades nombradas Pascal Denis Alpage Project-Team INRIA and Université Paris 7 30, rue Château des Rentiers 75013 Paris, FRANCE [email protected] Jason Baldridge Department of Linguistics University of Texas at Austin 1 University Station B5100 Austin, TX 78712-0198 USA [email protected] Resumen: En este artı́culo, combinamos modelos de correferencia, anaforicidad y clasificación de las entidades nombradas, como un problema de inferencia junta global utilizando la Programación Lineal Entera (ilp). Nuestras restricciones garantizan: (i) la coherencia entre las decisiones finales de los tres modelos locales, y (ii) la transitividad de las decisiones de correferencia. Este enfoque proporciona mejoras significativas en el f -score sobre los corpora ace con las tres métricas de evaluación principales para la correferencia: muc, b3 , y ceaf. A través de ejemplos, modelos de oráculo y nuestros resultados, se muestra también que es fundamental utilizar estas tres métricas y, en particular, que no se puede confiar únicamente en la métrica muc. Palabras clave: Resolución de la correferencia, entidades nombradas, aprendizaje automático, Programación Lineal Entera (ILP) Abstract: In this paper, we combine models for coreference, anaphoricity and named entity classification as a joint, global inference problem using Integer Linear Programming (ilp). Our constraints ensure: (i) coherence between the final decisions of the three local models, and (ii) transitivity of multiple coreference decisions. This approach provides significant f -score improvements on the ace datasets for all three main coreference metrics: muc, b3 , and ceaf. Through examples, oracle models, and our results, we also show that it is fundamental to use all three of these metrics, and in particular, to never rely solely on the muc metric. Keywords: Coreference Resolution, Named Entities, Machine Learning, Integer Linear Programming (ILP) 1 Introduction Coreference resolution involves imposing a partition on a set of mentions in a text; each partition corresponds to some entity in a discourse model. Early machine learning approaches for the task which rely on local, discriminative pairwise classifiers (Soon, Ng, and Lim, 2001; Ng and Cardie, 2002b; Morton, 2000; Kehler et al., 2004) made considerable progress in creating robust coreference systems, but their performance still left much room for improvement. This stems from two main deficiencies: • Decision locality. Decisions are made independently of others; a separate clustering step forms chains from pairwise ISSN 1135-5948 classifications. But, coreference clearly should be conditioned on properties of an entity as a whole. • Knowledge bottlenecks. Coreference involves many different factors, e.g., morphosyntax, discourse structure and reasoning. Yet most systems rely on small sets of shallow features. Accurately predicting such information and using it to constrain coreference is difficult, so its potential benefits often go unrealized due to error propagation. More recent work has sought to address these limitations. For example, to address decision locality, McCallum and Wellner (2004) use conditional random fields with © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural Pascal Denis, Jason Baldridge model structures in which pairwise decisions influence others. Denis (2007) and Klenner (2007) use integer linear programming (ilp) to perform global inference via transitivity constraints between different coreference decisions.1 Haghighi and Klein (2007) provide a fully generative model that combines global properties of entities across documents with local attentional states. Denis and Baldridge (2008) use a ranker to compare antecedents for an anaphor simultaneously rather than in the standard pairwise manner. To address the knowledge bottleneck problem, Denis and Baldridge (2007) use ilp for joint inference using a pairwise coreference model and a model for determining the anaphoricity of mentions. Also, Denis and Baldridge (2008) and Bengston and Roth (2008) use models and features, respectively, that attend to particular types of mentions (e.g., full noun phrases versus pronouns). Furthermore, Bengston and Roth (2008) use a wider range of features than are normally considered, and in particular use predicted features for later classifiers, to considerably boost performance. In this paper, we use ilp to extend the joint formulation of Denis and Baldridge (2007) using named entity classification and combine it with the transitivity constraints (Denis, 2007; Klenner, 2007). Intuitively, we only should identify antecedents for the mentions which are likely to have one (Ng and Cardie, 2002a), and we should only make a set of mentions coreferent if they are all instances of the same entity type (eg, person or location). ilp enables such constraints to be declared between the outputs of independent classifiers to ensure coherent assignments are made. It also leads to global inference via both constraints on named entity types and transitivity constraints since both relate multiple pairwise decisions. We show that this strategy leads to improvements across the three main metrics proposed for coreference: the muc metric (Vilain et al., 1995), the b3 metric (Bagga and Baldwin, 1998), and ceaf metric (Luo, 2005). In addition, we contextualize the performance of our system with respect to cascades of multiple models and oracle systems that assume perfect information (e.g. about entity types). We furthermore demonstrate the inadequacy of using only the muc metric and argue that results should always be given for all three. We include a simple composite of the three metrics, called mela, for Mention, Entity, and Link Average score.2 2 Data and evaluation We use the ACE corpus (Phase 2) for training and testing. The corpus has three parts: npaper, nwire, and bnews, and each set is split into a train part and a devtest part. The corpus text was preprocessed with the OpenNLP Toolkit3 (i.e., a sentence detector, a tokenizer, and a POS tagger). In our experiments, we consider only true ACE mentions instead of detecting them; our focus is on evaluating pairwise local approaches versus the global ilp approach rather than on building a full coreference resolution system. Three primary metrics have been proposed for evaluating coreference performance: (i) the link based muc metric (Vilain et al., 1995), (ii) the mention based b3 metric (Bagga and Baldwin, 1998), and (iii) the entity based ceaf metric (Luo, 2005). All these metrics compare the set of chains S produced by a system against the true chains T , and report performance in terms of recall and precision. They however differ in how they computes these scores, and each embeds a different bias. The muc metric is the oldest and still most commonly used. muc operates by determining the number of links (i.e., pairs of mentions) that are common to S and T . Recall is the number of common links divided by the total number of links in the T ; precision is the number of common links divided by the total number of links in S. By focusing on the links, this metric has two main biases, which are now well-known (Bagga and Baldwin, 1998; Luo, 2005) but merit re-emphasis due its continued use as the sole evaluation measure. First, it favors systems that create large chains (hence, fewer entities). For instance, a system that produces a single chain achieves 100% recall without severe degradation in precision. Second, it ignores recall for single mention entities, since no link can be found in these; however, putting such mentions in the wrong chain does hurt precision.4 2 Interestingly, mela means “gathering” in Sanskrit, so this acronym seems appropriate. 3 Available from opennlp.sf.net. 4 It is worth noting that the muc corpus for which 1 These were independent, simultaneous developments. 88 Global joint models for coreference resolution and named entity classification T = {m1 , m3 , m5 }, {m2 }, {m4 , m6 , m7 } S 1 = {m1 , m2 , m3 , m6 }, {m4 , m5 , m7 } S 2 = {m1 , m2 , m3 , m4 , m5 , m6 , m7 } S1 S2 Figure 1: Two competiting partitionings for mention set {m1 , m2 , m3 , m4 , m5 , m6 , m7 }. muc R P F .50 .40 .44 1.0 .66 .79 R .62 1.0 b3 P .45 .39 F .52 .56 ceaf F .57 .43 Table 1: Recall (R), precision (P), and f score (F) using muc, b3 , and ceaf for partitionings of Figure 1 The b3 metric addresses the muc metric’s shortcomings, by computing recall and precision scores for each mention m. Let S be the system chain containing m, T be the true chain containing m. The set of correct elements in S is thus |S ∩ T |. The recall score | for a mention m is thus computed as |S∩T |T | , The bias of the muc metric for large chains is shown by the fact that it gives better recall and precision scores for S 2 even though this partition is completely uninformative. More intuitively, b3 highly penalizes the precision of this partition: precision errors are here computed for each mention. ceaf is the harshest on S 2 , and in fact is the only metric that prefers S 1 over S 2 . muc is known for being an applicable metric when one is only interested in precision on pairwise links (Bagga and Baldwin, 1998). Given that much recent work —including the present paper— seeks to move beyond simple pairwise coreference and produce good entities, it is crucial that they are scored on the other metrics as well as muc. Most tellingly, our results show that both b3 and ceaf scores can show degradation even when muc appears to show an improvement. | while the precision score for m is |S∩T |S| . Overall recall/precision is obtained by averaging over the individual mention scores. The fact that this metric is mention-based by definition solves the problem of single mention entities. It also does not favor larger chains, since they will be penalized in the precision score of each mention. The Constrained Entity Aligned FMeasure5 (ceaf) aligns each system chain S with at most one true chain T . It finds the best one-to-one mapping between the set of chains S and T , which is equivalent to finding the optimal alignment in a bipartite graph. The best mapping is that which maximizes the similarity over pairs of chains (Si , Ti ), where the similarity of two chains is the number of common mentions between them. For ceaf, recall is the total similarity divided by the number of mentions in all the T , while precision is the total similarity divided by the number of mentions in S. Note that when true mentions are used, ceaf assigns the same recall and precision: this is because the two systems partition the same set of mentions. A simple example illustrating how the metrics operate is presented in Figure 1 (see Luo (2005) for more examples). T is the set of true chains, S 1 and S 2 are the partitions produced by two hypothetical resolvers. Recall, precision, and f -score for these metrics are given in Table 1. 3 Base models Here we define the three base classifiers for pairwise coreference, anaphoricity, and named entity classification. They form the basis for several cascades and joint inference with ilp. Like Kehler et al. (2004) and Morton (2000), we estimate the parameters of all models using maximum entropy (Berger, Pietra, and Pietra, 1996); specifically, we use the limited memory variable metric algorithm (Malouf, 2002).6 Gaussian priors for the models were optimized on development data. 3.1 The coreference classifier Our coreference classifier is based on that of Soon, Ng, and Lim (2001), though the features have been extended and are similar (though not equivalent) to those used by Ng and Cardie (2002a). Features fall into 3 categories: (i) features of the anaphor, (ii) features of antecedent mention, and (iii) pairwise features (i.e., such as distance between the metric was devised does not annotate single mention entities. However, the ACE corpus does include such entities. 5 We use the mention-based ceaf measure (Luo, 2005). This is the same metric as ECM-F (Luo et al., 2004) used by Klenner (2007). 6 This algorithm is implemented in Toolkit for Advanced Discriminative Modeling (tadm.sf.net). 89 Pascal Denis, Jason Baldridge 3.2 the two mentions). We omit details here for brevity (details on the different feature sets can be found in Denis (2007)); the ilp approach could be equally well applied to models using other, extended feature sets such as those discussed in Denis and Baldridge (2008) and Bengston and Roth (2008). Using the coreference classifier on its own involves: (i) estimating PC (coref|hi, ji), the probability of having a coreferential outcome given a pair of mentions hi, ji, and (ii) applying a selection algorithm that picks one or more mentions out of the candidates for which PC (coref|hi, ji) surpasses a given threshold (here, .5). exp( PC (coref|hi, ji) = n P λk fk (hi, ji, coref)) k=1 Z(hi, ji) where fk (i, j) is the number of times feature k occurs for i and j, λk is the weight assigned to feature k during training, and Z(hi, ji) is a normalization factor over both outcomes (coref and ¬coref). Training instances are constructed based on pairs of mentions of the form hi, ji, where j and i describe an anaphor and an antecedent candidate, respectively. Each such pair is assigned a label, either coref or ¬coref, depending on whether or not the two mentions corefer. We followed the sampling method of Soon, Ng, and Lim (2001) for creating the training material for each anaphor: (i) a positive instance for the pair hi, ji where i is the closest antecedent for j, and (ii) a negative instance for each pair hi, ki where k intervenes between i and j. Once trained, the classifier can be used to choose pairwise coreference links–and thus determine the partition of entities–in two ways. The first is to pick a unique antecedent with closest-first link-clustering (Soon, Ng, and Lim, 2001); this is the standard strategy, referred to as COREFclosest . The second is to simply take all links with probability above .5, which we refer to as COREFabove .5 . The purpose of including this latter strategy is primarily to demonstrate an easy way to improve muc scores that actually degrades b3 and ceaf scores. This strategy indeed results in positing significantly larger chains, since each anaphor is allowed to link to several antecedents. The anaphoricity classifier Ng and Cardie (2002a) introduced the use of an anaphoricity classifier to act as a filter for coreference resolution to correct errors where non-anaphoric mentions are mistakenly resolved or where anaphoric mentions failed to be resolved. Their approach produces improvements in precision, but larger losses in recall. Ng (2004) improves recall by optimizing the anaphoricity threshold. By using joint inference for anaphoricity and coreference, Denis and Baldridge (2007) avoid cascade-induced errors without the need to separately optimize the threshold. They realize gains in both recall and precision; however, they report only muc scores. As we will show, these improvements do not hold for b3 and ceaf. The task for the anaphoricity determination component is the following: one wants to decide for each mention i in a document whether i is anaphoric or not. This task can be performed using a simple classifier with two outcomes: anaph and ¬anaph. The classifier estimates the conditional probabilities P (anaph|i) and predicts anaph for i when P (anaph|i) > .5. The anaphoricity model is as follows: exp( PA (anaph|i) = n P λk fk (i, anaph)) k=1 Z(i) The features used for the anaphoricity classifier are quite simple. They include information regarding (i) the mention itself, such as the number of words and whether it is a pronoun, and (ii) properties of the potential antecedent set, such as whether there is a previous mention with a matching string. This classifier achieves 80.8% on the entire ace corpus (bnews: 80.1, npaper: 82.2, nwire: 80.1). 3.3 The named entity classifier Named entity classification involves predicting one of the five ACE class labels. The set of named entity types T are: facility, gpe (geo-political entity), location, organization, person. The classifier estimates the conditional probabilities P (t|i) for each t∈T and predicts the named entity type b t for mention i such that b t = argmaxt∈T P (t|i). 90 Global joint models for coreference resolution and named entity classification exp( PE (t|i) = n P almost identical. Given the nature of the two strategies COREFclosest and COREFabove .5 , these differences across metrics strongly support arguments that muc is too indiscriminate and can in fact be gamed (knowingly or not) by simply creating larger chains. Table 2 also shows that cascades in general fail to produce significant F improvements over the pairwise model COREFclosest . These systems are far behind the performance of their corresponding oracles. This tendency is even stronger when both classifiers filter possible assignments: CASCADEa,e→c does much worse than COREFclosest on all metrics. In fact, this system has the lowest F on the b3 evaluation metric, suggesting that the errors of the two filters accumulate in this case. In contrast, the corresponding oracle, ORACLEa,e,c , achieves the best results across all measures. It does so by capitalizing on the improvements given by the separate oracles. Furthermore, note that the use of the two auxiliary models have complementary effects on the muc and b3 metrics, in both the cascade and the oracle systems. Thus, the use of the anaphoricity classifier improves recall (suggesting that some true anaphors get “rescued” by this model), while the the use of the named entity model leads to precision improvements (suggesting that this model manages to filter out incorrect candidates that would have been chosen by the coreference model). In the case of the oracle systems, these gains translate in overall F improvements. But, as noted, this is generally not the case with the cascade systems. Only CASCADEa→c shows significant gains with muc and ceaf (and not with b3 ). CASCADEe→c underperforms in all three metrics. This latter system indeed shows a large drop in recall, suggesting that this model filter is overzealous in filtering true antecedents. The oracle results suggest that joint modeling could deliver large performance gains by not falling prey to cascade errors. In the next section, we build on previous ilp formulations and show such improvements can indeed be realized. λk fk (i, t)) k=1 Z(i) The features for this model include: (i) the string of the mention, (ii) features defined over the string (e.g., capitalization, punctuations, head word), (iii) features describing the word and POS context around the mention. The classifier achieves 79.5% on the entire ace corpus (bnews: 79.8, npaper: 73.0, nwire: 72.7). 4 Base model results This section describes coreference performance when the pairwise coreference classifier is used alone with closest-first clustering (COREFclosest ) or with the liberal all-linksabove-.5 clustering (COREFabove .5 ), or when COREFclosest is constrained by the anaphoricity and named entity classifiers as filters in a cascade or by gold-standard information as filters in oracle systems. The cascades are: • CASCADEa→c : the anaphoricity classifier specificies which mentions to resolve • CASCADEe→c : the named entity classifier specifies which antecedents have the same type as the mention to be resolved; others are excluded from consideration • CASCADEa,e→c : the two classifiers acting as combined filters We also provide results for the corresponding oracle systems which have perfect knowledge about anaphoricity and/or named entity types: ORACLEa,c , ORACLEe,c , and ORACLEa,e,c . Table 2 summarizes the results in terms of recall (R), precision (P), and f -score (F) on the three coreference metrics: muc, b3 , and ceaf. The first thing to note is the contrast between COREFclosest and COREFabove .5 . Recall that the only difference between the two clustering strategies is that the latter creates strictly larger entities than the former by adding all links above .5. By doing so, it gains about 10% in R for both muc and b3 . However, whereas muc does not register a drop in precision, b3 P is 14% lower, which produces an overall 1% drop in F. ceaf punishes this strategy even more, with a 3.6% drop. Note that the resulting composite mela scores are 5 Integer programming formulations ilp is an optimization framework for global inference over the outputs of various base classifiers (Roth and Yih, 2004). Previous uses of ilp for nlp tasks include eg. Roth 91 Pascal Denis, Jason Baldridge System COREFclosest COREFabove .5 CASCADEa→c CASCADEe→c CASCADEa,e→c ORACLEa,c ORACLEe,c ORACLEa,e,c R 60.8 70.3 64.9 56.3 61.3 75.6 62.5 83.2 b3 muc P F 72.6 66.2 72.7 71.5 72.3 68.4 75.2 64.4 68.8 64.8 75.6 75.6 81.3 70.7 83.2 83.2 R 62.4 73.2 65.6 59.6 62.5 71.4 62.9 79.0 P 77.7 63.7 74.1 82.4 73.8 70.7 85.5 78.2 F 69.2 68.1 69.6 69.2 67.7 71.1 72.4 78.6 ceaf R/P/F 62.3 58.7 63.4 61.6 61.9 71.5 65.2 78.7 mela F-avg 65.9 66.1 67.1 65.1 64.8 72.7 69.4 80.2 Table 2: Recall (R), precision (P), and f -score (F) using muc, b3 , and ceaf on the entire ace corpus for the basic coreference system, the cascade systems, and the corresponding oracle systems. and Yih (2004), Barzilay and Lapata (2006), and Clarke and Lapata (2006). Here, we provide several ilp formulations for coreference. The first formulation ILPc,a is based on Denis and Baldridge (2007) and performs joint inference over the coreference classifier and the anaphoricity classifier. A second formulation ILPc,e combines the coreference classifier with the named entity classifier. A third formulation ILPc,a,e combines all three models together. In each of these joint formulation, a set of consistency constraints mutually constrain the ultimate assignments of each model. Finally, a fourth formulation ILPc,a,e|trans adds to ILPc,a,e a set of transitivity constraints (similar to those of Klenner (2007)). These latter constraints ensure better global coherence between the various pairwise coreference decisions, hence making this fourth formulation both a joint and a global model. For solving the ilp problem, we use cplex, a commercial lp solver.7 In practice, each document is processed to define a distinct ilp problem that is then submitted to the solver. 5.1 Each model introduces a set of indicator variables: (i) coreference variables hi, ji ∈ 0, 1 depending on whether i and j corefer or not, and (ii) anaphoricity variables xhi,ji ∈ 0, 1 depending on whether j is anaphoric or not. These variables are associated with assignment costs that are derived from the model probabilities pC = PC (coref|i, j) and pA = PA (anaph|j), respectively. The cost of commiting to a coreference link is cC hi,ji = −log(pC ) and the complement cost of choosing not to establish a link is cC hi,ji = −log(1−pC ). Analogously, we define costs on anaphoricity decisions as cA j = −log(pA ) and A cj = −log(1−pA ), the costs associated with making j anaphoric or not, respectively. The resulting objective function takes the following form: X C min cC hi,ji · xhi,ji + chi,ji · (1−xhi,ji ) hi,ji∈P + A cA j · yj + cj · (1−yj ) j∈M subject to: ILPc,a : anaphoricity-coreference formulation xhi,ji ∈ {0, 1} ∀hi, ji ∈ P yj ∈ {0, 1} ∀j ∈ M The final assignments of xhi,ji and yj variables are forced to respect the following two consistency constraints (where Mj is the set of all mentions preceding mention j in the document): Resolve all anaphors: if a mention is anaphoric (yj =1), it must have at least one antecedent. X yj ≤ xhi,ji ∀j ∈ M The ILPc,a system of Denis and Baldridge (2007) brings the two decisions of coreference and anaphoricity together by including both in a single objective function and enforcing consistency constraints on the final outputs of both tasks. More technically, let first M denotes the set of mentions, and P the set of possible coreference links over M: P = {hi, ji|hi, ji ∈ M × M and i < j}. 7 X i∈Mj http://www.ilog.com/products/cplex/ 92 Global joint models for coreference resolution and named entity classification Resolve only anaphors: if a pair of mentions hi, ji is coreferent (xhi,ji =1), then j is anaphoric (yj =1). xhi,ji ≤ yj These constraints above make sure that the coreference decisions (the x values) are informed by the named entity classifier and vice versa. Furthermore, because these constraints ensure like assignments to coreferent pairs of mentions, they have a “propagating” effect that makes the overall system global. Coreference assignments that have low cost (i.e., high confidence) can influence named entity assignments (e.g., from a org to a per). This in turn influences other coreference assignments involving further mentions radiating out from one core, highly likely assignment. ∀hi, ji ∈ P These constraints make sure that the anaphoricity classifier are not taken on faith as they were with CASCADEa→c . Instead, we optimize over consideration of both possibilities in the objective function (relative to the probability output by the classifier) while ensuring that the final assignments respect the signifance of what it is to be anaphoric or non-anaphoric. 5.3 5.2 ILPc,e : entity-coreference coreference formulation formulation In this second joint formulation, we combine coreference decisions with named entity classification. New indicator variables for the assignments of this model are introduced, namely zhi,ji , where hi, ti ∈ M × T . Since entity classification is not a binary decision, each assigment variable encode a mention i and a named entity type t. Each of these variables have an associated cost cE hi,ti , which is the probability that mention i has type t: cE hi,ti = −log(PE (t|i)). The objective function for this formulation is: X C min cC hi,ji · xhi,ji + chi,ji · (1−xhi,ji ) For the third joint model, we combine all three base models with an objective function that is the composite of those of ILPc,a and ILPc,e and incorporate all the constraints that go with them. By creating a triple joint model, we get constraints between anaphoricity and named entity classification for free, as a result of the interaction of the consistency constraints between anaphoricity and coreference and of those between named entity and coreference. For example, if a mention of type t is anaphoric, then there must be at least one mention of type t preceding it. 5.4 hi,ji∈P X + cE hi,ti · zhi,ti Adding transitivity constraints The previous formulations relate coreference decisions to the decisions made by two auxiliary models in a joint formulation. In addition one would also like to make coreference decisions dependent on one another, thus ensuring globally coherent entities. This is achieved through the use transitivity constraints that relate triples of mentions hi, j, ki ∈ M×M×M, where i < j < k (Denis, 2007; Klenner, 2007). These constraints directly exploit the fact that coreference is an equivalence relation. Transitivity: if xhi,ji and xhj,ki are coreferential pairs (i.e., xhi,ji = xhj,ki = 1), then so is xhi,ki : hi,ti∈M×T subject to: zhi,ti ∈ {0, 1} X zhi,ti = 1 ILPc,a,e : anaphoricity-entity- ∀hi, ti ∈ M × T ∀i ∈ M i∈M The last constraint ensures that each mention is only assigned a unique named entity type. Consistency between the two models is ensured with the constraint: Coreferential mentions have the same entity type: if i and j are coreferential (xhi,ji =1), they must have the same type (zhi,ti − zhj,ti = 0): xhi,ki ≥ xhi,ji + xhj,ki − 1 ∀hi, j, ki ∈ Mi,j,k Euclideanity: if xhi,ji and xhi,ki are coreferential pairs (i.e., xhi,ji = xhi,ki = 1), then so is xhj,ki . 1 − xhi,ji ≥ zhi,ti − zhj,ti ∀hi, ji ∈ P, ∀t ∈ T 1 − xhi,ji ≥ zhj,ti − zhi,ti ∀hi, ji ∈ P, ∀t ∈ T 93 Pascal Denis, Jason Baldridge the other metrics go down. This is in fact unsurprising: COREFabove .5 can be viewed as an unconstrained ilp formulation; similarly, ILPc,a takes all links above .5 subject to meeting the constraints on anaphoricity. The constraining effect of anaphoricity improves muc R and P and b3 R over COREFabove .5 , but not b3 P nor ceaf. Despite the encouraging muc scores, more is thus needed. The next thing to note is that joint named entity classification and coreference (ILPc,e ) nearly beats COREFclosest across the metrics, but fails for ceaf. As for ILPc,a , ILPc,e can also be viewed as constraining COREFabove .5 : in this case, precision is improved (compare muc: 72.7 to 75.0 and b3 : 63.7 to 71.2), while still retaining over half the gain in recall that COREFabove .5 obtained over COREFclosest . In doing so, the degradation in ceaf is just 1%, compared to ILPc,a ’s 3.4%. In addition to improving coreference resolution performance, this joint formulation also yields a slight improvement on the named entity classification: specifically, accuracy for that task went from 79.5% to over 80.0% using the ILPc,e model. Joint inference over all three models (ILPc,a,e ) delivers larger improvements for both muc and b3 without any ceaf degradation, thus mirroring the improvements found with the corresponding oracle. In particular, R is boosted nearly to the level of COREFabove .5 without the dramatic loss in P (in fact P is better than COREFclosest for muc). By adding the Anti-Euclideanity constraint to this formulation (ILPc,a,e|trans ), we see the best across-the-metric scores of any system. For muc and b3 , both P and R are boosted over COREFclosest , and there is a jump of 4% for ceaf. Both the muc and ceaf improvements for ILPc,a,e|trans are in line with the improvements that Klenner (2007) found using transitivity, though it should be noted that he scored on all mentions, not just true mentions as we do here. The composite mela metric provides an interesting overall view, showing step-wise improvements through the addition of the various models and the global constraints. These results are in sharp contrast with those obtained by the cascade model CASCADEa,e→c : recall that this system, while also using the two auxiliary models as filters was worse than COREFclosest . The joint ilp formulation is clearly better able to integrate the extra information provided by the anaphoric- xhj,ki ≥ xhi,ji + xhi,ki − 1 ∀hi, j, ki ∈ Mi,j,k Anti-Euclideanity: if xhi,ki and xhj,ki are coreferential pairs (i.e., xhi,ki = xhj,ki = 1), then so is xhi,ji : xhi,ji ≥ xhi,ki + xhj,ki − 1 ∀hi, j, ki ∈ Mi,j,k Enforcing Anti-Euclideanity alone guarantees that the final assignment will not produce any “implicit” anaphors: that is, a configuration wherein xhj,ki = 1, xhi,ki = 1, and yj = 0. The interaction of this constraint with resolve only anaphors indeed guarantees that such configuration cannot arise, since all three equalities cannot hold together. This means that mention j must be a good match for mention i as well as for mention k. Note that one could have one unique transitivity constraint if we had symmetry in our model; concretely, capturing symmetry means: (i) adding a new indicator variable xhj,ii for each variable xhi,ji , and (ii) making sure xhj,ii agrees with xhi,ji . Enforcing each of these constraints above means adding 61 × n × (n − 1) × (n − 2) constraints, for a document containing n mentions. This means close to 500, 000 of these constraints for a document containing just 100 mentions. The inclusion of such a large set of constraints turned out to be difficult, causing memory issues with large documents (some of the ace documents have more than 250 mentions). Consequently, we investigated during development various simpler scenarios, such as enforcing these constraints for documents that had a relatively small number of mentions (e.g., 100) or just using one of these types of constraint (in particular Anti-Euclideanity given the way it interacts with the discourse status assignments). In the following, ILPc,a,e|trans will refer to the ILPc,a,e formulation augmented with the Anti-Euclideanity constraints. 6 ILP Results Table 3 summarizes the scores for the different ilp systems, along with COREFclosest . Like Denis and Baldridge (2007), we find that joint anaphoricity and coreference (ILPc,a ) greatly improves muc F. However, we also see that this model suffers from the same problem as COREFabove .5 : performance on 94 Global joint models for coreference resolution and named entity classification System COREFclosest COREFabove .5 ILPc,a ILPc,e ILPc,a,e ILPc,a,e|trans R 60.8 70.3 73.2 66.2 69.6 63.7 b3 muc P F 72.6 66.2 72.7 71.5 73.4 73.3 75.0 70.4 75.4 72.4 77.8 70.1 R 62.4 73.2 75.3 69.6 72.2 65.6 P 77.7 63.7 62.0 71.2 69.7 81.4 F 69.2 68.1 68.0 70.4 70.9 72.7 ceaf R/P/F 62.3 58.7 58.9 61.2 62.3 66.2 mela F 65.9 66.1 66.7 67.3 68.5 69.7 Table 3: Recall (R), precision (P), and f -score (F) using the muc, b3 , and ceaf evaluation metric on the entire ace dataset for the ilp coreference systems. ILPc,a,e|trans , our best ilp system. This un- ity and named entity classifiers. In doing so, it does not require fine-tuning thresholds, and it can further benefit from constraints, such as transitivity. Further experiments reveal that bringing the other transitivity constraints into the ilp formulation results in additional precision gains, although not in overall F gains. The effect of these constraints is to withdraw incoherent links, rather than producing new links. At the global level, this results in the creation of smaller, more coherent clusters of mentions. In some cases, this will lead to a single entity being split across multiple chains. Switching on these constraints may therefore be useful for certain applications where precision is more important than recall. Though in general ceaf appears to be the most discriminating metric, this point brings up the reason why using ceaf on its own is not ideal. When one entity is split across two or more chains, all the links between the mentions are indeed correct and will thus be useful for applications like information retrieval. muc and b3 give points to such assignments, whereas only the largest of such chains will be used for ceaf, leaving the others—and their correct links—out of the score. It is also interesting to consider muc and b3 as they can be useful for teasing apart the behavior of different models, for example, with ILPc,a,e compared to COREFclosest , where ceaf was the same but the others were different. There is an interesting point of comparison with our results using rankers rather than classifiers and using models specialized to particular types of mentions (Denis and Baldridge, 2008). This work does not use ilp, but the best system there, with f -scores of 71.6, 72.7, and 67.0 for muc, b3 , and ceaf, respectively, actually slightly beats derscores the importance of attending carefully to the base classifiers and features used (see also Bengston and Roth (2008) in this regard). The ilp approach in this paper could straightforwardly swap in these better base models. We expect this to lead to further performance improvements, which we intend to test in future work, as well as testing the performance of these models and methods when using predicted, rather than gold, mentions. 7 Conclusion We have shown that joint inference over coreference, anaphoricity, and named entity classification using ilp leads to improvements for all three main coreference metrics: muc, b3 , and ceaf. The fact that b3 and ceaf scores were also improved is significant: the ilp formulations tend to construct larger coreference chains—these are rewarded by muc without precision penalties, but b3 and ceaf are not as lenient. As importantly, we have provided a careful study of cascaded systems, oracle systems and the joint systems with respect to all of the metrics. We demonstrated that the muc metric’s bias for larger chains leads it to give much higher scores while performance according to the other metrics actually drops. Nonetheless, b3 and ceaf also have weaknesses; it is thus important to report all of these scores. We also include the mela score as a simple at-a-glance composite metric. Acknowledgments We would like to thank Nicholas Asher, David Beaver, Andrew Kehler, Ray Mooney, and the three anonymous reviewers for their comments, as well as the audience at the workshop for their questions. This work was supported by NSF grant IIS-0535154. 95 Pascal Denis, Jason Baldridge References Luo, X. 2005. On coreference resolution performance metrics. In Proceedings of HLTNAACL 2005, pages 25–32. Bagga, A. and B. Baldwin. 1998. Algorithms for scoring coreference chains. In Proceedings of LREC 1998, pages 563–566. Luo, Xiaoqiang, Abe Ittycheriah, Hogyan Jing, Nanda Kambhatla, and Salim Roukos. 2004. A mention-synchronous coreference resolution algorithm based on the bell tree. In Proceedings of ACL 2004, pages 135–142, Barcelona, Spain. Barzilay, Regina and Mirella Lapata. 2006. Aggregation via set partitioning for natural language generation. In Proceedings of HLT-NAACL 2006, pages 359–366, New York City, USA. Malouf, R. 2002. A comparison of algorithms for maximum entropy parameter estimation. In Proceedings of the Sixth Workshop on Natural Language Learning, pages 49– 55, Taipei, Taiwan. Bengston, Eric and Dan Roth. 2008. Understanding the value of features for coreference resolution. In Proceedings of EMNLP 2008, pages 294–303, Honolulu, Hawaii. McCallum, A. and B. Wellner. 2004. Conditional models of identity uncertainty with application to noun coreference. In Proceedings of NIPS 2004. Berger, A., S. Della Pietra, and V. Della Pietra. 1996. A maximum entropy approach to natural language processing. Computational Linguistics, 22(1):39–71. Morton, T. 2000. Coreference for NLP applications. In Proceedings of ACL 2000, Hong Kong. Clarke, James and Mirella Lapata. 2006. Constraint-based sentence compression: An integer programming approach. In Proceedings of COLING-ACL 2006, pages 144–151. Ng, V. 2004. Learning noun phrase anaphoricity to improve coreference resolution: Issues in representation and optimization. In Proceedings of ACL 2004. Denis, P. 2007. New Learning Models for Robust Reference Resolution. Ph.D. thesis, University of Texas at Austin. Ng, V. and C. Cardie. 2002a. Identifying anaphoric and non-anaphoric noun phrases to improve coreference resolution. In Proceedings of COLING 2002. Denis, P. and J. Baldridge. 2007. Joint determination of anaphoricity and coreference resolution using integer programming. In Proceedings of HLT-NAACL 2007, Rochester, NY. Ng, V. and C. Cardie. 2002b. Improving machine learning approaches to coreference resolution. In Proceedings of ACL 2002, pages 104–111. Denis, Pascal and Jason Baldridge. 2008. Specialized models and ranking for coreference resolution. In Proceedings of EMNLP 2008, pages 660–669, Honolulu, Hawaii. Roth, Dan and Wen-tau Yih. 2004. A linear programming formulation for global inference in natural language tasks. In Proceedings of CoNLL. Haghighi, A. and D. Klein. 2007. Unsupervised coreference resolution in a nonparametric bayesian model. In Proceedings of ACL 2007, pages 848–855, Prague, Czech Republic. Soon, W. M., H. T. Ng, and D. Lim. 2001. A machine learning approach to coreference resolution of noun phrases. Computational Linguistics, 27(4):521–544. Vilain, M., J. Burger, J. Aberdeen, D. Connolly, and L. Hirschman. 1995. A modeltheoretic coreference scoring scheme. In Proceedings fo the 6th Message Understanding Conference (MUC-6), pages 45– 52, San Mateo, CA. Morgan Kaufmann. Kehler, A., D. Appelt, L. Taylor, and A. Simma. 2004. The (non)utility of predicate-argument frequencies for pronoun interpretation. In Proceedings of HLT-NAACL 2004. Klenner, M. 2007. Enforcing coherence on coreference sets. In Proceedings of RANLP 2007. 96 Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 97-104 recibido 15-01-09, aceptado 02-03-09 AQA: a multilingual Anaphora annotation scheme for Question Answering∗ AQA: Un modelo de anotación anafórico multilingüe para Búsqueda de Respuestas E. Boldrini1 , M. Puchol-Blasco1 , B. Navarro1 , P. Martı́nez-Barco1 and C. Vargas-Sierra2 1 Grupo de Investigación en Procesamiento del Lenguaje Natural y Sistemas de Información Departamento de Lenguajes y Sistemas Informáticos Universidad de Alicante 2 Departamento de Filologı́a Inglesa Universidad de Alicante Alicante, Spain {eboldrini, marcel, borja, patricio}@dlsi.ua.es and [email protected] Resumen: En este trabajo presentamos AQA, un modelo multilingüe de anotación de expresiones anafóricas, ideado para ser utilizado en Aprendizaje Automático para mejorar los sistemas de Búsqueda de Repuestas. Con este modelo se ha anotado la colección de preguntas-respuestas del CLEF 2008, concretamente en los idiomas español, italiano e inglés. AQA está inspirado en el meta-modelo MATE, ajustado a nuestras necesidades. Con AQA se especifica la relación entre la anáfora y su antecedente (que puede ser directa o indirecta), las agrupaciones por tópico y cambios de subtópico, ası́ como diferentes tipos de anáforas (pronominal, adverbial, superficial, descripciones definidas y elipsis). Se ha realizado una anotación ciega entre dos anotadores más un árbitro que decide en caso de desacuerdo. Los resultados de la evaluación muestran un 87% de acuerdo entre los anotadores. Algunos problemas de anotación serán expuestos en el trabajo. Nuestra finalidad es ampliar este modelo a otras lenguas y otros corpus, y aplicarlo finalmente en el desarrollo de un sistema de resolución de la anáfora en preguntas-respuestas multilingüe basado en técnicas de aprendizaje automático para mejorar la interacción hombre-máquina. Palabras clave: resolución anáfora, corpus multilingüe, Aprendizaje Automático, acuerdo de anotación, interacción, sistemas de Búsqueda de Respuestas. Abstract: This paper presents AQA, a multilingual anaphora annotation scheme that can be applied in Machine Learning for the improvement of Question Answering systems. It has been used to annotate the collection of CLEF 2008 in Spanish, Italian and English. AQA is inspired by the MATE meta-model, which has been adjusted to our needs. By using AQA we specify the relationshiop between the anaphora and its antecedent, cases of topic and subtopic, and we label different types of anaphoric expressions. A blind annotation was carried out by two annotators, and a referee for solving cases of disagreement. The results of the evaluation show an 87% level of inter-annotator agreement. Some annotation problems will be reported in this paper. Our aim is to extend this model to other languages, and to apply it to the development of an Anaphora Resolution system based on Machine Learning techinques in order to improve a real human machine-interaction. Keywords: anaphora resolution, multilingual corpora, Machine Learning, interannotator agreement, interaction, Question Answering systems. ISSN 1135-5948 © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural E. Boldrini, M. Puchol-Blasco, B. Navarro, P. Martínez-Barco, C. Vargas-Sierra 1 Introduction is to achieve an anaphora resolution system for collection of multilingual questions and answers capable of providing a more realistic interaction between the user and the system. The remainder of this paper is organized as follows: Section 2 describes the principles we adopted for the annotation. Sections 3 and 4 present the main aspects of the annotation scheme, the tag set developed and an analysis of problematic cases. Sections 5 and 6 illustrate the evaluation and the results, and finally conclusions from the study are discussed in section 6. This paper presents AQA, a multilingual anaphora annotation scheme that can be applied to every question-answer corpus (QA) with cases of anaphora. In recent years there has been a growing interest in the creation of anaphora annotation schemes, especially for English. In this context, it is worth mentioning the UCREL anaphora annotation scheme (Fligelstone, 1992), developed at Lancaster University. The SGML-based MUC annotation scheme (Hirschman y Chincho, 1998), created for MUC-7, focused on anaphora for Information Extraction task, and other annotation schemes based on MUC are by Mitkov et al. (2000) or by Navarro (2007), among others. Proposals for other languages could also be found. To mention but a few examples, we find proposals for French (Popescu-Belis and Robba (1997); Tutin et al. (2000)); for Spanish and Catalan (Recasens et al. (2007)); or for Basque (Aduriz et al. (2007)). As it is well-known, the MATE/GNOME meta-scheme by Massimo Poesio (2004) can be adjusted to meet different needs and goals. AQA annotation scheme is inspired by this meta-model. The problem of anaphora resolution in dialogues and/or in QA series has been explored in several works (Martı́nez-Barco y Palomar, 2001; Jain et al., 2004; Negri y Kouylekov, 2007). However, as far as we know, little work has been reported on anaphora resolution in QA series in a multilingual framework1 . In this paper, we focus on this subject. We have developed a multilingual anaphora annotation scheme in order to label the QA corpus of CLEF 2008 in Spanish, Italian, and English, aiming at using this annotated corpus for the application of Machine Learning (ML) techniques in the development of anaphora resolution systems. Our final goal 2 Principles The design of an annotation scheme involves a number of decisions that are crucial for the final result of its performance. The approach pursued with AQA is based on the next general principles: 1. AQA scheme is specific for QA texts. The behaviour of anaphoric and coreferencial expressions in question-answering and, in general, in dialogues, is different from narrative texts. In fact, the dialogue structure (QA structure) has significant influence on anaphoric relations, and, especially, where the antecedent is located. In this sense, the antecedent of a specific anaphoric expression in a question could be located at the same question, at previous questions or at previous anwers (Negri y Kouylekov, 2007). 2. AQA scheme has been created ad hoc for multilingual applications. Indeed, our objective is to develop the same annotation scheme for different languages to have the possibility to employ it in multilingual QA systems. At present, the working languages in the project are English, Spanish and Italian. 3. With AQA annotation scheme we focus on the highest computational efficiency. Our final aim is to develop an anaphora resolution system for multilingual QA based on ML techniques. Consequently, the design of the specific scheme for ML has always been taken into account. ∗ This paper has been supported by the following projects: “Question Answering Learning technologies in a multiLingual and Multimodal Environment QALL-ME” (FP6 IST-033860), “Intelligent, Interactive and Multilingual Text Mining based on Human Language Technologies, TEXT-MESS” (TIN2006-15265-C06-01), by the Generalitat Valenciana throught the research grant BFPI06/182, and by the grant BII2008-7898717 of the University of Alicante. 1 About multilingual question-answering, see CLEF campaign at http://clef-campaign.org/ 4. With AQA annotation scheme we are looking for a broad applicability. In this sense, we do not follow any specific linguistic theory about anaphoric relations. Instead, we assume a standard point of 98 AQA: a multilingual Anaphora annotation scheme for Question Answering information about the anaphora. The available attributes for this tag are the following: view about the anaphoric phenomenon (Mitkov, 2002). The first step of our work consisted in deciding what had to be annotated, and in creating the resulting markup scheme. In the next section the main aspects of the markup scheme are presented. 3 – rel="dir|indir" (direct or bridging): this element indicates the relationship between the anaphora and its antecedent: direct (dir) or bridging (indir). – status="ok|no" (sure or uncertain): by inserting this attribute the annotator marks his/her (un)certainty with respect to a given annotation. – type="pron|sup|adv|elips|dd": this attribute specifies the type of anaphora, i.e., pronominal, adverbial, superficial. It is also used for ellipsis or definite description. – ref="n1": for indicating the number of the discourse entity (de) the anaphora is referring to. – ant="q|a" question or answer : this tag specifies if the antecedent is in the question or in the answer. If the answer does not appear in the corpus, but the antecedent is within the answer, the ant="ref" tag will not appear. The antecedent is marked only with the tag ant="a". – refq="q1": the question-answer pair in which the anaphora antecedent is situated. It will correspond to a specific q id labelled in the corpus. Markup scheme and tags The anaphoric elements that are manually specified are the following: • the anaphora type: we label pronominal, superficial, and adverbial anaphora, as well as some cases of ellipsis (elliptical subject, elliptical object, and nominal phrases with nominal complement but with elliptical head) and definite descriptions. • the relation type between anaphoric expression and its direct or bridging antecedent. Thanks to the link between the anaphora and its antecedent we are able to detect all the coreference chains throughout the corpus. • the topic change in a set of questions. We decided to detect the beginning and the end of each topic and subtopic. Questions grouped together share the same topic. However, we also observed some cases of subtopic in the same group. The tags created to build up our model are the following: Figure 1 shows a group of questions annotated using AQA. Some of these tags and a case of subtopic change can be observed. • <t></t> (topic): the function of this tag is to group questions about the same topic. 4 Some problematic cases 4.1 Antecedent detection • <subt></subt> (subtopic): this tag is used to mark the cases of topic change in the same group of questions. Anaphora annotation is a difficult task with a poor level of inter-annotator agreement (Mitkov, 2002). One of the main complex aspects is the ambiguity for the antecedent detection. In fact, there are cases in which more than one discourse entity could be the antecedent of an anaphoric expression. In the CLEF 2008 QA corpus there are many cases in which the antecedent can be labelled in the question, but also in the answer. In these cases, the annotators always mark the antecedent closest to the anaphoric • <q></q> (question): this tag indicates the question/answer pair. It has the ID attribute, which identifies the pair. • <de></de> (discourse entity): discourse entities (antecedents) are detected by assigning to the ant="ref" attribute of each anaphora the same ID attribute of its antecedent. • <link></link> (anaphora): anaphora element includes all the the 99 E. Boldrini, M. Puchol-Blasco, B. Navarro, P. Martínez-Barco, C. Vargas-Sierra <t> <q id="q538"> What was the name of the plane used by <de id="n52">John Paul II</de> in <link rel="indir" status="ok" ant="q" refq="q538" type="dd" ref="n52"> his travel</link> to the USA in 1995? </q> <subt> <q id="q539"> What instrument did Niccol Paganini play? </q> </subt> </t> It is not an easy task to deal with these cases of ambiguity arising from a lack of pragmatic or cultural knowledge. As a consequence, they are the main cause of mistakes during the annotation. 4.3 We also detect some cases of collective nouns, which are singular nouns referring to a plural concept. The problem here is that the anaphora does not always match up in number with its antecedent, and this situation could produce cases of ambiguity. Annotators must apply semantic criteria and common sense in order to detect the correct antecedent. In this example: Figure 1: Sample of the QA corpus CLEF 2008 annotated with AQA scheme. expression. However, if the corpus does not contain the answer (as in CLEF 2008 QA corpus), questions are given priority, as we work only with a collection of queries. When the annotators cannot find the antecedent of the anaphora under analysis in one of the questions of the collection, they will be forced to label the antecedent in the answer, although it does not appear explicitly in the corpus. 4.2 Collective nouns <t> <q id="q432"> What is <de id="n18">the starring cast </de> of the film Beetlejuice? </q> <q id="q433"> Who of <link rel="dir" status="ok" type="pron" ref="n18" ant="q" refq="q432"> them</link> is the main character? </q> </t> World knowledge As the previous example shows, the pronominal anaphora “them” is referring to the “starring cast”: “them” is plural and “the starring cast” is singular. The relation between them is correct, since the starring cast is a collective noun that refers to the group of actors who are performing in a movie. In order to label the anaphora and its antecedent properly, the annotators must activate sometimes their world knowledge. The problem may arise when it is not possible to know if annotators have the necessary world and cultural knowledge to detect the correct antecedent. For example, in this case, 4.4 <t> <q id="q404"> Which was <de id="n2">the "gordo" in the 1995 Christmas</de>? </q> <q id="q405"> Which was <link rel="indir" status="no" type="dd" ref="n2" ant="q" refq="q404"> the prize</link>? </q> </t> Doubtful position of the antecedent We also detected cases in which the antecedent recognition could be ambiguous, because the annotator has to choose between multiple options. Let us see an example: <t> <q id="q465"> What transport was used in <de id="n36">the Kon-Tiki Expedition</de>? </q> <q id="q466"> How many people crewed <link rel="dir" status="ok" type="pron" ref="n36" ant="q" refq="q465">it</link>? </q> </t> “the prize” is the definite description of “gordo”, but if the annotators do not know that in Spain the “gordo” is a typical Christmas lottery prize (and not Santa Claus or a “fat” men2 ), they will not be able to detect the correct antecedent for this anaphora. The annotator does not know whether the antecedent of “it” is the “transport” or “the 2 The literal translation of “gordo” in English is “fat”. 100 AQA: a multilingual Anaphora annotation scheme for Question Answering Kon-Tiki Expedition”. In fact this pronoun does not provide any information regarding its genre. As we have just mentioned, the general rule is to select the closest antecedent to the anaphora, which in this case is “the Kon-Tiki Expedition”. 4.5 the clitic pronouns. They appear attached to the verb. When clitic pronouns are detected, we do not separate the verb from the pronoun. 5 Evaluation In order to know the quality of this annotation scheme, we have developed a pilot evaluation, manually annotating the CLEF multilingual QA corpus. There are 600 questions in the corpus, each one translated into English (200), Italian (200) and Spanish (200). At the current state of the project, these results are preliminary. In the near future, our aim is to annotate a larger corpus. A blind annotation was carried out by two annotators. After this process, we evaluated the inter-annotator agreement independently for each aspect of anaphoric annotation and language. Finally we calculated the general agreement. The evaluation aspects we took into consideration are the following: Nested antecedent The problems mentioned in this subsection and in the next one do not represent special cases of difficulty, but they could produce ambiguity when specifying the correct size of the antecedent. There are cases in which we have an antecedent inside another one, and they are referring to two different anaphors. The next example shows this specific case: <t> <q id="q427"> Who were <de id="n14">the founders of <de id="n15">Magnum Photos</de> </de>? </q> <q id="q428"> In what year did <link rel="dir" status="ok" ant="q" refq="q427" type="pron" ref="n14">they</link> found <link rel="dir" status="ok" type="pron" ref="n15" ant="q" refq="q427">it</link>? </q> </t> 1. topic boundary; 2. anaphora detection; 3. anaphora attributes; and 4. antecedent recognition. The antecedent of “them” is “the founders of Magnum Photos”, while the antecedent for “it” is only “Magnum Photos”. 4.6 5.1 Measures used The measures used to calculate the interannotator agreement are the kappa value (when static classes are present), and the observed agreement (when non static classes are present). Kappa is computed according to Cohen method (Cohen, 1960; Carletta, 1996; Artstein y Poesio, 2008): An anaphora inside an antecedent of another one There are cases in which the anaphoric element has to be annotated inside the antecedent of an anaphora that has another antecedent. For example: <t> <q id="q434"> What is <de id="n19">a censer</de>? </q> <q id="q435"> What name is given to <de id="n20"> <link rel="dir" status="no" type="pron" ref="n19" ant="q" refq="q434">the one </link> of the Cathedral of Santiago de Compostela </de>? </q> <q id="q436"> How much does <link rel="dir" status="ok" type="pron" ref="n20" ant="q" refq="q435"> it</link> weight? </q> </t> k= P (A)−P (E) 1−P (E) where P (A) is the observed agreement among annotators, and P (E) the probability that annotators agree by chance. 5.2 Topic boundary evaluation Topic boundary can be seen as a binary classification. For each question the class “n” is assigned to mark a new topic, while the class “s” is employed when the question is about the same topic as the previous query. Taking into account these premises, Table 1 shows the contingency table and the kappa measure. Finally, we would like to mention a specific problem in the Italian and Spanish corpus: 101 E. Boldrini, M. Puchol-Blasco, B. Navarro, P. Martínez-Barco, C. Vargas-Sierra A1/A2 S N Kappa Spanish S N 62 0 0 138 1 Italian S N 62 0 0 138 1 English S N 61 0 1 138 0.988 (Adv), Superficial (Sup) and Definite Description (DD). The results for the type attribute are shown at Table 4. Elips Pron Adv Sup DD P(A) Kappa Table 1: Contingency table for topic boundary evaluation. 5.3 Anaphora detection Anaphora detection has not specific classes for using kappa measure. As a consequence, only the observed agreement among the annotators can be extracted. The anaphora detection agreement is presented in Table 2. The acronyms used in this table mean: A1: anaphors detected by annotator 1; A2: anaphors detected by annotator 2; AA: anaphors detection agreement; DAB: different anaphora boundary, that is, anaphors that coincide in the two corpora, but having different content. A1 A2 AA DAB Spanish 70 70 70 1 Italian 69 69 69 1 English 67 68 67 0 A1/A2 D I Kappa Italian Q A 62 0 0 7 1 Spanish D I 52 0 4 14 0.838 Italian D I 51 0 1 17 0.961 English D I 52 0 2 13 0.909 Table 5: Contingency table for relation attribute evaluation. 5.5 Once the anaphora has been detected, the method used for anaphora attribute evaluation is the kappa statistic. The results of the anaphora detection agreement are: 70 anaphors in Spanish, 69 in Italian, and 67 in English. Regarding the antecedent attribute, Q is used when the antecedent is detected in the question, while A is used when the antecedent is in the answer. Table 3 presents the contingency table for this attribute. Spanish Q A 64 0 0 6 1 English A1 A2 3 3 42 42 1 1 0 0 21 21 1 1 We also evaluated the agreement obtained regarding the relation attribute. In this case, it is possible to choose between two options; the first one is D (direct relation), while the second is I (indirect relation). Table 5 illustrates the results. Anaphora attributes A1/A2 Q A Kappa Italian A1 A2 32 32 13 13 2 2 0 0 22 22 1 1 Table 4: Anaphora type agreement. Table 2: Anaphora detection agreement. 5.4 Spanish A1 A2 33 33 13 15 1 1 1 0 22 21 0.97 0.955 Antecedent recognition Antecedent recognition has no fixed classes for using kappa measure, and as a consequence, the observed agreement among the annotators should be extracted. The antecedent recognition agreement is presented in Table 6. The acronyms used in this table mean: TAA: total antecedents into the answer; TAQ: total antecedents into the question; ASQ: anaphors pointing the same questions, it means, refq agreement; and ADB: antecedents with different boundary. English Q A 61 0 0 6 1 TAA TAQ ASQ ADB Spanish 6 64 64 2 Italian 7 62 62 3 English 6 61 61 1 Table 3: Contingency table for antecedent attribute evaluation. Table 6: Antecedent recognition agreement. The anaphora type was lebelled taking into consideration 5 attributes: Elipsis (Elips), Pronominal (Pron), Adverbial 5.6 General agreement The general agreement is showed in Table 7. In this evaluation, all the aforementioned at102 AQA: a multilingual Anaphora annotation scheme for Question Answering tributes have been considered: first column shows the amount of anaphors detected, and second column the amount of anaphors with exact agreement. Finally, the average for all languages is calculated as general agreement. Spanish Italian English Average Total 70 69 67 Agreement 60 60 59 As we mentioned in the previous section, we carried out the research with three languages involved. This multilingualism offers some advantages, but it is also a source of complexity. The main advantage is that the corpus shows cases in which the anaphoric relation is the same in different languages, so we can extract cross-linguistic features for anaphora resolution. However, using different languages may cause problems. In fact, languages are very complex and different from each other. Working with a parallel corpus does not provide any guarantee of similarity between them: there are cases in which the same query is different in the three languages, and the annotator should take into account these differences in order to annotate the corpus properly. In any case, as Future Work, we will apply the AQA annotation scheme to a larger corpus with more texts written in more languages in order to check its reliability, and, finally, to improve a multilingual anaphora resolution system for QA. % 0.857 0.869 0.880 0.868 Table 7: General agreement. Surprisingly, all these results show a high level of agreement between two annotators in all aspects evaluated. With these results we can conclude that the annotation scheme has been well designed, and its application to this multilingual QA corpus has been carried out correctly. However, as we said before, these results are only preliminary. Probably, the ambiguity level of this corpus is not too high, thus we will apply the same annotation scheme to a larger corpus, with more languages, more anaphoric expressions, and more cases of ambiguity. In this case, the results are promising, and they indicate that the project is progressing successfully. 6 Bibliografı́a Aduriz, I., K. Ceberio, y A. Dı́az de Ilarraza. 2007. Pronominal Anaphora in Basque: Annotation issues for later computational treatment. En A. Branco, editor, Anaphora: Analysis, Algorithms and Applications. 6th Discourse Anaphora and Anaphor Resolution Colloquium, DAARC 2007, volumen 4410 de Selected Papers. Lecture Notes in Computer Science, Lagos Portugal. Conclusion and Future Work In this paper we have presented AQA, an anaphora annotation scheme for the manual annotation of multilingual QA corpora. With this scheme we mark different types of anaphors, the relationship between anaphora and its antecedent, and the groups of questions with the same topic. The main purpose of this scheme is to develop an anaphora resolution system based in ML techniques in order to improve the interaction between the user and the QA system and, in this way, establishing a dialogue between them. In fact, by using AQA, a ML system will be able to extract many features capable of detecting the correct antecedent for each anaphora. As we can conclude from the evaluation results, we reached a considerable interannotator agreement rate. However, our intention is to apply the scheme to other collections of questions and other languages to check AQA reliability. Artstein, R. y M. Poesio. 2008. Inter-Coder Agreement for Computational Linguistics. Computationl Linguistics, 34(4):555–596. Carletta, J. 1996. Assessing agreement on classification task: the kappa statistic. Computational Linguistics, 22(2):249–254. Cohen, J. 1960. A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 20:37–46. Fligelstone, S. 1992. Developing a Scheme for Annotating Text to Show Anaphoric relations. En G. Leitner, editor, New Direction in English Language Corpora: Methodology, Results, Software Developments. Mouton de Gruyter, Berlin, páginas 153–170. 103 E. Boldrini, M. Puchol-Blasco, B. Navarro, P. Martínez-Barco, C. Vargas-Sierra Hirschman, L. y N. Chincho. 1998. Muc7 coreference task definition (version 3.0). En Proceedings of Message Understanding Conference (MUC-7). Recasens, M., M.A. Martı́, y M. Taulé. 2007. Text as a Scene: Discourse deixis and Bridging relations. Procesamiento del Lenguaje Natural, 39:205–212. Jain, P., M. Mital, S. Kumar, A. Mukerjee, y A. Raina. 2004. Anaphora resolution in multi-person dialogues. En Michael Strube y Candy Sidner, editores, Proceedings of the 5th SIGdial Workshop on Discourse and Dialogue, páginas 47–50, Cambridge, Massachusetts, USA. Tutin, A., F. Trouilleux, C. Clouzot, E. Gaussier, A. Zaenen, S. Rayot, y G. Antoniadis. 2000. Anotating a large corpus with anaphoric links. En Proceedings of the Discourse, Anaphora and Reference Resolution Conference (DAARC 2000), Lancaster. Martı́nez-Barco, P. y M. Palomar. 2001. Computational Approach to Anaphora Resolution in Spanish Dialogues. Journal of Artificial Intelligence Research, 15:263– 287. Mitkov, R. 2002. Longman. Anaphora Resolution. Mitkov, R., R. Evans, C. Orasan, C. Barbu, L. Jones, y V. Sotirova. 2000. Coreference and anaphora: developing annotating tools, annotated resources and annotation strategies. En Proceedings of the Discourse, Anaphora and Reference Resolution Conference (DAARC 2000), Lancaster. Navarro, B. 2007. Metodologı́a, construcción y explotación de corpus anotados semántica y anafóricamente. Ph.D. tesis, University of Alicante, Alicante. Negri, M. y M. Kouylekov. 2007. ’Who Are We Talking About?’ Tracking the Referent in a Question Answering Series. En A. Branco, editor, Anaphora: Analysis, Algorithms and Applications. 6th Discourse Anaphora and Anaphor Resolution Colloquium, DAARC 2007, volumen 4410 de Selected Papers. Lecture Notes in Computer Science, Lagos Portugal. Poesio, M. 2004. Discourse annotation and semantic annotation in the gnome corpus. En Proceedings of the 2004 ACL Workshop on Discourse Annotation, páginas 72–79, Barcelona. Popescu-Belis, A. y I. Robba. 1997. Cooperation between pronoun and reference resolution for unrestricted texts. En Proceedings of the ACL’97/EACL’97 workshop on Operational Factor in Practical, Robust Anaphora Resolution, Madrid. 104 Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 105-112 recibido 15-01-09, aceptado 02-03-09 Co-referential chains and discourse topic shifts in parallel and comparable corpora∗ Cadenas correferenciales y cambios de tópico discursivo en corpus paralelos y comparables Costanza Navarretta University of Copenhagen Njalsgade 140-142, build. 25 2300 Copenhagen - Denmark Resumen: En este artı́culo se describen los textos del italiano y danés comparables y anotados con cadenas de correferencia e información sobre los cambios de tópico discursivo, ası́ como una evaluación de dicha anotación. También se discuten las diferencias generales en el modo de referir las expresiones en danés e italiano. Se presenta también el análisis de la relación entre el uso de tipos de expresiones referidas y cambios de tópico discursivo en parte de los datos utilizando el marco teórico del Centering. Palabras clave: italiano, danés, cadenas correferenciales, tópico discursivo, anotación de corpus Abstract: In this paper we describe Danish and Italian parallel and comparable texts annotated with (co)referential chains and information about discourse topic shifts, and present an evaluation of the annotation. We also discuss general differences in the way referring expressions are used in Danish and Italian and present the analysis of the relation between the use of types of referring expression and discourse topic shifts in part of the data using the Centering framework. Keywords: Italian, Danish, referential chains, discourse topics, corpus annotation 1 Introduction Identifying co-referential chains in corpora is important for many applications involving natural language processing. Studying the relation between co-referential chains, the use of nominal expressions and discourse topic shifts is furthermore useful for particular NLP applications such as summarization, abstracting, natural language generation and machine translation. A theoretic framework for analysing the relation between the use of types of referring expression and discourse topic shifts is provided by the Centering Theory (Grosz, Joshi, and Weinstein, 1995; Brennan, Friedman, and Pollard, 1987). This theory mainly focuses on pronouns and follows cognitive models of reference of nominal expressions, among many (Ariel, 1994; Prince, 1981; Gundel, Hedberg, and Zacharski, 1993; Lambrecht, 1994), according to which reference by pronouns reflects the assumption made by speakers that the referred entities are the most central (salient, known, given) in the addressee’s mental state at that point in discourse, while reference by other types of nominal phrase usually indicate that the referred entities are less central in the addressees’ discourse model. Versions of Centering have implemented different salience models based on factors such as word order, syntactic or semantic function of entities, information structure and anaphoric distance, see among many (Brennan, Friedman, and Pollard, 1987; Strube and Hahn, 1999; Navarretta, 2002). Some of these Centering versions have been motivated by language specific characteristics which cannot be accounted for by salience models based on English. To our knowledge, there is no systematic study of the use of different referring expressions in various transition states and a comparison of this use in different types of language1 . The main objectives behind our work have been the following: i) to provide a pilot corpus of parallel and comparable Danish and 1 ∗ Thanks to Sussi Olsen, Delia Malatesta, Daniele Prada e Elisabetta Cerini. ISSN 1135-5948 A partial exception is Di Eugenio (1996)’s analysis of subject referring expressions in Italian, see section 2. © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural Costanza Navarretta Italian texts annotated with co-reference and with discourse topic shifts; ii) to investigate whether there is a systematic relation between various types of referring expressions and their use in different transition states in the two languages; iii) to individuate similarities and differences in co-referential chains and in the use of referring expressions in discourse topic shifts in Danish and Italian; iv) to study whether different referring strategies are used in fiction and non-fiction texts. The paper is organised as follows. In section 2 we discuss related work and research which have inspired us. In section 3 we shortly present our data and in section 4 we describe our annotation scheme and discuss inter-annotator agreement results. In section 5 we discuss the results of our analysis of the annotated data and finally, in section 6 we make some concluding remarks and present work still to be done. 2 ferring expression after the various transition states is not explored in the Centering theory. However, many researchers in the Centering framework have looked at aspects which are central to the relation between reference and discourse structure including the definition of transition states, the presence and/or uniqueness of backward-looking centers and the realisation of centers, see especially (Brennan, Friedman, and Pollard, 1987; Strube and Hahn, 1999; Fais, 2004; Poesio et al., 2004; Kibble and Power, 2004). Independently from the Centering framework, Givón (1983) provides an analysis of the relation between topic shifts and use of subject referring expressions in English and Pidgin English monologues. He recognises two kinds of junctures in his data: minor junctures after clauses and major junctures after sentences. In this paper we look at both global and local coherence and are especially interested in the types of nominal referring expression used in Danish and Italian texts after various transitions. We are strongly inspired by the work of Di Eugenio (1996) who analysed occurrences of Italian pronouns and full nominal phrases in subject position respect to a particular version of the Centering’s transition states. Her focus was on the use of zero pronouns2 . We adopt a combination of two cognitive models of referring expressions: the Givenness Hierarchy proposed by Gundel, Hedberg, and Zacharski (1993) and Ariel (1988), (1994)’s Accessibility Marker Scale. Gundel, Hedberg, and Zacharski (1993) organise the assumed cognitive statuses of discourse entities in their Givenness Hierarchy and connect each status to a precisely identified referring expression, exemplified by an English nominal phrase (table 2). They argue for the universality of their hierarchy, although they notice that not all languages have referring expressions for each status in the hierarchy. The Givenness Hierarchy is interesting because, differing from related cognitive models, it assumes that the various cognitive statuses are implicationally related and not mutually exclusive. Thus, according to this theory, a referring form encodes the necessary and sufficient status it belongs to as well as all the higher statuses in the hierar- Related Work The relation between reference and discourse structure has been pointed out in numerous studies, among many (Kuno, 1972; Halliday and Hasan, 1976; Hobbs, 1979; Grosz and Sidner, 1986; Cristea and Ide, 1998). Centering is about local coherence, but the theory presupposes global coherence as proposed by Grosz and Sidner (1986). In Centering the relation between continuations or shifts in co-reference chains and the use of referring expressions is modelled in terms of so-called transition states and of the preferences holding among them. These preferences reflect the assumption that the mental effort to process reference is less when the central topic of discourse is maintained and when this topic is realised by the most salient entity than when the central topic changes or is realised by a less prominent entity. Because pronouns signal reference to the most salient entities, pronominal chains are assumed to be more frequent in center continuations than in center shifts. The transition types proposed by Brennan, Friedman, and Pollard (1987) are in (table 1). The use of other types of reCb (Un ) = Cb (Un−1 ) OR no Cb (Un−1 ) Cb (Un ) = Cp (Un ) Cb (Un ) 6= Cp (Un ) Cb (Un ) 6= Cb (Un−1 ) CONTINUE SOFT-SHIFT RETAIN ROUGH-SHIFT Table 1: Transition states 2 106 Italian is a subject pro-drop language. Co-referential chains and discourse topic shifts in parallel and comparable corpora in focus it > activated that this this N > familiar > that N uniquely identifiable the N > referential indefinite this N > type identifiable a N Table 2: The Givenness Hierarchy (unambiguously) and/or the less attenuated the form (longer or louder) of a referring expression the lower accessibility it marks. We use Ariel’s classification of referring expressions, but assume with Gundel, Hedberg, and Zacharski (1993) that the cognitive statuses related to the different referring expressions are implicationally related. chy (the statuses on its left). This accounts for cases in discourse where a speaker uses a referring expression signalling a less given cognitive status than required by the context, e.g. to emphasise some entities. One problem with the Givenness Hierarchy is that it does not account for differences between types of referring expression which do not occur in English. This is the case for the Italian zero anaphora and clitics. A more fine-grained hierarchy of nominal referring expressions is presented by Ariel (1994). Also Ariel points out that speakers code how accessible a referent is to the addressee by using different referring expressions. Analysing the distance between antecedent and referring expressions, one of the factors that determine the accessibility of these expressions, Ariel builds up an accessibility marker system for referring expressions. In her system unmarked means prototypical, while the concept of markedness presupposes the notion of formal complexity and is connected with structural complexity, low frequency and cognitive complexity. A simplified version of Ariel’s Accessibility Marking Scale (Ariel, 1994) is given in figure 1. The accessibility of the expressions de- 3 The data We have annotated the following Danish and Italian data: • Parallel texts: i) European law texts (7,631 running words in Italian and 7,101 running words in Danish); ii) Italian stories by Pirandello (9,018 words) and their Danish translations (9,933 words) • Comparable texts: i) Financial newspapers: the Italian Il Sole 24 Ore (6,964 words) and the Danish Børsen (3,325 words) The source language of the European texts is not known, but it is probably English or French. The parallel texts and some of the comparable texts which we have annotated belong to the MULINCO corpus (Maegaard et al., 2006). Part of these texts are freely available. In order to obviate some of the problems connected with the use of translated texts3 we have annotated articles from financial newspapers in the two languages describing similar events and written in the same period of time. Although these articles are covered by copyright restrictions, they can be obtained by the publishing editors for research. zero < reflexives < cliticised pronouns < unstressed pronouns < stressed pronouns < stressed pronouns + gesture < proximal demonstrative (+ NP) < distal demonstrative (+ NP)< proximal demonstrative + NP + modifier < distal demonstrative + NP + modifier < first name or last name < definite description < full name Figure 1: Ariel’s Accessibility Marking Scale creases from left to right: the highest accessibility markers being the most unmarked linguistic expressions. Thus the symbol < in the scale refers to the degree of markedness. The more (lexically) informative, the more rigidly 3 One of these problems is the use of referring expressions in the target language being influenced by the referring expressions used in the source language. Examples of these influence are in (Navarretta, 2007). 107 Costanza Navarretta 4 The annotation drop language and has both independent and clitic pronouns. A kind of seg markers, seg1 is used to mark verbal phrases containing one or more clitic pronouns, as illustrated in example 2 where the verb form promettendoglielo (promising it to him) contains two clitic pronouns gli (to him) and lo (it), which co-refer with two entities whose identifiers are n150 and i24 respectively (promettendo[gli]n150 e[lo]i24 ). The data we have annotated with coreference had been previously annotated with abstract pronominal anaphora information in the DAD project. These anaphora are thirdperson singular pronouns whose linguistic antecedents are predicates in copula constructions, verbal phrases, clauses and discourse segments. The annotation specific to abstract anaphora is described in (Navarretta and Olsen, 2008) and comprises the semantic type of abstract referents, partially inspired by the classification of abstract objects by Asher (1993). Discourse topics have been annotated using a variation of the annotation proposed by Rocha (2000) who distinguishes among discourse topics, segment topics and subsegment topics in English and Portuguese dialogues. In our data paragraphs correspond in most cases to discourse segments, see (Grosz and Sidner, 1986). Discourse segments have been further divided into subtopics and subsubtopics. A subset of the data has been marked with the transition types proposed in (Brennan, Friedman, and Pollard, 1987)5 . The salience model adopted for annotating transition states in both Danish and Italian is mainly that proposed in (Navarretta, 2002; Navarretta, 2005) (figure 2). We have used PALinkA (Orăsan, 2003) as annotation tool. The first 4000 words of the Italian data were annotated by four annotators and inter-annotator agreement was automatically calculated on these data in terms of weighed kappa statistics6 (J.Cohen, 1968) using PRAM7 . The obtained results varied from 0.60 to 0.95, depending on the type of Co-referential and referential chains in the corpus have been annotated using an extension of the MATE/GNOME annotation scheme (Poesio, 2004). Bridging anaphora have not been annotated. We use the markables proposed in the MATE/GNOME scheme, i.e. de to mark discourse entities and seg to annotate non nominal referring expressions. The markable link marks the relation between referring expressions and their antecedents. We have added a number of attributes to these markables to encode the following information: a) the type of referring expression comprising the pronominal and nominal types recognised by Ariel (1994); b) the syntactic type of the antecedent including nominal and non-nominal antecedents, such as predicates in copula constructions, verbal phrases, clauses and discourse segments; c) the pronominal function, such as cataphoric, individual anaphoric, deictic, pleonastic, abstract anaphoric. Only two types of relation between referring expressions and antecedents are used: identity and non-identity. The identity relation is used for co-reference, while nonidentity is used for all other cases, comprising the relations between antecedents and anaphora referring to different semantic types of entity, and the relation connecting appositions to the nominal phrases they define or modify. Example 1 contains the annotation of the two appositions in the text segment Lina Sarulli, prima Lina Taddei, ora Lina Fiorenzo (Lina Sarulli, previously Lina Taddei, now Lina Fiorenzo) from Pirandello’s story La buon’ anima. The two appositions are bound to the proper Lina Sarulli by a non-identity relation. We have added some markables to the MATE/GNOME scheme to mark pleonastic pronouns and pronouns in abandoned utterances4 . Possessive pronouns and deictic pronouns in direct speech are also annotated. These occurrences of deictic pronouns are in most cases part of the co-referential chains in the fiction data. Two slightly different annotation schemes are used for Danish and Italian, accounting for language specific differences, such as the fact that Italian is a subject PRO4 5 Only the author annotated this information. Other evaluation methods are discussed by Arstein and Poesio (2008). 7 http://www.geocities.com/skymegsoftware /pram.html. 6 These occur in direct speech in our fiction data. 108 Co-referential chains and discourse topic shifts in parallel and comparable corpora (1) <de ID="n643" firstm="MNO" syn-type="PR"> <link Ltype="ident" POINT-BACK="n334"/> <W id="w2.24.15" lemma="lina" pos="NPR">Lina</W> <W id="w2.24.16" lemma="sarulli" pos="NPR">Sarulli</W></de> <W id="w2.24.17" lemma="," pos="PON">,</W> <W id="w2.24.18" lemma="prima" pos="ADV">prima</W> <de ID="n644" firstm="MNO" syn-type="PR"> <link Ltype="no_ident" POINT-BACK="n643"/> <W id="w2.24.19" lemma="lina" pos="NPR">Lina</W> <W id="w2.24.20" lemma="taddei" pos="NPR">Taddei</W></de> <W id="w2.24.21" lemma="," pos="PON">,</W> <W id="w2.24.22" lemma="ora" pos="ADV">ora</W> <de ID="n645" firstm="MNO" syn-type="PR"> <link Ltype="no_ident" POINT-BACK="n643"/> <W id="w2.24.23" lemma="lina" pos="NPR">Lina</W> <W id="w2.24.24" lemma="fiorenzo" pos="NPR">Fiorenzo</W></de> (2) <seg1 ATYPE="indiv" ID="i25" PTYPE="lo-clitico" syn-type="V"> <link Ltype="ident" POINT-BACK="i24"/> <seg1 ATYPE="indiv" ID="i151" PTYPE="gli-clitico" syn-type="V"> <link Ltype="ident"POINT-BACK="n150"/> <W id="w25.57.60" lemma="promettere" pos="VER:geru">promettendoglielo</W></seg1></seg1> markable. The worse results were obtained in the annotation of discourse segment antecedents of abstract substantives. Examples of these abstract referring expression are tali situazioni (such situations) and questa discussione (this discussion). Inter-coder agreement for the annotation of pronominal abstract anaphora was not calculated because it had been tested in the DAD project (Navarretta and Olsen, 2008). An annotation example is in 3. The annotated text segment is [La Acqua M arcia]i può evitare il fallimento. [La finanziaria di [V incenzo Romagnoli]j ]i . . . ([La Acqua M arcia]i can avoid bankruptcy. [[V incenzo Romagnoli]j ’s investment company]i ) [Il Sole 24 ore(31.12.1992)]. The annotation of co-reference is expressed by saying that the nominal phrase Vincenzo Romagnoli’s investment company, is related to the proper La Acqua Marcia by an identity relation. 5 it da Zero 1225 - Clit 240 - PRO 1075 2331 Name 762 602 NPs 1995 1524 Table 3: Number of markables in literary texts are much longer than those in non-literary texts. This is not surprising because the stories are longer than the financial articles and they focus on fewer subjects (persons, objects) than the analysed European texts. In our data there are nearly 5 times more pronouns pr. 1000 words in literary data than in non-literary texts. Reference by substantives was on the contrary higher in the nonliterary texts than in the literary data (here the proportion pr. 1000 words was 4 to 1). The average distance in terms of sentences between referring expressions and their antecedents is higher in literary data than in non literary data. We have not investigated yet whether there is a relation between referential distance and number of discourse entities and possible candidate antecedents in the involved texts. Inferable entities are more often anchored to known entities by genitives in Danish than in Italian. An example is in 4. Results The number of markables annotated in the data are given in table 3. To these markables must be added the seg elements which code the non-nominal antecedents of abstract anaphora, pleonastic and abandoned occurrences of pronouns. The length of co-referential chains varies consistently from text type to text type independently from the analysed language. The (co)referential chains (4) Fin dal primo giorno, Bartolino Fiorenzo s’era sentito dire dalla promessa sposa. . . (the fiancèe) Fra første dag havde Bartolino 109 Costanza Navarretta Fiorenzo hørt sin tilkommende sige. . . (his fiancée) (From the very first day Bartolino Fiorenzo had heard his fiancée say. . . ) Pirandello: La buon’ anima cussed some dissimilarities in the use of referring expressions in the two languages. The relation between types of referring expression used to refer to the backward-looking center after different types of transition have been studied in the fiction data. Although the results are interesting they can only be considered preliminary because of the limited amount of data. Furthermore the analysed Danish texts are translations of the Italian stories, thus more differences in-between the two languages might be found in comparable data. However we believe that the strategy of looking at the relation between transition types and types of referring expression is very useful especially if conducted on more languages and on more types of text. Currently we are annotating the transition types on the remaining data and we plan to extend our analysis to the referential distance and to the number of competing antecedent candidates. In Italian the distal demonstrative determiners quel /quello/quella (that) and quelli /quelle (those) followed by a substantive are used if i) there are other clauses or nominal phrases in-between the referring expression and antecedent; ii) there is temporal or spatial distance from the antecedent. In Danish the proximal demonstrative determiners denne/dette/disse (this/these) are used in the same contexts: quella donna (that woman)/denne kvinde (this woman); quella sciagura (that calamity)/denne ulykke (this calamity). Only if the antecedent is the immediately preceding discourse segment the proximal demonstrative determiners are used in both languages. As noticed in (Navarretta, 2007; Navarretta and Olsen, 2008) abstract substantives are used in Italian in most cases where Danish uses abstract pronouns. The analysis of the relation between transition states and types of referring expressions in the three stories by Pirandello is given for Italian in figure 3 and for Danish in figure 4. The figures give a scale of the significantly most frequent referring expressions occurring as centers after the various Centering transition types8 . The results in the figures only partially confirm existing classifications of the givenness or salience of referring expressions and reflect some of the differences between Danish and Italian that we have previously discussed. An interesting fact, which cannot be seen in the figures is that in these particular data deictic pronouns are in 96% ”locally” deictic and have thus been linked to the local co-referential chains. Because the amount of our data is not large, the present results are only preliminary. 6 References Ariel, M. 1988. Referring and accessibility. Journal of Linguistics, 24(1):65–87. Ariel, M. 1994. Interpreting anaphoric expressions: a cognitive versus a pragmatic approach. Journal of Linguistics, 30(1):3– 40. Arstein, R. and M. Poesio. 2008. Inter-coder Agreement for Computational Liguistics. Computational Linguistics, 34(4):555–596. Asher, N. 1993. Reference to Abstract Objects in Discourse, volume 50 of Studies in Linguistics and Philosophy. Kluwer Academic Publishers, Dordrecht, the Netherlands. Brennan, S. F., M. W. Friedman, and C. J. Pollard. 1987. A Centering Approach to Pronouns. In Proceedings of ACL 87, pages 155–162, California, USA. Stanford University. Conclusion Cristea, D. and N. Ide. 1998. Veins theory: A model of global discourse cohesion and coherence. In Proceedings of COLING/ACL 98, pages 281–285, Montreal. We have presented a rich annotation of (co)referential chains in Danish and Italian comparable and/or parallel data and we have dis- Di Eugenio, B. 1996. The discourse functions of Italian subjects: a centering approach. In Proceedings of COLING 96, pages 352– 357, Copenhagen, Denmark. Centre for Language Technology. 8 In the two figures Def N. anchored refer to all definite nominal phrases which are bound to entities previously introduced in discourse (Prince, 1981) via e.g. genitive phrases, propositional phrases, relative clauses. 110 Co-referential chains and discourse topic shifts in parallel and comparable corpora Fais, L. 2004. Inferable centers, centering transitions and the notion of coherence. Computational Linguistics, 30(2):119–150. Navarretta, C. 2005. Combining information structure and centering-based models of salience for resolving danish intersentential pronominal anaphora. In A. Branco, T. McEnery, and R. Mitkov, editors, Anaphora Processing. Linguistic, cognitive and computational modeling, volume 263 of Current Issues in Linguistic Theory. John Benjamins Publishing Company, pages 329–350. Givón, T., editor. 1983. Topic Continuity in Discourse: A Quantitative CrossLanguage Study. John Benjamin, Amsterdam. Grosz, B., A. K. Joshi, and S. Weinstein. 1995. Centering:A Framework for Modeling the Local Coherence of Discourse. Computational Linguistics, 21(2):203–225. Navarretta, C. 2007. A contrastive analysis of abstract anaphora in danish, english and italian. In A. Branco, T. McEnery, R. Mitkov, and F. Silva, editors, Proceedings of DAARC 2007, pages 103–109. Centro de Linguistica da Universidade do Porto, March. Grosz, B. J. and C. L. Sidner. 1986. Attention, Intentions, and the Structure of Discourse. Computational Linguistics, 12(3):175–284. Navarretta, C. and S. Olsen. 2008. Annotating abstract pronominal anaphora in the DAD project. In Proceedings of LREC2008, Marrakesh, Marocco, May. Gundel, J. K., N. Hedberg, and R. Zacharski. 1993. Cognitive status and the form of referring expressions in discourse. Language, 69(2):274–307. Orăsan, Constantin. 2003. highly customizable tool for notation. In Proceedings of dial Workshop, pages 39 – Japan, July, 5 -6. Halliday, M. and R. Hasan. 1976. Cohesion in English. Longman, London. Hobbs, J. R. 1979. Coherence and Coreference. Cognitive Science, 3(1):67–90. PALinkA: a discourse anthe 4th SIG43, Sapporo, Poesio, M, R. Stevenson, B. Di Eugenio, and J. Hitzeman. 2004. Centering: A parametric theory and its instantiations. Computational Linguistics, 30(3):309–364. J.Cohen. 1968. Weighted kappa: nominal scale agreement with provision for scaled disagreement or partial credit. Psychological Bulletin, 70(4):213–220. Poesio, Massimo. 2004. The mate/gnome proposals for anaphoric annotation, revisited. In Michael Strube and Candy Sidner, editors, Proceedings of the 5th SIGdial Workshop, pages 154–162, Cambridge, Massachusetts, USA, April 30 May 1. Association for Computational Linguistics. Kibble, R. and R. Power. 2004. Optimizing Referential Coherence in Text Generation. Computational Linguistics, 30(4):401–416. Kuno, S. 1972. Functional sentence perspective. Linguistic Inquiry,, 3:269–320. Prince, E. F. 1981. Toward a taxonomy of given-new information. In P. Cole, editor, Radical Pragmatics. Academic Press, pages 223–255. Lambrecht, K. 1994. Information structure and sentence form - Topic, focus and the mental representations of discourse referents, volume 71 of Cambridge Studies in Linguistics. Cambridge University Press. Rocha, M.A.E. 2000. A corpus-based study of anaphora in english and portuguese. In S.P Botley and T. McEnery, editors, Corpus-based and Computational Approaches to Discourse Anaphora. Benjamins Publishing Company, pages 81–94. Maegaard, B., L. Offersgaard, L. Henriksen, H. Jansen, X. Lepetit, C. Navarretta, and C. Povlsen. 2006. The MULINCO corpus and corpus platform. In Proceedings of LREC-06), pages 2148–2153, Genova. Strube, M. and U. Hahn. 1999. Functional Centering - Grounding Referential Coherence in Information Structure. Computational Linguistics, 25(3):309–344. Navarretta, C. 2002. The use and resolution of Intersentential Pronominal Anaphora in Danish Discourse. Ph.D. thesis, University of Copenhagen, February. 111 Costanza Navarretta FOCUS PROPER < SUBJECT < OBJECT/PrepOBJECT < OBJECT2 < OTHER COMPLEMENTS < ADJUNCTS Figure 2: Hierarchy of verbal complements with focality preference (3) <S id="s35.1"> <de ID="n173" firstm="MYES" syn-type="PR"> <link Ltype="ident" POINT-BACK="n172"/> <W id="w35.1.1" lemma="il" pos="DET:def">La</W> <W id="w35.1.2" lemma="acqua" pos="NOM">Acqua</W> <W id="w35.1.3." lemma="marcio" pos="ADJ">Marcia</W></de> <W id="w35.1.4" lemma="potere"pos="VER:pres">può</W> <W id="w35.1.5" lemma="evitare" pos="VER:infi">evitare</W> <de ID="n521" firstm="MYES" syn-type="DefN"> <W id="w35.1.6" lemma="il" pos="DET:def">il</W> <W id="w35.1.7" lemma="fallimento" pos="NOM">fallimento</W></de> <W id="w35.1.8" lemma="." pos="SENT">.</W></S> <S id="s35.2"> <de ID="n174" firstm="MNO" syn-type="DefN-anch"> <link Ltype="ident" POINT-BACK="n173"/> <W id="w35.2.1" lemma="il" pos="DET:def">La</W> <W id="w35.2.2" lemma="finanziaria" pos="NOM">finanziaria</W> <W id="w35.2.3" lemma="di" pos="PRE">di</W> <de ID="n522" syn-type="PR"> <W id="w35.2.4" lemma="Vincenzo" pos="NPR">Vincenzo</W> <W id="w35.2.5" lemma="romagnoli" pos="NPR">Romagnoli</W></de> </de>... </S>... Continue: Zero> Pronoun>clitic> Dem. N Retain: Clitic>Pronoun > Proper Name > Def. N >Def. N anchored> Zero > Dem. N Smooth Shift: Proper Name > Def. N > Pronoun>Def. N anchored Rough Shift: Def. N > Def. N anchored> Proper Name> Dem. N >Pronoun NULL: Proper name > Def. N anchored > Indef. N > Def. N Figure 3: Transition types and referring expressions in Italian Continue: Pronoun>Name>Def. N anchored Retain: Pronoun > Proper Name > Def. N anchored >Def. N> Smooth Shift: Proper Name > Def. N anchored > Pronoun>Def N Rough Shift: Def. N anchored> Proper Name> Def. N>Pronoun NULL: Proper name > Def. N anchored > Indef. N > Def. N Figure 4: Transition types and referring expressions in Danish 112 Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 113-120 recibido 15-01-09, aceptado 02-03-09 Detecting Anaphoricity and Antecedenthood for Coreference Resolution Detección de la anaforicidad y de los antecedentes para la resolución de la correferencia Olga Uryupina Institute of Linguistics, Russian Academy of Science B. Kislovky per. 1/12, Moscow [email protected] Resumen: La mayorı́a de sistemas de resolución de la correferencia (CR) intentan resolver todos los candidatos a anáfora comparándolos a todos los antecedentes candidatos precedentes hasta que se encuentra el correcto. En este estudio se investigan las posibilidades de identificar las anáforas y antecedentes improbables. Se evalúa nuestra aproximación con el corpus MUC-7. Palabras clave: Correferencia, anaforicidad Abstract: Most coreference resolution (CR) systems try to resolve all “candidate anaphors” by comparing them to all preceding “candidate antecedents” until the correct one is found. In this study we investigate possibilities to identify unlikely anaphors and antecedents. We evaluate our approach on the MUC-7 corpus. Keywords: Coreference, Anaphoricity 1 Introduction Most coreference resolution (CR) systems try to resolve all “candidate anaphors” by comparing them to all preceding “candidate antecedents” until the correct one is found. Not all noun phrases in a document, however, participate in coreference relations, and, even if they do, they often can only be anaphors or antecedents, but not both. Present study investigates possibilities to automatically reduce the pool of anaphors and antecedents by filtering out unlikely candidates. In some cases, we can determine if a markable could potentially be an anaphor or an antecedent by looking at its structure and surrounding context. Consider the following example: (1) Shares in [Loral Space]1 will be distributed to Loral shareholders. [The new company]2,ante=1 will start life with [no debt]3 and $700 million in cash. [Globalstar]4 still needs to raise [$600 million]5 , and Schwartz said that [the company]6,ante=4 would try to raise [the money]7,ante=5 in [the debt market]8 . The third markable, “no debt” can be neither an anaphor, nor an antecedent. We can tell that by looking at its structure – with the determiner “no”, this description does not reISSN 1135-5948 fer to any entity. The second, sixth and seventh markables are all definite descriptions and therefore are likely to be anaphoric. The eighth markable, “the debt market” is a definite NP, but it is a uniquely referring description and thus it might as well be non anaphoric. Finally, the fifth markable, “$600 million” is a possible antecedent (and is indeed mentioned again as “the money” later), but not a very likely anaphor. Most CR systems, including, for example, the algorithm of Soon, Ng, and Lim (2001) try to resolve all “candidate anaphors” by comparing them to all preceding “candidate antecedents” until the correct one is found. Such approaches require substantial amount of processing: in the worst case one has to check n(n − 1)/2 candidate pairs, where n is the total number of markables found by the system. Moreover, spurious coreference links may appear when, for example, a nonanaphoric description is resolved to some preceding markable. Vieira and Poesio (2000) have shown that such an exhaustive search is not needed, because many noun phrases are not anaphoric at all: more than 50% of definite NPs in their corpus have no prior referents. Obviously, this number is even higher if one takes into © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural Olga Uryupina account all the other types of NPs – for example, only 30% of our (automatically extracted) markables are anaphoric. We can conclude that a coreference resolution engine might benefit from a pre-filtering algorithm for identifying non-anaphoric and non-antecedent descriptions. First, we save much processing time by discarding at least half of the markables. Second, the prefiltering module is expected to improve the system’s precision by discarding spurious candidates. In Section 2 we briefly summarise theoretical research on anaphoricity and referentiality and discuss the related applications. Note that theoretical studies focus on referentiality, whereas we will consider a related task of detecting antecedenthood (this will be described in details below). In Section 3 we experiment on learning anaphoricity and antecedenthood filters from the MUC data. In Section 4 we incorporate the anaphoricity and antecedenthood classifiers into a baseline no-prefiltering coreference resolution system to see if such prefiltering modules help. 2 cific indefinite NP is to be associated with a referent, a text-interpreting device must be able to assign a truth value to the proposition represented by the sentence in which the NP appears. It must be sensitive to the semantic properties of verbs that take sentential complements; distinguish between assertion, implication, and presupposition; and finally, it must distinguish what exists for the speaker from what exists only for somebody else”. Byron and Gegg-Harrison (2004) present an algorithm for identifying “nonlicensing” NPs based on Karttunen’s theory of referentiality. Their approach relies on a handcrafted heuristic, encoding some of (Karttunen, 1976) factors. In the present study we represent this information as features for machine learning. Numerous theories of anaphoricity, especially for definite descriptions, have been proposed in the literature. We point the reader to Vieira (1998) for an extensive overview and comparison of the major theoretic studies in the field. The theories aim at interpreting (definite) descriptions by relating them to the linguistic and situational context and, more specifically, to their antecedents. From this perspective, an NP may be given (related to the preceding discourse) or new (introducing an independent entity). The theories of anaphoricity provide different detailed subclassifications of given and new descriptions. For example, Prince (1981) distinguishes between the discourse and the hearer givenness. This results in the following taxonomy: Related Work In this section, we present an overview of theoretical studies of referentiality (Karttunen, 1976) and anaphoricity (Prince, 1981). We also discuss relevant computational approaches (Bean and Riloff, 1999; Ng and Cardie, 2002; Uryupina, 2003; Vieira and Poesio, 2000; Byron and Gegg-Harrison, 2004). Karttunen (1976) points out that in some cases an NP, in particular an indefinite one, does not refer to any entity: (2) Bill doesn’t have [a car]. Obviously, (2) does not imply the existence of any specific “car”. In Karttunen’s terms, the NP “a car” does not establish a discourse referent and therefore it cannot participate in any coreference chain – none of the alternatives in (3) can follow (2): (3) A.[It] is black. B.[The car] is black. C.[Bill’s car] is black. • brand new NPs introduce entities which are both discourse and hearer new (“a bus”), some of them, brand new anchored NPs, contain explicit link to some given discourse entity (“a guy I work with”), • unused NPs introduce discourse new, but hearer old entities (“Noam Chomsky”), • evoked NPs introduce entities already present in the discourse model and thus discourse and hearer old: textually evoked NPs refer to entities which have already been mentioned in the previous discourse (“he” in “A guy I worked with says he knows your sister”), whereas situationally evoked are known for situ- Karttunen (1976) identifies several factors affecting referential status of NPs, including modality, negation, or nonfactive verbs. He argues that an extensive analysis of the phenomenon requires sophisticated inference: “In order to decide whether or not a nonspe114 Detecting Anaphoricity and Antecedenthood for Coreference Resolution preting NPs, accounting for documents information structure.However, it is not a priori clear whether such approaches are useful for coreference resolution. On the one hand, discarding discourse-new and/or nonreferential NPs from the pool of candidate anaphors and antecedents, we can drastically narrow down the algorithm’s search space. This reduces the processing time and makes candidate re-ranking much easier. On the other hand, errors, introduced by automatic anaphoricity or referentiality detectors, may propagate and thus deteriorate the performance of a coreference resolution engine. ational reasons (“you” in “Would you have change of a quarter?”), • inferrables are not discourse or hearer old, however, the speaker assumes the hearer can infer them via logical reasoning from evoked entities or other inferrables (“the driver” in “I got on a bus yesterday and the driver was drunk”), containing inferrables make this inference link explicit (“one of these eggs”). Linguistic theories, including (Prince, 1981), focus on anaphoric usages of definite descriptions (either evoked or inferrables). Recent corpus studies (Poesio and Vieira, 1998) have revealed, however, that more than 50% of (definite) NPs in newswire texts are not anaphoric. These findings have motivated recent approaches to automatic identification of discourse new vs. old NPs. Several algorithms for identifying discourse-new markables have been proposed in the literature, especially for definite descriptions. Vieira and Poesio (2000) use hand-crafted heuristics, encoding syntactic information. For example, the noun phrase “the inequities of the current land-ownership system” is classified by their system as discourse new, because it contains the restrictive postmodification “of the current land-ownership system”. This approach leads to 72% precision and 69% recall for definite discourse-new NPs on their corpus. Palomar and Muñoz (2000) propose a related algorithm for Spanish. Bean and Riloff (1999) make use of syntactic heuristics, but also mine additional patterns for discourse-new markables from corpus data. Using various combinations of these methods, (Bean and Riloff, 1999) achieve an F-measure for existential NPs of about 81–82% on the MUC-4 data.1 In an earlier paper (Uryupina, 2003) we have proposed a web-based algorithm for identifying discourse-new and unique NPs. Our approach helps overcome the data sparseness problem of Bean and Riloff (1999) by relying on Internet counts. The above-mentioned algorithms for automatic detection of discourse-new and nonreferential descriptions are helpful for inter- Ng and Cardie (2002) have shown that an automatically induced detector of nonanaphoric descriptions leads to performance losses for their coreference resolution engine, because too many anaphors are misclassified as discourse-new. To deal with the problem, they have augmented their discourse-new classifier with several precision-improving heuristics. In our webbased study (Uryupina, 2003) we have tuned machine learning parameters to obtain a classifier with a better precision level. In a later study, Ng (2004) relies on held-out data to optimise relevant learning parameters and to decide on the possible system architecture. Byron and Gegg-Harrison (2004) report ambivalent results concerning the importance of a referentiality detector for pronominal coreference. On the one hand, the incorporation of referentiality prefiltering in several pronoun resolution algorithms does not yield any significant precision gains. On the other hand, such a prefiltering significantly reduced the systems’ processing time. To summarise, several algorithms for detecting non-referring or non-anaphoric descriptions have been proposed in the literature. These studies revealed two major problems. First, it is necessary to identify and represent relevant linguistic factors affecting the referentiality or anaphoricity status of an NP. Second, incorporating error-prone automatic modules for identifying discourse-new or non-referential descriptions into a coreference resolution engine is a non-trivial task of its own: when not properly optimised, such modules may lead to performance losses. We will address these two problems in the following sections. 1 (Bean and Riloff, 1999) existential class contains not only brand new NPs, but also all mentions (including anaphoric) of unique descriptions, such as “the pope” or “the FBI”. 115 Olga Uryupina 3 Identifying Non-anaphors and Non-antecedents is an antecedent for some subsequent markable. We have therefore changed the scope of the present experiment to detecting antecedenthood – the probability for a markable to be an antecedent. In the present experiment, we rely on 30 MUC-7 “dry-run” documents for training. For testing, we use the validation (3 MUC-7 “train” documents) and testing (20 MUC-7 “formal test” documents) sets. This results in 5028 noun phrases for training and 976/3375 for the validation/testing data. 3325 training instances were annotated as +discourse new/−ante and 1703 – as −discourse new/+ante2 (613/2245and 363/1130 for testing). All the performance figures reported below are for +discourse new and −ante classes. Corpus studies (Poesio and Vieira, 1998) suggest that human annotators are able to successfully distinguish between anaphoric (discourse old) and non-anaphoric (discoursenew) descriptions. This motivates the present experiment: using machine learning techniques we try to automatically detect probable anaphors and antecedents. In our next experiment (Section 4) we will incorporate our anaphoricity and referentiality classifiers into a coreference resolution system. 3.1 Data We use the MUC-7 corpus in our experiment. We have automatically extracted noun phrases using Charniak’s parser (Charniak, 2000) and C&C NE-tagging system (Curran and Clark, 2003). We have automatically annotated our NPs as ±discourse new using the following simple rule: an NP is considered −discourse new if and only if it is marked in the corpus and has an antecedent. Extracting referentiality information from coreference annotated data is by far less trivial. By definition (Karttunen, 1976), non-referential descriptions cannot be antecedents for any subsequent NPs. Consider, however, the following example: (7) There was [no listing]1 for [the company]2 in [Wilmington]3 . In (7), the NP “no listing” is not referential and, therefore, cannot be an antecedent for any subsequent markable. Both “the company” and “Wilmington”, on the contrary, are referential and could potentially be rementioned. However, this does not happen, as the document ends with the next sentence. By looking at coreference annotated data, we can only say whether an NP is an antecedent, but, if it is not, we cannot decide if it is referential (as “the company” or “Wilmington”) or not (as “no listing”). Consequently, we cannot automatically induce referentiality annotation from coreference data. For our main task, coreference resolution, we are not exactly interested in the referential vs. non-referential distinction. We would rather like to know how likely it is for a markable to be an antecedent. Therefore, instead of a referentiality detector in the strict sense, we need a ±ante labelling: an NP is considered +ante, if it is annotated in MUC-7 and 3.2 Features We encode our markables with feature vectors, representing different linguistic factors: surface, syntactic, semantic, salience, samehead, and (Karttunen, 1976) properties. Surface features encode the most shallow properties of an NP, such as its length, amount of upper and lower case characters and digits etc. Syntactic features include POS tags, number and person values, determiner and pre- and post-modification. Semantic features encode gender ans semantic class properties. Salience features encode various rankings within a sentence and a paragraph according to the linear order of the NPs and their grammatical role. “Same-head” features represent coreference knowledge on a very simplistic level. The boolean feature same head exists shows if there exists a markable in the preceding discourse with the same head as the given NP, and the continuous feature same head distance encodes the distance to this markable. Obtaining values for these features does not require exhaustive search when heads are stored in an appropriate data structure, for example, in a trie. The motivation for “same-head” features comes from (Vieira and Poesio, 2000) and (Poesio et al., 2004): they show that anaphoricity detectors might benefit from an early inclusion of a simplified coreference check. 2 As each anaphor is linked to exactly one antecedent according to the MUC-7 annotation guidelines, there is a one-to-one correspondence between −discourse new and +ante classes. 116 Detecting Anaphoricity and Antecedenthood for Coreference Resolution The last group encodes the referentialityrelated factors investigated by Karttunen (1976) and Byron and Gegg-Harrison (2004): apposition, copula, negation, modal constructions, determiner, grammatical role, and semantic class. The values are extracted from the parser’s and the NE-tagger’s output. Altogether we have 49 features: 12 surface, 20 syntactic, 3 semantic, 10 salience, 2 “same-head”, and 7 of Karttunen’s constructions, corresponding to 123 boolean/continuous features. 3.3 In fact, the classifier based on these features alone (Table 1, last line) achieves almost the same performance level as the one based on all features taken together (no significant difference in precision and recall, χ2 -test). As we have already mentioned when discussing the baseline, from a coreference resolution perspective, we are interested in a discourse-new detector with a high precision level: each anaphor misclassified as discourse new is excluded from further processing and therefore cannot be resolved. On the contrary, if we misclassify a non-anaphoric entity as discourse old, we still can hope to correctly leave it unresolved by rejecting all the candidate antecedents. Therefore we might want to improve the precision of our discourse-new detector as much as possible, even at the expense of recall. To increase the precision level, we have chosen another machine learner, Ripper, that allows to control the precision/recall tradeoff by manually optimising the LossRatio parameter: by varying the LossRatio from 0.33 to 1.0, we obtain different precision and recall values. As in SVM’s case, the best performing groups are syntactic and “same head” features. With all the features activated, the precision gets as high as 90% when the LossRatio is low. In Section 4 we will see if this performance is reliable enough to help a coreference resolution engine. Identifying discourse-new markables As a baseline for our experiments we use the major class labelling: all markables are classified as +discourse new. This results in Fscores of 79.9% and 77.2% for the testing and validation data. This baseline can be used as a comparison point for ±discourse new detectors. However, it has no practical relevance for our main task, coreference resolution: if we classify all the markables as +discourse new and, consequently, discard them, the system would not even try to resolve any anaphors. In all the tables in this paper we show significant improvements over the baseline for p < 0.05/p < 0.01 by ∗/ ∗ ∗ and significant losses – by †/ † †. We have trained the SVMlight classifier for ±discourse new descriptions. Its performance is summarised in Table 1. Compared to the baseline, the recall goes down (the baseline classifies everything as +discourse new, showing the recall level of 100%), but the precision improves significantly. This results in an F-score improvement of 5-8%, corresponding to 23-38% relative error reduction. Among different feature groups, surface, salience, and (Karttunen, 1976) factors show virtually no performance gain over the baseline. Surface features are too shallow. Salience and (Karttunen, 1976)-motivated features have primarily been designed to account for the probability of a markable being an antecedent, not an anaphor. Based on semantic features alone, the classifier does not perform different from the baseline – although, by bringing the recall and precision values closer together, the F-score improves, the precision is still low. The two groups with the best precision level are syntactic and “same head” features. 3.4 Identifying non-antecedents We have trained another family of classifiers to detect non-antecedents. Table 2 shows SVM’s performance for the ±ante task. The major class labelling, −ante serves as a baseline. The classifier’s performance is lower than for the ±discourse new task, with only syntactic and semantic features leading to a significant precision improvement over the baseline. The lower performance level reflects the intrinsic difficulty of the task. When processing a text, the reader has to decide if an encountered description is a re-mention or a new entity to be able to correctly ground it in the discourse model. Therefore we can expect linguistic cues to signal if a markable is ±discourse new. For ±ante descriptions, on the contrary, there is no need for such signals: often an entity is introduced but then never 3 Lower values result in the trivial labelling (“classify everything as discourse old”). 117 Olga Uryupina Features Baseline All Surface Syntactic Semantic Salience Same-head Karttunen’s mentioned again as the topic changes. As Table 2 shows, the classifier mostly makes precision errors. For non-antecedents, precision is not as crucial as for nonanaphors: if we erroneously discard a correct antecedent, we still can resolve subsequent anaphors to other markables from the same chain. However, if we misclassify the first markable and discard it from the pool of antecedents, we have no chance to correctly resolve the subsequent anaphors. Consequently, we would still prefer recall errors over precision errors, although not to such extent as for the ±discourse new classifier. We have trained a family of Ripper classifiers to improve the precision level by decreasing the LossRatio parameter from 1.0 to 0.3. The best observed precision level is 80.4% for the “all features” classifier. To summarise, the present experiment shows that automatically induced classifiers, both SVM and Ripper-based, can successfully identify unlikely anaphors and antecedents. The performance level (Fscore) varies around 75-88% for different test sets (validation vs. testing) and tasks (±discourse new vs. ±ante). Features Baseline All Surface Syntactic Semantic Salience Same-head Karttunen’s Synt+SH Recall 100 ††93.54 100 ††97.37 ††98.53 ††91.22 ††84.45 ††91.63 ††89.98 Precision 66.52 **82.29 66.52 **71.96 *68.89 *69.26 **81.16 **71.15 **83.51 Precision 66.52 *69.23 68.50 *69.23 *69.41 67.0 66.52 67.31 F 79.89 80.35 79.45 80.35 80.18 79.88 79.89 80.23 Table 2: An SVM-based antecedenthood detector: performance for the −ante class on the test data (20 MUC-7 “formal” documents). 4.1 Oracle settings To investigate the relevance of anaphoricity and antecedenthood for coreference resolution, we start by incorporating oracle-based prefiltering into the baseline system. For example, our oracle-based anaphoricity filter discards all the discourse-new markables (according to the MUC-7 coreference chains) from the pool of anaphors. The impact of our ideal filters on the main system is summarised in Table 3. As expected, by constraining the set of possible anaphors and/or antecedents, we dramatically improve the algorithm’s precision. Slightly unexpected, the recall goes down even in the oracle setting. This reflects a peculiarity of the MUC-7 scoring scheme – it strongly favours long chains. Prefiltering modules, on the contrary, split long chains into smaller ones. Several other studies (Ng and Cardie, 2002; Mitkov, Evans, and Orasan, 2002) have revealed similar problems: existing coreference scoring schemes cannot capture the performance of an anaphoricity classifier. With precision getting much higher at the cost of a slight recall loss, the ideal ±discourse new and ±ante detectors improve the baseline coreference engine’s performance by up to 10% (F-score). F 79.89 87.56 79.89 82.76 81.09 78.74 82.77 80.10 86.62 Table 1: An SVM-based anaphoricity detector: performance for the ±discourse new class on the test data (20 MUC-7 “formal” documents). 4 Recall 100 ††95.72 ††94.56 ††95.72 ††94.92 ††98.88 100 ††99.29 Integrating Anaphoricity and Antecedenthood Prefiltering into a Coreference Resolution Engine 4.2 Automatically acquired detectors Getting from the oracle setting to a more realistic scenario, we have combined our baseline system with the ±discourse new and ±ante detectors we have learnt in our first experiment. The evaluation has been organised as follows. For a given LossRatio value, we have In the previous experiment we have learnt two families of classifiers, detecting unlikely anaphors and antecedents. In this section we incorporate them into a baseline coreference resolution system – an SVM classifier with (Soon, Ng, and Lim, 2001) features. 118 Detecting Anaphoricity and Antecedenthood for Coreference Resolution Prefiltering No prefiltering (baseline) Ideal discourse new detector Ideal ante detector Ideal discourse new and ante detectors Recall 54.5 49.6 54.2 52.9 Precision 56.9 **73.6 **69.4 **81.9 F-score 55.7 59.3 60.9 64.3 Table 3: Incorporating oracle-based ±discourse new and ±ante prefiltering into a baseline coreference resolution system: performance on the validation data (3 MUC-7 “train” documents). learnt a ±discourse new/ ± ante detector as described above. The detector is then incorporated as a pre-filtering module into the baseline system. This allows us to evaluate the performance level of the main coreference resolution engine (the MUC score) depending on the precision/recall trade-off of the prefiltering modules. The results (Figures 1 and 2) show that automatically induced detectors drastically decrease the main system’s recall: it goes down to 40% (for ±discourse new, L = 0.8) or even 33% (for ±ante, L = 1). For small L values, the system’s recall is slightly lower, and the precision higher than the baseline (both differences are not significant). The resulting F-score for the system with prefiltering is slightly lower than the baseline’s performance for small values of the Loss Ratio parameter and then decreases rapidly for L > 0.5. To summarise, the results of the present experiment are ambivalent. On the one hand, ideal detectors bring F-score gains by significantly increasing the system’s precision. On the other hand, error-prone automatically induced detectors are not reliable enough to produce a similar precision gain and the system’s F-score goes down because of the recall loss, as the baseline’s recall is already relatively low. Consequently, a coreference resolution algorithm might profit from an automatic ±discourse new or ±ante detector if its precision has to be improved, for example, if it mainly makes recall errors or, for a specific application, if a high-precision coreference resolution algorithm is required (as, for example, the CogNIAC system proposed by (Baldwin, 1996)). 5 60 Discourse new prefiltering No prefiltering 59.5 59 Precision L=1 L=0.3 58.5 58 57.5 57 56.5 40 42 44 46 48 Recall 50 52 54 56 Figure 1: A baseline coreference resolution engine augmented with Ripper-based anaphoricity prefiltering: performance on the validation (3 MUC-7 “train” documents) data for different LossRatio (L) values of prefiltering classifiers. 60 59 L=0.3 Precision 58 57 56 Antecedenthood prefiltering No prefiltering 55 L=1 54 30 35 40 45 50 55 Recall Figure 2: A baseline coreference resolution engine augmented with Ripper-based antecedenthood prefiltering: performance on the validation (3 MUC-7 “train” documents) data for different LossRatio (L) values of prefiltering classifiers. texts participate in coreference chains, our ±discourse new and ±ante detectors might significantly constrain the main algorithm’s search space, improving its speed and performance. We have compared different feature groups for the tasks of ±discourse new and ±ante detection. We have seen that, for both tasks, SVM and Ripper classifiers based on all the investigated features outperform the Conclusion In this paper we have investigated the possibility of automatically identifying unlikely anaphors and antecedents. As only around 30% of markables in newswire 119 Olga Uryupina baseline. We have also learnt two families of classifiers with different precision/recall trade-offs. We have incorporated our ±discourse new and ±ante detectors into a baseline coreference resolution system. We have seen that ideal prefiltering significantly improves the system’s precision at the expense of a slight recall loss. This leads to an F-score improvement of up to 10%. Automatically acquired detectors can only moderately improve the system’s precision and therefore do not bring any F-score gains. We still believe, however, that anaphoricity and antecedenthood detectors might help a coreference resolution system with a lower precision and higher recall. guistics and Intelligent Text Processing. Springer, pages 169–187. Ng, Vincent. 2004. Learning noun phrase anaphoricity to improve coreference resolution: Issues in representation and optimization. In Proceedings of the 42nd Annual Meeting of the Association for Computationa Linguistics. Ng, Vincent and Claire Cardie. 2002. Identifying anaphoric and non-anaphoric noun phrases to improve coreference resolution. In Proceedings of the 19th International Conference on Computational Linguistics. Palomar, Manuel and Rafael Muñoz. 2000. Definite descriptions in an information extraction systems. In IBERAMIA-SBIA, pages 320–328. References Poesio, Massimo, Olga Uryupina, Renata Vieira, Mijail Alexandrov-Kabadjov, and Rodrigo Goulart. 2004. Discourse-new detectors for definite description resolution: a survey and preliminary proposal. In Proceedings of the Refrence Resolution Workshop at ACL’04. Baldwin, Breck. 1996. Cogniac: A high precision pronoun resolution engine. Technical report, University of Pennsylvania. Bean, David L. and Ellen Riloff. 1999. Corpus-based identification of nonanaphoric noun phrases. In Proceedings of the 37th Annual Meeting of the Association for Computationa Linguistics, pages 373–380. Poesio, Massimo and Renata Vieira. 1998. A corpus-based investigation of definite description use. Computational Linguistics, 24(2):183–216. Byron, Donna and Whitney Gegg-Harrison. 2004. Eliminating non-referring noun phrases from coreference resolution. In Proceedings of the 4th Discourse Anaphora and Anaphor Resolution Colloquium. Prince, Ellen E. 1981. Toward a taxonomy of given-new information. In P. Cole, editor, Radical Pragmatics. Academic Press, pages 223–256. Charniak, Eugene. 2000. A maximumentropy-inspired parser. In Proceedings of the 1st Meeting of the North American Chapter of the Association for Computational Linguistics, pages 132–139. Soon, Wee Meng, Hwee Tou Ng, and Daniel Chung Yong Lim. 2001. A machine learning approach to coreference resolution of noun phrases. Computational Linguistics (Special Issue on Computational Anaphora Resolution), 27(4):521–544. Curran, James R. and Stephen Clark. 2003. Language independent NER using a maximum entropy tagger. In Proceedings of the Seventh Conference on Natural Language Learning, pages 164–167. Uryupina, Olga. 2003. High-precision identification of discourse-new and unique noun phrases. In Proceedings of the ACL’03 Student Workshop, pages 80–86. Karttunen, Lauri. 1976. Discourse referents. In J. McKawley, editor, Sytax and Semantics, volume 7. Academic Press, pages 361–385. Vieira, Renata. 1998. A review of the linguistic literature on definite descriptions. Acta Semiotica et Linguistica, 7:219–258. Vieira, Renata and Massimo Poesio. 2000. An empirically-based system for processing definite descriptions. Computational Linguistics, 26(4):539–593. Mitkov, Ruslan, Richard Evans, and Constantin Orasan. 2002. A new, fully automatic version of mitkov’s knowledge-poor pronoun resolution method. In Alexander Gelbukh, editor, Computational Lin120 Tesis Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 123-124 recibido 28-11-08, aceptado 02-03-09 Empleo de métodos no supervisados basados en corpus para construir traductores automáticos basados en reglas∗ Using unsupervised corpus-based methods to build rule-based machine translation systems Felipe Sánchez-Martı́nez Departament de Llenguatges i Sistemes Informàtics Universitat d’Alacant. E-03071, Alacant, Spain [email protected] Resumen: Tesis doctoral en Informática realizada en la Universitat d’Alacant por Felipe Sánchez Martı́nez bajo la dirección de los doctores Juan Antonio Pérez Ortiz y Mikel L. Forcada. La defensa de la tesis tuvo lugar el 30 de junio de 2008 ante el tribunal formado por los doctores Rafael C. Carrasco (Univ. d’Alacant), Lluı́s Padró y Lluı́s Màrquez (Univ. Politècnica de Catalunya), Harold Somers (Univ. of Manchester) y Andy Way (Dublin City Univ.). La calificación obtenida fue Sobresaliente Cum Laude por unanimidad, con mención de Doctor Europeo. Palabras clave: Traducción automática, desambiguación léxica categorial, inferencia de reglas de transferencia, modelado del lenguaje. Abstract: PhD thesis in Computer Engineering written by Felipe Sánchez-Martı́nez at Universitat d’Alacant under the joint supervision of Dr. Juan Antonio Pérez-Ortiz and Dr. Mikel L. Forcada. Author was examined on June 30th , 2008 by the committee formed by Dr. Rafael C. Carrasco (Univ. d’Alacant), Dr. Lluı́s Padró and Dr. Lluı́s Màrquez (Univ. Politècnica de Catalunya), Dr. Harold Somers (Univ. of Manchester) and Dr. Andy Way (Dublin City Univ.). The grade obtained was Sobresaliente Cum Laude (highest mark), with the European Doctor mention. Keywords: Machine translation, part-of-speech tagging, language modeling, transfer rules inference. 1. Introducción Recientemente los enfoques basados en corpus para el desarrollo de sistemas de traducción automática (TA) han visto incrementada la atención recibida; sin embargo, los sistemas de TA basados en reglas siguen siendo desarrollados dado que no todos los pares de lenguas para los cuales existe demanda tienen a su disposición la gran cantidad de textos paralelos necesarios para entrenar sistemas de TA de propósito general basados en corpus; y también porque los sistemas basados en reglas son más fácilmente diagnosticables y los errores que producen suelen tener una naturaleza más repetitiva y previsible, lo cual ayuda a los profesionales que tienen que corregir su salida. Esta tesis se centra en el desarrollo de sistemas de TA basados en reglas y más concretamente en sistemas de TA por transfe∗ Tesis financiada por el Ministerio de Educación y Ciencia y el Fondo Social Europeo a través de la ayuda a la investigación BES-2004-4711. ISSN 1135-5948 rencia estructural superficial (Hutchins y Somers, 1992) para la traducción entre lenguas emparentadas. De todos los recursos que son necesarios para construir un sistema de TA por transferencia (estructural) superficial esta tesis se centra en la obtención de forma no supervisada, a partir de corpus, de: los desambiguadores léxicos categoriales empleados para resolver la ambigüedad léxica de los textos a traducir, y el conjunto de reglas de transferencia que se emplean para adecuar la traducción a la reglas gramaticales de la lengua meta. 2. Desambiguadores léxicos categoriales para TA En TA, la correcta elección de la categorı́a léxica de las palabras a traducir es crucial dado que la traducción de una palabra en lengua origen (LO) a la lengua meta (LM) puede diferir de una categorı́a léxica a otra. © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural Felipe Sánchez-Martínez De entre los diferentes enfoques existentes para la obtención de desambiguadores léxicos categoriales, esta tesis se centra en el desarrollo de desambiguadores léxicos categoriales basados en modelos ocultos de Markov (MOM) (Cutting et al., 1992). Éstos pueden entrenarse de forma supervisada mediante el empleo de textos desambiguados (o etiquetados) a mano, o bien de forma no supervisada mediante el uso del algoritmo de Baum y Welch con texto no etiquetado. Estos métodos sólo emplean información de la lengua que pretenden desambiguar. Sin embargo, cuando el desambiguador léxico categorial resultante se integra en un sistema de TA hay que tener en consideración: Una vez obtenidas, las plantillas de alineamiento son filtradas atendiendo a su frecuencia de aparición en la colección de textos paralelos. Finalmente las plantillas de alineamiento seleccionadas se emplean para la generación de reglas de transferencia en el formato usado por el ingenio de TA Apertium. Para evaluar las reglas inferidas se han realizado experimentos con tres pares de lenguas de Apertium. Las reglas inferidas ofrecen mejores resultados que la traducción palabra por palabra, y resultados próximos a los obtenidos cuando las reglas de transferencia son codificadas a mano por lingüistas. En cuanto a la cantidad de corpus paralelos necesarios para obtener un conjunto de reglas de transferencia que proporcionen una calidad de traducción aceptable, los experimentos realizados con distintos tamaños de corpus demuestran que con un corpus de medio millón de palabras la calidad de las reglas inferidas es satisfactoria, incluso para algunos pares de lenguas la calidad es similar a la obtenida cuando las reglas de transferencia se obtiene a partir de un corpus de entrenamiento de dos millones de palabras. que un modelo estadı́stico de la LM puede utilizarse de forma no supervisada para obtener mejores desambiguadores léxicos categoriales, y que en TA lo que realmente importa es la calidad final de la traducción, no la precisión del desambiguador. Se propone un nuevo método, inspirado en los dos hechos arriba mencionados, para el entrenamiento de desambiguadores léxicos categoriales de la LO basados en MOM, mediante el empleo de información de la LM, ası́ como del resto de módulos del sistema de TA en el que el desambiguador se integra. Los experimentos realizados con tres pares de lenguas de Apertium (http://www.apertium. org) muestran que el sistema de TA ofrece mejores resultado cuando el desambiguador léxico categorial es entrenado usando este nuevo método que cuando es entrenado con el algoritmo de Baum y Welch. 3. Información adicional Los métodos descritos en esta tesis han sido liberados como código abierto y pueden descargarse desde http://sf.net/projects/apertium/; paquetes apertium-tagger-training-tools y apertium-transfer-tools. Estos paquetes se integran perfectamente en el proceso de desarrollo de nuevos pares de lenguas para Apertium. La tesis está disponible en http://www.dlsi.ua.es/~fsanchez/pub/ thesis/thesis.pdf. Bibliografı́a Inferencia automática de reglas de transferencia estructural Cutting, D., J. Kupiec, J. Pedersen, y P. Sibun. 1992. A practical part-of-speech tagger. En Proceedings of the Third Conference on Applied Natural Language Processing, páginas 133–140. Esta tesis también propone un método no supervisado para la inferencia de reglas de transferencia estructural superficial. Esta reglas se basan en plantillas de alineamiento (Och y Ney, 2004) como las usadas en TA estadı́stica. Para su empleo en sistemas de TA basados en reglas las plantillas de alineamiento han tenido que ser adaptadas y extendidas con un conjunto de restricciones que controlan su aplicación como reglas de transferencia. Hutchins, W. J. y H. L. Somers. 1992. An Introduction to Machine Translation. Academic Press. Och, F. J. y H. Ney. 2004. The alignment template approach to statistical machine translation. Computational Linguistics, 30(4):417–449. 124 Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 125-126 recibido 22-12-08, aceptado 02-03-09 Los Roles Semánticos en la Tecnologı́a del Lenguaje Humano: Anotación y Aplicación∗ Semantic Roles in Human Language Technology: Annotation and Application P. Moreda Grupo de Procesamiento del Lenguage Natural - Universidad de Alicante Carretera San Vicente del Raspeig s/n 03690 - Alicante, Spain [email protected] Resumen: La tesis presentada se centra en el análisis semántico de textos, y más concretamente, en el proceso de anotación de roles semánticos y su aplicación a otras tareas de Procesamiento de Lenguaje Natural. Dicho trabajo se puede resumir en tres objetivos principales: i) Investigar en los conjuntos de roles semánticos y recursos lingüı́sticos definidos sobre ellos que hay disponibles hasta la fecha; ii) Abordar el desarrollo de una herramienta para la anotación automática de roles semánticos, SemRol, que permita realizar un análisis de las necesidades de dichas herramientas; iii) Aportar información y conclusiones sobre la influencia de los roles semánticos en sistemas de búsqueda de respuestas. Palabras clave: Roles semánticos, etiquetado automático de roles semánticos, aprendizaje automático supervisado, selección de caracterı́sticas, búsqueda de respuestas Abstract: The presented PhD focuses on semantic analysis, and more specifically in semantic role labeling processes and their application to other Natural Language Processing areas. So, the main goals of this work could be defined as follows: i) To research into semantic role sets and linguistic resources using them that are avaliable to date; ii) To develop a semantic role labeling tool, named SemRol, to analyze the information needed for these kind of processes: iii) To contribute conclusions about the influence of semantic roles in question answering systems. Keywords: Semantic roles, automatic semantic role labeling, supervised machine learning, feature selection, question answering Introducción y tiempo, respectivamente. Un rol semántico es la relación entre un constituyente sintáctico (generalmente, aunque no siempre, argumento del verbo) y un predicado (generalmente, aunque no siempre, un verbo). Ejemplos de roles semánticos son agente, paciente, beneficiario, etc. o también adjuntos como causa, manera, lugar, etc. Por ejemplo, la oración (1), tiene cinco constituyentes cada uno de ellos con un rol semántico diferente. El constituyente sintáctico “Mary” tiene el rol agente, y los constituyentes, “John” y “with a baseball ” tienen los roles paciente e instrumento, respectivamente. Además, los constituyentes “in the park ” y “yesterday” tienen los roles lugar ∗ Esta tesis ha sido parcialmente financiada por el proyecto TEXT-MESS : Minerı́a de Textos Inteligente, Interactiva y Multilingüe basada en Tecnologı́a del Lenguage Humano (TIN2006-15265-C06-01) ISSN 1135-5948 (1) [AGEN T Mary] hit [P ACIEN T John] [IN ST RU M EN T with a baseball] [T EM P yesterday] [LOC in the park] Una caracterı́stica importante de los roles semánticos es que aunque cambie el orden de los constituyentes o incluso la voz o el tiempo verbal de la oración, los roles semánticos de los constituyentes no varı́an. Por ejemplo, consideremos la oración anterior (1), si la cambiamos por la oración (2): (2) [T EM P Yesterday] [P ACIEN T John] was hit [AGEN T by Mary] [IN ST RU M EN T with a baseball] [LOC in the park] o incluso si la traducimos al castellano y aún habiendo diferencias sintácticas como en el ejemplo (3): (3) [T EM P Ayer] [AGEN T Marı́a] golpeó [P ACIEN T a Juan] [LOC en el par- © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural P. Moreda Análisis de los procesos de selección de caracterı́sticas más importantes definidos hasta el momento, necesarios en enfoques basados en aprendizaje automático. que] [IN ST RU M EN T con una pelota de béisbol] se obtiene que en cualquiera de los casos “Mary/Marı́a” continúa jugando el rol agente, “John/Juan” el rol paciente, “with a baseball/con una pelota de béisbol” el rol instrumento, “in the park/en el parque” el rol de lugar y “yesterday/ayer ” el rol temporal. Por tanto, se podrı́a concluir, que los roles semánticos permiten interpretar los textos determinando las relaciones semánticas entre las entidades y los eventos en los que participan. Es decir, los roles semánticos ayudan a determinar, capturar y representar “quién hizo qué a quién, dónde, cuando, cómo y por qué”, pudiendo con ello responder a preguntas como “quién”, “cuándo”, “dónde”, etc. Ver figura 1. Investigación en cuanto a sistemas de anotación automática de roles semánticos desarrollados, atendiendo al corpus utilizado, a la lengua para la que se han definido, al conjunto de roles semánticos utilizado en la anotación, a la información requerida para afrontar el proceso de anotación, y a la estrategia o enfoque seguido en dicho proceso de anotación. Desarrollo de una herramienta de anotación propia, denominada SemRol, que hace uso de enfoques basados en aprendizaje automático supervisado, y que permite seleccionar el clasificador y la información concreta a utilizar en función de las necesidades de la anotación. WHERE WHEN WHAT WHO WHOM Mary hit John AGENT with a baseball yesterday in the park PACIENT INSTRUMENT TEMP Experimentación y prueba de un proceso de ajuste de la información requerida por SemRol. LOC WHERE WHEN WHO WHOM Yesterday, John TEMP PACIENT WHAT was hit with a baseball by Mary in the park INSTRUMENT AGENT LOC Evaluación de diferentes estrategias de anotación seguidas en SemRol: i) anotación por sentidos frente a única, ii) anotación global frente a individual. Desarrollo de un sistema de búsqueda de respuestas modular, basado en Web, que permite extraer a partir de snippets posibles respuestas atendiendo a diferentes criterios: i) entidades nombradas, ii) reglas semánticas, y iii) patrones semánticos. Figura 1: Utilidad de los roles semánticos en búsqueda de respuestas Aportaciones Atendiendo a los objetivos fijados, las principales aportaciones de este trabajo al conocimiento de la investigación en roles semánticos se pueden resumir en: Evaluación de la aportación de los roles semánticos a los sistemas de búsqueda de respuesta, desde dos perspectivas diferentes: i) comportamiento de reglas y patrones basados en roles semánticos, ii) comportamiento de entidades nombradas y roles semánticos. Amplia recopilación de la gran diversidad de propuestas de conjuntos de roles semánticos realizadas hasta la fecha. Información general de la tesis Propuesta de un conjunto de roles semánticos propio, desarrollado atendiendo a criterios de aplicabilidad, generalidad, jerarquı́a y conexión con otras propuestas de anotación. Tesis doctoral en Informática realizada en la Universidad de Alicante por Paloma Moreda Pozo bajo la dirección del Dr. Manuel Palomar Sanz. La defensa de la tesis tuvo lugar el 21 de Julio de 2008 ante el tribunal formado por los doctores Antonio Ferrández, Estela Saquete, Ruslan Mitkov, Lidia Moreno y L. Alfonso Ureña. La calificación obtenida fue Sobresaliente Cum Laude por unanimidad. Evaluación y estudio exhaustivos de los diferentes recursos lingüı́sticos basados en roles semánticos desarrollados hasta el momento. La tesis completa puede consultarse en la dirección http://gplsi.dlsi.ua.es/mwgplsi/upload/5/51/TesisMoreda.pdf 126 Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 127-128 recibido 23-12-08, aceptado 02-03-09 Arquitectura multilingüe de sistemas de búsqueda de respuestas basada en ILI y Wikipedia Cross–Lingual Question Answering Architecture based on ILI and Wikipedia Sergio Ferrández Escámez Dept. de Lenguajes y Sistemas Informáticos (Universidad de Alicante) Carretera San Vicente s/n 03690 Alicante España [email protected] Resumen: Tesis doctoral en Informática realizada en la U. Alicante (UA) por Sergio Ferrández bajo la dirección de Antonio Ferrández. La defensa de la tesis tuvo lugar ante un tribunal formado por los doctores Manuel Palomar (UA), Rafael Muñoz (UA), Paolo Rosso (UPV), Horacio Rodrı́guez (UPC) y Marı́a Teresa Martı́n (UJ) el 30 de junio de 2008. Calificación: Sobresaliente Cum Laude por unanimidad. Palabras clave: Búsqueda de Respuestas Multilingüe, ILI, Wikipedia Abstract: PhD Tesis in Computer Science written by Sergio Ferrández under the supervision of Dr. Antonio Ferrández. The author was examined in June 30, 2008 by the committee formed by doctors Manuel Palomar (UA), Rafael Muñoz (UA), Paolo Rosso (UPV), Horacio Rodrı́guez (UPC), and Marı́a Teresa Martı́n (UJ). Grade: Sobresaliente Cum Laude unanimously. Keywords: Cross–Lingual Question Answering, ILI, Wikipedia 1. Introducción y objetivos Los sistemas de Búsqueda de Respuestas (BR) multilingüe se diseñan con el objetivo de encontrar respuestas concisas dentro de documentos escritos en lenguas diferentes a la lengua con la que se formula la pregunta. Esta visión, amplia el campo de búsqueda, permitiendo localizar respuestas en documentos que operando de forma monolingüe no serı́an procesados. “Who directed The Sting? ”(¿Quién dirigió El Golpe?) Responder a una pregunta simple como ésta en un dominio abierto multilingüe es actualmente un reto por conseguir. Esta situación de imprecisión es provocada, en la mayorı́a de los casos, por la falta de exactitud de los servicios de Traducción Automática (TA). Actualmente, el volumen de textos en lenguaje natural en diferentes lenguas provoca la necesidad de diferentes formas de acceso a la información. Ciertamente, la multilingualidad es una de las dificultades principales que impide la correcta adquisición de información. Ningún sistema de BR multilingüe basado en el uso de servicios de TA serı́a capaz de resolver una pregunta como la anteriormente citada, ya que el nombre de la pelı́cula ISSN 1135-5948 siempre serı́a erróneamente traducido por la herramienta de TA.1 El trabajo de investigación desarrollado en esta tesis doctoral se centra en el diseño e implementación de una técnica robusta de BR multilingüe que minimice este tipo de errores y que aproxime la precisión entre BR monolingüe y multilingüe. El objetivo principal de la tesis versa en el diseño de una metodologı́a y arquitectura general de sistemas que resuelva la tarea de la BR multilingüe, explotando al máximo los recursos multilingües disponibles y minimizando la pérdida de precisión implı́cita en los procesos en los que diferentes lenguas se ven implicadas. 2. Contenido La memoria que redacta la tesis doctoral2 se compone de un total de 9 capı́tulos: Capı́tulo 1: Introduce el problema de la BR multilingüe, realizando un repaso histórico, estableciendo los problemas principales y definiendo la necesidad e importancia actual de este tipo de tareas. Capı́tulo 2: Introduce el origen y necesidad del acceso a la información multilingüe, 1 Quién dirige el Sting? (traducción por http: //www.google.es/translate_t?langpair=en|es 2 Disponible en - © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural Sergio Ferrández Escámez realiza un estudio de los principales foros, sistemas y diseños de BR multilingüe, presentando los resultados obtenidos por los principales sistemas y mostrando cómo sus técnicas para resolver la tarea influyen directamente en la precisión global. Capı́tulo 3: Presenta un estudio realizado sobre los errores provocados por el uso de servicios de TA en la BR bilingüe. Con el objetivo de ejemplificar y corroborar cómo la TA de las preguntas genera errores que dificultan la localización de respuestas. Capı́tulo 4: Expone un estudio realizado con el objetivo de demostrar la importancia del reconocimiento y clasificación de las entidades de las preguntas. Además, se estudia la necesidad de traducción de las mismas en los procesos multilingües. Capı́tulo 5: Describe nuestro sistema de BR monolingüe para la lengua castellana, AliQAn, el cual es utilizado como baseline de nuestra arquitectura multilingüe. Capı́tulo 6: Presenta nuestra propuesta, la arquitectura de BR multilingüe BRILIW (Búsqueda de Respuestas usando ILI (Inter Lingua Index ) y Wikipedia) (ver figura 1). Entre otros aspectos, se detalla cómo nuestra arquitectura BRILIW soluciona los problemas que ocasionan el uso de servicios de TA. presenta el diseño de nuestro objeto XML que proporciona un modelo para la comunicación y almacenamiento de la esencia de nuestra arquitectura BRILIW. Capı́tulo 8: Muestra la evaluación efectuada sobre la arquitectura BRILIW. En ella, se evalúa nuestra arquitectura, y se compara con ejecuciones monolingües y aplicaciones basadas en el uso de TA. Además, también se realizan experimentos que evalúan la bondad de nuestra técnica de control y traducción de las entidades de las preguntas de entrada. Los experimentos realizados revelan que nuestras estrategias mejoran los resultados de la utilización de máquinas de TA, y de acuerdo con las publicaciones existentes, obtienen mejores resultados que los actuales sistemas de BR bilingüe. Por otro lado, en este capı́tulo también se exponen las pruebas externas realizadas en nuestra participación en el CLEF. Capı́tulo 9: Pretende exponer las principales aportaciones y conclusiones extraı́das de nuestro trabajo de investigación en la BR multilingüe, ası́ como los trabajos en progreso y futuros. 3. Módulo de Identificación del Lenguaje Wikipedia Módulo de Traducción de las Entidades Nombradas NERUA Módulo ILI Módulo de Referencia Inter - Lingual Documentos Módulo de Análisis de la Pregunta Módulo de Selección de Pasajes Relevantes IR-n SUPAR Módulo de Extracción de la Respuesta Conclusiones y aportaciones Tres pilares sustentan nuestra arquitectura y la diferencian del resto de propuestas actuales: 1) Explotación de diferentes fuentes de conocimiento multilingüe en diferentes etapas del proceso de BR multilingüe y con diferentes objetivos de traducción; 2) La búsqueda de respuestas candidatas se realiza haciendo uso de más de una traducción de cada una de las palabras de la pregunta; y 3) El análisis de la pregunta de entrada se realiza en el lenguaje original de la misma. La arquitectura BRILIW proporciona una metodologı́a alternativa al uso de servicios de TA. Dentro del campo de la BR multilingüe, nuestra arquitectura ha sido la primera en diseñar e implementar procesos multilingües que exploten el módulo ILI de EuroWordNet y el conocimiento multilingüe codificado en Wikipedia. Agradecimientos Esta investigación ha sido parcialmente financiada bajo los proyectos QALL-ME, dentro del Sexto Programa Marco de Investigación de la Unión Europea con referencia FP6IST-033860, y TEX–MESS, CICyT número TIN2006-15265-C06-01. Figura 1: Arquitectura BRILIW Capı́tulo 7: Presenta las herramientas y diseños software desarrollados dentro del trabajo de investigación. Al mismo tiempo, se 128 Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 129-130 recibido 16-01-09, aceptado 02-03-09 On Clustering and Evaluation of Narrow Domain Short-Text Corpora∗ Agrupamiento y Evaluación de Corpora de Textos Cortos y de Dominios Restringidos David Eduardo Pinto Avendaño Natural Language Engineering Lab., DSIC Universidad Politécnica de Valencia Facultad de Ciencias de la Computación, BUAP [email protected] Resumen: Tesis doctoral en Informática realizada por David Eduardo Pinto Avendaño y dirigida por los doctores Paolo Rosso (Univ. Politécnica de Valencia) y Héctor Jiménez (Univ. Autónoma Metropolitana, México). El acto de defensa de tesis tuvo lugar en Valencia en Julio de 2008 ante el tribunal formado por los doctores Manuel Palomar Sanz (Univ. de Alicante), Alfonso Ureña López (Univ. de Jaén), Eneko Agirre (Univ. del Paı́s Vasco), Benno Stein (Univ. de Weimar, Alemania) y Encarna Segarra Soriano (Univ. Politécnica de Valencia). La calificación obtenida fue Sobresaliente Cum Laude. Palabras clave: Agrupamiento, Evaluación, Textos cortos, Dominios restringidos Abstract: PhD thesis in Computer Science written by David Eduardo Pinto Avendaño under the supervision of Paolo Rosso (Univ. Politécnica de Valencia) and Héctor Jiménez (Univ. Autónoma Metropolitana, México). The author was examined in July 2008 in Valencia by the following committee: Manuel Palomar Sanz (Univ. de Alicante), Alfonso Ureña López (Univ. de Jaén), Eneko Agirre (Univ. del Paı́s Vasco), Benno Stein (Weimar Univ., Germany) and Encarna Segarra Soriano (Univ. Politécnica de Valencia). The grade obtained was Sobresaliente Cum Laude. Keywords: Clustering, Evaluation, Narrow Domain Short-text corpora 1. Introduction In this Ph.D. thesis we investigate the problem of clustering a particular set of documents namely narrow domain short texts. To achieve this goal, we have analysed datasets and clustering methods. Moreover, we have introduced some corpus evaluation measures, term selection techniques and clustering validity measures in order to study the following problems: 1. To determine the relative hardness of a corpus to be clustered and to study some of its features such as shortness, domain broadness, stylometry, class imbalance and structure. 2. To improve the state of the art of clustering narrow domain short-text corpora. The research work we have carried out is partially focused on “short-text clustering”. This PhD thesis was supported by the BUAP-701 PROMEP/103.5/-05/1536 grant. ∗ ISSN 1135-5948 We consider this issue to be quite relevant, given the current and future way people use “small-language” (e.g. blogs, snippets, news and text-message generation such as email or chat). Moreover, we study the domain broadness of corpora. A corpus may be considered to be narrow or wide domain if the level of the document vocabulary overlapping is high or low, respectively. In fact, in the categorization task, it is very difficult to deal with narrow domain corpora such as scientific papers, technical reports, patents, etc. The aim of this research work is to study possible strategies to tackle the following two problems: a) the low frequencies of vocabulary terms in short texts, and b) the high vocabulary overlapping associated to narrow domains. Each problem alone is challenging enough, however, the clustering of narrow domain short-text corpora is considered one of the most difficult tasks of unsupervised data analysis. © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural David Eduardo Pinto Avendaño 2. 3. Thesis overview The major contributions of the investigations carried out are: In this thesis, we deal with the treatment of narrow domain short-text collections in three areas: evaluation, clustering and validation of corpora. The document is structured as follows: In Chapter 1, we introduce basic concepts and we summarize the major contributions of the research work carried out. Chapter 2 gives an overview of the clustering methods, clustering measures, term selection techniques and datasets used in this study. In Chapter 3, we analyse the implications of clustering narrow domain short-text corpora, studying the role of the term selection process as well as the instability of a term selection technique based on the selection of mid-frequency terms. We also make a comparison of different clustering methods in the narrow domain short-text framework. Finally, we evaluate the performance of the term selection techniques on a standard narrow domain short-text corpus. Chapter 4 proposes the use of several measures (most of which are introduced in this work) to assess different corpus features. These measures are tested on several corpora and implemented in the Watermarking Corpora On-line System (WaCOS)1,2 . Chapter 5 presents a new methodology (based on term co-occurrence) for improving document representation for clustering narrow domain short texts. The self-term expansion methodology, which is independent of any external knowledge resource, greatly improves the results obtained by using classical document representation. This fact was confirmed in the practical task of word sense induction whose obtained results are shown in Chapter 6. In Chapter 7, we study the impact of internal clustering validity measures by using narrow domain short-text corpora. Finally, in Chapter 8 we draw the conclusions of the research that we have carried out. In this last chapter we also discuss some interesting research directions, which are derived from the obtained results of this Ph.D. thesis and which we consider to be useful for future work. 1 2 Thesis contributions 1. The study and introduction of evaluation measures to analyse the following features of a corpus: shortness, domain broadness, class imbalance, stylometry and structure. 2. The development of WaCOS for the assessment of corpus features. 3. A new unsupervised methodology (which does not use any external knowledge resource) for dealing with narrow domain short-text corpora. This methodology suggests first applying self-term expansion and then term selection. We analysed different corpus features as evidence of the relative hardness of a given corpus with respect to clustering algorithms. In particular, the degree of shortness, domain broadness, class imbalance, stylometry and structure were studied. We introduced some (un)supervised measures in order to assess these features. The supervised measures were used both to evaluate the corpus features and, even more importantly, to assess the gold standard provided by experts for the corpus to be clustered. The unsupervised measures evaluate the document collections directly (i.e., without any gold standard) and, therefore, they may also be used for other purposes, for instance, to adjust clustering methods while being executed in order to improve the results. The most successful measures were compiled in a freely functional web-based system that allows linguistics and computational linguistics researchers to easily assess the quality of corpora with respect to the aforementioned features. The experiments conducted confirmed that the clustering of narrow domain shorttext corpora is a very challenging task. However, the contributions of this research work are proof that it is possible to deal with this difficult problem. The aim is now to investigate subjective scenarios such as the blogsphere. http://nlp.cs.buap.mx/watermarker/ http://nlp.dsic.upv.es:8080/watermarker/ 130 Reseñas Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 133-134 recibido 18-12-08, aceptado 02-03-09 Storrer, A., Geyken, A., Siebert, A. and Würzner, K.M. (eds.). 2008. Text Resources and Lexical Knowledge. Mouton de Gruyter: Berlin/New York. 260 p. Isabel Durán Muñoz Universidad de Málaga Campus de Teatinos s/n 29071-Málaga [email protected] This book is published in the series Text, Translation, Computational Processing [TTCP], by Walter de Gruyter, and contains selected contributions to the 9th biennial conference on Natural Language Processing (KONVENS 2008), organized by the scientific societies DEGA, DGfS, GI, GLDV, ITG and ÖGAI in Berlin. The central theme of this conference was the dynamic interaction between digital text resources and lexical knowledge representations, illustrating in particular the importance of methods in corpus linguistics for building lexical resources on the one hand, and the relevance of lexical resources for analysis of and intelligent search methods for text corpora on the other. The most innovative works presented at the conference were selected in order to publish a reliable and state-of-the-art book for all academics and professionals in the field. The contributions provide a substantial overview of current trends and issues in the fields of computational lexicography and lexicology, corpus linguistics and text technology. They show the most current research in these disciplines and also shed new light on the researchers in question. All the works include a common element in their experiments and studies: the textual corpus, which is considered to be the base of their studies, as in most of the studies carried out in Computational Linguistics. The book is divided into three sections, which coincide with the conference’s three main topics of interest. The first section of the book, “Linguistic Analysis of Text Resources”, discusses techniques, tools and models for the automated linguistic analysis of text resources. ISSN 1135-5948 These studies are based on essential tools and techniques of Computational Linguistics, such as Treebank alignment, annotation, evaluation of theme and rheme, and distributional similarity, among others. The six contributions focus on discourse and syntactic elements, and their common aim is to improve the analysis of discourse by Computational Linguistics tools. The following section, “Extraction of Lexical Knowledge from Text Resources”, describes and evaluates methods for the automatic acquisition of lexical knowledge from digitized and linguistically annotated textual corpora. They implement corpus techniques to improve existing resources, such as WordNet (Towards improved text understanding with WordNet, by Fellmaun, Clark and Hobbs), machine translation dictionaries (Rapid construction of explicative dictionaries using hybrid machine translation, by Eberle and Rapp) and other lexicographical resources, such as juridical resources. Also, they present original studies on dialectology and on oral corpora. The last section, “Representation of Lexical Knowledge”, presents innovative approaches to the representation of lexical knowledge in digital media for various purposes and user groups. In this section, we find new and original resources based on textual corpora, such as the Spanish WordNet (The Spanish version of WordNet 3.0, by Fernández-Montraveta, Vázquez and Fellmaun), and also innovative tools to improve the functionality of existing or general resources. In this sense, these contributions provide tools for the generation, analysis and management of different aspects of resources, such as the GUI-based tools meant to facilitate the © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural Isabel Durán Muñoz navigation through and exploration of GermaNet (Tools for exploring GermaNet in the context of cl-teaching, by Cramer and Finthammer) and the development presented by Müller-Spitzer (Research on dictionary use and the development of useradapted views) of user-adapted views of lexicographic data. For all researchers interested in NLP and Computational Linguistics, I consider this book can be of great value, since it presents cutting-edge studies in the lexicographical and computational linguistic fields, either in progress or already finished, and it opens new lines of research in the future. In conclusion, I can say that this book includes innovative and exhaustive studies about the topics involved, and it is a coherent and concise book in its whole. 134 Información General SEPLN'2009 XXV CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL Palacio de Miramar. Donostia – San Sebastián (España) 8-10 de septiembre 2009 http://ixa2.si.ehu.es/sepln2009/ 1 Presentación La XXV edición del congreso anual de la Sociedad Española para el Procesamiento del Lenguaje Natural se celebrará en Donostia – San Sebastián (España) del día 8 al 10 de septiembre de 2009, organizado por la Sociedad Española para el Procesamiento del Lenguaje Natural junto con la Universidad del País Vasco (Euskal Herriko Unibertsitatea). Como en ediciones anteriores, con este evento la SEPLN pretende promover la difusión de las actividades de investigación, desarrollo e innovación que realizan en cualquiera de los ámbitos del procesamiento del lenguaje natural los diversos grupos e investigadores españoles y extranjeros. El congreso aspira a ofrecer un foro de discusión y comunicación en el que se favorezca el intercambio de la información y materiales científicos necesarios para promover la publicación de trabajos y la colaboración con instituciones nacionales e internacionales que actúen en el ámbito de interés del congreso. 2 Objetivos El objetivo principal de este congreso es el de ofrecer a la comunidad científica y empresarial del sector el foro idóneo para la presentación de las últimas investigaciones y desarrollos del ámbito de trabajo en PLN, así como mostrar las posibilidades reales de aplicación y conocer nuevos proyectos. De esta manera, el XXV Congreso de la SEPLN pretende ser un lugar de encuentro para la comunicación de resultados e intercambio de opiniones sobre el desarrollo de esta área en la actualidad. Además, se desea conseguir el objetivo de anteriores ediciones de este congreso identificando las futuras directrices de la investigación básica y de las aplicaciones ISSN 1135-5948 previstas por los profesionales, con el fin de contrastarlas con las necesidades reales del mercado. Igualmente el congreso pretende ser un marco propicio para introducir a otras personas interesadas en esta área de conocimiento. 3 Areas Temáticas Se anima a grupos e investigadores a enviar comunicaciones, resúmenes de proyectos o demostraciones en alguna de las áreas temáticas siguientes: • Modelos lingüísticos, matemáticos y psicolingüísticos del lenguaje • Lingüística de corpus • Extracción y recuperación de información monolingüe y multilingüe • Gramáticas y formalismos para el análisis morfológico y sintáctico • Lexicografía computacional • Generación textual monolingüe y multilingüe • Traducción automática • Reconocimiento y síntesis de voz • Semántica, pragmática y discurso • Resolución de la ambigüedad léxica • Aplicaciones industriales del PLN • Análisis automático del contenido textual 4 Formato del Congreso La duración prevista del congreso será de tres días, con ponencias invitadas y sesiones dedicadas a la presentación de comunicaciones y de proyectos o demostraciones. 5 Consejo Asesor Miembros: • Prof. José Gabriel Amores Carredano (Universidad de Sevilla) © Sociedad Española para el Procesamiento del Lenguaje Natural • • • • • • • • • • • • • • • • • • • • • • • • • Prof. Toni Badia i Cardús (Universitat Pompeu Fabra) Prof. Manuel de Buenaga Rodríguez (Universidad Europea de Madrid) Prof. Fco. Javier Calle Gómez (Universidad Carlos III de Madrid) Prof.ª Irene Castellón Masalles (Universitat de Barcelona) Prof.ª Arantza Díaz de Ilarraza (Euskal Herriko Unibertsitatea) Prof. Antonio Ferrández Rodríguez (Universitat d'Alacant) Prof. Mikel Forcada Zubizarreta (Universitat d'Alacant) Prof.ª Ana María García Serrano (Universidad Politécnica de Madrid) Prof. Koldo Gojenola Galletebeitia (Euskal Herriko Unibertsitatea) Prof. Xavier Gómez Guinovart (Universidade de Vigo) Prof. Julio Gonzalo Arroyo (Universidad Nacional de Educación a Distancia) Prof. José Miguel Goñi Menoyo (Universidad Politécnica de Madrid) José B. Mariño Acebal(Universitat Politécnica de Catalunya) Prof.ª M. Antonia Martí Antonín (Universitat de Barcelona) Prof.ª Mª Teresa Martín Valdivia (Universidad de Jaén) Prof. Patricio Martínez Barco (Universitat d'Alacant) Prof. Paloma Martínez Fernández (Universidad Carlos III de Madrid) Profª. Raquel Martínez Unanue (Universidad Nacional de Educación a Distancia) Prof.ª Lidia Ana Moreno Boronat (Universitat Politécnica de Valencia) Prof. Lluis Padró (Universitat Politécnica de Catalunya) Prof. Manuel Palomar Sanz (Universitat d'Alacant) Prof. Ferrán Pla (Universitat Politécnica de Valencia) Prof. Germán Rigau (Euskal Herriko Unibertsitatea) Prof. Horacio Rodríguez Hontoria (Universitat Politécnica de Catalunya) Prof. Kepa Sarasola Gabiola (Euskal Herriko Unibertsitatea) • • • • • • • • • • • • 6 Prof. Emilio Sanchís (Universitat Politécnica de Valencia) Prof. L. Alfonso Ureña López (Universidad de Jaén) Prof.ª Mª Felisa Verdejo Maillo (Universidad Nacional de Educación a Distancia) Prof. Manuel Vilares Ferro (Universidade de Vigo) Prof. Ruslan Mitkov (Universidad de Wolverhampton) Prof.ª Sylviane Cardey-Greenfield (Centre de recherche en linguistique et traitement automatique des langues, Lucien Tesnière. Besançon, France) Prof. Leonel Ruiz Miyares (Centro de Linguistica Aplicada de Santiago de Cuba) Investigador Luis Villaseñor-Pineda (Instituto Nacional de Astrofísica, Óptica y Electrónica. México) Investigador Manuel Montes y Gómez (Instituto Nacional de Astrofísica, Óptica y Electrónica. México) Prof. Alexander Gelbukh (Instituto Politécnico Nacional. México) Prof. Nuno J. Mamede (Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa. Portugal) Prof. Bernardo Magnini (Fondazione Bruno Kessler. Italia) Fechas importantes Fechas para la presentación y aceptación de comunicaciones: • Fecha límite para la entrega de comunicaciones: 24 de abril de 2009. • Notificación de aceptación: 25 de mayo de 2009. • Fecha límite para entrega de la versión definitiva: 19 de junio de 2009. • Plazo para inscripción a coste reducido: 15 de julio de 2009. Hoja de Inscripción para Socios Datos Personales Apellidos Nombre DNI Teléfono Domicilio Municipio Provincia : ................................................................................................................................................. : ................................................................................................................................................. : ............................................................ Fecha de Nacimiento : ........................................... : ............................................................ E-mail : ........................................... : ................................................................................................................................................. : ................................................................................................. Código Postal : ................. : ................................................................................................................................................. Datos Profesionales Centro de trabajo : ..................................................................................................................................... Domicilio : ..................................................................................................................................... Código Postal : .................... Municipio : ..................................................................................... Provincia : ........................................... Teléfono : ................................. Fax : ............................. E-mail : ..................................... Áreas de investigación o interés: ................................................................................................................... ........................................................................................................................................................................ Preferencia para envío de correo: [ ] Dirección personal [ ] Dirección Profesional Datos Bancarios: Nombre de la Entidad Domicilio Cód. Postal y Municipio Provincia : ............................................................................................................................ : ............................................................................................................................ : ............................................................................................................................ : ............................................................................................................................ Cód. Banco (4 dig.) Cód. Suc. (4 dig.) Dig. Control (2 Dig.) Núm.cuenta (10 dig.) ........................................ ........................................ ........................................ ........................................ En.....................a....................................de..............................................de........................... (firma) ------------------------------------------------------------------------------------------------------------------------------------------------------- Sociedad Española para el Procesamiento del Lenguaje Natural. SEPLN Sr. Director de: Entidad Núm. Sucursal Domicilio Municipio Provincia Tipo cuenta (corriente/caja de ahorro) : ......................................................................................................... : ......................................................................................................... : ......................................................................................................... : ............................................................... Cód. Postal : .............. : ......................................................................................................... : ......................................................................................................... Ruego a Vds. que a partir de la fecha y hasta nueva orden se sirvan de abonar a la Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN) los recibos anuales correspondientes a las cuotas vigentes de dicha asociación. Les saluda atentamente Fdo: ........................................................................... (nombre y apellidos del firmante) ............................de ..................................de................. -----------------------------------------------------------------------------------------------------------------------------------------------------Cuotas de los socios: 18 € (residentes en España) o 24 € (socios residentes en el extranjero). Nota: La parte inferior debe enviarse al banco o caja de ahorros del socio Hoja de Inscripción para Instituciones Datos Entidad/Empresa Nombre : ................................................................................................................................................. NIF : ............................................................ Teléfono : ............................................................ E-mail : ............................................................ Fax : ............................................................ Domicilio : ................................................................................................................................................. Municipio : ................................................... Código Postal : ............ Provincia : .......................... Áreas de investigación o interés: ................................................................................................................... ........................................................................................................................................................................ Datos de envío Dirección Municipio Teléfono : .............................................................................................. Código Postal : ................. : .......................................................................... Provincia : .............................................. : ........................................... Fax : ................................ E-mail : ............................... Datos Bancarios: Nombre de la Entidad Domicilio Cód. Postal y Municipio Provincia : ............................................................................................................................ : ............................................................................................................................ : ............................................................................................................................ : ............................................................................................................................ Cód. Banco (4 dig.) Cód. Suc. (4 dig.) Dig. Control (2 Dig.) Núm.cuenta (10 dig.) ........................................ ........................................ ........................................ ........................................ -------------------------------------------------------------------------------------------------------------------------------------------------- Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN). Sr. Director de: Entidad Núm. Sucursal Domicilio Municipio Provincia Tipo cuenta (corriente/caja de ahorro) Núm Cuenta : .......................................................................................................................... : .......................................................................................................................... : .......................................................................................................................... : ............................................................................. Cód. Postal : ................. : .......................................................................................................................... : .......................................................................................................................... : .......................................................................................................................... Ruego a Vds. que a partir de la fecha y hasta nueva orden se sirvan de abonar a la Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN) los recibos anuales correspondientes a las cuotas vigentes de dicha asociación. Les saluda atentamente Fdo: ........................................................................... (nombre y apellidos del firmante) ............................de ..................................de................. -------------------------------------------------------------------------------------------------------------------------------------------------.......................................................................................................................................................................... Cuotas de los socios institucionales: 300 €. Nota: La parte inferior debe enviarse al banco o caja de ahorros del socio Información para los Autores Formato de los Trabajos • La longitud máxima admitida para las contribuciones será de 8 páginas DIN A4 (210 x 297 mm.), incluidas referencias y figuras. • Los artículos pueden estar escritos en inglés o español. El título, resumen y palabras clave deben escribirse en ambas lenguas. • El formato será en Word ó LaTeX Envío de los Trabajos • El envío de los trabajos se realizará electrónicamente a través de la página web de la Sociedad Española para el Procesamiento del Lenguaje Natural (http://www.sepln.org) • Para los trabajos con formato LaTeX se mandará el archivo PDF junto a todos los fuentes necesarios para compilación LaTex • Para los trabajos con formato Word se mandará el archivo PDF junto al DOC o RTF

Procesamiento del Lenguaje Natural, Revista nº 42, marzo

Documentos relacionados

Productos

Apoyo

Procesamiento del Lenguaje Natural, Revista nº 42, marzo

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib