Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009 ISSN: 1135-5948 Artículos Consultas Degradadas en Recuperación de Información Textual Juan Otero Pombo, Jesús Vilares Ferro, Manuel Vilares Ferro ................................................................... 9 Sistema de recomendación para un uso inclusivo del lenguaje Maria Fuentes, Lluís Padró, Muntsa Padró, Jordi Turmo, Jordi T. Carrera ................................................ 17 Aplicación de técnicas de extracción de información temporal a los sistemas de búsqueda de respuestas María Teresa Vicente-Díez, Paloma Martínez, Ángel Martínez-González, José Luis Martínez-Fernández ................................................................................................................... 25 Evaluación de una Estrategia de Expansión Local Conservadora en Recuperación de Información Visual Sergio Navarro, Rafael Muñoz, Fernando Llopis ....................................................................................... 31 Detección de Web Spam basada en la Recuperación Automática de Enlaces Lourdes Araujo, Juan Martinez-Romo......................................................................................................... 39 A Semantic Relatedness Approach to Classifying Opinion from Web Reviews Alexandra Balahur, Andrés Montoyo........................................................................................................... 47 Estableciendo una línea base para un generador de resúmenes extractivo basado en conceptos en el ámbito biomédico Manuel de la Villa, Manuel J. Maña ........................................................................................................... 55 Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web Arkaitz Zubiaga, Víctor Fresno, Raquel Martínez........................................................................................ 63 Using a Generative Lexicon Resource to Compute Bridging Anaphora in Italian Tommaso Caselli ........................................................................................................................................ 71 Una Representación Basada en Lógica Borrosa para el Clustering de páginas web con Mapas AutoOrganizativos Alberto P. García-Plaza, Víctor Fresno, Raquel Martínez........................................................................... 79 Global joint models for coreference resolution and named entity classification Pascal Denis, Jason Baldridge ................................................................................................................... 87 AQA: a multilingual Anaphora annotation scheme for Question Answering E. Boldrini, M. Puchol-Blasco, B. Navarro, P. Martínez-Barco, C. Vargas-Sierra........................................ 97 Co-referential chains and discourse topic shifts in parallel and comparable corpora Costanza Navarretta ................................................................................................................................. 105 Detecting Anaphoricity and Antecedenthood for Coreference Resolution Olga Uryupina ........................................................................................................................................... 113 Tesis Empleo de métodos no supervisados basados en corpus para construir traductores automáticos basados en reglas Felipe Sánchez-Martínez .......................................................................................................................... 123 Los Roles Semánticos en la Tecnología del Lenguaje Humano: Anotación y Aplicación P. Moreda ................................................................................................................................................. 125 Arquitectura multilingüe de sistemas de búsqueda de respuestas basada en ILI y Wikipedia Sergio Ferrández Escámez....................................................................................................................... 127 On Clustering and Evaluation of Narrow Domain Short-Text Corpora David Eduardo Pinto Avendaño ................................................................................................................ 129 Reseñas Storrer, A., Geyken, A., Siebert, A. and Würzner, K.M. (eds.). Text Resources and Lexical Knowledge Isabel Durán Muñoz .................................................................................................................................. 133 Información General XXV Congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural ........................... 137 Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009 ISSN: 1135-5948 Artículos Consultas Degradadas en Recuperación de Información Textual Juan Otero Pombo, Jesús Vilares Ferro, Manuel Vilares Ferro ................................................................... 9 Sistema de recomendación para un uso inclusivo del lenguaje Maria Fuentes, Lluís Padró, Muntsa Padró, Jordi Turmo, Jordi T. Carrera ................................................ 17 Aplicación de técnicas de extracción de información temporal a los sistemas de búsqueda de respuestas María Teresa Vicente-Díez, Paloma Martínez, Ángel Martínez-González, José Luis Martínez-Fernández ................................................................................................................... 25 Evaluación de una Estrategia de Expansión Local Conservadora en Recuperación de Información Visual Sergio Navarro, Rafael Muñoz, Fernando Llopis ....................................................................................... 31 Detección de Web Spam basada en la Recuperación Automática de Enlaces Lourdes Araujo, Juan Martinez-Romo......................................................................................................... 39 A Semantic Relatedness Approach to Classifying Opinion from Web Reviews Alexandra Balahur, Andrés Montoyo........................................................................................................... 47 Estableciendo una línea base para un generador de resúmenes extractivo basado en conceptos en el ámbito biomédico Manuel de la Villa, Manuel J. Maña ........................................................................................................... 55 Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web Arkaitz Zubiaga, Víctor Fresno, Raquel Martínez........................................................................................ 63 Using a Generative Lexicon Resource to Compute Bridging Anaphora in Italian Tommaso Caselli ........................................................................................................................................ 71 Una Representación Basada en Lógica Borrosa para el Clustering de páginas web con Mapas AutoOrganizativos Alberto P. García-Plaza, Víctor Fresno, Raquel Martínez........................................................................... 79 Global joint models for coreference resolution and named entity classification Pascal Denis, Jason Baldridge ................................................................................................................... 87 AQA: a multilingual Anaphora annotation scheme for Question Answering E. Boldrini, M. Puchol-Blasco, B. Navarro, P. Martínez-Barco, C. Vargas-Sierra........................................ 97 Co-referential chains and discourse topic shifts in parallel and comparable corpora Costanza Navarretta ................................................................................................................................. 105 Detecting Anaphoricity and Antecedenthood for Coreference Resolution Olga Uryupina ........................................................................................................................................... 113 Tesis Empleo de métodos no supervisados basados en corpus para construir traductores automáticos basados en reglas Felipe Sánchez-Martínez .......................................................................................................................... 123 Los Roles Semánticos en la Tecnología del Lenguaje Humano: Anotación y Aplicación P. Moreda ................................................................................................................................................. 125 Arquitectura multilingüe de sistemas de búsqueda de respuestas basada en ILI y Wikipedia Sergio Ferrández Escámez....................................................................................................................... 127 On Clustering and Evaluation of Narrow Domain Short-Text Corpora David Eduardo Pinto Avendaño ................................................................................................................ 129 Reseñas Storrer, A., Geyken, A., Siebert, A. and Würzner, K.M. (eds.). Text Resources and Lexical Knowledge Isabel Durán Muñoz .................................................................................................................................. 133 Información General XXV Congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural ........................... 137 Impresos de Inscripción Procesamiento del Lenguaje Natural, Revista nº 42, Marzo de 2009 ISSN: 1135-5948 Editores: Mariona Taulé Delor Universitat de Barcelona [email protected] Mª Teresa Martín Valdivia Universidad de Jaén [email protected] Mª Antonia Martí Antonín Universitat de Barcelona [email protected] Mª Felisa Verdejo Maillo UNED felisa@@lsi.uned.es Consejo de Redacción: L. Alfonso Ureña López Universidad de Jaén [email protected] Manuel Palomar Sanz Universidad de Alicante [email protected] Patricio Martínez Barco Universidad de Alicante [email protected] Mª Felisa Verdejo Maillo UNED [email protected] Consejo Asesor: José Gabriel Amores (Universidad de Sevilla). Toni Badía (Universitat Pompeu Fabra). Manuel de Buenaga (Universidad Europea de Madrid). Irene Castellón (Universitat de Barcelona). Arantza Díaz de Ilarraza (Euskal Herriko Unibertsitatea). Antonio Ferrández (Universitat d'Alacant). Mikel Forcada (Universitat d'Alacant). Ana García-Serrano (Universidad Politécnica de Madrid). Koldo Gojenola (Euskal Herriko Unibertsitatea). Xavier Gómez Guinovart (Universidade de Vigo). Julio Gonzalo (UNED). José Miguel Goñi (Universidad Politécnica de Madrid). José Mariño (Universitat Politècnica de Catalunya). M. Antonia Martí (Universitat de Barcelona). M. Teresa Martín (Universidad de Jaén). Patricio Martínez-Barco (Universitat d'Alacant). Raquel Martínez (UNED). Lidia Moreno (Universitat Politècnica de València). Lluís Padro (Universitat Politècnica de Catalunya). Manuel Palomar (Universitat d'Alacant). Ferrán Pla (Universitat Politècnica de València). German Rigau (Euskal Herriko Unibertsitatea). Horacio Rodríguez (Universitat Politècnica de Catalunya). Kepa Sarasola (Euskal Herriko Unibertsitatea). Emilio Sanchís (Universitat Politècnica de València). Mariona Taulé (Universitat de Barcelona). L. Alfonso Ureña (Universidad de Jaén). Felisa Verdejo (UNED). Manuel Vilares (Universidad de A Coruña). Ruslan Mitkov(Universidad de Wolverhampton, UK). Sylviane Cardey-Greenfield (Centre de recherche en linguistique et traitement automatique des langues, France). Leonel Ruiz Miyares (Centro de Linguistica Aplicada de Santiago de Cuba). Luis Villaseñor-Pineda (Instituto Nacional de Astrofísica, Óptica y Electrónica, México). Manuel Montes y Gómez (Instituto Nacional de Astrofísica, Óptica y Electrónica, México). Alexander Gelbukh (Instituto Politécnico Nacional, México). Nuno J. Mamede (Instituto de Engenharia de Sistemas e Computadores, Portugal). Bernardo Magnini (Fondazione Bruno Kessler, Italia) Revisores adicionales: Andrés Montoyo (Universitat d'Alacant). Anselmo Peñas (UNED). Zornitza Kozareva (Universitat d'Alacant). Jordi Turmo (UPC). Víctor Fresno (UNED). Antonio Balvet (Université Lille 3, France). Richard Evans (University of Woverhampton, UK). Roser Morante (University of Antwerp, Belgium). Rafael Muñoz (Universitat d'Alacant). Costanza Navarretta (CST - Center for Sprogteknologi, Denmark). Constantin Orasan (University of Wolverhampton, UK). Massimo Poesio (University of Essex, UK / Università di Trento, Italy). Marta Recasens (Universitat de Barcelona). Emili Sapena (UPC). Mihai Surdeanu (Stanford, CA, USA). Antal van den Bosch (Tilburg University, The Netherlands). ISBN: 1135-5948 Depósito Legal: B:3941-91 Editado en: Universidad de Jaén, 2009. Publicado por: Sociedad Española para el Procesamiento del Lenguaje Natural Departamento de Informática. Universidad de Jaén Campus Las Lagunillas, EdificioA3. Despacho 127. 23071 Jaén [email protected] Artículos Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 9-16 recibido 03-11-08, aceptado 02-03-09 Consultas Degradadas en Recuperación de Información Textual∗ Corrupted Queries in Text Retrieval Juan Otero Pombo Depto. de Informática Universidade de Vigo Campus As Lagoas s/n 32002 - Ourense [email protected] Jesús Vilares Ferro Depto. de Computación Universidade da Coruña Campus de Elviña s/n 15174 - A Coruña [email protected] Manuel Vilares Ferro Depto. de Informática Universidade de Vigo Campus As Lagoas s/n 32002 - Ourense [email protected] Resumen: En este artı́culo proponemos dos alternativas para el tratamiento de consultas degradadas en aplicaciones de Recuperación de Información en español. La primera de ellas es una estrategia basada en n-gramas de caracteres e independiente del conocimiento y recursos lingüı́sticos disponibles. Como segunda alternativa, proponemos a su vez dos técnicas de corrección ortográfica, integrando una de ellas un modelo estocástico que debe ser entrenado previamente a partir de un texto etiquetado. Con el fin de estudiar su validez, se ha diseñado un marco de pruebas sobre el que se han evaluado ambas aproximaciones. Palabras clave: n-gramas de caracteres, consultas degradadas, recuperación de información, corrección ortográfica. Abstract: In this paper, we propose two different alternatives to deal with degraded queries on Spanish Information Retrieval applications. The first is based on character n-grams, and has no dependence on the linguistic knowledge and resources available. In the second, we propose two spelling correction techniques, one of which has a strong dependence on a stochastic model that must be previously built from a PoStagged corpus. In order to study their validity, a testing framework has been designed and applied on both approaches for evaluation. Keywords: Character n-grams, degraded queries, information retrieval, spelling correction. 1. Introducción Los modelos clásicos de recuperación de información (ri) no contemplan, inicialmente, el caso de fenómenos de degradación en las consultas del usuario tales como la introducción de errores ortográficos o palabras desconocidas, bien sea de forma accidental, o porque el término que está tratando de buscar presenta ambigüedades ortográficas en la colección. Es por tanto imperativo el estudio de este problema dado que puede deteriorar de forma substancial el rendimiento del sistema. En este sentido, muchos autores aplican directamente técnicas de corrección de erroEste trabajo ha sido parcialmente subvencionado por el Ministerio de Educación y Ciencia y FEDER (a través de los proyectos de investigación HUM2007-66607-C04-02 y HUM2007-66607C04-03), y por la Xunta de Galicia (a través de los proyectos 05PXIC30501PN, 07SIN005206PR, INCITE07PXI104119ES y la ”Red Gallega de pln y ri”). ∗ ISSN 1135-5948 res en las formas léxicas de la consulta para ası́ dotar al sistema de cierta robustez. Esta estrategia es a menudo empleada para el análisis de textos degradados en el ámbito del procesamiento del lenguaje natural (pln). Sin embargo, si bien las herramientas de pln, por lo general, toleran una primera adivinación poco eficiente en la que se interactúa con el usuario mostrándole múltiples alternativas de corrección para que sea éste el que realice la elección final, esto no suele ocurrir en los sistemas de ri, lo que incrementa la complejidad del problema. Por otra parte, las aproximaciones de corrección ortográfica (Savary, 2002) aplican modificaciones en las palabras con el fin de minimizar la distancia de edición (Levenshtein, 1966) entre ellas; esto es, el número de operaciones de edición 1 a aplicar para trans1 Inserción, borrado o substitución de un caracter, o transposición de dos caracteres contiguos. © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural Juan Otero Pombo, Jesús Vilares Ferro, Manuel Vilares Ferro formar una cadena en otra. Trabajos más recientes interpretan la corrección ortográfica como una cuestión estadı́stica, donde una consulta con errores es vista como una degeneración probabilı́stica de una correcta (Brill y Moore, 2000). Esta aproximación, conocida como modelo de canal ruidoso (Kernighan, Church, y Gale, 1990),2 también proporciona formas de incorporar información de pronunciación para mejorar el rendimiento por medio de la captura de similaridades en la pronunciación de las palabras (Toutanova y Moore, 2002). Sin embargo, en este trabajo proponemos una estrategia basada en n-gramas de caracteres como alternativa para el tratamiento de consultas degradadas en español, buscando, además, una metodologı́a simple y que pueda ser utilizada independientemente de la base de datos documental considerada y de los recursos lingüı́sticos disponibles. Presentaremos, también, dos aproximaciones basadas en corrección ortográfica no interactiva. Este artı́culo se estructura como sigue. En primer lugar, en la Sección 2 describimos brevemente nuestra propuesta basada en n-gramas de caracteres. A continuación, en la Sección 3, se presentan las dos aproximaciones de corrección ortográfica que han sido comparadas con nuestra propuesta. En la Sección 4 se describe nuestra metodologı́a de evaluación y los experimentos realizados. Finalmente, la Sección 5 contiene nuestras conclusiones y propuestas de trabajo futuro. 2. lugar de palabras. Los n-gramas resultantes son entonces procesados como lo harı́a cualquier motor de recuperación. Su interés viene dado por las posibilidades que ofrecen, especialmente en lengua no inglesa, al facilitar un modo alternativo para la normalización de formas de palabras y permitir tratar lenguas muy diferentes sin procesamiento especı́fico al idioma y aún cuando los recursos lingüı́sticos disponibles son escasos o inexistentes. Estarı́amos, pues, ante un prometedor punto de partida sobre el cual desarrollar una estrategia de indexación y recuperación efectiva para el tratamiento de consultas degradadas. Además, la utilización de ı́ndices basados en n-gramas desmonta el principal argumento que justifica la integración de métodos de corrección ortográfica en aplicaciones de ri robustas: la necesidad de una coincidencia exacta con los términos almacenados en los ı́ndices. De este modo, con el empleo de ngramas en lugar de palabras completas, sólo se requerirı́a la coincidencia en subcadenas de éstas. En la práctica, esto elimina la necesidad de normalizar los términos, minimizando además el impacto de los errores ortográficos, a los que no se les prestarı́a especial atención. En general deberı́a, además, reducir de forma considerable la incapacidad del sistema para manejar las palabras desconocidas. 3. Con el fin de justificar el interés práctico de nuestra propuesta de ri robusta basada en n-gramas de caracteres, introducimos también una aproximación más clásica asociada a un corrector ortográfico contextual (Otero, Graña, y Vilares, 2007), lo que nos permite definir un marco de pruebas comparativo. En un principio aplicaremos un algoritmo global de corrección ortográfica sobre autómatas finitos, propuesto por Savary (Savary, 2002), que encuentra todas las palabras cuya distancia de edición con la palabra errónea sea mı́nima. Desafortunadamente, esta técnica puede devolver varias reparaciones candidatas posibles que, desde un punto de vista morfológico, tengan una calidad similar, es decir, cuando existan varias palabras cuya distancia de edición con la palabra errónea es la misma. Sin embargo, es posible ir más allá de la propuesta de Savary aprovechando la información lingüı́stica contextual embebida en un proceso de etiquetación con el fin de Recuperación de Texto mediante N-Gramas de Caracteres Formalmente, un n-grama es una subsecuencia de longitud n de una secuencia dada. Ası́, por ejemplo, podemos dividir la palabra "patata" es los 3-gramas de caracteres superpuestos -pat-, -ata-, -tat- y -ata-. Este simple concepto ha sido redescubierto recientemente por el Johns Hopkins University Applied Physics Lab (jhu/apl) (McNamee y Mayfield, 2004a) de cara a la indexación de documentos, y nosotros lo recuperamos ahora para nuestra propuesta. Al tratar con ri monolingüe, la adaptación resulta sencilla ya que tanto las consultas como los documentos son simplemente tokenizados en n-gramas superpuestos en 2 Corrección Ortográfica Noisy channel model en inglés. 10 Consultas Degradadas en Recuperación de Información Textual ordenar las correcciones candidatas. Hablamos entonces de corrección ortográfica contextual, cuyo núcleo, en nuestro caso, es un etiquetador morfosintáctico estocástico basado en una extensión dinámica del algoritmo de Viterbi sobre Modelos Ocultos de Markov (Graña, Alonso, y Vilares, 2002) de segundo orden. Esta extensión del algoritmo de Viterbi original se aplica sobre retı́culas en lugar de enrejados (ver Figura 1) ya que éstas son mucho más flexibles al ser representadas las palabras en los arcos en lugar de en los nodos. En el contexto de la corrección ortográfica, nos permite representar un par palabra/etiqueta en cada arco, y luego calcular la probabilidad de cada uno de los caminos por medio de una adaptación de las ecuaciones del algoritmo de Viterbi. ser considerado un ejemplo significativo dado que muestra una gran variedad de procesos morfológicos, lo que lo convierte en una lengua difı́cil para la corrección ortográfica (Vilares, Otero, y Graña, 2004). Las caracterı́sticas más diferenciadoras se encuentran en los verbos, con un paradigma de conjugación altamente complejo. En el caso de sustantivos y adjetivos esta complejidad se extiende al número y al género, con hasta 10 y 20 grupos de variación respectivamente. 1 stm-noerr (MAP=0.2990) 4gr-noerr (MAP=0.2667) stm-10 (MAP=0.2461) stm-20 (MAP=0.2241) stm-30 (MAP=0.2049) stm-40 (MAP=0.1802) stm-50 (MAP=0.1482) stm-60 (MAP=0.1183) stm-70 (MAP=0.0863) stm-80 (MAP=0.0708) stm-90 (MAP=0.0513) stm-100 (MAP=0.0174) Precision (P) 0.8 0.6 0.4 bajo/P fácil/Adjsn 0.2 bajo/Adj sn No/Adv es/V trabajar/V presión/Ssn 0 0 bajo/V fáciles/Adjpl 0.1 0.2 0.3 0.4 0.5 0.6 Recall (Re) 0.7 0.8 0.9 1 baño/S sn Figura 2: Precisión vs. Cobertura para las consultas sin corregir (empleando stemming). Figura 1: Alternativas de corrección ortográfica representadas en una retı́cula. 4.1. Para ilustrar el proceso con un ejemplo, consideremos la frase “No es fácile trabajar baio presión”, cuya corrección esperada serı́a “No es fácil trabajar bajo presión”, donde las palabras “fácile” y “baio” son erróneas. Asumamos ahora que nuestro corrector ortográfico nos ofrece “fácil”/Adjetivo singular y “fáciles”/Adjetivo plural como posibles correcciones para “fácile”; y “bajo”/Adjetivo singular, “bajo”/Preposición, “bajo”/Verbo y “baño”/Sustantivo singular para “baio”. La ejecución del algoritmo de Viterbi dinámico sobre la retı́cula asociada, mostrada en la Figura 1, nos ofrecerı́a tanto las etiquetas de las palabras como las correcciones más probables en el contexto de esa frase concreta, lo que nos permitirı́a obtener una lista ordenada de correcciones candidatas. De este modo obtendrı́amos, para nuestro ejemplo, que las correcciones deseadas, “fácil”/Adjetivo singular y “bajo”/Preposición, serı́an las primeras opciones, ya que se corresponderı́an con la secuencia de etiquetas correcta. 4. Procesamiento de Errores La primera fase en el proceso de evaluación consiste en introducir errores ortográficos en el conjunto de consultas de prueba. Estos errores son introducidos de forma aleatoria por un generador de errores automático de acuerdo con un ratio de error dado. Inicialmente se genera un fichero maestro de errores como sigue. Para cada palabra de más de 3 caracteres de la consulta, se introduce en una posición aleatoria uno de los cuatro errores de edición descritos por Damerau (Damerau, 1964). De este modo, los errores introducidos son similares a aquellos que cometerı́a un ser humano o un dispositivo ocr. Al mismo tiempo se genera un valor aleatorio entre 0 y 100 que representa la probabilidad de que la palabra no contenga ningún error ortográfico. De este modo obtenemos un fichero maestro de errores que contiene, para cada palabra, su forma errónea correspondiente, y un valor de probabilidad. Todos estos datos hacen posible generar de una forma sencilla conjuntos de prueba diferentes para distintos ratios de error, permitiéndonos ası́ valorar el impacto de esta variable en los resultados. El procedimiento Evaluación Nuestra propuesta ha sido inicialmente testeada para el español. Este idioma puede 11 Juan Otero Pombo, Jesús Vilares Ferro, Manuel Vilares Ferro lexicón y, en el caso de la corrección contextual, también un corpus de entrenamiento etiquetado manualmente para entrenar con él el etiquetador. En nuestros experimentos hemos trabajado con el corpus de español MultexJOC (Véronis, 1999), que consta de alrededor de 200.000 palabras etiquetadas morfosintácticamente, y con su lexicón asociado, de 15.548 palabras. T=10% 1 ∆ MAP 0.5 0 −0.5 −1 60 80 100 120 140 160 180 T=20% 1 ∆ MAP 0.5 0 1 stm-noerr (MAP=0.2990) 4gr-noerr (MAP=0.2667) stm-10 (MAP=0.2587) stm-20 (MAP=0.2537) stm-30 (MAP=0.2389) stm-40 (MAP=0.2262) stm-50 (MAP=0.2076) stm-60 (MAP=0.1806) stm-70 (MAP=0.1352) stm-80 (MAP=0.1345) stm-90 (MAP=0.1188) stm-100 (MAP=0.0903) −0.5 0.8 60 80 100 120 140 160 180 Precision (P) −1 T=50% 1 ∆ MAP 0.5 0.6 0.4 0 0.2 −0.5 −1 60 80 100 120 140 160 180 0 0 T=100% 1 ∆ MAP 0.5 0.2 0.3 0.4 0.5 0.6 Recall (Re) 0.7 0.8 0.9 1 Figura 4: Precisión vs. Cobertura para las consultas corregidas mediante el algoritmo de Savary (empleando stemming). 0 −0.5 −1 0.1 60 80 100 120 QID 140 160 180 4.2. Marco de Evaluación En nuestros experimentos se ha empleado el corpus de español de la robust task del clef 2006 (Nardi, Peters, y Vicedo, 2006),3 formado por 454.045 documentos (1,06 gb) y 160 topics —a partir de los cuales generar las consultas— de los que hemos empleado únicamente un subconjunto del mismo (training topics) formado por 60 topics proporcionados por el CLEF especı́ficamente para tareas de entrenamiento y puesta a punto.4 Dichos topics están formados por tres campos: tı́tulo, un breve tı́tulo como su nombre indica; descripción, una somera frase de descripción; y narrativa, un pequeño texto especificando los criterios de relevancia. En cualquier caso únicamente hemos empleado el campo de tı́tulo para ası́ simular el caso de las consultas cortas utilizadas en motores comerciales. Partiendo de dicha colección de documentos se han generado dos ı́ndices diferentes. Primeramente, para probar las propuestas basadas en corrección ortográfica, se ha usa- Figura 3: Diferencias de map por consulta: consultas sin corregir vs. consultas originales (empleando stemming). consiste en recorrer el fichero maestro de errores y seleccionar, para cada palabra, la forma original en el caso de que su probabilidad sea mayor que el ratio de error fijado, o la forma errónea en caso contrario. Ası́, dado un ratio de error T , sólo el T % de las palabras de las consultas contendrán un error. Una caracterı́stica interesante de esta solución es que los errores son incrementales, ya que las formas erróneas que están presentes para un ratio de error determinado continuarán estando presentes para ratios de error mayores, evitando ası́ cualquier distorsión en los resultados. El siguiente paso consiste en procesar las consultas con errores y lanzarlas contra el sistema de ri. En el caso de nuestra propuesta basada en n-gramas no se precisan recursos extra, ya que el único procesamiento necesario consiste en tokenizar las consultas en ngramas. Sin embargo, para las aproximaciones de corrección ortográfica se necesita un 3 Estos experimentos han de considerarse no oficiales, ya que los resultados no han sido evaluados por la organización. 4 Topics C050-C059, C070-C079, C100-C109, C120-C129, C150-159 y C180-189. 12 Consultas Degradadas en Recuperación de Información Textual aunque no los signos ortográficos. El texto resultante ha sido tokenizado e indexado utilizando 4-gramas como longitud de compromiso tras estudiar los resultados previos del jhu/apl (McNamee y Mayfield, 2004b). En este caso no se han empleado stopwords. Finalmente, ya a nivel de implementación, nuestro sistema emplea como motor de recuperación la plataforma de código abierto Terrier (Ounis et al., 2006) con un modelo InL2 (Amati y van Rijsbergen, 2002).7 T=10% 1 ∆ MAP 0.5 0 −0.5 −1 60 80 100 120 140 160 180 140 160 180 T=20% 1 ∆ MAP 0.5 0 −0.5 −1 1 60 80 100 120 T=50% 0.8 1 Precision (P) ∆ MAP 0.5 0 −0.5 −1 60 80 100 120 stm-noerr (MAP=0.2990) 4gr-noerr (MAP=0.2667) stm-10 (MAP=0.2628) stm-20 (MAP=0.2578) stm-30 (MAP=0.2431) stm-40 (MAP=0.2311) stm-50 (MAP=0.2120) stm-60 (MAP=0.1850) stm-70 (MAP=0.1448) stm-80 (MAP=0.1449) stm-90 (MAP=0.1282) stm-100 (MAP=0.0997) 140 160 180 0.6 0.4 0.2 T=100% 1 0 0 ∆ MAP 0.5 0.1 0.2 0.3 0.4 0.5 0.6 Recall (Re) 0.7 0.8 0.9 1 0 Figura 6: Precisión vs. Cobertura para las consultas corregidas mediante el algoritmo de corrección contextual (empleando stemming). −0.5 −1 60 80 100 120 QID 140 160 180 Figura 5: Diferencias de map por consulta: consultas corregidas mediante el algoritmo de Savary vs. consultas originales (empleando stemming). 4.3. Nuestra propuesta ha sido probada para un amplio rango de ratios de error T con el fin de estudiar el comportamiento del sistema no sólo para densidades de error bajas, sino también para los elevados ratios de error propios de entornos ruidosos como aquellos en que la entrada se obtiene de dispositivos móviles o basados en escritura a mano —pdas y tabletas digitalizadoras, por ejemplo. De este modo se ha trabajado con: do una aproximación clásica basada en stemming empleando snowball,5 basado en el algoritmo de Porter (Porter, 1980), y la lista de stopwords de la Universidad de Neuchatel.6 Ambos recursos son de uso amplio entre la comunidad de ir. Asimismo, en el caso de las consultas, se ha utilizado una segunda lista de meta-stopwords (Mittendorfer y Winiwarter, 2001; Mittendorfer y Winiwarter, 2002). Dichas stopwords corresponden a metacontenido, es decir, expresiones de formulación de la consulta que no aportan ninguna información útil para la búsqueda, como en el caso de la expresión “encuentre aquellos documentos que describan . . .”. En segundo lugar, a la hora de probar nuestra solución basada en n-gramas, los documentos han sido convertidos a minúsculas y se han eliminado los signos de puntuación, 5 6 Resultados Experimentales T ∈ {0 %, 10 %, 20 %, 30 %, . . . , 100 %} donde T =0 % significa que no se han introducido errores. En el primer conjunto de experimentos realizados se utilizaron las consultas sin corregir aplicando una aproximación clásica basada en stemming. Los resultados obtenidos para cada ratio de error T se muestran en las gráficas de la Figura 2 tomando como referencia tanto los resultados obtenidos para las 7 Inverse Document Frequency model with Laplace after-effect and normalization 2. http://snowball.tartarus.org http://www.unine.ch/info/clef/ 13 Juan Otero Pombo, Jesús Vilares Ferro, Manuel Vilares Ferro consultas originales aplicando stemming —es decir, para T =0 %— (stm-noerr ), como los obtenidos aplicando la aproximación basada en n-gramas (4gr-noerr). También se dan los valores de precisión media (map).8 Estos primeros resultados muestran que el stemming es sensible a los errores ortográficos. Como se puede apreciar, aún un ratio de error bajo como T =10 % tiene un impacto significativo sobre el rendimiento9 —la map decrece el 18 %—, empeorando conforme aumenta el número de errores introducidos: pérdida del 25 % para T =20 %, 50 % para T =50 % (con 2 consultas que ya no recuperan ningún documento) y 94 % para T =100 % (con 13 consultas sin documentos), por ejemplo. Tales variaciones, ya a nivel de consulta, se muestran en la Figura 3. Esto se debe al hecho de que con el tipo de consultas que estamos utilizando aquı́ —con unas 4 palabras de media—, cada palabra es de vital importancia, ya que la información perdida cuando un término ya no encuentra correspondencia debido a un error ortográfico no puede ser recuperada a partir de ningún otro término. En nuestra segunda ronda de experimentos se estudió el comportamiento del sistema al usar la primera de las aproximaciones de corrección consideradas en este trabajo, esto es, cuando lanzamos las consultas con errores tras ser procesadas con el algoritmo de Savary. En este caso el módulo de corrección toma como entrada la consulta con errores, obteniendo como salida una versión corregida donde cada palabra incorrecta ha sido substituida por el término más cercano del lexicón de acuerdo a la distancia de edición. En caso de empate —es decir, cuando existen varias palabras en el lexicón a la misma distancia—, la consulta es expandida con todas las correcciones empatadas. Por ejemplo, tomando como entrada la oración considerada en la Sección 3, “No es fácile trabajar baio presión”, la salida serı́a “No es fácil fáciles trabajar bajo baño presión”. Analizando los resultados obtenidos, mostrados en la Figura 4, vemos que la corrección tiene un efecto general significativamente positivo sobre el rendimiento, disminuyendo en gran medida —aunque no eliminando— el impacto de los errores ortográficos, no sólo para ratios de error bajos (la pérdida de map disminuye del 18 % al 13 % para T =10 % y del 25 % al 15 % para T =20 %), sino también para ratios de error altos y muy altos (del 50 % al 31 % para T =50 % y del 94 % al 70 % para T =100 %), reduciéndose también el número de consultas que no devuelven documentos (ahora sólo 1 para T =50 % y 5 para T =100 %). Las diferencias de map a nivel de consulta se muestran en la Figura 5. Asimismo, el análisis de los datos muestra que la efectividad relativa de la corrección aumenta con el ratio de error. 1 stm-noerr (MAP=0.2990) 4gr-noerr (MAP=0.2667) stm-10 (MAP=0.2554) stm-20 (MAP=0.2486) stm-30 (MAP=0.2433) stm-40 (MAP=0.2353) stm-50 (MAP=0.2260) stm-60 (MAP=0.2134) stm-70 (MAP=0.2073) stm-80 (MAP=0.1999) stm-90 (MAP=0.1767) stm-100 (MAP=0.1627) Precision (P) 0.8 0.6 0.4 0.2 0 0 0.1 0.2 0.3 0.4 0.5 0.6 Recall (Re) 0.7 0.8 0.9 1 Figura 7: Precisión vs. Cobertura para las consultas sin corregir (empleando n-gramas). Con el fin de eliminar el ruido introducido por los empates al emplear el algoritmo de Savary, se ha realizado un tercer conjunto de pruebas usando nuestro corrector ortográfico contextual. Dichos resultados se muestran en la Figura 6 y, como era de esperar, éstos mejoran consistentemente con respecto a la aproximación original, si bien la mejora obtenida mediante este procesamiento extra no llega a ser significativa: un 2 % de pérdida de map recuperado para 10 %≤ T ≤60 % y un 7–10 % para T >60 %. Finalmente, hemos probado nuestra propuesta basada en n-gramas. La Figura 7 muestra los resultados obtenidos cuando las consultas sin corregir son lanzadas contra nuestro sistema de ri basado en n-gramas. Aunque el stemming funciona significativamente mejor que los n-gramas para las consultas originales, no ocurre lo mismo cuando hay errores ortográficos, superando claramente el segundo método al primero no sólo cuando no se aplica ningún tipo de corrección, siendo la mejora significativa para T ≥40 %, sino también cuando se aplica cualquiera de los dos métodos basados en corrección ortográfica —salvo para ratios de error muy bajos—, si bien la diferencia no es sig- 8 Mean average precision en inglés. A lo largo de este trabajo se han empleado tests-t bilaterales sobre las map con α=0.05. 9 14 Consultas Degradadas en Recuperación de Información Textual hay consultas que no devuelven documentos, ni siquiera para T =100 %. El rendimiento a nivel de consulta se muestra en la Figura 8. T=10% 0.5 ∆ MAP 0.25 0 5. −0.25 −0.5 60 80 100 120 140 160 180 140 160 180 140 160 180 140 160 180 Este trabajo es un primer paso hacia el diseño de técnicas de consulta para su empleo en aplicaciones de base lingüı́stica para dominios genéricos no especializados. Nuestro objetivo es el tratamiento eficiente de las consultas degradadas en español, evitando métodos clásicos de corrección ortográfica que requieran una implementación compleja, no sólo desde el punto de vista computacional sino también desde el lingüı́stico. En este sentido, se proponen aquı́ dos aproximaciones diferentes. En primer lugar, se presenta un corrector ortográfico contextual desarrollado a partir de una técnica de corrección global previa ampliada para incluir información contextual obtenida mediante etiquetación morfosintáctica. Nuestra segunda propuesta consiste en trabajar directamente con las consultas con errores ortográficos, pero utilizando un sistema de ri basado en n-gramas en lugar de uno clásico basado en stemming. Las pruebas realizadas han mostrado que las aproximaciones clásicas basadas en stemming son sensibles a los errores ortográficos, aunque el uso de mecanismos de corrección permiten reducir el impacto negativo de éstos. Por su parte, los n-gramas de caracteres han mostrado ser altamente robustos, superando claramente a las técnicas basadas en corrección ortográfica, especialmente para ratios de error medios o altos. Además, dado que no se precisa procesamiento especı́fico al idioma, nuestra aproximación basada en n-gramas puede ser utilizada con lenguas de naturaleza diferente aún cuando los recursos lingüı́sticos disponibles sean escasos o inexistentes. Con respecto a nuestro trabajo futuro, tenemos la intención de ampliar el concepto de stopword al caso de n-gramas de caracteres con el fin de incrementar el rendimiento del sistema ası́ como reducir sus requerimientos computacionales y de almacenamiento. Sin embargo, con el fin de mantener la independencia respecto al idioma, tales ”stopn-gramas” deberı́an ser generados de forma automática a partir de los propios textos de entrada (Lo, He, y Ounis, 2005). Finalmente, se están preparando nuevos experimentos para otros idiomas. T=20% 0.5 ∆ MAP 0.25 0 −0.25 −0.5 60 80 100 120 T=50% 1 ∆ MAP 0.5 0 −0.5 −1 60 80 100 120 T=100% 1 ∆ MAP 0.5 0 −0.5 −1 60 80 100 120 QID Conclusiones y Trabajo Futuro Figura 8: Diferencias de map por consulta: consultas sin corregir vs. consultas originales (empleando n-gramas). nificativa hasta T ≥70 %. Además, la robustez de nuestra propuesta basada en n-gramas en presencia de errores ortográficos demuestra ser claramente superior a cualquiera de las aproximaciones previas basadas en stemming. Como ejemplo, la pérdida de map para stemming —como se dijo previamente— era significativa incluso para T =10 %, con una reducción del 18 % para T =10 %, 25 % para T =20 %, 50 % para T =50 % y 94 % para T =100 %. Para los mismos valores de T , la aplicación de nuestro corrector ortográfico contextual —ligeramente superior a la propuesta de Savary— reducı́a dichas pérdidas a 12 %, 14 %, 29 % y 67 %, respectivamente, con lo que dichas caı́das ya no eran significativas hasta T =20 %. Sin embargo, los n-gramas superan a ambos de forma clara, siendo la pérdida de map significativa sólo a partir de T =40 %, y casi reduciendo a la mitad la cuantı́a de dichas pérdidas: 4 %, 7 %, 15 % y 39 %, respectivamente. Además, ya no 15 Juan Otero Pombo, Jesús Vilares Ferro, Manuel Vilares Ferro Bibliografı́a Nardi, A., C. Peters, y J. L. Vicedo, eds. 2006. En Working Notes of the CLEF 2006 Workshop. Disponible en http://www.clef-campaign.org (visitada en octubre 2008). Amati, G. y C. J. van Rijsbergen. 2002. Probabilistic models of Information Retrieval based on measuring divergence from randomness. ACM Transactions on Information Systems, 20(4):357–389. Otero, J., J. Graña, y M. Vilares. 2007. Contextual spelling correction. Lecture Notes in Computer Science, 4739:290–296. Brill, E. y R. C. Moore. 2000. An improved error model for noisy channel spelling correction. En Proc. of the ACL’00, pág. 286–293. Ounis, I., G. Amati, V. Plachouras, B. He, C. Macdonald, y C. Lioma. 2006. Terrier: A high performance and scalable Information Retrieval platform. En Proc. of the ACM SIGIR’06 Workshop on Open Source Information Retrieval (OSIR 2006), pág. 18–25. Herramienta disponible en http://ir.dcs.gla.ac.uk/terrier/ (visitada en octubre 2008). Damerau, F. 1964. A technique for computer detection and correction of spelling errors. Communications of the ACM, 7(3):171– 176. Graña, J., M. A. Alonso, y M. Vilares. 2002. A common solution for tokenization and part-of-speech tagging: One-pass Viterbi algorithm vs. iterative approaches. Lecture Notes in Computer Science, 2448:3–10. Porter, M. F. 1980. An algorithm for suffix stripping. Program, 14(3):130–137. Kernighan, M. D., K. W. Church, y W. A. Gale. 1990. A spelling correction program based on a noisy channel model. En Proc. of the COLING’90, pág. 205–210. Savary, A. 2002. Typographical nearestneighbor search in a finite-state lexicon and its application to spelling correction. Lecture Notes in Computer Science, 2494:251–260. Levenshtein, V.I. 1966. Binary codes capable of correcting deletions, insertions and reversals. Soviet Physics-Doklandy, 6:707– 710. Toutanova, K. y R. C. Moore. 2002. Pronunciation modeling for improved spelling correction. En Proc. of the ACL’02, pág. 144–151. Lo, R.T.W., B. He, y I. Ounis. 2005. Automatically building a stopword list for an information retrieval system. En Proc. of the 5th Dutch-Belgian Information Retrieval Workshop (DIR’05). Vilares, M., J. Otero, y J. Graña. 2004. On asymptotic finite-state error repair. Lecture Notes in Computer Science, 3246:271– 272. McNamee, P. y J. Mayfield. 2004a. Character N-gram tokenization for European language text retrieval. Information Retrieval, 7(1-2):73–97. Véronis, J. 1999. Multext-corpora: An annotated corpus for five European languages. cd-rom. Distributed by elra/elda. McNamee, P. y J. Mayfield. 2004b. JHU/APL experiments in tokenization and non-word translation. Lecture Notes in Computer Science, 3237:85–97. Mittendorfer, M. y W. Winiwarter. 2001. A simple way of improving traditional IR methods by structuring queries. En Proc. of the 2001 IEEE International Workshop on Natural Language Processing and Knowledge Engineering (NLPKE 2001). Mittendorfer, M. y W. Winiwarter. 2002. Exploiting syntactic analysis of queries for information retrieval. Data & Knowledge Engineering, 42(3):315–325. 16 Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 17-24 recibido 28-11-08, aceptado 02-03-09 Sistema de recomendación para un uso inclusivo del lenguaje∗ Inclusive Language Recommendation System Maria Fuentes, Lluı́s Padró, Muntsa Padró, Jordi Turmo y Jordi T. Carrera Grupo de Procesamiento del Lenguaje Natural Departamento de Lenguajes y Sistemas Informáticos Universitat Politècnica de Catalunya c/Jordi Girona, 1-3 08034 Barcelona mfuentes,padro,mpadro,turmo,[email protected] Resumen: Sistema que procesa un texto escrito en castellano detectando usos del lenguaje no inclusivos. Para cada sintagma nominal sospechoso el sistema propone una serie de alternativas. El sistema permite también la adquisición automática de ejemplos positivos a partir de documentos que hagan un uso inclusivo del lenguaje. Éstos ejemplos seran usados, junto a su contexto, en la presentación de sugerencias. Palabras clave: Lenguaje inclusivo, aprendizaje basado en ejemplos Abstract: System to detect exclusive language in spanish documents. For each noun phrase detected as exclusive, several alternative are suggested by the system. Moreover, the system allows the automatic adquisition of positive examples from inclusive documents to be presented within their context as alternatives. Keywords: Inclusive language, example based learning 1. Introducción Hacer uso de un lenguaje inclusivo consiste en la selección de vocabulario y partı́culas de la lengua que permitan minimizar o eliminar las palabras que implican o parecen implicar la exclusión de un sexo. Por ejemplo el personal de vuelo o la tripulación de cabina es lenguaje inclusivo, mientras que azafata es claramente exclusivo (o sexista). De todas formas, para determinar el grado de lenguaje inclusivo a ser utilizado, (Wilson, 1993) remarca la importancia de tener en cuenta el sentido común si no se quiere que por las buenas intenciones se acabe sacrificando la prosa. Existen varios manuales y herramientas que asisten a la producción de documentos inclusivos. Una de las primeras iniciativas en el estado español fue impulsada por el instituto de la mujer en el marco del proyecto nombra.en.red (Alario et al., 1995). En este proyecto se construyó un software de libre distribución, cuya base de datos fue creada siguiendo las sugerencias de usos alternativos que, en los años ochenta y noventa partieron, entre otros, del Consejo de Europa (Consejo Europa, 1986), del Institut Valencià de la DoLos autores desean mostrar su agradecimiento a Eulàlia Lledó y a Marta de Blas por la cesión de textos inclusivos, ası́ como a Edgar Gonzàlez por facilitarnos su software de clustering. ∗ ISSN 1135-5948 na (Departamento Dona, 1987), del Instituto de la Mujer, de UNESCO y de la Conferencia de Naciones Unidas sobre las Mujeres de Pekı́n (Naciones Unidas, 1996). Otra herramienta que podemos encontrar en la red es la lupa violeta (Factoria de Empresas, 2002). Fue diseñada para ser instalada en el procesador de textos Word, identifica los términos que pueden tener una utilización sexista y propone diferentes sugerencias. En la misma linea, recientemente se está comercializando Themis (The Reuse company, 2008), que explora archivos y sitios web en busca de usos exclusivos de la lengua ofreciendo alternativas de forma similar a los correctores ortográficos integrados en editores de textos. Este artı́culo presenta el recomendador de alternativas inclusivas desarrollado en la UPC (Universidad Politécnica de Cataluña) para el proyecto Web con Género de la Fundación CTIC (Centro Tecnológico de la Información y la Comunicación)1 . El sistema utiliza técnicas de aprendizaje basado en ejemplos y adquisición automática de ejemplos. La sección 2 muestra una visión global del sistema, la 3 analiza el funcionamiento del sistema actual, la 4 propone posibles mejoras y la sección 5 concluye el artı́culo. 1 http://www.t-incluye.org © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural Maria Fuentes, Lluís Padró, Muntsa Padró, Jordi Turmo, Jordi T. Carrera 2. Arquitectura general formateado como entrada del sistema, dividido en párrafos y codificado en XML. En el Cuadro 5 puede verse el formato de salida. Esta sección describe los componentes básicos de la arquitectura general del sistema. La Figura 1 presenta la interacción entre las cuatro componentes, cuyas funciones son: extraer caracterı́sticas de un Sintagma Nominal (SN), filtrar el SN en función de si utiliza un lenguaje inclusivo o exclusivo, buscar en la Base de Datos (BD) ejemplos similares a cada SN exclusivo y por último presentar las mejores sugerencias inclusivas. <DOC> <INFO> <URI>http:://www.un dominio.es/una pagina</URI> <IP>192.168.2.243</IP> <DATE>2998-03-13 11:34</DATE> </INFO> ... <P locator=”136”type=”texto”> 3. La Junta Consultiva está constituida por el rector o la rectora, que la preside; la secretaria general o el secretario general, que lo es de la Junta, y cuarenta miembros más designados por el Consejo de Gobierno, a propuesta del rector o la rectora, entre profesoras o profesores e investigadoras o investigadores de reconocido prestigio, de todos los ámbitos temáticos presentes en la Universidad y de todos los que se considere oportuno, acreditados por las correspondientes evaluaciones positivas de acuerdo con la normativa vigente, ocho de los cuales, al menos, deben ser externos a la Universidad Politécnica de Cataluña. </P> ... <P locator=”164”type=”texto”> 4. A efectos de esta elección, la comunidad universitaria se considera dividida en los cuatro sectores siguientes: </P> <P locator=”165”type=”texto”> a)Profesorado doctor de los cuerpos docentes universitarios. b)Personal docente e investigador, excluido el correspondiente al sector a. c)Estudiantes. d)Personal de administración y servicios. </P> ... </DOC> <xml_IN> Texto </xml_IN> gramática EXTRAER CARACTERÍSTICAS euroWN atributos_SN dic_lemas FILTRAR inclusivo/exclusivo inclus BD ejem inclusivos Cuadro 1: Documento de entrada. El primer paso consiste en extraer una serie de caracterı́sticas (atributos) de cada SN. En segundo lugar se tendrán en cuenta SNs inclusivos, cuando el objetivo sea la adquisición de ejemplos y SNs exclusivos cuando el objetivo sea la recomendación. En el primer caso se almacenarán en la BD los ejemplos filtrados y sólo en el segundo caso será necesario buscar ejemplos inclusivos similares existentes en la BD para finalmente presentar las sugerencias más adecuadas. exclus BUSCAR SIMILARES mejores_clusters PRESENTAR SUGERENCIAS 2.1. Extraer caracterı́sticas El objetivo de esta fase es obtener una serie de caracterı́sticas morfosintácticas y semánticas necesarias en la siguiente fase para determinar si un sintagma es inclusivo los hombres y las mujeres, exclusivo los hombres, o irrelevante los coches y las motos. La información extraı́da en esta fase también será utilizada en la búsqueda de ejemplos similares, tanto para indexar los ejemplos inclusivos en la BD cómo para seleccionar las mejores alternativas a un SN detectado como exclusivo. La parte superior del Cuadro 2 presenta un ejemplo de SN inclusivo en su contexto, los hombres y las mujeres, y la inferior los atributos asociados. El número de atributos varı́a en función de las caracterı́sticas del sintagma <xml_OUT> Texto_sug </xml_OUT> Figura 1: Componentes del recomendador. Las dos funcionalidades básicas son: la detección de SNs susceptibles de hacer uso de lenguaje exclusivo y las correspondientes recomendaciones inclusivas. la adquisición automática de SNs inclusivos para la creación de forma automática de la BDs de ejemplos inclusivos. El Cuadro 1 presenta un ejemplo de texto 18 Sistema de recomendación para un uso inclusivo del lenguaje nominal. Los atributos contienen información sobre lemas, formas, etiquetas morfológicas (en el ejemplo parole), información semántica (sense), etiquetas sintácticas (label, multiple). En él se desarrollan algunos aspectos relacionados con la violencia: sus significados, los modos en que hombres y mujeres se posicionan ante la misma, las causas de la violencia ejercida especı́ficamente contra las mujeres y el papel que juega la socialización de niñas y niños en la formación de conductas violentas. atributos: lemma=y form=y parole=CC HasDoubleForm=false lemma1=hombre form1=hombres parole1=NCMP000 HasDoubleForm1=true senses1=0:07391044 0:05957670 0:07392506 0:01967203 0:07331418 0:07392045 1:06951621 1:00017954 1:00004123 1:01966690 1:07602853 1:06951621 2:00004123 2:00003731 2:00002086 2:01964914 2:07356184 2:00004123 3:00003731 3:00002086 3:00001740 3:00001740 3:01402712 3:00004123 3:00003731 3:00002086 4:00001740 4:00001740 4:01378363 4:00003731 4:00002086 4:00001740 4:00001740 5:00995974 5:00001740 5:00001740 6:00990770 7:00008019 8:00002086 9:00001740 lemma2=mujer form2=mujeres parole2=NCFP000 HasDoubleForm2=false senses2=0:07684780 1:06948278 2:00004123 3:00003731 3:00002086 4:00001740 label=sn-doble multiple=true Figura 2: Representación semántica de hombre y mujer (sense1 y sense2 en Cuadro 2) te de la información semántica asociada a los conceptos “hombre” y “mujer”. Según WordNet mientras mujer tiene un único significado hombre puede tener varios y ambas palabras tienen por hiperónimo el concepto persona. Referente al análisis sintáctico, para el recomendador se ha creado una gramática de SNs especı́fica y se ha modificado el diccionario para que palabras cómo prı́ncipe y princesa tengan el mismo lema. 2.2. El componente Filtrar puede considerarse como un clasificador de SNs. La Figura 3 presenta el árbol de decisión que se aplica para identificar si un SN es inclusivo (CORRECTO), exclusivo (INCORRECTO), irrelevante (DESCARTAR) o multiple (DESMONTAR). En esta fase se aplican una serie de patrones que combinan información sintáctica con información semántica. Sintácticamente se tiene en cuenta si el SN es doble o sospechoso y semánticamente se tiene en cuenta si la palabra tiene una relación de hiperonimia con persona o grupo social. La regla por defecto serı́a que si un SN hace referencia a una persona o grupo social en masculino que tiene contraparte femenina y esta no aparece reflejada se detecta cómo incorrecto, si aparece se detecta cómo correcto. Para los casos a los que no se puede aplicar la regla por defecto o requieren un tratamiento especial para desvincularlo de la información que tiene o deja de tener WordNet se ha creado una serie de listas. A continuación se describe cada lista y el Cuadro 3 presenta las Cuadro 2: SN y las caracterı́sticas extraı́das HasDoubleForm indica que un lema tiene forma para ambos géneros. Este atributo será también cierto en palabras masculinas que tienen contraparte femenina, pero que no comparten lema con ella y por tanto no son detectables vı́a diccionario, como hombre. Esta fase utiliza la librerı́a Freeling2 (Atserias et al., 2006), que proporciona varios analizadores del lenguaje: análisis morfológico, etiquetado gramatical, análisis sintáctico superficial, detección y clasificación de entidades nominales y anotación semántica basada en WordNet (Vossen, 1998). Un SN puede estar formado por varios nombres y cada uno de ellos puede a su vez tener varios sentidos. La información semántica asociada se ve reflejada en los atributos sense, Cuadro 2. La Figura 2 presenta par2 Filtrar http://garraf.epsevg.upc.es/freeling/ 19 Maria Fuentes, Lluís Padró, Muntsa Padró, Jordi Turmo, Jordi T. Carrera palabras especiales hombre varón macho padre papá papa padrino marido caballero patrono obispo cardenal poeta jinete judı́o primero segundo tercero último penúltimo amo capellán albañil palabras no relevantes par tipo sector curso seminario tribunal nombre corazón factor amor circo pueblo estado contacto región elemento compromiso animal negocio extremo conferencia servicio encuentro periódico ejército encuentro colegio consejo departamento instituto ejemplo cuerpo cabo centro congreso simposio espectáculo cielo reparto cuadro diario modelo banco capı́tulo campamento paı́s conjunto éxito régimen bloque monstruo montón comedor imperio talento club partido palacio ministerio metro fantasma horario pájaro comité reino municipio ángel ayuntamiento vehı́culo cariño clan cerebro as cristianismo editorial sol base maricón terror satélite violı́n baile bajo testimonio bicho máquina academia laboratorio aula taller clı́nica campo doble papel general desastre demonio ex nazi rayo grande moro movimiento cı́rculo miembro parte alfabeto palabras inclusivas persona nombres vacı́os persona equipo señor colectivo sindicato ramo órgano población clase comunidad mundo coto profesión personal público gente grupo habitante asociación palabras genéricas profesorado alumnado ciudadanı́a estudiantado electorado clientela vecindario funcionariado voluntariado abogacı́a afición presidencia tropa vicepresidencia gerencia jefatura secretarı́a asesorı́a alcaldı́a coordinación redacción autorı́a magistratura judicatura delegación descendencia audiencia proletariado burguesı́a chiquillerı́a humanidad juventud infancia adolescencia tesorerı́a ingenierı́a ministerio consistorio tripulación pasaje consultorı́a auditorı́a notarı́a tutorı́a conserjerı́a empresa directiva Cuadro 3: Palabras con tratamiento especial. les)”. Ası́ mismo, “curso” o “sector” pueden referirse a un grupo o colectivo (“el curso de 5o son unos gamberros”, “el sector del metal esta en huelga”). La lista palabras no relevantes contiene lemas de palabras para las que el sistema debe ignorar los sentidos persona/colectivo que puedan tener, ya que son poco habituales. Eso evita la inclusión en la BD de muchos ejemplos irrelevantes, corriendo el riesgo de descartar ejemplos relevantes en las pocas ocasiones en que esas palabras constituyan ejemplos a detectar. La mayorı́a de palabras con género morfológico femenino o bien se refieren a objetos o a animales hembras (silla, casa, gata, gallina, ...) o a personas de sexo femenino (niña, amiga, ...). En el primer caso, no son relevantes para el tratamiento del lenguaje exclusivo. En el segundo, se considera que el deseo era referirse a una/s persona/s de sexo femenino y por tanto, no se detecta como sintagma incorrecto ni tampoco como sintagma candidato a sugerencia. Las palabras en la lista palabras inclusivas (como p.e. “persona”) son excepciones a esta regla, y deben ser consideradas candidatas a sugerencia aunque sean morfológicamente femeninas. Figura 3: Representación del árbol de decisión para filtrar SN inclusivos o exclusivos. palabras que contienen inicialmente. La lista palabras especiales contiene lemas de palabras masculinas que tienen una palabra femenina, pero que no comparten lema con ella y por tanto no son detectables vı́a diccionario. Por ej. “niños” es una palabra masculina que comparte lema con “niñas”, que es femenina. Palabras como “hombres” no tienen esta caracterı́stica, dado que su correspondiente femenino (“mujer” en este caso) tiene un lema diferente. El sistema usa información semántica extraı́da de WordNet para determinar si una palabra puede referirse a personas o a colectivos, que son conceptos clave para la identificación de ejemplos correctos o incorrectos en cuanto a género. Algunas palabras tienen sentidos poco frecuentes que caen en esas categorı́as (p.e. “un tipo” o “un par” pueden referirse a una persona, “un tipo majo”, “un Par del Reino”, “estar con sus pares (sus igua20 Sistema de recomendación para un uso inclusivo del lenguaje Número máximo de ejemplos en un cluster. Se usa en el proceso de decisión del número de clusters. Si el corte óptimo supone crear un cluster de tamaño mayor al valor dado en esta opción, se busca otro valor óptimo que no viole esta restricción. Los ejemplos de la BD se agrupan en clusters y para cada cluster se elige un ejemplo representante (medoide). El Cuadro 4 presenta los ejemplos que forman el cluster representado por el medoide una educadora o un educador. La lista nombres vacı́os contiene aquellos nombres que se refieren a una persona o colectivo, pero que en el caso de llevar un adjetivo, es ése el que aporta la información relevante (p.e. “persona usuaria” es relevante para “usuario”, o “equipo directivo” lo es para “directivos” o “director”). La lista palabras genéricas contiene palabras que se refieren a colectivos, pero que en WordNet no aparecen como tal. 2.3. Buscar similares El sistema utiliza una BD de ejemplos inclusivos indexada para que el acceso a los ejemplos sea eficiente utilizando técnicas de clustering o agrupación de ejemplos. Lo que significa que se agrupan los ejemplos según su parecido, para facilitar su posterior recuperación por similitud. En concreto se accede a los clusters o conjuntos de ejemplos con menor distancia (valor entre 1 y 0). La distancia entre ejemplos se calcula aplicando la siguiente fórmula: 637: del equipo educativo 917: una educadora o un educador 1065: la persona ası́ educada 1771: educadoras y educadores 1798: como persona educadora 1803: educadoras o educadores 1804: de un equipo educativo 4292: la persona educadora 4698: educadoras/es medoide: 917 num.ejemplos: 9 d = 1 − ((P la ∗ Sla + P f ∗ Sf + P le ∗ Sle + P s ∗ Ss + P p ∗ Sp)/P normaliza) Cuadro 4: Ejemplo de cluster y su medoide. Para evitar comparar cada vez la distancia del SN tratado a todos los ejemplos de la BD únicamente los medoides son tenidos en cuenta en la selección del conjunto de clusters que se encuentran a menor distancia. En esta fase, se calcula la distancia del SN tratado con el medoide de cada cluster en la BD. donde Sla, Sf, Sle, Ss y Sp son respectivamente las similitudes entre las etiquetas sintácticas, las formas, los lemas, los sentidos y las etiquetas morfológicas y Pnormaliza es la suma de los pesos de cada similitud: Pla 0.1, Pf 3, Ple 5, Ps 8 y Pp 1. 2.4. Se ha utilizado una implementación de Clustering Jerárquico Aglomerativo (Jardine y Sibson, 1971). Como distancia inter-grupo hemos utilizado “Unweighted Pairwise Group Method using Arithmetic Averages” (Zhao y Karypis, 2002). Una vez el dendrograma está construido, el número óptimo de clusters se determina usando Silhouette (Rousseeuw, 1987). Se selecciona la profundidad del árbol cuyos clusters obtienen un mayor valor Silhouette. Adicionalmente el sistema tiene dos parámetros relacionados con la construcción de los clusters: Número mı́nimo de clusters de ejemplos que se crearan. El algoritmo decide automáticamente el número óptimo de grupos, pero en algunos casos el criterio de decisión puede no obtener un valor satisfactorio. En estos casos, se usa el número de clusters especificado en esta opción. Presentar sugerencias La selección de las sugerencias para un ejemplo incorrecto requiere el paso previo de selección de los clusters más prometedores. En esta última fase sólo se analizan las posibles sugerencias que contienen los mejores clusters, evitando ası́ un recorrido exhaustivo de toda la BD. De entre las sugerencias analizadas, se seleccionan las más parecidas al ejemplo incorrecto, siempre que se encuentren dentro de un margen de similitud, y procurando que sean lo más variadas posible. A continuación se describen los parámetros que controlan la búsqueda y selección de sugerencias: Número máximo de sugerencias que dará el recomendador. Puede dar menos si no hay bastantes candidatos lo suficientemente cercanos al ejemplo incorrecto. Umbral de distancia a partir del cual no se consideran las sugerencias, aunque no se haya 21 Maria Fuentes, Lluís Padró, Muntsa Padró, Jordi Turmo, Jordi T. Carrera te por “toda persona usuaria”, sin embargo sin tener en cuenta la preposición y adecuando el número, se puede considerar que todas las sugerencias aportan información útil. A veces información relevante de la sugerencia queda en lo que serı́a la zona de contexto: “los colectivos de homosexuales” o “los/las trabajadores/as”. En el primer caso, sintácticamente se trata de dos sintagmas: un sintagma nominal “los colectivos” y uno preposicional “de homosexuales”. Si el sistema considerara que es un solo sintagma, entonces se filtrarı́an como correctos ejemplos como “las personas del bar de la esquina” o “[avisar a] las personas del peligro que corren”. Cuando aparece ’/’ el etiquetado sintáctico no acaba de ser del todo correcto, puesto que su uso es gramaticalmente discutible. La calidad de los documentos de los que se han extraı́do los ejemplos es básica. Por ejemplo en el caso de “para médicos, enfermeras, dietistas y otros profesionales” aparecen usos exclusivos de lenguaje, sin embargo “para médicos” aparece como ejemplo porque en el diccionario utilizado “médico” es una palabra que se puede referir a ambos géneros. Ası́ pues, la primera sugerencia propone la eliminación del artı́culo para que sean incluidos profesionales de ambos sexos. No obstante lo que sucede es que el sistema no comprueba que el contexto sea inclusivo. Por esta razón “otros profesionales”, exclusivo, aparece en el contexto de un ejemplo positivo. La tercera alternativa que se da a “los médicos” es “doctor o doctora”, sugerencia aceptable, aunque el significado en el contexto dado no sea sinónimo de “médico”. Cada aparición de un SN es almacenado una sola vez en la BD, independientemente de su contexto o de si pueda tener varios significados. El sistema no suele presentar sugerencias a los adjetivos. En el tercer párrafo, “los turistas alemanes” se da alternativas para “los turistas” proponiéndose quitar el determinante para incluir tanto turistas femeninos como masculinos. Será necesario la posterior supervisión de las concordancias en el texto final. Si el contenido de la BD ha sido creado a partir de la adquisición automática de ejemplos es recomendable una supervisión de su contenido. Ya que puede ocurrir que los contextos sean poco significativos o como en el caso de “de mujer o por los investigadores”, sugerencia propuesta a “los investigadores”, se haya almacenado como inclusivo un ejem- alcanzado el número máximo de sugerencias. La distancia equivale a 1-similitud, por lo que un umbral 0.55 implica que no se propondrán sugerencias con una similitud inferior a 0.45. Una distancia demasiado baja excluye ejemplos interesantes pero semánticamente alejados (p.e. ciudadanos de ciudadanı́a) Número de clusters más cercanos al SN incorrecto a explorar para la selección de sugerencias. Si el valor es muy alto, se pierde eficiencia ya que se explora gran parte de la BD. Este valor controla el porcentaje de la BD que se explora en cada consulta. Si la BD tiene muchos clusters, que este valor sea alto, no necesariamente significa una gran perdida de eficiencia, y en cambio, garantiza que se encuentren los mejores ejemplos. Un valor de 1 puede funcionar bien con una BD rica en ejemplos. Un valor de 2 o 3 introduce cierta flexibilidad en la búsqueda que puede mejorar los resultados en ejemplos que quedan a medio camino entre dos grupos. Umbral de igualdad. Para aumentar la variedad de las sugerencias, el recomendador omite los candidatos si son muy parecidos a alguno ya propuesto. (ej: si en la lista ya figura “los profesores y las profesoras”, se omitirá “los profesores o las profesoras”). Este umbral es la similitud mı́nima que deben tener dos ejemplos para ser considerados “demasiado parecidos”. Cuanto mayor es el valor, más estricta es la comparación (más parecidos se permite que sean los ejemplos de la lista final). Si el valor baja, menos estricta es la comparación (se consideraran parecidos ejemplos con mayores diferencias). En caso que no se seleccione ningún ejemplo candidato, siempre que sea posible, se genera automáticamente una sugerencia sin contexto a partir del diccionario, “alcaldesa y alcalde” para el SN que contiene “alcalde”. 3. Análisis del funcionamiento Para mostrar lo que se puede esperar del sistema, analizaremos las sugerencias ofrecidas a una serie de SNs detectados como exclusivos, ver Cuadro 5. Para permitir el acceso a un mayor número de ejemplos en la decisión de si dos SNs son similares no se tiene en cuenta las preposiciones, ni la mayorı́a de veces los adjetivos. El sistema propone usos inclusivos parecidos asociados a un contexto. Por ejemplo el primer SN detectado como incorrecto, “los usuarios”, sólo podrı́a ser remplazado directamen22 Sistema de recomendación para un uso inclusivo del lenguaje <P locator=”1”type=”texto”> Los usuarios del recinto se manifiestan en contra de los homosexuales. </P> <P locator=”1”type=”texto”> <SN end=”14”fac=”1.0”start=”2”id=”1”>Los usuarios</SN> <L SUG id=”1”> <SUG sim=”1.0”id=”1”> ... situación, que desorienta <EJ>a los colectivos usuarios</EJ> de los servicios formativos, se simplifica ... </SUG> <SUG sim=”0.9490392648287383”id=”2”> ... seguridad de redes y sistemas o Informática <EJ>de usuario/a</EJ> o Programador/a de aplicaciones ... </SUG> <SUG sim=”0.9172932330827067”id=”3”> ... guardar el rastreo de lo que hace <EJ>toda persona usuaria</EJ> de Internet durante un mı́nimo de ... </SUG> </L SUG> <SN end=”71”fac=”1.0”start=”42”id=”2”> en contra de los homosexuales</SN> <L SUG id=”2”> <SUG sim=”0.9941520467836257”id=”1”> Represión franquista y lucha de los colectivos <EJ>de homosexuales</EJ> y transexuales Fernando Olmeda, ... </SUG> <SUG sim=”0.9422156790577841”id=”2”> ... especialmente en las escuelas, como estos pares: <EJ>homosexual</EJ>/heterosexual; femenino/masculino; ... </SUG> <SUG sim=”0.9364319890635678”id=”3”> ... homosexual es no ser ya ni mujer ni hombre, como si <EJ>la persona homosexual</EJ>renunciara a su ... </SUG> </L SUG> Los usuarios del recinto se manifiestan en contra de los homosexuales. </P> <P locator=”2”type=”texto”> Los trabajadores optan por unirse a los médicos. </P> <P locator=”2”type=”texto”> <SN end=”17”fac=”1.0”start=”1”id=”3”>Los trabajadores</SN> <L SUG id=”3”> <SUG sim=”0.9941520467836257”id=”1”> ... Comisiones Obreras cuando pide la equiparación de los/<EJ>las trabajadores/as</EJ> del sexo al resto ... </SUG> <SUG sim=”0.993815730994152”id=”2”> Tanto <EJ>los trabajadores y trabajadoras</EJ> propuestos por la Fundación Universidad de Oviedo, como ... </SUG> <SUG sim=”0.9294976571864444”id=”3”> ... fácil podrı́a ser cambiar el mundo si <EJ>toda persona trabajadora</EJ> donara una unidad monetaria ... </SUG> </L SUG’> <SN end=”48”fac=”1.0”start=”35”id=”4”> a los médicos</SN> <L SUG id=”4”> <SUG sim=”0.9941520467836257”id=”1”> ... necesita para conducir un servicio de entrenamiento <EJ>para médicos</EJ>, enfermeras, dietistas y otros ... </SUG> <SUG sim=”0.9406850459482038”id=”2”> ... enfermedad todavı́a muy desconocida incluso <EJ>para el colectivo médico</EJ>, y es objeto de miles de ... </SUG> <SUG sim=”0.48454469507101083”id=”3”> ... personal docente e investigador con el grado <EJ>de doctor o doctora</EJ>, que ha de constituir, ... </SUG> </L SUG> Los trabajadores optan por unirse a los médicos. </P> <P locator=”3”type=”texto”> Los turistas alemanes serán premiados por los investigadores. </P> <P locator=”3”type=”texto”> <SN end=”24”fac=”1.0”start=”3”id=”5”> Los turistas alemanes</SN> <L SUG id=”5”> <SUG sim=”0.9941520467836257”id=”1”> Llegan a nuestro paı́s <EJ>como turistas</EJ> y la consiguiente exigencia de visados al poco de su estancia ... </SUG> </L SUG> <SN end=”63”fac=”1.0”start=”41”id=”6”> por los investigadores</SN> <L SUG id=”6”> <SUG sim=”0.9941520467836257”id=”1”> Bienestar reune en Madrid (CSIC, Serrano 117) <EJ>investigadores/as</EJ> de más de 30 paises. </SUG> <SUG sim=”0.9472398946083156”id=”2”> ... bagaje colectivo <EJ>como grupo investigador</EJ>está formado por el pensamiento crı́tico de teóricos ... </SUG> <SUG sim=”0.7571929824561403”id=”3”> temas <EJ>de mujer o por los investigadores</EJ> que (¿casualmente?) son mayoritariamente mujeres, ... </SUG> </L SUG> Los turistas alemanes serán premiados por los investigadores. </P> <P locator=”4”type=”texto”> El director se reune con el alcalde. </P> <P locator=”4”type=”texto”> <SN end=”13”fac=”1.0”start=”2”id=”7”>El director</SN> <L SUG id=”7”> <SUG sim=”0.9941520467836257”id=”1”> Cada vez es más habitual ver ’informático/a’ o ’<EJ>director/a</EJ>’, pero seguimos encontrándonos con ... </SUG> <SUG sim=”0.9410175981620718”id=”2”> Las decanas y los decanos y <EJ>las directoras y los directores</EJ> de las unidades deben elaborar y someter ... </SUG> <SUG sim=”0.8624011007911937”id=”3”> Una profesora me contó que el año pasado <EJ>el equipo directivo</EJ> de su instituto decidió gastarse todo ... </SUG> </L SUG> <SN end=”37”fac=”1.0”start=”23”id=”8”> con el alcalde</SN> <L SUG id=”8”> <SUG sim=1.0”id=”1”> <EJ>alcaldesa y alcalde</EJ> </SUG> </L SUG> El director se reune con el alcalde. </P> Cuadro 5: Ejemplo de párrafos no inclusivos y las sugerencias ofrecidas por el recomendador. plo que en realidad es exclusivo. Por último, toda sugerencia podrá ser susceptible de error, ya que el sistema no tiene manera alguna de saber si el texto se está refiriendo a un varón concreto, por ejemplo, si el alcalde es un hombre no tiene sentido sugerir “alcaldesa y alcalde”. 4. ción definitiva del sistema, ası́ como la ampliación de los ejemplos positivos de la BD, se está llevando a cabo en la Fundación CTIC. Una mejora del sistema consiste en tener en cuenta todas las partı́culas del SN, ya que por el momento básicamente se tienen en cuenta nombres. Los adjetivos sólo se tienen en cuenta si el núcleo del SN es un nombre que aparece en la lista nombres vacı́os. Trabajo futuro La definición final del contenido de las listas de palabras utilizadas para la configura- Tratar los pronombres nos permitirı́a detectar ejemplos como “estamos todos y to23 Maria Fuentes, Lluís Padró, Muntsa Padró, Jordi Turmo, Jordi T. Carrera Bibliografı́a das” o malos usos como “contacte con nosotros”. De todas formas, por el momento el sistema tampoco trata verbos, por lo que ninguna construcción con clı́ticos, “contactarnos”, puede ser detectada como correcta. Retocar la gramática y el extractor de caracterı́sticas mejorarı́a el tratamiento de SNs especialmente complejos cómo “de nuestras hijas e hijos, amigas y amigos y colegas”. El extractor actual sólo obtiene información de tres elementos por SN: palabra “,” o “conjunción”, palabra1 y palabra2. Refinar el árbol de decisión con que se implementa el filtrado de SNs en el tratamiento de SNs dobles permitirı́a que no se filtrasen cómo ejemplos positivos SNs del estilo “de mujer o por los investigadores”. El estudio de la calidad del contexto en la extracción de SNs inclusivos también significarı́a una mejora, evitando incluir ejemplos, como el anteriormente mencionado, cuyo contexto contiene “otros profesionales”. Referente a la presentación de sugerencias, no se tiene en cuenta si el SN viene precedido por una preposición o no. Se podrı́a estudiar la posibilidad de poner las preposiciones en la zona de contexto. De manera que las sugerencias a “Los usuarios” serı́an: “los colectivos usuarios, usuario/a y toda persona usuaria”, en lugar de “a los colectivos usuarios, de usuario/a y toda persona usuaria”. Queda como trabajo futuro la detección y corrección de SNs que excluyan a personas de sexo masculino, “azafatas” o “enfermeras”. 5. Alario, Carmen, Mercedes Bengoechea, Eulalia Lledó, y Ana Vargas. 1995. En femenino y en masculino. Madrid: Ministerio de Trabajo y Asuntos Sociales. Atserias, Jordi, Bernardino Casas, Elisabet Comelles, Meritxell González, Lluı́s Padró, y Muntsa Padró. 2006. Freeling 1.3: Syntactic and semantic services in an open-source nlp library. En Proceedings of the fifth international conference on Language Resources and Evaluation (LREC 2006), ELRA, Genoa, Italy. Consejo Europa. 1986. Igualdad de sexos en el lenguaje. Comisión de terminologı́a en el Comité para la igualdad entre mujeres y hombres del Consejo de Europa. Departamento Dona. 1987. Recomendaciones para un uso no sexista de la lengua. Consellerı́a de Cultura, Educación y Ciencia de la Generalitat Valenciana. Factoria de Empresas. 2002. La lupa violeta. http://www.factoriaempresas.org/productos yresultados/lupavioleta/lanzador.swf. Jardine, N. y R. Sibson. 1971. Mathematical Taxonomy. John Wiley and Sons, Inc. Naciones Unidas. 1996. Declaración de pekı́n y plataforma para la acción. IV Conferencia mundial sobre las mujeres, Pekı́n. Rousseeuw, Peter. 1987. Silhouettes: A graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20:53–65, November. Conclusiones The Reuse company. 2008. http://www.themis.es. El sistema presentado tiene dos funcionalidades básicas: la recomendación de un uso del lenguaje inclusivo y la adquisición automática de ejemplos inclusivos a partir de textos considerados correctos. El sistema utiliza aprendizaje basado en ejemplos. Por ello, la calidad de las recomendaciones es fuertemente dependiente de la calidad y cantidad de ejemplos previamente almacenados en la Base de Datos, aunque cómo toda aplicación de inteligencia artificial tiene asociado un cierto grado de error. Por esta razón el recomendador debe ser considerado como un asistente a la escritura de textos inclusivos y no como un corrector de textos exclusivos. Themis. Vossen, Piek. 1998. Eurowordnet: A multilingual database with lexical semantic networks. Dordrecht. Kluwer Academic Publishers. Wilson, Kenneth G. 1993. The Columbia Guide to Standard American English. Columbia University Press. Zhao, Y. y G. Karypis. 2002. Evaluation of hierarchical clustering algorithms for document datasets. En Proceedings of the Eleventh International Conference on Information and Knowledge Management (CIKM’02), páginas 515–524. 24 Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 25-30 recibido 14-01-09, aceptado 02-03-09 Aplicación de técnicas de extracción de información temporal a los sistemas de búsqueda de respuestas* Application of temporal information extraction techniques to question answering systems María Teresa Paloma Vicente-Díez Martínez Departamento de Informática. Universidad Carlos III de Madrid Avda. Universidad 30, 28911. Leganés, Madrid {tvicente, pmf}@inf.uc3m.es Ángel MartínezJosé Luis MartínezGonzález Fernández DAEDALUS - Data, Decisions and Language, S.A. Edificio Villausa II Avda. Albufera, 321, 28031. Madrid {amartinez, jmartinez}@daedalus.es Resumen: En este trabajo, proponemos la integración de un sistema de reconocimiento, resolución y normalización de expresiones temporales en un sistema de búsqueda de respuestas para español. Las fases de análisis de la pregunta y de extracción de respuestas han sido adaptadas a las nuevas capacidades del sistema para la detección e inferencia temporal. Dicho sistema ha sido evaluado a través de un corpus de preguntas propuesto para la tarea principal de QA@CLEF2008. Los resultados obtenidos muestran mejoras relativamente significativas tanto en la cantidad de las respuestas acertadas como en la calidad de las mismas. Palabras clave: Sistemas de búsqueda de respuestas, tratamiento de información temporal, razonamiento temporal Abstract: This work proposes the integration of a temporal expressions recognition, resolution and normalization system into a question answering system for Spanish. Both question analysis and answer extraction stages have been adapted to the new capabilities for temporal detection and inference of the system. It has been evaluated by means of a corpus composed of questions that has been originally developed for the main task of QA@CLEF2008. The obtained results show quite significant improvements both in terms of quantity of correct answers and in the quality of them. Keywords: Question-Answering systems, temporal information management, temporal inference 1 Introducción La mayoría de los sistemas de búsqueda de respuestas (SSBBRR) actuales no aprovechan todas las ventajas que podría suministrarles un adecuado procesamiento de la información temporal de sus recursos. Aquéllos podrían ver mejorados sus resultados mediante el empleo de técnicas de extracción e inferencia temporal, tanto en la fase de formulación de la pregunta como en la de recuperación de la respuesta. * Este trabajo ha sido parcialmente financiado por la Comunidad de Madrid bajo la Red de Investigación MAVIR (S-0505/TIC-0267), y por el Ministerio de Educación en el marco del proyecto BRAVO (TIN2007-67407-C3-01). ISSN 1135-5948 La propuesta que se describe en este artículo trata de solucionar esta problemática añadiendo tratamiento temporal a un sistema de búsqueda de respuestas existente, en las fases cuya mejora es susceptible de ejercer una influencia más significativa en el resultado final. Así, se han considerado las etapas de indexación de documentos, el análisis de la pregunta y la extracción de la respuesta. Los principales avances se consiguen mediante la adición de meta-información temporal en las colecciones indexadas, la normalización de las expresiones temporales detectadas en la pregunta, y mediante la inclusión de un mecanismo de inferencia temporal a la hora de extraer la respuesta. © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural María Teresa Vicente-Díez, Paloma Martínez, Ángel Martínez-González, José Luis Martínez-Fernández Pablo-Sánchez y Martínez, 2007) procesa los textos de entrada e identifica fechas y expresiones temporales, instantes de referencia, duraciones e intervalos en ellos (reconocimiento). Las expresiones reconocidas son a su vez resueltas cuando por su naturaleza así lo precisan (resolución), devolviéndose en el formato estándar internacional ISO8601 (2004) de representación de fechas y horas (normalización). En la Figura 1 se muestra la arquitectura general del sistema anteriormente descrito. El sistema de búsqueda de respuestas del que se parte participa en CLEF desde el año 2003, a través del grupo de investigación MIRACLE (Multilingual Information RetrievAl for the CLEf campaign) (de Pablo-Sánchez et al., 2007). En este trabajo el sistema monolingüe, desarrollado inicialmente para trabajar en español, se ha evaluado a través de una batería de preguntas extraídas de la colección de CLEF 2008. Otros trabajos previos han abordado también este problema para el tratamiento de otros idiomas, como en (Hartrumpf y Leveling, 2006) o en (Moldovan y Clark, 2005). El artículo está estructurado como sigue: en la sección 2 se describen las bases para el tratamiento de información temporal. En la sección 3 se presenta el sistema de búsqueda de respuestas sobre el que se ha trabajado, mientras que en la sección 4 se detallan las mejoras llevadas a cabo sobre el mismo. La sección 5 muestra los resultados de la evaluación a la que se ha sometido al sistema. Para finalizar, la sección 6 incluye las conclusiones obtenidas y algunas líneas de trabajo futuro. Figura 1: Arquitectura general del sistema de extracción de información temporal 2 Reconocimiento y Normalización de Expresiones Temporales En un SBR es primordial poder resolver referencias que ayuden a responder a cuestiones temporales (“¿En qué mes se celebra en España la Navidad?”) o con restricciones de tiempo (“¿Cuántas películas fueron filmadas en 2005?”). Particularmente en estos sistemas resulta de especial interés la integración de mecanismos de razonamiento sobre el tiempo que doten a la aplicación de una nueva dimensión temporal (Moldovan, Bowden, y Tatu, 2006). Un tratamiento de información temporal adecuado ha de comenzar con una detección precisa de las expresiones temporales en las colecciones de documentos. Además, ha de ser capaz de manejar cada detección en un formato estándar que capture el valor temporal de la expresión una vez resuelta, permitiendo el razonamiento sin lugar a ambigüedad. De esta manera, en un sistema de recuperación de información que incorpore estas características se puede concretar más el rango de la búsqueda e incrementar la calidad de los resultados. El sistema implementado para la extracción de información temporal (Vicente-Díez, de La base del sistema la constituye una gramática de reglas de reconocimiento de expresiones temporales que define el funcionamiento de un autómata de estados finitos. Conjuntamente, se ha desarrollado una propuesta de resolución y normalización de las detecciones llevadas a cabo, que también se realiza de manera automática. Ambas herramientas se han construido a partir de un estudio exhaustivo de los diferentes tipos de expresiones temporales que aparecen en distintos corpus en español. Gracias a este análisis se desarrolló una tipología de las expresiones de tiempo y seguidamente se definió la gramática de reconocimiento y las reglas de resolución y normalización que correspondían con los tipos de aparición más frecuente (Vicente-Díez, Samy y Martínez, 2008). La Tabla 1 presenta un ejemplo de definición de patrones que constituyen las reglas de la gramática de reconocimiento, así como de las reglas para la resolución de las detecciones y la definición del formato de salida estandarizado. 26 Aplicación de técnicas de extracción de información temporal a los sistemas de búsqueda de respuestas RECONOCIMIENTO PATRON DESCRIPCIÓN EJEMPLOS COMPLETE_DATE REL_DEICTIC_UNIT [ART|PREP]? DAY PREP MONTH_NAME PREP YYYY DEICTIC_UNIT el_3_de_enero_de_2005 mañana FORMATO ENTRADA ABS_DATE REL_ DEICTIC_UNIT_ FUTURE [ART|PREP]? DAY PREP MONTH_NAME PREP YYYY mañana RESOLUCIÓN Y NORMALIZACIÓN REGLA DE RESOLUCIÓN ENTRADA EJEMPLO REFERENCIA SALIDA NORM Day =toDD (DAY) Month=toMM(MONTH_NAME) Year=YYYY [el] 31 de diciembre de 2005 NA 2005-12-31 Day=getDD(Creation_Time)+1 Month=getMM(Creation_Time) Year=getYYYY(Creation_Time) mañana 2008-06-01 2008-06-02 Tabla 1 Ejemplo de reglas de reconocimiento de la gramática temporal y reglas de resolución correspondientes. 3 el módulo encargado de determinar si una pregunta tiene rasgos de temporalidad, entre otros. Selector de Documentos Proporciona acceso a fuentes de información, es decir, a sistemas capaces de proporcionar porciones de texto que pueden contener la respuesta buscada para una pregunta. El sistema da acceso a índices de Lucene en los que previamente se han indexado todos los documentos de las colecciones en las que se procederá a buscar las respuestas. Este módulo precisa de la funcionalidad de análisis lingüístico que ofrece otro de los módulos. Extractor de Respuestas Su funcionalidad radica en analizar el contenido de un documento para determinar si aparece o no la respuesta a una pregunta. Para ello se definen dos tareas: seleccionar las frases que pueden contener una respuesta y determinar qué parte de una frase encierra la respuesta a una pregunta. Como posibles respuestas se extraen aquellos tokens (o grupos de tokens) que tienen asignada la etiqueta semántica adecuada. Este componente devuelve una lista de respuestas candidatas a las que asocia un valor de confianza en su corrección. Este módulo también hace uso de las funciones de análisis lingüístico. Evaluador de Respuestas (Ranker) El sistema consta de un componente para puntuar las posibles respuestas. Este sistema de puntuación asigna un peso local y un peso global a cada respuesta. El peso local sólo depende de la frase en la que se encuentra la respuesta. El peso global se calcula teniendo en consideración todas las respuestas encontradas. Sistema de Búsqueda de Respuestas Los módulos principales que componen la arquitectura general del SBR que ha sido sometido a estudio en este en este trabajo son presentados en la Figura 2. Figura 2: Arquitectura modular del sistema de búsqueda de respuestas La flecha de bloque marca el recorrido que sigue una pregunta durante su procesamiento. Las flechas discontinuas indican qué uso hacen unos componentes de otros. A continuación se describe de forma genérica la funcionalidad de cada módulo. Analizador de Preguntas Este componente se encarga de clasificar una pregunta de entrada atendiendo a un conjunto de características predefinidas. Para ello emplea un clasificador basado en reglas. Es 27 María Teresa Vicente-Díez, Paloma Martínez, Ángel Martínez-González, José Luis Martínez-Fernández normalizar expresiones temporales dentro de esas preguntas. Esto permite que en el tratamiento de las preguntas temporales se pueda refinar el tipo de respuesta que se espera del sistema. Por ejemplo, ante una pregunta como “¿En qué año…?” el sistema es capaz de detectar que la respuesta ha de coincidir con un patrón que corresponda a un año exclusivamente. Por otra parte, en el caso de que la pregunta contenga una expresión temporal, el sistema es capaz de extraerla, clasificando automáticamente dicha pregunta como restringida temporalmente, y utilizando su resolución para acotar la búsqueda. De manera adicional, el uso de la forma normalizada de las expresiones temporales detectadas en las preguntas permite recuperar aquellos documentos que contienen información temporal que coincide no sólo literal sino también semánticamente con los términos de la búsqueda (“15 de septiembre”, “15/09”, “15 sept.”). Ambos pesos se combinan para proporcionar el peso asignado a la respuesta, siendo la influencia de cada uno de ellos configurable. Analizador Lingüístico Este componente incluye toda la funcionalidad relativa al tratamiento lingüístico de los textos con los que se trabaja, sean textos extraídos de documentos o preguntas. Los textos son divididos y enriquecidos con etiquetado gramatical, morfosintáctico y semántico por las herramientas lingüísticas StilusTokenizer y StilusReader, desarrolladas por (DAEDALUS, 2008). 4 Integración del tratamiento temporal en la Búsqueda de Respuestas Algunos autores han denominado búsqueda de respuestas temporal a aquella especialización de la tarea de búsqueda de respuestas en la que las preguntas tienen algún rasgo que denota temporalidad (Saquete, 2005). Este tipo de preguntas pueden ser clasificadas en 3 categorías de acuerdo al papel que juega el dato temporal en su resolución: Preguntas temporales: aquéllas para las que la respuesta esperada es una fecha o expresión de tiempo (“¿Cuándo se firmo el tratado de Maastricht?”) Preguntas con restricción temporal: preguntas en cuyo contenido se encuentra una fecha o expresión temporal que circunscribe su respuesta (“¿Quién ganó el Oscar a la mejor actriz en 1995?”). Preguntas temporales con restricción temporal: combinan las características de los dos tipos anteriormente descritos (“¿En qué temporada anterior a 1994 se enfrentaron Barcelona y Milán?”). Para que el SBR base sea capaz de resolver este tipo de cuestiones temporales es necesaria la integración de ciertas capacidades de tratamiento de información temporal en algunos de sus módulos. En este trabajo se presenta una evolución del SBR base cuya implementación se ha centrado en la mejora de los módulos de análisis de preguntas y extracción de respuestas. 4.1 4.2 Extracción de respuestas Detectar correctamente el tipo de pregunta es fundamental para conseguir una buena respuesta, pero también lo es extraer los fragmentos de texto adecuados para responder a la pregunta, así como asignar una valoración conveniente a las posibles respuestas. Este módulo extrae como respuesta aquéllos tokens que tienen asignada la etiqueta semántica correspondiente al tipo de pregunta formulada. En el caso de las preguntas temporales el sistema con tratamiento de información temporal es capaz de proporcionar respuestas que cumplen la restricción de ser expresiones temporales o fechas, con la granularidad que dicte la pregunta (fecha completa, año, mes,…). Cuando se trata de responder a preguntas con restricción temporal, el módulo aplica nuevas reglas de extracción basadas en inferencia temporal. En el caso de que una respuesta candidata no cumpla la restricción temporal impuesta en la pregunta, la regla reducirá la valoración final de dicha respuesta. Si por el contrario la cumple, la confianza en que pueda ser una respuesta correcta aumenta con respecto al resto. Se ha desarrollado un mecanismo de inferencia temporal básico fundamentado en el principio de inclusión: de un instante de tiempo en un intervalo, y de un intervalo en otro. Esta Análisis de preguntas Este módulo es el encargado de la clasificación de las preguntas de entrada. Entre otras, se encarga de clasificar las preguntas con rasgo de temporalidad de acuerdo a la categorización que se describió anteriormente. Su funcionalidad ha sido incrementada dotándole de capacidad para detectar, resolver y 28 Aplicación de técnicas de extracción de información temporal a los sistemas de búsqueda de respuestas sistemas, habiéndose llevado a cabo el cómputo en términos cuantitativos y cualitativos. Para esta última medición se ha hecho un análisis en función de si la respuesta correcta ha sido ofrecida como primera, segunda o tercera opción, descartándose el resto de posibilidades. inferencia es facilitada por la normalización previa de las expresiones de tiempo. 5 Evaluación y resultados Esta sección muestra una comparativa entre los resultados obtenidos por el SBR base y el ampliado con tratamiento de expresiones temporales. Ambos sistemas trabajan sobre los índices de documentos obtenidos de las colecciones que se muestran en la Tabla 2. EFE 1994 EFE 1995 Wikipedia Documentos 215.738 238.307 ≈ 370.000 Tamaño 509 MB 577 MB -- Preguntas Restricción Temporal Preguntas Temporales Preguntas Temporales con Restricción Temporal Total Tipo txt txt html 26 19 1 13% 10% 0,5% 46 23% Tabla 3 Preguntas con rasgo de temporalidad en QA@CLEF2008 Los resultados obtenidos por el SBR base, sin mecanismos de inferencia y tratamiento temporal, se muestran en la Tabla 4. Éste responde correctamente a 8 de las 46 preguntas, siendo 5 de esas respuestas ofrecidas como primera opción. En cuanto al SBR con capacidades temporales, los resultados se muestran en la Tabla 5. En este caso se observa un incremento en el número de respuestas correctas obtenidas, contabilizándose un total de 9. Además, los resultados se ven también mejorados cualitativamente, ya que 7 de esas respuestas se ofrecen como primera opción. La utilización del SBR temporal supone un incremento en la tasa de acierto del 2,17% con respecto al SBR base, y del 4,35% en el ratio de respuestas correctas en primera instancia. Tabla 2 Colecciones de documentos indexadas Con el fin de realizar esta evaluación ha sido también preciso emplear un corpus de preguntas temporales que permitiera contrastar los resultados de uno y otro sistema. Dicho corpus se ha obtenido de la tarea principal de QA@CLEF2008, y cuenta con un total de 200 preguntas. De éstas, 46 están clasificadas según su cariz temporal dentro de alguno de los 3 tipos definidos en el punto anterior. Este subconjunto de preguntas será sujeto de estudio por su interés particular para este trabajo. La Tabla 3 muestra las proporciones de cada tipo de pregunta con temporalidad en el corpus. Se ha realizado una evaluación manual de la corrección de las respuestas a las preguntas con rasgos de temporalidad obtenidas por ambos 1ª respuesta 1 3,85% 4 21,05% 0 0% 5 10,87% Preguntas con Restricción Temporal Preguntas Temporales Preguntas Temporales con Restricción Temporal Total Aciertos en 2ª respuesta 1 3,85% 0 0% 0 0% 1 2,17% 3ª respuesta 1 3,85% 1 5,26% 0 0% 2 4,35% Tabla 4 Resultados del SBR sin tratamiento de información temporal 1ª respuesta 3 11,54% 4 21,05% 0 0% 7 15,22% Preguntas con Restricción Temporal Preguntas Temporales Preguntas Temporales con Restricción Temporal Total Aciertos en 2ª respuesta 0 0% 1 5,26% 0 0% 1 2,17% Tabla 5 Resultados del SBR con tratamiento de información temporal 29 3ª respuesta 0 0% 1 5,26% 0 0% 1 2,17% María Teresa Vicente-Díez, Paloma Martínez, Ángel Martínez-González, José Luis Martínez-Fernández 6 Hartrumpf, S. y Leveling, J. 2006. University of Hagen at QA@CLEF 2006: Interpretation and Normalization of Temporal Expressions. En, Working Notes of the 2006 CLEF Workshop. Alicante (Spain). Conclusiones y líneas futuras A la vista de los resultados obtenidos en este trabajo, se puede concluir que el tratamiento de la información temporal constituye una línea de mejora a tener en cuenta por los SBR actuales. Bien es cierto que el corpus de preguntas disponibles con rasgos de temporalidad es pequeño y por tanto los resultados no pueden considerarse absolutamente concluyentes. No obstante, mediante la integración de un sistema de reconocimiento y normalización temporal junto con el ajuste de los módulos de análisis de la pregunta y extracción de la respuesta, permitiéndose la realización de una inferencia temporal sencilla, se consigue que el número de respuestas correctamente satisfechas se vea incrementado. Conjuntamente, también la probabilidad de obtener la respuesta correcta en la primera opción aumenta. Ambas características hacen que consideremos prometedora esta línea de trabajo. Aun habiéndose obtenido resultados positivos en términos cuantitativos y cualitativos, sería interesante ahondar más en las causas que originan dicho incremento. Del mismo modo queda pendiente analizar los motivos por los cuales en determinadas ocasiones el sistema disminuye la valoración de la respuesta correcta. Se plantea también como línea futura la mejora de otros módulos del SBR, añadiendo nuevas capacidades de tratamiento del tiempo. En este sentido se destaca la posibilidad de combinar el sistema de indexación actual con índices temporales constituidos de expresiones temporales normalizadas. El enriquecimiento del mecanismo actual de inferencia temporal es otra mejora susceptible de llevar a cabo. Por último, también el sistema de extracción de expresiones temporales podría ser perfeccionado con el fin de incrementar la cantidad de información temporal completa y correctamente manipulada. ISO8601:2004(E). 2004. Data elements and interchange formats – Information interchange – Representation of dates and times. Tercera edición 2004-12-01. Moldovan, D. y Clark, C. 2005. Temporally Relevant Answer Selection. En Proceedings of the 2005 International Conference on Intelligence Analysis. Mayo 2005. Moldovan, D. Bowden, M. y Tatu, M. 2006. A Temporally-Enhanced PowerAnswer in TREC 2006. En The Fifteenth Text REtrieval Conference (TREC 2006) Proceedings. Gaithersburg, MD, (USA). de Pablo-Sánchez, C., Martínez, J.L., González Ledesma, A., Samy, D., Martínez, P., Moreno-Sandoval, A. y Al-Jumaily, H. 2007. MIRACLE Question Answering System for Spanish at CLEF2007. En Working Notes of the 2007 CLEF Workshop. Budapest (Hungary). Septiembre 2007. Saquete, E. Resolución de Información Temporal y su Aplicación a la Búsqueda de Respuestas. 2005. Tesis Doctoral en Informática, Universidad de Alicante. Vicente-Díez, M.T., de Pablo-Sánchez, C. y Martínez, P. 2007. Evaluación de un Sistema de Reconocimiento y Normalización de Expresiones Temporales en Español. En Actas del XXIII Congreso de la Sociedad Española de Procesamiento de Lenguaje Natural (SEPLN 2007), páginas 113-120. Sevilla, (Spain). Septiembre 2007. Vicente-Díez, M.T., Samy, D. y Martínez, P. 2008. An Empirical Approach to a Preliminary Successful Identification and Resolution of Temporal Expressions in Spanish News Corpora. En Proceedings of the Sixth International Language Resources and Evaluation (LREC'08). Marrakech, (Morocco). Mayo 2008. Bibliografía DAEDALUS. 2008. Data, Decisions and Language, S. A. http://www.daedalus.es. Visitado: Enero 2009. 30 Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 31-38 recibido 29-12-08, aceptado 02-03-09 Evaluación de una Estrategia de Expansión Local Conservadora en Recuperación de Información Visual Evaluating a Conservative Automatic Local Expansion Strategy for Visual Information Retrieval Sergio Navarro, Rafael Muñoz y Fernando Llopis Departamento de Lenguajes y Sistemas Informáticos Universidad de Alicante Carretera Sant Vicent del Raspeig s/n 03690 Sant Vicent del Raspeig (Alicante) snavarro,rafael,[email protected] Resumen: En este trabajo comparamos dos métodos de expansión de la pregunta en el area de la Recuperación de Información Visual (RIV): Probabilistic Relevance Feedback (PRF) y Local Context Analysis (LCA). La principal diferencia observada entre ambos métodos es que mientras PRF utiliza para la expansión las anotaciones correspondientes a las primeras imágenes de un ranking, LCA evita utilizar anotaciones corespondientes a imágenes no relevantes, situadas en esas primeras posiciones, mediante una heurı́stica basada en coocurrencia. Los resultados muestran que LCA obtiene mejor precisión que PRF a medida que la precisión del ranking utilizado para la expansión es menor. Esta observación hace de LCA un método especialmente adecuado para su utilización con rankings de baja precisión como los devueltos por sistemas de RIV basados en el contenido de la imagen. Y ası́ lo demuestran los buenos resultados obtenidos utilizando la variante multimodal de LCA, que es la única estrategia de expansión local que no daña a la diversidad de los resultados, y a su vez la que obtiene nuestros mejores resultados de precisión con el conjunto de consultas de la tarea ImageCLEFPhoto 2008 – 4o MAP y 5o P20 de las 1039 ejecuciones automáticas enviadas por los participantes –. Palabras clave: Recuperación de Información Visual, Expansión Local, LCA, PRF Abstract: In this paper we compare two query expansion methods in the Visual Information Retrieval (VIR) area: Probabilistic Relevance Feedback (PRF) and Local Context Analysis (LCA). The main difference observed between these methods is that while PRF assumes that annotations related to top-ranked images are relevant, LCA avoids to include terms from top-ranked non relevant images of the ranking using an heuristic based on coocurrence. The experiment results show us that LCA increases its precision over PRF for those rankings with lowest precision. Thus, LCA demonstrates to be specially suitable for low precision rankings as the ones returned by the VIR systems based on the content of the image. Indeed, our multimodal LCA variation is the only one local expansion strategy which do not hurt the diversity of the results and the one which reach our best precision results with the ImageCLEFPhoto 2008 task query set – 4o MAP and 5o P20 within the 1039 automatics runs submitted by the participants –. Keywords: Visual Information Retrieval, Relevance Feedback, LCA, PRF 1. Introducción La gran variedad de formatos digitales existentes en la red y el boom de los contenidos multimedia, hacen necesario desarrollar y/o adaptar herramientas de búsqueda de información a las caracterı́sticas de estos nuevos formátos como son el video y la imagen entre otros. Actualmente los buscadores comerciales de contenidos multimedia, como los ISSN 1135-5948 bien conocidos Youtube1 o Flickr2 , basan las búsquedas sólo en el texto que acompaña a la imagen o al video. El desarrollo de este tipo de herramientas está dentro del área de investigación de la Recuperación de Información Visual (RIV), que es donde se encuadra el trabajo que aquı́ presentamos. La RIV po1 2 http://www.youtube.com http://www.flickr.com © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural Sergio Navarro, Rafael Muñoz, Fernando Llopis drı́amos decir que es un área especı́fica dentro de la Recuperación de Información (RI), en la cual de hecho inicialmente se han utilizado sistemas de RI tradicionales sin ninguna adaptación especifica a la RIV para llevar a cabo búsquedas utilizando las anotaciones que acompañan a las imágenes. Ası́, las colecciones que utilizan los sistemas de RIV estan compuestas de colecciones de imágenes y de las anotaciones que describen a las mismas. Históricamente en el área de la RIV se han utilizado dos enfoques para llevar a cabo la RI de imágenes: En los inicios de la RIV a finales de los años 70, los sistemas de RIV se basan en las anotaciones que acompañan a las imágenes, se trata pues de sistemas de RIV Basados en Texto (RIBT). Más tarde a principios de los años 90, en un intento de superar la dependencia de los sistemas de RIBT de la existencia de anotaciones textuales de una imagen para su indexación, surgen los sistemas de RIV Basados en el Contenido de la Imagen (RIBC) (Grubinger, 2007). Finalmente en los últimos años a medida que las tecnologı́as utilizadas por los sistemas de RIBC han ido madurando, un tercer enfoque para afrontar el problema de la RIV ha surgido, se trata de los sistemas que combinan tecnologı́as basadas en texto y en imagen. En este contexto se han venido organizando competiciones como el ImageCLEF3 que es una tarea especı́fica de RIV que busca estimular el desarrollo de sistemas multimodales utilizando colecciones de imágenes con anotaciones reducidas de las mismas para la evaluación y comparación entre sistemas, y que se celebra en el marco de las competiciones anuales del CLEF4 . El objetivo de este trabajo es comparar dos estrategias textuales de expansión local de la consulta que han sido utilizadas, por un lado como técnicas de expansión local de la consulta en sistemas textuales de RIV y por el otro como estrategias de combinación multimodal en sistemas basados en texto e imagen. Las estrategias que comparamos son Probabilistic Relevance Feedback (PRF) y Local Context Analysis (LCA). PRF ha sido ampliamente utilizada como técnica de expansión local en sistemas textuales (Dı́azGaliano et al., 2007) y como estrategia de combinación multimodal (Gao et al., 2007) – utilizando las anotaciones asociadas al rank3 4 ing devuelto por un sistema de RIBC –. En cuanto a LCA, que es una estrategia de expansión local conservadora de la consulta que goza de menor popularidad que PRF, el único precedente que existe de utilización como técnica de combinación multimodal en RIV es el que presentamos en nuestra participación en la subtarea Photo de la edición del 2008 del ImageCLEF. (Navarro, Llopis, y Muñoz, 2008). A partir de los buenos resultados obtenidos con la versión multimodal de LCA en nuestra participación en la citada subtarea Photo del ImageCLEF 2008, en este trabajo nos centramos en comparar PRF y LCA como métodos de expansión local en el ámbito de la RIBT. Nuestro objetivo es hallar evidencias en el mayor número posible de conjuntos de consultas y de colecciones de imágenes, que justifiquen los buenos resultados obtenidos por LCA en su versión multimodal. El sistema que hemos utilizado para la RIBT es IR-n (Llopis, 2003), se trata de un sistema basado en pasajes, que ha demostrado en diferentes competiciones mejores resultados que los obtenidos por la mayorı́a de los sistemas de RIBT basados en documentos. (Navarro, Muñoz, y Llopis, 2008a; Navarro, Muñoz, y Llopis, 2008b). El artı́culo esta estructurado como sigue: en primer lugar presentamos las principales caracterı́sticas del sistema IR-n centrándonos en los métodos de expansión local automática utilizados. A continuación describimos las colecciones utilizadas, los experimentos y los resultados obtenidos. Finalmente informamos de las conclusiones y de las propuestas de trabajos futuros extraı́das a partir de los resultados. 2. Sistema IR-n Para llevar a cabo los experimentos hemos utilizado IR-n, un sistema de recuperación de información basado en pasajes. Este tipo de sistemas tratan cada documento como un conjunto de pasajes, donde cada pasaje delimita una porción de texto del documento. Al contrario que los sistemas basados en documentos, los sistemas basados en pasajes permiten dar mayor relevancia a aquellos documentos donde los términos de la consulta aparecen en posiciones más cercanas entre si (Llopis, 2003). IR-n utiliza listas de palabras de parada http://www.imageclef.org http://www.clef-campaign.org 32 Evaluación de una Estrategia de Expansión Local Conservadora en Recuperación de Información Visual y stemmers para determinar que información de un documento es utilizada para la recuperación de información. Por un lado, la lista de palabras de parada de cada idioma contiene términos que son ignorados por el sistema por considerar que su presencia en la consulta o en un documento no es lo suficientemente significativa como para determinar si un documento es relevante para una consulta. Por otro lado, el stemmer de cada idioma es utilizado para obtener la raı́z de cada término – eliminando sufijos y/o prefijos – tanto de los términos de la consulta en la fase de búsqueda como de los términos de los documentos en la fase de indexacı̀ón de la colección. Una lista de los stemmers y las listas de palabras de parada utilizadas por IR-n puede ser consultada en www.unine.ch/info/clef. Además IR-n permite seleccionar entre diferentes modelos de recuperación. El modelo de recuperación utilizado determina como se va a medir la similitud entre un texto y una consulta, para ello cada modelo utiliza una fórmula que valora el número de términos de la consulta que están presentes en el documento y el poder discriminador de cada uno de estos términos en la colección. 2.1. los documentos situados en las primeras posiciones del ranking no sean relevantes, los resultados alcanzados por los sistemas que la han utilizado en las conferencias TREC y CLEF muestran que en términos generales es una técnica efectiva (Xu y Croft, 2000), siendo de hecho la técnica de expansión local más utilizada por sistemas de RIV en anteriores ediciones del ImageCLEF (Gao et al., 2007) (Dı́az-Galiano et al., 2007). Una aproximación alternativa más conservadora que no parte de la asunción de que todos los documentos devueltos en las primeras posiciones del ranking son relevantes, es Local Context Analysis (LCA) (Xu y Croft, 2000). Esta estrategia al igual que PRF se basa en la frecuencia de aparición de los términos presentes en los n primeros documentos del ranking para la selección de términos a utilizar en la expansión, pero al contrario que la primera, trata de evitar la utilización de términos pertenecientes a documentos no relevantes, para ello da una valoración más alta a aquellos términos pertenecientes a documentos con mayor coocurrencia de términos con la consulta. Ası́, los autores de LCA denominan conceptos a los términos de la expansión. Y utilizan una función f (c, Q), Fórmula (2), para valorar cómo de adecuado es un concepto c para expandir una consulta Q basándose en las coocurrencias de c con los términos de la consulta en los n primeros documentos del ranking. Su Fórmula f (c, Q) viene dada por: Expansión Local de la Consulta En RIBT la estrategia de expansión local de la consulta más extendida es la de Probabilistic Relevance Feedback (PRF) (Robertson y Sparck Jones, 1977). Esta estrategia considera como relevantes los m primeros documentos devueltos en un ranking, a partir de los cuales extrae los j primeros términos mejor valorados según la Fórmula (1) aplicada a cada término t: wt = f (c, Q) = Y (δ + co de(c, wi ))idf (wi ) wi inQ log10 (co(c, wi ) + 1)idf (c) log10 (n) X co(c, wi ) = tf (c, d)tf (wi , d) co de(c, wi ) = (mt + 0,5) · (n − nt − m + mt + 0,5) (m − mt + 0,5) · (nt − mt + 0,5) dinS idf (c) = min(1,0, log10 (N/Nc )/5,0) (1) donde n es el número de documentos en la colección, nt es el número de documentos en los que aparece el término t, y mt es el número de documentos considerados relevantes en los que aparece t. De manera que wt devuelve un valor mayor para aquellos términos cuya frecuencia entre los m primeros documentos del ranking es mayor que en toda la colección. Aunque esta técnica puede empeorar los resultados en el caso de que la mayorı́a de Donde w1 ,w2 ...wm son los términos de la consulta Q, N es el número de documentos en la colección, Nc el número de documentos que contienen el concepto c, y tf (c, d) y tf (wi , d) son las frecuencias de c y wi en un documento d respectivamente. Y finalmente δ es utilizado simplemente como técnica de suavizado para evitar valores nulos – los autores recomiendan utilizar un valor de 0.4 –. La principal limitación de este método basado en coocurrencia es que no siempre hay 33 Sergio Navarro, Rafael Muñoz, Fernando Llopis coocurrencia entre un documento relevante y la consulta (Liu y Junzhong Gu, 2007). Este problema podrı́a acusarse más en colecciones de imágenes, donde las anotaciones son reducidas, y por tanto la colección tiene reflejadas en sus documentos menos relaciones entre términos. Los experimentos realizados por (Xu y Croft, 2000) demuestran que el rendimiento de LCA es más independiente que el de PRF ante diferencias en el número de documentos utilizados para la expansión. Lo que prueba su efectividad a la hora de desechar documentos no relevantes en las primeras posiciones del ranking. Contrariamente a lo que se podrı́a esperar, esta estrategia de expansión local no goza de tanta popularidad como PRF. Desde él punto de vista de la utilización de la expansión local como técnica de combinación multimodal, los trabajos previos del estado de la cuestión basados en expansión local textual como técnica de combinación multimodal han utilizado PRF, no habiendo precedentes de utilización de LCA, salvo nuestra participación en la tarea Photo del ImageCLEF 2008 Para implementar la estrategia de realimentación multimodal, nuestro sistema utiliza las n primeras anotaciones de las imágenes en el ranking devuelto por un sistema de RIBC externo y las i primeras anotaciones en el ranking devuelto por un sistema de RIBT obtenido con IR-n. Para a continuación, extraer los t términos mejor valorados por el algoritmo utilizado – PRF o LCA –. Indicar finalmente que IR-n permite configurar si se utilizan los documentos o los pasajes más relevantes para la selección de términos de la expansión local de la consulta. 3. alta calidad, sus autores son expertos en el área. Las mismas contienen un total de 8 campos en texto plano, que son: un tı́tulo corto y otro largo, localización, descripción, fecha, fotógrafo, notas y categorı́as. Siendo los dos últimos especialmente ricos en información del contexto de la fotografı́a – información que un humano no podrı́a extraer sólo observando la misma –. Esta colección es la que posee anotaciones de mayor calidad y extensión de las utilizadas. IAPR TC-12 (Photo 2006 y Photo 2007 y 2008) (Clough et al., 2006; Grubinger et al., 2007). Se trata de una colección de imágenes de lugares del mundo en su mayorı́a tomadas por una compañı́a de viajes. Las mayores diferencias con la de St. Andrews son que IAPR TC-12 utiliza imágenes de color y anotaciones en formato XML con los siguientes campos: tı́tulo, descripción, notas, lugar y fecha. Para la tarea del 2006 se proporciona una versión de la colección IAPR TC12 a la que se le aplica un preproceso para reducir la calidad de las anotaciones, quedando como sigue: un 70 % de las imágenes poseen todos los campos completos, un 10 % no contienen descripción, otro 10 % no tienen ni descripción ni tı́tulo, y finalmente otro 10 % no tiene anotaciones. Para la tarea del 2007 se proporciona una versión para la cual las imágenes contienen todos los campos salvo el de descripción, que por otra parte es el más rico en semántica. Esto reduce considerablemente la cantidad de información textual de las anotaciones de la colección si lo comparamos con las anotaciones de la versión utilizada en el 2006. Experimentos Para nuestros experimentos hemos escogido las colecciones de imágenes y los conjuntos de preguntas utilizados en las tres ediciones anteriores a la edición de este año del ImageCLEF. A continuación se comentan las caracterı́sticas de cada una de las colecciones utilizadas. La Tabla 3 muestra los datos más relevantes de cada colección, donde: Colección: Nombre de la colección junto a la tarea y las ediciones en que se utilizó como colección de test. St Andrews (Photo 2004) (Reid, 1999). Se trata de una colección de fotografı́as históricas en blanco y negro, las anotaciones que acompañan a las imágenes se puede considerar que son de Idioma: Idioma de la colección utilizada en nuestros experimentos. N. Docs.: Número de imágenes de la colección. 34 Evaluación de una Estrategia de Expansión Local Conservadora en Recuperación de Información Visual Colección St Andrews (Photo 2004,2005) IAPR TC-12 (Photo 2006) IAPR TC-12 (Photo 2007,2008) Idioma N Docs Media Pals Media Fra Inglés 28.133 60.7 4.18 Inglés 20.000 27.46 2.32 Inglés 20.000 12.93 2,6 Cuadro 1: Colecciones de Datos para RIV Media Pals.: Número medio de palabras que contienen las anotaciones de una imagen. multimodal denota el número de documentos que utilizará del ranking visual obtenido por un sistema de RIBC, y finalmente, T indica el número de términos a añadir a la consulta textual. Media Fra.: Número medio de frases que contienen las anotaciones de una imagen. Para los experimentos hemos utilizado como modelo de recuperación Divergence From Randomness (DFR) (Amati y Van Rijsbergen, 2002), por ser el modelo de recuperación que mejores resultados obtuvo en nuestra participación para la colección en inglés en la tarea Photo del ImageCLEF 2007 (Navarro et al., 2008). Además, el tamaño de pasaje y los parámetros de DFR utilizados corresponden con los que mejores resultados han devuelto para cada colección sin la utilización de expansión local. La estrategia seguida en los experimentos ha sido la de utilizar para los parámetros de configuración de la expansión local un rango de valores amplio que permita determinar que configuraciónes son más apropiadas para cada técnica en relación al conjunto de preguntas y colección utilizada. Los valores utilizados para estos parámetros han sido de 5 a 100 documentos para el número de documentos utilizados para la consulta, y de 5 a 100 términos para el número de términos seleccionados para la expansión, además se han realizado experimentos utilizando tanto pasajes como documentos para la expansión. Las siguientes tablas de resultados muestran para cada conjunto de experimentos el resultado del caso base – una ejecución sin expansión de la consulta – y las nueve mejores ejecuciones en orden creciente de MAP, utilizando el mejor MAP obtenido por PRF y LCA para esa misma configuración. La Tabla 2 y la Tabla 3 muestran los resultados obtenidos en los experimentos realizados con la colección St. Andrews, podemos observar como para la misma colección con En cuanto a los conjuntos de consultas utilizadas, indicar que dependiendo de la edición de la competición, las consultas contienen un campo de tı́tulo y un campo de narrativa o sólo un campo de tı́tulo. En nuestros experimentos sólo hemos utilizado el campo de tı́tulo de la pregunta, por considerar que no es realista utilizar la narrativa ya que un usuario suele utilizar consultas de reducido tamaño cuando utiliza un sistema de RIV. Por otro lado comentar que mientras que el conjunto de consultas de la edicı́ón del 2004 – 25 consultas – y de la edición del 2005 – 28 consultas – es diferente, para la edición del 2006 y del 2007 se utiliza el mismo conjunto de consultas – 60 consultas –, variando sin embargo las caracterı́sticas de la colección utilizada. A continuación se muestra la notación utilizada en las tablas de resultados para referirnos a cada uno de los parámetros del sistemas: Expansión Local (FB): Indica el tipo de expansión local que se utiliza. Permite las versión textual de PRF y LCA y su versión multimodal PRFMM y LCAMM. Parámetros para la Expansión Local: Si E tiene valor 1, esto denota que se está utilizando expansión local basada en pasajes. Pero, si E tiene valor 2, la expansión local está basada en documentos. Además, N denota el número de documentos que la expansión local usará del ranking textual obtenido, N cbir en el caso de estar utilizando expansión 35 Sergio Navarro, Rafael Muñoz, Fernando Llopis E N T 2 2 2 2 2 1 1 2 2 75 50 45 60 65 45 40 40 40 5 5 5 5 5 10 10 5 10 PRF 0.7262 0.7087 0.7254 0.7361 0.7129 0.7180 0.7385 0.7387 0.7395 0.7436 LCA 0.7262 0.7345 0.7355 0.7321 0.7368 0.7375 0.7104 0.7047 0.7404 0.7146 Cuadro 2: St. Andrews, 2004 E N T 1 2 2 1 2 2 2 2 2 55 25 5 25 70 80 5 10 50 5 5 15 5 5 5 5 5 5 PRF 0.3493 0.3504 0.3529 0.3545 0.3559 0.3246 0.3206 0.3455 0.3533 0.3307 LCA 0.3493 0.3501 0.3478 0.3436 0.3499 0.3566 0.3580 0.3596 0.3607 0.3607 T 1 2 1 2 2 1 2 2 20 20 10 10 40 5 25 5 10 10 10 10 10 5 5 5 PRF 0.1988 0.2126 0.2146 0.2174 0.2186 0.2025 0.2119 0.2004 0.2126 T 2 1 2 2 1 1 2 2 2 2 5 10 10 25 5 50 90 50 85 45 5 5 5 10 5 10 5 5 5 5 PRF 0.1544 0.1808 0.1827 0.1827 0.1811 0.1849 0.1675 0.1452 0.1551 0.1444 0.1598 LCA 0.1544 0.1810 0.1806 0.1817 0.1834 0.1781 0.1884 0.1898 0.1911 0.1918 0.1923 y para los experimentos con precisión más baja – consultas del 2005 – los resultados sean considerablemente mejores utilizando LCA. También podemos observar que mientras que PRF obtiene peores resultados cuando utiliza un número alto de documentos para llevar a cabo la expansión de la consulta, por el contrario LCA muestra resultados más independientes del número de documentos seleccionados para la expansión. La Tabla 4 y la Tabla 5 muestran los resultados alcanzados para la colección del 2006 y 2007, podemos ver como afecta la reducción en el tamaño de las anotaciones a la precisión en estos experimentos. Además vemos como el hecho de que el caso base obtenga precisiones más bajas influye en que LCA amplı́e la mejora de sus resultados respecto a PRF. Esto se explica porque en un ranking de baja precisión el número de imágenes no relevantes utilizadas para la expansión es mayor, lo cual daña más a los resultados obtenidos por PRF. Se observa como LCA obtiene mejores resultados que PRF para todas las colecciones y conjuntos de preguntas, salvo para el conjunto de preguntas del 2004. Siendo en este último caso la diferencia de precisión entre PRF y LCA muy poco significativa. Por otro lado observamos como la diferencia obtenida entre LCA y PRF para el resto de colecciones se amplia a medida que la precisión del ranking devuelto por la ejecución del caso base obtiene una menor precisión. Además, los resultados muestran que en general el número de documentos que LCA es capaz de manejar para la expansión es muy superior al número utilizado por PRF, con- diferentes conjuntos de consultas se obtienen resultados de precisión muy diferentes para los casos base utilizados, ası́ las consultas del 2004 obtienen valores de precisión muy superiores a los alcanzados con las consultas del 2005. Esto explica que para el conjunto de experimentos con un caso base con mayor precisión – consultas del 2004 – los resultados sean ligeramente superiores utilizando PRF, N N Cuadro 5: IAPR TC-12 No-Descriptions, 2007 Cuadro 3: St. Andrews, 2005 E E LCA 0.1988 0.2140 0.2191 0.2218 0.2222 0.2226 0.2233 0.2241 0.2242 Cuadro 4: IAPR TC-12, 2006 36 Evaluación de una Estrategia de Expansión Local Conservadora en Recuperación de Información Visual FB LCA PRF PRFMM LCAMM statándose ası́ las observaciones apuntadas por los autores de LCA. Finalmente, comparamos los resultados de estos experimentos con los alcanzados por las ejecuciones que utilizaron expansión local en nuestra participación en la tarea Photo del ImageCLEF 2008 (Navarro, Llopis, y Muñoz, 2008) – Tabla 6 –, en la cual se utilizó la colección IAPR TC-12 No-Descriptions y un subconjunto de las consultas utilizadas en la edición del 2007. E N Ncbir T 1 2 2 2 5 5 5 0 0 0 5 20 5 5 5 5 MAP 0.2362 0.2656 0.2699 0.2856 0.3436 Cuadro 6: ImageCLEFPhoto 2008 Revisando todos los experimentos llevados a cabo podemos afirmar que en todos ellos cuando el ranking utilizado para la expansión alcanza valores de precisión baja, LCA obtiene mejoras significativas respecto a PRF, mientras que cuando se utilizan rankings de precisión más alta PRF obtiene resultados ligeramente superiores a los de LCA. Podemos ver por un lado que a pesar de haber utilizado la misma colección y un subconjunto de las consultas utilizadas en los experimentos del 2007, la precisión alcanzada por el caso base en la participación del 2008 es superior a la obtenida por el caso base de los experimentos del 2007. Esto explica que en nuestra participación del 2008, PRF en su versión textual haya mejorado ligeramente los resultados obtenidos por LCA. 4. Conclusiones y Trabajos Futuros El estudio de los experimentos realizados ha puesto de manifiesto una relación clara entre la precisión del ranking utilizado para la expansión y los resultados obtenidos por las estrategias de expansión evaluadas. Tener constancia de esta relación, nos permite afirmar que LCA es una estrategia robusta que encaja perfectamente con los rankings de baja precisión con que se trabaja en RIV, especialmente los devueltos por sistemas de RIBC. Esta observación se refuerza por el hecho de que LCA es capaz de aprovechar la presencia de términos coocurrentes con la consulta en estos rankings, lo cual es una pista especialmente significativa de relevancia, pues contienen anotaciones de imágenes obtenidas sólo utilizando técnicas visuales. Por ello creemos que de cara a trabajos futuros su utilización como estrategia de combinación multimodal es prometedora pues tal como algunos autores afirman el resto de estrategias de expansión local mejoran la precisión a costa de empeorar la diversidad de los resultados devueltos (Sanderson, 2008), mientras que LCA multimodal a demostrado no sólo ser la única que no perjudica a la diversidad sino que además ha obtenido nuestros mejores resultados de precisión. Esto no hace sino que demostrar que esta técnica es capaz de utilizar ambas fuentes de información – imagen y texto – de forma óptima, haciendo ascender en el ranking textual final sólo a las imágenes con anotaciones simi- Por otro lado vemos que el mejor resultado multimodal ha sido alcanzado con LCA utilizando el ranking devuelto por un sistema de RIBC – este tipo de sistemas se caracterizan por devolver rankigs de baja precisión –. Recalcar que en nuestra participación en la tarea del 2008 esta variante multimodal de LCA fue la única estrategia de expansión local que no dañó a la diversidad de los resultados y a su vez nuestra mejor ejecución en términos de precisión, obteniendo el 4o mejor MAP y el 5o mejor P20 de las 1039 ejecuciones automáticas enviadas por los participantes, a pesar de ser el único grupo que no utilizó la narrativa de la pregunta. Es importante tener en cuenta este dato, pues los resultados del único participante que envió ejecuciones con y sin narrativa demuestran que simplemente incluyendo la primera frase de la narrativa su sistema dobla los resultados de precisión e incrementa notablemente sus valores de diversidad (Demerdash, Kosseim, y Bergler, 2008). Se observa también como mientras la mejor ejecución de PRF multimodal sólo es capaz de utilizar los 5 primeros documentos del ranking textual y los 5 mejores documentos del ranking visual, LCA en cambio en su mejor ejecución hace uso sólo de las imágenes devueltas en el ranking visual, siendo capaz además de manejar un numero alto de imágenes para la expansión – 20 imágenes –. 37 Sergio Navarro, Rafael Muñoz, Fernando Llopis of the 2007 CLEF Workshop, Budapest, Hungary, Septiembre. lares a las imágenes relevantes situadas en las primeras posiciones del ranking visual, en lugar de a las imágenes similares a las ya situadas en las primeras posiciones del ranking textual inicial. 5. Liu, Haixue y Zhao Lv Junzhong Gu. 2007. Improving the Effectiveness of Local Context Analysis Based on Semantic Similarity. En 2007 International Conference on Convergence Information Technology (ICCIT 2007). Agradecimientos Esta investigación ha sido llevada a cabo utilizando fondos procedentes del Gobierno español a través del proyecto TEXT-MESS (TIN-2006-15265-C06-01) y de la Unión Europea(UE) a través del proyecto QALL-ME (FP6-IST-033860). Llopis, Fernando. 2003. IR-n: Un Sistema de Recuperación de Información Basado en Pasajes. Ph.D. tesis, University of Alicante. Navarro, Sergio, Fernando Llopis, Rafael Muñoz Guillena, y Elisa Noguera. 2008. Analysing an approach to information retrieval of visual descriptions with ir-n, a system based on passages. Advances in Multilingual and Multimodal Information Retrieval: 8th Workshop of the Cross-Language Evaluation Forum, CLEF 2007, Budapest, Hungary, September 19-21, 2007, Revised Selected Papers, páginas 522–529. Bibliografı́a Amati, G. y C. J. Van Rijsbergen. 2002. Probabilistic Models of information retrieval based on measuring the divergence from randomness. ACM TOIS, 20(4):357– 389. Clough, Paul, Michael Grubinger, Thomas Deselaers, Allan Hanbury, y Henning Müller. 2006. Overview of the imageclef 2006 photographic retrieval and object annotation tasks. En Working Notes of the 2006 CLEF Workshop, Alicante, Spain, Septiembre. Navarro, Sergio, Fernando Llopis, y Rafael Muñoz. 2008. Different Multimodal Approaches using IR-n in ImageCLEFphoto 2008. En on-line Working Notes, CLEF 2008. Demerdash, Osama El, Leila Kosseim, y Sabine Bergler. 2008. CLaC at ImageCLEFPhoto 2008. En on-line Working Notes, CLEF 2008. Navarro, Sergio, Rafael Muñoz, y Fernando Llopis. 2008a. A Multimodal Approach to the Medical Retrieval Task using IR-n. En on-line Working Notes, CLEF 2008. Dı́az-Galiano, M.C., M.A. Garcı́aCumbreras, M.T. Martı́n-Valdivia, A. Montejo-Raez, y L.A. Ureña-López. 2007. Sinai at imageclef 2007. En Working Notes of the 2007 CLEF Workshop, Budapest, Hungary, Septiembre. Navarro, Sergio, Rafael Muñoz, y Fernando Llopis. 2008b. A Textual Approach based on Passages Using IR-n in WikipediaMM Task 2008. En on-line Working Notes, CLEF 2008. Gao, Sheng, Jean-Pierre Chevallet, Thi Hoang Diem Le, Trong Ton Pham, y Joo Hwee Lim. 2007. Ipal at imageclef 2007 mixing features, models and knowledge. En Working Notes of the 2007 CLEF Workshop, Budapest, Hungary, Septiembre. Reid, N. 1999. The photographic collections in st andrews university library. Scottish Archives, 5:83–90. Grubinger, Michael. 2007. Analysis and Evaluation of Visual Information Systems Performance. Ph.D. tesis, Engineering and Science Victoria University. Sanderson, Mark. 2008. Ambiguous queries: Test collections need more sense. En SIGIR’08, páginas 20–24, July. Robertson, S. E. y K. Sparck Jones. 1977. Relevance weighting of search terms. Journal of the American Society for Information Science, 27(3):129–146. Xu, Jinxi y W. Bruce Croft. 2000. Improving the effectiveness of information retrieval with local context analysis. ACM Trans. Inf. Syst., 18(1):79–112. Grubinger, Michael, Paul Clough, Allan Hanbury, y Henning Müller. 2007. Overview of the ImageCLEFphoto 2007 photographic retrieval task. En Working Notes 38 Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 39-46 recibido 09-01-09, aceptado 02-03-09 Detección de Web Spam basada en la Recuperación Automática de Enlaces ∗ Detecting Web Spam using a Recovering Web Links System Lourdes Araujo NLP Group at UNED 28040 Madrid, Spain [email protected] Juan Martinez-Romo NLP Group at UNED 28040 Madrid, Spain [email protected] Resumen: Actualmente el Web Spam es una guerra abierta entre los motores de búsqueda, tratando de garantizar unos resultados relevantes al usuario, y una comunidad, cuyo interés reside en intentar engañar a los primeros en busca de un mejor ranking para sus páginas. En este trabajo presentamos un estudio preliminar sobre distintas medidas que podrı́an ser útiles para la construcción de un sistema novedoso en la detección de Web Spam. Algunas de estas medidas se basan en los resultados de un sistema de recuperación automática de enlaces web rotos. El sistema utiliza distintas fuentes de información de la página analizada y la información extraı́da de estas fuentes se utiliza para realizar una consulta a un motor de búsqueda usual, como Google o Yahoo!. Las páginas recuperadas son ordenadas posteriormente en base a su contenido, utilizando técnicas de recuperación de información. Finalmente, el análisis del grado de recuperación de los enlaces es empleado, junto a otras medidas, como un indicador de Spam. Palabras clave: recuperación de información, World Wide Web, enlaces rotos, web spam Abstract: Nowadays, Web Spam is a war between search engines, trying to ensure that the results are relevant to the user, and a community that tries to mislead the search engine to attract to the former ones to its pages. In this work, we present a preliminary study about several features that can be useful for building a novel web spam detection system. Some of these features are obtained from a system for automatic recovery of broken Web links. This system uses several sources of information from the analyzed page to extract useful data that are used later to perform a query to a typical search engine, as Google or Yahoo!. Afterwards, retrieved pages are ordered based on its content, using information retrieval techniques. Finally, the recovery links degree is used, along with other features, as an indicator of Spam. Keywords: information retrieval, World Wide Web, broken links, web spam 1. Introducción Hoy en dı́a, la creciente popularidad de Internet entre los usuarios como fuente de información, ha convertido a los buscadores en un objetivo de la publicidad. Los buscadores a su vez, basan su modelo de negocio en la publicidad que añaden a los resultados de una consulta. Pero además de esta publicidad relevante a las consultas realizadas, una manera muy económica de conseguir publicidad, consiste en aparecer en los primeros puestos de las respuestas del buscador. En este sentido, estar entre los 30 primeros resultados es ∗ Trabajo financiado por el proyecto TIN2007-67581C02-01 ISSN 1135-5948 muy importante ya que hay estudios(Jansen y Spink, 2003) que reflejan que la probabilidad de que un usuario llegue a mirar más allá de la tercera página de resultados es muy baja. Ante esta manera de aumentar los ingresos por publicidad ha surgido un fenómeno denominado Web Spam o Spamdexing. Según (Gyöngyi y Garcia-Molina, 2005) Web Spam podrı́a definirse como cualquier acción destinada a mejorar el ranking en un buscador por encima de lo que se merece. En general en la literatura (Gyöngyi y GarciaMolina, 2005; Baeza-Yates, Boldi, y Hidalgo, 2007) se distinguen tres tipos de Web Spam: Link Spam, Content Spam y Cloacking. El Link Spam o Spam de Enlaces consiste © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural Lourdes Araujo, Juan Martinez-Romo de un mecanismo de recuperación automática de enlaces para la detección de páginas de Spam. Esta técnica, además de aplicar un nuevo indicador de Spam, proporciona un sistema de análisis online frente a las tradicionales colecciones. Nuestro sistema de recuperación de enlaces rotos se basa en técnicas clásicas de recuperación de información para extraer información relevante y realizar consultas a un motor de búsqueda como Google o Yahoo!. El sistema comprueba los enlaces de la página que se le indica. Si alguno de ellos está roto, hace una propuesta al usuario de una serie de páginas candidatas para sustituir el enlace roto. Las páginas candidatas se obtienen mediante búsquedas en Internet compuestas de términos extraı́dos de distintas fuentes. A las páginas recuperadas con la búsqueda Web se les aplica un proceso de ordenación que refina los resultados antes de hacer la recomendación al usuario. La figura 1 presenta un esquema del sistema propuesto. en añadir enlaces superfluos y/o engañosos a una página Web o bien crear páginas superfluas que sólamente contienen enlaces. Uno de los primeros trabajos que trataron este tipo de Spam fue (Davison, 2000), donde se consideraba el nepotismo en los enlaces como una forma de ser más relevante ante los buscadores. La manera más frecuente de encontrar este tipo de Spam es en forma de granjas de enlaces (Link Farms) donde un conjunto de páginas son enlazadas entre sı́ empleando alguna de las topologı́as estudiadas en (BaezaYates, Castillo, y López, 2005), con el objetivo de incrementar la importancia de una de ellas. Estas topologı́as han sido estudiadas en (Gyöngyi y Garcia-Molina, 2005). El Content Spam o Spam de Contenido es la práctica de realizar ingenierı́a sobre el contenido de una página con el objetivo de resultar relevante para un conjunto de consultas. En (Fetterly, Manasse, y Najork, 2004) se presenta un análisis estadı́stico sobre diferentes propiedades del contenido para detectar Spam. Entre las técnicas más habituales se encuentran el incluir términos engañosos en las Urls, en el cuerpo (body) y en el texto del ancla y cada vez menos habitual como una Meta Tag. En (Ntoulas et al., 2006) se realiza una serie de medidas sobre el contenido y luego se construye un árbol de decisión mediante el cual se realiza una clasificación de este tipo de Spam. También existen trabajos (Abernethy, Chapelle, y Castillo, 2008) que combinan información tanto de los enlaces como del contenido para construir un clasificador con SVM y detectar eficientemente distintos tipos de Spam. Finalmente, el Cloaking o Encubrimiento consiste en diferenciar a un usuario de un robot de búsqueda para responder con una página distinta en cada caso. En (Gyöngyi y Garcia-Molina, 2005) se presentan las técnicas más utilizadas en este tipo de Spam. En la literatura existen múltiples trabajos que exploran por separado o de manera conjunta estos tipos de Spam. Sin embargo, estos estudios trabajan habitualmente con una colección etiquetada en la que previamente se ha realizado un crawling y se han precalculado una serie de medidas relevantes. En este trabajo analizamos la utilidad de los distintos datos extraidos sobre los enlaces de una página para la detección de Spam. En particular, estudiamos la forma de utilizar los resultados extraı́dos de la aplicación Pagina web Enlace roto Informacion del enlace Informacion de la pagina Extraccion de terminos relevantes terminos Buscador paginas web Ordenar paginas recomendadas Figura 1: Esquema del funcionamiento del sistema de recomendación para la recuperación de enlaces rotos. Al analizar los resultados de algunos experimentos, encontramos casos excepcionales en los que el grado de recuperación de enlaces tenı́a una gran desviación con respecto a la media. Estos casos consistı́an en páginas con muchos enlaces en los que no se recuperaba ningún enlace o bien se recuperaban las páginas originales de prácticamente todos los 40 Detección de Web Spam basada en la Recuperación Automática de Enlaces 2.1. enlaces. En ambos casos se ha comprobado manualmente que se trataba de páginas de Spam. Esto sugiere la utilidad de aplicar estas técnicas a la detección de Spam. El resultado de la recuperación de los enlaces rotos puede tomarse como un indicador de la coherencia entre un enlace y la página a la que enlaza, dato que es útil para la detección de Spam. Existen algunos trabajos enfocados a la recuperación de enlaces, aunque se basan en información anotada por anticipado en el enlace. El sistema Webvise (Grønbæk, Sloth, y Ørbæk, 1999), permite cierto grado de recuperación de enlaces Web rotos utilizando información redundante sobre los enlaces, almacenada en bases de datos de servidores de Internet. Davis (Davis, 2000) analiza las causas del problema de los enlaces rotos y propone soluciones enfocadas a la recopilación de información sobre la estructura de la red de enlaces. Nakamizo y colaboradores (Nakamizo et al., 2005) han desarrollado un sistema de recuperación de enlaces basado en lo que denominan “enlaces con autoridad” de una página. Shimada y Futakata (Shimada y Futakata, 1998) propusieron la creación de una base de datos de enlaces, SEDB, en la que son posibles ciertas operaciones de reparación de los enlaces almacenados. Nuestro trabajo difiere de los anteriores ya que no presupone la existencia de ninguna información almacenada de antemano sobre los enlaces y es aplicable a cualquier página de Internet, lo que le hace útil para analizar el Spam de las páginas web. El resto del artı́culo se organiza de la siguiente forma: en la sección 2 se describen las técnicas que utilizamos para la recuperación automática de enlaces web rotos. La sección 3 analiza la relación de distintos datos sobre los enlaces de una página con su identificación como Spam, en particular los resultados de la aplicación de las técnicas de recuperación automática. Finalmente, en la sección 4 se realiza una discusión sobre los resultados y se extraen una serie de conclusiones. 2. Uso del Texto del ancla de los enlaces En muchos casos las palabras que componen el texto del ancla de un enlace son la principal fuente de información para identificar la página apuntada. Para verificar esta teorı́a, hemos realizado un estudio del número de casos en los que los enlaces rotos se han recuperado buscando en Google el texto del ancla entrecomillado. Para considerar que un enlace se ha recuperado, aplicamos el modelo de espacio vectorial (Manning, Raghavan, y Schütze, 2008), representando cada una de las páginas (original y candidata) a comparar por un vector de términos, y hayamos la distancia dada por el coseno entre ellos. Si este valor es mayor de 0.9, consideramos la página recuperada. Para valores menores que este umbral, como un 0.8, aunque en la mayorı́a de los casos se trata de la misma página con pequeños cambios como los mencionados, hemos encontrado algún caso en que se trataba de páginas distintas, aunque del mismo sitio Web. De esta forma se ha conseguido recuperar un 41 % de los enlaces entre las diez primeras posiciones (Google). Además un 66 % de los enlaces recuperados han logrado encontrarse en la primera posición. Estos datos demuestran que el texto del ancla de un enlace es una gran fuente de información de cara a recuperar un enlace roto. En este trabajo hemos optado por realizar un reconocimiento de entidades nombradas (nombres de personas, organizaciones o lugares) sobre el texto del ancla, para poder extraer determinados términos cuya importancia sea mayor que la del resto. Para tal fin, existen varias soluciones software como LingPipe, Gate, FreeLing, etc. También existen múltiples recursos en forma de gazetteers, pero el amplio dominio sobre el que trabajamos ha impedido conseguir resultados precisos. Estamos en un entorno en el que analizamos páginas aleatorias cuyo único factor común es el idioma (inglés). Además, el hecho de que el texto de las anclas sean conjuntos muy reducidos de palabras y/o números, hace que los sistemas usuales de reconocimiento de entidades proporcionen resultados muy pobres. Por estos motivos, hemos decidido emplear la estrategia opuesta. En lugar de encontrar entidades nombradas, hemos optado por recopilar un conjunto de diccionarios y descartar las palabras comunes y números, Técnicas de recuperación de enlaces En esta sección analizamos cada una de las fuentes de información consideradas, extrayendo estadı́sticas de su utilidad para la recuperación de enlaces cuando se aplican por separado o combinadas. 41 Lourdes Araujo, Juan Martinez-Romo decir, se expande con cada uno de ellos y se toman los diez primeros documentos recuperados en cada caso. En la tabla 2 se puede observar como la expansión mejora globalmente los resultados aumentando el número de enlaces recuperados en las diez primeras posiciones y por tanto reduciendo los enlaces no recuperados. A pesar de esto, el número de enlaces recuperados en primera posición se ve reducido. suponiendo que el resto de palabras son entidades nombradas. Aunque hemos encontrado algunos falsos negativos, como por ejemplo la compañı́a ”Apple”, en el caso de las anclas hemos obtenido mejores resultados con esta técnica. La tabla 1 muestra los resultados de la recuperación de enlaces en función del contenido de entidades nombradas de las anclas y del número de términos de las mismas. Los resultados demuestran que la presencia de entidades nombradas en el ancla favorece la recuperación del enlace. Además cuando hay entidades nombradas el número de casos recuperados es importante. Terms. 1 2 3 4+ total Análisis. No EXP EXP 1-10 pos. 380 418 E.N.R. 536 498 Cuadro 2: Análisis del número de documentos recuperados en primera posición (1 pos.), entre las diez primeras posiciones (1-10 pos.) o no recuperados (E.N.R.) en función de utilizar (EXP) o no (No EXP), el método de expansión de la consulta. Tipo de ancla Ent. Nomb. No Ent. Nomb. E.N.R. E.R. E.N.R. E.R. 102 67 145 7 52 75 91 49 29 29 27 45 57 61 33 47 240 232 296 148 Por ello consideramos que lo más adecuado es aplicar ambas formas de recuperación, y ordenar después los resultados para presentar al usuario los más relevantes en primer lugar. Analizando los casos en los que se consigue recuperar la página correcta con y sin entidades nombradas y en función del número de términos del ancla (tabla 3) vemos que las proporciones obtenidas recuperando sin expandir la consulta se mantienen. Es decir, los mejores resultados se obtienen cuando hay entidades nombradas y cuando hay dos o más términos. Sin embargo, en este caso, es decir con expansión, el número de enlaces recuperados cuando el ancla consta de un único término y no es una entidad nombrada es 25, que ya puede ser una cantidad significativa. Esto sugiere intentar recuperar con expansión también en este caso, siempre que sea posible comprobar la validez de los resultados. Cuadro 1: Análisis de los enlaces no recuperados (E.N.R.) y recuperados (E.R.) en función del tipo de ancla — con (Ent. Nomb.) y sin (No Ent.) entidades nombradas — y del número de términos del ancla. 4+ term. se refiere a anclas con cuatro o más términos. 2.2. 1 pos. 253 213 El texto de la página Los términos más frecuentes encontrados en una página Web son una forma de caracterizar el tema principal de dicha página. Esta técnica requiere que el contenido de la página sea suficientemente grande. Un ejemplo claro de utilidad de esta información son los enlaces a páginas personales. Es muy frecuente que el ancla de un enlace a una página personal esté formada por el nombre de la persona a la que corresponde la página. Sin embargo, en muchos casos los nombres, incluido el apellido, no identifican a una persona de forma unı́voca. Hemos aplicado técnicas clásicas de recuperación de información para extraer los términos más representativos de la página. Una vez eliminadas las palabras vacı́as, generamos un ı́ndice de términos ordenado por frecuencias. Los diez primeros términos de este ı́ndice se utilizan, uno a uno, para expandir la consulta formada por el texto del ancla. Es 2.3. Ordenación de los enlaces por relevancia En este momento hemos recuperado un conjunto de enlaces candidatos a sustituir al enlace roto, procedentes de la búsqueda con el ancla y con el ancla expandida con cada uno de los diez primeros términos que representan a la página padre. Ahora queremos ordenarlos por relevancia para presentarlos al usuario. Para calcular esta relevancia hemos considerado dos fuentes de infor42 Detección de Web Spam basada en la Recuperación Automática de Enlaces Terms. 1 2 3 4+ total Tipo de ancla Ent. Nomb. No Ent. Nomb. E.N.R. E.R. E.N.R. E.R. 104 65 127 25 55 72 70 70 30 28 22 50 59 59 31 49 248 224 250 194 Cuadro 3: Análisis de los enlaces no recuperados y recuperados en función del tipo de ancla y del número de términos del ancla cuando la expansión es aplicada. Figura 2: Número de apariciones de páginas correctas en el ranking elaborado, seleccionando los N mejores candidatos según la similitud con la página caché y padre. mación. En primer lugar, si existe, la página a la que apuntaba el enlace roto almacenada en la caché del buscador, en nuestro caso de Google. Si esta información no existe, entonces utilizamos la página padre que contiene el enlace roto. La idea es que la página enlazada tratará en general sobre una temática relacionada con la página en la que se encuentra el enlace. De nuevo hemos aplicado el modelo de espacio vectorial (Manning, Raghavan, y Schütze, 2008) para estudiar la similitud entre la página que contenı́a el enlace roto y las páginas recuperadas. Con esta técnica calculamos la similitud o bien con la caché o bien con la página padre. La figura 2 muestra los resultados correspondientes. En el primer caso, la mayorı́a de los documentos correctos recuperados se presentan entre los diez primeros documentos, con lo que si se dispone de la caché, podremos hacer recomendaciones muy fiables. En el caso de la similitud con la página padre, el orden de los resultados es peor. Por lo que sólo recurriremos a esta información si no se dispone de la caché. 2.4. que hacemos utilizando cada fuente de información. Para realizar el análisis, tomamos diez enlaces por cada página elegidos aleatoriamente de un conjunto de 100 seleccionadas igualmente de manera aleatoria mediante peticiones sucesivas a www.randomwebsite.com, un sitio que proporciona páginas Web aleatorias. Este conjunto de páginas además deben cumplir una serie de requisitos en cuanto a su contenido como tener 250 palabras, estar escritas en ingles y tener al menos cinco enlaces activos, ajenos al propio sitio y cuyo texto de anclaje sea mı́nimamente descriptivo (no sea únicamente un número, una Url, un signo de puntuación o esté vacı́o). Los resultados del análisis descrito en las secciones anteriores sugieren criterios para decidir en qué casos hay información suficiente para intentar la recuperación del enlace y qué fuentes de información utilizar. Esta información se ha modelado dando origen a un algoritmo cuyos resultados pasamos a describir. Hemos aplicado este algoritmo a enlaces que están realmente rotos, pero sólamente de los que se dispone de caché, para poder evaluar los resultados. La tabla 4 muestra los resultados de la posición de los documentos más relevantes en una ordenación por similitud con la página padre. La relevancia se mide por similitud con la caché. Hemos comprobado que en unos casos se trata de la página original, que ha cambiado de Url, y en otros casos de páginas con contenido muy relacionado en una localización diferente. Podemos observar, que aún si no contamos con la caché y ordenamos por similitud con la página padre, el sistema es capaz de presentar Colección de páginas y Resultados de la Recuperación Automática de Enlaces Si analizamos la utilidad de las distintas fuentes de información utilizadas directamente sobre enlaces rotos, es muy difı́cil evaluar la calidad de las páginas candidatas a sustituir el enlace. Por ello, en esta fase de análisis trabajamos con enlaces Web tomados de forma aleatoria, que no están realmente rotos, y que denominamos supuestamente rotos. De esta forma disponemos de la página a la que apuntan y podemos evaluar la recomendación 43 Lourdes Araujo, Juan Martinez-Romo do de Spam. Además fue imprescindible que las páginas estuvieran online y que su cuerpo contuviera al menos 100 palabras y un enlace externo. La primera medida corresponde a la diferencia entre los enlaces recuperados y no recuperados por cada una de las páginas. El análisis en este caso se ha realizado mediante una recuperación de los enlaces activos para poder verificar su recuperación. La intuición en la interpretación de este valor es que una página que hace Spam está enlazando a otras páginas poco conocidas y por tanto, difı́ciles de recuperar. Por lo tanto, cuanto más negativa es la diferencia entre los enlaces recuperados y no recuperados, mayor es la probabilidad de que la página esté haciendo Spam. En la figura 3 se pueden apreciar las dos distribuciones de estas medidas para cada una de las páginas y por cada uno de los dos conjuntos (Spam y no Spam). También se puede observar como en el caso de las páginas que no hacen Spam, sus valores casi siempre están por encima de los de las páginas de Spam. Las dos siguientes figuras 4 y 5 corresponden a las páginas de Spam y las de no Spam respectivamente. En ellas se muestra la relación entre las distribuciones de los enlaces de cada página y las páginas que las enlazan. Se puede comprobar como en el primer caso la diferencia es mucho mayor, estando siempre los enlaces entrantes por debajo de los salientes. Estos datos indican que las páginas de Spam contienen muchos enlaces pero en cambio no reciben el mismo número. En la figura 6 se muestran las distribuciones de la siguiente medida para cada una de las páginas y por cada uno de los dos conjuntos (Spam y no Spam). Esta medida corresponde al valor absoluto de la diferencia entre los enlaces externos y los que son internos. Las páginas de Spam normalmente toman dos estrategias distintas en cuanto a los enlaces, o bien la mayorı́a son externos con el objetivo de crear granjas de enlaces o por el contrario intentan absorber la mayorı́a del PageRank conteniendo mayoritariamente enlaces al mismo sitio. De esta forma, en la figura 6 se puede comprobar como el equilibrio entre este tipo de enlaces es mayor en el caso de las páginas que no realizan Spam. Otras dos medidas interesantes (no mostradas en este trabajo) para clasificar una página son el número de las mismas que la enlazan ası́ como el número de enlaces cuyo documentos sustitutos relevantes entre las 10 primeras posiciones en un 48 % de los casos y entre las 20 primeras en un 76 %. N primeros 1-10 10-20 20-50 E.R 12 7 6 Cuadro 4: Número de apariciones de páginas sustitutas (de acuerdo con su similitud con el contenido de la caché) entre los N primeros documentos ordenados por similitud con la página padre. 3. Detección de Web Spam Nuestro sistema de recuperación de enlaces analiza una Web tanto desde el punto de vista de sus enlaces como desde el punto de vista de su contenido. Aplicando esta metodologı́a a los enlaces de una página (no rotos), puede extraerse información relevante sobre la coherencia de los enlaces y las páginas apuntadas por ellos, que es útil para determinar si una página esta realizando Spamdexing. Nuestra propuesta es novedosa para la detección de Spam, ya que habitualmente los sistemas que se encargan de esta tarea realizan un crawling previo, reuniendo una colección de páginas Web junto a una serie de medidas relevantes. Posteriormente y de una manera offline, se realiza una clasificación sobre la colección. En los últimos años existe una colección de referencia (Castillo et al., 2006) siendo la primera que incluye las páginas y sus enlaces y que además ha sido etiquetada manualmente por un conjunto de voluntarios. No obstante existen otros trabajos que emplean colecciones propias elaboradas de una forma similar. Este sistema serı́a novedoso ya que no necesita una colección con información sobre su contenido ni sobre sus enlaces, sino que de una manera online extrae de la red información relevante sobre una Web dada para posteriormente ser clasificada según su grado de Spam. Hemos realizado un estudio comparativo aplicado a dos conjuntos de 67 páginas Web, clasificadas previamente como Spam o No Spam, en el que tomando una serie de medidas podemos apreciar ciertas caracterı́sticas propias de cada conjunto. Estos dos conjuntos han sido tomados de (Castillo et al., 2006), teniendo en cuenta su clasificación en cuanto a su gra44 Detección de Web Spam basada en la Recuperación Automática de Enlaces texto del ancla es una Url. Para la primera hemos tomado el valor correspondiente aproximado que proporciona el buscador. De esta forma hemos podido comprobar como las páginas de Spam tienen valores muy por debajo, verificando la teorı́a de que las páginas de prestigio transfieren su confianza a páginas igualmente prestigiosas. Cabe mencionar que existen páginas de Spam con valores elevados, sin embargo corresponden a sitios importantes pero clasificados como Spam por su alto contenido de publicidad. En cuanto al número de enlaces cuyo texto del ancla es una Url, en términos generales las páginas de Spam contienen una mayor cantidad. Todas estas medidas junto con otras estudiadas en la literatura, tanto en relación al contenido como a la estructura de los enlaces, podrı́an ser utilizadas para la detección de páginas de Spam. Figura 5: Distribución de los enlaces salientes y entrantes para las páginas de No Spam. Figura 6: Distribución de la diferencia entre los enlaces externos e internos para dos conjuntos de páginas (Spam y no Spam). 4. Conclusiones y Futuros trabajos En este trabajo presentamos un estudio preliminar sobre una serie de medidas que podrı́an ser útiles para la detección de Spam en la Web. En particular, analizamos la medida de coherencia entre los enlaces y las páginas apuntadas por ellos. Otras medidas analizadas son las diferencias entre los enlaces entrantes y salientes, entre los enlaces externos e internos o el número de enlaces cuyo texto de anclaje es una Url. Estas medidas son obtenidas a su vez gracias a un sistema de recuperación de enlaces. El sistema resultante resultarı́a novedoso ya que no necesitarı́a de una colección con información precalculada sino que funcionarı́a de una manera online. En cuanto al sistema de recuperación de enlaces, hemos analizado distintas fuentes de información que podemos utilizar para hacer una recuperación automática de enlaces Web que han dejado de ser válidos. Los resultados indican que los términos del ancla pueden ser muy útiles, especialmente si hay más Figura 3: Distribución de la diferencia entre los enlaces recuperados y no recuperados para dos conjuntos de páginas (Spam y no Spam). Figura 4: Distribución de los enlaces salientes y entrantes para las páginas de Spam. 45 Lourdes Araujo, Juan Martinez-Romo Davison, B. 2000. Recognizing nepotistic links on the web. de uno y si contienen alguna entidad nombrada. Hemos estudiado también el efecto de añadir términos procedentes de la página que contiene el enlace, con el fin de reducir la ambigüedad que puede conllevar la cantidad limitada de términos del ancla. Este estudio ha mostrado que los resultados mejoran a los obtenidos utilizando sólo los términos del ancla. Sin embargo, como hay casos en los que la expansión empeora el resultado de la recuperación, hemos decidido combinar ambos métodos, ordenando después los documentos obtenidos por relevancia. El resultado de este análisis ha sido un algoritmo que ha conseguido recuperar una página muy cercana a la desaparecida entre las diez primeras posiciones de los documentos candidatos en un 48 % de los casos, y entre las 20 primeras en un 76 %. En este momento trabajamos en analizar otras fuentes de información que pueden ser útiles tanto para la recuperación de enlaces como para la detección de Spam, como las propias Urls, las páginas que apuntan a la página analizada o el contenido de sus distintas partes. Fetterly, Dennis, Mark Manasse, y Marc Najork. 2004. Spam, damn spam, and statistics: using statistical analysis to locate spam web pages. En WebDB ’04: Proceedings of the 7th International Workshop on the Web and Databases, páginas 1–6, New York, NY, USA. ACM. Grønbæk, Kaj, Lennert Sloth, y Peter Ørbæk. 1999. Webvise: Browser and proxy support for open hypermedia structuring mechanisms on the world wide web. Computer Networks, 31(1116):1331–1345. Gyöngyi, Zoltán y Hector Garcia-Molina. 2005. Web spam taxonomy. En Proceedings of the first International Workshop on Adversarial Information Retrieval on the Web (AIRWeb). Jansen, Bernard J. y Amanda Spink. 2003. An analysis of web documents retrieved and viewed. En International Conference on Internet Computing, páginas 65–69. Manning, Christopher D., Prabhakar Raghavan, y Hinrich Schütze. 2008. Introduction to Information Retrieval. Cambridge University Press. Bibliografı́a Abernethy, Jacob, Olivier Chapelle, y Carlos Castillo. 2008. Webspam identification through content and hyperlinks. En Proceedings of the fourth International Workshop on Adversarial Information Retrieval on the Web (AIRWeb). Nakamizo, A., T. Iida, A. Morishima, S. Sugimoto, , y H. Kitagawa. 2005. A tool to compute reliable web links and its applications. En SWOD ’05: Proc. International Special Workshop on Databases for Next Generation Researchers, páginas 146–149. IEEE Computer Society. Baeza-Yates, Ricardo, Paolo Boldi, y José Marı́a Gómez Hidalgo. 2007. Recuperación de información con adversario en la web. Novática: Revista de la Asociación de Técnicos de Informática, 185:29–35. Ntoulas, Alexandros, Marc Najork, Mark Manasse, y Dennis Fetterly. 2006. Detecting spam web pages through content analysis. En WWW ’06: Proceedings of the 15th international conference on World Wide Web, páginas 83–92, New York, NY, USA. ACM. Baeza-Yates, Ricardo A., Carlos Castillo, y Vicente López. 2005. Pagerank increase under different collusion topologies. En AIRWeb, páginas 17–24. Shimada, Takehiro y Atsushi Futakata. 1998. Automatic link generation and repair mechanism for document management. En HICSS ’98: Proceedings of the ThirtyFirst Annual Hawaii International Conference on System Sciences-Volume 2, página 226, Washington, DC, USA. IEEE Computer Society. Castillo, Carlos, Debora Donato, Luca Becchetti, Paolo Boldi, Stefano Leonardi, Massimo Santini, y Sebastiano Vigna. 2006. A reference collection for web spam. SIGIR Forum, 40(2):11–24. Davis, H.C. 2000. Hypertext link integrity. ACM Computing Surveys Electronic Symposium on Hypertext and Hypermedia, 31(4). 46 Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 47-54 recibido 13-01-09, aceptado 02-03-09 A Semantic Relatedness Approach to Classifying Opinion from Web Reviews Un método de clasificación de opiniones de críticas extraídas de la Web basado en la proximidad semántica Alexandra Balahur DLSI, University of Alicante Ap. de Correos 99, 03080 Alicante [email protected] Andrés Montoyo DLSI, University of Alicante Ap. de Correos 99, 03080 Alicante [email protected] Resumen: Los últimos años han marcado el inicio y la rápida expansión de la web social, donde cada persona puede expresar su libre opinión sobre diferentes "objetos", tales como productos, personas, tópicos de política etc. en blogs, foros o portales Web de comercio electrónico. A su vez, el rápido crecimiento del volumen de información en la web ha ido permitiendo a los usuarios la toma de decisiones mejores y más informadas. A raíz de esta expansión ha surgido la necesidad de desarrollar sistemas especializados de PLN que automáticamente escaneen la web en busca de las opiniones expuestas (que recuperen, extraigan y clasifiquen las opiniones existentes dada una consulta). La minería de opiniones (análisis de sentimientos) ha demostrado ser un problema difícil debido a la gran variabilidad semántica del texto libre. En este artículo se propone un método para extraer, clasificar y resumir opiniones sobre productos concretos utilizando críticas realizadas en la Web. El método se basa en una taxonomía de características de productos previamente construida, el cálculo de la proximidad semántica entre conceptos por medio de la Distancia Normalizada de Google y el método de aprendizaje automático SVM. Finalmente, demostramos que nuestro enfoque supera los resultados base de la tarea y ofrece una alta precisión y una alta confianza en las clasificaciones obtenidas. Palabras clave: Minería de opiniones, resúmenes automaticos, Distancia Normalizada de Google, aprendizaje automatico SVM. Abstract: Recent years have marked the beginning and rapid expansion of the social web, where people can freely express their opinion on different “objects”, such as products, persons, topics etc. on blogs, forums or e-commerce sites. While the rapid growth of the information volume on the web allowed for better and more informed decisions from users, its expansion led to the need to develop specialized NLP systems that automatically mine the web for opinions (retrieve, extract and classify opinions of a query object). Opinion mining (sentiment analysis) has been proven to be a difficult problem, due to the large semantic variability of free text. In this article, we propose a method to extract, classify and summarize opinions on products from web reviews, based on the prior building of product characteristics taxonomy and on the semantic relatedness given by the Normalized Google Distance and SVM learning. We prove that our approach outperforms the baselines and has a high precision and classification confidence. Keywords: Opinion mining, summarization, Normalized Google Distance, SVM machine learning. 1 Introduction Recent years have marked the strong influence of the “participative, social web” on the lives of both consumers and producer companies. This ISSN 1135-5948 phenomenon encouraged the development of specialized sites – blogs, forums, as well as the inclusion of a review component in the already existing e-commerce sites, where people can write and read opinions and comments on their “objects” of interest – products, people, topics, © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural Alexandra Balahur, Andrés Montoyo etc. Basically, one is able to obtain a high volume of data representing opinion on anything. However, a high volume of information introduces a great back draw: the time spent for reading all the data available and the language barrier. The solution is obvious a system that automatically analyzes and extracts the values of the features for a given product, independent of the language the customer review is written in. Such an NLP system can then present the potential buyer with percentages of positive and negative opinions expressed about each of the product features and possibly make suggestions based on buyer preferences. What follows is a description of such a system that presently works on Spanish and English. 2 (Pang, Lee and Vaithyanathan, 2002), scoring of features (Dave, Lawrence and Pennock, 2003) , using PMI, syntactic relations and other attributes with SVM (Mullen and Collier, 2004), sentiment classification considering rating scales (Pang, Lee and Vaithyanathan, 2002), supervised and unsupervised methods (Chaovalit and Zhou, 2005) and semisupervised learning (Goldberg and Zhu, 2006). Research in classification at a document level included sentiment classification of reviews (Ng, Dasgupta and Arifin, 2006), sentiment classification on customer feedback data (Gamon et al., 2005), comparative experiments (Cui, Mittal and Datar, 2006). Other research has been conducted in analysing sentiment at a sentence level using bootstrapping techniques (Riloff and Wiebe, 2003), considering gradable adjectives (Hatzivassiloglou and Wiebe, 2000), semisupervised learning with the initial training set identified by some strong patterns and then applying NB or self-training (Wiebe and Riloff, 2005), finding strength of opinions (Wilson, Wiebe and Hwa, 2004) sum up orientations of opinion words in a sentence (or within some word window) (Kim and Hovy, 2004), (Lin et al., 2006), determining the semantic orientation of words and phrases (Tuney and Littman, 2003), identifying opinion holders (Stoyanov and Cardie, 2006), comparative sentence and relation extraction and feature-based opinion mining and summarization (Tuney, 2002). The approach we use is grounded on the featurebased opinion summarization paradigm, whose theoretical background can be found in (Hu and Liu, 2004) and (Liu, 2007). Relevant research done in feature-based opinion summarization can be found in (Turney, 2002) , (Pang, Lee and Vaithyanathan, 2002), (Popescu and Etzioni, 2005), (Hu and Liu, 2004) and (Ding, Liu and Yu, 2008). However, present research has not included the discovery of implicit features and furthermore, it has left the problem of explicit features dependent on the mentioning of these features in the individual user reviews or not. The method we propose is language and customer-review independent. It extracts a set of general product features, finds product specific features and feature attributes and is thus applicable to all possible reviews in a product class. We describe the steps performed to obtain the features for each product class and the manner in which input text is processed to obtain the opinion expressed by customers. Motivation and Contribution In the approach proposed, we concentrated on two main problems that had not been addressed so far by research in the field. The first one was that of discovering the features that will be quantified. As previously noticed in (Liu, 2007), features are implicit or explicit. To this respect, apart from a general class of features (and their corresponding attributes), that are applicable to all products, we propose a method to discover product specific features and feature attributes using knowledge from WordNet and ConceptNet. The second problem we addressed was that of quantifying the features in a product-dependent manner, since, for example, small for the size of a digital camera is a positive fact, whereas for an LCD display it is a rather negative one. We accomplished this by classifying the feature attributes using positive and negative examples from a corpus of customer opinions that was polarity annotated depending on the product category and SMO SVM machine learning (Platt, 1998) with the Normalized Google Distance (Cilibrasi and Vitanyi, 2006). We will illustrate the manner in which we solved the above mentioned problems with examples and discuss on the issues raised at each step by using different methods, tools and resources. 3 Related Work Previous work in customer review classification includes document level sentiment classification using unsupervised methods (Turney, 2002), machine learning techniques 48 A Semantic Relatedness Approach to Classifying Opinion from Web Reviews 4 these concepts, we retrieve from WordNet the synonyms which have the same Relevant Domain (Vázquez, Montoyo and Rigau, 2004), the hyponyms of the concepts and their synonyms and attributes, respectively. 2) Using WordNet to extract product specific features and feature attributes: Once the product category has been identified, we use WordNet to extract the product specific features and feature attributes. We accomplish this in the following steps: • For the term defining the product category, we search its synonyms in WordNet (Fellbaum, 1999) • We eliminate the synonyms that do not have the same top relevant domain as the term defining the product category • For the term defining the product, as well as each • for each of the remaining synonyms, we obtain their meronyms from in WordNet, which constitute the parts forming the product. • Since WordNet does not contain much detail on the components of most of new technological products, we use ConceptNet (Liu and Singh, 2004) to complete the process of determining the specific product features. We explain the manner in which we use ConceptNet in the following section. After performing the steps described above, we conclude the process of obtaining the possible terms that a customer buying a product will comment on. The final step consists in finding the attributes of the features discovered by applying the “has attributes” relation in WordNet to each of the nouns representing product features. In the case of nouns which have no term associated by the “has attribute” relation, we add as attribute features the concepts found in ConceptNet under the OUT relations PropertyOf and CapableOf. In case the concepts added are adjectives, we further add their synonyms and antonyms from WordNet. 3) Using ConceptNet to extract product specific features and feature attributes: In order to obtain additional features for the product in question, we add the concepts that are related to the term representing the concept with terms related in ConceptNet by the OUT relations UsedFor and CapableOf and the IN relations PartOf and UsedFor. System Architecture Our method consists of two distinct steps: preprocessing and main processing, each containing a series of sub modules and using different language tools and resources. 4.1 Pre-processing Figure 1: Pre-processing stage As depicted in Figure 1, in our approach, we start from the following scenario: a user enters a query about a product that he/she is interested to buy. The search engine will retrieve a series of documents containing the product name, in different languages. Further on, two parallel operations are performed: the first one uses language identifier software to filter and obtain two categories - one containing the reviews in English and the other the reviews in Spanish. The second operation implies a modified version of the system described in (Kozareva and Montoyo, 2007) for the classification of person names. We use this system in order to determine the category the product queried belongs to. Once the product category is determined, we proceed to extracting the product specific features and feature attributes. This is accomplished using WordNet and ConceptNet and the corresponding mapping to Spanish using EuroWordNet. Apart from the product specific class of features and feature attributes, we consider a core of features and feature attributes that are product-independent and whose importance determines their frequent occurrence in customer reviews. 1) Product-independent features and feature attributes: There are a series of features that are product independent and that are important to any prospective buyer. We consider these as forming a core of product features. For each of 49 Alexandra Balahur, Andrés Montoyo 4) Mapping concepts using EuroWordNet: We employ EuroWordNet and map the features and feature attributes, both from the main core of words, as well as the product specific ones that were previously discovered for English, independent of the sense number, taking into account only the preservation of the relevant domain. Certainly, we are aware of the noise introduced by this mapping, however in the preliminary research we found that the concepts introduced that had no relation to the product queried did not appear in the user product reviews. 5) Discovering overlooked product features: The majority of product features we have identified so far are parts constituting products. However, there remains a class of undiscovered features that are indirectly related to the product. These are the features of the product constituting parts, such as battery life, picture resolution, and auto mode. Further, we propose to extract these overlooked product features by determining bigrams made up of target words constituting features and other words in a corpus of customer reviews. In the case of digital cameras, for example, we considered a corpus of 200 customer reviews on which we ran Pedersen’s Ngram Statistics Package (Banerjee and Pedersen, 2003) to determine target co-occurrences of the features identified so far. As measure for term association, we use the Pointwise Mutual Information score. In this manner, we discover bigram features such as “battery life”, “mode settings” and “screen resolution”. 4.2 The main processing in our system is done in parallel for English and Spanish. In the next section, we will briefly describe the steps followed in processing the initial input containing the customer reviews in the two considered language and offer as output the summarized opinions on the features considered. We part from the reviews filtered according to language. For each of the two language considered, we used a specialized tool for anaphora resolution - JavaRAP1 for English and SUPAR (Ferrández, Palomar and Moreno, 1999) for Spanish. Further on, we separate the text into sentences and use a Named Entity Recognizer to spot names of products, brands or shops. Using the lists of general features and feature attributes, product-specific features and feature attributes, we extract from the set of sentences contained in the text only those containing at least one of the terms found in the lists. 1) Anaphora resolution: In order to solve the anaphoric references on the product features and feature attributes, we employ two anaphora resolution tools - JavaRAP for English and SUPAR for Spanish. Using these tools, we replace the anaphoric references with their corresponding referents and obtain a text in which the terms constituting product features could be found. Using JavaRAP, we obtain a version of the text in which pronouns and lexical references are resolved. For example, the text: ‘‘I bought this camera about a week ago,and so far have found it very very simple to use, takes good quality pics for what I use it for (outings with friends/family, special events). It is great that it already comes w/ a rechargeable battery that seems to last quite a while...’’, by resolving the anaphoric pronominal reference, becomes ‘‘I bought this camera about a week ago, and so far have found <this camera > very very simple to use, takes good quality pics for what I use <this camera > for (outings with friends/family, special events). It is great that <this camera> already comes w/ a rechargeable battery that seems to last quite a while...’’. SUPAR (Slot Unification Parser for Anaphora Resolution). We use SUPAR in the same manner as JavaRAP, to solve the anaphora for Spanish. Main Processing 1 http://www.comp.nus.edu.sg/~qiul/NLPTools/ JavaRAP.html Figure 2: Main processing stage 50 A Semantic Relatedness Approach to Classifying Opinion from Web Reviews 2) Sentence chunking and NER: Further on, we split the text of the customer review into sentences and identify the named entities in the text. Splitting the text into sentences prevents us from processing sentences that have no importance as far as product features that a possible customer could be interested in are concerned. We use LingPipe to split the customer reviews in English into sentences and identify the named entities referring to products of the same category as the product queried. In this manner, we can be sure that we identify sentences referring to the product queried, even the reference is done by making use of the name of another product. For example, in the text “For a little less, I could have bought the Nikon Coolpix, but it is worth the extra money.”, anaphora resolution replaces <it> with <Nikon Coolpix> and this step will replace it with <camera>. We employ FreeLing in order to split the customer reviews in Spanish into sentences and identify the named entities referring to products of the same category as the product queried. 3) Sentence extraction: Having completed the feature and feature attributes identification phase, we proceed to extracting for further processing only the sentences that contain the terms referring to the product, product features or feature attributes. In this manner, we avoid further processing of text that is of no importance to the task we wish to accomplish. For example, sentences of the type “I work in the home appliances sector.” will not be taken into account in further processing. Certainly, at the overall level of review impact, such a sentence might be of great importance to a reader, since it proves the expertise of the opinion given in the review. However, for the problems we wish to solve by using this method, such a sentence is of no importance. 4) Sentence parsing: Each of the sentences that are filtered by the previous step are parsed in order to obtain the sentence structure and component dependencies. In order to accomplish this, we use Minipar (Lin, 1998) for English and FreeLing for Spanish. This step is necessary in order to be able to extract the values of the features mentioned based on the dependency between the attributes identified and the feature they determine. 5) Feature value extraction: Further on, we extract features and feature attributes from each of the identified sentences, using the following rules: 1) We introduce the following categories of context polarity shifters, in which we split the modifiers and modal operators in two categories - positive and negative: - negation: no, not, never etc. - modifiers: positive (extremely, very, totally etc.) and negative (hardly, less, possibly etc.) - modal operators: positive (must, has) and negative (if, would, could etc.) 2) For each identified feature that is found in a sentence, we search for a corresponding feature attribute that determines it. Further on, we search to see if the feature attribute is determined by any of the defined modifiers. We consider a variable we name valueOfModifier, with a default value of -1, that will account for the existence of a positive or negative modifier of the feature attribute. In the affirmative case, we assign a value of 1 if the modifier is positive and a value of 0 if the modifier is negative. If no modifier exists, we consider the default value of the variable. We extract triplets as (feature, attributeFeature, valueOf Modifier). In order to accomplish this, we use the syntactic dependency structure of the phrase, we determine all attribute features that determine the given feature (in the case of Minipar, they are the ones connected by the “mod” and “pred” relations). 3) If a feature attribute is found without determining a feature, we consider it to implicitly evoke the feature that it is associated with in the feature collection previously built for the product. “The camera is small and sleek.” becomes (camera, small, -1) and (camera, sleek, -1), which is then transformed by assigning the value “small” to the “size” feature and the value “sleek” to the “design” feature. 5 Assigning polarity to feature attributes In order to assign polarity to each of the identified feature attributes of a product, we employ SMO SVM machine learning and the Normalized Google Distance (NGD). The main advantage in using this type of polarity assignment is that NGD is language independent and offers a measure of semantic similarity taking into account the meaning 51 Alexandra Balahur, Andrés Montoyo given to words in all texts indexed by Google from the World Wide Web. The set of anchors contains the terms {featureName, happy, unsatisfied, nice, small, buy}, that have possible connection to all possible classes of products and whose polarity is known. Further on, we build the classes of positive and negative examples for each of the feature attributes considered. From the corpus of annotated customer reviews, we consider all positive and negative terms associated to the considered attribute features. We then complete the lists of positive and negative terms with their WordNet synonyms. Since the number of positive and negative examples must be equal, we will consider from each of the categories a number of elements equal to the size of the smallest set among the two, with a size of at least 10 and less or equal with 20. We give as example the classification of the feature attribute “tiny”, for the “size” feature. The set of positive feature attributes considered contains 15 terms such as (big, broad, bulky, massive, voluminous, large-scale etc.) and the set of negative feature attributes considered is composed as opposed examples, such as (small, petite, pocket-sized, little, etc.). We use the anchor words to convert each of the 30 training words to 6-dimensional training vectors defined as v(j,i) = NGD(wi,aj), where aj with j ranging from 1 to 6 are the anchors and wi, with i from 1 to 30 are the words from the positive and negative categories. After obtaining the total 180 values for the vectors, we use SMO SVM to learn to distinguish the product specific nuances. For each of the new feature attributes we wish to classify, we calculate a new value of the vector vNew(j,word)=NGD(word, aj), with j ranging from 1 to 6 and classify it using the same anchors and trained SVM model. In the example considered, we had the following results (we specify between brackets the word to which the scores refer to): made was between 0.72 and 0.80, with a kappa value above 0.45. 6 Summarization of feature polarity For each of the features identified, we compute its polarity depending on the polarity of the feature attribute that it is determined by and the polarity of the context modifier the feature attribute is determined by, in case such a modifier exists. Finally, we statistically summarize the polarity of the feature attributes, as shown in Formula (1) and Formula (2): # pos_feature_attributes(i) (1) # feature_attributes(i) # neg_feature_attributes(i) Fneg (i) = (2) # feature_attributes(i) Fpos (i) = The results shown are triplets of the form (feature, % Positive Opinions, % Negative Opinions). 7 Evaluation and discussion For the evaluation of the system, we annotated a corpus of 50 customer reviews for each language, collected from sites as amazon.com, newegg.com, dealsdirect.com, ciao.es, shopmania.es, testfreaks.es and quesabesde.com. The corpus was annotated at the level of feature attributes, by the following scheme: <attribute> [name of attribute] <feature> [feature it determines] </feature> <value> [positive / negative] </value> </attribute>. It is difficult to evaluate the performance of such a system, since we must take into consideration both the accuracy in extracting the features that reviews comment on, as well as the correct assignation of identified feature attributes to the positive or negative category. Therefore, we measured the system performance in terms of precision, recall and accuracy. The results obtained are summarized in Table 1. We show the scores for each of the two languages considered separately and the combined score when using both systems for assigning polarity to feature attributes of a product. In the last column, we present a baseline, computed as average of using the same formulas, but taking into consideration, for each feature, only the feature attributes we considered as training examples for our method. We can notice how the use of NGD helped the (small)1.52, 1.87, 0.82, 1.75, 1.92,1.93, positive (little)1.44, 1.84, 0.80, 1.64, 2.11,1.85, positive (big )2.27, 1.19, 0.86, 1.55, 1.16, 1.77, negative (bulky) 1.33, 1.17 ,0.92,1.13,1.12,1.16, negative The vector corresponding to the “tiny” attribute feature is: (tiny) 1.51, 1.41, 0.82, 1.32, 1.60, 1.36. This vector was classified by SVM as positive, using the training set specified above. The precision value in the classifications we 52 A Semantic Relatedness Approach to Classifying Opinion from Web Reviews system acquire significant new knowledge about the polarity of feature attributes. SA FIP FIR Eng Sp Combined Baseline Eng Baseline Sp 0.82 0.80 0.79 0.80 0.78 0.79 0.81 0.79 0.79 0.21 0.20 0.40 0.19 0.20 0.40 features and feature attributes, alternate methodologies for polarity assignation to product dependent feature attributes and finally, the application of a textual entailment system to verify the quality of the feature extracted and the assigned polarity. References Table 1: System results Banerjee, S., Pedersen,T.: The Design, Implementation and Use of the Ngram Statistics Package. In Proceedings of the Fourth International Conference on Intelligent Text Processing and Computational Linguistics, February 17-21, 2003, Mexico City. (2003) The problems encountered were largely related to the use of informal language, disregard of spelling rules and punctuation marks. 8 Conclusions and future work In this paper we presented a method to extract, for a given product, the features that could be commented upon in a customer review. Further, we have shown a method to acquire the feature attributes on which a customer can comment in a review. Moreover, we presented a method to extract and assign polarity to these product features and statistically summarize the polarity they are given in the review texts in English and Spanish. The method for polarity assignment is largely language independent (it only requires the use of a small number of training examples) and the entire system can be implemented in any language for which similar resources and tools as the ones used for the presented system exist. The main advantage obtained by using this method is that one is able to extract and correctly classify the polarity of feature attributes, in a product dependent manner. Furthermore, the features in texts are that are identified are correct and the percentage of identification is high. Also, the polarity given in the training set determines the polarity given to new terms, such that “large” in the context of “display” will be trained as positive and in the case of “size” as negative. The main disadvantage consists in the fact that SVM learning and classification is dependent on the NGD scores obtained with a set of anchors that must previously be established. This remains a rather subjective matter. The most important problem we encountered is that concerning the informal language style, which makes the identification of words and dependencies in phrases sometimes impossible. Future work includes the development of a method to extend the list of product-dependent Chaovalit, P., Zhou, L.: Movie Review Mining: a Comparison between Supervised and Unsupervised Classification Approaches. In Proceedings of HICSS-05, the 38th Hawaii International Conference on System Sciences. (2005) Cilibrasi, D., Vitanyi, P.: Automatic Meaning Discovery Using Google. IEEE Journal of Transactions on Knowledge and Data Engineering. (2006) Cui, H., Mittal, V., Datar, M.: Comparative Experiments on Sentiment Classification for Online Product Reviews. In Proceedings of the 21st National Conference on Artificial Intelligence AAAI 2006. (2006) Dave, K., Lawrence, S., Pennock, D.: Mining the Peanut Gallery: Opinion Extraction and Semantic Classification of Product Reviews. In Proceedings of WWW-03. (2003) Ding, X., Liu, B., Yu, P.,: A Holistic Lexicon Based Approach to Opinion Mining. In Proceedings of WSDM, 2008. (2008) Fellbaum(ed.), C.: WordNet: An Electronic Lexical Database. First edn. MIT Press. (1999) Ferrández, A., Palomar, M., Moreno, L.: An Empirical Approach to Spanish Anaphora Resolution. Machine Translation. Special Issue on Anaphora Resolution In Machine Translation. Special Issue on Anaphora Resolution In Machine Translation. (1999) Gamon, M., Aue, S., Corston-Oliver, S., Ringger, E.: Mining Customer Opinions 53 Alexandra Balahur, Andrés Montoyo from Free Text. Lecture Notes in Computer Science. (2005) Association for Computational Linguistics. (2006) Goldberg, A.B., Zhu, J.: Seeing stars when there aren’t many stars: Graph-based semisupervised learning for sentiment categorization. In HLT-NAACL 2006 Workshop on Textgraphs: Graph-based Algorithms for Natural Language Processing. (2006) Pang, B., Lee, L., Vaithyanathan, S.: Thumbs up? Sentiment classification using machine learning techniques. In Proceedings of EMNLP-02, the Conference on Empirical Methods in Natural Language Processing. (2002) Platt, J.: Sequential minimal optimization: A fast algorithm for training support vector machines. Microsoft Research Technical Report MSRTR- 98-14. (1998) Hatzivassiloglou, V., Wiebe, J.: Effects of adjective orientation and gradability on sentence subjectivity. In Proceedings of COLING 2000. (2000) Popescu, A.M., Etzioni, O.: Extracting Product Features and Opinions from Reviews. In Proceedings of EMNLP 2005. (2005) Hu, M., Liu, B.: Mining Opinion Features in Customer Reviews. In Proceedings of Nineteenth National Conference on Artificial Intelligence AAAI-2004. (2004) Riloff, E., Wiebe, J.: Learning Extraction Patterns for Subjective Expressions. In Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing. (2003) Kim, S.M., Hovy, E.: Determining the Sentiment of Opinions. In Proceedings of COLING 2004. (2004) Kozareva, Z., Montoyo, A.: Discovering the Underlying Meanings and Categories of a Name through Domain and Semantic Information. In: Proceedings of the Conference on Recent Advances in Natural Language Processing RANLP 2007. (2007) Stoyanov, V., Cardie, C.: Toward Opinion Summarization: Linking the Sources. In: COLING-ACL 2006 Workshop on Sentiment and Subjectivity in Text. (2006) Turney, P., Littman, M.: Measuring praise and criticism: Inference of semantic orientation from association. ACM Transactions on Information Systems 21. (2003) Lin, D.: Dependency-based Evaluation of MINIPAR. In Workshop on the Evaluation of Parsing Systems. (1998) Turney, P.: Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews. In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. (2002) Lin, W.H., Wilson, T., Wiebe, J., Hauptman, A.: Which Side are You On? Identifying Perspectives at the Document and Sentence Levels. In Proceedings of the Tenth Conference on Natural Language Learning CoNLL’06. (2006) Vázquez, S., Montoyo, A., Rigau, G.: Using relevant domains resource for word sense disambiguation. In Proceedings of the ICAI 2004. (2004) Liu, B.: Web Data Mining. Exploring Hyperlinks, Contents and Usage Data. First edn. Springer (2007) Liu, H., Singh, P.: ConceptNet: A Practical Commonsense Reasoning Toolkit. BT Technology Journal 22. (2004) Wiebe, J., Riloff, E.: Creating Subjective and Objective Sentence Classifiers from Unannotated Texts. In Proceedings of the 6th International Conference on Computational Linguistics and Intelligent Text Processing (CICLing-05). (2005) Mullen, T., Collier, N.: Sentiment Analysis Using Support Vector Machines with Diverse Information Sources. In Proceedings of EMNLP 2004. (2004) Wilson, T., Wiebe, J., Hwa, R.: Just how mad are you? Finding strong and weak opinion clauses. In: Proceedings of AAAI 2004. (2004) Ng, V., Dasgupta, S., Arifin, S.M.N.: Examining the Role of Linguistic Knowledge Sources in the Automatic Identification and Classification of Reviews. In Proceedings 40th Annual Meeting of the 54 Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 55-62 recibido 13-01-09, aceptado 02-03-09 Estableciendo una línea base para un generador de resúmenes extractivo basado en conceptos en el ámbito biomédico1 Setting a baseline for an automatic extractive concepts-based summarization on the biomedical domain Manuel de la Villa y Manuel J. Maña Departamento Tecnologías de la Información Universidad de Huelva. Campus de La Rábida. Edif. Torreumbría, 21618, Palos de la Frontera, Huelva, España {manuel.villa, manuel.mana}@dti.uhu.es Resumen: Los métodos de generación de resúmenes basados en técnicas extractivas han demostrado ser muy útiles por su adaptabilidad y eficiencia en tiempo de respuesta en cualquier tipo de dominios. En el ámbito biomédico son numerosos los estudios que hablan de la sobrecarga de información y recogen la necesidad de aplicación de técnicas eficientes de recuperación y generación de resúmenes para una correcta aplicación de la medicina basada en la evidencia. En este contexto vamos a presentar una propuesta de metodología de generación automática de resúmenes basada en conocimiento estructurado y grafos. A partir de una representación del documento original en un grafo, aplicando técnicas de similitud entre frases y sus conceptos biomédicos, se obtienen las frases más relevantes para formar el resumen final. Palabras clave: resumen automático, método extractivo, conceptos biomédicos, UMLS Abstract: The methods for automatic summarization generation based in extractive techniques have widely shown its utility for his adaptability and efficiency in the manner of response time at any kind of application domain. In Biomedical domain are numerous the research results about the overload information and the need of application of efficient recovery and summarization methods for the proper use of evidence based medicine. In this context we are going to present a proposal of methodology for automatic summarization based on structured knowledge and graph's use. From a representation of the source document in form of a graph, applying similarity methods between phrases and their containing biomedical concepts, we obtain the most salient phrases to fill in the final summary. Keywords: automatic summarization, extractive method, biomedical concept, UMLS 1 relevante y una mayor asimilación de conceptos con menor esfuerzo. Introducción La generación de resúmenes de texto es un proceso de reducción de la información, que permite a un usuario tomar idea o conocer el contenido de un texto completo, sin tener que leer todas sus frases. Esta reducción de la cantidad de información a leer produce una mayor rapidez en la búsqueda de información Numerosos artículos certifican la sobrecarga de información tan común hoy día en nuestra sociedad, y en especial en el ámbito biomédico, donde la información está disponible desde una variedad de fuentes, incluyendo artículos científicos, bases de datos de resúmenes, bases de datos estructuradas o semiestructuradas, servicios web, webs de documentos o historia 1 Este trabajo ha sido financiado por el Ministerio de Ciencia e Innovación a través de los proyectos CICYT TIN2007-67843-C06-03 y TIN2005-08998-C02-02. ISSN 1135-5948 © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural Manuel de la Villa, Manuel J. Maña clínica de pacientes (Afantenos, Karkaletsis y Stamatopoulos, 2005). En este trabajo presentamos un modelo de generación de resúmenes de carácter extractivo apoyado en conceptos del dominio biomédico. El artículo se estructura de la siguiente manera: en primer lugar se describe el proceso de tratamiento extractivo del lenguaje natural mediante el uso de grafos, para posteriormente comentar algunos trabajos específicos del dominio. Presentamos UMLS y el conjunto de herramientas de procesamiento de lenguaje natural orientadas al ámbito biomédico que incorpora. En la sección cinco presentamos el modelo de generación de resúmenes en que estamos trabajando, dividido en cuatro fases: la generación del grafo léxico, la aplicación de un algoritmo de similitud conceptual, la aplicación de un algoritmo de ranking y finalmente, la creación del resumen. Finalmente enumeramos los muchos temas abiertos que quedan en este trabajo inicial y los posibles futuros trabajos. Si a ello unimos el hecho de que gran parte de los resultados de la investigación biomédica se encuentran en forma de literatura escrita en formato libre (no estructurados, formato inadecuado para la búsqueda compleja) que se acumulan en grandes bases de datos en línea, podemos concluir que el proceso de reducción de los resúmenes automáticos es especialmente útil en el ámbito biomédico. Por otro lado, el rápido crecimiento de los resultados de la investigación del dominio biomédico está produciendo un importante cuello de botella. MEDLINE (Medical Literature Analysis and Retrieval System Online), la principal base de datos bibliográfica de EE.UU (de la National Library of Medicine), contiene más de 16 millones de referencias a artículos de revistas, centrados principalmente en biomedicina. Entre 2000 y 4000 referencias completas se añaden cada día, más de 670000 fueron añadidas en 20072. 2 Trabajos relacionados en el ámbito extractivo Para generar resúmenes automáticos de texto existen dos enfoques: extractivo y abstractivo. El enfoque extractivo selecciona y extrae frases o partes de ella del texto original. La mayor ventaja que tiene este enfoque es que resulta muy robusto y fácilmente aplicable a contextos de propósito general, ya que, su independencia del dominio, e incluso del género de los documentos, es muy alta. El enfoque abstractivo suele englobar técnicas de procesamiento del lenguaje natural, más complejo pues necesita un conocimiento léxico, gramatical y sintáctico del dominio, para modelar semánticamente el conocimiento y a partir de éste ser capaz de generar un resumen. La práctica de la medicina basada en la evidencia ha sido tradicionalmente definida como la combinación de los mejores resultados de la investigación médica con el juicio clínico, experto y experimentado (Sackett et Al., 1996). La capacidad de buscar en la literatura médica en un tiempo eficiente representa una parte importante de una práctica basada en la evidencia. Un reciente trabajo cualitativo concluyó que dos de los seis obstáculos para responder a cuestiones clínicas aplicando la evidencia eran el tiempo requerido para encontrar información y la dificultad para seleccionar una estrategia óptima de búsqueda (Ely y Osheroff, 2002). Es por todo esto que herramientas de búsqueda como PubMed3, BioMed Central4 o UpToDate5 se han convertido en más y más importantes, para encontrar formas adecuadas de localizar la mejor evidencia de manera eficaz. Típicamente, el proceso de resumen extractivo consiste en identificar las sentencias de un texto de origen que sean relevantes para el usuario a la vez que se reduce la redundancia de la información. Las sentencias son puntuadas basándose en una serie de características y las n sentencias de mayor puntuación son extraídas y presentadas al usuario en su orden de aparición en el texto original. En este dominio, los profesionales en general necesitan herramientas orientadas a proporcionar medios para acceder y visualizar la información adecuada para sus necesidades. Para trabajar con las frases y su puntuación, un mecanismo de representación comúnmente usado han sido los modelos de puntuación o ranking basados en grafos. Los algoritmos de 2 http://www.nlm.nih.gov/pubs/ factsheets/medline.html http://www.nlm.nih.gov/pubs/factsheets/pubmed.html 4 http://www.biomedcentral.com/info/ 5 http://www.uptodate.com/home/about/index.html 3 56 Estableciendo una línea base para un generador de resúmenes extractivo basado en conceptos en el ámbito biomédico Los trabajos específicos de un ámbito pueden usar conceptos en vez de términos, para lo que necesitan herramientas que den soporte a la identificación de los conceptos en una estructura de conocimiento del dominio y capaces de determinar relaciones semánticas entre estos conceptos. ranking basados en grafos son un modo de decidir sobre la importancia de un vértice dentro del grafo, teniendo en cuenta información referencial global del grafo, obtenida recursivamente mejor que localmente desde el vértice. La aplicación de éste modo de trabajo a grafos léxicos o semánticos extraídos de documentos de lenguaje natural ha sido llevada a cabo (Skorochod'ko, 1972) (Salton et al., 1997) y se ha mostrado eficaz en tareas de procesamiento del lenguaje como la extracción automática de palabras clave, generación de resúmenes extractiva o desambiguación del sentido de las palabras (Mihalcea y Tarau, 2006). 3.1 Para el procesado semántico, consistente en el análisis e identificación de los conceptos y relaciones subyacentes en un texto, se requiere para que el texto pueda ser mapeado a una estructura de conocimiento, como la que en el ámbito biomédico proporciona el proyecto Unified Medical Language System (UMLS) (Humphreys et al., 1998). El objetivo de este proyecto es el desarrollo de herramientas que ayuden a investigadores en la representación del conocimiento, recuperación e integración de información biomédica. Otros trabajos relevantes en el ámbito que destacaremos son (Radev y McKeown, 1998) donde se presenta un sistema que genera un resumen a partir de un conjunto de artículos periodísticos sobre el mismo acontecimiento. Para cada frase se determina su estructura a alto nivel y las palabras que van a representar cada papel semántico y, finalmente, se construye su árbol sintáctico. UMLS consiste en tres componentes, el SPECIALIST Lexicon, el Metathesaurus y la UMLS Semantic Network (Rindflesh, Fiszman y Libbus, 2005). El sistema SUMMARIST (Hovy y Lin, 1999) se utiliza un recurso léxico, WordNet para identificar conceptos genéricos y definir una jerarquía. El proceso de generalización se realiza mediante la propagación de pesos de los conceptos, basados en frecuencias de aparición, a través de la jerarquía de WordNet. 3 Conocimiento del dominio: UMLS z El SPECIALIST Lexicon describe las características sintácticas de terminos en inglés de carácter biomédico y general, proporcionando la base para el PLN en el dominio biomédico. Así, p.ej., la entrada 'Anaesthetic' produciría las siguientes respuestas: c {base=anesthetic ■ spelling_variant=anaesthetic ■ entry=E0330018 ■ cat=noun ■ variants=reg ■ variants=uncount } c {base=anesthetic ■ spelling_variant=anaesthetic ■ entry=E0330019 ■ cat=adj ■ variants=inv ■ position=attrib(3) ■ position=pred stative }, que vendría a indicarnos que el término puede aparecer como sustantivo o adjetivo, en un caso con un plural regular, incontable, en el otro indica que es invariante, que puede aparecer en el predicado y que es un adj. atributivo. Trabajos relacionados en el ámbito biomédico. En el ámbito biomédico destacaremos los métodos de generación de resúmenes extractivos como BioChain, (basado en cadenas de conceptos o relaciones semánticas entre conceptos vecinos en texto), FreqDist (centrado en el uso de las distribuciones de frecuencia, construyendo un resumen con similar distribución que el original) y Chainfreq (híbrido de los dos anteriores), que usan conceptos específicos del dominio biomédico para identificar las sentencias destacables del texto completo (Reeve, Han y Brooks, 2007). Sin embargo, la posterior evaluación de los métodos no logra mejorar los resultados de los enfoques basados en términos. 57 Manuel de la Villa, Manuel J. Maña que combina técnicas de traducción automática con ontologías biomédicas y MMTx para producir una versión española de MMTx. z El Metathesaurus es una recopilación de más de 100 vocabularios y terminologías médicas, entre los que se incluyen desde MeSH o SNOMED hasta subdominios más especializados (odontología o enfermería,...) asociando cada término a más de un millón de conceptos semánticos que a su vez se engloban en 135 tipos semánticos relevantes en el ámbito biomédico (y siempre, al menos en uno). Así, p.ej., la entrada 'Arthritis, Juvenile Rheumatoid”produciría la siguiente información jerárquica: Immunologic Diseases Autoimmune Diseases Arthritis, Rheumatoid Arthritis, Juvenile Rheumatoid 4 Propuesta de generación del resumen Los métodos de generación de resúmenes basados en técnicas extractivas han demostrado ser muy útiles por su adaptabilidad y eficiencia en tiempo de respuesta en cualquier tipo de dominios. Por contra, los métodos abstractivos, por la necesidad de recursos léxicos, sintácticos y semánticos han proporcionado unos mejores resultados en cuanto a comprensibilidad a costa de un mayor esfuerzo computacional y por tanto, de tiempos de respuesta, aparte de la especificidad del ámbito de uso de la herramienta. z La UMLS Semantic Network constituye una ontología del más alto nivel de la Medicina, compuesta por 135 tipos semánticos asignados a conceptos del Metathesaurus y por 54 tipos de relaciones entre los tipos. Estas relaciones son a menudo llamadas predicados o proposiciones y están constituidas por argumentos (conceptos) y predicados (relaciones). Algunos ejemplos podrían ser: -‘Therapeutic or Preventive Procedure’ TREATS ‘Injury or Poisoning’ -‘Organism Attribute’ PROPERTY_OF ‘Mammal’ -‘Bacterium’ CAUSES ‘Pathologic Function'. Como vimos en el punto dos, existen trabajos previos para el dominio específico biomédico de carácter extractivo que hacen uso de recursos léxicos y semánticos, pero que no obtienen unos mejores resultados trabajando con conceptos que con términos. Nuestro objetivo es intentar mejorar la capacidad y rapidez de los métodos extractivos con la efectividad y concreción de los métodos abstractivos. Para ello vamos a presentar una primera propuesta de una metodología de generación automática de resúmenes basada en conocimiento estructurado y grafos de ranking. SemRep es una herramienta de procesado semántico que integra los tres anteriores componentes de UMLS para analizar de manera automática textos con lenguaje médico identificando los conceptos y relaciones que representan el contenido del documento. SemRep devuelve una lista de relaciones a partir de un conjunto de documentos obtenidos por una búsqueda de un término especificado. Nuestra propuesta, basada en (Mihalcea y Tarau, 2006) es eminentemente extractiva, de modo que el proceso podría resumirse en identificar las sentencias en el texto de origen, seleccionar aquellas que sean relevantes para el usuario a la vez que disminuimos la redundancia de la información. Para ello asignamos una puntuación a cada frase de acuerdo a un conjunto de características. Las nprimeras frases en cuanto a puntuación se extraen y se presentan al usuario en su orden de aparición en el texto original. Usaremos el Metathesaurus y la herramienta Metamap Transfer (MMTx) para la identificación de los conceptos biomédicos de cada frase, base para el cálculo del solape entre frases. En cuanto a SemRep, añadiremos esta lista de relaciones al grafo dirigido para posteriores trabajos. 4.1 Fase 1. Generación del grafo. Independientemente del tamaño del texto, sea un texto completo o un abstract, la primera tarea debe consistir en la identificación de cada una de las sentencias del texto de origen, así como en la creación de un grafo que incluya un vértice en el grafo por cada sentencia. De manera simultánea, se identifican con la ayuda En castellano han existido esfuerzos para la elaboración de un metathesauro, como WordMed (Arranz et al., 2000). Destacaremos el trabajo de (Carrero, Cortizo y Gómez, 2008) 58 Estableciendo una línea base para un generador de resúmenes extractivo basado en conceptos en el ámbito biomédico Similitud c (Vi ,V j )= de Metamap Transfer (integrada en SemRep, ver Figura 1), los conceptos biomédicos incluidos en la frase y se incluyen en el nodo, así como las relaciones semánticas. Para el trabajo con grafos en el prototipo que se ha elaborado se ha usado la librería JUNG (O’Madadhain et al., 2004). k | C k ∈Vi ∧ C k ∈V j }) log((Vi )) + log((V j )) La Figura 2 muestra la matriz de adyacencia que almacena los pesos de las aristas entre nodos, así de cada nodo en una fila a un nodo de una columna (grafo dirigido) se muestra en la tabla el valor de similitud. SE|00000000||tx|1|text|In order to substantiate further the relationship between these oral disorders and psoriasis, we compared 200 patients with psoriasis to a matched control group. SE|00000000||tx|1|entity|C1517331|Further|spco |||further||||888|26|32 SE|00000000||tx|1|entity|C0439849|Relationship s|qlco|||relationship||||888|38|49 SE|00000000||tx|1|entity|C0026636|Mouth Diseases|dsyn|||oral disorders||||983|65|78 SE|00000000||tx|1|entity|C0033860|Psoriasis|ds yn|||psoriasis||||1000|84|92 SE|00000000||tx|1|entity|C0030705|Patients|pod g|||patients||||861|111|118 SE|00000000||tx|1|entity|C0033860|Psoriasis|ds yn|||psoriasis||||1000|125|133 SE|00000000||tx|1|entity|C0243148|control|ftcn |||control||||901|148|154 SE|00000000||tx|1|entity|C0024908|Matched Groups|grup|||matched control group||||901|140|160 SE|00000000||tx|1|relation|2|1|C0033860|Psoria sis|dsyn|dsyn|||psoriasis||||1000|125|133|PREP |PROCESS_OF||120|123|5|1|C0030705|Patients|hum n|humn|||patients||||861|111|118 Figura 2: Prototipo de la aplicación tras aplicar algoritmo de solape 4.3 Fase 3. Aplicación de algoritmo de ranking Los algoritmos de ranking basados en grafos, a partir de la asignación arbitraria de valores a cada nodo, realizan cálculos para obtener la puntuación S(Vi) de cada nodo de manera iterativa, hasta que se produce convergencia bajo un determinado umbral. Las referencias entre nodos y/o conceptos son tratadas como 'votos' para decidir el elemento más importante. La puntuación de cada vértice se obtiene aplicando PageRank (Brin y Page, 1998): Figura 1 Ejemplo de tratamiento realizado por SemRep sobre una sentencia de un texto biomédico 4.2 ({C Fase 2. Aplicación de algoritmo de similitud. Para la extracción de sentencias en resúmenes, un concepto importante es la 'similitud' o grado de solapamiento entre sentencias, cuánto del contenido de una sentencia se encuentra incluido en otra. Es como si consideráramos el solape como una “recomendación” de una frase de dirigirse a otras que tratan y abundan los mismos conceptos. Una función de similitud, que tome en cuenta el grado de repetición de tokens entre sentencias de manera normalizada proporcionará una medida de este concepto. En particular, este concepto también nos proporcionará información de lo cohesionado o no del grupo de documentos devueltos en la consulta y de la posible necesidad de un tratamiento previo de clustering. WS (Vi ) = (1 − d )+ d ∗ ∑ ∈I (V ) Vj n WS (V j ) W ji ∑W ∈O (V ) jk i Vk ut j En la Figura 3 se observa el prototipo de la aplicación con el grafo resultante, donde se pueden observar los nodos etiquetados con los pesos obtenidos y los valores asociados a las aristas recalculados. Tras la ejecución del algoritmo, los nodos se ordenan atendiendo al peso o puntuación asociada, que define la notoriedad (saliency) de cada vértice en un grafo dirigido y ponderado. Aplicamos una versión modificada (con conceptos en vez de términos) de la formula de similitud de (Milhacea y Tarau, 2006): 59 Manuel de la Villa, Manuel J. Maña debe reflejarse en un buen resultado en una futura evaluación de método. Es evidente que la propuesta es un punto de partida que acabará como un hito en un proyecto más ambicioso y a más largo plazo. Hablemos de cuáles serán los siguientes pasos a realizar: z Elaboración u obtención de un corpus evaluable. En este momento nos encontramos en la búsqueda de un corpus que podamos reutilizar para nuestros fines. De no tener un resultado positivo, optaríamos por elaborar nuestro propio corpus de documentos, a partir de BioMed Central, una editorial independiente dedicada a la publicación de artículos de investigación en Biología y Medicina que se caracteriza por mantener una política de acceso abierto a través de Internet, agrupando a más de 180 revistas y más de 23000 artículos de investigación del ámbito biomédico. Esto nos permitiría trabajar con un amplio conjunto de documentos completos en vez de abstracts. z Evaluación. Cualquier trabajo mínimamente metódico requiere de una comparación de su eficiencia frente a otras propuestas de prestigio y frente a un baseline que proporcione métricas sobre los porcentajes de mejora por aplicación de tal o cual modificación. Nos proponemos evaluar nuestro modelo usando uno de estas herramientas: -ROUGE (Recall-Oriented Understudy for Gisting Evaluation) (Lin y Hovy, 2003) es una herramienta automatizada que compara un sumario generado por un sistema automático con uno o más resúmenes ideales, llamados modelos. Usa N-gramas para determinar el solape entre el resumen generado y los modelos. -Basic Elements (Hovy et al., 2006) es un marco de trabajo en el que las medidas de evaluación de los resúmenes pueden instanciarse y compararse dentro de un método de evaluación que se basa en el trabajo con unidades de contenido muy pequeñas, llamados 'basic elements' que corrigen algunos de los defectos de los ngramas. Figura 3: Gráfico del Grafo con pesos generado por algoritmo de ranking 4.4 Fase 4. Creación del resumen Los nodos de mayor puntuación definirán las frases a incluir en el resumen. El número de frases puede ser fijo o basado en umbral o porcentaje. En nuestro prototipo es el usuario el que decide el porcentaje de frases. Para facilitar la legibilidad del resumen, la secuencialidad de presentación de las frases seleccionadas se hace atendiendo a su ordenamiento original. 5 Conclusión y temas abiertos Se ha presentado una propuesta de generación automática de resúmenes de carácter extractivo, que usa una representación en grafo donde los nodos son frases y las aristas un valor numérico que mide el ‘grado de recomendación’ o similitud entre frases. El algoritmo de ranking producirá como resultado un peso en los nodos, que representa la importancia global de la frase dentro del documento, que ordenaremos de mayor a menor. Seleccionaremos las primeras en un número determinado por el porcentaje de compresión indicado a la herramienta. La novedad de la metodología se encuentra en el uso del metathesauro UMLS para identificar conceptos UMLS y que la similitud entre frases se calcule a partir del número de conceptos UMLS que compartan las frases. Entendemos que la herramienta aúna las bondades de técnicas extractivas con el conocimiento del dominio que aportan los recursos UMLS y que 60 Estableciendo una línea base para un generador de resúmenes extractivo basado en conceptos en el ámbito biomédico Automatic Text Summarization, pags. 81-94. The MIT Press. 1999. Hovy, E., C. Y. Lin, L. Zhou, J. Fukumoto. 2006. Automated Summarization Evaluation with Basic Elements. En Proceedings of the Fifth Conference on Language Resources and Evaluation (LREC 2006), Genova, Italia. Humphreys, B.L., D.A. Lindberg, H.M. Schoolman y G.O. Barnett. 1998. The Unified Medical Language System: An Informatics Research Collaboration. Journal of the American Medical Informatics Association, 5(1), 1-11. 1998. Lin, C. Y. y E. Hovy. 2003. Automatic evaluation of summaries using N-gram coocurrence statistics. En Proceedings of 2003 language technology conference (HLTNAACL 2003) (Vol. 1(1), pag. 71-78). Edmonton, Canada. Mihalcea R. y P. Tarau. 2006. TextRank: Bringing Order into Texts. En Proceedings of Empirical Methods in Natural Language Processing. ACL, 404-411, 2006. O’Madadhain, J., S. White, D. Fisher y Y. B. Boey. 2004. JUNG–Java Universal Network/graph Framework. Available for download at http://jung.sourceforge.net/. Radev, D. R. y K. R. McKeown. 1998. Generating Natural Language Summaries from Multiple On-Line Sources. Computational Linguistics, 4:469-500. Reeve, L.H., H. Han, A.D. Brooks. 2007. The use of domain-specific concepts in biomedical text summarization. Information Processing and Management 43, 1765-1776. 2007. Rindflesh, T.C., M. Fiszman, B. Libbus. 2005. Semantic interpretation for the biomedical research literature. Capítulo 14 del libro Medical Informatics. Knowledge Management and Data Mining in Biomedicine (Springer's Integrated Series in Information Systems), editores Chen, H., Fuller, S.S., Friedman C., Hersh, W. Sackett D.L., W.M.C. Rosenberg, J.A.M. Gray, R.B. Haynes y W.S. Richardson. 1996. Evidence-based medicine: what it is and what it isn’ t. British Medical Journal, 312: 71-72. Salton, G., A. Singhal, M. Mitra, and C. Buckley. 1997. Automatic text structuring and summarization. Information Processing and Management 33 (3), 193-207. Parece lógico que la segunda herramienta, basada en la comparación de pequeñas unidades de contenido en vez de n-gramas, favorecerá a una herramienta basada en conceptos en vez de en cadenas. Sin embargo, actualmente BE no se encuentra soportado. • Nos planteamos la evolución y mejora de esta propuesta analizando y haciendo uso de las relaciones semánticas obtenidas mediante SemRep. Nuestra idea es incluirlas dentro del grafo, de modo que dos conceptos unidos mediante una relación generarán una arista dirigida entre los nodos que incluyan a cada uno de esos conceptos. El peso de cada arista vendrá definido por el tipo de relación semántica (una relación 'cause' o 'threats' será más relevante que otra 'is-a'). Bibliografía Afantenos, S. D., V. Karkaletsis y P. Stamatopoulos. 2005. Summarization from Medical Documents: A Survey en Artificial Intelligence in Medicine, 33(2):157-177. Arranz V., X. Carreras, M. A. Martí, J. Turmo, J. Vilalta. 2000. WORDMED: Un recurso conceptual terminológico para el desarrollo de aplicaciones de PLN en el dominio médico. VII Simpósio Ibero-Americano de Terminologia: Terminologia e Indústrias da Língua, Lisboa, (Portugal), noviembre de 2000. Brin, S. y L. Page. 1998. The anatomy of a large-scale hypertextual web search engine. Computer Networks and ISDN Systems, 30 (1-7). 1998. Ely, J.W., J.A. Osheroff, M.H. Ebell, M.L. Chambliss, D.C. Vinson, J.J. Stevermer y E.A. Pifer. 2002. Obstacles to answering doctors' questions about patient care with evidence: qualitative study. British Medical Journal, 324: 710. Carrero F.M., J.C. Cortizo y J.M. Gómez. 2008. Building a Spanish MMTx by Using Automatic Translation and Biomedical Ontologies. IDEAL 2008: 346-353 Hovy, E. y C.Y. Lin. 1999. Automated Text Summarization in SUMMARIST. En I. Mani y M. T. Maybury, eds., Advances in 61 Manuel de la Villa, Manuel J. Maña Skorochod'ko, E. F. 1972. Adaptive method of automatic abstracting and indexing. En C. Freiman, ed., Information Processing 71: Proceedings of the IFIP Congress 71, págs.1179-1182. North-Holland Publishing Company, Amsterdam. 62 Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 63-70 recibido 13-01-09, aceptado 02-03-09 Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web A Comparison of Approaches to Semi-supervised Multiclass SVM for Web Page Classification Arkaitz Zubiaga, Vı́ctor Fresno, Raquel Martı́nez Departamento de Lenguajes y Sistemas Informáticos Universidad Nacional de Educación a Distancia C/Juan del Rosal, 16, E-28040 Madrid {azubiaga, vfresno, raquel}@lsi.uned.es Resumen: En este artı́culo se realiza un estudio de diferentes aproximaciones a la clasificación semisupervisada multiclase de páginas web mediante SVM. Ante la naturaleza binaria y supervisada de los algoritmos SVM clásicos, y tratando de evitar problemas de optimización complejos, se propone un enfoque basado en la combinación de clasificadores, tanto binarios semisupervisados como clasificadores multiclase supervisados. Los resultados de los experimentos realizados sobre tres colecciones de referencia muestran un rendimiento notablemente superior para la combinación de clasificadores multiclase supervisados. Por otro lado, en este trabajo también se realiza un estudio sobre la aportación de los documentos no etiquetados en la fase de aprendizaje para este tipo de entornos. En nuestro caso, y a diferencia de los problemas binarios, se obtiene una mayor efectividad cuando se ignora este tipo de datos para problemas multiclase. Palabras clave: SVM, multiclase, semisupervisado, clasificación de páginas web Abstract: In this paper we present a study on semi-supervised multiclass web page classification using SVM. Due to the binary and supervised nature of the classical SVM algorithms, and trying to avoid complex optimization problems, we propose an approach based on the combination of classifiers, not only binary semi-supervised classifiers but also multiclass supervised ones. The results of our experiments over three benchmark datasets show noticeably higher performance for the combination of multiclass supervised classifiers. On the other hand, we analyze the contribution of unlabeled documents during the learning process for these environments. In our case, and unlike for binary tasks, we get higher effectiveness for multiclass tasks when no unlabeled documents are taken into account. Keywords: SVM, multiclass, semi-supervised, web page classification 1. Introducción El número de documentos web está creciendo muy rápidamente en los últimos años, lo que hace que su organización resulte cada vez más costosa y complicada. Es por ello que la clasificación de páginas web se ha convertido en una tarea cada vez más necesaria y crı́tica. La clasificación de páginas web puede definirse como la tarea de organizar una serie de documentos web etiquetándolos con sus un conjunto de categorı́as prefijadas. Aunque se han realizado múltiples estudios para clasificación de textos, sobre todo en la raISSN 1135-5948 ma de noticias, su aplicación sobre páginas web está aún por profundizar (Qi y Davison, 2007). En este trabajo se pone el foco en la clasificación de páginas web enmarcada dentro del paradigma del aprendizaje automático (Mitchell, 1997). Los problemas de clasificación se pueden dividir en diferentes tipos. Por una parte, la clasificación puede ser binaria, donde únicamente existen dos categorı́as posibles para cada documento, o puede ser multiclase, donde se dispone de tres o más categorı́as; y por otra, el sistema de aprendizaje con el que se alimenta el clasificador puede ser supervisa- © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural Arkaitz Zubiaga, Víctor Fresno, Raquel Martínez do, donde todos los documentos de entrenamiento están previamente etiquetados, o semisupervisado, donde se aprende con una colección de entrenamiento compuesta por algunos documentos etiquetados y muchos no etiquetados. En los últimos años, se han aplicado diferentes tipos de algoritmos al problema de la clasificación de textos (Sebastiani, 2002). Para esta tarea, las máquinas de vectores de soporte (SVM, Support Vector Machines (Joachims, 1998)) se han perfilado como una buena alternativa, que ofrecen, entre otras, las siguientes ventajas: se. En la sección 3, se presentan las alternativas propuestas en este trabajo para clasificación semisupervisada multiclase. En la sección 4, se muestran los detalles de la experimentación realizada, para seguir en la sección 5 con el análisis de los resultados. En la sección 6, para finalizar, se exponen las conclusiones extraı́das tras el proceso. 2. Clasificación con SVM En la última década, SVM se ha convertido en una de las técnicas más utilizadas para tareas de clasificación, debido a los buenos resultados que se han obtenido. Esta técnica se basa en la representación de los documentos en un modelo de espacio vectorial, donde se asume que los documentos de cada clase se agrupan en regiones separables del espacio de representación. En base a ello, trata de buscar un hiperplano que separe cada clase, maximizando la distancia entre los documentos y el propio hiperplano, lo que se denomina margen (ver Figura 1). Este hiperplano se define mediante la siguiente función: No se requiere una selección o reducción de términos. En caso de que una clase se distribuya en áreas separadas del espacio vectorial, será la transformación del espacio mediante la función de kernel la que se ocupe de solucionarlo. No es necesario realizar un esfuerzo de ajuste de parámetros en el caso de problemas linealmente separables, ya que dispone de su propio método para ello. f (x) = w · x + b Su transformación a aprendizaje semisupervisado se convierte, generalmente, en un comportamiento transductivo, lo que posibilita el máximo refinamiento en la definición del clasificador. Teniendo en cuenta que la clasificación de páginas web es, generalmente, un problema multiclase, y que el número de documentos etiquetados del que se dispone, comparado con las dimensiones de la Web, es muy reducido, el problema se convierte de forma natural en un problema multiclase y semisupervisado. Por ello, y debido a su naturaleza binaria y supervisada, es necesaria una adaptación de la técnica SVM clásica. Existen diversos estudios referentes tanto a SVM multiclase como a SVM semisupervisado, pero apenas se ha investigado en la unión de ambos casos. Frente a una aproximación directa, basada en un problema de optimización complejo, este artı́culo propone y evalúa diferentes aproximaciones para la implementación de un método de SVM multiclase y semisupervisado, basándose en la combinación de clasificadores. En la sección 2 se explican los avances obtenidos en los últimos años en la clasificación mediante SVM, tanto para aprendizaje semisupervisado como para taxonomı́as multicla- Figura 1: Ejemplo de maximización del margen con SVM, donde la lı́nea más gruesa serı́a la escogida por el sistema. La optimización de esta función supondrı́a tener en cuenta todos los valores posibles para w y b, para después quedarse con aquéllos que maximicen los márgenes. Esto resulta muy difı́cil de optimizar, por lo que en la práctica se utiliza la siguiente función de optimización equivalente (ver Figura 2): l X 1 ξid mı́n ||w||2 + C 2 i=1 Sujeto a: yi (w · xi + b) ≥ 1 − ξi , ξi ≥ 0 64 Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web Sujeto a: donde C es el parámetro de penalización y ξi es la distancia entre el hiperplano y el documento i. wyi · xi + byi ≥ wm · xi + bm + 2 − ξim , ξim ≥ 0 Otras técnicas para la aproximación a SVM multiclase de k clases se han basado en la combinación de clasificadores binarios (Hsu y Lin, 2002). Estas técnicas descomponen el problema multiclase en pequeños problemas binarios, aplicando después diferentes funciones de decisión para unirlos. Las técnicas más conocidas para clasificación mediante combinación de problemas binarios son las siguientes: one-against-all descompone un problema multiclase con k clases en otros tantos problemas binarios, en los cuales cada una de clases se enfrenta al resto. Ası́, se construyen k clasificadores que definen otros tantos hiperplanos que separan la clase i de los k-1 restantes. Como función de decisión, a cada nuevo documento se le asigna aquella clase sobre la que su clasificador maximice el margen: Figura 2: Representación gráfica de la función de clasificación de SVM. De esta manera únicamente se resuelven problemas linealmente separables, por lo que en muchos casos se requiere de la utilización de una función de kernel para la redimensión del espacio. Ası́, el nuevo espacio obtenido resultará linealmente separable. Posteriormente, la redimensión se deshace, de modo que el hiperplano encontrado será transformado al espacio original, constituyendo la función de clasificación. Es importante destacar que esta función únicamente puede resolver problemas binarios y de forma supervisada. 2.1. Ĉi = arg máx (wi x + bi ) i=1,...,k one-against-one descompone el probleproblemas bima de k clases en k(k−1) 2 narios, donde se crean todos los posibles enfrentamientos uno a uno entre clases. Ası́, se obtiene un hiperplano para cada uno de estos problemas binarios. Posteriormente, se somete cada nuevo documento a todos estos clasificadores, y se añade un voto a la clase ganadora para cada caso, resultando como clase propuesta la que más votos suma. SVM multiclase Debido a la naturaleza dicotómica de SVM, surgió la necesidad de implementar nuevos métodos que pudieran resolver problemas multiclase, en los que la taxonomı́a está compuesta por más de dos clases. Como aproximación directa, (Weston y Watkins, 1999) proponen una modificación de la función de optimización que tiene en cuenta todas las clases, generalizando la función de optimización binaria para el número deseado k de clases: mı́n 2.2. Aprendizaje semisupervisado para SVM (S3 VM) Las técnicas de aprendizaje semisupervisado se diferencian en que, además de los documentos previamente etiquetados, se utilizan documentos no etiquetados para la fase de entrenamiento (Joachims, 1999) (ver Figura 3). Ası́, las predicciones del propio sistema sobre los documentos no etiquetados sirven, a su vez, para seguir alimentando el sistema de aprendizaje. Las SVM semisupervisadas se conocen también por sus iniciales S3 VM. En el caso de SVM, su adaptación al aprendizaje semisupervisado supone a priori un gran coste k l X X 1 X ||wm ||2 + C ξim 2 m=1 i=1 m6=y i 65 Arkaitz Zubiaga, Víctor Fresno, Raquel Martínez computacional, ya que la función resultante no es convexa, por lo que es mucho más complicada la optimización en busca del mı́nimo. Para relajar el cálculo de esta función se suelen utilizar técnicas de optimización convexa (Xu et al., 2007), donde la obtención del mı́nimo para la función resultante es mucho más sencilla. No obstante, casi todo el trabajo existente en la literatura relativa a este aspecto ha sido para clasificaciones binarias, por lo que no se ha profundizado en el estudio sobre su aplicación a entornos multiclase. mı́n +C y máx{0, 1 − (βj j − βji )}2 j=1 i6=yj donde β representa el producto entre un vector de variables y una matriz de kernel definidas por el autor. Esta función de optimización, sin embargo, puede resultar muy costosa, debido a la cantidad de variables que se deben tener en cuenta en el proceso de minimización de la misma, lo que hace interesante el problema de encontrar otros enfoques a S3 VM multiclase. Por otro lado, algunos trabajos han empleado otros enfoques para la consecución de una técnica S3 VM multiclase. (Qi et al., 2004) utilizan Fuzzy C-Means (FCM) para predecir la clase a la que pertenecen los documentos no etiquetados, tras lo cual utilizan SVM supervisado para aprender con la nueva colección ampliada, y clasifican el resto de documentos. (Xu y Schuurmans, 2005) utilizan una aproximación basada en clustering para la predicción de documentos no etiquetados, para posteriormente entrenar un clasificador SVM. (Chapelle et al., 2006), por último, presentan un método S3 VM multiclase basado en Continuation Method, y trasladan las técnicas basadas en combinación de binarios, one-against-all y one-against-one, al entorno semisupervisado. Aplican estas técnicas sobre colecciones de noticias, para las que obtienen unos resultados muy bajos. No obstante, estas técnicas nunca han sido trasladadas a la clasificación de páginas web. Figura 3: SVM vs S3 VM, donde los documentos etiquetados están representados por +/y los no etiquetados por puntos. 2.3. l X X h 1X T β i K −1 β i 2 i=1 S3 VM multiclase En los problemas donde la taxonomı́a dispone de más de dos categorı́as y el número de documentos previamente etiquetados es muy pequeño, se precisa la combinación de las dos caracterı́sticas anteriormente expuestas, lo que supone un método de S3 VM multiclase. Los problemas reales de clasificación de páginas web suelen cumplir con estas caracterı́sticas, ya que el número de categorı́as suele ser mayor que dos, y la pequeña colección de documentos etiquetados de la que se dispone normalmente implica la necesidad de utilizar documentos no clasificados en la fase de entrenamiento. Actualmente, son pocos los trabajos que se han centrado en la transformación de SVM a semisupervisado y multiclase. Como aproximación directa, se encuentra la propuesta de (Yajima y Kuo, 2006), con una técnica que traslada la función multiclase directa al entorno semisupervisado. La función de optimización resultante es la siguiente: 3. Alternativas propuestas para S3 VM multiclase Ante la carencia de estudios comparativos sobre métodos de S3 VM multiclase, nuestro objetivo es el de proponer y comparar diversas técnicas aplicables a este entorno, basándose en técnicas ya utilizadas para problemas supervisados multiclase y semisupervisados binarios. En cuanto a la utilización de documentos no etiquetados en fase de aprendizaje para SVM, (Joachims, 1998) presenta un estudio en el que se muestra una gran mejora cuando éstos son considerados para problemas binarios. No obstante, no se ha evaluado su apor66 Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web tación en problemas multiclase, cuando las predicciones sobre un número mayor de clases pueden aumentar el error de forma considerable, perjudicando ası́ a la fase de aprendizaje. Realizamos dos tipos de propuestas alternativas a la aproximación directa para S3 VM multiclase. Por una parte, proponemos la utilización de técnicas ya empleadas en entornos supervisados, aunque sin un profundo análisis, y basados en la combinación de clasificadores binarios semisupervisados: ser utilizada tanto para aprendizaje supervisado como para semisupervisado. En ella se definen 2n−1 − 1 clasificadores, correspondientes a todos los enfrentamientos posibles entre las clases, teniendo en cuenta que todas las clases deben caer en uno u otro lado de la clasificación. Por ejemplo, para un problema de cuatro clases, se generarán los clasificadores 1 vs 2-3-4, 1-2 vs 3-4, 1-2-3 vs 4, 1-3 vs 2-4, 1-4 vs 2-3, 1-2-4 vs 3 y 1-34 vs 2. Cada nuevo documento recibido en la fase de clasificación se someterá a cada uno de los clasificadores generados, sumando, como voto, el valor del margen obtenido en cada caso para las clases en el lado positivo. Una vez realizado esto, se procede a la fase de predicción, en la que se asignará la clase para la que mayor votación ha obtenido cada documento. Aunque esta aproximación puede ser muy costosa para grandes taxonomı́as, ya que el número de clasificadores aumentarı́a de forma exponencial, se podrı́a esperar un buen rendimiento para un número reducido de clases. one-against-all-S3 VM y one-againstone-S3 VM son propuestas basadas en la combinación de clasificadores binarios semisupervisados, vistos en la sección 2.1, que aunque se han utilizado en colecciones supervisadas, apenas han sido aplicadas y estudiadas sobre colecciones con documentos no etiquetados. Cabe destacar que el enfoque one-against-oneS3 VM plantea un problema intrı́nseco de ruido en la fase de entrenamiento con los documentos no etiquetados, ya que cada clasificador para un par de categorı́as únicamente debe ser alimentado por documentos que le correspondan, y el problema radica en la imposibilidad de excluir aquellos ejemplos no etiquetados que no deberı́an incluirse (Chapelle et al., 2006). 4. Diseño de la experimentación Para la realización de la experimentación se ha procedido a la implementación de los algoritmos descritos en el apartado anterior, y su ejecución sobre las colecciones de datos escogidas. Todos los documentos de las colecciones utilizadas están etiquetados, por lo que cada una de ellas se ha dividido en: Por otra parte, introducimos dos nuevas técnicas para el desarrollo de un sistema de clasificación semisupervisado multiclase basado en SVM: 2-steps-SVM : Hemos denominado ası́ a la técnica que se basa en la aproximación supervisada multiclase explicada en la sección 2.1. Este método trabaja, en el primer paso, sobre la colección de entrenamiento, aprendiendo con los documentos etiquetados y prediciendo los no etiquetados; a posteriori, se etiquetan estos últimos según las predicciones obtenidas. Como segundo paso, se realiza la clasificación habitual para este método, ya que ahora la colección se ha convertido en supervisada, con todos los ejemplos de entrenamiento etiquetados. una colección de entrenamiento, que sirve para que el clasificador aprenda, en el que no se considerarán las categorı́as de algunos documentos, para ası́ tener una colección semisupervisada, y otra de test, que sirva para que el sistema cree las predicciones y se pueda evaluar su rendimiento. A continuación se explican con más detalle las caracterı́sticas de la experimentación llevada a cabo. 4.1. all-against-all-S3 VM : Además de las anteriores, en este trabajo se presenta una nueva propuesta de combinación de clasificadores binarios, que hemos denominado all-against-all-S3 VM, y que podrı́a Colecciones de datos Para esta experimentación se han utilizado colecciones de páginas web de referencia, que ya han sido utilizadas anteriormente para problemas de clasificación automática: 67 Arkaitz Zubiaga, Víctor Fresno, Raquel Martínez BankSearch (Sinka y Corne, 2002), compuesta por 10.000 páginas web sobre 10 clases, de muy diversos temas: bancos comerciales, construcción, agencias aseguradoras, java, C, visual basic, astronomı́a, biologı́a, fútbol y motociclismo. 4.000 ejemplos han sido asignados a la colección de entrenamiento, y los 6.000 restantes a la de test. correspondientes métodos para el comportamiento 2-steps-SVM supervisado y las técnicas one-against-all-S3 VM, one-against-oneS3 VM y all-against-all-S3 VM semisupervisadas. Finalmente, además de los algoritmos comentados, se ha simplificado el algoritmo 2steps-SVM a un solo paso, 1-step-SVM, donde utilizando únicamente un clasificador supervisado multiclase se entrena con los ejemplos etiquetados y se predicen los ejemplos de test, ignorando por tanto los ejemplos no etiquetados. Este método sirve para evaluar la aportación de los documentos no etiquetados en el aprendizaje. WebKB 1 , formada por 4.518 documentos extraı́dos de 4 sitios universitarios y clasificados sobre 7 clases (estudiante, facultad, personal, departamento, curso, proyecto y miscelanea). La clase miscelanea se ha eliminado de la colección debido a la ambigüedad, resultando 6 categorı́as. De todos los ejemplos que componen la colección, 2.000 se han asignado al entrenamiento y 2.518 al de test. 4.3. La medida de evaluación escogida para el rendimiento de los algoritmos propuestos ha sido el ”accuracy”, ya que es la que suele utilizarse en el área de la clasificación de textos, sobre todo cuando el problema a tratar es multiclase. El ”accuracy” mide el porcentaje de predicciones correctas sobre el total de documentos testeados. Se han considerado de la misma manera los aciertos sobre cualquiera de las clases, sin que ninguna de ellas tenga una mayor importancia respecto a las demás, por lo que no existe ponderación alguna en la evaluación. Yahoo! Science (Tan et al., 2002), que tiene 788 documentos cientı́ficos, clasificados sobre 6 ámbitos diferentes de la ciencia (agricultura, biologı́a, ciencias terrestres, matemáticas, quı́mica y otros). Se han definido 200 documentos para el entrenamiento, y 588 para el test. Desde la colección de entrenamiento, para cada caso, se han creado diferentes versiones, entre las que varı́a el número de documentos etiquetados, dejando el resto como no etiquetados, pudiendo probar ası́ las diferentes aproximaciones semisupervisadas. Para la representación vectorial de los documentos que componen cada colección, se han utilizado los valores tf-idf de los unitérminos encontrados en los textos, excluyendo los de mayor y menor frecuencia. Los unitérminos resultantes han sido los que han definido las dimensiones del espacio vectorial. 4.2. Medidas de evaluación 5. Análisis de los resultados En las figuras 4, 5 y 6 se muestran los resultados obtenidos durante la experimentación con las colecciones BankSearch, WebKB y Yahoo! Science, respectivamente. Estos resultados se presentan en forma de gráfica, en función del tamaño de la muestra etiquetada. Para cada una de las muestras se realizaron 9 ejecuciones. El valor que se representa en las gráficas es la media de todas las ejecuciones realizadas. Los resultados obtenidos pueden resumirse en los siguientes puntos: Implementación de los métodos Para la implementación de los diferentes métodos de clasificación descritos en la sección 3, se requiere un clasificador semisupervisado binario y otro supervisado multiclase, para después combinarlos. Para el primer caso, se ha escogido SVMlight2 , y para el segundo, su derivado SVMmulticlass. Basándose en ambos algoritmos, se han implementado los 1 http://www.cs.cmu.edu/afs/cs.cmu.edu/project/theo20/www/data/ 2 http://svmlight.joachims.org 68 En todos los casos el mejor comportamiento se obtiene para uno de los algoritmos basados en clasificadores multiclase supervisados, bien sea el 1-step-SVM o el 2-steps-SVM ; incluso en los casos con menos documentos etiquetados, estos métodos destacan sobre los basados en clasificadores semisupervisados binarios. Comparativa de Aproximaciones a SVM Semisupervisado Multiclase para Clasificación de Páginas Web Figura 4: Resultados para BankSearch. Figura 6: Resultados para Yahoo! Science. colecciones BankSearch y Yahoo! Science, pero notablemente superiores para WebKB, donde las clases son más homogeneas. En este caso es donde mejor resulta ignorar los documentos no etiquetados, mediante el método 1-step-SVM, un método más sencillo y menos costoso computacionalmente que 2-steps-SVM. Para todas las colecciones, según se aumenta el número de documentos etiquetados, se mantiene el ranking obtenido por los algoritmos. 6. Conclusiones En este trabajo se ha realizado un estudio comparativo de clasificación multiclase semisupervisada de páginas web mediante SVM. Se han introducido dos nuevas técnicas para S3 VM multiclase, que hemos llamado 2-stepsSVM y all-against-all-S3 VM. El primero, 2steps-SVM, ha obtenido los mejores resultados en dos de las tres colecciones. Además, se han aplicado las técnicas one-against-allS3 VM y one-against-one-S3 VM sobre clasificación semisupervisada, con unos resultados considerables para la primera, pero inferiores para la segunda. Entre los algoritmos que combinan clasificadores binarios, all-against-all-S3 VM ha demostrado la mayor efectividad, aunque el gran número de clasificadores a considerar hace que su coste computacional aumente, por lo que su mejora en cuanto a eficiencia resultarı́a un interesante avance. A su vez, al igual que (Chapelle et al., 2006) muestran en sus resultados sobre colec- Figura 5: Resultados para WebKB. De las tres técnicas semisupervisadas comparadas, destaca la propuesta all-against-all-S3 VM para las colecciones BankSearch y WebKB, ligeramente superior al de one-against-allS3 VM, y muy superior al de one-againstone-S3 VM. Únicamente one-against-allS3 VM, en el caso de la colección Yahoo! Search, es algo superior a all-against-allS3 VM. La técnica one-against-one-S3 VM demuestra que el ruido que se habı́a previsto existe, y que, por ello, la calidad de los resultados obtenidos es baja. El método 1-step-SVM, que ignora los documentos no etiquetados para la fase de aprendizaje, muestra unos resultados similares a los de 2-steps-SVM para las 69 Arkaitz Zubiaga, Víctor Fresno, Raquel Martínez ciones de noticias, los resultados sobre páginas web son también bajos, por lo que se confirma la baja efectividad de one-against-allS3 VM y one-against-one-S3 VM para problemas semisupervisados multiclase. Por otro lado, se ha estudiado la influencia de la no inclusión de documentos no etiquetados en la fase de aprendizaje, aplicada mediante la técnica 1-step-SVM, y se ha mostrado que en algunas ocasiones puede influir de forma positiva. Ignorar los documentos no etiquetados para aprender ha resultado mejor cuando las clases son más homogéneas. Para las colecciones más heterogéneas, por otro lado, se han obtenido unos resultados parejos tanto considerando como ignorando los documentos no etiquetados. Estos resultados hacen pensar que para un problema multiclase y semisupervisado puede ser más interesante no utilizar datos no etiquetados, ya que los resultados son similares y el coste computacional es menor. Por último, los resultados obtenidos en este trabajo complementan el estudio presentado por (Joachims, 1999), donde se muestra la superioridad de S3 VM respecto a SVM para problemas binarios. En el caso de un problema multiclase y semisupervisado de páginas web, la inclusión de documentos no etiquetados para problemas multiclase basados en SVM no resulta interesante para las colecciones testeadas, ya que una técnica supervisada obtiene, como mı́nimo, la misma efectividad para este tipo de entornos. Como trabajo futuro, quedan por comparar los resultados respecto al algoritmo semisupervisado multiclase nativo. T. Joachims. 1999. Transductive Inference for Text Classification Using Support Vector Machines. Proceedings of ICML99, 16th International Conference on Machine Learning. Bibliografı́a Z. Xu, R. Jin, J. Zhu, I. King y M. R. Lyu. 2007. Efficient Convex Optimization for Transductive Support Vector Machine. Advances in Neural Information Processing Systems. T. Mitchell. 1997. Machine Learning. McGraw Hill. H.-N. Qi, J.-G. Yang, Y.-W. Zhong y C. Deng 2004. Multi-class SVM Based Remote Sensing Image Classification and its Semisupervised Improvement Scheme. Proceedings of the 3rd ICMLC. X. Qi y B.D. Davison. 2007. Web Page Classification: Features and Algorithms. Informe Técnico LU-CSE-07-010. F. Sebastiani. 2002. Machine Learning in Automated Text Categorization ACM Computing Surveys, pp. 1-47. M.P. Sinka y D.W. Corne. 2002. A New Benchmark Dataset for Web Document Clustering. Soft Computing Systems. C.M. Tan, Y.F. Wang y C.D. Lee. 2002. The Use of Bigrams to Enhance Text Categorization. Information Processing and Management. J. Weston y C. Watkins. 1999. Multi-class Support Vector Machines. Proceedings of ESAAN, the European Symposium on Artificial Neural Networks. L. Xu y D. Schuurmans. 2005. Unsupervised and Semi-supervised Multiclass Support Vector Machines Proceedings of AAAI’05, the 20th National Conference on Artificial Intelligence. O. Chapelle, M. Chi y A. Zien 2006. A Continuation Method for Semi-supervised SVMs. Proceedings of ICML’06, the 23rd International Conference on Machine Learning. Y. Yajima y T.-F. Kuo. 2006. Optimization Approaches for Semi-Supervised Multiclass Classification. Proceedings of ICDMW’06, the 6th International Conference on Data Mining. C.-H. Hsu y C.-J. Lin. 2002. A Comparison of Methods for Multiclass Support Vector Machines. IEEE Transactions on Neural Networks. T. Joachims. 1998. Text Categorization with Support Vector Machines: Learning with many Relevant Features. Proceedings of ECML98, 10th European Conference on Machine Learning. 70 Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 71-78 recibido 14-01-09, aceptado 02-03-09 Using a Generative Lexicon Resource to Compute Bridging Anaphora in Italian.∗ Utilización de un recurso de léxico generativo para calcular Anáfora asociativas en Italiano. Tommaso Caselli ILC- CNR and Dip. Linguistica “T.Bolelli”, Università degli Studi di Pisa Via Moruzzi, 1 56124 Pisa, Italy [email protected] Resumen: Este artı́culo presenta un trabajo preliminar sobre el uso de un recurso léxico basado en la teorı́a del léxico generativo para resolver las anáforas asociativas en italiano. Los resultados obtenidos, a pesar de no ser demasiado satisfactorios, parecen respaldar el uso de un recurso de este tipo respecto a los recursos de tipo WordNet debido al mayor número de anáforas asociativas que puede tratar. Palabras clave: léxico generativo, resoluccion de anáfora, bridging, anáforas asociativas Abstract: This article reports on a preliminary work on the use of a Generative Lexicon based lexical resource to resolve bridging anaphors in Italian. The results obtained, though not very satisfying, seem to support the use of such a resource with respect to WordNet-like ones due to the wider range of bridging anaphors which can be treated. Keywords: generative lexicon, anaphora resolution, bridging 1 Introduction Anaphora resolution is essential to capture the knowledge encoded in text. Bridging anaphora are a very challenging phenomenon because they are a “type of indirect textual reference whereby a new referent is introduced as an anaphoric not of but via the referent of an antecedent expression” (Kleiber, 1999, 339), as in the following example (bridging NPs are in bold): (1) Maria ha comprato una macchina nuova, ma il motore si è rotto dopo due giorni. Maria bought a new car, but the engine broke down two days later. Bridging anaphors are constrained to a set of semantic and pragmatic conditions. The aim of this paper is to present a preliminary study on the use of a Generative Lexicon based lexical resource (SIMPLE) as a source of these constraints to automatically resolve this kind of anaphoric definites. In order to develop the system, we have preliminary ∗ A preliminary version of this work has been presented at the CBA Workshop at the Universitat de Barcelona, Barcelona, 13-15 November 2008. The author wants to thank the organizers and participants for the useful comments and discussion. ISSN 1135-5948 conducted a corpus study on the identification and classification of bridging anaphors in Italian. The corpus study has been grounded on a set of theoretical statements describing the phenomenon of bridging, providing empirical evidences of their validity and also further information on their organization. The paper is organized as follows: in section 2, we will present the semantic and pragmatic contraints underlying the phenomenon of bridging anaphora. The corpus study and its results are illustrated in section 3. We will then describe how the lexical resource is structured and what levels of semantic information encoded in it are the most relevant to accomplish the task of resolving bridging anaphors in section 4. Finally in section 5, we will describe the results obtained from the use of SIMPLE and compare its perfomance with that of a WordNet-based resource, namely ItalWordNet, and present our concluding remarks and observations in section 6. 2 Theoretical background A trend in linguistic theories, which has counterparts in computational frameworks, tends to emphasize the idea that Full Definite Noun Phrases (FDNPs henceforth) are a matter of the global discourse focus, i.e. © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural Tommaso Caselli • use your informational resources as little as possible (Effort Condition); they are used to retrieve a referent which is no longer accessible or to construct a conceptual representation which uniquely identifies a referent. On the contrary, empirical studies provided evidence in favor of Sidner (1979)’s hypothesis that bridging FDNPs are different from other occurrences of anaphoric FDNPs, since, in the process of identification of their antecedents, they are more sensitive to the local focus. In addition to this, bridging FDNPs trigger an inferential presupposition of the kind: the[N 1]R[N 2] (1) • make as few assumptions as possible (Plausibility Condition). The Effort Condition has to do with the mental capacity the interpreter needs to resort to in order to construct a “bridge”. In particular, it states that the less time consuming inference to retrieve the right anchor should be preferred over the others. The Plausibility Condition, on the other hand, has to do with the admissibility of the constructed bridges. It is a simple consistency condition, with relevance as a side effect. The Plausibility Condition plays a major role in selecting the most plausible reading among those which passed the Effort Condition, helping us to determine the bridge and avoid ambiguity. Obviously, if the Effort Condition selects only one reading, this is considered the most plausible by definition. The inference the hearer has to perform in order to bridge the gap from what s/he knows to the intended antecedent, bears on the possible relation(s) between the referent of the antecedent and the referent of the anaphor. The existence of such a relation is necessary for the speaker to create the bridge and for the hearer to resolve it. Most classifications of bridging anaphoras are all based on this idea (Hawkins, 1978) (Sidner, 1979). The relations that link the anaphor to the antecedent can be of various types, but they can be reduced to three pragma-cognitive dimensions: a lexical semantic dimension, a cotextual, or textual, dimension and a contextual, or extralinguistic, dimension. These elements represent the theoretical background which we have used both in the corpus-study and in the development of the automatic procedure to resolve bridging anaphors. In particular, the identification of the R relation between the bridging definite and its anchor has been used to identify the various classes of bridging anaphors, and the Effort and Plausibility conditions have been exploited to restrict the type and number of NPs which could be identified as anchors. where N1 represents the FDNP, i.e. the bridging anaphor, R is the inferential relation or bridge the interpreter has to perform in order to interpret correctly its occurrence1 , and N2 is the antecedent or anchor. Applying the formula in 1 to the example in 1 we obtain the following paraphrasis “the [engine]N 1 is a part ofR [a car]N 2 ” which justifies the occurrence of the FDNP. Kleiber (1999) identifies some semantic restrictions on what kinds of FDNPs can enter a bridging relation. Drawing on the notion of functional nouns2 , he identifies two very general, language-independent factors which are at work in the mechanism of the bridging relation between the referents involved: a condition of alienation and the principle of ontological congruence. A bridging description can be conceived of as a Functional Concept of type 2 (FC2), with an implicit argument. This type of semantic definite NP introduces the referent by means of the sole sortal predicate N, without semantic subordination to another individual. In other words, the head noun looks as semantically autonomous or alienated. Next to these semantic restrictions, a couple of pragmatic constraints can be identified. We propose to use the following pragmatic restrictions on inferencing: an Effort Condition and a Plausibility Condition as suggested by Krahmer and Piwek (2000). The two constraints can be represented by the following maxims: 1 The R relation can be thought as deriving from Chierchia (1995)’s compositional semantics of FDNPs, according to which “the + N” denotes a noun N which is related in an anaphorically undetermined way B to an antecedent u. 2 By functional nouns we intend NPs denoting a non-ambiguous interpretation, or a functional concept (FC), as proposed by Lobner (1985). 3 Bridging Anaphora in Italian: a corpus study In order to verify the realizations of bridging anaphors in Italian, we have conducted a corpus study on 17 randomly chosen arti72 Using a Generative Lexicon Resource to Compute Bridging Anaphora in Italian cles from the Italian financial newspaper “il Sole-24 Ore”, a workpackage of the SI-TAL Project, the syntactic-semantic Treebank of Italian (Montemagni et al., 2003). The texts considered contain a total number of 1412 full definite noun phrases (FDNPs) of the form “definite article + (possessive) + N”, which represent 31.54% of all the occurrences of FDNPs in the corpus. Each newspaper article was first read entirely, and only after it was divided into segments of five sentence windows which is an arbitrary strategy to give an account of the local focus of the text i.e. the most probable place to look for anchors for bridging FDNPs. In the classification exercise we have used an operational device such as processing requirements3 since when a FDNP is encountered in a discourse can be reduced to one of these four cases: FDNPs Classes First Mention Possessives Direct Anaphora Bridging Idiom Doubt Total Figures 833 (58.61%) 36 (2.54%) 170 (12.03%) 299 (21.17%) 25 (1.62%) 49 (3.47%) 1412 (100%) Table 1: Classes of FDNPs. thus suggesting that bridging is a more productive cohesive strategy in Italian with respect to other languages, i.e. English (Vieira and Poesio, 2000). Five subclasses of bridging anaphors have been identified, in particular: • Lexical: (199/299 - 39.79%) those instances of bridging descriptions whose link with the antecedent is clearly based on lexical semantics, e.g.: la pistola l’arma (the gun – the weapon); • it is used to pick up an entity mentioned before in the text, which, in our experiment, could be either directly or indirectly realized; • Event: (18/299 - 6.02%) the antecedent is represented by a verb or a VP; it contains what Clark categorizes as indirect reference by necessary roles and optional roles, and Strand’s event-argument relations, e.g.: fece esplodere - le macerie (exploded – the debris); • it is not mentioned before, but its interpretation depends on , is based on, or is related in some way to an entity already present in the discourse (directly or indirectly realized); • it is not mentioned before and is not related to any previous mentioned entity, but it refers to something which is part of the common shared knowledge of the writer and reader; • Rhetorical Relation5 : (27/299 - 9.03%) it includes bridging anaphors whose antecedent can be identified through discourse relations, e.g.: l’elezione – i componenti (the election – the members); • it is self-explanatory or it is given together with its own identification. • Discourse Topic: (26/299 - 8.69%) this kind of bridging is related on implicit way to the main discourse topic of a text, rather than to a specific NP or VP; These four types of FDNPs use reflect the classes of Direct Anaphora, Bridging and First Mention, respectively. The same operational device i.e. processing requirements, was used for the analysis and classification of bridging anaphors. The classification task has led to the identification of 6 main classes of FDNPs (Table 1)4 . One of the main interesting results deriving from the classification in 1 is represented by the class of Bridging which represents the 63.88% (299/469) of all anaphoric FDNPs, • Inferential: (109/29 - 36.45%) all cases of bridging based on complex inferential reasoning which entails use of encyclopedic, background or common shared knowledge, e.g.: la Cina – Pechino (China – Bejing). As the classes show, different sources of information (lexical, encyclopedic and discourse structure) have important roles for 5 It contains Clark (1997)’s relations of reasons, causes and consequences, part of Vieira and Poesio (2000)’s inferential bridging and Strand (1997)’s argument-event. 3 See alsoVieira and Poesio (2000). 4 For detailed figures and comments on the corpus study readers are referred to Caselli (2007). 73 Tommaso Caselli the resolution of these kinds of anaphoric relations. The results also suggest a preference order for the different sources of bridging anaphora: lexical semantic relations are preferred over the use of common sense inferencing and background knowledge i.e. pragmatics, which is preferred over discourse structure. Nevertheless, as it emerged from the corpus study, more than the 45% of the R relations needed to resolve bridging anaphors are based on commonsense knowledge (the Inferential class) and on general discourse structure (the Rhetorical Relation class). Different strategies have been proposed to automatically resolve bridging anaphors. Most of them rely on the use of lexical resources like WordNet or WordNet-like. However, the results obtained are not very satisfactory for two main reasons: on the one hand, lexical resources have limits due to the fact that they represent closed representations of natural language and could present mistakes and missing information due to their human-based nature, and, on the other hand, the theoretical background behind their construction is unable to deal with lots of instances of R relations, as we have called them, which govern the ways in which bridging anaphors can be retrieved and inferred by the interpreters. In this work we propose to use a lexical resource as well, namely PAROLE/SIMPLE/CLIPS (henceforth SIMPLE) (Ruimy et al., 2003), but the novelty of our proposal does not rely in the use of a lexical resource per sè, but in the use of a resource grounded on a robust lexical theory like that of Generative Lexicon (Pustejovsky, 1995). Generative Lexicon, and its developments, represents a device to model and deal both with classical lexical semantic relations, like merological relations, synonymy and others, and also with encyclopedic knowledge and even some kinds of discourse relations. The use of this lexical theory to retrieve the R relation responsible for the building of the bridge between the anaphoric element and its anchor will broaden the view of bridging anaphora resolution as a general problem of how much of background knowledge can be coded as part of the meaning of linguistic constituents. In the next sections, after having introduced SIMPLE, we will present the results of the performance of a semi-authomatic algorithm for resolving bridging anaphors which uses SIMPLE as its knowledge base. 4 SIMPLE: a Generative Lexicon Resource for Italian The SIMPLE lexicon6 is a four-layered7 computational lexicon developed under two EUsponsored project (PAROLE and SIMPLE) and extended under the Italian government founded project CLIPS. It represents the largest computational lexical knowledge base of Italian language, containing over 45 thousand lemmas and more that 57 thousand word senses, or semantic units. At the semantic layer of information, lexical units are structured in terms of a semantic type system and are characterized and interconnected by means of a rich set of semantic features and relations. Combining both topdown and bottom-up approaches, the SIMPLE ontology has been elaborated in such a way as to permit an exhaustive characterization of different levels of complexity of lexical meanings. The SIMPLE type system reflects the G.L. assumption that lexical items are multidimensional entities which present various degrees of internal complexity and thus call for a lexical semantic description able to account for different ranges of meaning components. Accordingly, a semantic type is not simply a label to be associated to a word meaning, it is rather the repository of a structured set of semantic information. Therefore, the membership of a word sense in a semantic type inherently triggers the instantiation of a rich bundle of semantic features and relations that represent the type-defining information that intrinsically characterizes the ontological type. The core of the SIMPLE semantic relations rely on the Qualia Structure, which is one of the four representational level proposed by the G.L. framework. Qualia structure consists of four roles (Agentive, Telic, Formal and Constitutive) encoding the multifaceted nature of word meaning. Qualia relations enable capturing orthogonal relations existing between semantic units, regardless of their ontological classification. Querying the whole set of semantic relations in which a single keyword is involved throughout the 6 http://www.ilc.cnr.it/clips/CLIPS ENGLISH.htm Phonological, morphological, syntactic and semantic levels. 7 74 Using a Generative Lexicon Resource to Compute Bridging Anaphora in Italian (7) lexicon allows retrieving and extracting a set of semantic units belonging to different semantic types forming a semantic network. Moreover, qualia relations enable to establish a connection between a word sense and a number of events or entities strictly related to its meaning and to define the role of those events/entities in the lexical semantics of the word itself. In SIMPLE a revision of the original qualia structure was undertaken which led to the design of the Extended Qualia Structure whereby each of the four roles subsumes a set of semantic relations. Sixty extended qualia relations were therefore created, which allow to model the componential aspect of a word’s meaning and to structure its relationships to other lexical units, on both the paradigmatic and syntagmatic axes. However, the semantic relations are not exhausted by the (extended) qualia structure. Each semantic unit has three more relations such as synonymy, derivation, which allows a further type of connection between lexical items, and regular polisemy. 4.1 The use of a G.L. approach allows us to claim that the R relations to resolve these cases of bridging are already encoded in the meanings of the lexical items themselves. Thus, for instance, in 3, the fact that a trial involves a convicted is formalized by exploiting a qualia relation between the two words, namely the constitutive “member of ”. In 7, the fact that if there is a vote, then there is an election (cause/consequence), can be formalized by exploiting the extended telic quale “purpose”. Moreover, bridging relations which take as anchor a verb (examples 4, 5 and 6) could as well be resolved by exploiting the extended qualia in SIMPLE. For instance, in 5, the FDNP the debris can be resolved by exploiting the extended agentive quale “result of”. It is quite trivial to remark that bridging relations classified as Lexical can be easily resolved as well by means of the qualia structure, including both classical lexical semantic relations and more fine-grained ones, like the one illustrated in 8, where the R relation can be expressed by the telic quale “is the activity of ”: Exploiting qualia relations to resolve bridging anaphors The core of our proposal is based on the idea that the qualia relations encoded in SIMPLE can be used to represent the R relations between a bridging element and its antecedent. To illustrate how to exploit qualia consider the examples from 2 to 7, all extracted from our corpus, which can only be resolved by making use of non-classical semantic relations; the anchor is in italics, the bridging element in bold and, in capital letters, the processing requirements (i.e. the R relations) needed to resolve the anaphoric link: (2) (8) l’attentato - i terroristi [the attack - the terrorists]; LEXICAL Before presenting the experimental data, another remark is necessary. The use of SIMPLE qualia relations has the further advantage of making explicit also what is the semantic relation which connects the bridging element to its antecedent, thus overcoming the shortcomings of machine learning approaches like Market, Nissim, and Modjeska (2003), which remain silent on this issue, i.e. do not specify what is the relation between the bridging anaphor and its antecedent. i prezzi – al consumatore [the prices – the customer]; INFERENTIAL (3) il processo – gli imputati [the trial – the convicted]; INFERENTIAL (4) essersi sparato – il suicidio [to shoot himself – the suicide]; EVENT (5) fatto esplodere – le macerie [exploded – the debris]; EVENT (6) condannare – il pubblico ministero [to condemn – the attorney]; EVENT il voto – l’elezione [the vote – the election] RHET. RELATION 5 Preliminary Experiments and Evaluation To evaluate the reliability of the resource we have conducted an experiment on a subset8 of 129 bridging anaphors from our corpus. We have developed a semi-automatic procedure to query the resource. The workflow is the following: we manually provided to the system both the bridging anaphor and its an8 All bridging relations which involved either as anchors or anaphoric elements named entities have been eliminated (144/299 - 48.16%), as well as those for the Discourse Topic class. 75 Tommaso Caselli tecedent. The system, then, looks for a semantic relation between the two, either by looking for a direct connection between the two words, i.e. semantic units, or by looking for a common semantic type between the two entities. If more than a semantic relation between the two words is identified, the one with the shortest lexical distance (i.e. the one with the shortest semantic path) is selected. In case that more than a semantic relations with same lexical distance between the anaphor and the anchor is identify, both relations are considered as valid. This choice is a device to reflect the fact that even human beings when resolving bridging anaphors may agree on the anchor, but disagree on the type of relation, i.e. allow more than one relation. The maximum number of arcs allowed has been set to two. This is due to the fact that a wider range would result into inappropriate relations since the two semantic units may be linked at a very abstract level. In order to verify our claim that a G.L. based resource should perform better in resolving bridging anaphors respect to WordNet-like ones, we have performed a compartive evaluation (by applying the same procedure) using ItalWordNet (IWN). In Table 2 we report the overall results of the two resources in terms of matching an existing semantic relation for the 129 couples of bridging anaphors and anchor, which corresponds to the number of possible bridging anaphors which could be resolved using these resources. The results are not very good, since only 22 Lexical Resource SIMPLE IWN be retrieved by using IWN, only 11 of them cannot be identified by SIMPLE and this is due to missing information in the resource (5 over 11 couples cannot be identified because the proper semantic relations have not been introduced by the compilers of the resource) and not to theoretical shortcomings of the resource itself. Moreover, 13 of the 22 relations identified by using SIMPLE are completely out of reach for IWN, since they correspond to extended qualia. Going into the details of the various subclasses of bridging relations the results are quite encouraging. What emerges is that the two resources can be thought as being specialized for the identification of particular subclasses of bridging anaphors. As the data in Table 3 show there is a relative high competition only for the subclass of Lexical bridging. The relative high performance of IWN in Inferential subclass is attributable to an extension of its original semantic relations as proposed by the EuroWordNet Project, of which IWN is a part. However, it is interesting to notice that all 5 Inferential bridging retrieved with IWN are identified by SIMPLE as well. The same observations hold for the class of Event as well. Finally, it is interesting to point out the fact that the subclasses of Rhetorical Relation and Inferential in SIMPLE are mainly resolved by two types of qualia (and their extensions) that is Constitutive and Telic. Subclass Lexical Inferential Rhet. Relation Event Bridging 22 (17.05%) 19 (14.72%) SIMPLE 11 (50%) 7 (31.82%) 2 (9.09%) 2 (9.09%) IWN 12 (63.2%) 5 (26.31%) 0 (0%) 2 (10.52%) Table 3: Subclasses of bridging matched. Table 2: Numbers of correctly matched bridging anaphors. 6 couples of anchor-bridging anaphor can be resolved by using SIMPLE, a figure which is not so bigger than those which can be resolved by using IWN. The very low results are essentially due to (unexpected) missing relations and lexical entries in the SIMPLE resource. The low values for IWN are due to the absence of the necessary semantic relations, as expected and in compliance with its theoretical background. It is also interesting to notice that of the 19 correct relations which can Conclusion The approach we have proposed is still a work-in progress and more refinements are needed. Of course a large-scale evaluation is compelling in order to provide further evidences of our proposal and a better evaluation of the SIMPLE lexicon. However, we would like to point out and emphasize some interesting aspects of this proposal: • the use of a G.L. based resource can be seen as a way of reducing the influence 76 Using a Generative Lexicon Resource to Compute Bridging Anaphora in Italian of being specialized in restricted sets of lexical relations. This could result in better resources with less mistakes and missing information and easier to be integrated in NLP algorithms. of extralinguistic knowledge; • bridging can be used as a way of discovering semantic relations among linguistic entities and can be used to improve both the creation and maintenance of linguistic resources like SIMPLE. In particular, G.L. pattern induction from a corpusbased study can improve the resource by adding missing relations; References Caselli, T. 2007. An annotation scheme for bridging anaphors and its evaluation. In Andrea Sansò, editor, Language Resources and Linguistic Theory, volume 59 of Materiali Linguistici. Franco Angeli, Milano, pages 149–166. • the problem of bridging anaphora resolution becomes part of a more general problem of identification of semantic relations between linguistic elements; Chierchia, G. 1995. Dynamics of Meaning: anaphora, presuppositions and the Theory of Grammar. University of Chicago Press, Chicago. • a resource with G.L. qualia relations encoded in it should not be compared with a world-knowledge database or similar (effort expensive and difficult) resources. G.L.-based relations are dynamic, in the sense that they allow to discover new relations between lexical items and can provide an account for the creative use of language; Clark, H. 1997. Bridging. In P.N. JohnsonLaird and P.C. Wason, editors, Thinking: Readings in Cognitive Science. Cambridge University Press, Cambridge and London. Hawkins, J.A. 1978. Definiteness and Indefiniteness. Croom Helm, London. • qualia relations can represent new features for machine learning approaches; considering an annotation task for anaphora resolution, it would be very useful to introduce a new attribute which expresses the qualia relation between the anchor and the anaphoric element, thus providing information to a learner to resolve also difficult (i.e. non strictly lexical) cases of bridging anaphors. Kleiber, G. 1999. Associative anaphora and part-whole relationship: the condition of alienation and the principle of ontological congruence. Journal of Pragmatics, 31:339–362. Krahmer, E. and P. Piwek. 2000. Varieties of Anaphora. Course Notes, ESSLLI00, Birmingham, August 11-23. Lobner, S. 1985. Definites. Journal of Semantics, 4:297–326. The results obtained are not very satisfying and seem to support criticisms to the use of lexical resources in tasks of anaphora resolutions. We agree on some of this criticism, but we would like to point out that the resolution of bridging anaphors is not a trivial task and the use of lexical resources like SIMPLE can represent a useful strategy for the development of robust algorithms for anaphora resolutions. As for SIMPLE an extended work of revision and correction of the various mistakes and missing elements is compelling in order to be used reliably. A further point which emerges from this work is represented by the observation that SIMPLE and IWN are not competitive resources, i.e. one being the extension of the other, but more complementary ones. The final proposal we suggest is a call for a new generation of lexical resources. Resources whose scope is that Market, K., M. Nissim, and N. Modjeska. 2003. Using the Web for nominal anaphora resolution. In EACL Workshop on the Computational Treatment of Anaphora. Montemagni, S., F. Barsotti, M. Battista, N. Calzolari, O. Corazzari, A. Lenci, V. Pirelli, A. Zampolli, F. Fanciulli, M. Massetani, R. Raffaelli, R. Basili, M. T. Pazienza, D. Saracino, F. Zanzotto, N. Mana, F. Pianesi, and R. Delmonte. 2003. The syntactic-semantic Treebank of Italian. An Overview. Linguistica Computazionale, Computational Linguistics in Pisa, special Issue, XVI-XVII:461–493. Pustejovsky, J. 1995. The Generative Lexicon. MIT Press, Cambridge, MA, USA. 77 Tommaso Caselli Ruimy, N., M. Monachini, E. Gola, A. Spanu, N. Calzolari, M.C. Del Fiorentino, M. Ulivieri, and S. Rossi. 2003. A computational semantic lexicon of Italian: SIMPLE. Linguistica Computazionale, Computational Linguistics in Pisa, special Issue, XVI-XVII:821–864. Sidner, C.L. 1979. Towards a computational theory of definite anaphora comprehension in English discourse. Ph.D. thesis, MIT. Strand, K. 1997. A taxonomy of Linking Relations. Manuscript. Vieira, R. and M. Poesio. 2000. An Empirically-Based System for Processing FDNPs. Computational Linguistics, 26(4):539–593. 78 Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 79-86 recibido 14-01-09, aceptado 02-03-09 Una Representación Basada en Lógica Borrosa para el Clustering de páginas web con Mapas Auto-Organizativos A fuzzy logic-based representation for web page clustering using self-organizing maps Alberto P. Garcı́a-Plaza, Vı́ctor Fresno, Raquel Martı́nez NLP & IR Group Universidad Nacional de Educación a Distancia C/Juan del Rosal, 16, E-28040 Madrid {alpgarcia, vfresno, raquel}@lsi.uned.es Resumen: En este trabajo se evalúa un modelo de representación de páginas web para clustering de documentos por medio de mapas autoorganizativos (SOM). Esta representación pretende reproducir o modelar en una primera aproximación la forma en que una persona observa una página web con la intención de saber si su contenido es o no de su interés. Para ello se aplican diferentes heurı́sticas por medio de una combinación borrosa de criterios. Los experimentos muestran un mejor comportamiento del modelo propuesto respecto a representaciones clásicas como TF, Bin-IDF y TF-IDF, para diferentes dimensiones del vector de representación, y sobre una colección de referencia. Palabras clave: Clustering, Mapas autoorganizativos, Lógica borrosa, MAO, SOM Abstract: This article evaluates a web page-oriented representation model for document clustering, using self-organizing maps. The representation is based on heuristic combinations of criteria by means of a fuzzy rules system. The experiments show an improvement in the proposed model behaviour versus traditional representations as TF, Bin-IDF and TF-IDF, with different vector dimensions, and using a reference collection. Keywords: Clustering, Self-organizing maps, Fuzzy, SOM 1. Introducción 2002). A medida que aumenta el número de páginas web en Internet, crece la necesidad de dotar de cierta organización los contenidos disponibles. Ası́, agrupar documentos con contenidos similares puede ser muy útil, no sólo para facilitar el acceso a la información, sino también para clasificar o representar dicha información, permitiendo su visualización, e incluso la navegación a través de ella. Entre los diferentes algoritmos de clustering que han sido aplicados a este problema, en este trabajo nos centramos en los mapas autoorganizativos (Self-Organizing Map, SOM) (Kohonen, 1990), ya que han demostrado ser una buena forma no sólo de organizar la información, sino también de visualizarla, e incluso de realizar búsquedas orientadas a contenido en grandes colecciones documentales (Vesanto y Alhoniemi, 2000), (Russell, Yin, y Allinson, 2002), (Dittenbach, Merkl, y Rauber, 2000), (Perelomov et al., ISSN 1135-5948 El sistema WEBSOM, desarrollado por el grupo de Teuvo Kohonen en la Helsinki University of Technology (Kohonen et al., 2000) fue el primero en utilizar un SOM para organizar, visualizar y navegar a través de una gran colección de documentos, en concreto resúmenes de patentes, aunque este sistema también ha sido aplicado a otros tipos de documentos con contenido textual como news o resúmenes de artı́culos cientı́ficos (Lagus, 1998). El presente trabajo se apoya en la hipótesis de que una mejora en la representación de los documentos supondrá un aumento de la calidad de estos mapas. Se propone la aplicación de un modelo de representación de páginas web que aprovecha caracterı́sticas propias de los documentos HTML para tratar de mejorar la calidad de los mapas en problemas de clasificación automática. Nuestra representación combina, mediante lógica © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural Alberto P. García-Plaza, Víctor Fresno, Raquel Martínez dificarse. Las neuronas están conectadas con sus vecinas mediante una relación de vecindario que impone la propia estructura del SOM. El tamaño del vecindario disminuirá a lo largo del entrenamiento; esa es la clave de la autoorganización. La función de actualización de pesos del mapa tiene la forma: borrosa, criterios heurı́sticos que aprovechan la semántica inherente a algunas etiquetas HTML, ası́ como a la posición del término dentro del texto. La idea fundamental es tratar de reproducir la manera en que una persona lee las partes que considera más representativas de una página web para obtener una visión general de su contenido y ası́ poder concluir si esa página puede o no interesarle. Existen varias diferencias entre nuestro enfoque y el presentado en WEBSOM. En primer lugar nuestra representación está orientada a páginas web. Además, asumimos que todo el proceso de representación de documentos será no supervisado; algo que no siempre se asume en los modelos que utilizan SOMs para el agrupamiento de documentos. Este artı́culo se estructura como sigue: en el apartado 2 se resumirá de forma básica el proceso de creación de un SOM; en el apartado 3 se revisan algunos modelos de representación de documentos aplicados al SOM; en el 4 se describe el modelo propuesto, basado en lógica borrosa; en el 5 se explica la experimentación llevada a cabo para, posteriormente, analizar los resultados en el apartado 6. Finalmente se exponen las conclusiones en el apartado 7. 2. mi (t + 1) = mi (t) + hci (t) [x(t) − mi (t)] (1) donde t es el instante de tiempo discreto correspondiente a una iteración del algoritmo, x(t) es el vector de entrada en la iteración t y hci es la región de influencia que el vector de entrada tiene sobre el SOM, también llamado núcleo de vecindad. Esta función es la que define la “rigidez” de la “red élástica” del SOM en el espacio de los datos((Kohonen et al., 1996)). La función que define el núcleo de vecindad hci puele ser de tipo gaussiano (2), como en nuestro caso, y se expresa como: ||rc − ri ||2 hci = α(t) · exp − 2σ 2 (t) ! (2) lo que hará que la modificación de valores disminuya con la distancia en el vecindario, siendo σ(t) la función que define este radio de vecindario, que se va reduciendo después de cada iteración t. En los mapas bidimensionales las neuronas pueden ordenarse en un retı́culo rectangular o hexagonal, con lo que cada neurona tendrá 6 u 8 vecinos respectivamente. En nuestro caso se utilizó un mapa rectangular. La modificación de pesos depende también de la distancia entre una neurona ni y la ganadora nc (siendo rc y ri las posiciones de las neuronas en el grid) y tiende a cero según aumenta ésta. La tasa de aprendizaje α(t) es una función monótona decreciente respecto al tiempo t en el rango [0,1] (0 < α(t) < 1). En otras palabras, tiende a cero a medida que se van procesando los vectores del conjunto de entrenamiento. De este modo, una vez entrenado el mapa, después de un número fijo de iteraciones o cuando se cumpla la condición de parada establecida, ya se pueden introducir vectores clasificados manualmente que permiten etiquetar las zonas del mapa correspondientes. Por tanto, y a modo de resumen, los tres pasos fundamentales en la creación de un SOM son: inicialización, entrenamiento y calibración. Una vez etiquetado, un SOM Mapas autoorganizativos Los mapas autoorganizativos de Kohonen son estructuras neuronales que utilizan aprendizaje competitivo para tratar de generar una relación espacial-topológica entre los vectores que caracterizan sus neuronas, a partir de un entrenamiento y en función de los vectores de entrada. En este tipo de aprendizaje las neuronas compiten entre si, activándose sólo una de ellas ante la presencia de un patrón o estı́mulo de entrada. El objetivo es, a partir de un proceso iterativo de comparación con la colección de datos de entrada, agrupar estos datos en base a su similitud. Para ello se presentan al mapa vectores de entrada de igual dimensión que la de sus vectores caracterı́sticos. Para la creación de un SOM lo primero que ha de hacerse es inicializar la red, definiendo el número de neuronas y su topologı́a, e inicializando el vector de pesos de cada neurona, algo que puede realizarse simplemente de forma aleatoria. La neurona ganadora establecerá el conjunto de neuronas cuyos vectores deben mo80 Una Representación Basada en Lógica Borrosa para el Clustering de páginas web con Mapas Auto-Organizativos la representación, sino que va más allá al proponer un nuevo modelo, lo que se aleja de nuestra propuesta, que ataca el problema desde el punto de vista de la representación de los documentos y no pretende modificar el algoritmo utilizado para agruparlos. puede usarse como un clasificador que asigna a cada vector de entrada la categorı́a con la que se haya etiquetado la neurona que se active en cada caso. 3. Representación de documentos En la literatura pueden encontrarse diversas propuestas para la representación de documentos en sistemas basados en SOMs, destinados al clustering, la clasificación o la visualización de grandes colecciones. Algunas de estas propuestas serán analizadas a lo largo de este apartado. Además, se describirá la representación que proponemos y que queremos evaluar. 3.1. 3.2. Fuzzy Combination of Criteria (FCC) La lógica borrosa se basa principalmente en la aplicación de heurı́sticas con el objeto de resolver la ambigüedad inherente a procesos de razonamiento cualitativo, permitiendo establecer cierta relación entre los factores observados. Profundizando un poco más, podemos decir que mediante la lógica borrosa se tratan de modelar relaciones entre variables que, en nuestro caso, se definirán a partir de las frecuencias de aparición de los términos en determinados elementos HTML. Esto la convierte en un entorno adecuado para capturar el conocimiento experto humano. La pieza básica sobre la que se construye todo sistema borroso es la llamada variable lingüı́stica, cuyo valor puede venir dado por palabras del lenguaje natural y se define por medio de conjuntos borrosos (Zadeh, 1965), cuyos lı́mites son imprecisos. Con estos conjuntos se permite describir el grado de pertenencia de un objeto a una determinada clase y se definen a partir de conocimiento experto. La arquitectura básica de un sistema de inferencia borroso se compone de tres etapas de procesamiento: borrosificación de entradas, aplicación de las reglas de inferencia que constituyen la base de conocimiento del sistema, y desborrosificación, que permite obtener el valor final. La base de conocimiento se define mediante un conjunto de reglas IF-THEN que describirán, a partir del conocimiento experto, el comportamiento que deberı́a tener el sistema con la máxima precisión posible; es decir, reflejan, junto con la propia definición de las variables lingüisticas y los conjuntos borrosos, el conocimiento heurı́stico que se tiene sobre el problema. La finalidad de estas reglas es la combinación de uno o varios conjuntos borrosos de entrada, llamados antecedentes, asociándolos a un conjunto borroso de salida, llamado consecuente. Una vez obtenidos los consecuentes de cada regla, y tras una etapa de agregación, se obtiene un conjunto agregado final, que será la entrada para la etapa de desborrosificación, donde Trabajos relacionados En el sistema WEBSOM, la representación de los documentos se realiza dentro del modelo de espacio vectorial (Salton, Wong, y Yang, 1975). De este modo, la entrada es un conjunto de vectores de representación de documentos donde cada dimensión representa el peso de un término en el contenido del mismo. Este peso se puede calcular, bien de forma sencilla en base al número de ocurrencias del término en el documento, por ejemplo usando la frecuencia inversa de documento, o bien, si existe información sobre las categorı́as de los documentos, utilizando la entropı́a de Shannon sobre el conjunto de clases de documentos, para lo que se utiliza la información de clasificación. Además, las distintas aproximaciones al problema se han basado en documentos textuales, mientras la que aquı́ se presenta está orientada especificamente a páginas web en formato HTML, aunque serı́a fácilmente aplicable a documentos XML con vocabularios con semántica relacionada con la documentación electrónica, como es el caso de docbook. En (Bakus, Hussin, y Kamel, 2002) la representación utilizada se basa en sintagmas en lugar de palabras para formar los vectores de representación, utilizando dichos sintagmas como unidades de entrada para las funciones de pesado tradicionales: Binaria, TF y TF-IDF. Por otro lado, el modelo ConSOM (Liu, Wang, y Wu, 2008) usa dos vectores en lugar de uno para representar tanto los documentos de entrada, como las neuronas del mapa, con el objetivo de combinar el espacio vectorial con lo que denominan espacio conceptual. Esto supone una modificación en el SOM, por lo que no sólo afecta a 81 Alberto P. García-Plaza, Víctor Fresno, Raquel Martínez se hace corresponder el conjunto borroso de salida con un punto concreto, llamado salida nı́tida o “crisp”. En nuestra propuesta para la representación de documentos asumimos que no usaremos ningún tipo de información de clasificación previa que pudiera existir. Esta información sólo se utilizará para la evaluación de los resultados, ya que como veremos más adelante, para llevar a cabo la comparación entre las distintas representaciones, fijaremos el tamaño del mapa en función del número de clústers que queremos obtener y que se corresponderá con el número de clases a las que pertenecen los documentos de entrada. Las variables lingüı́sticas que usaremos como entrada del sistema serán la frecuencia del término en el documento, en el tı́tulo (contenido en el elemento title), en los enfatizados (contenidos en los elementos em, h1, b, etc.) y la posición global del término dentro de la página. Las frecuencias son normalizadas con el mayor valor encontrado para cada criterio, con el objetivo de independizar las reglas del tamaño del documento y del tamaño de los textos presentes en cada criterio. La posición global se calcula mediante un sistema borroso auxiliar, que tomando como entrada las posiciones en las que aparece el término dentro del documento, devuelve la posición global por medio de dos conjuntos borrosos: estándar y preferente. Las figuras 1 y 2 muestran los conjuntos borrosos empleados. Figura 2: Sistema borroso auxiliar para el cálculo del valor global de la posición Una palabra que aparece en el tı́tulo puede que no siempre sea relevante (el tı́tulo podrı́a haber sido generado, por ejemplo, por un editor de HTML), o bien podrı́a tener una componente retórica. Generalmente, la posición es un criterio que da más peso en páginas largas que en cortas. Una palabra con alta frecuencia de aparición en una página podrı́a tener un significado muy general, y por lo tanto, no discriminante. Figura 3: Conjuntos borrosos para definir la relevancia del término Los conjuntos completos de reglas tanto del sistema borroso auxiliar como del global se muestran en los cuadros 1 y 2 Figura 1: Reglas basadas en frecuencia de aparición IF IF IF La salida del sistema borroso es una única variable lingüı́stica denominada relevancia, cuyos valores pueden ser: no relevante, poco relevante, medianamente relevante, bastante relevante y muy relevante. Los conjuntos borrosos definidos para esta variable pueden verse en la figura 3. Las reglas utilizadas se han basado en los siguientes aspectos: posición relativa introducción cuerpo conclusión THEN THEN THEN posición global preferente estándar preferente Cuadro 1: Conjunto de reglas del sistema borroso auxiliar Por último, el motor de inferencia está basado en el algoritmo de centro de masas, que evalúa la salida de cada regla en función del grado de verdad de cada antecedente.Una explicación detallada del sistema borroso puede encontrarse en (Fresno, 2006). Una página web puede no tener palabras enfatizadas. 82 Una Representación Basada en Lógica Borrosa para el Clustering de páginas web con Mapas Auto-Organizativos Tı́tulo IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF IF Alto Alto Alto Alto Alto Alto Bajo Bajo Bajo Alto Alto Alto Alto Alto Alto Bajo Bajo Bajo Bajo Bajo Bajo Bajo Bajo Bajo Bajo Bajo Bajo Bajo Bajo Alto Alto Frecuencia AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND Alta Media Media Alta Baja Baja Baja Alta Alta Baja Baja Baja Baja Alta Alta Baja Baja Baja Baja Media Media Media Media Media Media Alta Alta Alta Alta Media Media Enfatizado AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND Alto Alto Medio Medio Bajo Bajo Bajo Alto Alto Medio Medio Alto Alto Bajo Bajo Medio Medio Alto Alto Bajo Bajo Medio Medio Alto Alto Bajo Bajo Medio Medio Bajo Bajo Posición AND AND Preferente Estándar AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND AND Preferente Estándar Preferente Estándar Preferente Estándar Preferente Estándar Preferente Estándar Preferente Estándar Preferente Estándar Preferente Estándar Preferente Estándar Preferente Estándar Preferente Estándar Preferente Estándar Relevancia THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN THEN Muy Alta Muy Alta Alta Muy Alta Media Poca Nada Muy Alta Alta Alta Media Muy Alta Alta Muy Alta Alta Media Poca Alta Media Poca Nada Media Poca Muy Alta Alta Media Poca Alta Media Media Poca Cuadro 2: Conjunto de reglas del sistema borroso global 4. Experimentación Antes de extraer la información necesaria para la entrada del sistema borroso, se eliminaron un conjunto de términos de una lista de stopwords compuesta por 621 términos en inglés, se convirtieron las entidades particulares del lenguaje HTML, se eliminaron los signos de puntuación y se utilizó el algoritmo de Porter para hacer stemming de las palabras. Los pasos seguidos para realizar la experimentación se describen a continuación. 4.1. Colección Para la experimentación se ha utilizado la colección Banksearch (Sinka y Corne, 2005), en concreto un subconjunto de 10 clases etiquetadas como: Commercial banks, Building societies, Insurance agencies, Java, C/C++, Visual Basic, Astronomy, Biology, Soccer y Motor sport. Cada una de estas clases consta de 1000 páginas web en formato HTML, haciendo un total de 10000 documentos. De estos, algunos fueron descartados por problemas con el parser HTML utilizado, ya que algunos documentos no estaban bien formados o, incluso, la página estaba incompleta por problemas en su descarga durante la creación de la colección. Finalmente, tras los descartes, 9897 documentos fueron usados en los experimentos. 4.2. Detalles del SOM El tamaño del SOM utilizado en la experimentación es 5x2, haciendo un total de 10 neuronas, con el objetivo de que exista una única neurona por cada clase. Este hecho supone un pequeño grado de supervisión, pero ésta no se aplica a la fase de representación, sino al proceso posterior de clustering, ya que fijamos el k. Los vectores de entrada fueron reducidos a varios tamaños entre 100 y 5000 con la intención de evaluar el comportamiento de las diferentes representaciones 83 Alberto P. García-Plaza, Víctor Fresno, Raquel Martínez en un rango de dimensiones. De este modo podremos ver si el comportamiento empeora al representar con un número reducido de rasgos y, además, averiguar con que dimensiones podemos encontrar un equilibrio entre la calidad de la representación y el coste computacional. Este aspecto adquiere gran importancia en tareas como el clustering que generalmente conllevan un alto coste computacional. Durante el entrenamiento del mapa, la tasa de aprendizaje inicial se fijo en 0,1, el vecindario inicial en 5 y el número de iteraciones en 50000. Todos estos datos se eligieron después de la realización de diversas pruebas, por ser aquellos con los que se obtuvieron unos resultados de clustering y calidad del mapa más satisfactorios. El resto de información acerca del mapa coincide con la utilizada en la implementación SOMlib (Dittenbach, Merkl, y Rauber, 2000), distribuı́do como proyecto de software libre1 . Dicha librerı́a, escrita en lenguaje Java, ha sido la utilizada para la creación del SOM. 4.3. documento o en la colección, por lo que no tiene sentido reducir usando únicamente la frecuencia de documentos. Dado que la representación pondera cada término y le asigna un valor que indica su relevancia, eliminar los términos menos relevantes consistirı́a sólo en eliminar aquellos con las puntuaciones de pesado más bajas, o bien quedarnos con los que tengan las puntuaciones más altas. Por otra parte, queremos que, de alguna forma, cada documento se vea reflejado en el vocabulario final y valorar positivamente que un término aparezca bien puntuado en diferentes documentos. Por todo lo anterior, la reducción que se presenta en este estudio, llamada M F Tn (More Frequent Terms) consiste en la extracción de los términos más puntuados por niveles, es decir, por cada documento se hace un ranking de sus términos más representativos, es decir, los que tienen mayor peso dentro del documento, y se van tomando secuencialmente los términos que aparecen en primera posición, después en segunda, etc. hasta que se cubren las dimensiones requeridas. A medida que se extraen los términos de un nivel, se ordenan en una lista global por frecuencia, esto es, se colocan primero aquellos que han aparecido en un mayor número de documentos. Entre aquellos que resultan empatados tras la primera ordenación, se utiliza la relevancia para determinar su posición. Al final de cada nivel se comprueba si se tienen suficientes términos para el tamaño de vocabulario solicitado y si es ası́, se toman, ordenadamente, los términos necesarios de la lista global. Reducción del número de rasgos Para la comparación usamos tres funciones de pesado de términos diferentes: TF, Bin-IDF y TF-IDF. Cada vector debe contener una entrada por cada término del vocabulario, es decir, por cada término que aparezca en la colección, lo que da lugar a vectores con gran número de dimensiones. Esto supone un problema en lo que a rendimiento se refiere. Para paliarlo, se utilizan distintos tipos de reducciones que permiten utilizar un número menor de dimensiones sin perder la información esencial. En todos los casos se probaron tanto la reducción por frecuencia de documentos, como la proyección aleatoria (Kaski, 1998) con cinco unos distribuı́dos aleatoriamente en cada columna de la matriz de proyección. Esta reducción tiene la ventaja de reducir el coste computacional. En este último caso se ha añadido al preproceso descrito en el apartado 4.1, la eliminación de los términos que aparecı́an en la colección con una frecuencia global de menos de 50, tal como se indica en Kohonen et al. (2000). En nuestro caso, la relevancia de un término no depende únicamente de la frecuencia de aparición del término en un 1 Además de esta reducción, se han realizado experimentos con otras basadas sólo en el valor de la relevancia, tomándolo por niveles o de forma global, combinando otros métodos como la reducción por frecuencia de documentos o la proyección aleatoria. No obstante los mejores resultados fueron obtenidos utilizando la reducción M F Tn y ası́, por claridad y brevedad, los resultados obtenidos con el resto de reducciones han quedado fuera de este artı́culo. Finalmente, para validar la función de pesado FCC, hemos aplicado también la reducción M F Tn a TF, Bin-IDF y TF-IDF, con el objetivo de verificar que la mejora no venga dada únicamente por la reducción. http://www.ifs.tuwien.ac.at/ andi/somlib/ 84 Una Representación Basada en Lógica Borrosa para el Clustering de páginas web con Mapas Auto-Organizativos 4.4. Métodos de evaluación 5. En las figuras 4 y 5 se muestran los resultados para la tasa de aciertos y la medida F obtenidos en los diferentes casos. Cabe destacar que cada uno de los resultados presentados en ellas corresponde a la media de cinco ejecuciones diferentes con los mismos parámetros. El motivo para ello es la inicialización aleatoria del mapa, que provocará que cada ejecución del proceso concluya con resultados diferentes, y aunque por la convergencia del mapa serán bastante similares, se han querido evitar los valores demasiado buenos o demasiado malos. Se puede apreciar cómo FCC supera a las funciones tradicionales que, a medida que aumenta el número de rasgos, se aproximan a los resultados de nuestra propuesta a la vez que sus resultados se estabilizan. Además, si se selecciona un número excesivo de rasgos (a partir de 1000 aproximadamente en las figuras 4 y 5), se introducirán sucesivamente términos poco relevantes, pudiendo introducir ruido y afectando a los resultados. Para evaluar el clustering, una vez entrenado el SOM, se mapea toda la colección sobre él, de forma que cada documento quedará asociado a la neurona del mapa a la que más se asemeje. Después se etiqueta cada neurona eligiendo para ello la clase predominante en función de los vectores que activaron dicha neurona, es decir, se utiliza como etiqueta la clase a la que pertenecen el mayor porcentaje de documentos mapeados en la neurona. Todos los documentos que hayan activado esa neurona durante el proceso de mapeo y no pertenezcan a la clase que etiqueta dicha neurona, son contados como errores. Utilizaremos dos medidas para evaluar los resultados. La primera es la tasa de aciertos (accuracy), es decir, el porcentaje de documentos que activan una neurona etiquetada con su misma clase. Esta medida y la forma de llevarla a cabo ha sido basada en Kohonen et al. (2000): “[...] each document was mapped onto one of the grid points of each map, and all documents that represented a minority class at any grid point were counted as classification errors.” El segundo método elegido es la medida F, véase la fórmula 3, siendo i la clase y j el cluster. El recall y la precisión vienen dados por las fórmulas 4 y 5. F (i, j) = Análisis de resultados 2 · Recall(i, j) · P recision(i, j) Recall(i, j) + P recision(i, j) (3) Recall(i, j) = nij nj P recision(i, j) = nij ni (4) Figura 4: Tasa de aciertos para diferentes dimensiones de los vectores de documentos (5) En ambos casos con un número de rasgos pequeño, en concreto por debajo de 2000, la representación propuesta obtiene los mejores resultados tanto en tasa de aciertos como en calidad del clustering, o al menos resultados tan buenos como cuando se utilizan 2000 o más rasgos por documento. Asimismo, las funciones basadas en la frecuencia (TF y TFIDF) se muestran mucho más estables con la reducción M F Tn , es decir, que con dimensiones reducidas sus resultados no disminuyen drásticamente, situándose al nivel de FCC con el mı́nimo número de rasgos elegido, Siendo nij es el número de documentos etiquetados con la clase i en el cluster j, ni el número de documentos etiquetados con la clase i, nj el número de documentos en el cluster j y n el número total de documentos. Para todos los clusters, la medida F se calcula según la fórmula 6. Un mayor valor de esta medida indica una mayor calidad del clustering. F = X ni i n · máx{F (i, j)} j (6) 85 Alberto P. García-Plaza, Víctor Fresno, Raquel Martínez phrases. En ICONIP ’02. Dittenbach, Michael, Dieter Merkl, y Andreas Rauber. 2000. The growing hierarchical self-organizing map. IJCNN. Fresno, Victor. 2006. Representacion autocontenida de documentos HTML: una propuesta basada en combinaciones heuristicas de criterios. Ph.D. tesis. Kaski, S. 1998. Dimensionality reduction by random mapping: fast similarity computation for clustering. En Neural Networks Proceedings, 1998. Kohonen, T. 1990. The self-organizing map. Proceedings of the IEEE, 78(9):1464–1480. Figura 5: Medida F para diferentes dimensiones de los vectores de documentos Kohonen, T., J. Hynninen, J. Kangas, y J. Laaksonen. 1996. Som pak: The selforganizing map program package. aunque posteriormente su mejora es menor que la obtenida por FCC. En resumen, la representación propuesta funciona mejor que las clásicas y con pocos rasgos está más cerca de sus propios máximos. 6. Kohonen, T., S. Kaski, K. Lagus, J. Salojarvi, J. Honkela, V. Paatero, y A. Saarela. 2000. Self organization of a massive document collection. Neural Networks, IEEE Transactions on. Conclusiones Lagus, Krista. 1998. Generalizability of the websom method to document collections of various types. A lo largo del presente trabajo se ha descrito un método de representación basado en lógica borrosa, de forma que se trata de recoger parte de la semántica implı́cita en el lenguaje HTML, con el objetivo de realizar clustering de documentos basado en mapas autoorganizativos. Los experimentos realizados han demostrado que la representación propuesta mejora el agrupamiento por medio de SOM respecto a las representaciones clásicas basadas únicamente en la frecuencia de los términos. Cabe destacar que la representación basada en lógica borrosa mejora no sólo los valores máximos obtenidos por las representaciones clásicas, sino que con el mı́nimo número de rasgos probado, esto es 100 rasgos para representar cada documento, está prácticamente al nivel de los máximos de las clásicas. Esto permite la obtención de los mismos resultados con un vocabulario menor, lo que reduce notablemente el tamaño de los datos de entrada del SOM y de los vectores de pesos de sus neuronas, teniendo como principal efecto una reducción importante en el tiempo de computo necesario. Liu, Yuanchao, Xiaolong Wang, y Chong Wu. 2008. Consom: A conceptional selforganizing map model for text clustering. Neurocomput. Perelomov, Ivan, Arnulfo P. Azcarraga, Jonathan Tan, y Tat Seng Chua. 2002. Using structured self-organizing maps in news integration websites. Russell, Ben, Hujun Yin, y Nigel M. Allinson. 2002. Document clustering using the 1 + 1 dimensional self-organising map. En IDEAL ’02. Salton, G., A. Wong, y C. S. Yang. 1975. A vector space model for automatic indexing. Commun. ACM. Sinka, Mark P. y David W. Corne. 2005. The banksearch web document dataset: investigating unsupervised clustering and category similarity. J. Netw. Comput. Appl. Vesanto, J. y E. Alhoniemi. 2000. Clustering of the self-organizing map. IEEE-NN, 11(3):586, May. Bibliografı́a Zadeh, L. A. 1965. Fuzzy sets. Information and control. Bakus, J., M.F. Hussin, y M. Kamel. 2002. A som-based document clustering using 86 Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 87-96 recibido 15-01-09, aceptado 02-03-09 Global joint models for coreference resolution and named entity classification Modelos juntos globales para la resolución de la correferencia y de la clasificación de las entidades nombradas Pascal Denis Alpage Project-Team INRIA and Université Paris 7 30, rue Château des Rentiers 75013 Paris, FRANCE [email protected] Jason Baldridge Department of Linguistics University of Texas at Austin 1 University Station B5100 Austin, TX 78712-0198 USA [email protected] Resumen: En este artı́culo, combinamos modelos de correferencia, anaforicidad y clasificación de las entidades nombradas, como un problema de inferencia junta global utilizando la Programación Lineal Entera (ilp). Nuestras restricciones garantizan: (i) la coherencia entre las decisiones finales de los tres modelos locales, y (ii) la transitividad de las decisiones de correferencia. Este enfoque proporciona mejoras significativas en el f -score sobre los corpora ace con las tres métricas de evaluación principales para la correferencia: muc, b3 , y ceaf. A través de ejemplos, modelos de oráculo y nuestros resultados, se muestra también que es fundamental utilizar estas tres métricas y, en particular, que no se puede confiar únicamente en la métrica muc. Palabras clave: Resolución de la correferencia, entidades nombradas, aprendizaje automático, Programación Lineal Entera (ILP) Abstract: In this paper, we combine models for coreference, anaphoricity and named entity classification as a joint, global inference problem using Integer Linear Programming (ilp). Our constraints ensure: (i) coherence between the final decisions of the three local models, and (ii) transitivity of multiple coreference decisions. This approach provides significant f -score improvements on the ace datasets for all three main coreference metrics: muc, b3 , and ceaf. Through examples, oracle models, and our results, we also show that it is fundamental to use all three of these metrics, and in particular, to never rely solely on the muc metric. Keywords: Coreference Resolution, Named Entities, Machine Learning, Integer Linear Programming (ILP) 1 Introduction Coreference resolution involves imposing a partition on a set of mentions in a text; each partition corresponds to some entity in a discourse model. Early machine learning approaches for the task which rely on local, discriminative pairwise classifiers (Soon, Ng, and Lim, 2001; Ng and Cardie, 2002b; Morton, 2000; Kehler et al., 2004) made considerable progress in creating robust coreference systems, but their performance still left much room for improvement. This stems from two main deficiencies: • Decision locality. Decisions are made independently of others; a separate clustering step forms chains from pairwise ISSN 1135-5948 classifications. But, coreference clearly should be conditioned on properties of an entity as a whole. • Knowledge bottlenecks. Coreference involves many different factors, e.g., morphosyntax, discourse structure and reasoning. Yet most systems rely on small sets of shallow features. Accurately predicting such information and using it to constrain coreference is difficult, so its potential benefits often go unrealized due to error propagation. More recent work has sought to address these limitations. For example, to address decision locality, McCallum and Wellner (2004) use conditional random fields with © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural Pascal Denis, Jason Baldridge model structures in which pairwise decisions influence others. Denis (2007) and Klenner (2007) use integer linear programming (ilp) to perform global inference via transitivity constraints between different coreference decisions.1 Haghighi and Klein (2007) provide a fully generative model that combines global properties of entities across documents with local attentional states. Denis and Baldridge (2008) use a ranker to compare antecedents for an anaphor simultaneously rather than in the standard pairwise manner. To address the knowledge bottleneck problem, Denis and Baldridge (2007) use ilp for joint inference using a pairwise coreference model and a model for determining the anaphoricity of mentions. Also, Denis and Baldridge (2008) and Bengston and Roth (2008) use models and features, respectively, that attend to particular types of mentions (e.g., full noun phrases versus pronouns). Furthermore, Bengston and Roth (2008) use a wider range of features than are normally considered, and in particular use predicted features for later classifiers, to considerably boost performance. In this paper, we use ilp to extend the joint formulation of Denis and Baldridge (2007) using named entity classification and combine it with the transitivity constraints (Denis, 2007; Klenner, 2007). Intuitively, we only should identify antecedents for the mentions which are likely to have one (Ng and Cardie, 2002a), and we should only make a set of mentions coreferent if they are all instances of the same entity type (eg, person or location). ilp enables such constraints to be declared between the outputs of independent classifiers to ensure coherent assignments are made. It also leads to global inference via both constraints on named entity types and transitivity constraints since both relate multiple pairwise decisions. We show that this strategy leads to improvements across the three main metrics proposed for coreference: the muc metric (Vilain et al., 1995), the b3 metric (Bagga and Baldwin, 1998), and ceaf metric (Luo, 2005). In addition, we contextualize the performance of our system with respect to cascades of multiple models and oracle systems that assume perfect information (e.g. about entity types). We furthermore demonstrate the inadequacy of using only the muc metric and argue that results should always be given for all three. We include a simple composite of the three metrics, called mela, for Mention, Entity, and Link Average score.2 2 Data and evaluation We use the ACE corpus (Phase 2) for training and testing. The corpus has three parts: npaper, nwire, and bnews, and each set is split into a train part and a devtest part. The corpus text was preprocessed with the OpenNLP Toolkit3 (i.e., a sentence detector, a tokenizer, and a POS tagger). In our experiments, we consider only true ACE mentions instead of detecting them; our focus is on evaluating pairwise local approaches versus the global ilp approach rather than on building a full coreference resolution system. Three primary metrics have been proposed for evaluating coreference performance: (i) the link based muc metric (Vilain et al., 1995), (ii) the mention based b3 metric (Bagga and Baldwin, 1998), and (iii) the entity based ceaf metric (Luo, 2005). All these metrics compare the set of chains S produced by a system against the true chains T , and report performance in terms of recall and precision. They however differ in how they computes these scores, and each embeds a different bias. The muc metric is the oldest and still most commonly used. muc operates by determining the number of links (i.e., pairs of mentions) that are common to S and T . Recall is the number of common links divided by the total number of links in the T ; precision is the number of common links divided by the total number of links in S. By focusing on the links, this metric has two main biases, which are now well-known (Bagga and Baldwin, 1998; Luo, 2005) but merit re-emphasis due its continued use as the sole evaluation measure. First, it favors systems that create large chains (hence, fewer entities). For instance, a system that produces a single chain achieves 100% recall without severe degradation in precision. Second, it ignores recall for single mention entities, since no link can be found in these; however, putting such mentions in the wrong chain does hurt precision.4 2 Interestingly, mela means “gathering” in Sanskrit, so this acronym seems appropriate. 3 Available from opennlp.sf.net. 4 It is worth noting that the muc corpus for which 1 These were independent, simultaneous developments. 88 Global joint models for coreference resolution and named entity classification T = {m1 , m3 , m5 }, {m2 }, {m4 , m6 , m7 } S 1 = {m1 , m2 , m3 , m6 }, {m4 , m5 , m7 } S 2 = {m1 , m2 , m3 , m4 , m5 , m6 , m7 } S1 S2 Figure 1: Two competiting partitionings for mention set {m1 , m2 , m3 , m4 , m5 , m6 , m7 }. muc R P F .50 .40 .44 1.0 .66 .79 R .62 1.0 b3 P .45 .39 F .52 .56 ceaf F .57 .43 Table 1: Recall (R), precision (P), and f score (F) using muc, b3 , and ceaf for partitionings of Figure 1 The b3 metric addresses the muc metric’s shortcomings, by computing recall and precision scores for each mention m. Let S be the system chain containing m, T be the true chain containing m. The set of correct elements in S is thus |S ∩ T |. The recall score | for a mention m is thus computed as |S∩T |T | , The bias of the muc metric for large chains is shown by the fact that it gives better recall and precision scores for S 2 even though this partition is completely uninformative. More intuitively, b3 highly penalizes the precision of this partition: precision errors are here computed for each mention. ceaf is the harshest on S 2 , and in fact is the only metric that prefers S 1 over S 2 . muc is known for being an applicable metric when one is only interested in precision on pairwise links (Bagga and Baldwin, 1998). Given that much recent work —including the present paper— seeks to move beyond simple pairwise coreference and produce good entities, it is crucial that they are scored on the other metrics as well as muc. Most tellingly, our results show that both b3 and ceaf scores can show degradation even when muc appears to show an improvement. | while the precision score for m is |S∩T |S| . Overall recall/precision is obtained by averaging over the individual mention scores. The fact that this metric is mention-based by definition solves the problem of single mention entities. It also does not favor larger chains, since they will be penalized in the precision score of each mention. The Constrained Entity Aligned FMeasure5 (ceaf) aligns each system chain S with at most one true chain T . It finds the best one-to-one mapping between the set of chains S and T , which is equivalent to finding the optimal alignment in a bipartite graph. The best mapping is that which maximizes the similarity over pairs of chains (Si , Ti ), where the similarity of two chains is the number of common mentions between them. For ceaf, recall is the total similarity divided by the number of mentions in all the T , while precision is the total similarity divided by the number of mentions in S. Note that when true mentions are used, ceaf assigns the same recall and precision: this is because the two systems partition the same set of mentions. A simple example illustrating how the metrics operate is presented in Figure 1 (see Luo (2005) for more examples). T is the set of true chains, S 1 and S 2 are the partitions produced by two hypothetical resolvers. Recall, precision, and f -score for these metrics are given in Table 1. 3 Base models Here we define the three base classifiers for pairwise coreference, anaphoricity, and named entity classification. They form the basis for several cascades and joint inference with ilp. Like Kehler et al. (2004) and Morton (2000), we estimate the parameters of all models using maximum entropy (Berger, Pietra, and Pietra, 1996); specifically, we use the limited memory variable metric algorithm (Malouf, 2002).6 Gaussian priors for the models were optimized on development data. 3.1 The coreference classifier Our coreference classifier is based on that of Soon, Ng, and Lim (2001), though the features have been extended and are similar (though not equivalent) to those used by Ng and Cardie (2002a). Features fall into 3 categories: (i) features of the anaphor, (ii) features of antecedent mention, and (iii) pairwise features (i.e., such as distance between the metric was devised does not annotate single mention entities. However, the ACE corpus does include such entities. 5 We use the mention-based ceaf measure (Luo, 2005). This is the same metric as ECM-F (Luo et al., 2004) used by Klenner (2007). 6 This algorithm is implemented in Toolkit for Advanced Discriminative Modeling (tadm.sf.net). 89 Pascal Denis, Jason Baldridge 3.2 the two mentions). We omit details here for brevity (details on the different feature sets can be found in Denis (2007)); the ilp approach could be equally well applied to models using other, extended feature sets such as those discussed in Denis and Baldridge (2008) and Bengston and Roth (2008). Using the coreference classifier on its own involves: (i) estimating PC (coref|hi, ji), the probability of having a coreferential outcome given a pair of mentions hi, ji, and (ii) applying a selection algorithm that picks one or more mentions out of the candidates for which PC (coref|hi, ji) surpasses a given threshold (here, .5). exp( PC (coref|hi, ji) = n P λk fk (hi, ji, coref)) k=1 Z(hi, ji) where fk (i, j) is the number of times feature k occurs for i and j, λk is the weight assigned to feature k during training, and Z(hi, ji) is a normalization factor over both outcomes (coref and ¬coref). Training instances are constructed based on pairs of mentions of the form hi, ji, where j and i describe an anaphor and an antecedent candidate, respectively. Each such pair is assigned a label, either coref or ¬coref, depending on whether or not the two mentions corefer. We followed the sampling method of Soon, Ng, and Lim (2001) for creating the training material for each anaphor: (i) a positive instance for the pair hi, ji where i is the closest antecedent for j, and (ii) a negative instance for each pair hi, ki where k intervenes between i and j. Once trained, the classifier can be used to choose pairwise coreference links–and thus determine the partition of entities–in two ways. The first is to pick a unique antecedent with closest-first link-clustering (Soon, Ng, and Lim, 2001); this is the standard strategy, referred to as COREFclosest . The second is to simply take all links with probability above .5, which we refer to as COREFabove .5 . The purpose of including this latter strategy is primarily to demonstrate an easy way to improve muc scores that actually degrades b3 and ceaf scores. This strategy indeed results in positing significantly larger chains, since each anaphor is allowed to link to several antecedents. The anaphoricity classifier Ng and Cardie (2002a) introduced the use of an anaphoricity classifier to act as a filter for coreference resolution to correct errors where non-anaphoric mentions are mistakenly resolved or where anaphoric mentions failed to be resolved. Their approach produces improvements in precision, but larger losses in recall. Ng (2004) improves recall by optimizing the anaphoricity threshold. By using joint inference for anaphoricity and coreference, Denis and Baldridge (2007) avoid cascade-induced errors without the need to separately optimize the threshold. They realize gains in both recall and precision; however, they report only muc scores. As we will show, these improvements do not hold for b3 and ceaf. The task for the anaphoricity determination component is the following: one wants to decide for each mention i in a document whether i is anaphoric or not. This task can be performed using a simple classifier with two outcomes: anaph and ¬anaph. The classifier estimates the conditional probabilities P (anaph|i) and predicts anaph for i when P (anaph|i) > .5. The anaphoricity model is as follows: exp( PA (anaph|i) = n P λk fk (i, anaph)) k=1 Z(i) The features used for the anaphoricity classifier are quite simple. They include information regarding (i) the mention itself, such as the number of words and whether it is a pronoun, and (ii) properties of the potential antecedent set, such as whether there is a previous mention with a matching string. This classifier achieves 80.8% on the entire ace corpus (bnews: 80.1, npaper: 82.2, nwire: 80.1). 3.3 The named entity classifier Named entity classification involves predicting one of the five ACE class labels. The set of named entity types T are: facility, gpe (geo-political entity), location, organization, person. The classifier estimates the conditional probabilities P (t|i) for each t∈T and predicts the named entity type b t for mention i such that b t = argmaxt∈T P (t|i). 90 Global joint models for coreference resolution and named entity classification exp( PE (t|i) = n P almost identical. Given the nature of the two strategies COREFclosest and COREFabove .5 , these differences across metrics strongly support arguments that muc is too indiscriminate and can in fact be gamed (knowingly or not) by simply creating larger chains. Table 2 also shows that cascades in general fail to produce significant F improvements over the pairwise model COREFclosest . These systems are far behind the performance of their corresponding oracles. This tendency is even stronger when both classifiers filter possible assignments: CASCADEa,e→c does much worse than COREFclosest on all metrics. In fact, this system has the lowest F on the b3 evaluation metric, suggesting that the errors of the two filters accumulate in this case. In contrast, the corresponding oracle, ORACLEa,e,c , achieves the best results across all measures. It does so by capitalizing on the improvements given by the separate oracles. Furthermore, note that the use of the two auxiliary models have complementary effects on the muc and b3 metrics, in both the cascade and the oracle systems. Thus, the use of the anaphoricity classifier improves recall (suggesting that some true anaphors get “rescued” by this model), while the the use of the named entity model leads to precision improvements (suggesting that this model manages to filter out incorrect candidates that would have been chosen by the coreference model). In the case of the oracle systems, these gains translate in overall F improvements. But, as noted, this is generally not the case with the cascade systems. Only CASCADEa→c shows significant gains with muc and ceaf (and not with b3 ). CASCADEe→c underperforms in all three metrics. This latter system indeed shows a large drop in recall, suggesting that this model filter is overzealous in filtering true antecedents. The oracle results suggest that joint modeling could deliver large performance gains by not falling prey to cascade errors. In the next section, we build on previous ilp formulations and show such improvements can indeed be realized. λk fk (i, t)) k=1 Z(i) The features for this model include: (i) the string of the mention, (ii) features defined over the string (e.g., capitalization, punctuations, head word), (iii) features describing the word and POS context around the mention. The classifier achieves 79.5% on the entire ace corpus (bnews: 79.8, npaper: 73.0, nwire: 72.7). 4 Base model results This section describes coreference performance when the pairwise coreference classifier is used alone with closest-first clustering (COREFclosest ) or with the liberal all-linksabove-.5 clustering (COREFabove .5 ), or when COREFclosest is constrained by the anaphoricity and named entity classifiers as filters in a cascade or by gold-standard information as filters in oracle systems. The cascades are: • CASCADEa→c : the anaphoricity classifier specificies which mentions to resolve • CASCADEe→c : the named entity classifier specifies which antecedents have the same type as the mention to be resolved; others are excluded from consideration • CASCADEa,e→c : the two classifiers acting as combined filters We also provide results for the corresponding oracle systems which have perfect knowledge about anaphoricity and/or named entity types: ORACLEa,c , ORACLEe,c , and ORACLEa,e,c . Table 2 summarizes the results in terms of recall (R), precision (P), and f -score (F) on the three coreference metrics: muc, b3 , and ceaf. The first thing to note is the contrast between COREFclosest and COREFabove .5 . Recall that the only difference between the two clustering strategies is that the latter creates strictly larger entities than the former by adding all links above .5. By doing so, it gains about 10% in R for both muc and b3 . However, whereas muc does not register a drop in precision, b3 P is 14% lower, which produces an overall 1% drop in F. ceaf punishes this strategy even more, with a 3.6% drop. Note that the resulting composite mela scores are 5 Integer programming formulations ilp is an optimization framework for global inference over the outputs of various base classifiers (Roth and Yih, 2004). Previous uses of ilp for nlp tasks include eg. Roth 91 Pascal Denis, Jason Baldridge System COREFclosest COREFabove .5 CASCADEa→c CASCADEe→c CASCADEa,e→c ORACLEa,c ORACLEe,c ORACLEa,e,c R 60.8 70.3 64.9 56.3 61.3 75.6 62.5 83.2 b3 muc P F 72.6 66.2 72.7 71.5 72.3 68.4 75.2 64.4 68.8 64.8 75.6 75.6 81.3 70.7 83.2 83.2 R 62.4 73.2 65.6 59.6 62.5 71.4 62.9 79.0 P 77.7 63.7 74.1 82.4 73.8 70.7 85.5 78.2 F 69.2 68.1 69.6 69.2 67.7 71.1 72.4 78.6 ceaf R/P/F 62.3 58.7 63.4 61.6 61.9 71.5 65.2 78.7 mela F-avg 65.9 66.1 67.1 65.1 64.8 72.7 69.4 80.2 Table 2: Recall (R), precision (P), and f -score (F) using muc, b3 , and ceaf on the entire ace corpus for the basic coreference system, the cascade systems, and the corresponding oracle systems. and Yih (2004), Barzilay and Lapata (2006), and Clarke and Lapata (2006). Here, we provide several ilp formulations for coreference. The first formulation ILPc,a is based on Denis and Baldridge (2007) and performs joint inference over the coreference classifier and the anaphoricity classifier. A second formulation ILPc,e combines the coreference classifier with the named entity classifier. A third formulation ILPc,a,e combines all three models together. In each of these joint formulation, a set of consistency constraints mutually constrain the ultimate assignments of each model. Finally, a fourth formulation ILPc,a,e|trans adds to ILPc,a,e a set of transitivity constraints (similar to those of Klenner (2007)). These latter constraints ensure better global coherence between the various pairwise coreference decisions, hence making this fourth formulation both a joint and a global model. For solving the ilp problem, we use cplex, a commercial lp solver.7 In practice, each document is processed to define a distinct ilp problem that is then submitted to the solver. 5.1 Each model introduces a set of indicator variables: (i) coreference variables hi, ji ∈ 0, 1 depending on whether i and j corefer or not, and (ii) anaphoricity variables xhi,ji ∈ 0, 1 depending on whether j is anaphoric or not. These variables are associated with assignment costs that are derived from the model probabilities pC = PC (coref|i, j) and pA = PA (anaph|j), respectively. The cost of commiting to a coreference link is cC hi,ji = −log(pC ) and the complement cost of choosing not to establish a link is cC hi,ji = −log(1−pC ). Analogously, we define costs on anaphoricity decisions as cA j = −log(pA ) and A cj = −log(1−pA ), the costs associated with making j anaphoric or not, respectively. The resulting objective function takes the following form: X C min cC hi,ji · xhi,ji + chi,ji · (1−xhi,ji ) hi,ji∈P + A cA j · yj + cj · (1−yj ) j∈M subject to: ILPc,a : anaphoricity-coreference formulation xhi,ji ∈ {0, 1} ∀hi, ji ∈ P yj ∈ {0, 1} ∀j ∈ M The final assignments of xhi,ji and yj variables are forced to respect the following two consistency constraints (where Mj is the set of all mentions preceding mention j in the document): Resolve all anaphors: if a mention is anaphoric (yj =1), it must have at least one antecedent. X yj ≤ xhi,ji ∀j ∈ M The ILPc,a system of Denis and Baldridge (2007) brings the two decisions of coreference and anaphoricity together by including both in a single objective function and enforcing consistency constraints on the final outputs of both tasks. More technically, let first M denotes the set of mentions, and P the set of possible coreference links over M: P = {hi, ji|hi, ji ∈ M × M and i < j}. 7 X i∈Mj http://www.ilog.com/products/cplex/ 92 Global joint models for coreference resolution and named entity classification Resolve only anaphors: if a pair of mentions hi, ji is coreferent (xhi,ji =1), then j is anaphoric (yj =1). xhi,ji ≤ yj These constraints above make sure that the coreference decisions (the x values) are informed by the named entity classifier and vice versa. Furthermore, because these constraints ensure like assignments to coreferent pairs of mentions, they have a “propagating” effect that makes the overall system global. Coreference assignments that have low cost (i.e., high confidence) can influence named entity assignments (e.g., from a org to a per). This in turn influences other coreference assignments involving further mentions radiating out from one core, highly likely assignment. ∀hi, ji ∈ P These constraints make sure that the anaphoricity classifier are not taken on faith as they were with CASCADEa→c . Instead, we optimize over consideration of both possibilities in the objective function (relative to the probability output by the classifier) while ensuring that the final assignments respect the signifance of what it is to be anaphoric or non-anaphoric. 5.3 5.2 ILPc,e : entity-coreference coreference formulation formulation In this second joint formulation, we combine coreference decisions with named entity classification. New indicator variables for the assignments of this model are introduced, namely zhi,ji , where hi, ti ∈ M × T . Since entity classification is not a binary decision, each assigment variable encode a mention i and a named entity type t. Each of these variables have an associated cost cE hi,ti , which is the probability that mention i has type t: cE hi,ti = −log(PE (t|i)). The objective function for this formulation is: X C min cC hi,ji · xhi,ji + chi,ji · (1−xhi,ji ) For the third joint model, we combine all three base models with an objective function that is the composite of those of ILPc,a and ILPc,e and incorporate all the constraints that go with them. By creating a triple joint model, we get constraints between anaphoricity and named entity classification for free, as a result of the interaction of the consistency constraints between anaphoricity and coreference and of those between named entity and coreference. For example, if a mention of type t is anaphoric, then there must be at least one mention of type t preceding it. 5.4 hi,ji∈P X + cE hi,ti · zhi,ti Adding transitivity constraints The previous formulations relate coreference decisions to the decisions made by two auxiliary models in a joint formulation. In addition one would also like to make coreference decisions dependent on one another, thus ensuring globally coherent entities. This is achieved through the use transitivity constraints that relate triples of mentions hi, j, ki ∈ M×M×M, where i < j < k (Denis, 2007; Klenner, 2007). These constraints directly exploit the fact that coreference is an equivalence relation. Transitivity: if xhi,ji and xhj,ki are coreferential pairs (i.e., xhi,ji = xhj,ki = 1), then so is xhi,ki : hi,ti∈M×T subject to: zhi,ti ∈ {0, 1} X zhi,ti = 1 ILPc,a,e : anaphoricity-entity- ∀hi, ti ∈ M × T ∀i ∈ M i∈M The last constraint ensures that each mention is only assigned a unique named entity type. Consistency between the two models is ensured with the constraint: Coreferential mentions have the same entity type: if i and j are coreferential (xhi,ji =1), they must have the same type (zhi,ti − zhj,ti = 0): xhi,ki ≥ xhi,ji + xhj,ki − 1 ∀hi, j, ki ∈ Mi,j,k Euclideanity: if xhi,ji and xhi,ki are coreferential pairs (i.e., xhi,ji = xhi,ki = 1), then so is xhj,ki . 1 − xhi,ji ≥ zhi,ti − zhj,ti ∀hi, ji ∈ P, ∀t ∈ T 1 − xhi,ji ≥ zhj,ti − zhi,ti ∀hi, ji ∈ P, ∀t ∈ T 93 Pascal Denis, Jason Baldridge the other metrics go down. This is in fact unsurprising: COREFabove .5 can be viewed as an unconstrained ilp formulation; similarly, ILPc,a takes all links above .5 subject to meeting the constraints on anaphoricity. The constraining effect of anaphoricity improves muc R and P and b3 R over COREFabove .5 , but not b3 P nor ceaf. Despite the encouraging muc scores, more is thus needed. The next thing to note is that joint named entity classification and coreference (ILPc,e ) nearly beats COREFclosest across the metrics, but fails for ceaf. As for ILPc,a , ILPc,e can also be viewed as constraining COREFabove .5 : in this case, precision is improved (compare muc: 72.7 to 75.0 and b3 : 63.7 to 71.2), while still retaining over half the gain in recall that COREFabove .5 obtained over COREFclosest . In doing so, the degradation in ceaf is just 1%, compared to ILPc,a ’s 3.4%. In addition to improving coreference resolution performance, this joint formulation also yields a slight improvement on the named entity classification: specifically, accuracy for that task went from 79.5% to over 80.0% using the ILPc,e model. Joint inference over all three models (ILPc,a,e ) delivers larger improvements for both muc and b3 without any ceaf degradation, thus mirroring the improvements found with the corresponding oracle. In particular, R is boosted nearly to the level of COREFabove .5 without the dramatic loss in P (in fact P is better than COREFclosest for muc). By adding the Anti-Euclideanity constraint to this formulation (ILPc,a,e|trans ), we see the best across-the-metric scores of any system. For muc and b3 , both P and R are boosted over COREFclosest , and there is a jump of 4% for ceaf. Both the muc and ceaf improvements for ILPc,a,e|trans are in line with the improvements that Klenner (2007) found using transitivity, though it should be noted that he scored on all mentions, not just true mentions as we do here. The composite mela metric provides an interesting overall view, showing step-wise improvements through the addition of the various models and the global constraints. These results are in sharp contrast with those obtained by the cascade model CASCADEa,e→c : recall that this system, while also using the two auxiliary models as filters was worse than COREFclosest . The joint ilp formulation is clearly better able to integrate the extra information provided by the anaphoric- xhj,ki ≥ xhi,ji + xhi,ki − 1 ∀hi, j, ki ∈ Mi,j,k Anti-Euclideanity: if xhi,ki and xhj,ki are coreferential pairs (i.e., xhi,ki = xhj,ki = 1), then so is xhi,ji : xhi,ji ≥ xhi,ki + xhj,ki − 1 ∀hi, j, ki ∈ Mi,j,k Enforcing Anti-Euclideanity alone guarantees that the final assignment will not produce any “implicit” anaphors: that is, a configuration wherein xhj,ki = 1, xhi,ki = 1, and yj = 0. The interaction of this constraint with resolve only anaphors indeed guarantees that such configuration cannot arise, since all three equalities cannot hold together. This means that mention j must be a good match for mention i as well as for mention k. Note that one could have one unique transitivity constraint if we had symmetry in our model; concretely, capturing symmetry means: (i) adding a new indicator variable xhj,ii for each variable xhi,ji , and (ii) making sure xhj,ii agrees with xhi,ji . Enforcing each of these constraints above means adding 61 × n × (n − 1) × (n − 2) constraints, for a document containing n mentions. This means close to 500, 000 of these constraints for a document containing just 100 mentions. The inclusion of such a large set of constraints turned out to be difficult, causing memory issues with large documents (some of the ace documents have more than 250 mentions). Consequently, we investigated during development various simpler scenarios, such as enforcing these constraints for documents that had a relatively small number of mentions (e.g., 100) or just using one of these types of constraint (in particular Anti-Euclideanity given the way it interacts with the discourse status assignments). In the following, ILPc,a,e|trans will refer to the ILPc,a,e formulation augmented with the Anti-Euclideanity constraints. 6 ILP Results Table 3 summarizes the scores for the different ilp systems, along with COREFclosest . Like Denis and Baldridge (2007), we find that joint anaphoricity and coreference (ILPc,a ) greatly improves muc F. However, we also see that this model suffers from the same problem as COREFabove .5 : performance on 94 Global joint models for coreference resolution and named entity classification System COREFclosest COREFabove .5 ILPc,a ILPc,e ILPc,a,e ILPc,a,e|trans R 60.8 70.3 73.2 66.2 69.6 63.7 b3 muc P F 72.6 66.2 72.7 71.5 73.4 73.3 75.0 70.4 75.4 72.4 77.8 70.1 R 62.4 73.2 75.3 69.6 72.2 65.6 P 77.7 63.7 62.0 71.2 69.7 81.4 F 69.2 68.1 68.0 70.4 70.9 72.7 ceaf R/P/F 62.3 58.7 58.9 61.2 62.3 66.2 mela F 65.9 66.1 66.7 67.3 68.5 69.7 Table 3: Recall (R), precision (P), and f -score (F) using the muc, b3 , and ceaf evaluation metric on the entire ace dataset for the ilp coreference systems. ILPc,a,e|trans , our best ilp system. This un- ity and named entity classifiers. In doing so, it does not require fine-tuning thresholds, and it can further benefit from constraints, such as transitivity. Further experiments reveal that bringing the other transitivity constraints into the ilp formulation results in additional precision gains, although not in overall F gains. The effect of these constraints is to withdraw incoherent links, rather than producing new links. At the global level, this results in the creation of smaller, more coherent clusters of mentions. In some cases, this will lead to a single entity being split across multiple chains. Switching on these constraints may therefore be useful for certain applications where precision is more important than recall. Though in general ceaf appears to be the most discriminating metric, this point brings up the reason why using ceaf on its own is not ideal. When one entity is split across two or more chains, all the links between the mentions are indeed correct and will thus be useful for applications like information retrieval. muc and b3 give points to such assignments, whereas only the largest of such chains will be used for ceaf, leaving the others—and their correct links—out of the score. It is also interesting to consider muc and b3 as they can be useful for teasing apart the behavior of different models, for example, with ILPc,a,e compared to COREFclosest , where ceaf was the same but the others were different. There is an interesting point of comparison with our results using rankers rather than classifiers and using models specialized to particular types of mentions (Denis and Baldridge, 2008). This work does not use ilp, but the best system there, with f -scores of 71.6, 72.7, and 67.0 for muc, b3 , and ceaf, respectively, actually slightly beats derscores the importance of attending carefully to the base classifiers and features used (see also Bengston and Roth (2008) in this regard). The ilp approach in this paper could straightforwardly swap in these better base models. We expect this to lead to further performance improvements, which we intend to test in future work, as well as testing the performance of these models and methods when using predicted, rather than gold, mentions. 7 Conclusion We have shown that joint inference over coreference, anaphoricity, and named entity classification using ilp leads to improvements for all three main coreference metrics: muc, b3 , and ceaf. The fact that b3 and ceaf scores were also improved is significant: the ilp formulations tend to construct larger coreference chains—these are rewarded by muc without precision penalties, but b3 and ceaf are not as lenient. As importantly, we have provided a careful study of cascaded systems, oracle systems and the joint systems with respect to all of the metrics. We demonstrated that the muc metric’s bias for larger chains leads it to give much higher scores while performance according to the other metrics actually drops. Nonetheless, b3 and ceaf also have weaknesses; it is thus important to report all of these scores. We also include the mela score as a simple at-a-glance composite metric. Acknowledgments We would like to thank Nicholas Asher, David Beaver, Andrew Kehler, Ray Mooney, and the three anonymous reviewers for their comments, as well as the audience at the workshop for their questions. This work was supported by NSF grant IIS-0535154. 95 Pascal Denis, Jason Baldridge References Luo, X. 2005. On coreference resolution performance metrics. In Proceedings of HLTNAACL 2005, pages 25–32. Bagga, A. and B. Baldwin. 1998. Algorithms for scoring coreference chains. In Proceedings of LREC 1998, pages 563–566. Luo, Xiaoqiang, Abe Ittycheriah, Hogyan Jing, Nanda Kambhatla, and Salim Roukos. 2004. A mention-synchronous coreference resolution algorithm based on the bell tree. In Proceedings of ACL 2004, pages 135–142, Barcelona, Spain. Barzilay, Regina and Mirella Lapata. 2006. Aggregation via set partitioning for natural language generation. In Proceedings of HLT-NAACL 2006, pages 359–366, New York City, USA. Malouf, R. 2002. A comparison of algorithms for maximum entropy parameter estimation. In Proceedings of the Sixth Workshop on Natural Language Learning, pages 49– 55, Taipei, Taiwan. Bengston, Eric and Dan Roth. 2008. Understanding the value of features for coreference resolution. In Proceedings of EMNLP 2008, pages 294–303, Honolulu, Hawaii. McCallum, A. and B. Wellner. 2004. Conditional models of identity uncertainty with application to noun coreference. In Proceedings of NIPS 2004. Berger, A., S. Della Pietra, and V. Della Pietra. 1996. A maximum entropy approach to natural language processing. Computational Linguistics, 22(1):39–71. Morton, T. 2000. Coreference for NLP applications. In Proceedings of ACL 2000, Hong Kong. Clarke, James and Mirella Lapata. 2006. Constraint-based sentence compression: An integer programming approach. In Proceedings of COLING-ACL 2006, pages 144–151. Ng, V. 2004. Learning noun phrase anaphoricity to improve coreference resolution: Issues in representation and optimization. In Proceedings of ACL 2004. Denis, P. 2007. New Learning Models for Robust Reference Resolution. Ph.D. thesis, University of Texas at Austin. Ng, V. and C. Cardie. 2002a. Identifying anaphoric and non-anaphoric noun phrases to improve coreference resolution. In Proceedings of COLING 2002. Denis, P. and J. Baldridge. 2007. Joint determination of anaphoricity and coreference resolution using integer programming. In Proceedings of HLT-NAACL 2007, Rochester, NY. Ng, V. and C. Cardie. 2002b. Improving machine learning approaches to coreference resolution. In Proceedings of ACL 2002, pages 104–111. Denis, Pascal and Jason Baldridge. 2008. Specialized models and ranking for coreference resolution. In Proceedings of EMNLP 2008, pages 660–669, Honolulu, Hawaii. Roth, Dan and Wen-tau Yih. 2004. A linear programming formulation for global inference in natural language tasks. In Proceedings of CoNLL. Haghighi, A. and D. Klein. 2007. Unsupervised coreference resolution in a nonparametric bayesian model. In Proceedings of ACL 2007, pages 848–855, Prague, Czech Republic. Soon, W. M., H. T. Ng, and D. Lim. 2001. A machine learning approach to coreference resolution of noun phrases. Computational Linguistics, 27(4):521–544. Vilain, M., J. Burger, J. Aberdeen, D. Connolly, and L. Hirschman. 1995. A modeltheoretic coreference scoring scheme. In Proceedings fo the 6th Message Understanding Conference (MUC-6), pages 45– 52, San Mateo, CA. Morgan Kaufmann. Kehler, A., D. Appelt, L. Taylor, and A. Simma. 2004. The (non)utility of predicate-argument frequencies for pronoun interpretation. In Proceedings of HLT-NAACL 2004. Klenner, M. 2007. Enforcing coherence on coreference sets. In Proceedings of RANLP 2007. 96 Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 97-104 recibido 15-01-09, aceptado 02-03-09 AQA: a multilingual Anaphora annotation scheme for Question Answering∗ AQA: Un modelo de anotación anafórico multilingüe para Búsqueda de Respuestas E. Boldrini1 , M. Puchol-Blasco1 , B. Navarro1 , P. Martı́nez-Barco1 and C. Vargas-Sierra2 1 Grupo de Investigación en Procesamiento del Lenguaje Natural y Sistemas de Información Departamento de Lenguajes y Sistemas Informáticos Universidad de Alicante 2 Departamento de Filologı́a Inglesa Universidad de Alicante Alicante, Spain {eboldrini, marcel, borja, patricio}@dlsi.ua.es and [email protected] Resumen: En este trabajo presentamos AQA, un modelo multilingüe de anotación de expresiones anafóricas, ideado para ser utilizado en Aprendizaje Automático para mejorar los sistemas de Búsqueda de Repuestas. Con este modelo se ha anotado la colección de preguntas-respuestas del CLEF 2008, concretamente en los idiomas español, italiano e inglés. AQA está inspirado en el meta-modelo MATE, ajustado a nuestras necesidades. Con AQA se especifica la relación entre la anáfora y su antecedente (que puede ser directa o indirecta), las agrupaciones por tópico y cambios de subtópico, ası́ como diferentes tipos de anáforas (pronominal, adverbial, superficial, descripciones definidas y elipsis). Se ha realizado una anotación ciega entre dos anotadores más un árbitro que decide en caso de desacuerdo. Los resultados de la evaluación muestran un 87% de acuerdo entre los anotadores. Algunos problemas de anotación serán expuestos en el trabajo. Nuestra finalidad es ampliar este modelo a otras lenguas y otros corpus, y aplicarlo finalmente en el desarrollo de un sistema de resolución de la anáfora en preguntas-respuestas multilingüe basado en técnicas de aprendizaje automático para mejorar la interacción hombre-máquina. Palabras clave: resolución anáfora, corpus multilingüe, Aprendizaje Automático, acuerdo de anotación, interacción, sistemas de Búsqueda de Respuestas. Abstract: This paper presents AQA, a multilingual anaphora annotation scheme that can be applied in Machine Learning for the improvement of Question Answering systems. It has been used to annotate the collection of CLEF 2008 in Spanish, Italian and English. AQA is inspired by the MATE meta-model, which has been adjusted to our needs. By using AQA we specify the relationshiop between the anaphora and its antecedent, cases of topic and subtopic, and we label different types of anaphoric expressions. A blind annotation was carried out by two annotators, and a referee for solving cases of disagreement. The results of the evaluation show an 87% level of inter-annotator agreement. Some annotation problems will be reported in this paper. Our aim is to extend this model to other languages, and to apply it to the development of an Anaphora Resolution system based on Machine Learning techinques in order to improve a real human machine-interaction. Keywords: anaphora resolution, multilingual corpora, Machine Learning, interannotator agreement, interaction, Question Answering systems. ISSN 1135-5948 © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural E. Boldrini, M. Puchol-Blasco, B. Navarro, P. Martínez-Barco, C. Vargas-Sierra 1 Introduction is to achieve an anaphora resolution system for collection of multilingual questions and answers capable of providing a more realistic interaction between the user and the system. The remainder of this paper is organized as follows: Section 2 describes the principles we adopted for the annotation. Sections 3 and 4 present the main aspects of the annotation scheme, the tag set developed and an analysis of problematic cases. Sections 5 and 6 illustrate the evaluation and the results, and finally conclusions from the study are discussed in section 6. This paper presents AQA, a multilingual anaphora annotation scheme that can be applied to every question-answer corpus (QA) with cases of anaphora. In recent years there has been a growing interest in the creation of anaphora annotation schemes, especially for English. In this context, it is worth mentioning the UCREL anaphora annotation scheme (Fligelstone, 1992), developed at Lancaster University. The SGML-based MUC annotation scheme (Hirschman y Chincho, 1998), created for MUC-7, focused on anaphora for Information Extraction task, and other annotation schemes based on MUC are by Mitkov et al. (2000) or by Navarro (2007), among others. Proposals for other languages could also be found. To mention but a few examples, we find proposals for French (Popescu-Belis and Robba (1997); Tutin et al. (2000)); for Spanish and Catalan (Recasens et al. (2007)); or for Basque (Aduriz et al. (2007)). As it is well-known, the MATE/GNOME meta-scheme by Massimo Poesio (2004) can be adjusted to meet different needs and goals. AQA annotation scheme is inspired by this meta-model. The problem of anaphora resolution in dialogues and/or in QA series has been explored in several works (Martı́nez-Barco y Palomar, 2001; Jain et al., 2004; Negri y Kouylekov, 2007). However, as far as we know, little work has been reported on anaphora resolution in QA series in a multilingual framework1 . In this paper, we focus on this subject. We have developed a multilingual anaphora annotation scheme in order to label the QA corpus of CLEF 2008 in Spanish, Italian, and English, aiming at using this annotated corpus for the application of Machine Learning (ML) techniques in the development of anaphora resolution systems. Our final goal 2 Principles The design of an annotation scheme involves a number of decisions that are crucial for the final result of its performance. The approach pursued with AQA is based on the next general principles: 1. AQA scheme is specific for QA texts. The behaviour of anaphoric and coreferencial expressions in question-answering and, in general, in dialogues, is different from narrative texts. In fact, the dialogue structure (QA structure) has significant influence on anaphoric relations, and, especially, where the antecedent is located. In this sense, the antecedent of a specific anaphoric expression in a question could be located at the same question, at previous questions or at previous anwers (Negri y Kouylekov, 2007). 2. AQA scheme has been created ad hoc for multilingual applications. Indeed, our objective is to develop the same annotation scheme for different languages to have the possibility to employ it in multilingual QA systems. At present, the working languages in the project are English, Spanish and Italian. 3. With AQA annotation scheme we focus on the highest computational efficiency. Our final aim is to develop an anaphora resolution system for multilingual QA based on ML techniques. Consequently, the design of the specific scheme for ML has always been taken into account. ∗ This paper has been supported by the following projects: “Question Answering Learning technologies in a multiLingual and Multimodal Environment QALL-ME” (FP6 IST-033860), “Intelligent, Interactive and Multilingual Text Mining based on Human Language Technologies, TEXT-MESS” (TIN2006-15265-C06-01), by the Generalitat Valenciana throught the research grant BFPI06/182, and by the grant BII2008-7898717 of the University of Alicante. 1 About multilingual question-answering, see CLEF campaign at http://clef-campaign.org/ 4. With AQA annotation scheme we are looking for a broad applicability. In this sense, we do not follow any specific linguistic theory about anaphoric relations. Instead, we assume a standard point of 98 AQA: a multilingual Anaphora annotation scheme for Question Answering information about the anaphora. The available attributes for this tag are the following: view about the anaphoric phenomenon (Mitkov, 2002). The first step of our work consisted in deciding what had to be annotated, and in creating the resulting markup scheme. In the next section the main aspects of the markup scheme are presented. 3 – rel="dir|indir" (direct or bridging): this element indicates the relationship between the anaphora and its antecedent: direct (dir) or bridging (indir). – status="ok|no" (sure or uncertain): by inserting this attribute the annotator marks his/her (un)certainty with respect to a given annotation. – type="pron|sup|adv|elips|dd": this attribute specifies the type of anaphora, i.e., pronominal, adverbial, superficial. It is also used for ellipsis or definite description. – ref="n1": for indicating the number of the discourse entity (de) the anaphora is referring to. – ant="q|a" question or answer : this tag specifies if the antecedent is in the question or in the answer. If the answer does not appear in the corpus, but the antecedent is within the answer, the ant="ref" tag will not appear. The antecedent is marked only with the tag ant="a". – refq="q1": the question-answer pair in which the anaphora antecedent is situated. It will correspond to a specific q id labelled in the corpus. Markup scheme and tags The anaphoric elements that are manually specified are the following: • the anaphora type: we label pronominal, superficial, and adverbial anaphora, as well as some cases of ellipsis (elliptical subject, elliptical object, and nominal phrases with nominal complement but with elliptical head) and definite descriptions. • the relation type between anaphoric expression and its direct or bridging antecedent. Thanks to the link between the anaphora and its antecedent we are able to detect all the coreference chains throughout the corpus. • the topic change in a set of questions. We decided to detect the beginning and the end of each topic and subtopic. Questions grouped together share the same topic. However, we also observed some cases of subtopic in the same group. The tags created to build up our model are the following: Figure 1 shows a group of questions annotated using AQA. Some of these tags and a case of subtopic change can be observed. • <t></t> (topic): the function of this tag is to group questions about the same topic. 4 Some problematic cases 4.1 Antecedent detection • <subt></subt> (subtopic): this tag is used to mark the cases of topic change in the same group of questions. Anaphora annotation is a difficult task with a poor level of inter-annotator agreement (Mitkov, 2002). One of the main complex aspects is the ambiguity for the antecedent detection. In fact, there are cases in which more than one discourse entity could be the antecedent of an anaphoric expression. In the CLEF 2008 QA corpus there are many cases in which the antecedent can be labelled in the question, but also in the answer. In these cases, the annotators always mark the antecedent closest to the anaphoric • <q></q> (question): this tag indicates the question/answer pair. It has the ID attribute, which identifies the pair. • <de></de> (discourse entity): discourse entities (antecedents) are detected by assigning to the ant="ref" attribute of each anaphora the same ID attribute of its antecedent. • <link></link> (anaphora): anaphora element includes all the the 99 E. Boldrini, M. Puchol-Blasco, B. Navarro, P. Martínez-Barco, C. Vargas-Sierra <t> <q id="q538"> What was the name of the plane used by <de id="n52">John Paul II</de> in <link rel="indir" status="ok" ant="q" refq="q538" type="dd" ref="n52"> his travel</link> to the USA in 1995? </q> <subt> <q id="q539"> What instrument did Niccol Paganini play? </q> </subt> </t> It is not an easy task to deal with these cases of ambiguity arising from a lack of pragmatic or cultural knowledge. As a consequence, they are the main cause of mistakes during the annotation. 4.3 We also detect some cases of collective nouns, which are singular nouns referring to a plural concept. The problem here is that the anaphora does not always match up in number with its antecedent, and this situation could produce cases of ambiguity. Annotators must apply semantic criteria and common sense in order to detect the correct antecedent. In this example: Figure 1: Sample of the QA corpus CLEF 2008 annotated with AQA scheme. expression. However, if the corpus does not contain the answer (as in CLEF 2008 QA corpus), questions are given priority, as we work only with a collection of queries. When the annotators cannot find the antecedent of the anaphora under analysis in one of the questions of the collection, they will be forced to label the antecedent in the answer, although it does not appear explicitly in the corpus. 4.2 Collective nouns <t> <q id="q432"> What is <de id="n18">the starring cast </de> of the film Beetlejuice? </q> <q id="q433"> Who of <link rel="dir" status="ok" type="pron" ref="n18" ant="q" refq="q432"> them</link> is the main character? </q> </t> World knowledge As the previous example shows, the pronominal anaphora “them” is referring to the “starring cast”: “them” is plural and “the starring cast” is singular. The relation between them is correct, since the starring cast is a collective noun that refers to the group of actors who are performing in a movie. In order to label the anaphora and its antecedent properly, the annotators must activate sometimes their world knowledge. The problem may arise when it is not possible to know if annotators have the necessary world and cultural knowledge to detect the correct antecedent. For example, in this case, 4.4 <t> <q id="q404"> Which was <de id="n2">the "gordo" in the 1995 Christmas</de>? </q> <q id="q405"> Which was <link rel="indir" status="no" type="dd" ref="n2" ant="q" refq="q404"> the prize</link>? </q> </t> Doubtful position of the antecedent We also detected cases in which the antecedent recognition could be ambiguous, because the annotator has to choose between multiple options. Let us see an example: <t> <q id="q465"> What transport was used in <de id="n36">the Kon-Tiki Expedition</de>? </q> <q id="q466"> How many people crewed <link rel="dir" status="ok" type="pron" ref="n36" ant="q" refq="q465">it</link>? </q> </t> “the prize” is the definite description of “gordo”, but if the annotators do not know that in Spain the “gordo” is a typical Christmas lottery prize (and not Santa Claus or a “fat” men2 ), they will not be able to detect the correct antecedent for this anaphora. The annotator does not know whether the antecedent of “it” is the “transport” or “the 2 The literal translation of “gordo” in English is “fat”. 100 AQA: a multilingual Anaphora annotation scheme for Question Answering Kon-Tiki Expedition”. In fact this pronoun does not provide any information regarding its genre. As we have just mentioned, the general rule is to select the closest antecedent to the anaphora, which in this case is “the Kon-Tiki Expedition”. 4.5 the clitic pronouns. They appear attached to the verb. When clitic pronouns are detected, we do not separate the verb from the pronoun. 5 Evaluation In order to know the quality of this annotation scheme, we have developed a pilot evaluation, manually annotating the CLEF multilingual QA corpus. There are 600 questions in the corpus, each one translated into English (200), Italian (200) and Spanish (200). At the current state of the project, these results are preliminary. In the near future, our aim is to annotate a larger corpus. A blind annotation was carried out by two annotators. After this process, we evaluated the inter-annotator agreement independently for each aspect of anaphoric annotation and language. Finally we calculated the general agreement. The evaluation aspects we took into consideration are the following: Nested antecedent The problems mentioned in this subsection and in the next one do not represent special cases of difficulty, but they could produce ambiguity when specifying the correct size of the antecedent. There are cases in which we have an antecedent inside another one, and they are referring to two different anaphors. The next example shows this specific case: <t> <q id="q427"> Who were <de id="n14">the founders of <de id="n15">Magnum Photos</de> </de>? </q> <q id="q428"> In what year did <link rel="dir" status="ok" ant="q" refq="q427" type="pron" ref="n14">they</link> found <link rel="dir" status="ok" type="pron" ref="n15" ant="q" refq="q427">it</link>? </q> </t> 1. topic boundary; 2. anaphora detection; 3. anaphora attributes; and 4. antecedent recognition. The antecedent of “them” is “the founders of Magnum Photos”, while the antecedent for “it” is only “Magnum Photos”. 4.6 5.1 Measures used The measures used to calculate the interannotator agreement are the kappa value (when static classes are present), and the observed agreement (when non static classes are present). Kappa is computed according to Cohen method (Cohen, 1960; Carletta, 1996; Artstein y Poesio, 2008): An anaphora inside an antecedent of another one There are cases in which the anaphoric element has to be annotated inside the antecedent of an anaphora that has another antecedent. For example: <t> <q id="q434"> What is <de id="n19">a censer</de>? </q> <q id="q435"> What name is given to <de id="n20"> <link rel="dir" status="no" type="pron" ref="n19" ant="q" refq="q434">the one </link> of the Cathedral of Santiago de Compostela </de>? </q> <q id="q436"> How much does <link rel="dir" status="ok" type="pron" ref="n20" ant="q" refq="q435"> it</link> weight? </q> </t> k= P (A)−P (E) 1−P (E) where P (A) is the observed agreement among annotators, and P (E) the probability that annotators agree by chance. 5.2 Topic boundary evaluation Topic boundary can be seen as a binary classification. For each question the class “n” is assigned to mark a new topic, while the class “s” is employed when the question is about the same topic as the previous query. Taking into account these premises, Table 1 shows the contingency table and the kappa measure. Finally, we would like to mention a specific problem in the Italian and Spanish corpus: 101 E. Boldrini, M. Puchol-Blasco, B. Navarro, P. Martínez-Barco, C. Vargas-Sierra A1/A2 S N Kappa Spanish S N 62 0 0 138 1 Italian S N 62 0 0 138 1 English S N 61 0 1 138 0.988 (Adv), Superficial (Sup) and Definite Description (DD). The results for the type attribute are shown at Table 4. Elips Pron Adv Sup DD P(A) Kappa Table 1: Contingency table for topic boundary evaluation. 5.3 Anaphora detection Anaphora detection has not specific classes for using kappa measure. As a consequence, only the observed agreement among the annotators can be extracted. The anaphora detection agreement is presented in Table 2. The acronyms used in this table mean: A1: anaphors detected by annotator 1; A2: anaphors detected by annotator 2; AA: anaphors detection agreement; DAB: different anaphora boundary, that is, anaphors that coincide in the two corpora, but having different content. A1 A2 AA DAB Spanish 70 70 70 1 Italian 69 69 69 1 English 67 68 67 0 A1/A2 D I Kappa Italian Q A 62 0 0 7 1 Spanish D I 52 0 4 14 0.838 Italian D I 51 0 1 17 0.961 English D I 52 0 2 13 0.909 Table 5: Contingency table for relation attribute evaluation. 5.5 Once the anaphora has been detected, the method used for anaphora attribute evaluation is the kappa statistic. The results of the anaphora detection agreement are: 70 anaphors in Spanish, 69 in Italian, and 67 in English. Regarding the antecedent attribute, Q is used when the antecedent is detected in the question, while A is used when the antecedent is in the answer. Table 3 presents the contingency table for this attribute. Spanish Q A 64 0 0 6 1 English A1 A2 3 3 42 42 1 1 0 0 21 21 1 1 We also evaluated the agreement obtained regarding the relation attribute. In this case, it is possible to choose between two options; the first one is D (direct relation), while the second is I (indirect relation). Table 5 illustrates the results. Anaphora attributes A1/A2 Q A Kappa Italian A1 A2 32 32 13 13 2 2 0 0 22 22 1 1 Table 4: Anaphora type agreement. Table 2: Anaphora detection agreement. 5.4 Spanish A1 A2 33 33 13 15 1 1 1 0 22 21 0.97 0.955 Antecedent recognition Antecedent recognition has no fixed classes for using kappa measure, and as a consequence, the observed agreement among the annotators should be extracted. The antecedent recognition agreement is presented in Table 6. The acronyms used in this table mean: TAA: total antecedents into the answer; TAQ: total antecedents into the question; ASQ: anaphors pointing the same questions, it means, refq agreement; and ADB: antecedents with different boundary. English Q A 61 0 0 6 1 TAA TAQ ASQ ADB Spanish 6 64 64 2 Italian 7 62 62 3 English 6 61 61 1 Table 3: Contingency table for antecedent attribute evaluation. Table 6: Antecedent recognition agreement. The anaphora type was lebelled taking into consideration 5 attributes: Elipsis (Elips), Pronominal (Pron), Adverbial 5.6 General agreement The general agreement is showed in Table 7. In this evaluation, all the aforementioned at102 AQA: a multilingual Anaphora annotation scheme for Question Answering tributes have been considered: first column shows the amount of anaphors detected, and second column the amount of anaphors with exact agreement. Finally, the average for all languages is calculated as general agreement. Spanish Italian English Average Total 70 69 67 Agreement 60 60 59 As we mentioned in the previous section, we carried out the research with three languages involved. This multilingualism offers some advantages, but it is also a source of complexity. The main advantage is that the corpus shows cases in which the anaphoric relation is the same in different languages, so we can extract cross-linguistic features for anaphora resolution. However, using different languages may cause problems. In fact, languages are very complex and different from each other. Working with a parallel corpus does not provide any guarantee of similarity between them: there are cases in which the same query is different in the three languages, and the annotator should take into account these differences in order to annotate the corpus properly. In any case, as Future Work, we will apply the AQA annotation scheme to a larger corpus with more texts written in more languages in order to check its reliability, and, finally, to improve a multilingual anaphora resolution system for QA. % 0.857 0.869 0.880 0.868 Table 7: General agreement. Surprisingly, all these results show a high level of agreement between two annotators in all aspects evaluated. With these results we can conclude that the annotation scheme has been well designed, and its application to this multilingual QA corpus has been carried out correctly. However, as we said before, these results are only preliminary. Probably, the ambiguity level of this corpus is not too high, thus we will apply the same annotation scheme to a larger corpus, with more languages, more anaphoric expressions, and more cases of ambiguity. In this case, the results are promising, and they indicate that the project is progressing successfully. 6 Bibliografı́a Aduriz, I., K. Ceberio, y A. Dı́az de Ilarraza. 2007. Pronominal Anaphora in Basque: Annotation issues for later computational treatment. En A. Branco, editor, Anaphora: Analysis, Algorithms and Applications. 6th Discourse Anaphora and Anaphor Resolution Colloquium, DAARC 2007, volumen 4410 de Selected Papers. Lecture Notes in Computer Science, Lagos Portugal. Conclusion and Future Work In this paper we have presented AQA, an anaphora annotation scheme for the manual annotation of multilingual QA corpora. With this scheme we mark different types of anaphors, the relationship between anaphora and its antecedent, and the groups of questions with the same topic. The main purpose of this scheme is to develop an anaphora resolution system based in ML techniques in order to improve the interaction between the user and the QA system and, in this way, establishing a dialogue between them. In fact, by using AQA, a ML system will be able to extract many features capable of detecting the correct antecedent for each anaphora. As we can conclude from the evaluation results, we reached a considerable interannotator agreement rate. However, our intention is to apply the scheme to other collections of questions and other languages to check AQA reliability. Artstein, R. y M. Poesio. 2008. Inter-Coder Agreement for Computational Linguistics. Computationl Linguistics, 34(4):555–596. Carletta, J. 1996. Assessing agreement on classification task: the kappa statistic. Computational Linguistics, 22(2):249–254. Cohen, J. 1960. A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 20:37–46. Fligelstone, S. 1992. Developing a Scheme for Annotating Text to Show Anaphoric relations. En G. Leitner, editor, New Direction in English Language Corpora: Methodology, Results, Software Developments. Mouton de Gruyter, Berlin, páginas 153–170. 103 E. Boldrini, M. Puchol-Blasco, B. Navarro, P. Martínez-Barco, C. Vargas-Sierra Hirschman, L. y N. Chincho. 1998. Muc7 coreference task definition (version 3.0). En Proceedings of Message Understanding Conference (MUC-7). Recasens, M., M.A. Martı́, y M. Taulé. 2007. Text as a Scene: Discourse deixis and Bridging relations. Procesamiento del Lenguaje Natural, 39:205–212. Jain, P., M. Mital, S. Kumar, A. Mukerjee, y A. Raina. 2004. Anaphora resolution in multi-person dialogues. En Michael Strube y Candy Sidner, editores, Proceedings of the 5th SIGdial Workshop on Discourse and Dialogue, páginas 47–50, Cambridge, Massachusetts, USA. Tutin, A., F. Trouilleux, C. Clouzot, E. Gaussier, A. Zaenen, S. Rayot, y G. Antoniadis. 2000. Anotating a large corpus with anaphoric links. En Proceedings of the Discourse, Anaphora and Reference Resolution Conference (DAARC 2000), Lancaster. Martı́nez-Barco, P. y M. Palomar. 2001. Computational Approach to Anaphora Resolution in Spanish Dialogues. Journal of Artificial Intelligence Research, 15:263– 287. Mitkov, R. 2002. Longman. Anaphora Resolution. Mitkov, R., R. Evans, C. Orasan, C. Barbu, L. Jones, y V. Sotirova. 2000. Coreference and anaphora: developing annotating tools, annotated resources and annotation strategies. En Proceedings of the Discourse, Anaphora and Reference Resolution Conference (DAARC 2000), Lancaster. Navarro, B. 2007. Metodologı́a, construcción y explotación de corpus anotados semántica y anafóricamente. Ph.D. tesis, University of Alicante, Alicante. Negri, M. y M. Kouylekov. 2007. ’Who Are We Talking About?’ Tracking the Referent in a Question Answering Series. En A. Branco, editor, Anaphora: Analysis, Algorithms and Applications. 6th Discourse Anaphora and Anaphor Resolution Colloquium, DAARC 2007, volumen 4410 de Selected Papers. Lecture Notes in Computer Science, Lagos Portugal. Poesio, M. 2004. Discourse annotation and semantic annotation in the gnome corpus. En Proceedings of the 2004 ACL Workshop on Discourse Annotation, páginas 72–79, Barcelona. Popescu-Belis, A. y I. Robba. 1997. Cooperation between pronoun and reference resolution for unrestricted texts. En Proceedings of the ACL’97/EACL’97 workshop on Operational Factor in Practical, Robust Anaphora Resolution, Madrid. 104 Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 105-112 recibido 15-01-09, aceptado 02-03-09 Co-referential chains and discourse topic shifts in parallel and comparable corpora∗ Cadenas correferenciales y cambios de tópico discursivo en corpus paralelos y comparables Costanza Navarretta University of Copenhagen Njalsgade 140-142, build. 25 2300 Copenhagen - Denmark Resumen: En este artı́culo se describen los textos del italiano y danés comparables y anotados con cadenas de correferencia e información sobre los cambios de tópico discursivo, ası́ como una evaluación de dicha anotación. También se discuten las diferencias generales en el modo de referir las expresiones en danés e italiano. Se presenta también el análisis de la relación entre el uso de tipos de expresiones referidas y cambios de tópico discursivo en parte de los datos utilizando el marco teórico del Centering. Palabras clave: italiano, danés, cadenas correferenciales, tópico discursivo, anotación de corpus Abstract: In this paper we describe Danish and Italian parallel and comparable texts annotated with (co)referential chains and information about discourse topic shifts, and present an evaluation of the annotation. We also discuss general differences in the way referring expressions are used in Danish and Italian and present the analysis of the relation between the use of types of referring expression and discourse topic shifts in part of the data using the Centering framework. Keywords: Italian, Danish, referential chains, discourse topics, corpus annotation 1 Introduction Identifying co-referential chains in corpora is important for many applications involving natural language processing. Studying the relation between co-referential chains, the use of nominal expressions and discourse topic shifts is furthermore useful for particular NLP applications such as summarization, abstracting, natural language generation and machine translation. A theoretic framework for analysing the relation between the use of types of referring expression and discourse topic shifts is provided by the Centering Theory (Grosz, Joshi, and Weinstein, 1995; Brennan, Friedman, and Pollard, 1987). This theory mainly focuses on pronouns and follows cognitive models of reference of nominal expressions, among many (Ariel, 1994; Prince, 1981; Gundel, Hedberg, and Zacharski, 1993; Lambrecht, 1994), according to which reference by pronouns reflects the assumption made by speakers that the referred entities are the most central (salient, known, given) in the addressee’s mental state at that point in discourse, while reference by other types of nominal phrase usually indicate that the referred entities are less central in the addressees’ discourse model. Versions of Centering have implemented different salience models based on factors such as word order, syntactic or semantic function of entities, information structure and anaphoric distance, see among many (Brennan, Friedman, and Pollard, 1987; Strube and Hahn, 1999; Navarretta, 2002). Some of these Centering versions have been motivated by language specific characteristics which cannot be accounted for by salience models based on English. To our knowledge, there is no systematic study of the use of different referring expressions in various transition states and a comparison of this use in different types of language1 . The main objectives behind our work have been the following: i) to provide a pilot corpus of parallel and comparable Danish and 1 ∗ Thanks to Sussi Olsen, Delia Malatesta, Daniele Prada e Elisabetta Cerini. ISSN 1135-5948 A partial exception is Di Eugenio (1996)’s analysis of subject referring expressions in Italian, see section 2. © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural Costanza Navarretta Italian texts annotated with co-reference and with discourse topic shifts; ii) to investigate whether there is a systematic relation between various types of referring expressions and their use in different transition states in the two languages; iii) to individuate similarities and differences in co-referential chains and in the use of referring expressions in discourse topic shifts in Danish and Italian; iv) to study whether different referring strategies are used in fiction and non-fiction texts. The paper is organised as follows. In section 2 we discuss related work and research which have inspired us. In section 3 we shortly present our data and in section 4 we describe our annotation scheme and discuss inter-annotator agreement results. In section 5 we discuss the results of our analysis of the annotated data and finally, in section 6 we make some concluding remarks and present work still to be done. 2 ferring expression after the various transition states is not explored in the Centering theory. However, many researchers in the Centering framework have looked at aspects which are central to the relation between reference and discourse structure including the definition of transition states, the presence and/or uniqueness of backward-looking centers and the realisation of centers, see especially (Brennan, Friedman, and Pollard, 1987; Strube and Hahn, 1999; Fais, 2004; Poesio et al., 2004; Kibble and Power, 2004). Independently from the Centering framework, Givón (1983) provides an analysis of the relation between topic shifts and use of subject referring expressions in English and Pidgin English monologues. He recognises two kinds of junctures in his data: minor junctures after clauses and major junctures after sentences. In this paper we look at both global and local coherence and are especially interested in the types of nominal referring expression used in Danish and Italian texts after various transitions. We are strongly inspired by the work of Di Eugenio (1996) who analysed occurrences of Italian pronouns and full nominal phrases in subject position respect to a particular version of the Centering’s transition states. Her focus was on the use of zero pronouns2 . We adopt a combination of two cognitive models of referring expressions: the Givenness Hierarchy proposed by Gundel, Hedberg, and Zacharski (1993) and Ariel (1988), (1994)’s Accessibility Marker Scale. Gundel, Hedberg, and Zacharski (1993) organise the assumed cognitive statuses of discourse entities in their Givenness Hierarchy and connect each status to a precisely identified referring expression, exemplified by an English nominal phrase (table 2). They argue for the universality of their hierarchy, although they notice that not all languages have referring expressions for each status in the hierarchy. The Givenness Hierarchy is interesting because, differing from related cognitive models, it assumes that the various cognitive statuses are implicationally related and not mutually exclusive. Thus, according to this theory, a referring form encodes the necessary and sufficient status it belongs to as well as all the higher statuses in the hierar- Related Work The relation between reference and discourse structure has been pointed out in numerous studies, among many (Kuno, 1972; Halliday and Hasan, 1976; Hobbs, 1979; Grosz and Sidner, 1986; Cristea and Ide, 1998). Centering is about local coherence, but the theory presupposes global coherence as proposed by Grosz and Sidner (1986). In Centering the relation between continuations or shifts in co-reference chains and the use of referring expressions is modelled in terms of so-called transition states and of the preferences holding among them. These preferences reflect the assumption that the mental effort to process reference is less when the central topic of discourse is maintained and when this topic is realised by the most salient entity than when the central topic changes or is realised by a less prominent entity. Because pronouns signal reference to the most salient entities, pronominal chains are assumed to be more frequent in center continuations than in center shifts. The transition types proposed by Brennan, Friedman, and Pollard (1987) are in (table 1). The use of other types of reCb (Un ) = Cb (Un−1 ) OR no Cb (Un−1 ) Cb (Un ) = Cp (Un ) Cb (Un ) 6= Cp (Un ) Cb (Un ) 6= Cb (Un−1 ) CONTINUE SOFT-SHIFT RETAIN ROUGH-SHIFT Table 1: Transition states 2 106 Italian is a subject pro-drop language. Co-referential chains and discourse topic shifts in parallel and comparable corpora in focus it > activated that this this N > familiar > that N uniquely identifiable the N > referential indefinite this N > type identifiable a N Table 2: The Givenness Hierarchy (unambiguously) and/or the less attenuated the form (longer or louder) of a referring expression the lower accessibility it marks. We use Ariel’s classification of referring expressions, but assume with Gundel, Hedberg, and Zacharski (1993) that the cognitive statuses related to the different referring expressions are implicationally related. chy (the statuses on its left). This accounts for cases in discourse where a speaker uses a referring expression signalling a less given cognitive status than required by the context, e.g. to emphasise some entities. One problem with the Givenness Hierarchy is that it does not account for differences between types of referring expression which do not occur in English. This is the case for the Italian zero anaphora and clitics. A more fine-grained hierarchy of nominal referring expressions is presented by Ariel (1994). Also Ariel points out that speakers code how accessible a referent is to the addressee by using different referring expressions. Analysing the distance between antecedent and referring expressions, one of the factors that determine the accessibility of these expressions, Ariel builds up an accessibility marker system for referring expressions. In her system unmarked means prototypical, while the concept of markedness presupposes the notion of formal complexity and is connected with structural complexity, low frequency and cognitive complexity. A simplified version of Ariel’s Accessibility Marking Scale (Ariel, 1994) is given in figure 1. The accessibility of the expressions de- 3 The data We have annotated the following Danish and Italian data: • Parallel texts: i) European law texts (7,631 running words in Italian and 7,101 running words in Danish); ii) Italian stories by Pirandello (9,018 words) and their Danish translations (9,933 words) • Comparable texts: i) Financial newspapers: the Italian Il Sole 24 Ore (6,964 words) and the Danish Børsen (3,325 words) The source language of the European texts is not known, but it is probably English or French. The parallel texts and some of the comparable texts which we have annotated belong to the MULINCO corpus (Maegaard et al., 2006). Part of these texts are freely available. In order to obviate some of the problems connected with the use of translated texts3 we have annotated articles from financial newspapers in the two languages describing similar events and written in the same period of time. Although these articles are covered by copyright restrictions, they can be obtained by the publishing editors for research. zero < reflexives < cliticised pronouns < unstressed pronouns < stressed pronouns < stressed pronouns + gesture < proximal demonstrative (+ NP) < distal demonstrative (+ NP)< proximal demonstrative + NP + modifier < distal demonstrative + NP + modifier < first name or last name < definite description < full name Figure 1: Ariel’s Accessibility Marking Scale creases from left to right: the highest accessibility markers being the most unmarked linguistic expressions. Thus the symbol < in the scale refers to the degree of markedness. The more (lexically) informative, the more rigidly 3 One of these problems is the use of referring expressions in the target language being influenced by the referring expressions used in the source language. Examples of these influence are in (Navarretta, 2007). 107 Costanza Navarretta 4 The annotation drop language and has both independent and clitic pronouns. A kind of seg markers, seg1 is used to mark verbal phrases containing one or more clitic pronouns, as illustrated in example 2 where the verb form promettendoglielo (promising it to him) contains two clitic pronouns gli (to him) and lo (it), which co-refer with two entities whose identifiers are n150 and i24 respectively (promettendo[gli]n150 e[lo]i24 ). The data we have annotated with coreference had been previously annotated with abstract pronominal anaphora information in the DAD project. These anaphora are thirdperson singular pronouns whose linguistic antecedents are predicates in copula constructions, verbal phrases, clauses and discourse segments. The annotation specific to abstract anaphora is described in (Navarretta and Olsen, 2008) and comprises the semantic type of abstract referents, partially inspired by the classification of abstract objects by Asher (1993). Discourse topics have been annotated using a variation of the annotation proposed by Rocha (2000) who distinguishes among discourse topics, segment topics and subsegment topics in English and Portuguese dialogues. In our data paragraphs correspond in most cases to discourse segments, see (Grosz and Sidner, 1986). Discourse segments have been further divided into subtopics and subsubtopics. A subset of the data has been marked with the transition types proposed in (Brennan, Friedman, and Pollard, 1987)5 . The salience model adopted for annotating transition states in both Danish and Italian is mainly that proposed in (Navarretta, 2002; Navarretta, 2005) (figure 2). We have used PALinkA (Orăsan, 2003) as annotation tool. The first 4000 words of the Italian data were annotated by four annotators and inter-annotator agreement was automatically calculated on these data in terms of weighed kappa statistics6 (J.Cohen, 1968) using PRAM7 . The obtained results varied from 0.60 to 0.95, depending on the type of Co-referential and referential chains in the corpus have been annotated using an extension of the MATE/GNOME annotation scheme (Poesio, 2004). Bridging anaphora have not been annotated. We use the markables proposed in the MATE/GNOME scheme, i.e. de to mark discourse entities and seg to annotate non nominal referring expressions. The markable link marks the relation between referring expressions and their antecedents. We have added a number of attributes to these markables to encode the following information: a) the type of referring expression comprising the pronominal and nominal types recognised by Ariel (1994); b) the syntactic type of the antecedent including nominal and non-nominal antecedents, such as predicates in copula constructions, verbal phrases, clauses and discourse segments; c) the pronominal function, such as cataphoric, individual anaphoric, deictic, pleonastic, abstract anaphoric. Only two types of relation between referring expressions and antecedents are used: identity and non-identity. The identity relation is used for co-reference, while nonidentity is used for all other cases, comprising the relations between antecedents and anaphora referring to different semantic types of entity, and the relation connecting appositions to the nominal phrases they define or modify. Example 1 contains the annotation of the two appositions in the text segment Lina Sarulli, prima Lina Taddei, ora Lina Fiorenzo (Lina Sarulli, previously Lina Taddei, now Lina Fiorenzo) from Pirandello’s story La buon’ anima. The two appositions are bound to the proper Lina Sarulli by a non-identity relation. We have added some markables to the MATE/GNOME scheme to mark pleonastic pronouns and pronouns in abandoned utterances4 . Possessive pronouns and deictic pronouns in direct speech are also annotated. These occurrences of deictic pronouns are in most cases part of the co-referential chains in the fiction data. Two slightly different annotation schemes are used for Danish and Italian, accounting for language specific differences, such as the fact that Italian is a subject PRO4 5 Only the author annotated this information. Other evaluation methods are discussed by Arstein and Poesio (2008). 7 http://www.geocities.com/skymegsoftware /pram.html. 6 These occur in direct speech in our fiction data. 108 Co-referential chains and discourse topic shifts in parallel and comparable corpora (1) <de ID="n643" firstm="MNO" syn-type="PR"> <link Ltype="ident" POINT-BACK="n334"/> <W id="w2.24.15" lemma="lina" pos="NPR">Lina</W> <W id="w2.24.16" lemma="sarulli" pos="NPR">Sarulli</W></de> <W id="w2.24.17" lemma="," pos="PON">,</W> <W id="w2.24.18" lemma="prima" pos="ADV">prima</W> <de ID="n644" firstm="MNO" syn-type="PR"> <link Ltype="no_ident" POINT-BACK="n643"/> <W id="w2.24.19" lemma="lina" pos="NPR">Lina</W> <W id="w2.24.20" lemma="taddei" pos="NPR">Taddei</W></de> <W id="w2.24.21" lemma="," pos="PON">,</W> <W id="w2.24.22" lemma="ora" pos="ADV">ora</W> <de ID="n645" firstm="MNO" syn-type="PR"> <link Ltype="no_ident" POINT-BACK="n643"/> <W id="w2.24.23" lemma="lina" pos="NPR">Lina</W> <W id="w2.24.24" lemma="fiorenzo" pos="NPR">Fiorenzo</W></de> (2) <seg1 ATYPE="indiv" ID="i25" PTYPE="lo-clitico" syn-type="V"> <link Ltype="ident" POINT-BACK="i24"/> <seg1 ATYPE="indiv" ID="i151" PTYPE="gli-clitico" syn-type="V"> <link Ltype="ident"POINT-BACK="n150"/> <W id="w25.57.60" lemma="promettere" pos="VER:geru">promettendoglielo</W></seg1></seg1> markable. The worse results were obtained in the annotation of discourse segment antecedents of abstract substantives. Examples of these abstract referring expression are tali situazioni (such situations) and questa discussione (this discussion). Inter-coder agreement for the annotation of pronominal abstract anaphora was not calculated because it had been tested in the DAD project (Navarretta and Olsen, 2008). An annotation example is in 3. The annotated text segment is [La Acqua M arcia]i può evitare il fallimento. [La finanziaria di [V incenzo Romagnoli]j ]i . . . ([La Acqua M arcia]i can avoid bankruptcy. [[V incenzo Romagnoli]j ’s investment company]i ) [Il Sole 24 ore(31.12.1992)]. The annotation of co-reference is expressed by saying that the nominal phrase Vincenzo Romagnoli’s investment company, is related to the proper La Acqua Marcia by an identity relation. 5 it da Zero 1225 - Clit 240 - PRO 1075 2331 Name 762 602 NPs 1995 1524 Table 3: Number of markables in literary texts are much longer than those in non-literary texts. This is not surprising because the stories are longer than the financial articles and they focus on fewer subjects (persons, objects) than the analysed European texts. In our data there are nearly 5 times more pronouns pr. 1000 words in literary data than in non-literary texts. Reference by substantives was on the contrary higher in the nonliterary texts than in the literary data (here the proportion pr. 1000 words was 4 to 1). The average distance in terms of sentences between referring expressions and their antecedents is higher in literary data than in non literary data. We have not investigated yet whether there is a relation between referential distance and number of discourse entities and possible candidate antecedents in the involved texts. Inferable entities are more often anchored to known entities by genitives in Danish than in Italian. An example is in 4. Results The number of markables annotated in the data are given in table 3. To these markables must be added the seg elements which code the non-nominal antecedents of abstract anaphora, pleonastic and abandoned occurrences of pronouns. The length of co-referential chains varies consistently from text type to text type independently from the analysed language. The (co)referential chains (4) Fin dal primo giorno, Bartolino Fiorenzo s’era sentito dire dalla promessa sposa. . . (the fiancèe) Fra første dag havde Bartolino 109 Costanza Navarretta Fiorenzo hørt sin tilkommende sige. . . (his fiancée) (From the very first day Bartolino Fiorenzo had heard his fiancée say. . . ) Pirandello: La buon’ anima cussed some dissimilarities in the use of referring expressions in the two languages. The relation between types of referring expression used to refer to the backward-looking center after different types of transition have been studied in the fiction data. Although the results are interesting they can only be considered preliminary because of the limited amount of data. Furthermore the analysed Danish texts are translations of the Italian stories, thus more differences in-between the two languages might be found in comparable data. However we believe that the strategy of looking at the relation between transition types and types of referring expression is very useful especially if conducted on more languages and on more types of text. Currently we are annotating the transition types on the remaining data and we plan to extend our analysis to the referential distance and to the number of competing antecedent candidates. In Italian the distal demonstrative determiners quel /quello/quella (that) and quelli /quelle (those) followed by a substantive are used if i) there are other clauses or nominal phrases in-between the referring expression and antecedent; ii) there is temporal or spatial distance from the antecedent. In Danish the proximal demonstrative determiners denne/dette/disse (this/these) are used in the same contexts: quella donna (that woman)/denne kvinde (this woman); quella sciagura (that calamity)/denne ulykke (this calamity). Only if the antecedent is the immediately preceding discourse segment the proximal demonstrative determiners are used in both languages. As noticed in (Navarretta, 2007; Navarretta and Olsen, 2008) abstract substantives are used in Italian in most cases where Danish uses abstract pronouns. The analysis of the relation between transition states and types of referring expressions in the three stories by Pirandello is given for Italian in figure 3 and for Danish in figure 4. The figures give a scale of the significantly most frequent referring expressions occurring as centers after the various Centering transition types8 . The results in the figures only partially confirm existing classifications of the givenness or salience of referring expressions and reflect some of the differences between Danish and Italian that we have previously discussed. An interesting fact, which cannot be seen in the figures is that in these particular data deictic pronouns are in 96% ”locally” deictic and have thus been linked to the local co-referential chains. Because the amount of our data is not large, the present results are only preliminary. 6 References Ariel, M. 1988. Referring and accessibility. Journal of Linguistics, 24(1):65–87. Ariel, M. 1994. Interpreting anaphoric expressions: a cognitive versus a pragmatic approach. Journal of Linguistics, 30(1):3– 40. Arstein, R. and M. Poesio. 2008. Inter-coder Agreement for Computational Liguistics. Computational Linguistics, 34(4):555–596. Asher, N. 1993. Reference to Abstract Objects in Discourse, volume 50 of Studies in Linguistics and Philosophy. Kluwer Academic Publishers, Dordrecht, the Netherlands. Brennan, S. F., M. W. Friedman, and C. J. Pollard. 1987. A Centering Approach to Pronouns. In Proceedings of ACL 87, pages 155–162, California, USA. Stanford University. Conclusion Cristea, D. and N. Ide. 1998. Veins theory: A model of global discourse cohesion and coherence. In Proceedings of COLING/ACL 98, pages 281–285, Montreal. We have presented a rich annotation of (co)referential chains in Danish and Italian comparable and/or parallel data and we have dis- Di Eugenio, B. 1996. The discourse functions of Italian subjects: a centering approach. In Proceedings of COLING 96, pages 352– 357, Copenhagen, Denmark. Centre for Language Technology. 8 In the two figures Def N. anchored refer to all definite nominal phrases which are bound to entities previously introduced in discourse (Prince, 1981) via e.g. genitive phrases, propositional phrases, relative clauses. 110 Co-referential chains and discourse topic shifts in parallel and comparable corpora Fais, L. 2004. Inferable centers, centering transitions and the notion of coherence. Computational Linguistics, 30(2):119–150. Navarretta, C. 2005. Combining information structure and centering-based models of salience for resolving danish intersentential pronominal anaphora. In A. Branco, T. McEnery, and R. Mitkov, editors, Anaphora Processing. Linguistic, cognitive and computational modeling, volume 263 of Current Issues in Linguistic Theory. John Benjamins Publishing Company, pages 329–350. Givón, T., editor. 1983. Topic Continuity in Discourse: A Quantitative CrossLanguage Study. John Benjamin, Amsterdam. Grosz, B., A. K. Joshi, and S. Weinstein. 1995. Centering:A Framework for Modeling the Local Coherence of Discourse. Computational Linguistics, 21(2):203–225. Navarretta, C. 2007. A contrastive analysis of abstract anaphora in danish, english and italian. In A. Branco, T. McEnery, R. Mitkov, and F. Silva, editors, Proceedings of DAARC 2007, pages 103–109. Centro de Linguistica da Universidade do Porto, March. Grosz, B. J. and C. L. Sidner. 1986. Attention, Intentions, and the Structure of Discourse. Computational Linguistics, 12(3):175–284. Navarretta, C. and S. Olsen. 2008. Annotating abstract pronominal anaphora in the DAD project. In Proceedings of LREC2008, Marrakesh, Marocco, May. Gundel, J. K., N. Hedberg, and R. Zacharski. 1993. Cognitive status and the form of referring expressions in discourse. Language, 69(2):274–307. Orăsan, Constantin. 2003. highly customizable tool for notation. In Proceedings of dial Workshop, pages 39 – Japan, July, 5 -6. Halliday, M. and R. Hasan. 1976. Cohesion in English. Longman, London. Hobbs, J. R. 1979. Coherence and Coreference. Cognitive Science, 3(1):67–90. PALinkA: a discourse anthe 4th SIG43, Sapporo, Poesio, M, R. Stevenson, B. Di Eugenio, and J. Hitzeman. 2004. Centering: A parametric theory and its instantiations. Computational Linguistics, 30(3):309–364. J.Cohen. 1968. Weighted kappa: nominal scale agreement with provision for scaled disagreement or partial credit. Psychological Bulletin, 70(4):213–220. Poesio, Massimo. 2004. The mate/gnome proposals for anaphoric annotation, revisited. In Michael Strube and Candy Sidner, editors, Proceedings of the 5th SIGdial Workshop, pages 154–162, Cambridge, Massachusetts, USA, April 30 May 1. Association for Computational Linguistics. Kibble, R. and R. Power. 2004. Optimizing Referential Coherence in Text Generation. Computational Linguistics, 30(4):401–416. Kuno, S. 1972. Functional sentence perspective. Linguistic Inquiry,, 3:269–320. Prince, E. F. 1981. Toward a taxonomy of given-new information. In P. Cole, editor, Radical Pragmatics. Academic Press, pages 223–255. Lambrecht, K. 1994. Information structure and sentence form - Topic, focus and the mental representations of discourse referents, volume 71 of Cambridge Studies in Linguistics. Cambridge University Press. Rocha, M.A.E. 2000. A corpus-based study of anaphora in english and portuguese. In S.P Botley and T. McEnery, editors, Corpus-based and Computational Approaches to Discourse Anaphora. Benjamins Publishing Company, pages 81–94. Maegaard, B., L. Offersgaard, L. Henriksen, H. Jansen, X. Lepetit, C. Navarretta, and C. Povlsen. 2006. The MULINCO corpus and corpus platform. In Proceedings of LREC-06), pages 2148–2153, Genova. Strube, M. and U. Hahn. 1999. Functional Centering - Grounding Referential Coherence in Information Structure. Computational Linguistics, 25(3):309–344. Navarretta, C. 2002. The use and resolution of Intersentential Pronominal Anaphora in Danish Discourse. Ph.D. thesis, University of Copenhagen, February. 111 Costanza Navarretta FOCUS PROPER < SUBJECT < OBJECT/PrepOBJECT < OBJECT2 < OTHER COMPLEMENTS < ADJUNCTS Figure 2: Hierarchy of verbal complements with focality preference (3) <P id="p35" topic="t35.1"> <S id="s35.1"> <de ID="n173" firstm="MYES" syn-type="PR"> <link Ltype="ident" POINT-BACK="n172"/> <W id="w35.1.1" lemma="il" pos="DET:def">La</W> <W id="w35.1.2" lemma="acqua" pos="NOM">Acqua</W> <W id="w35.1.3." lemma="marcio" pos="ADJ">Marcia</W></de> <W id="w35.1.4" lemma="potere"pos="VER:pres">può</W> <W id="w35.1.5" lemma="evitare" pos="VER:infi">evitare</W> <de ID="n521" firstm="MYES" syn-type="DefN"> <W id="w35.1.6" lemma="il" pos="DET:def">il</W> <W id="w35.1.7" lemma="fallimento" pos="NOM">fallimento</W></de> <W id="w35.1.8" lemma="." pos="SENT">.</W></S> <S id="s35.2"> <de ID="n174" firstm="MNO" syn-type="DefN-anch"> <link Ltype="ident" POINT-BACK="n173"/> <W id="w35.2.1" lemma="il" pos="DET:def">La</W> <W id="w35.2.2" lemma="finanziaria" pos="NOM">finanziaria</W> <W id="w35.2.3" lemma="di" pos="PRE">di</W> <de ID="n522" syn-type="PR"> <W id="w35.2.4" lemma="Vincenzo" pos="NPR">Vincenzo</W> <W id="w35.2.5" lemma="romagnoli" pos="NPR">Romagnoli</W></de> </de>... </S>... </P> Continue: Zero> Pronoun>clitic> Dem. N Retain: Clitic>Pronoun > Proper Name > Def. N >Def. N anchored> Zero > Dem. N Smooth Shift: Proper Name > Def. N > Pronoun>Def. N anchored Rough Shift: Def. N > Def. N anchored> Proper Name> Dem. N >Pronoun NULL: Proper name > Def. N anchored > Indef. N > Def. N Figure 3: Transition types and referring expressions in Italian Continue: Pronoun>Name>Def. N anchored Retain: Pronoun > Proper Name > Def. N anchored >Def. N> Smooth Shift: Proper Name > Def. N anchored > Pronoun>Def N Rough Shift: Def. N anchored> Proper Name> Def. N>Pronoun NULL: Proper name > Def. N anchored > Indef. N > Def. N Figure 4: Transition types and referring expressions in Danish 112 Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 113-120 recibido 15-01-09, aceptado 02-03-09 Detecting Anaphoricity and Antecedenthood for Coreference Resolution Detección de la anaforicidad y de los antecedentes para la resolución de la correferencia Olga Uryupina Institute of Linguistics, Russian Academy of Science B. Kislovky per. 1/12, Moscow [email protected] Resumen: La mayorı́a de sistemas de resolución de la correferencia (CR) intentan resolver todos los candidatos a anáfora comparándolos a todos los antecedentes candidatos precedentes hasta que se encuentra el correcto. En este estudio se investigan las posibilidades de identificar las anáforas y antecedentes improbables. Se evalúa nuestra aproximación con el corpus MUC-7. Palabras clave: Correferencia, anaforicidad Abstract: Most coreference resolution (CR) systems try to resolve all “candidate anaphors” by comparing them to all preceding “candidate antecedents” until the correct one is found. In this study we investigate possibilities to identify unlikely anaphors and antecedents. We evaluate our approach on the MUC-7 corpus. Keywords: Coreference, Anaphoricity 1 Introduction Most coreference resolution (CR) systems try to resolve all “candidate anaphors” by comparing them to all preceding “candidate antecedents” until the correct one is found. Not all noun phrases in a document, however, participate in coreference relations, and, even if they do, they often can only be anaphors or antecedents, but not both. Present study investigates possibilities to automatically reduce the pool of anaphors and antecedents by filtering out unlikely candidates. In some cases, we can determine if a markable could potentially be an anaphor or an antecedent by looking at its structure and surrounding context. Consider the following example: (1) Shares in [Loral Space]1 will be distributed to Loral shareholders. [The new company]2,ante=1 will start life with [no debt]3 and $700 million in cash. [Globalstar]4 still needs to raise [$600 million]5 , and Schwartz said that [the company]6,ante=4 would try to raise [the money]7,ante=5 in [the debt market]8 . The third markable, “no debt” can be neither an anaphor, nor an antecedent. We can tell that by looking at its structure – with the determiner “no”, this description does not reISSN 1135-5948 fer to any entity. The second, sixth and seventh markables are all definite descriptions and therefore are likely to be anaphoric. The eighth markable, “the debt market” is a definite NP, but it is a uniquely referring description and thus it might as well be non anaphoric. Finally, the fifth markable, “$600 million” is a possible antecedent (and is indeed mentioned again as “the money” later), but not a very likely anaphor. Most CR systems, including, for example, the algorithm of Soon, Ng, and Lim (2001) try to resolve all “candidate anaphors” by comparing them to all preceding “candidate antecedents” until the correct one is found. Such approaches require substantial amount of processing: in the worst case one has to check n(n − 1)/2 candidate pairs, where n is the total number of markables found by the system. Moreover, spurious coreference links may appear when, for example, a nonanaphoric description is resolved to some preceding markable. Vieira and Poesio (2000) have shown that such an exhaustive search is not needed, because many noun phrases are not anaphoric at all: more than 50% of definite NPs in their corpus have no prior referents. Obviously, this number is even higher if one takes into © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural Olga Uryupina account all the other types of NPs – for example, only 30% of our (automatically extracted) markables are anaphoric. We can conclude that a coreference resolution engine might benefit from a pre-filtering algorithm for identifying non-anaphoric and non-antecedent descriptions. First, we save much processing time by discarding at least half of the markables. Second, the prefiltering module is expected to improve the system’s precision by discarding spurious candidates. In Section 2 we briefly summarise theoretical research on anaphoricity and referentiality and discuss the related applications. Note that theoretical studies focus on referentiality, whereas we will consider a related task of detecting antecedenthood (this will be described in details below). In Section 3 we experiment on learning anaphoricity and antecedenthood filters from the MUC data. In Section 4 we incorporate the anaphoricity and antecedenthood classifiers into a baseline no-prefiltering coreference resolution system to see if such prefiltering modules help. 2 cific indefinite NP is to be associated with a referent, a text-interpreting device must be able to assign a truth value to the proposition represented by the sentence in which the NP appears. It must be sensitive to the semantic properties of verbs that take sentential complements; distinguish between assertion, implication, and presupposition; and finally, it must distinguish what exists for the speaker from what exists only for somebody else”. Byron and Gegg-Harrison (2004) present an algorithm for identifying “nonlicensing” NPs based on Karttunen’s theory of referentiality. Their approach relies on a handcrafted heuristic, encoding some of (Karttunen, 1976) factors. In the present study we represent this information as features for machine learning. Numerous theories of anaphoricity, especially for definite descriptions, have been proposed in the literature. We point the reader to Vieira (1998) for an extensive overview and comparison of the major theoretic studies in the field. The theories aim at interpreting (definite) descriptions by relating them to the linguistic and situational context and, more specifically, to their antecedents. From this perspective, an NP may be given (related to the preceding discourse) or new (introducing an independent entity). The theories of anaphoricity provide different detailed subclassifications of given and new descriptions. For example, Prince (1981) distinguishes between the discourse and the hearer givenness. This results in the following taxonomy: Related Work In this section, we present an overview of theoretical studies of referentiality (Karttunen, 1976) and anaphoricity (Prince, 1981). We also discuss relevant computational approaches (Bean and Riloff, 1999; Ng and Cardie, 2002; Uryupina, 2003; Vieira and Poesio, 2000; Byron and Gegg-Harrison, 2004). Karttunen (1976) points out that in some cases an NP, in particular an indefinite one, does not refer to any entity: (2) Bill doesn’t have [a car]. Obviously, (2) does not imply the existence of any specific “car”. In Karttunen’s terms, the NP “a car” does not establish a discourse referent and therefore it cannot participate in any coreference chain – none of the alternatives in (3) can follow (2): (3) A.[It] is black. B.[The car] is black. C.[Bill’s car] is black. • brand new NPs introduce entities which are both discourse and hearer new (“a bus”), some of them, brand new anchored NPs, contain explicit link to some given discourse entity (“a guy I work with”), • unused NPs introduce discourse new, but hearer old entities (“Noam Chomsky”), • evoked NPs introduce entities already present in the discourse model and thus discourse and hearer old: textually evoked NPs refer to entities which have already been mentioned in the previous discourse (“he” in “A guy I worked with says he knows your sister”), whereas situationally evoked are known for situ- Karttunen (1976) identifies several factors affecting referential status of NPs, including modality, negation, or nonfactive verbs. He argues that an extensive analysis of the phenomenon requires sophisticated inference: “In order to decide whether or not a nonspe114 Detecting Anaphoricity and Antecedenthood for Coreference Resolution preting NPs, accounting for documents information structure.However, it is not a priori clear whether such approaches are useful for coreference resolution. On the one hand, discarding discourse-new and/or nonreferential NPs from the pool of candidate anaphors and antecedents, we can drastically narrow down the algorithm’s search space. This reduces the processing time and makes candidate re-ranking much easier. On the other hand, errors, introduced by automatic anaphoricity or referentiality detectors, may propagate and thus deteriorate the performance of a coreference resolution engine. ational reasons (“you” in “Would you have change of a quarter?”), • inferrables are not discourse or hearer old, however, the speaker assumes the hearer can infer them via logical reasoning from evoked entities or other inferrables (“the driver” in “I got on a bus yesterday and the driver was drunk”), containing inferrables make this inference link explicit (“one of these eggs”). Linguistic theories, including (Prince, 1981), focus on anaphoric usages of definite descriptions (either evoked or inferrables). Recent corpus studies (Poesio and Vieira, 1998) have revealed, however, that more than 50% of (definite) NPs in newswire texts are not anaphoric. These findings have motivated recent approaches to automatic identification of discourse new vs. old NPs. Several algorithms for identifying discourse-new markables have been proposed in the literature, especially for definite descriptions. Vieira and Poesio (2000) use hand-crafted heuristics, encoding syntactic information. For example, the noun phrase “the inequities of the current land-ownership system” is classified by their system as discourse new, because it contains the restrictive postmodification “of the current land-ownership system”. This approach leads to 72% precision and 69% recall for definite discourse-new NPs on their corpus. Palomar and Muñoz (2000) propose a related algorithm for Spanish. Bean and Riloff (1999) make use of syntactic heuristics, but also mine additional patterns for discourse-new markables from corpus data. Using various combinations of these methods, (Bean and Riloff, 1999) achieve an F-measure for existential NPs of about 81–82% on the MUC-4 data.1 In an earlier paper (Uryupina, 2003) we have proposed a web-based algorithm for identifying discourse-new and unique NPs. Our approach helps overcome the data sparseness problem of Bean and Riloff (1999) by relying on Internet counts. The above-mentioned algorithms for automatic detection of discourse-new and nonreferential descriptions are helpful for inter- Ng and Cardie (2002) have shown that an automatically induced detector of nonanaphoric descriptions leads to performance losses for their coreference resolution engine, because too many anaphors are misclassified as discourse-new. To deal with the problem, they have augmented their discourse-new classifier with several precision-improving heuristics. In our webbased study (Uryupina, 2003) we have tuned machine learning parameters to obtain a classifier with a better precision level. In a later study, Ng (2004) relies on held-out data to optimise relevant learning parameters and to decide on the possible system architecture. Byron and Gegg-Harrison (2004) report ambivalent results concerning the importance of a referentiality detector for pronominal coreference. On the one hand, the incorporation of referentiality prefiltering in several pronoun resolution algorithms does not yield any significant precision gains. On the other hand, such a prefiltering significantly reduced the systems’ processing time. To summarise, several algorithms for detecting non-referring or non-anaphoric descriptions have been proposed in the literature. These studies revealed two major problems. First, it is necessary to identify and represent relevant linguistic factors affecting the referentiality or anaphoricity status of an NP. Second, incorporating error-prone automatic modules for identifying discourse-new or non-referential descriptions into a coreference resolution engine is a non-trivial task of its own: when not properly optimised, such modules may lead to performance losses. We will address these two problems in the following sections. 1 (Bean and Riloff, 1999) existential class contains not only brand new NPs, but also all mentions (including anaphoric) of unique descriptions, such as “the pope” or “the FBI”. 115 Olga Uryupina 3 Identifying Non-anaphors and Non-antecedents is an antecedent for some subsequent markable. We have therefore changed the scope of the present experiment to detecting antecedenthood – the probability for a markable to be an antecedent. In the present experiment, we rely on 30 MUC-7 “dry-run” documents for training. For testing, we use the validation (3 MUC-7 “train” documents) and testing (20 MUC-7 “formal test” documents) sets. This results in 5028 noun phrases for training and 976/3375 for the validation/testing data. 3325 training instances were annotated as +discourse new/−ante and 1703 – as −discourse new/+ante2 (613/2245and 363/1130 for testing). All the performance figures reported below are for +discourse new and −ante classes. Corpus studies (Poesio and Vieira, 1998) suggest that human annotators are able to successfully distinguish between anaphoric (discourse old) and non-anaphoric (discoursenew) descriptions. This motivates the present experiment: using machine learning techniques we try to automatically detect probable anaphors and antecedents. In our next experiment (Section 4) we will incorporate our anaphoricity and referentiality classifiers into a coreference resolution system. 3.1 Data We use the MUC-7 corpus in our experiment. We have automatically extracted noun phrases using Charniak’s parser (Charniak, 2000) and C&C NE-tagging system (Curran and Clark, 2003). We have automatically annotated our NPs as ±discourse new using the following simple rule: an NP is considered −discourse new if and only if it is marked in the corpus and has an antecedent. Extracting referentiality information from coreference annotated data is by far less trivial. By definition (Karttunen, 1976), non-referential descriptions cannot be antecedents for any subsequent NPs. Consider, however, the following example: (7) There was [no listing]1 for [the company]2 in [Wilmington]3 . In (7), the NP “no listing” is not referential and, therefore, cannot be an antecedent for any subsequent markable. Both “the company” and “Wilmington”, on the contrary, are referential and could potentially be rementioned. However, this does not happen, as the document ends with the next sentence. By looking at coreference annotated data, we can only say whether an NP is an antecedent, but, if it is not, we cannot decide if it is referential (as “the company” or “Wilmington”) or not (as “no listing”). Consequently, we cannot automatically induce referentiality annotation from coreference data. For our main task, coreference resolution, we are not exactly interested in the referential vs. non-referential distinction. We would rather like to know how likely it is for a markable to be an antecedent. Therefore, instead of a referentiality detector in the strict sense, we need a ±ante labelling: an NP is considered +ante, if it is annotated in MUC-7 and 3.2 Features We encode our markables with feature vectors, representing different linguistic factors: surface, syntactic, semantic, salience, samehead, and (Karttunen, 1976) properties. Surface features encode the most shallow properties of an NP, such as its length, amount of upper and lower case characters and digits etc. Syntactic features include POS tags, number and person values, determiner and pre- and post-modification. Semantic features encode gender ans semantic class properties. Salience features encode various rankings within a sentence and a paragraph according to the linear order of the NPs and their grammatical role. “Same-head” features represent coreference knowledge on a very simplistic level. The boolean feature same head exists shows if there exists a markable in the preceding discourse with the same head as the given NP, and the continuous feature same head distance encodes the distance to this markable. Obtaining values for these features does not require exhaustive search when heads are stored in an appropriate data structure, for example, in a trie. The motivation for “same-head” features comes from (Vieira and Poesio, 2000) and (Poesio et al., 2004): they show that anaphoricity detectors might benefit from an early inclusion of a simplified coreference check. 2 As each anaphor is linked to exactly one antecedent according to the MUC-7 annotation guidelines, there is a one-to-one correspondence between −discourse new and +ante classes. 116 Detecting Anaphoricity and Antecedenthood for Coreference Resolution The last group encodes the referentialityrelated factors investigated by Karttunen (1976) and Byron and Gegg-Harrison (2004): apposition, copula, negation, modal constructions, determiner, grammatical role, and semantic class. The values are extracted from the parser’s and the NE-tagger’s output. Altogether we have 49 features: 12 surface, 20 syntactic, 3 semantic, 10 salience, 2 “same-head”, and 7 of Karttunen’s constructions, corresponding to 123 boolean/continuous features. 3.3 In fact, the classifier based on these features alone (Table 1, last line) achieves almost the same performance level as the one based on all features taken together (no significant difference in precision and recall, χ2 -test). As we have already mentioned when discussing the baseline, from a coreference resolution perspective, we are interested in a discourse-new detector with a high precision level: each anaphor misclassified as discourse new is excluded from further processing and therefore cannot be resolved. On the contrary, if we misclassify a non-anaphoric entity as discourse old, we still can hope to correctly leave it unresolved by rejecting all the candidate antecedents. Therefore we might want to improve the precision of our discourse-new detector as much as possible, even at the expense of recall. To increase the precision level, we have chosen another machine learner, Ripper, that allows to control the precision/recall tradeoff by manually optimising the LossRatio parameter: by varying the LossRatio from 0.33 to 1.0, we obtain different precision and recall values. As in SVM’s case, the best performing groups are syntactic and “same head” features. With all the features activated, the precision gets as high as 90% when the LossRatio is low. In Section 4 we will see if this performance is reliable enough to help a coreference resolution engine. Identifying discourse-new markables As a baseline for our experiments we use the major class labelling: all markables are classified as +discourse new. This results in Fscores of 79.9% and 77.2% for the testing and validation data. This baseline can be used as a comparison point for ±discourse new detectors. However, it has no practical relevance for our main task, coreference resolution: if we classify all the markables as +discourse new and, consequently, discard them, the system would not even try to resolve any anaphors. In all the tables in this paper we show significant improvements over the baseline for p < 0.05/p < 0.01 by ∗/ ∗ ∗ and significant losses – by †/ † †. We have trained the SVMlight classifier for ±discourse new descriptions. Its performance is summarised in Table 1. Compared to the baseline, the recall goes down (the baseline classifies everything as +discourse new, showing the recall level of 100%), but the precision improves significantly. This results in an F-score improvement of 5-8%, corresponding to 23-38% relative error reduction. Among different feature groups, surface, salience, and (Karttunen, 1976) factors show virtually no performance gain over the baseline. Surface features are too shallow. Salience and (Karttunen, 1976)-motivated features have primarily been designed to account for the probability of a markable being an antecedent, not an anaphor. Based on semantic features alone, the classifier does not perform different from the baseline – although, by bringing the recall and precision values closer together, the F-score improves, the precision is still low. The two groups with the best precision level are syntactic and “same head” features. 3.4 Identifying non-antecedents We have trained another family of classifiers to detect non-antecedents. Table 2 shows SVM’s performance for the ±ante task. The major class labelling, −ante serves as a baseline. The classifier’s performance is lower than for the ±discourse new task, with only syntactic and semantic features leading to a significant precision improvement over the baseline. The lower performance level reflects the intrinsic difficulty of the task. When processing a text, the reader has to decide if an encountered description is a re-mention or a new entity to be able to correctly ground it in the discourse model. Therefore we can expect linguistic cues to signal if a markable is ±discourse new. For ±ante descriptions, on the contrary, there is no need for such signals: often an entity is introduced but then never 3 Lower values result in the trivial labelling (“classify everything as discourse old”). 117 Olga Uryupina Features Baseline All Surface Syntactic Semantic Salience Same-head Karttunen’s mentioned again as the topic changes. As Table 2 shows, the classifier mostly makes precision errors. For non-antecedents, precision is not as crucial as for nonanaphors: if we erroneously discard a correct antecedent, we still can resolve subsequent anaphors to other markables from the same chain. However, if we misclassify the first markable and discard it from the pool of antecedents, we have no chance to correctly resolve the subsequent anaphors. Consequently, we would still prefer recall errors over precision errors, although not to such extent as for the ±discourse new classifier. We have trained a family of Ripper classifiers to improve the precision level by decreasing the LossRatio parameter from 1.0 to 0.3. The best observed precision level is 80.4% for the “all features” classifier. To summarise, the present experiment shows that automatically induced classifiers, both SVM and Ripper-based, can successfully identify unlikely anaphors and antecedents. The performance level (Fscore) varies around 75-88% for different test sets (validation vs. testing) and tasks (±discourse new vs. ±ante). Features Baseline All Surface Syntactic Semantic Salience Same-head Karttunen’s Synt+SH Recall 100 ††93.54 100 ††97.37 ††98.53 ††91.22 ††84.45 ††91.63 ††89.98 Precision 66.52 **82.29 66.52 **71.96 *68.89 *69.26 **81.16 **71.15 **83.51 Precision 66.52 *69.23 68.50 *69.23 *69.41 67.0 66.52 67.31 F 79.89 80.35 79.45 80.35 80.18 79.88 79.89 80.23 Table 2: An SVM-based antecedenthood detector: performance for the −ante class on the test data (20 MUC-7 “formal” documents). 4.1 Oracle settings To investigate the relevance of anaphoricity and antecedenthood for coreference resolution, we start by incorporating oracle-based prefiltering into the baseline system. For example, our oracle-based anaphoricity filter discards all the discourse-new markables (according to the MUC-7 coreference chains) from the pool of anaphors. The impact of our ideal filters on the main system is summarised in Table 3. As expected, by constraining the set of possible anaphors and/or antecedents, we dramatically improve the algorithm’s precision. Slightly unexpected, the recall goes down even in the oracle setting. This reflects a peculiarity of the MUC-7 scoring scheme – it strongly favours long chains. Prefiltering modules, on the contrary, split long chains into smaller ones. Several other studies (Ng and Cardie, 2002; Mitkov, Evans, and Orasan, 2002) have revealed similar problems: existing coreference scoring schemes cannot capture the performance of an anaphoricity classifier. With precision getting much higher at the cost of a slight recall loss, the ideal ±discourse new and ±ante detectors improve the baseline coreference engine’s performance by up to 10% (F-score). F 79.89 87.56 79.89 82.76 81.09 78.74 82.77 80.10 86.62 Table 1: An SVM-based anaphoricity detector: performance for the ±discourse new class on the test data (20 MUC-7 “formal” documents). 4 Recall 100 ††95.72 ††94.56 ††95.72 ††94.92 ††98.88 100 ††99.29 Integrating Anaphoricity and Antecedenthood Prefiltering into a Coreference Resolution Engine 4.2 Automatically acquired detectors Getting from the oracle setting to a more realistic scenario, we have combined our baseline system with the ±discourse new and ±ante detectors we have learnt in our first experiment. The evaluation has been organised as follows. For a given LossRatio value, we have In the previous experiment we have learnt two families of classifiers, detecting unlikely anaphors and antecedents. In this section we incorporate them into a baseline coreference resolution system – an SVM classifier with (Soon, Ng, and Lim, 2001) features. 118 Detecting Anaphoricity and Antecedenthood for Coreference Resolution Prefiltering No prefiltering (baseline) Ideal discourse new detector Ideal ante detector Ideal discourse new and ante detectors Recall 54.5 49.6 54.2 52.9 Precision 56.9 **73.6 **69.4 **81.9 F-score 55.7 59.3 60.9 64.3 Table 3: Incorporating oracle-based ±discourse new and ±ante prefiltering into a baseline coreference resolution system: performance on the validation data (3 MUC-7 “train” documents). learnt a ±discourse new/ ± ante detector as described above. The detector is then incorporated as a pre-filtering module into the baseline system. This allows us to evaluate the performance level of the main coreference resolution engine (the MUC score) depending on the precision/recall trade-off of the prefiltering modules. The results (Figures 1 and 2) show that automatically induced detectors drastically decrease the main system’s recall: it goes down to 40% (for ±discourse new, L = 0.8) or even 33% (for ±ante, L = 1). For small L values, the system’s recall is slightly lower, and the precision higher than the baseline (both differences are not significant). The resulting F-score for the system with prefiltering is slightly lower than the baseline’s performance for small values of the Loss Ratio parameter and then decreases rapidly for L > 0.5. To summarise, the results of the present experiment are ambivalent. On the one hand, ideal detectors bring F-score gains by significantly increasing the system’s precision. On the other hand, error-prone automatically induced detectors are not reliable enough to produce a similar precision gain and the system’s F-score goes down because of the recall loss, as the baseline’s recall is already relatively low. Consequently, a coreference resolution algorithm might profit from an automatic ±discourse new or ±ante detector if its precision has to be improved, for example, if it mainly makes recall errors or, for a specific application, if a high-precision coreference resolution algorithm is required (as, for example, the CogNIAC system proposed by (Baldwin, 1996)). 5 60 Discourse new prefiltering No prefiltering 59.5 59 Precision L=1 L=0.3 58.5 58 57.5 57 56.5 40 42 44 46 48 Recall 50 52 54 56 Figure 1: A baseline coreference resolution engine augmented with Ripper-based anaphoricity prefiltering: performance on the validation (3 MUC-7 “train” documents) data for different LossRatio (L) values of prefiltering classifiers. 60 59 L=0.3 Precision 58 57 56 Antecedenthood prefiltering No prefiltering 55 L=1 54 30 35 40 45 50 55 Recall Figure 2: A baseline coreference resolution engine augmented with Ripper-based antecedenthood prefiltering: performance on the validation (3 MUC-7 “train” documents) data for different LossRatio (L) values of prefiltering classifiers. texts participate in coreference chains, our ±discourse new and ±ante detectors might significantly constrain the main algorithm’s search space, improving its speed and performance. We have compared different feature groups for the tasks of ±discourse new and ±ante detection. We have seen that, for both tasks, SVM and Ripper classifiers based on all the investigated features outperform the Conclusion In this paper we have investigated the possibility of automatically identifying unlikely anaphors and antecedents. As only around 30% of markables in newswire 119 Olga Uryupina baseline. We have also learnt two families of classifiers with different precision/recall trade-offs. We have incorporated our ±discourse new and ±ante detectors into a baseline coreference resolution system. We have seen that ideal prefiltering significantly improves the system’s precision at the expense of a slight recall loss. This leads to an F-score improvement of up to 10%. Automatically acquired detectors can only moderately improve the system’s precision and therefore do not bring any F-score gains. We still believe, however, that anaphoricity and antecedenthood detectors might help a coreference resolution system with a lower precision and higher recall. guistics and Intelligent Text Processing. Springer, pages 169–187. Ng, Vincent. 2004. Learning noun phrase anaphoricity to improve coreference resolution: Issues in representation and optimization. In Proceedings of the 42nd Annual Meeting of the Association for Computationa Linguistics. Ng, Vincent and Claire Cardie. 2002. Identifying anaphoric and non-anaphoric noun phrases to improve coreference resolution. In Proceedings of the 19th International Conference on Computational Linguistics. Palomar, Manuel and Rafael Muñoz. 2000. Definite descriptions in an information extraction systems. In IBERAMIA-SBIA, pages 320–328. References Poesio, Massimo, Olga Uryupina, Renata Vieira, Mijail Alexandrov-Kabadjov, and Rodrigo Goulart. 2004. Discourse-new detectors for definite description resolution: a survey and preliminary proposal. In Proceedings of the Refrence Resolution Workshop at ACL’04. Baldwin, Breck. 1996. Cogniac: A high precision pronoun resolution engine. Technical report, University of Pennsylvania. Bean, David L. and Ellen Riloff. 1999. Corpus-based identification of nonanaphoric noun phrases. In Proceedings of the 37th Annual Meeting of the Association for Computationa Linguistics, pages 373–380. Poesio, Massimo and Renata Vieira. 1998. A corpus-based investigation of definite description use. Computational Linguistics, 24(2):183–216. Byron, Donna and Whitney Gegg-Harrison. 2004. Eliminating non-referring noun phrases from coreference resolution. In Proceedings of the 4th Discourse Anaphora and Anaphor Resolution Colloquium. Prince, Ellen E. 1981. Toward a taxonomy of given-new information. In P. Cole, editor, Radical Pragmatics. Academic Press, pages 223–256. Charniak, Eugene. 2000. A maximumentropy-inspired parser. In Proceedings of the 1st Meeting of the North American Chapter of the Association for Computational Linguistics, pages 132–139. Soon, Wee Meng, Hwee Tou Ng, and Daniel Chung Yong Lim. 2001. A machine learning approach to coreference resolution of noun phrases. Computational Linguistics (Special Issue on Computational Anaphora Resolution), 27(4):521–544. Curran, James R. and Stephen Clark. 2003. Language independent NER using a maximum entropy tagger. In Proceedings of the Seventh Conference on Natural Language Learning, pages 164–167. Uryupina, Olga. 2003. High-precision identification of discourse-new and unique noun phrases. In Proceedings of the ACL’03 Student Workshop, pages 80–86. Karttunen, Lauri. 1976. Discourse referents. In J. McKawley, editor, Sytax and Semantics, volume 7. Academic Press, pages 361–385. Vieira, Renata. 1998. A review of the linguistic literature on definite descriptions. Acta Semiotica et Linguistica, 7:219–258. Vieira, Renata and Massimo Poesio. 2000. An empirically-based system for processing definite descriptions. Computational Linguistics, 26(4):539–593. Mitkov, Ruslan, Richard Evans, and Constantin Orasan. 2002. A new, fully automatic version of mitkov’s knowledge-poor pronoun resolution method. In Alexander Gelbukh, editor, Computational Lin120 Tesis Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 123-124 recibido 28-11-08, aceptado 02-03-09 Empleo de métodos no supervisados basados en corpus para construir traductores automáticos basados en reglas∗ Using unsupervised corpus-based methods to build rule-based machine translation systems Felipe Sánchez-Martı́nez Departament de Llenguatges i Sistemes Informàtics Universitat d’Alacant. E-03071, Alacant, Spain [email protected] Resumen: Tesis doctoral en Informática realizada en la Universitat d’Alacant por Felipe Sánchez Martı́nez bajo la dirección de los doctores Juan Antonio Pérez Ortiz y Mikel L. Forcada. La defensa de la tesis tuvo lugar el 30 de junio de 2008 ante el tribunal formado por los doctores Rafael C. Carrasco (Univ. d’Alacant), Lluı́s Padró y Lluı́s Màrquez (Univ. Politècnica de Catalunya), Harold Somers (Univ. of Manchester) y Andy Way (Dublin City Univ.). La calificación obtenida fue Sobresaliente Cum Laude por unanimidad, con mención de Doctor Europeo. Palabras clave: Traducción automática, desambiguación léxica categorial, inferencia de reglas de transferencia, modelado del lenguaje. Abstract: PhD thesis in Computer Engineering written by Felipe Sánchez-Martı́nez at Universitat d’Alacant under the joint supervision of Dr. Juan Antonio Pérez-Ortiz and Dr. Mikel L. Forcada. Author was examined on June 30th , 2008 by the committee formed by Dr. Rafael C. Carrasco (Univ. d’Alacant), Dr. Lluı́s Padró and Dr. Lluı́s Màrquez (Univ. Politècnica de Catalunya), Dr. Harold Somers (Univ. of Manchester) and Dr. Andy Way (Dublin City Univ.). The grade obtained was Sobresaliente Cum Laude (highest mark), with the European Doctor mention. Keywords: Machine translation, part-of-speech tagging, language modeling, transfer rules inference. 1. Introducción Recientemente los enfoques basados en corpus para el desarrollo de sistemas de traducción automática (TA) han visto incrementada la atención recibida; sin embargo, los sistemas de TA basados en reglas siguen siendo desarrollados dado que no todos los pares de lenguas para los cuales existe demanda tienen a su disposición la gran cantidad de textos paralelos necesarios para entrenar sistemas de TA de propósito general basados en corpus; y también porque los sistemas basados en reglas son más fácilmente diagnosticables y los errores que producen suelen tener una naturaleza más repetitiva y previsible, lo cual ayuda a los profesionales que tienen que corregir su salida. Esta tesis se centra en el desarrollo de sistemas de TA basados en reglas y más concretamente en sistemas de TA por transfe∗ Tesis financiada por el Ministerio de Educación y Ciencia y el Fondo Social Europeo a través de la ayuda a la investigación BES-2004-4711. ISSN 1135-5948 rencia estructural superficial (Hutchins y Somers, 1992) para la traducción entre lenguas emparentadas. De todos los recursos que son necesarios para construir un sistema de TA por transferencia (estructural) superficial esta tesis se centra en la obtención de forma no supervisada, a partir de corpus, de: los desambiguadores léxicos categoriales empleados para resolver la ambigüedad léxica de los textos a traducir, y el conjunto de reglas de transferencia que se emplean para adecuar la traducción a la reglas gramaticales de la lengua meta. 2. Desambiguadores léxicos categoriales para TA En TA, la correcta elección de la categorı́a léxica de las palabras a traducir es crucial dado que la traducción de una palabra en lengua origen (LO) a la lengua meta (LM) puede diferir de una categorı́a léxica a otra. © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural Felipe Sánchez-Martínez De entre los diferentes enfoques existentes para la obtención de desambiguadores léxicos categoriales, esta tesis se centra en el desarrollo de desambiguadores léxicos categoriales basados en modelos ocultos de Markov (MOM) (Cutting et al., 1992). Éstos pueden entrenarse de forma supervisada mediante el empleo de textos desambiguados (o etiquetados) a mano, o bien de forma no supervisada mediante el uso del algoritmo de Baum y Welch con texto no etiquetado. Estos métodos sólo emplean información de la lengua que pretenden desambiguar. Sin embargo, cuando el desambiguador léxico categorial resultante se integra en un sistema de TA hay que tener en consideración: Una vez obtenidas, las plantillas de alineamiento son filtradas atendiendo a su frecuencia de aparición en la colección de textos paralelos. Finalmente las plantillas de alineamiento seleccionadas se emplean para la generación de reglas de transferencia en el formato usado por el ingenio de TA Apertium. Para evaluar las reglas inferidas se han realizado experimentos con tres pares de lenguas de Apertium. Las reglas inferidas ofrecen mejores resultados que la traducción palabra por palabra, y resultados próximos a los obtenidos cuando las reglas de transferencia son codificadas a mano por lingüistas. En cuanto a la cantidad de corpus paralelos necesarios para obtener un conjunto de reglas de transferencia que proporcionen una calidad de traducción aceptable, los experimentos realizados con distintos tamaños de corpus demuestran que con un corpus de medio millón de palabras la calidad de las reglas inferidas es satisfactoria, incluso para algunos pares de lenguas la calidad es similar a la obtenida cuando las reglas de transferencia se obtiene a partir de un corpus de entrenamiento de dos millones de palabras. que un modelo estadı́stico de la LM puede utilizarse de forma no supervisada para obtener mejores desambiguadores léxicos categoriales, y que en TA lo que realmente importa es la calidad final de la traducción, no la precisión del desambiguador. Se propone un nuevo método, inspirado en los dos hechos arriba mencionados, para el entrenamiento de desambiguadores léxicos categoriales de la LO basados en MOM, mediante el empleo de información de la LM, ası́ como del resto de módulos del sistema de TA en el que el desambiguador se integra. Los experimentos realizados con tres pares de lenguas de Apertium (http://www.apertium. org) muestran que el sistema de TA ofrece mejores resultado cuando el desambiguador léxico categorial es entrenado usando este nuevo método que cuando es entrenado con el algoritmo de Baum y Welch. 3. Información adicional Los métodos descritos en esta tesis han sido liberados como código abierto y pueden descargarse desde http://sf.net/projects/apertium/; paquetes apertium-tagger-training-tools y apertium-transfer-tools. Estos paquetes se integran perfectamente en el proceso de desarrollo de nuevos pares de lenguas para Apertium. La tesis está disponible en http://www.dlsi.ua.es/~fsanchez/pub/ thesis/thesis.pdf. Bibliografı́a Inferencia automática de reglas de transferencia estructural Cutting, D., J. Kupiec, J. Pedersen, y P. Sibun. 1992. A practical part-of-speech tagger. En Proceedings of the Third Conference on Applied Natural Language Processing, páginas 133–140. Esta tesis también propone un método no supervisado para la inferencia de reglas de transferencia estructural superficial. Esta reglas se basan en plantillas de alineamiento (Och y Ney, 2004) como las usadas en TA estadı́stica. Para su empleo en sistemas de TA basados en reglas las plantillas de alineamiento han tenido que ser adaptadas y extendidas con un conjunto de restricciones que controlan su aplicación como reglas de transferencia. Hutchins, W. J. y H. L. Somers. 1992. An Introduction to Machine Translation. Academic Press. Och, F. J. y H. Ney. 2004. The alignment template approach to statistical machine translation. Computational Linguistics, 30(4):417–449. 124 Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 125-126 recibido 22-12-08, aceptado 02-03-09 Los Roles Semánticos en la Tecnologı́a del Lenguaje Humano: Anotación y Aplicación∗ Semantic Roles in Human Language Technology: Annotation and Application P. Moreda Grupo de Procesamiento del Lenguage Natural - Universidad de Alicante Carretera San Vicente del Raspeig s/n 03690 - Alicante, Spain [email protected] Resumen: La tesis presentada se centra en el análisis semántico de textos, y más concretamente, en el proceso de anotación de roles semánticos y su aplicación a otras tareas de Procesamiento de Lenguaje Natural. Dicho trabajo se puede resumir en tres objetivos principales: i) Investigar en los conjuntos de roles semánticos y recursos lingüı́sticos definidos sobre ellos que hay disponibles hasta la fecha; ii) Abordar el desarrollo de una herramienta para la anotación automática de roles semánticos, SemRol, que permita realizar un análisis de las necesidades de dichas herramientas; iii) Aportar información y conclusiones sobre la influencia de los roles semánticos en sistemas de búsqueda de respuestas. Palabras clave: Roles semánticos, etiquetado automático de roles semánticos, aprendizaje automático supervisado, selección de caracterı́sticas, búsqueda de respuestas Abstract: The presented PhD focuses on semantic analysis, and more specifically in semantic role labeling processes and their application to other Natural Language Processing areas. So, the main goals of this work could be defined as follows: i) To research into semantic role sets and linguistic resources using them that are avaliable to date; ii) To develop a semantic role labeling tool, named SemRol, to analyze the information needed for these kind of processes: iii) To contribute conclusions about the influence of semantic roles in question answering systems. Keywords: Semantic roles, automatic semantic role labeling, supervised machine learning, feature selection, question answering Introducción y tiempo, respectivamente. Un rol semántico es la relación entre un constituyente sintáctico (generalmente, aunque no siempre, argumento del verbo) y un predicado (generalmente, aunque no siempre, un verbo). Ejemplos de roles semánticos son agente, paciente, beneficiario, etc. o también adjuntos como causa, manera, lugar, etc. Por ejemplo, la oración (1), tiene cinco constituyentes cada uno de ellos con un rol semántico diferente. El constituyente sintáctico “Mary” tiene el rol agente, y los constituyentes, “John” y “with a baseball ” tienen los roles paciente e instrumento, respectivamente. Además, los constituyentes “in the park ” y “yesterday” tienen los roles lugar ∗ Esta tesis ha sido parcialmente financiada por el proyecto TEXT-MESS : Minerı́a de Textos Inteligente, Interactiva y Multilingüe basada en Tecnologı́a del Lenguage Humano (TIN2006-15265-C06-01) ISSN 1135-5948 (1) [AGEN T Mary] hit [P ACIEN T John] [IN ST RU M EN T with a baseball] [T EM P yesterday] [LOC in the park] Una caracterı́stica importante de los roles semánticos es que aunque cambie el orden de los constituyentes o incluso la voz o el tiempo verbal de la oración, los roles semánticos de los constituyentes no varı́an. Por ejemplo, consideremos la oración anterior (1), si la cambiamos por la oración (2): (2) [T EM P Yesterday] [P ACIEN T John] was hit [AGEN T by Mary] [IN ST RU M EN T with a baseball] [LOC in the park] o incluso si la traducimos al castellano y aún habiendo diferencias sintácticas como en el ejemplo (3): (3) [T EM P Ayer] [AGEN T Marı́a] golpeó [P ACIEN T a Juan] [LOC en el par- © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural P. Moreda Análisis de los procesos de selección de caracterı́sticas más importantes definidos hasta el momento, necesarios en enfoques basados en aprendizaje automático. que] [IN ST RU M EN T con una pelota de béisbol] se obtiene que en cualquiera de los casos “Mary/Marı́a” continúa jugando el rol agente, “John/Juan” el rol paciente, “with a baseball/con una pelota de béisbol” el rol instrumento, “in the park/en el parque” el rol de lugar y “yesterday/ayer ” el rol temporal. Por tanto, se podrı́a concluir, que los roles semánticos permiten interpretar los textos determinando las relaciones semánticas entre las entidades y los eventos en los que participan. Es decir, los roles semánticos ayudan a determinar, capturar y representar “quién hizo qué a quién, dónde, cuando, cómo y por qué”, pudiendo con ello responder a preguntas como “quién”, “cuándo”, “dónde”, etc. Ver figura 1. Investigación en cuanto a sistemas de anotación automática de roles semánticos desarrollados, atendiendo al corpus utilizado, a la lengua para la que se han definido, al conjunto de roles semánticos utilizado en la anotación, a la información requerida para afrontar el proceso de anotación, y a la estrategia o enfoque seguido en dicho proceso de anotación. Desarrollo de una herramienta de anotación propia, denominada SemRol, que hace uso de enfoques basados en aprendizaje automático supervisado, y que permite seleccionar el clasificador y la información concreta a utilizar en función de las necesidades de la anotación. WHERE WHEN WHAT WHO WHOM Mary hit John AGENT with a baseball yesterday in the park PACIENT INSTRUMENT TEMP Experimentación y prueba de un proceso de ajuste de la información requerida por SemRol. LOC WHERE WHEN WHO WHOM Yesterday, John TEMP PACIENT WHAT was hit with a baseball by Mary in the park INSTRUMENT AGENT LOC Evaluación de diferentes estrategias de anotación seguidas en SemRol: i) anotación por sentidos frente a única, ii) anotación global frente a individual. Desarrollo de un sistema de búsqueda de respuestas modular, basado en Web, que permite extraer a partir de snippets posibles respuestas atendiendo a diferentes criterios: i) entidades nombradas, ii) reglas semánticas, y iii) patrones semánticos. Figura 1: Utilidad de los roles semánticos en búsqueda de respuestas Aportaciones Atendiendo a los objetivos fijados, las principales aportaciones de este trabajo al conocimiento de la investigación en roles semánticos se pueden resumir en: Evaluación de la aportación de los roles semánticos a los sistemas de búsqueda de respuesta, desde dos perspectivas diferentes: i) comportamiento de reglas y patrones basados en roles semánticos, ii) comportamiento de entidades nombradas y roles semánticos. Amplia recopilación de la gran diversidad de propuestas de conjuntos de roles semánticos realizadas hasta la fecha. Información general de la tesis Propuesta de un conjunto de roles semánticos propio, desarrollado atendiendo a criterios de aplicabilidad, generalidad, jerarquı́a y conexión con otras propuestas de anotación. Tesis doctoral en Informática realizada en la Universidad de Alicante por Paloma Moreda Pozo bajo la dirección del Dr. Manuel Palomar Sanz. La defensa de la tesis tuvo lugar el 21 de Julio de 2008 ante el tribunal formado por los doctores Antonio Ferrández, Estela Saquete, Ruslan Mitkov, Lidia Moreno y L. Alfonso Ureña. La calificación obtenida fue Sobresaliente Cum Laude por unanimidad. Evaluación y estudio exhaustivos de los diferentes recursos lingüı́sticos basados en roles semánticos desarrollados hasta el momento. La tesis completa puede consultarse en la dirección http://gplsi.dlsi.ua.es/mwgplsi/upload/5/51/TesisMoreda.pdf 126 Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 127-128 recibido 23-12-08, aceptado 02-03-09 Arquitectura multilingüe de sistemas de búsqueda de respuestas basada en ILI y Wikipedia Cross–Lingual Question Answering Architecture based on ILI and Wikipedia Sergio Ferrández Escámez Dept. de Lenguajes y Sistemas Informáticos (Universidad de Alicante) Carretera San Vicente s/n 03690 Alicante España [email protected] Resumen: Tesis doctoral en Informática realizada en la U. Alicante (UA) por Sergio Ferrández bajo la dirección de Antonio Ferrández. La defensa de la tesis tuvo lugar ante un tribunal formado por los doctores Manuel Palomar (UA), Rafael Muñoz (UA), Paolo Rosso (UPV), Horacio Rodrı́guez (UPC) y Marı́a Teresa Martı́n (UJ) el 30 de junio de 2008. Calificación: Sobresaliente Cum Laude por unanimidad. Palabras clave: Búsqueda de Respuestas Multilingüe, ILI, Wikipedia Abstract: PhD Tesis in Computer Science written by Sergio Ferrández under the supervision of Dr. Antonio Ferrández. The author was examined in June 30, 2008 by the committee formed by doctors Manuel Palomar (UA), Rafael Muñoz (UA), Paolo Rosso (UPV), Horacio Rodrı́guez (UPC), and Marı́a Teresa Martı́n (UJ). Grade: Sobresaliente Cum Laude unanimously. Keywords: Cross–Lingual Question Answering, ILI, Wikipedia 1. Introducción y objetivos Los sistemas de Búsqueda de Respuestas (BR) multilingüe se diseñan con el objetivo de encontrar respuestas concisas dentro de documentos escritos en lenguas diferentes a la lengua con la que se formula la pregunta. Esta visión, amplia el campo de búsqueda, permitiendo localizar respuestas en documentos que operando de forma monolingüe no serı́an procesados. “Who directed The Sting? ”(¿Quién dirigió El Golpe?) Responder a una pregunta simple como ésta en un dominio abierto multilingüe es actualmente un reto por conseguir. Esta situación de imprecisión es provocada, en la mayorı́a de los casos, por la falta de exactitud de los servicios de Traducción Automática (TA). Actualmente, el volumen de textos en lenguaje natural en diferentes lenguas provoca la necesidad de diferentes formas de acceso a la información. Ciertamente, la multilingualidad es una de las dificultades principales que impide la correcta adquisición de información. Ningún sistema de BR multilingüe basado en el uso de servicios de TA serı́a capaz de resolver una pregunta como la anteriormente citada, ya que el nombre de la pelı́cula ISSN 1135-5948 siempre serı́a erróneamente traducido por la herramienta de TA.1 El trabajo de investigación desarrollado en esta tesis doctoral se centra en el diseño e implementación de una técnica robusta de BR multilingüe que minimice este tipo de errores y que aproxime la precisión entre BR monolingüe y multilingüe. El objetivo principal de la tesis versa en el diseño de una metodologı́a y arquitectura general de sistemas que resuelva la tarea de la BR multilingüe, explotando al máximo los recursos multilingües disponibles y minimizando la pérdida de precisión implı́cita en los procesos en los que diferentes lenguas se ven implicadas. 2. Contenido La memoria que redacta la tesis doctoral2 se compone de un total de 9 capı́tulos: Capı́tulo 1: Introduce el problema de la BR multilingüe, realizando un repaso histórico, estableciendo los problemas principales y definiendo la necesidad e importancia actual de este tipo de tareas. Capı́tulo 2: Introduce el origen y necesidad del acceso a la información multilingüe, 1 Quién dirige el Sting? (traducción por http: //www.google.es/translate_t?langpair=en|es 2 Disponible en - © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural Sergio Ferrández Escámez realiza un estudio de los principales foros, sistemas y diseños de BR multilingüe, presentando los resultados obtenidos por los principales sistemas y mostrando cómo sus técnicas para resolver la tarea influyen directamente en la precisión global. Capı́tulo 3: Presenta un estudio realizado sobre los errores provocados por el uso de servicios de TA en la BR bilingüe. Con el objetivo de ejemplificar y corroborar cómo la TA de las preguntas genera errores que dificultan la localización de respuestas. Capı́tulo 4: Expone un estudio realizado con el objetivo de demostrar la importancia del reconocimiento y clasificación de las entidades de las preguntas. Además, se estudia la necesidad de traducción de las mismas en los procesos multilingües. Capı́tulo 5: Describe nuestro sistema de BR monolingüe para la lengua castellana, AliQAn, el cual es utilizado como baseline de nuestra arquitectura multilingüe. Capı́tulo 6: Presenta nuestra propuesta, la arquitectura de BR multilingüe BRILIW (Búsqueda de Respuestas usando ILI (Inter Lingua Index ) y Wikipedia) (ver figura 1). Entre otros aspectos, se detalla cómo nuestra arquitectura BRILIW soluciona los problemas que ocasionan el uso de servicios de TA. presenta el diseño de nuestro objeto XML que proporciona un modelo para la comunicación y almacenamiento de la esencia de nuestra arquitectura BRILIW. Capı́tulo 8: Muestra la evaluación efectuada sobre la arquitectura BRILIW. En ella, se evalúa nuestra arquitectura, y se compara con ejecuciones monolingües y aplicaciones basadas en el uso de TA. Además, también se realizan experimentos que evalúan la bondad de nuestra técnica de control y traducción de las entidades de las preguntas de entrada. Los experimentos realizados revelan que nuestras estrategias mejoran los resultados de la utilización de máquinas de TA, y de acuerdo con las publicaciones existentes, obtienen mejores resultados que los actuales sistemas de BR bilingüe. Por otro lado, en este capı́tulo también se exponen las pruebas externas realizadas en nuestra participación en el CLEF. Capı́tulo 9: Pretende exponer las principales aportaciones y conclusiones extraı́das de nuestro trabajo de investigación en la BR multilingüe, ası́ como los trabajos en progreso y futuros. 3. Módulo de Identificación del Lenguaje Wikipedia Módulo de Traducción de las Entidades Nombradas NERUA Módulo ILI Módulo de Referencia Inter - Lingual Documentos Módulo de Análisis de la Pregunta Módulo de Selección de Pasajes Relevantes IR-n SUPAR Módulo de Extracción de la Respuesta Conclusiones y aportaciones Tres pilares sustentan nuestra arquitectura y la diferencian del resto de propuestas actuales: 1) Explotación de diferentes fuentes de conocimiento multilingüe en diferentes etapas del proceso de BR multilingüe y con diferentes objetivos de traducción; 2) La búsqueda de respuestas candidatas se realiza haciendo uso de más de una traducción de cada una de las palabras de la pregunta; y 3) El análisis de la pregunta de entrada se realiza en el lenguaje original de la misma. La arquitectura BRILIW proporciona una metodologı́a alternativa al uso de servicios de TA. Dentro del campo de la BR multilingüe, nuestra arquitectura ha sido la primera en diseñar e implementar procesos multilingües que exploten el módulo ILI de EuroWordNet y el conocimiento multilingüe codificado en Wikipedia. Agradecimientos Esta investigación ha sido parcialmente financiada bajo los proyectos QALL-ME, dentro del Sexto Programa Marco de Investigación de la Unión Europea con referencia FP6IST-033860, y TEX–MESS, CICyT número TIN2006-15265-C06-01. Figura 1: Arquitectura BRILIW Capı́tulo 7: Presenta las herramientas y diseños software desarrollados dentro del trabajo de investigación. Al mismo tiempo, se 128 Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 129-130 recibido 16-01-09, aceptado 02-03-09 On Clustering and Evaluation of Narrow Domain Short-Text Corpora∗ Agrupamiento y Evaluación de Corpora de Textos Cortos y de Dominios Restringidos David Eduardo Pinto Avendaño Natural Language Engineering Lab., DSIC Universidad Politécnica de Valencia Facultad de Ciencias de la Computación, BUAP [email protected] Resumen: Tesis doctoral en Informática realizada por David Eduardo Pinto Avendaño y dirigida por los doctores Paolo Rosso (Univ. Politécnica de Valencia) y Héctor Jiménez (Univ. Autónoma Metropolitana, México). El acto de defensa de tesis tuvo lugar en Valencia en Julio de 2008 ante el tribunal formado por los doctores Manuel Palomar Sanz (Univ. de Alicante), Alfonso Ureña López (Univ. de Jaén), Eneko Agirre (Univ. del Paı́s Vasco), Benno Stein (Univ. de Weimar, Alemania) y Encarna Segarra Soriano (Univ. Politécnica de Valencia). La calificación obtenida fue Sobresaliente Cum Laude. Palabras clave: Agrupamiento, Evaluación, Textos cortos, Dominios restringidos Abstract: PhD thesis in Computer Science written by David Eduardo Pinto Avendaño under the supervision of Paolo Rosso (Univ. Politécnica de Valencia) and Héctor Jiménez (Univ. Autónoma Metropolitana, México). The author was examined in July 2008 in Valencia by the following committee: Manuel Palomar Sanz (Univ. de Alicante), Alfonso Ureña López (Univ. de Jaén), Eneko Agirre (Univ. del Paı́s Vasco), Benno Stein (Weimar Univ., Germany) and Encarna Segarra Soriano (Univ. Politécnica de Valencia). The grade obtained was Sobresaliente Cum Laude. Keywords: Clustering, Evaluation, Narrow Domain Short-text corpora 1. Introduction In this Ph.D. thesis we investigate the problem of clustering a particular set of documents namely narrow domain short texts. To achieve this goal, we have analysed datasets and clustering methods. Moreover, we have introduced some corpus evaluation measures, term selection techniques and clustering validity measures in order to study the following problems: 1. To determine the relative hardness of a corpus to be clustered and to study some of its features such as shortness, domain broadness, stylometry, class imbalance and structure. 2. To improve the state of the art of clustering narrow domain short-text corpora. The research work we have carried out is partially focused on “short-text clustering”. This PhD thesis was supported by the BUAP-701 PROMEP/103.5/-05/1536 grant. ∗ ISSN 1135-5948 We consider this issue to be quite relevant, given the current and future way people use “small-language” (e.g. blogs, snippets, news and text-message generation such as email or chat). Moreover, we study the domain broadness of corpora. A corpus may be considered to be narrow or wide domain if the level of the document vocabulary overlapping is high or low, respectively. In fact, in the categorization task, it is very difficult to deal with narrow domain corpora such as scientific papers, technical reports, patents, etc. The aim of this research work is to study possible strategies to tackle the following two problems: a) the low frequencies of vocabulary terms in short texts, and b) the high vocabulary overlapping associated to narrow domains. Each problem alone is challenging enough, however, the clustering of narrow domain short-text corpora is considered one of the most difficult tasks of unsupervised data analysis. © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural David Eduardo Pinto Avendaño 2. 3. Thesis overview The major contributions of the investigations carried out are: In this thesis, we deal with the treatment of narrow domain short-text collections in three areas: evaluation, clustering and validation of corpora. The document is structured as follows: In Chapter 1, we introduce basic concepts and we summarize the major contributions of the research work carried out. Chapter 2 gives an overview of the clustering methods, clustering measures, term selection techniques and datasets used in this study. In Chapter 3, we analyse the implications of clustering narrow domain short-text corpora, studying the role of the term selection process as well as the instability of a term selection technique based on the selection of mid-frequency terms. We also make a comparison of different clustering methods in the narrow domain short-text framework. Finally, we evaluate the performance of the term selection techniques on a standard narrow domain short-text corpus. Chapter 4 proposes the use of several measures (most of which are introduced in this work) to assess different corpus features. These measures are tested on several corpora and implemented in the Watermarking Corpora On-line System (WaCOS)1,2 . Chapter 5 presents a new methodology (based on term co-occurrence) for improving document representation for clustering narrow domain short texts. The self-term expansion methodology, which is independent of any external knowledge resource, greatly improves the results obtained by using classical document representation. This fact was confirmed in the practical task of word sense induction whose obtained results are shown in Chapter 6. In Chapter 7, we study the impact of internal clustering validity measures by using narrow domain short-text corpora. Finally, in Chapter 8 we draw the conclusions of the research that we have carried out. In this last chapter we also discuss some interesting research directions, which are derived from the obtained results of this Ph.D. thesis and which we consider to be useful for future work. 1 2 Thesis contributions 1. The study and introduction of evaluation measures to analyse the following features of a corpus: shortness, domain broadness, class imbalance, stylometry and structure. 2. The development of WaCOS for the assessment of corpus features. 3. A new unsupervised methodology (which does not use any external knowledge resource) for dealing with narrow domain short-text corpora. This methodology suggests first applying self-term expansion and then term selection. We analysed different corpus features as evidence of the relative hardness of a given corpus with respect to clustering algorithms. In particular, the degree of shortness, domain broadness, class imbalance, stylometry and structure were studied. We introduced some (un)supervised measures in order to assess these features. The supervised measures were used both to evaluate the corpus features and, even more importantly, to assess the gold standard provided by experts for the corpus to be clustered. The unsupervised measures evaluate the document collections directly (i.e., without any gold standard) and, therefore, they may also be used for other purposes, for instance, to adjust clustering methods while being executed in order to improve the results. The most successful measures were compiled in a freely functional web-based system that allows linguistics and computational linguistics researchers to easily assess the quality of corpora with respect to the aforementioned features. The experiments conducted confirmed that the clustering of narrow domain shorttext corpora is a very challenging task. However, the contributions of this research work are proof that it is possible to deal with this difficult problem. The aim is now to investigate subjective scenarios such as the blogsphere. http://nlp.cs.buap.mx/watermarker/ http://nlp.dsic.upv.es:8080/watermarker/ 130 Reseñas Procesamiento del Lenguaje Natural, Revista nº 42, marzo de 2009, pp. 133-134 recibido 18-12-08, aceptado 02-03-09 Storrer, A., Geyken, A., Siebert, A. and Würzner, K.M. (eds.). 2008. Text Resources and Lexical Knowledge. Mouton de Gruyter: Berlin/New York. 260 p. Isabel Durán Muñoz Universidad de Málaga Campus de Teatinos s/n 29071-Málaga [email protected] This book is published in the series Text, Translation, Computational Processing [TTCP], by Walter de Gruyter, and contains selected contributions to the 9th biennial conference on Natural Language Processing (KONVENS 2008), organized by the scientific societies DEGA, DGfS, GI, GLDV, ITG and ÖGAI in Berlin. The central theme of this conference was the dynamic interaction between digital text resources and lexical knowledge representations, illustrating in particular the importance of methods in corpus linguistics for building lexical resources on the one hand, and the relevance of lexical resources for analysis of and intelligent search methods for text corpora on the other. The most innovative works presented at the conference were selected in order to publish a reliable and state-of-the-art book for all academics and professionals in the field. The contributions provide a substantial overview of current trends and issues in the fields of computational lexicography and lexicology, corpus linguistics and text technology. They show the most current research in these disciplines and also shed new light on the researchers in question. All the works include a common element in their experiments and studies: the textual corpus, which is considered to be the base of their studies, as in most of the studies carried out in Computational Linguistics. The book is divided into three sections, which coincide with the conference’s three main topics of interest. The first section of the book, “Linguistic Analysis of Text Resources”, discusses techniques, tools and models for the automated linguistic analysis of text resources. ISSN 1135-5948 These studies are based on essential tools and techniques of Computational Linguistics, such as Treebank alignment, annotation, evaluation of theme and rheme, and distributional similarity, among others. The six contributions focus on discourse and syntactic elements, and their common aim is to improve the analysis of discourse by Computational Linguistics tools. The following section, “Extraction of Lexical Knowledge from Text Resources”, describes and evaluates methods for the automatic acquisition of lexical knowledge from digitized and linguistically annotated textual corpora. They implement corpus techniques to improve existing resources, such as WordNet (Towards improved text understanding with WordNet, by Fellmaun, Clark and Hobbs), machine translation dictionaries (Rapid construction of explicative dictionaries using hybrid machine translation, by Eberle and Rapp) and other lexicographical resources, such as juridical resources. Also, they present original studies on dialectology and on oral corpora. The last section, “Representation of Lexical Knowledge”, presents innovative approaches to the representation of lexical knowledge in digital media for various purposes and user groups. In this section, we find new and original resources based on textual corpora, such as the Spanish WordNet (The Spanish version of WordNet 3.0, by Fernández-Montraveta, Vázquez and Fellmaun), and also innovative tools to improve the functionality of existing or general resources. In this sense, these contributions provide tools for the generation, analysis and management of different aspects of resources, such as the GUI-based tools meant to facilitate the © 2009 Sociedad Española para el Procesamiento del Lenguaje Natural Isabel Durán Muñoz navigation through and exploration of GermaNet (Tools for exploring GermaNet in the context of cl-teaching, by Cramer and Finthammer) and the development presented by Müller-Spitzer (Research on dictionary use and the development of useradapted views) of user-adapted views of lexicographic data. For all researchers interested in NLP and Computational Linguistics, I consider this book can be of great value, since it presents cutting-edge studies in the lexicographical and computational linguistic fields, either in progress or already finished, and it opens new lines of research in the future. In conclusion, I can say that this book includes innovative and exhaustive studies about the topics involved, and it is a coherent and concise book in its whole. 134 Información General SEPLN'2009 XXV CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL Palacio de Miramar. Donostia – San Sebastián (España) 8-10 de septiembre 2009 http://ixa2.si.ehu.es/sepln2009/ 1 Presentación La XXV edición del congreso anual de la Sociedad Española para el Procesamiento del Lenguaje Natural se celebrará en Donostia – San Sebastián (España) del día 8 al 10 de septiembre de 2009, organizado por la Sociedad Española para el Procesamiento del Lenguaje Natural junto con la Universidad del País Vasco (Euskal Herriko Unibertsitatea). Como en ediciones anteriores, con este evento la SEPLN pretende promover la difusión de las actividades de investigación, desarrollo e innovación que realizan en cualquiera de los ámbitos del procesamiento del lenguaje natural los diversos grupos e investigadores españoles y extranjeros. El congreso aspira a ofrecer un foro de discusión y comunicación en el que se favorezca el intercambio de la información y materiales científicos necesarios para promover la publicación de trabajos y la colaboración con instituciones nacionales e internacionales que actúen en el ámbito de interés del congreso. 2 Objetivos El objetivo principal de este congreso es el de ofrecer a la comunidad científica y empresarial del sector el foro idóneo para la presentación de las últimas investigaciones y desarrollos del ámbito de trabajo en PLN, así como mostrar las posibilidades reales de aplicación y conocer nuevos proyectos. De esta manera, el XXV Congreso de la SEPLN pretende ser un lugar de encuentro para la comunicación de resultados e intercambio de opiniones sobre el desarrollo de esta área en la actualidad. Además, se desea conseguir el objetivo de anteriores ediciones de este congreso identificando las futuras directrices de la investigación básica y de las aplicaciones ISSN 1135-5948 previstas por los profesionales, con el fin de contrastarlas con las necesidades reales del mercado. Igualmente el congreso pretende ser un marco propicio para introducir a otras personas interesadas en esta área de conocimiento. 3 Areas Temáticas Se anima a grupos e investigadores a enviar comunicaciones, resúmenes de proyectos o demostraciones en alguna de las áreas temáticas siguientes: • Modelos lingüísticos, matemáticos y psicolingüísticos del lenguaje • Lingüística de corpus • Extracción y recuperación de información monolingüe y multilingüe • Gramáticas y formalismos para el análisis morfológico y sintáctico • Lexicografía computacional • Generación textual monolingüe y multilingüe • Traducción automática • Reconocimiento y síntesis de voz • Semántica, pragmática y discurso • Resolución de la ambigüedad léxica • Aplicaciones industriales del PLN • Análisis automático del contenido textual 4 Formato del Congreso La duración prevista del congreso será de tres días, con ponencias invitadas y sesiones dedicadas a la presentación de comunicaciones y de proyectos o demostraciones. 5 Consejo Asesor Miembros: • Prof. José Gabriel Amores Carredano (Universidad de Sevilla) © Sociedad Española para el Procesamiento del Lenguaje Natural • • • • • • • • • • • • • • • • • • • • • • • • • Prof. Toni Badia i Cardús (Universitat Pompeu Fabra) Prof. Manuel de Buenaga Rodríguez (Universidad Europea de Madrid) Prof. Fco. Javier Calle Gómez (Universidad Carlos III de Madrid) Prof.ª Irene Castellón Masalles (Universitat de Barcelona) Prof.ª Arantza Díaz de Ilarraza (Euskal Herriko Unibertsitatea) Prof. Antonio Ferrández Rodríguez (Universitat d'Alacant) Prof. Mikel Forcada Zubizarreta (Universitat d'Alacant) Prof.ª Ana María García Serrano (Universidad Politécnica de Madrid) Prof. Koldo Gojenola Galletebeitia (Euskal Herriko Unibertsitatea) Prof. Xavier Gómez Guinovart (Universidade de Vigo) Prof. Julio Gonzalo Arroyo (Universidad Nacional de Educación a Distancia) Prof. José Miguel Goñi Menoyo (Universidad Politécnica de Madrid) José B. Mariño Acebal(Universitat Politécnica de Catalunya) Prof.ª M. Antonia Martí Antonín (Universitat de Barcelona) Prof.ª Mª Teresa Martín Valdivia (Universidad de Jaén) Prof. Patricio Martínez Barco (Universitat d'Alacant) Prof. Paloma Martínez Fernández (Universidad Carlos III de Madrid) Profª. Raquel Martínez Unanue (Universidad Nacional de Educación a Distancia) Prof.ª Lidia Ana Moreno Boronat (Universitat Politécnica de Valencia) Prof. Lluis Padró (Universitat Politécnica de Catalunya) Prof. Manuel Palomar Sanz (Universitat d'Alacant) Prof. Ferrán Pla (Universitat Politécnica de Valencia) Prof. Germán Rigau (Euskal Herriko Unibertsitatea) Prof. Horacio Rodríguez Hontoria (Universitat Politécnica de Catalunya) Prof. Kepa Sarasola Gabiola (Euskal Herriko Unibertsitatea) • • • • • • • • • • • • 6 Prof. Emilio Sanchís (Universitat Politécnica de Valencia) Prof. L. Alfonso Ureña López (Universidad de Jaén) Prof.ª Mª Felisa Verdejo Maillo (Universidad Nacional de Educación a Distancia) Prof. Manuel Vilares Ferro (Universidade de Vigo) Prof. Ruslan Mitkov (Universidad de Wolverhampton) Prof.ª Sylviane Cardey-Greenfield (Centre de recherche en linguistique et traitement automatique des langues, Lucien Tesnière. Besançon, France) Prof. Leonel Ruiz Miyares (Centro de Linguistica Aplicada de Santiago de Cuba) Investigador Luis Villaseñor-Pineda (Instituto Nacional de Astrofísica, Óptica y Electrónica. México) Investigador Manuel Montes y Gómez (Instituto Nacional de Astrofísica, Óptica y Electrónica. México) Prof. Alexander Gelbukh (Instituto Politécnico Nacional. México) Prof. Nuno J. Mamede (Instituto de Engenharia de Sistemas e Computadores Investigação e Desenvolvimento em Lisboa. Portugal) Prof. Bernardo Magnini (Fondazione Bruno Kessler. Italia) Fechas importantes Fechas para la presentación y aceptación de comunicaciones: • Fecha límite para la entrega de comunicaciones: 24 de abril de 2009. • Notificación de aceptación: 25 de mayo de 2009. • Fecha límite para entrega de la versión definitiva: 19 de junio de 2009. • Plazo para inscripción a coste reducido: 15 de julio de 2009. Hoja de Inscripción para Socios Datos Personales Apellidos Nombre DNI Teléfono Domicilio Municipio Provincia : ................................................................................................................................................. : ................................................................................................................................................. : ............................................................ Fecha de Nacimiento : ........................................... : ............................................................ E-mail : ........................................... : ................................................................................................................................................. : ................................................................................................. Código Postal : ................. : ................................................................................................................................................. Datos Profesionales Centro de trabajo : ..................................................................................................................................... Domicilio : ..................................................................................................................................... Código Postal : .................... Municipio : ..................................................................................... Provincia : ........................................... Teléfono : ................................. Fax : ............................. E-mail : ..................................... Áreas de investigación o interés: ................................................................................................................... ........................................................................................................................................................................ Preferencia para envío de correo: [ ] Dirección personal [ ] Dirección Profesional Datos Bancarios: Nombre de la Entidad Domicilio Cód. Postal y Municipio Provincia : ............................................................................................................................ : ............................................................................................................................ : ............................................................................................................................ : ............................................................................................................................ Cód. Banco (4 dig.) Cód. Suc. (4 dig.) Dig. Control (2 Dig.) Núm.cuenta (10 dig.) ........................................ ........................................ ........................................ ........................................ En.....................a....................................de..............................................de........................... (firma) ------------------------------------------------------------------------------------------------------------------------------------------------------- Sociedad Española para el Procesamiento del Lenguaje Natural. SEPLN Sr. Director de: Entidad Núm. Sucursal Domicilio Municipio Provincia Tipo cuenta (corriente/caja de ahorro) : ......................................................................................................... : ......................................................................................................... : ......................................................................................................... : ............................................................... Cód. Postal : .............. : ......................................................................................................... : ......................................................................................................... Ruego a Vds. que a partir de la fecha y hasta nueva orden se sirvan de abonar a la Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN) los recibos anuales correspondientes a las cuotas vigentes de dicha asociación. Les saluda atentamente Fdo: ........................................................................... (nombre y apellidos del firmante) ............................de ..................................de................. -----------------------------------------------------------------------------------------------------------------------------------------------------Cuotas de los socios: 18 € (residentes en España) o 24 € (socios residentes en el extranjero). Nota: La parte inferior debe enviarse al banco o caja de ahorros del socio Hoja de Inscripción para Instituciones Datos Entidad/Empresa Nombre : ................................................................................................................................................. NIF : ............................................................ Teléfono : ............................................................ E-mail : ............................................................ Fax : ............................................................ Domicilio : ................................................................................................................................................. Municipio : ................................................... Código Postal : ............ Provincia : .......................... Áreas de investigación o interés: ................................................................................................................... ........................................................................................................................................................................ Datos de envío Dirección Municipio Teléfono : .............................................................................................. Código Postal : ................. : .......................................................................... Provincia : .............................................. : ........................................... Fax : ................................ E-mail : ............................... Datos Bancarios: Nombre de la Entidad Domicilio Cód. Postal y Municipio Provincia : ............................................................................................................................ : ............................................................................................................................ : ............................................................................................................................ : ............................................................................................................................ Cód. Banco (4 dig.) Cód. Suc. (4 dig.) Dig. Control (2 Dig.) Núm.cuenta (10 dig.) ........................................ ........................................ ........................................ ........................................ -------------------------------------------------------------------------------------------------------------------------------------------------- Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN). Sr. Director de: Entidad Núm. Sucursal Domicilio Municipio Provincia Tipo cuenta (corriente/caja de ahorro) Núm Cuenta : .......................................................................................................................... : .......................................................................................................................... : .......................................................................................................................... : ............................................................................. Cód. Postal : ................. : .......................................................................................................................... : .......................................................................................................................... : .......................................................................................................................... Ruego a Vds. que a partir de la fecha y hasta nueva orden se sirvan de abonar a la Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN) los recibos anuales correspondientes a las cuotas vigentes de dicha asociación. Les saluda atentamente Fdo: ........................................................................... (nombre y apellidos del firmante) ............................de ..................................de................. -------------------------------------------------------------------------------------------------------------------------------------------------.......................................................................................................................................................................... Cuotas de los socios institucionales: 300 €. Nota: La parte inferior debe enviarse al banco o caja de ahorros del socio Información para los Autores Formato de los Trabajos • La longitud máxima admitida para las contribuciones será de 8 páginas DIN A4 (210 x 297 mm.), incluidas referencias y figuras. • Los artículos pueden estar escritos en inglés o español. El título, resumen y palabras clave deben escribirse en ambas lenguas. • El formato será en Word ó LaTeX Envío de los Trabajos • El envío de los trabajos se realizará electrónicamente a través de la página web de la Sociedad Española para el Procesamiento del Lenguaje Natural (http://www.sepln.org) • Para los trabajos con formato LaTeX se mandará el archivo PDF junto a todos los fuentes necesarios para compilación LaTex • Para los trabajos con formato Word se mandará el archivo PDF junto al DOC o RTF