Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008 ISSN: 1135-5948 Artículos Modelling OLIF frame with EAGLES/ISLE specifications: an interlingual approach Carlos Periñán-Pascual, Francisco Arcas-Túnez..........................................................................................9 Aggregation in the In-Home Domain Eva Florencio, Gabriel Amores, Guillermo Pérez, Pilar Manchón...............................................................17 Detección de fármacos genéricos en textos biomédicos Isabel Segura-Bedmar, Paloma Martínez, Dooa Samy...............................................................................27 Bases de Conocimiento Multilíngües para el Procesamiento Semántico a Gran Escala Montse Cuadros, German Rigau..................................................................................................................35 From knowledge acquisition to information retrieval Milagros Fernández Gavilanes, Sara Carrera Carrera, Manuel Vilares Ferro.............................................43 Desarrollo de un Robot-Guía con Integración de un Sistema de Diálogo y Expresión de Emociones: Proyecto ROBINT J.M. Lucas, R. Alcázar, J. M. Montero, F. Fernández, R.Barra-Chicote, L.F. D'Haro, J. Ferreiros, R. de Córdoba, J. Macías-Guarasa, R. San Segundo, J.M. Pardo.......................................................................51 Experiments with an ensemble of Spanish dependency parsers Roser Morante..............................................................................................................................................59 Predicción estadística de las discontinuidades espectrales del habla para síntesis concatenativa Manuel Pablo Triviño, Francesc Alías..........................................................................................................67 Identificación de emociones a partir de texto usando desambiguación semántica David García, Francesc Alías......................................................................................................................75 InTiMe: Plataforma de Integración de Recursos de PLN José Manuel Gómez.....................................................................................................................................83 Non-Parametric Document Clustering by Ensemble Methods Edgar Gonzàlez Pellicer, Jordi Turmo Borràs..............................................................................................91 An Innovative Two-Stage WSD Unsupervised Method Javier Tejada-Cárcamo, Alexander Gelbukh, Hiram Calvo.........................................................................99 Applying a culture dependent emotion triggers database for text valence and emotion classification Alexandra Balahur, Andrés Montoyo.........................................................................................................107 Test of complementarity on sentence extraction methods Alberto Bañuelos-Moro, Héctor Jiménez-Salazar, José de Jesús Lavalle-Martínez.................................115 Categorización de textos biomédicos usando UMLS José Manuel Perea Ortega, María Teresa Martín Valdivia, Arturo Montejo Ráez, Manuel Carlos Díaz Galiano.......................................................................................................................................................121 Sistemas de Recuperación de Información Geográfica multilingües en CLEF José Manuel Perea Ortega, Miguel Angel García Cumbreras, Manuel García Vega................................129 PPIEs: Protein-Protein Interaction Information Extraction system Roxana Danger, Paolo Rosso, Ferran Pla, Antonio Molina.......................................................................137 Tesis Computing meaning in interaction Roser Morante............................................................................................................................................147 Recuperación de Pasajes Multilingües para la Búsqueda de Respuestas José M. Gómez..........................................................................................................................................149 Desarrollo y evaluación de diferentes metodologías para la gestión automática del diálogo David Griol Barres......................................................................................................................................151 Información General XXIV Congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural..........................153 Impresos de Inscripción Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008 ISSN: 1135-5948 Artículos Modelling OLIF frame with EAGLES/ISLE specifications: an interlingual approach Carlos Periñán-Pascual, Francisco Arcas-Túnez..........................................................................................9 Aggregation in the In-Home Domain Eva Florencio, Gabriel Amores, Guillermo Pérez, Pilar Manchón...............................................................17 Detección de fármacos genéricos en textos biomédicos Isabel Segura-Bedmar, Paloma Martínez, Dooa Samy...............................................................................27 Bases de Conocimiento Multilíngües para el Procesamiento Semántico a Gran Escala Montse Cuadros, German Rigau..................................................................................................................35 From knowledge acquisition to information retrieval Milagros Fernández Gavilanes, Sara Carrera Carrera, Manuel Vilares Ferro.............................................43 Desarrollo de un Robot-Guía con Integración de un Sistema de Diálogo y Expresión de Emociones: Proyecto ROBINT J.M. Lucas, R. Alcázar, J. M. Montero, F. Fernández, R.Barra-Chicote, L.F. D'Haro, J. Ferreiros, R. de Córdoba, J. Macías-Guarasa, R. San Segundo, J.M. Pardo.......................................................................51 Experiments with an ensemble of Spanish dependency parsers Roser Morante..............................................................................................................................................59 Predicción estadística de las discontinuidades espectrales del habla para síntesis concatenativa Manuel Pablo Triviño, Francesc Alías..........................................................................................................67 Identificación de emociones a partir de texto usando desambiguación semántica David García, Francesc Alías......................................................................................................................75 InTiMe: Plataforma de Integración de Recursos de PLN José Manuel Gómez.....................................................................................................................................83 Non-Parametric Document Clustering by Ensemble Methods Edgar Gonzàlez Pellicer, Jordi Turmo Borràs..............................................................................................91 An Innovative Two-Stage WSD Unsupervised Method Javier Tejada-Cárcamo, Alexander Gelbukh, Hiram Calvo.........................................................................99 Applying a culture dependent emotion triggers database for text valence and emotion classification Alexandra Balahur, Andrés Montoyo.........................................................................................................107 Test of complementarity on sentence extraction methods Alberto Bañuelos-Moro, Héctor Jiménez-Salazar, José de Jesús Lavalle-Martínez.................................115 Categorización de textos biomédicos usando UMLS José Manuel Perea Ortega, María Teresa Martín Valdivia, Arturo Montejo Ráez, Manuel Carlos Díaz Galiano.......................................................................................................................................................121 Sistemas de Recuperación de Información Geográfica multilingües en CLEF José Manuel Perea Ortega, Miguel Angel García Cumbreras, Manuel García Vega................................129 PPIEs: Protein-Protein Interaction Information Extraction system Roxana Danger, Paolo Rosso, Ferran Pla, Antonio Molina.......................................................................137 Tesis Computing meaning in interaction Roser Morante............................................................................................................................................147 Recuperación de Pasajes Multilingües para la Búsqueda de Respuestas José M. Gómez..........................................................................................................................................149 Desarrollo y evaluación de diferentes metodologías para la gestión automática del diálogo David Griol Barres......................................................................................................................................151 Información General XXIV Congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural..........................153 Impresos de Inscripción Procesamiento del Lenguaje Natural, Revista nº 40, Marzo de 2008 ISSN: 1135-5948 Comité de Edición: L. Alfonso Ureña López Universidad de Jaén [email protected] Mariona Taulé Delor Universitat de Barcelona [email protected] Mª Teresa Martín Valdivia Universidad de Jaén [email protected] Comité de Lectura: José Gabriel Amores (Universidad de Sevilla). Toni Badía (Universitat Pompeu Fabra). Manuel de Buenaga (Universidad Europea de Madrid). Irene Castellón (Universitat de Barcelona). Arantza Díaz de Ilarraza (Euskal Herriko Unibertsitatea). Antonio Fernández (Universitat d'Alacant). Mikel Forcada (Universitat d'Alacant). Ana García-Serrano (Universidad Politécnica de Madrid). Koldo Gojenola (Euskal Herriko Unibertsitatea). Xavier Gómez Guinovart (Universidade de Vigo). Julio Gonzalo (UNED). José Miguel Goñi (Universidad Politécnica de Madrid). José Mariño (Universitat Politècnica de Catalunya). M. Antonia Martí (Universitat de Barcelona). M. Teresa Martín (Universidad de Jaén). Patricio MartínezBarco (Universitat d'Alacant). Raquel Martínez (UNED). Ruslan Mitkov(Universidad de Wolverhampton). Lidia Moreno (Universitat Politècnica de València). Lluís Padro (Universitat Politècnica de Catalunya). Manuel Palomar (Universitat d'Alacant). Ferrán Pla (Universitat Politècnica de València). German Rigau (Euskal Herriko Unibertsitatea). Horacio Rodríguez (Universitat Politècnica de Catalunya). Kepa Sarasola (Euskal Herriko Unibertsitatea). Emilio Sanchís (Universitat Politècnica de València). L. Alfonso Ureña (Universidad de Jaén). Felisa Verdejo (UNED). Manuel Vilares (Universidad de A Coruña). Revisores adicionales: Iñaki Alegra (EHU). Enero Agirre (EHU). Roxana Danger (UPV). Víctor Fresno (UNED). David Griol Bares (UPV). Antonio Molina (UPV). Juan M. Montero (UPM). Guillermo Pérez (US). Rafael M. Perol (Universitat d'Alacant). Paolo Rosso (UPV). Aitor Soroa (EHU). ISSN: 1135-5948 Depósito Legal: B:3941-91 Editado en: Universidad de Jaén, 2008. Publicado por: Sociedad Española para el Procesamiento del Lenguaje Natural Departamento de Informática. Universidad de Jaén Campus Las Lagunillas, EdificioA3. Despacho 127 23071 Jaén [email protected] Artículos Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 9-16 recibido 06-11-07, aceptado 03-03-08 Modelling OLIF frame with EAGLES/ISLE specifications: an interlingual approach El modelado de OLIF utilizando las especificaciones de EAGLES/ISLE: un enfoque interlingüístico Carlos Periñán-Pascual, Francisco Arcas-Túnez Universidad Católica San Antonio Campus de los Jerónimos s/n 30107 Guadalupe - Murcia (Spain) {jcperinan, farcas}@pdi.ucam.edu Resumen: FunGramKB es una base de conocimiento léxico-conceptual para su implementación en sistemas del PLN. El modelo léxico de FunGramKB se construyó a partir del modelo de OLIF, aunque fue preciso incorporar algunas de las recomendaciones de EAGLES/ISLE con el fin de poder diseñar lexicones computacionales más robustos. El propósito de este artículo es describir cómo el enfoque interlingüístico de FunGramKB proporciona una visión más cognitiva de los marcos léxicos que las propuestas por OLIF y EAGLES/ISLE. Palabras clave: FunGramKB, OLIF, EAGLES, ISLE, lexicón, ontología, marco, postulado de significado. Abstract: FunGramKB is a lexico-conceptual knowledge base for NLP systems. The FunGramKB lexical model is basically derived from OLIF and enhanced with EAGLES/ISLE recommendations with the purpose of designing robust computational lexica. However, the FunGramKB interlingual approach gives a more cognitive view to EAGLES/ISLE proposals. The aim of this paper is to describe how this approach influences the way of conceiving lexical frames. Keywords: FunGramKB, OLIF, EAGLES, ISLE, lexicon, ontology, frame, meaning postulate. 1 Introduction FunGramKB (Functional Grammar Knowledge Base) is a lexico-conceptual knowledge base for NLP systems, mainly those requiring natural language understanding. FunGramKB is multipurpose, in the sense that it is both multifunctional and multilanguage. In other words, FunGramKB has been designed to be reused in various NLP tasks (e.g. information retrieval/extraction, machine translation or ISSN 1135-5948 dialogue-based systems) and with several natural languages.1 The FunGramKB lexical model is basically derived from OLIF2 (Lieske et al. 2001; McCormick 2002; McCormick et al. 2004) and 1 FunGramKB lexica for English and Spanish are being currently populated. 2 OLIF (Open Lexicon Interchange Format) is created in the 90’s as part of the OTELO (Open Translation Environment for Localization) project, whose primary goal is the development of interfaces and formats which can help users share lexical resources within the translation environment (e.g. machine translation, translation memories, terminology databases, and so on). © Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008 Carlos Periñán-Pascual, Francisco Arcas-Túnez enhanced with EAGLES/ISLE3 recommendations (EAGLES 1993, 1996a, 1996b, 1999; Monachini et alii 2003; Underwood and Navarretta 1997; Calzolari et alii 2001a, 2001b, 2003). OLIF, an XMLcompliant standard for lexical/terminological data encoding, was chosen as the starting point for implementing the FunGramKB lexical level. However, some parts of the OLIF model had to be re-considered in order to make it conform to the FunGramKB architecture.4 The FunGramKB team soon realised that, for example, full-fledged lexical frames were not possible if language engineers were confined to OLIF recommendations. Therefore, OLIF was modelled with EAGLES/ISLE specifications with the purpose of designing robust computational lexica. In computational linguistics, lexical frames usually include key information which allows the computer to build the underlying predication of an input text. This paper presents a conceptualist model of frame semantics which, in turn, complies with current standards for computational lexica. Section 2 briefly describes the two-tier architecture of the FunGramKB model. Section 3 shows how frame participants should be fully integrated into the lexical meaning of verbs via meaning postulates, resulting in a more “intelligent” resource for natural language understanding. Finally, sections 4 and 5 discuss the degree to which FunGramKB is indebted to OLIF and EAGLES/ISLE standards. 2 The FunGramKB architecture FunGramKB comprises two information levels, where several independent modules are interrelated:5 Lexical level (i.e. linguistic knowledge): • The lexicon stores morphosyntactic, pragmatic and collocational information of lexical units. • The morphicon helps our system to handle cases of inflectional morphology. (i.e. non-linguistic Cognitive level knowledge): • The ontology is presented as a hierarchical structure of well-defined concepts used by ordinary humans when talking about everyday situations. • The cognicon stores procedural knowledge by means of cognitive macrostructures, i.e. script-like schemata in which a sequence of stereotypical actions is organised on the basis of temporal continuity. • The onomasticon stores information about instances of entities, such as people, cities, products, and so on. The motivation of this two-tier design lies in the fact that lexical modules are language specific but cognitive modules are shared by all languages. In other words, computational lexicographers must develop one lexicon and one morphicon for English, one lexicon and one morphicon for Spanish and so on, but knowledge engineers build just one ontology, one cognicon and one onomasticon to process any language input cognitively. Unlike most current NLP systems, where the lexicalist approach prevails, the FunGramKB architecture is ontology-oriented, since the ontology plays a pivotal role between the lexical and the cognitive levels. 3 EAGLES (The Expert Advisory Group on Language Engineering Standards) is an initiative sponsored by the European Commission which aims to provide recommendations for the standardization of the language technologies field. More particularly, the Computational Lexicons Interest Group is in charge of analysing the main practices in lexicographic encoding by comparing computational lexical resources available in European languages. ISLE (International Standards for Language Engineering) is initiated in 2000 as an extension of EAGLES work. The objective of this joint EU-US project is to support R&D on Human Language Technology issues. The ISLE Computational Lexicon Working Group is committed to the design of MILE (Multilingual ISLE Lexical Entry), a metaentry for the encoding of multilingual lexical information. 4 Indeed, one of the advantages of OLIF is the ease of extensibility and customization of its XMLbased format in order to accommodate it to the requirements of a project. 5 Computationally speaking, entries for any of these modules take the form of XML-formatted data structures. XML was chosen as the formal language for knowledge representation because data can be encoded in such a portable way that information can be easily compilable into the format that is needed by other formalisms and systems. 10 Modelling OLIF frame with EAGLES/ISLE specifications: an interlingual approach Figure 1: FunGramKB Suite Since FunGramKB is intended to be an extensive NLP knowledge base, it is important to minimize the effort for ontology maintenance, so strict control is placed on the management of data consistency. As shown in figure 1, FunGramKB Suite has been designed for that purpose. For instance, the construction of knowledge schemata such as predicate frames or meaning postulates is semiautomatic, because human intervention is required but the knowledge engineer’s intuition is guided and reviewed through FunGramKB Editor, so that consistent well-formed constructs can be stored. The following section describes how the FunGramKB conceptualist approach undoubtedly influences the way of conceiving frames. frames, which are called “predicate frames”. To illustrate, figure 2 displays both the parenthetic string representation (edition format) and the XML representation (storage format) of the predicate frame of load: (x1)S/Agent/NP (x2)O/Theme/NP (x4)A/Goal/PP-into,onto (x1)S/Agent/NP (x4)O/Goal/NP (x2)A/Theme/PP-with <prFrame> <pattern> <slot phrase="NP" syn="S" sem="Agent" /> <slot phrase="NP" syn="O" sem="Theme" /> <slot phrase="PP" syn="A" sem="Goal"> <prep>into</prep> <prep>onto</prep> </slot> </pattern> <pattern> <slot phrase="NP" syn="S" sem="Agent" /> <slot phrase="NP" syn="O" sem="Goal" /> <slot phrase="PP" syn="A" sem="Theme"> <prep>with</prep> </slot> </pattern> </prFrame> 3 Integrating frames into meaning postulates Most semantic representations of verbs have traditionally taken one of two forms (Levin 1995): semantic role-centred approaches (Fillmore 1968, Gruber 1965), where verb arguments are identified on the basis of their semantic relations with the verb, or predicate decomposition approaches (Jackendoff 1972, Schank 1973), which involve the decomposition of verb meaning by means of a restricted set of primitive predicates. In FunGramKB, both approaches are integrated. Similarly to semantic role-centred approaches, verbs are assigned one or more Figure 2: Predicate frame of load The predicate frame is a structural scheme in which the quantitative and qualitative6 6 Selectional preferences on an argument are not really stored in predicate frames, but they are part of thematic frames in the FunGramKB ontology. However, since predicate frames are derived from thematic frames, selectional preferences can definitely take part in full-fledged predicate frames. 11 Carlos Periñán-Pascual, Francisco Arcas-Túnez the lexical units linked to that event.8 Therefore, predicate frames are lexical constructs belonging to a particular language, but they are constructed from the interlingual thematic frames located in the ontology. In FunGramKB, every argument found in the predicate frame of a verb must be referenced through coindexation in the thematic frame of the event to which the verb is linked. Moreover, every argument found in the thematic frame of an event is referenced through co-indexation in the meaning postulate assigned to that event. To illustrate, figure 4 displays both the parenthetic string representation and the XML representation of the meaning postulate of +LOAD_00: valencies of the verb are stated: e.g. load has three subcategorized arguments with the semantic functions Agent, Theme and Goal. Moreover, predicate frames are enriched with information about subcategorization patterns describing the phrasal realizations and syntactic behaviour of the arguments which can linguistically co-occur with the verb. On the other hand, and like predicate decomposition approaches, a lexical unit is linked to a meaning postulate through a conceptual unit in the FunGramKB ontology.7 Furthermore, predicate frames assigned to a lexical unit are integrated into the meaning representation to which the lexical unit is linked by means of the “thematic frame”. To illustrate, figure 3 displays both the parenthetic string representation and the XML representation of the thematic frame of +LOAD_00: +(e1: +PUT_00 (x1)Agent (x2)Theme (x3)Origin (x4)Goal (f1: +IN_00 ^ +ON_00)Position (f2: (e2: +TAKE_01 (x4)Agent (x2)Theme (x5)Location (x4)Origin (x6)Goal))Purpose) (x1: +HUMAN_00 ^ +VEHICLE_00)Agent (x2: +CORPUSCULAR_00)Theme (x3)Origin (x4: +HUMAN_00 ^ +ANIMAL_00 ^ +VEHICLE_00)Goal <mPostulate> <Predication opr="+"> <e n="1" concept="+PUT_00"> <Arguments> <x n="1" sem="Agent" /> <x n="2" sem="Theme" /> <x n="3" sem="Origin" /> <x n="4" sem="Goal" /> </Arguments> <Satellites> <fSet oper="and"> <f n="1" sem="Position"> <PrefSet oper="xor"> <Pref concept="+IN_00" /> <Pref concept="+ON_00" /> </PrefSet> </f> <f n="2" sem="Purpose"> <e n="2" concept="+TAKE_01"> <Arguments> <x n="4" sem="Agent" /> <x n="2" sem="Theme" /> <x n="5" sem="Location" /> <x n="4" sem="Origin" /> <x n="6" sem="Goal" /> </Arguments> </e> </f> </fSet> </Satellites> </e> </Predication> </mPostulate> <thFrame> <Arguments> <x n="1" sem="Agent"> <PrefSet oper="xor"> <Pref concept="+HUMAN_00" /> <Pref concept="+VEHICLE_00" /> </PrefSet> </x> <x n="2" sem="Theme"> <Pref concept="+CORPUSCULAR_00" /> </x> <x n="3" sem="Origin" /> <x n="4" sem="Goal"> <PrefSet oper="xor"> <Pref concept="+HUMAN_00" /> <Pref concept="+ANIMAL_00" /> <Pref concept="+VEHICLE_00" /> </PrefSet> </x> </Arguments> </thFrame> Figure 3: Thematic frame of +LOAD_00 Thematic frames are cognitive schemata specifying the type of participants involved in the situation described by an event. These participants can be instantiated in the form of arguments in the predicate frames assigned to Figure 4: Meaning postulate of +LOAD_00 8 The difference between thematic frames and predicate frames is partly influenced by the distinction in the Construction Grammar (Goldberg 1995) between argument roles and participant roles respectively, where the first are related to the construction and the latter to the frame of a particular verb. 7 In fact, regularities in the semantic distribution of verbs in FunGramKB are not based on syntactic criteria (cf. Levin 1993) but on the cognitive decompositions of events by means of their meaning postulates. 12 Modelling OLIF frame with EAGLES/ISLE specifications: an interlingual approach information, but also on its remarkable conceptualist approach. To this respect, two main differences are observed between OLIF frames and FunGramKB predicate frames. Firstly, OLIF frames are semantically underspecified, since no semantic role is assigned to any slot. Secondly, slot fillers in OLIF are language-specific and not formally represented, whereas in FunGramKB selectional preferences are represented by concepts. Selection preferences should not be lexicalized, but somehow they should be part of human beings’ cognitive knowledge. The benefit of this approach is twofold: (i) the use of concepts as the building blocks of predicate frames removes the problem of lexical semantic ambiguity, and (ii) the inferential power of the reasoning engine is more robust if predictions are based on cognitive expectations. The following section highlights the influence of EAGLES/ISLE standard on the construction of both predicate and thematic frames in FunGramKB. For example, the first predicate frame of load matches the morphosyntactic structure of a sentence such as They loaded all their equipment into backpacks, identifying they as the loaders (Agent), equipment as the thing to be loaded (Theme) and backpacks as the target entity where that thing is placed (Goal). However, the semantic burden of the frame is greater when linked to the thematic frame and the meaning postulate of +LOAD_00, which reveal that “they put the equipment into backpacks because they intended to carry it to another place”.9 As it has been demonstrated, every argument in the predicate frame of a verb is finally integrated in the meaning postulate of its event through the arguments of its thematic frame, which plays a crucial role in both the semantic role-centred and predicate decomposition approaches to the semantic representation of verbs in FunGramKB. 4 The OLIF frame category Three OLIF data categories are relevant for the construction of FunGramKB predicate frames: (i) <transType> specifies the type of prototypical transitivity of the verb. (ii) <synFrame> describes the subcategorization of the lexical entry. A slot-grammar approach is taken for the description of syntactic frames. For example, the frame for the English verb try is as follows (McCormick 2002): 5 Taking into recommendations EAGLES/ISLE EAGLES/ISLE proposes two types of frame: the syntactic frame, which describes the surface structure, and the semantic frame, which describes the deep structure. On the one hand, the syntactic (or subcategorization) frame is expressed as a list of slots, where each slot is described in terms of phrasal realization, grammatical function, restricting features and optionality. Indeed, EAGLES/ISLE proposes a FrameSet to be included in the syntactic entry with the aim of collecting surface regular alternations associated with the same deep structure by explicitly linking the slots of the alternating frames by means of rules. Frames involved in a FrameSet are considered to be at the same level, i.e. no alternating frame has a status of privilege from which the other frames are derived through some lexical rule. Surprisingly, the EAGLES/ISLE approach is not as descriptively economical as the traditional approach, where, given two alternating frames, one of them is deemed to be basic and the other derivative. In comparison with the EAGLES/ISLE proposal of syntactic frame, FunGramKB predicate frames make a limited use of restricting features, because only lexical features can be used to refine the information [subj, (dobj-opt | dobj-sent-ing-opt | dobj-sent-inf-opt)] (iii) account <prep> specifies the preposition that fills a “prepositional phrase” slot. The main advantage of the FunGramKB model of predicate frame does not lie just on the further specification of the lexical 9 Indeed, a lexical unit is associated to much more semantic information which is really shown in its meaning postulate. In FunGramKB, all this underlying cognitive information is revealed through a multi-level process called MicroKnowing (Periñán-Pascual and Arcas-Túnez 2005), where thematic frames also play a key role in the application of the inheritance and inference mechanisms on meaning postulates. 13 Carlos Periñán-Pascual, Francisco Arcas-Túnez specified in the arguments: e.g. the preposition that introduces a prepositional phrase. Moreover, the optional realization of an argument is not stated in FunGramKB predicate frames, because it is thought that context can admit the omission of any traditionally obligatory argument. Concerning frame alternations, FunGramKB can reflect all those syntactic phenomena in which no satellite is involved in the shift. On the contrary, satelliteoriented alternations such as locative alternations or material/product alternations are disregarded, since satellites are excluded from predicate frames. On the other hand, the EAGLES/ISLE semantic frame (or argument structure) is defined in the form of a predicate and a list of arguments, which are described in terms of thematic role and semantic preferences. In general, the type of information in the FunGramKB thematic frame matches that of the EAGLES/ISLE semantic frame; however, differences are found in their approaches to the syntax-semantics interface within a multilingual dimension. EAGLES/ISLE recommends preferably a transfer architecture,10 where monolingual syntactic and semantic frames are put into correlation between L1 and L2; in addition, this approach requires the specification of a set of transformational operations to go from L1 to L2. On the contrary, an interlingual model is adopted by FunGramKB, where thematic frames serve as the bridge between L1 predicate frames and those in L2. Transfer rules are not required since thematic frames are not linked to any particular lexicon but to the ontology, which is shared by all languages. As a result, the FunGramKB interlingual approach gives a more cognitive view to the EAGLES/ISLE semantic frame. Firstly, EAGLES/ISLE recommends that both the predicate and its arguments should be instantiated with language-dependent lexical units, so that complexity in the linkage of the syntactic and semantic frames is dramatically reduced. On the contrary, sub-elements in FunGramKB thematic frames are not lexically driven, since predicates and semantic preferences on arguments are chosen from concepts of the ontology. Therefore, the notion of thematic frame is more abstract than that of semantic frame. Secondly, EAGLES/ISLE proposes that the choice of the number of arguments for a predicate should be determined on purely semantic grounds; thus it is possible that (a) a syntactic position cannot be mapped to any semantic argument—i.e. reduced correspondence, or (b) a semantic argument cannot be mapped to any syntactic position— i.e. augmented correspondence. In FunGramKB, any decision on the type and number of arguments in thematic frames is guided by cognitive criteria. However, the FunGramKB architecture is so marked by the conceptualist approach that, for example, reduced correspondences in the syntaxsemantics interface are not permitted because predicate frames are built out of their thematic frames, but not conversely. 6 Conclusions and future work This paper presents the modifications and extensions to the OLIF model of frame by taking into account some of the EAGLES/ISLE recommendations. The result is that FunGramKB is provided with predicate frames in the lexicon (lexical frames) and thematic frames in the ontology (cognitive frames). We have also described that the two most important approaches to lexical semantic representation are fully integrated in FunGramKB: thus verbs are assigned one or more predicate frames, whose arguments play an active role in the construction of the meaning postulates to which those verbs are linked. In short, the FunGramKB interlingual approach, which gives a more cognitive view to the EAGLES/ISLE semantic frame, contributes to the large-scale development of deep-semantic NLP resources, mainly for natural language understanding. We intend to develop a more robust characterization of predicate frames by exploring linguistically annotated corpora. Thus, and guided by some other suggestions proposed by EAGLES/ISLE, predicate frames could also include: (i) 11 an index indicating the frequency of the frame,11 Frame probability can be particularly useful in natural language generation. For example, the current model of FunGramKB stores a default translation equivalent for every lexical unit, but it could be possible to use statistical information to 10 Although other approaches to translation are also considered, EAGLES/ISLE multilingual layer is inspired mostly on the transfer-based model. 14 Modelling OLIF frame with EAGLES/ISLE specifications: an interlingual approach (ii) (iii) (iv) (v) a wider range of participants, i.e. satellites together with arguments, morphosyntactic restrictions on participants, e.g. whether the phrasal realization in a slot must be instantiated via plural word form, conditional optionality of participants, i.e. when the absence of a participant excludes or requires the presence of another participant, lexical collocations as selectional preferences on participants, EAGLES Document MORPHSYN/R. EAG-CLWG- EAGLES Lexicon Interest Group. 1996b. EAGLES: preliminary recommendations on subcategorisation. EAGLES Document EAG-CLWG-SYNLEX/P. EAGLES Lexicon Interest Group. 1999. EAGLES: preliminary recommendations on lexical semantic encoding. Final report LE34244. Fillmore, C.J. 1968. The case for case. E. Bach and R.T. Harms. eds. Universals in Linguistic Theory. Holt, Rinehart & Winston, New York, 1-88. Bibliography Calzolari, N., R. Grishman, and M. Palmer. eds. 2001. Survey of major approaches towards bilingual/multilingual lexicons. ISLE Deliverable D2.1-D3.1. ISLE Computational Lexicon Working Group. Goldberg, A.E. 1995. Constructions: A Construction Grammar Approach to Argument Structure. The University of Chicago Press, Chicago. Calzolari, N., F. Bertagna, A. Lenci, and M. Monachini. eds. 2003. Standards and best practice for multilingual computational lexicons and MILE. Deliverable D2.2-D3.2. ISLE Computational Lexicon Working Group. Gruber, J.S. 1965. Studies in Lexical Relations. Doctoral dissertation. MIT. Jackendoff, R.S. 1972. Semantic Interpretation in Generative Grammar. MIT Press, Cambridge (Mass.). Levin, B. 1993. English Verb Classes and Alternations: A Preliminary Investigation. The University of Chicago Press, Chicago. Calzolari, N., A. Lenci, and A. Zampolli. 2001a. The EAGLES/ISLE computational lexicon working group for multilingual computational lexicons. Proceedings of the First International Workshop on Multimedia Annotation. Tokyo (Japan). Levin, B. 1995. Approaches to lexical semantic representation. D.E. Walker, A. Zampolli, and N. Calzolari. eds. Automating the Lexicon: Research and Practice in a Multilingual Environment. Oxford University Press, New York. Calzolari, N., A. Lenci, and A. Zampolli. 2001b. International standards for multilingual resource sharing: the ISLE Computational Lexicon Working Group. Proceedings of the ACL 2001 Workshop on Human Language Technology and Knowledge Management. 71-78, Morristown (USA). Lieske, C., S. McCormick, and G. Thurmair. 2001. The Open Lexicon Interchange Format (OLIF) comes of age. Proceedings of the Machine Translation Summit VIII: Machine Translation in the Information Age. 211-216, Santiago de Compostela (Spain). EAGLES Lexicon Interest Group. 1993. EAGLES: Computational Lexicons Methodology Task. EAGLES Document EAG-CLWG-METHOD/B. McCormick, S. 2002. The Structure and Content of the Body of an OLIF v.2.0/2.1. The OLIF2 Consortium. EAGLES Lexicon Interest Group. 1996a. EAGLES: synopsis and comparison of morphosyntactic phenomena encoded in lexicons and corpora. A common proposal and applications to European languages. McCormick, S., C. Lieske, and A. Culum. 2004. OLIF v.2: A Flexible Language Data Standard. The OLIF2 Consortium. Monachini, M., F. Bertagna, N. Calzolari, N. Underwood, and C. Navarretta. 2003. Towards a Standard for the Creation of address the translation of an L1 lexical unit to the most probable equivalent in L2. 15 Carlos Periñán-Pascual, Francisco Arcas-Túnez Lexica. ELRA European Resources Association. Language Periñán-Pascual, C. and F. Arcas-Túnez. 2005. Microconceptual-Knowledge Spreading in FunGramKB. 9th IASTED International Conference on Artificial Intelligence and Soft Computing, 239- 244, ACTA Press, Anaheim-Calgary-Zurich. Schank, R.C. 1973. Identification of conceptualizations underlying natural language. R.C. Schank and K.M. Colby. eds. Computer Models of Thought and Language. W.H. Freeman, San Francisco, 187-247. Underwood, N. and C. Navarretta. 1997. Towards a standard for the creation of lexica. Center for Sprogteknologi. Copenhagen. 16 Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 17-26 recibido 28-01-08, aceptado 03-03-08 Aggregation in the In–Home Domain∗ Agregación en el entorno domótico Eva Florencio, Gabriel Amores, Guillermo Pérez, Pilar Manchón Grupo de Investigación Julietta Universidad de Sevilla Palos de la Frontera, s/n 41004 Sevilla, Spain {evaflorencio,jgabriel,gperez,pmanchon}@us.es Resumen: Este artı́culo describe experimentos realizados con vistas a determinar las preferencias de agregación léxica y sintáctica en inglés y español. El objetivo final es la implementación de dichas estrategias en el módulo de generación de lenguaje natural de un sistema de diálogo multimodal para el entorno domótico. Palabras clave: Agregación, Generación de Lenguaje Natural, Sistemas de Diálogo Abstract: This paper describes experiments carried out in order to determine syntactic and lexical aggregation preferences by English and Spanish users. The final goal of this work is the implementation of such strategies in the NLG module of a multimodal dialogue system in the in–home domain. Keywords: Aggregation, Natural Language Generation, Dialogue Systems 1 Introduction Describing the state of the different devices in a scenario such as the one in Figure 1, where information can be presented and expressed in multiple ways, involves a great complexity for Natural Language Generation (NLG) systems, and even for human beings. Figure 1: Virtual House Example Thus, the house in Figure 1, could be described by focussing on those devices which are switched–on, or we could group them according to their location, or type, as shown in examples 1, 2 and 3, respectively: (1) The TV, the lights in the sitting room and the light in the kitchen ∗ This work has been funded by the Education and Science Spanish Ministry under the project GILDA: Natural Language Generation for Dialogue Systems (TIN2006-14433-C02-02). ISSN 1135-5948 are on. (2) In the sitting room, the light is on. The light is on in the kitchen and the TV is on in the bedroom. (3) The lights in the sitting room and kitchen are on, and the TV in the bedroom is on. Moreover, not only can elements be grouped in several ways, but information can also be aggregated differently. Thus, the state of each individual device could be described by single independent clauses without combining them, as shown in example 4: (4) The light in the bedroom is off. The blinds in the bedroom are rolled down. The TV in the bedroom is off. The lights in the patio are off ... Although this way of presenting information is perfectly grammatical, it results in very monotonous and machine–like outputs. An NLG system which is capable of performing different aggregation strategies will produce a more natural output. This paper describes experiments carried out in order to determine aggregation preferences by English and Spanish users. The final goal of this work is the implementation of such strategies in the NLG module of a © Sociedad Española para el Procesamiento del Lenguaje Natural Eva Florencio, Gabriel Amores, Guillermo Pérez, Pilar Manchón by Reape and Mellish (1999), most NLG systems lack a linguistic foundation to account for aggregation strategies. multimodal dialogue system in the in–home domain. The paper is organised as follows. Section 2 introduces the process of aggregation and its relevance in natural language generation. Next, section 3 describes the MIMUS multimodal dialogue system in which the aggregation strategies will be implemented. Section 4 outlines the initial working hypothesis to be confirmed by the experimental results. The experiments carried out are described in section 5. Sections 6 and 7 review the results obtained and the conclusions to be drawn from the experiments. Finally, section 8 advances some of the lines to be carried out from this moment in the context of the project. 2 3 The MIMUS Dialogue System The context for this project is MIMUS, a multimodal and multilingual dialogue system based on the Information State Update (ISU) Approach (Larsson and Traum, 2000). The system has a symmetric architecture that allows that both the input and the output can be presented in graphical, voice or mixed (voice plus graphical) modalities. Besides, as it is a multilingual system, the user may interact dynamically in English and Spanish (Solar et al., 2007). MIMUS is made up of a series of collaborative agents (Pérez, Amores, and Manchón, 2006) that cooperate and communicate among them under the Open Agent Architecture (OAA, Martin, Cheyer, and Moran (1999)) framework. The core module is the Dialogue Manager (DM), a collaborative agent that is linked to a Natural Language Understanding (NLU) module and to a Generation Module. Dialogues are driven both by the semantic information provided by the user and by the dialogue expectations generated by the dialogue manager. MIMUS incorporates its own specification language for dialogue structures that allows for the representation of the dialogue history, the control of expectations and the treatment of ambiguity. The current version of MIMUS contains a hybrid NLG module in which sentence planning takes the form of predefined templates, as described in (Amores, Pérez, and Manchón, 2006). Utterances are elaborated from the mapping of abstract content representations to linguistic ones. In addition, some canned texts are used for common invariable expressions such as Hello, Thank you, or Bye–bye. Aggregation A review of the literature on aggregation (Dalianis, 1999; Wilkinson, 1995; Shaw, 1998; Cheng, 2000) clearly points out that there is no agreement on its definition or where to place it in the generation process. Albeit thorough attempts have been made to come up with a core definition (Reape and Mellish, 1999) and a standard architecture (Cahill and Reape, 1999), conceptual problems arise. For the purpose of this project, aggregation is conceived of as a process which removes redundant information from a text because it can be inferred or retrieved from linguistic sources (the remaining text), from computational sources (ontology), or pragmatically (using common knowledge). In this work, we will focus on syntactic aggregation, understanding it as the process of combining phrases by means of syntactic rules, such as coordination, ellipsis or subordination. There are, however, some cases of lexical aggregation covered in this study too. Lexical aggregation is understood as the process of mapping several lexical predicates/lexemes into fewer lexical predicates/lexemes. Pronominalisation is considered as a special case of lexical aggregation on the basis of Quirk et al. (1985)’s analysis of pro–form reduction. The theoretical motivation for it is that, indeed, it reduces the number of lexemes or predicates, but it is done by means of a pronoun, unlike other cases of reduction. We claim that all these phenomena have a linguistic motivation and, consequently, they should be linguistically–grounded. As noted 4 Working Hypothesis The final goal of this work is to implement aggregation strategies in our NLG system. Namely, the final NLG module will be required to produce coordinated messages as well as sentences containing other linguistic phenomena, such as ellipsis, gapping or stripping. For instance, sentence 5 below shows an example of how the system should be able to concatenate the light’s locations, either by juxtaposition or coordination, and produce 18 Aggregation in the In-Home Domain 4.2 ellipsis or contribute with cue words such as also. With a view to implementing aggregation in the NLG module of our system, it is important to have some understanding of the grammatical coverage needed in the in–home domain. In addition, the linguistic coverage of the expected texts to be generated is also conditioned by the type of application being implemented (a multimodal dialogue system), and the type of interactions supported (requests about the state of devices in the in– home domain). Taking into account possible questions that users may formulate when interacting with the system, answers may reply to questions about: (5) The lights are on in the sitting room, in the bedroom, and in the kitchen. The hall is also on. 4.1 Linguistic constructions expected Location in the overall system This section discusses where aggregation strategies could be placed in the NLG module of MIMUS. Our first hypothesis is that both syntactic and lexical aggregation in the generation process in MIMUS will be located in the sentence planner. That is, sentence planning templates will be expanded with linguistic information so that they can perform syntactic and lexical aggregation. As explained in the previous section, sentence planning templates map conceptual representations into linguistic ones that will later be passed on to the surface realiser. Therefore, the type of syntactic construction should be specified in the sentence planner so that the surface realiser transforms it into a linguistic unit by means of syntactic rules. The form that terminal nodes will have if lexical aggregation has taken place should also be specified. For instance, some items may have been lexically aggregated by employing a hypernym (e.g., device) instead of their hyponyms (e.g., light, TV, fan and/or blind ). In this fashion, the proposed architecture including aggregation can be seen in Figure 2. a. Quantity: the number of device(s) satisfying a specified condition(s). b. State: the state (on or off) of the devices will be requested. Two subtypes may be found: • Replies about the state of devices (How is the light in the kitchen? ) • Confirm the state of devices (Is the light in the kitchen on? ) c. Devices: information about which devices are in a specific state or location, i.e. (Which devices are on in the house? ) d. Location: obtain information about the location of devices, i.e. Where is the tv? As discussed in Section 1, the information gathered may be grouped according to some common feature, for example, the type of device, the state they are in, or the location. As a first hypothesis, our prediction is that the grouping will mainly be done by location (see example 6 below), perhaps as a consequence of the distribution of the house, which is clearly separated into rooms, as seen in Figure 1. (6) In the sitting room, the light is on, the fan is off, and the TV is on. In the bedroom, all the devices are on. In the patio, one light is on. Nevertheless, the description could also hinge on the type of device or on their state. In those situations in which one of these characteristics (state, device or location) is explicitly mentioned in the question, it is foreseen that: Figure 2: Proposed location of aggregation strategies in the NLG module 19 Eva Florencio, Gabriel Amores, Guillermo Pérez, Pilar Manchón 1. If the device is explicitly mentioned, then the grouping is done by location; Sys: Please, tell me the state of the lights. Usr: In the sitting room, there is one light on. In the hall, the light is on. In the kitchen, the light is off. In the bathroom, it is on. In the patio, two lights are on and two are off. – Constituent coordination: [ [The light in the kitchen] and [the light in the garage] ] are on. • Reduction: It is probably the most common definition of aggregation in the literature and one of the most controversial aspects of its definition. Reduction is the process of removing information that can be inferred or retrieved from the remaining text. Different kinds are distinguished, depending on the type of information elided. 2. If the location is explicitly mentioned, then the grouping is done by device type: Sys: How are the devices in the sitting room? Usr: There is one light on and the other one is off; the TV is on and the fan is off. – Ellipsis: In our domain, we expect it to be performed mainly when asking about a particular device or when there is only one type of device in a location. (7) The (light in the) patio is on. – Gapping: It is prone to happen when the main verb is understood, because it has just been mentioned, or when it is a copulative verb. In this domain, the main verb will be the copulative estar/to be in almost every sentence. (8) In the sitting room, the TV is on and the fan (is) off. – Stripping: It will take place when describing a device that shares the same state as the one previously mentioned. (9) The light is off and the stove [is off ] too. 3. If the state is the only feature mentioned, then it is considered as a non–specific situation in which the general prediction applies (i.e., grouping will be done by location). Sys: Usr: 4.3 Which devices are on? In the sitting room, only the fan is on. In the bedroom, the light and the TV are on. In the hall, two lights are on. Types of aggregation required Concerning the types of syntactic and lexical aggregation that will be necessary in the MIMUS dialogue system, what follows is a list of the ones that should be implemented. The system should be able to produce them, but also to combine them when necessary. Besides, the insertion of some cue words or discourse markers would also be desirable. • Multiple aggregation: more than aggregation process, including also lexical aggregation takes place. For instance, (10) In the patio, there are two lights on and [constituent coor] one [pronominalisation: light] off. The [ellipsis: light in] kitchen is on and [coor] the bathroom [gapping: is] off. 4.3.1 Syntactic Aggregation The next syntactic aggregation processes are required: • Paratactic constructions: linking units of the same rank (sentences, clauses or phrases –the latter case will be referred to as constituent coordination). They are used whenever we need to go through a list of references. 4.3.2 Lexical Aggregation Reducing the number of lexemes or predicates is required when all the devices in the same location have the same state, for instance: En el dormitorio, todo está apagado/In the bedroom, everything is off ; or when describing the same device, such as Hay una luz encendida en el baño y otra en la – Coordination: [The light in the kitchen is on] and [the blind is rolled up]. 20 Aggregation in the In-Home Domain • 4 about devices. cocina/There is one light on in the bathroom and another one in the kitchen. Apart from these pronominalisations, we also expect users to make use of other types of lexical aggregation such as the use of hypernym instead of its hyponyms, as in The devices are on (instead of The light and hob in the kitchen are on)/Los aparatos están encendidos (instead of La luz y la vitrocerámica están encendidas en la cocina). • 2 about devices and location. • 3 about description. • 2 asked for confirmation of state. The user’s profile was not specific; the only feature they had in common was that they were naı̈ve, in the sense that they did not have any previous knowledge of the overall functioning of the system. The role of the users was to describe what they saw in a natural manner. In other words, they had to reply as information came to their minds, without elaborating the utterances beforehand. They were provided with some information prior to the experiments, such as the type of devices they may come across (lights, televisions . . . ) as well as the state they may be in (on, off . . . ) and the number of them in each location. There are nineteen devices available in the house, distributed as follows: 4.3.3 Cue Words Finally, the following cue words may contribute fluency, cohesion and coherence to the output messages: también; ası́ como; tanto. . . como. . . ; and sin embargo, salvo, or pero in Spanish; and too, also, both, and but or however in English. This will also result in more varied and less repetitive sentences. 5 Experiments This section describes the experiments carried out in order to corroborate or refute the working hypotheses. 5.1 Goals The main goal of these experiments has been the study of syntactic and lexical aggregation in the in–home domain, both in English and Spanish. Experiments were carried out in both languages in order to determine, in the first place, if they differ in the way information is aggregated. In doing so, aggregation per se will be studied (how do speakers aggregate?, how often?, in which order?) with the aim of obtaining a pattern which may serve as a model of behaviour for its subsequent implementation in the system. Sitting room: two lights, a TV, a fan and a blind. 5.2 The first settings were considered as an initial contact with the system, in which only basic information could be obtained, being aggregation either basic or non–existent at all. As the experiment moves on, the difficulty increases. Different states with different devices and locations are combined together to see how the user aggregates information: Bedroom: one light, a TV, a blind and a fan. Kitchen: one light and the ceramic hob. Bathroom: one light. Garage: two lights. Patio: four lights. Hall: one light. Design The experiment consisted in showing the informants fifteen print screens of the house in which the devices were in different state configurations. Informants were then asked to describe the state of the devices. The questions to be answered were in the range of possible requests that users can formulate to the system in the real application. Our final goal is to achieve a natural, human– like, virtual butler for the house. The scenarios were distributed as follows: • simple enumeration, • use of cue words, and • 3 scenarios asked about quantity. • preferences either by location, type of device or state. • 1 about location. 21 Eva Florencio, Gabriel Amores, Guillermo Pérez, Pilar Manchón 5.3 Corpus The corpus of study was obtained after interviewing twenty–four informants, twelve in Spanish and twelve in English. As aforementioned, since no specific user profile was sought, informants do not share the same characteristics in both languages. Since each informant was presented with 15 print screens, a corpus of 180 descriptions has been obtained for each language. 5.3.1 Spanish Corpus In the Spanish version of the experiment, twelve users were enrolled. Out of these twelve informants, only four were women; the rest were men. All of them were native speakers of Spanish. Their education level was high, meaning that except for one of the informants, all of them held at least a university degree (Master’s Degree, PhD students and PhDs were also interviewed). Their age ranged between 25 and 44 years old. The average age was 27.1, the median was 26, the mode was 25, and the standard deviation was 5.51. Figure 3: Users’ age range in years type of information demanded, determining if users were asked about the number of a specific device with a concrete state or about the number of devices in general, among other possibilities. Then, the different model answers were set and the usage percentages (out of the total answers for that specific kind of question) were given (see (Florencio, 2007) for further details). At the same time, we also analysed the way in which informants grouped information, either by devices, states or location. After that, the lexical and syntactic aggregation found in each of the predominant patterns is pointed out, as well as the cue words used. 5.3.2 English Corpus For the English version, another twelve informants were recruited. As opposed to the Spanish version, the majority of the users were women, there were only four men involved in the experiment.1 Two of these informants were bilingual (one English and French, and the other Tamil and English), but both reside in English-speaking countries. The average education level was degree studies. Except for three users (two Master’s Degree and Degree), the rest of them were college students. The range of age was from 20 to 62 years old. The average age was 24.3, the median was 21.5, the mode was 20, and the standard deviation was 11.7. The informants’ age distribution of both languages can be seen in Figure 3. 6 6.1 Spanish Results 6.1.1 Types of Syntactic and Lexical Aggregation Performed The most common syntactic structures employed in Spanish were ellipsis, gapping and coordination (including constituent coordination), which were found in almost every reply. Coordination is the most frequent aggregation strategy employed (147 times), above all, when enumerating. Besides, since there were many questions demanding a description, it took place in almost every reply at least once (either sentence coordination or constituent coordination). Ellipsis was the second most frequent type of aggregation (104 times), which was mostly used when the question specified the device. In such cases, most users elided the device in the reply. Results In order to properly analyse the results, we first specified the kind of question being asked. That is, among the questions asking for quantity, for example, we broke down the Sys: 1 The data survey collection was carried out to determine if personal aspects, such as age, sex, or cultural level, could have an influence on their answers. Since no differences were found, no further comment will be made on these aspects. Usr: 22 ¿Qué luces están apagadas? (setting 3) Las del salón, una del garage, la cocina, el baño, dos del patio y el dormitorio. Aggregation in the In-Home Domain Ellipsis also occurred when describing the state of a particular device. Sys: Dı́game qué luces están encendidas. (setting 6) Usr: Una (luz) en el salón, Una (luz) en el dormitorio, dos (luces) en el garaje. As expected, users avoided repetition when they deemed the information was inferable. Gapping was also used very frequently (81 times). There were some informants who omitted the main verb in 90% of their productions. This pattern was used by a few users regularly but not very often by the rest. The reason may reside in the copulative nature of the verb estar. Sys: ¿Me puede describir el estado de todos los dispositivos (luces, aparatos y persianas)? (setting 5) Usr: En el salón, las dos luces apagadas, televisión apagada, y ventilador en movimiento, la persiana del salón bajada, la luz de la entrada apagada. Las dos luces del garaje apagadas. La luz de la cocina encendida, la vitrocerámica encendida . . . Stripping was not used very frequently, with the exception of a couple of users who performed it (an average of twice per user, 4 times used). When used, it occurred when a location had more than one device, especially two, and both of them were in the same state, for example: La luz de la cocina está encendida y la vitrocerámica (está encendida) también. Concerning lexical aggregation, todo/a, ninguno/a, nada (15 times), and otro/a (16 times) were often used when describing the same state or when all the devices shared the same state. Otro/a was often employed when enumerating the same device in different locations. No use of the hypernym dispositivo(s), for instance, was made to refer to all lights, blinds, and so on; instead, todo/ninguno was preferred. 6.1.2 Use of cue words The most commonly used cue word was también (15 times), in an average of at least one time per user. It was mostly used in enumeration. Some users alternated it with other cue words such as ası́ como (1 time) or tanto. . . como. . . (2 times). Other 23 markers used were adversative conjunctions, such as sin embargo (1 time), pero (1 time), salvo (1 time), and some distributive ones: uno. . . otro. . . (10 times). The words sólo and el resto were used once each. 6.2 6.2.1 English Results Types of Syntactic and Lexical Aggregation Performed An analysis of the syntactic and lexical aggregations performed on the English productions was carried out. With respect to syntactic aggregation, the most frequent strategies were ellipsis and coordination again. Coordination, both sentence and constituent coordination, was employed in almost every utterance, adding to a total of 151 times. This phenomenon was employed when listing the types of devices and/or their locations. In the settings in which a description was required, coordination was mostly found. Concerning reduction, ellipsis was highly employed as well. Ellipsis was realised 72 times in all. In the majority of cases, the type of device was the element elided in the sentence, particularly when it appeared in the question in hand. Another form of reduction used was gapping, which appeared 10 times. Only a couple of informants generally omitted the main verb in the sentence, even though it was a copulative verb. No other syntactic strategies were found. With regard to lexical aggregation, we should point out the use of pronominal forms such as one(s) (16 times), other/another (5 times), everything (5 times) and nothing (2 times). They appeared mostly in descriptions, such as Everything is off in the sitting room or The fan is off in the bedroom, but the one in the sitting is on. Finally, all (7 times) and both (15 times) were also employed in the descriptions when the same state applied to all the devices, either in the house or in a specific location: All of the lights are on or Both of the lights are off in the sitting room. 6.2.2 Use of cue words It should be pointed out that English informants did not make use of many cue words in their replies. The most common cue words used were also (7 times) and the adversative but (9 times), which were used when enumerating or describing the state of all the devices in the house. Eva Florencio, Gabriel Amores, Guillermo Pérez, Pilar Manchón Other additive phrases employed were as well as (2 times), so is. . . (3 times), or as is. . . (1 time). For instance, The light in the living room is on, so is the one in the patio. As for other adversative phrases, the following ones were also mentioned: except for (1 time), all the rest (1 time), or all the other (3 times). An example would be The light in the kitchen is on, all the rest are off. The highly formal as far as was also used once when listing all the devices in the house (e.g. As far as TV’s, there are two). The adverb only was employed just once to make a contrast, On the patio, only one of the lights is off. 7 Dialogue alignment. Another interesting result from the experiment was that sentence structuring in the replies aligned with the structure of the question. In both languages users were prone to reply following a similar pattern as the one employed in the question whenever a full sentence was provided. In both cases the end–weight and end–focus principles applied. Long vs short answers. However, concerning the patterns established for the several questions, it should be highlighted that different models were obtained for English and Spanish. English speakers tend to construct full sentences, while Spanish speakers were more economic, and provided only the minimum information requested. For example, 53% of the Spanish informants replied to the quantity questions by just giving the number of devices, while only around 11% did so in English. Another divergence is found in the patterns obtained for the reply location scenario. Nearly 70% of the Spanish users just provided the location, as opposed to a 75% of English speakers who provided full sentences (The lights are on in the sitting room, in the bathroom, and in the hall ). This shows a preference for short incomplete sentences in Spanish and full sentences in English. Comparison and conclusions By and large, the predictions and working hypotheses advanced in section 4.2, were mostly correct. Grouping of information. With regard to the grouping of information, it was clearly done by location in both English and Spanish. This can be considered as a general preference on how to present the data as can be drawn form Figure 4.2 Syntactic aggregation. Another conclusion related to the preference for short or full sentences is the type of aggregation performed. As illustrated in Figure 5, Spanish users used more aggregation strategies than English informants, although not many aggregation strategies have been observed in the in–home domain overall. Apart from coordination, which was frequently employed in both languages, we could find other forms of syntactic aggregation in the Spanish corpus, such as ellipsis, gapping, and a few cases of stripping. Nevertheless, in the English data just ellipsis was found, and it was not commonly used. No other types of reduction were observed. Figure 4: Preference for starting descriptions with location Information was not only grouped by location, though; it was presented in a hierarchical way. This hierarchy was not the same for both languages. In Spanish, the most common way to present the data follows a [State — Device — Location] pattern (Está encendida la luz de la cocina); while, in English, the most popular pattern was [Device — State — Location] (The light is on in the kitchen). Lexical aggregation. As far as lexical aggregation, the results were very similar in English and Spanish. Pronominalisation was the most frequent strategy in both languages. We should emphasise the use of pronominalisation forms such as todo/a, ninguno/a, nada, otro/a in Spanish, and one(s), other/another, everything or nothing 2 As we previously mentioned, this might be due to the graphical interface of the house. 24 Aggregation in the In-Home Domain tegrated with the TAP system so that different aggregation strategies for both languages can be compared on the basis of the results obtained by the experiments. In addition, the new integrated prototype will incorporate preference strategies for lexical alignment, (i.e. if a user preferred the term bombilla instead of luz to refer to the lights in the house, the system should align consequently in the reply) and for fragmentary vs. verbose replies depending on the context. References Amores, G., G. Pérez, and P. Manchón. 2006. Reusing MT Components in Natural Language Generation for Dialogue Systems. Procesamiento del Lenguaje Natural, 37:215–221. Figure 5: Syntactic aggregation performed in English. Use of cue words. Finally, with respect to cue words, no remarkable differences can be found between the two languages. Also/también obtained the highest frequency in both languages. The only point worth mentioning is that it seems that in English fewer cue words were employed but the ones employed were more varied. However, the difference is not significant. Is aggregation language–dependent? Finally, although a much broader analysis should be performed, a comparison of the corpora in English and Spanish seems to suggest that aggregation is language–dependent instead of language–independent. Besides, the enormous differences found between the patterns established in each language plus the different aggregation strategies employed open the possibility of reconsidering the localisation of the aggregation process at a later stage (i.e., not in the Sentence Realiser, but on the Surface Realiser), or consider that the generation module as a whole should be language–dependent. 8 Cahill, L. and M. Reape. 1999. Component tasks in applied NLG Systems. Technical report, Information Technology Research Institute Technical Report Series. Cheng, H. 2000. Experimenting with the Interaction between Aggregation and Text Structuring. In Proceedings of the ANLPNAACL 2000 Student Research Workshop, pages 1–6, Seattle, Washington, USA. Dalianis, H. 1999. Aggregation in Natural Language Generation. Computational Intelligence, 15(4):384–414, November. Florencio, E. 2007. A study on syntactic and lexical aggregation in the in-home domain. Master’s thesis, University of Seville, Spain, May. Gervás, P. 2007. TAP: a Text Arranging Pipeline. Technical report, Natural Interaction based on Language Research Group, Facultad de Informática, Universidad Complutense de Madrid, May. Working draft. Larsson, S. and D. Traum. 2000. Information state and dialogue management in the TRINDI Dialogue Move Engine Toolkit. Natural Language Engineering, 6(3-4):323–340. Future Work At this point in the project, a new specification language is being created in collaboration with the TAP (a Text Arranging Pipeline) project (Gervás, 2007) in an effort to create a set of interfaces which define generic functionality for a pipeline of tasks oriented towards natural language generation. The DTAC representation obtained by our dialogue system is currently being in- Martin, D. L., A. J. Cheyer, and D. B. Moran. 1999. The Open Agent Architecture: A Framework for Building Distributed Software Systems. Applied Artificial Intelligence, 13(1-2):91–128. 25 Eva Florencio, Gabriel Amores, Guillermo Pérez, Pilar Manchón Pérez, G., G. Amores, and P. Manchón. 2006. A Multimodal Architecture for Home Control by Disabled Users. In Proceedings of IEEE ACL Workshop on Spoken Language Technology (SLT), pages 134–137, Aruba, December. Quirk, R., S. Greenbaum, G. Leech, and J. Svartvik. 1985. A Comprehensive Grammar of the English Language. Longman Group Limited. Reape, M. and C. Mellish. 1999. Just what is aggregation anyway? In Proceedings of the 7th European Workshop on Natural Language Processing, pages 20–29, Toulouse (France), May. Shaw, J.C. 1998. Clause Aggregation Using Linguistic Knowledge. In Proceedings of the 9th International Workshop on Natural Language Generation, pages 138–147, Niagara-on-the-Lake, Canada, August. Solar, C. Del, G. Pérez, E. Florencio, D. Moral, G. Amores, and P. Manchón. 2007. Dynamic Language Change in MIMUS. In Proceedings of the Eighth Interspeech Conference (INTERSPEECH 2007 Special Session: Multilingualism in Speech and Language Processing), pages 2141–2144, Antwerp, Belgium, August 2731. Wilkinson, J. 1995. Aggregation in natural language generation: Another look. Technical report, Co-op work term report, Department of Computer Science, University of Waterloo, September. 26 Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 27-34 recibido 31-01-08, aceptado 03-03-08 Detección de fármacos genéricos en textos biomédicos Detecting generic drugs in biomedical texts Isabel Segura Bedmar Paloma Martínez Doaa Samy Universidad Carlos III de Universidad Carlos III de Universidad Carlos III de Madrid Madrid Madrid Avda. Universidad 30, 28911 Avda. Universidad 30, 28911 Avda. Universidad 30, 28911 Leganés, Madrid Leganés, Madrid Leganés, Madrid [email protected] [email protected] [email protected] Resumen: Este trabajo presenta un sistema para el reconocimiento y clasificación de nombres genéricos de fármacos en textos biomédicos1. El sistema combina información del Metatesauro UMLS2 y reglas de nomenclatura para fármacos genéricos, recomendadas por el consejo “United States Adoptated Names” (USAN)3, que permiten la clasificación de los fármacos en familias farmacológicas. La hipótesis de partida es que las reglas USAN son capaces de detectar posibles candidatos de fármacos que no están incluidos en UMLS (versión 2007AC), aumentando la cobertura del sistema. El sistema consigue un 100% de precisión y un 97% de cobertura usando sólo UMLS sobre una colección de 1481 resúmenes de artículos científicos de PubMed. La combinación de las reglas USAN con UMLS mejoran ligeramente la cobertura del sistema. Palabras clave: Reconocimiento de entidades biomédicas, Fármacos Genéricos, UMLS Abstract: This paper presents a system for drug name recognition and clasification in biomedical texts. The system combines information from UMLS Metathesaurus and nomenclatura rules for generic drugs, recommended by United States Adoptated Names (USAN), that allow the classification of the drugs in pharmacologic families. The initial hypothesis is that rules are able to detect possible candidates of drug names which are not included in the UMLS database (version 2007AC), increasing, in this way, the coverage of the system. The system achieves a 100% precision and 97% recall using UMLS only. The combination of the USAN rules and UMLS slightly improves the coverage of the system. Keywords: Biomedical Named Entities, Generic Drugs, UMLS. 1 Introducción Este trabajo es un primer paso en el desarrollo de un sistema que permita la extracción automática de interacciones farmacológicas en textos biomédicos. Una interacción ocurre cuando los efectos de un fármaco se modifican por la presencia de otro fármaco, o bien de un alimento, una bebida o algún agente químico ambiental (Stockley, 2004). Las consecuencias pueden ser perjudiciales si la interacción causa un aumento de la toxicidad del fármaco. Por ejemplo, los pacientes que reciben warfarina pueden comenzar a sangrar si se les administra azapropazona o fenilbutazona sin disminuir la dosis de warfarina. Del mismo modo, la disminución de la eficacia de un fármaco causada por una interacción puede ser igual de peligrosa: si a los pacientes que reciben warfarina se les administra rifampicina, necesitaran más cantidad de aquélla para mantener una anticoagulación adecuada. Sin 1 Este trabajo ha sido parcialmente financiado por los proyectos FIT-350300-2007-75 (Interoperabilidad basada en semántica para la Sanidad Electrónica) y TIN2007-67407-C03-01 (BRAVO: Búsqueda de respuestas avanzada multimodal y multilingüe). 2 http://www.nlm.nih.gov/research/umls/ 3 http://www.ama-assn.org/ama/pub/category/2956.html ISSN 1135-5948 © Sociedad Española para el Procesamiento del Lenguaje Natural Isabel Segura-Bedmar, Paloma Martínez, Dooa Samy embargo, en determinadas ocasiones el uso combinado de medicamentos puede ser beneficioso. La combinación de fármacos antihipertensivos y diuréticos logran unos efectos antihipertensores que no se obtendrían con la administración de uno u otro fármaco por separado (Stockley, 2004). Cuantos más fármacos toma un paciente, mayor es la probabilidad de producirse una interacción adversa. En un estudio hospitalario se halló que el porcentaje era del 7% entre aquellos pacientes que tomaban entre 6 y 10 fármacos, pero aumentaba en un 40% en aquellos que ingerían entre 16 y 20 fármacos, lo que representa un aumento desproporcionado (Smith et al., 1969). Investigadores y profesionales de la salud utilizan distintos recursos como bases de datos online y herramientas4,5 para identificar y prevenir las interacciones farmacológicas. Sin embargo, la literatura biomédica es el mejor sistema para estar al día en lo que se refiere a la información sobre nuevas interacciones. Los últimos avances en biomedicina han provocado un crecimiento vertiginoso del número de publicaciones científicas. PubMed6, un buscador online de artículos de la revista MedLine, tiene más de 16 millones de resúmenes. Investigadores y profesionales de la salud están desbordados ante tal avalancha de información. Por este motivo, es imprescindible el desarrollo de sistemas que faciliten la extracción de conocimiento y un acceso eficiente a la información en el dominio de la biomedicina. El uso de recursos y tecnologías de procesamiento de lenguaje natural puede contribuir a ello. El reconocimiento y clasificación de los términos biomédicos es una fase crucial en el desarrollo de este tipo de sistemas. Es imposible comprender un artículo sin una precisa identificación de sus términos (genes, proteínas, principios activos, compuestos químicos, etc.). La detección de nombres de fármacos genéricos es una tarea compleja debido a las dificultades que implica el procesamiento del texto farmacológico. Nuevos fármacos se introducen diariamente mientras que otros se retiran. Los recursos terminológicos, aunque se modificados frecuentemente, no pueden seguir el paso acelerado de esta terminología en constante cambio. Así, los sistemas capaces de detectar de forma automática nuevos fármacos pueden contribuir a la actualización automática de sus bases de conocimiento. El sistema presentado en este artículo persigue el reconocimiento y clasificación de nombres genéricos de fármacos, combinando información de UMLS y un módulo que implementa las reglas recomendadas por el consejo USAN para la denominación de sustancias farmacológicas. Esta fase es un paso previo e imprescindible para la extracción automática de las interacciones farmacológicas en la literatura biomédica. La combinación de ambos recursos obtiene una precisión y cobertura elevada. UMLS garantiza la precisión, mientras que las reglas amplían la cobertura del dominio detectando nuevos nombres de fármacos que aún no han sido registrados en UMLS. Además, las reglas permiten una clasificación más específica de los fármacos en familias farmacológicos, que ULMS no es capaz de aportar. Consideramos que la familia de un fármaco puede ser una pista valiosa a la hora de detectar interacciones farmacológicas en textos biomédicos. Los fármacos de una misma familia comparten una estructura química base, y por este motivo, si es conocida la interacción de un determinado fármaco, es bastante probable que otro fármaco de la misma familia presenten la misma interacción. El artículo está organizado como sigue: la sección 2 es una revisión de los trabajos en el reconocimiento de entidades biomédicas. La sección 3 describe brevemente los principales recursos de información utilizados en el sistema: UMLS y las reglas USAN. La sección 4 proporciona una descripción de la arquitectura del sistema y el corpus utilizado. La evaluación se presenta en la sección 5. Finalmente, la sección 6 incluye algunas conclusiones y el trabajo futuro. 2 Trabajos relacionados La identificación de genes, proteínas, compuestos químicos, fármacos y enfermedades, etc., es crucial para facilitar la recuperación de información y la identificación de relaciones entre esas entidades, como por ejemplo, las interacciones entre fármacos. 4 http://www.micromedex.com/products/ http://www.ashp.org/ahfs/index.cfm 6 http://www.ncbi.nlm.nih.gov/sites/entrez/ 5 28 Detección de fármacos genéricos en textos biomédicos entidades mediante el uso de pistas léxicas y ortográficas, aunque también se suele utilizar información morfosintáctica. Una de sus principales desventajas es el elevado coste de tiempo y esfuerzo que implica el desarrollo de las reglas. Además, su adaptación para el reconocimiento de otro tipo de entidades es compleja. La combinación de elementos internos tales como afijos, raíces, letras griegas y latinas se emplea para describir la formación de patrones de términos mediante una gramática en el trabajo (Ananiadou, 1994). El sistema PROPER, desarrollado por (Fukuda et al., 1998), utiliza patrones léxicos y elementos ortográficos para la detección de nombres de proteínas, consiguiendo en un pequeño experimento una precisión del 94.7% y una cobertura del 98.8%. El sistema PASTA utiliza una gramática libre de contexto para el reconocimiento de proteínas. Las reglas están basadas en propiedades léxicas y morfológicas de los términos del dominio. El sistema consigue un 84% de precisión y un 82% de cobertura en el reconocimiento de 12 clases de proteínas (Gaizauskas et al., 2003). En el trabajo de (Narayanaswamy et al., 2003) se combina el uso de raíces y sufijos típicos en el dominio químico, con información contextual, es decir, información sobre las palabras que rodean la entidad. También hay trabajos de adaptación de reconocedores de entidades de carácter general com el presentado en (Hobbs, 2002) para detección de nombres de proteínas. Otros enfoques combinan el uso de diccionario y reglas para mitigar el problema de la variabilidad terminológica, y conseguir así una mayor cobertura. (Chiang y Yu, 2003) proponen un sistema robusto de reconocimiento de términos basado en reglas y en la ontología Gene8. Las reglas consideran las posibles variaciones multipalabra, generadas por las permutaciones y por la inserción o eliminación de palabra individuales. Menor es el número de los sistemas que han utilizado aprendizaje supervisado, debido principalmente a la carencia de corpus etiquetados en el dominio biomédico. A continuación, se presentan algunos de estos sistemas basados en aprendizaje automático. En (Zhan et al., 2004) se adaptó un modelo oculto de Markov para el reconocimiento de entidades y abreviaturas en el dominio El reconocimiento de entidades intenta encontrar términos de interés en el texto y clasificarlos dentro de categorías predefinidas como genes, compuestos químicos, fármacos, etc. El problema consiste en determinar dónde empieza y termina cada término, y la asignación de la clase correcta. Muchos trabajos se han centrado en la identificación de genes (Tanabe y Wilbur, 2002) y proteínas (Fukuda et al., 1998). Menor atención ha recibido la detección de otro tipo de entidades como las sustancias químicas (Wilbur et al., 1999), fármacos (Rindflesch et al., 2000) o enfermedades (Friedman et al., 2004). Se han empleado diferentes enfoques para tratar el problema del reconocimiento de entidades biomédicas: reglas, diccionarios, aprendizaje automático, métodos estadísticos, y una combinación de las distintas técnicas. Los métodos basados en diccionarios utilizan recursos terminológicos para localizar las ocurrencias de los términos en el texto. Su principal desventaja es que no son capaces de tratar adecuadamente la variabilidad terminológica. Normalmente, un mismo concepto puede recibir distintos nombres, y los diccionarios, en numerosas ocasiones, no recogen esta variabilidad. (Hirschman et al, 2002) utiliza patrones para localizar genes en una lista extensa obtenida de la base de datos FlyBase. Muchos nombres de genes comparten su representación léxica con palabras comunes en el idioma inglés (ej: an, by, can, for). Esta homonimia es la responsable de la baja precisión del sistema: un 2% en artículos completos y un 7% en resúmenes. La cobertura varía de 31% en resúmenes a un 84% en artículos completos. En (Tsuruoka y Tsujii, 2003) se describe un método para el emparejamiento aproximado de cadenas en un diccionario de proteínas. Además, este método utilizaba un clasificador Bayesiano entrenado sobre el corpus GENIA7, para filtrar los falsos positivos. Este filtrado mejora la precisión (73.5%), al excluir ciertos términos detectados como proteínas según el diccionario, pero que realmente no lo son en el texto. El sistema consigue una cobertura del 67.2%. El principal enfoque de los sistemas basados en reglas consiste en el desarrollo de heurísticas o gramáticas que describan las estructuras comunes de los nombres de determinadas 8 7 http://www-tsujii.is.s.u-tokyo.ac.jp/GENIA/ 29 http://www.geneontology.org/ Isabel Segura-Bedmar, Paloma Martínez, Dooa Samy biomédico, mediante el uso de elementos ortográficos, morfológicos, morfosintácticos y semánticos. (Collier y Takeuchi, 2004) utilizan el clasificador Support Vector Machines (SVM) para detectar entidades biomédicas. Los elementos utilizados fueron ortográficos y etiquetas morfosintácticas. Los experimentos demostraron que el uso de información morfosintáctica provocaba un ligero descenso en los resultados. En (Lee et al, 2004), el reconocimiento se divide en dos fases: identificación y clasificación. Esta división permite una selección más apropiada de los elementos utilizados para el entrenamiento del algoritmo SVM en cada una de las fases. El sistema descrito en este artículo combina el uso de reglas y diccionario. Las reglas están basadas en las recomendaciones del consejo USAN para nominar sustancias farmacológicas. Además, la utilización de estándares oficiales, como es el caso de las reglas USAN, garantiza cierta precisión comparada con la que podría obtenerse al aplicar simples heurísticas. 3 identificación de los nombres de fármacos en el texto. La red semántica consta de 135 tipos semánticos y 54 relaciones que representan relaciones importantes en el dominio de la biomedicina. La Figura 1 muestra parte de la red semántica. Cada concepto de UMLS se clasifica por al menos un tipo semántico. Debido a su extenso alcance, la red semántica permite la categorización de un amplio rango de terminología, lo que favorece el desarrollo de sistemas para el procesamiento automático del lenguaje natural en múltiples dominios biomédicos. Sin embargo, en lo que se refiere al dominio farmacológico, esta categorización es insuficiente. En UMLS, los fármacos genéricos se clasifican en “Pharmacological Substances” o “Antibiotics”. El tipo “Clinical Drugs” se refiere a marcas comerciales, y queda fuera del alcance de nuestro estudio. Mientras que los antibióticos se clasifican en el tipo “Antibiotics”, para el resto de familias farmacológicas (analgésicos, antivirales, anticoagulantes, antiinflamatorios, etc), UMLS proporciona una clasificación demasiado general, al clasificarlos como “Pharmacologic Substance”, sin hacer distinción alguna entre las distintas familias. El tercer recurso de UMLS, SPECIALIST Lexicón está formado por numerosos términos biomédicos y contiene información sintáctica, morfológica y ortográfica. Es posible acceder a estos recursos de tres formas distintas: a través de un servidor cliente utilizando un navegador estándar, mediante un programa que utilice el API UMLSKS, o a través de una interfaz TCP/IP. También es posible trabajar con una copia local de los recursos UMLS, distribuida gratuitamente por la National Library Medical (NLM)9 de Estados Unidos. En la arquitectura aquí descrita se implementó un programa JAVA que embebía el API UMLSKS para acceder a la información en el servidor remoto. Recursos específicos del sistema El sistema utiliza dos fuentes de información para identificar y clasificar los nombres de fármacos en textos biomédicos: el Metatesauro UMLS y las recomendaciones del consejo USAN para el nombrado de fármacos genéricos. Ambos se describen a continuación. 3.1 UMLS Knowledge Sources (UMLSKS) El Sistema de Lenguaje Médico Unificado (UMLS) es una base de datos de conocimiento que integra varios recursos. Uno de sus principales propósitos es facilitar el desarrollo de sistemas automáticos para el procesamiento lenguaje natural en el dominio de la biomedicina. Tres son los recursos principales de UMLS: el Metatesauro, la red semántica y el SPECIALIST Lexicón. El Metatesauro solventa en gran medida el problema de la variabilidad terminológica, debido a que integra información de más de 60 vocabularios y clasificaciones biomédicas. La organización del Metatesauro está basada en conceptos. Un concepto agrupa los posibles nombres que puede tomar un mismo significado en la literatura médica. En el sistema aquí presentado, el Metatesauro UMLS permite la 3.2 Reglas de nombrado recomendadas por el consejo USAN. Un fármaco tiene tres nombres: uno químico basado en su estructura, uno genérico (no propietario) que es el nombre oficial del fármaco durante su existencia, y la marca 9 30 http://www.nlm.nih.gov/ Detección de fármacos genéricos en textos biomédicos La categorización en familias farmacológicas proporcionada por los afijos es más específica y detallada que la proporcionada por los tipos semánticos de UMLS. Además, los afijos permiten identificar nombres de fármacos que aún no han sido registrados en el Metatesauro UMLS. comercial que es el nombre dado por la compañía farmacéutica que lo comercializa. La selección de un nombre para un nuevo fármaco es un proceso complejo. En Estados Unidos, el consejo U.S. Adopted Name (USAN) es la institución responsable de la creación y asignación de un nombre genérico a un nuevo fármaco. En la selección de un nombre, se consideran los siguientes aspectos: la seguridad del paciente, la facilidad de pronunciación, la ausencia de conflictos con marcas comerciales y la utilidad para los profesionales de la salud. Afijos -ast -cromil -atadine -tibant -adol, -adol-butazone -eridine -fenine -fentanil -adox -ezolid -mulin -penem -oxacin Figura 1 Un subconjunto de la Red Semántica de UMLS -planin -prim Las prácticas actuales para nombrar fármacos recaen en el uso de afijos. Estos afijos clasifican los fármacos dependiendo de su estructura química, indicación o mecanismo de acción. Por ejemplo, el nombre de un analgésico podría contener alguno de los siguientes afijos:–adol, -adol-, -butazone, fenine, -eridine y –fentanil. En este trabajo, la clasificación de los fármacos se ha basado en los afijos recomendados por USAN10. La lista utilizada no es exhaustiva, debido a que no incluye ni todos los afijos aprobados por el consejo USAN, ni los recomendados por otras organizaciones. La Tabla 1 muestra algunos de los sufijos empleados en la clasificación. 10 -pristin -arol -irudin -rubicin -fungin Definición antiasthmatics/antiallergics antiallergics (cromoglicic). Ej: nedocromil tricyclic antiasthmatics. Ej: olopatadine antiasthmatics (bradykinin antagonists). Ej: icatibant analgesics (mixed opiate receptor agonists/antagonists). Ej: tazadolen anti-inflammatory analgesics. Ej: mofebutazone analgesics (meperidine). Ej: anileridine analgesics (fenamic). Ej: floctafenine narcotic analgesics. Ej: alfentanil antibacterials (quinoline dioxide). Ej: carbadox oxazolidinone antibacterials Ej: eperezolid antibacterials (pleuromulin) Ej: retapamulin antibacterial antibiotics, Ej: tomopenem antibacterials (quinolone). Ej: difloxacin antibacterials (Actinoplane) Ej: mideplanin Antibacterials (trimethoprim type). Ej: ormetoprim Antibacterials (pristinamycin) Ej: quinupristin anticoagulants (dicumarol). Ej: dicumarol anticoagulants (hirudin). Ej: desirudin antineoplastic antibiotics (daunorubicin) Ej: esorubicin antifungal antibiotics Ej. kalafungin Tabla 1: Algunos afijos empleados por USAN 4 Descripción del sistema Se ha trabajado con una colección de 1481 resúmenes de artículos científicos de PubMed recuperada mediante búsquedas de los nombres http://www.ama-assn.org/ama/pub/category/4782.html 31 Isabel Segura-Bedmar, Paloma Martínez, Dooa Samy contrario, alguno de los tipos semánticos es “Pharmacologic Substance” o “Antibiotic”, el término se etiqueta como fármaco, junto el resto de la información obtenida de UMLS. Los términos que no se encuentran en UMLS, se etiquetan como candidatos a nuevos fármacos no registrados en UMLS. Por último, el modulo que implementa las recomendaciones del consejo USAN es el responsable de clasificar los términos etiquetados como fármacos por el modulo anterior. Para cada uno de los términos, el modulo devuelve la lista de los afijos que están contenidos dentro del nombre, consiguiendo así, la lista de sus posibles familias farmacológicas. de familias farmacológicas, tales como “antiallergics”, “antiasthmatics”, “analgesics”, “antibacterials”, “anticoagulants”, etc. Esta colección se obtuvo mediante un Web Crawler implementado para la recuperación de los resúmenes. La arquitectura del sistema (Figura 2) consta de tres módulos que se ejecutan de forma secuencial: (1) un módulo encargado del procesamiento de los resúmenes, (2) un módulo que identifica los términos que son fármacos, y por último, (3) el módulo responsable de la clasificación y de detectar nuevos fármacos que aún no han sido registrados en UMLS. Para cada uno de los resúmenes de la colección, cada módulo produce como salida un fichero XML con la información obtenida por él. En primer lugar, los resúmenes se dividen en oraciones, se identifican los tokens y se analizan morfosintácticamente. Este módulo utiliza los procesos Sentence Splitter, Tokenizer y POS tagger de la infraestructura GATE11. El análisis morfosintáctico es necesario para identificar aquellos tokens cuya categoría morfosintáctica es nombre (común, propio o plural). A continuación, cada uno de estos nombres se busca en WordNet para descartar aquellos nombres que no son específicos del dominio biomédico, debido a que WordNet es un lexicón de carácter general. La lista inicial de candidatos está formada por aquellos nombres no encontrados en WordNet. El segundo módulo busca en el Metatesauro de UMLS cada uno de los términos que no han sido encontrados en WordNet. Esta búsqueda es implementada utilizando el API de Java que proporciona UMLSKS y que permite consultar información en su servidor remoto. El servidor devuelve un fichero XML con los resultados de la búsqueda. Si se ha encontrado uno o más conceptos, el módulo trata la respuesta y localiza sus posibles tipos semánticos. Si ninguno de ellos se corresponda con “Pharmacological Substance” o “Antibiotics” entonces el término pertenece a otro tipo de entidades (genes, proteínas, etc.). Aunque estas entidades están fuera del alcance del presente estudio, la información relativa a sus tipos semánticos, así como el nombre del concepto, idioma, recurso de información origen, y su identificación dentro de UMLS, queda registrada en el fichero XML que produce el módulo como salida. Si por el 11 Figura 2. Arquitectura del sistema Algunos afijos son demasiado ambiguos, tales como: -ac, -vin-,-vir-, -vin, -mab-, -kin, glil-, -dil, -sal- etc. Dichos afijos podrían disminuir la precisión del sistema, clasificando términos en familias incorrectas. Por este motivo, en la implementación del módulo se decidió prescindir de los afijos con menos de tres letras. Claramente, la clasificación no es exhaustiva, debido a la eliminación de estos afijos ambiguos, y al hecho de que la lista considerada inicialmente no era completa. Por otro lado, con el objeto de detectar posibles candidatos de nuevos fármacos que aún no han sido registrados en el Metatesauro, el módulo procesa el conjunto de términos que no fueron encontrados en UMLS. Como se analizará en el siguiente apartado, el número de nuevos candidatos detectados exclusivamente por las reglas es muy pequeño. http://www.gate.ac.uk/ 32 Detección de fármacos genéricos en textos biomédicos 5 actualizado frecuentemente y con una elevada cobertura en el dominio de la farmacología, pensamos que las reglas USAN podrían detectar fármacos que aún no han sido registrados en el metatesauro. Por este motivo, el módulo de clasificación se ejecutó sobre este conjunto, detectándose 102 nuevos candidatos. Un experto del dominio evaluó manualmente el conjunto de candidatos concluyendo que sólo 82 de estos candidatos eran realmente fármacos no incluidos en UMLS (versión 2007AC). Algunos ejemplos de estos fármacos son: spiradolene, mideplanin, efepristin, tomopenem. Del resto de candidatos, 579 se correspondían con entidades del dominio general tales como organizaciones, nombres de personas, etc. Esto se debe a que los resúmenes, además de contener el título del artículo, también contenían información sobre los autores y su afiliación que no se había filtrado previamente. Los restantes 830 son términos del dominio de la biomedicina que no están registrados en UMLS, tales como nonherbal, suboptimal, thromboprophylaxis, interpatient, coadministration, etc. Finalmente, los resultados globales de la evaluación se muestran en la Tabla 3. El sistema consigue una cobertura del 97% y una precisión del 100% si se utiliza únicamente información de UMLS. La combinación de UMLS y las reglas USAN aumentan ligeramente la cobertura, pero disminuye la precisión del sistema. Evaluación del sistema Una vez procesados los 1481 resúmenes y descartados los nombres de dominio general, es decir, aquellos que fueron encontrados en WodNet, la lista inicial de candidatos está formada por 10.743 tokens. Cada uno de estos términos se busca en el metatesauro de UMLS. Un 10.5% de ellos (1.129) están registrados en el Metatesauro, pero ninguno de sus tipos semánticos es “Pharmacologic Substances” o “Antibiotics”. Es decir, estos términos pertenecen a otros tipos semánticos como “Organic Chemical”, “Lipid2, “Carbohydrate”, etc., Como se comentó anteriormente, este subconjunto está fuera del alcance del presente estudio. El 75.4% (8.103) de los 10.743 candidatos iniciales se corresponden con sustancias farmacológicas o antibióticos. El módulo que implementa las reglas USAN consigue clasificar un 35% (2.893) de ellos. La Tabla 2 muestra parte de la distribución de familias farmacológicas en la colección de resúmenes. Familia Antineoplastics Anticoagulants Antihistaminics antiasthmatics or antiallergics Anxiolytic sedatives Antibacterials Antifungals Antivirals Anti-inflammatory Afijos -abine, -antrone, -bulin, -platin, -rubicin, -taxel, -tinib, -tecan, -trexate, -vudine -arol-, -grel-tadine, -astine -azoline, -cromil % (num) 7% (205) -azenil, -azepam, -bamete, -peridone, -perone -ezolid, -mulin, -oxacin, -penem, -planin, -prim, -pristin -conazole, -fungin -cavir, -ciclovir, -navir, -vudine, -virenz, -bufen, -butazone, -icam, -nidap, -profen, 0,8%(24) 1,3%(37) 1,5%(44) 2,1%(61) 5%(146) 1,8%(53) 4,7%(137) 4,9%(141) Immunomodulator s -imod, -leukin 5,3%(154) Antidiabetics Vasodilators Analgesics -glinide, -glitazone -dipine, -pamil -adol, -butazone, -coxib -eridine, -fentanil 0,7%(22) 2,4%(71) 3,9%(115) Cobertura Precisión 97% 99.8% 100% 99,3% UMLS UMLS + Rules Tabla 3. Resultados del sistema 6 Conclusiones La implementación de las reglas USAN puede mejorar la detección de nuevos fármacos aún no registrados en el Metatesauro UMLS. Sin embargo, los resultados demuestran que la mejora es realmente pequeña. Por esta razón, es lógico concluir que UMLS tiene una elevada cobertura en el dominio de la farmacología. Por otro lado, la categorización aportada por UMLS en lo que se refiere a los fármacos es insuficiente a la hora de desarrollar sistemas automáticos para la extracción automática de Tabla 2. Distribución de las familias farmacológicas en el corpus UMLS no detectó ningún concepto para el 14% (1.511) de los candidatos iniciales (10.743). Aunque UMLS es un recurso 33 Isabel Segura-Bedmar, Paloma Martínez, Dooa Samy Collier N, Takeuchi K. 2004. Comparison of character-level and part of speech features for name recognition in biomedical texts:423–35. información. Las reglas USAN pueden contribuir a completar la clasificación de UMLS. Conocer la clase o familia de un determinado fármaco es una valiosa pista a la hora de determinar la presencia real de una interacción. Este enfoque preliminar es el primer paso hacia un sistema de extracción de información en el campo de la farmacología. Ampliar la cobertura de la clasificación gracias a la inclusión de un mayor número de afijos, el tratamiento de términos multipalabra, así como la resolución de acrónimos y abreviaturas son algunos de los siguientes pasos dentro de la planificación de nuestro trabajo. La evaluación del sistema fue realizada por un farmacéutico, debido a la falta de corpus etiquetados para el dominio farmacológico. Este proceso manual, además de tedioso, implica una gran cantidad de tiempo y esfuerzo. Por este motivo, con el objeto de reducir la carga de nuestro experto, hemos supuesto que la información aportada por UMLS es correcta. Sin embargo, una revisión manual de una pequeña muestra de los conceptos clasificados como sustancias farmacológicas en UMLS, mostró que algunos de ellos no eran sustancias, sino acciones o funciones farmacológicas. Esta inconsistencia semántica también fue reportada Schulze-Kremer y colegas (Schulze-Kremer et al., 2004). Por tanto, somos conscientes que es imprescindible evaluar manualmente el conjunto de conceptos clasificados por UMLS para conseguir una estimación real de la precisión y cobertura del sistema. Integrar un modulo para el reconocimiento de entidades del dominio general, así como una lista de términos biomédicos no incluidos en UMLS son algunas de las medidas futuras para reducir el coste de la evaluación. The FlyBase database of the Drosophila genome projects and community literature. Nucleic Acids Res 2003;31(1):172– 5. Friedman, C., Shagina, L., Lussier, Y. and Hripcsak, G., 2004. Automated encoding of clinical documents based on natural language processing. J. Am. Med. Inform. Assoc. 11, 392–402 Fukuda, K., A. Tamura, T. Tsunoda, and T. Takagi. 1998. “Toward information extraction: identifying protein names from biological papers”. In: Proceedings of Pac Symp Biocomput.: 707-718. Gaizauskas R, Demetriou G, Artymiuk PJ, Willett P. 2003. Protein structures and information extraction from biological texts: the PASTA system. Bioinformatics;19(1):135–43. Hobbs JR. 2002. Information extraction from biomedical text. J Biomed Inform;35(4):260–4. Hirschman L, Morgan AA, Yeh AS. 2002. Rutabaga by any other name: extracting biological names. J Biomed Inform;35(4):247–59. Lee KJ, Hwang YS, Kim S, Rim HC. 2004. Biomedical named entity recognition using two phase model based on SVMs. J Biomed Inform. 37(6):436–47. Narayanaswamy M, Ravikumar KE, Vijay-Shanker K. A biological named entity recognizer. In: Proceedings of Pacific Symposium on Biocomputations. 2003. pp. 427– 38. Rindflesch, T.C., Tanabe,L., Weinstein,J.N. and Hunter,L. 2000. EDGAR: extraction of drugs, genes and relations from the biomedical literature. Pac. Symp. Biocomput. 5, 517–528 Smith JW, Seidl LG y Cluff LE, 1969. Studies on the epidemiology of adverse drug interactions. V. Clinical factors influencing susceptibility. Ann Intern Med: 65, 629 . Stockley, I. 2004. Stockley Interacciones farmacológicas. Pharma Editores. Barcelona. Tanabe, L. y Wilbur, W.J. 2002. Tagging gene and protein names in biomedical text. Bioinformatics 18, 1124–1132 Tsuruoka Y, Tsujii J. 2003. Boosting precision and recall of dictionarybased protein name recognition. En: Proceedings of NLP in Biomedicine, ACL. Sapporo, Japan; 41–8. Agradecimientos Wilbur WJ, Hazard GF Jr, Divita G, Mork JG, Aronson AR, Browne AC. 1999. Analysis of biomedical text for chemical names: a comparison of three methods. Proc. AMIA Symp. 176–180 Los autores agradecen a María Segura Bedmar, responsable del centro de información de medicamentos del Hospital de Móstoles, su valiosa ayuda en la evaluación del sistema. Zhang J, Shen D, Zhou G, Su J, Tan CL. 2004. Enhancing HMM-based biomedical named entity recognition by studying special phenomena. J Biomed Inform. 37(6):411–22. Bibliografía Ananiadou, S. 1994. A Methodology for Automatic Term Recognition. En: Proceedings of COLING-94. Kyoto, Japan. 1034-1038 Schulze-Kremer S, B. Smith, A. Kumar. 2004. Revising the UMLS Semantic Network. In: Fieschi M, Coiera E, Li YC, editors. Proceedings of Medinfo. San Francisco, CA; 2004. p. 1700. Chiang, J.-H. and Yu, H.-C. 2003. Meke: Discovering the functions of gene products from biomedical literature via sentence alignment. Bioinformatics, Vol. 19(11): 1417– 1422. 34 Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 35-42 recibido 29-01-08, aceptado 03-03-08 Bases de Conocimiento Multilı́ngües para el Procesamiento Semántico a Gran Escala∗ Multilingual Knowledge Resources for wide–coverage Semantic Processing Montse Cuadros [email protected] TALP Research Center, UPC Barcelona, Spain German Rigau [email protected] IXA Group, UPV/EHU Donostia-San Sebastian, Spain Resumen: Este artı́culo presenta el resultado del estudio de un amplio conjunto de bases de conocimiento multilı́ngües actualmente disponibles que pueden ser de interés para un gran número de tareas de procesamiento semántico a gran escala. El estudio incluye una amplia gama de recursos derivados de forma manual y automática para el inglés y castellano. Con ello pretendemos mostrar una imagen clara de su estado actual. Para establecer una comparación justa y neutral, la calidad de cada recurso se ha evaluado indirectamente usando el mismo método en dos tareas de resolución de la ambigüedad semántica de las palabras (WSD, del inglés Word Sense Disambiguation). En concreto, las tareas de muestra léxica del inglés del Senseval-3. Palabras clave: Adquisición y Representación del Conocimiento Léxico, WSD Abstract: This report presents a wide survey of publicly available multilingual Knowledge Resources that could be of interest for wide–coverage semantic processing tasks. We also include an empirical evaluation in a multilingual scenario of the relative quality of some of these large-scale knowledge resources. The study includes a wide range of manually and automatically derived large-scale knowledge resources for English and Spanish. In order to establish a fair and neutral comparison, the quality of each knowledge resource is indirectly evaluated using the same method on a Word Sense Disambiguation task (Senseval-3 English Lexical Sample Task). Keywords: Adquisition and Representation of Lexical Knowledge, WSD 1. Introdución El uso de bases de conocimiento de amplia cobertura, tales como WordNet (Fellbaum, 1998), se ha convertido en una práctica frecuente, y a menudo necesaria, de los sistemas actuales de Procesamiento del Lenguaje Natural (NLP, del inglés Natural Language Processing). Incluso ahora, la construcción de bases de conocimiento suficientemente grandes y ricas para un procesamiento semántico de amplia cobertura, requiere de un gran y costoso esfuerzo manual que involucra a grandes grupos de investigación durante largos perı́odos de desarrollo. De hecho, centenares de años/persona se han invertido en Este trabajo ha sido parcialmente financiado por grupo IXA de la UPV/EHU y los proyectos KNOW (TIN2006-15049-C03-01) y ADIMEN (EHU06/113) ∗ ISSN 1135-5948 el desarrollo de wordnets para varios idiomas (Vossen, 1998). Por ejemplo, en más de diez años de construcción manual (desde 1995 hasta 2006, esto es desde la versión 1.5 hasta la 3.0), WordNet ha pasado de 103.445 a 235.402 relaciones semánticas1 . Es decir, alrededor de unas mil nuevas relaciones por mes. Sin embargo, estas bases de conocimiento no parecen ser suficientemente ricas como para ser usadas directamente por aplicaciones avanzadas basadas en conceptos. Parece que estas aplicaciones no se mostrarán eficaces en dominios abiertos (y también en dominios especı́ficos) sin un conocimiento semántico de amplia cobertura más detallado y más rico construido mediante procedimientos automáticos. Obviamente, este hecho ha sido un 1 Las relaciones simétricas se han contado una sola vez. © Sociedad Española para el Procesamiento del Lenguaje Natural Montse Cuadros, German Rigau 2. obstáculo al progreso del estado del arte en NLP. Afortunadamente, en los últimos años, la comunidad investigadora ha desarrollado un amplio conjunto de métodos y herramientas innovadoras para la adquisición automática de conocimiento léxico a gran escala a partir de fuentes estructuradas y no estructuradas. Entre otros podemos mencionar eXtended WordNet (Mihalcea y Moldovan, 2001), grandes colecciones de preferencias semánticas adquiridas de SemCor (Agirre y Martinez, 2001)o adquiridas de British National Corpus (BNC) (McCarthy, 2001), Topic Signatures2 para cada synset adquiridas de la web (Agirre y de la Calle, 2004) o adquiridas del BNC (Cuadros, Padró, y Rigau, 2005). Evidentemente, todos estos recursos semánticos han sido adquiridos mediante un conjunto muy diferente de procesos, herramientas y corpus, dando lugar a un conjunto muy amplio y variado de nuevas relaciones semánticas entre synsets. De hecho, cada uno estos recursos semánticos presentan volúmenes y exactitudes muy distintas cuando se evalúan en un marco común y controlado (Cuadros y Rigau, 2006). De hecho, que sepamos, ningún estudio empı́rico se ha llevado a cabo tratando de ver la forma en que estos grandes recursos semánticos se complementan entre sı́. Además, dado que este conocimiento es independiente de idioma (conocimiento representado en el plano semántico, es decir, como relaciones entre conceptos), hasta la fecha ninguna evaluación empı́rica se ha llevado a cabo mostrando: a) hasta qué punto estos recursos semánticos adquiridos de un idioma (en este caso inglés) podrı́an ser de utilidad para otro (en este caso castellano), y b) cómo estos recursos se complementan entre sı́. Este artı́culo está organizado de la siguiente manera. Tras esta breve introducción, mostramos los recursos semánticos multilı́ngües que analizaremos. En la sección 3 presentamos el marco de evaluación multilı́ngüe utilizado en este estudio. La sección 4 describe los resultados cuando evaluamos para el inglés estos recursos semánticos a gran escala y en la sección 5 para el castellano. Por último, la sección 6 se presentan algunas observaciones finales y el trabajo futuro. Recursos Semánticos Multilı́ngües La evaluación que aquı́ presentamos abarca una amplia variedad de recursos semánticos de gran tamaño: WordNet (WN) (Fellbaum, 1998), eXtended WordNet (Mihalcea y Moldovan, 2001), grandes colecciones de preferencias semánticas adquiridas de SemCor (Agirre y Martinez, 2001)o adquiridos del BNC (McCarthy, 2001), y Topic Signatures para cada synset adquiridas de la web (Agirre y de la Calle, 2004). A pesar de que estos recursos se han obtenido utilizando diferentes versiones de WN, utilizando la tecnologı́a para alinear automáticamente wordnets (Daudé, Padró, y Rigau, 2003), la mayorı́a de estos recursos se han integrado en un recurso común llamado Multilingual Central Repository (MCR) (Atserias et al., 2004). De esta forma, mantenemos la compatibilidad entre todas las bases de conocimiento que utilizan una versión concreta de WN como repositorio de sentidos. Además, estos enlaces permiten transportar los conocimientos asociados a un WN particular, al resto de versiones de WN. 2.1. MCR El Multilingual Central Repository3 (MCR) sigue el modelo propuesto por el proyecto EuroWordNet. EuroWordNet (Vossen, 1998) es una base de datos léxica multilingüe con wordnets de varias lenguas europeas, que están estructuradas como el WordNet de Princeton. El WordNet de Princeton contiene información sobre los nombres, verbos, adjetivos y adverbios en inglés y está organizado en torno a la noción de un synset. Un synset es un conjunto de palabras con la misma categorı́a morfosintáctica que se pueden intercambiar en un determinado contexto. La versión actual del MCR (Atserias et al., 2004) es el resultado del proyecto europeo MEANING del quinto programa marco4 . El MCR integra siguiendo el modelo de EuroWordNet, wordnets de cinco idiomas diferentes, incluido el castellano (junto con seis versiones del WN inglés). Los wordnets están vinculados entre sı́ a través del Inter-LingualIndex (ILI) permitiendo la conexión de las 3 http://adimen.si.ehu.es/cgibin/wei5/public/wei.consult.perl 4 http://nipadio.lsi.upc.es/˜nlp/meaning 2 Topic Signatures es el término en inglés para referirse a las palabras relacionadas con un tópico o tema. 36 Bases de Conocimiento Multilíngües para el Procesamiento Semántico a Gran Escala palabras en una lengua a las palabras equivalentes en cualquiera de las otras lenguas integradas en el MCR. De esta manera, el MCR constituye un recurso lingüı́stico multilı́ngüe de gran tamaño útil para un gran número de procesos semánticos que necesitan de una gran cantidad de conocimiento multilı́ngüe para ser instrumentos eficaces. Por ejemplo, el synset en inglés <party, political party> está vinculado a través del ILI al synset en castellano <partido, partido polı́tico>. El MCR también integra WordNet Domains (Magnini y Cavaglià, 2000), nuevas versiones de los Base Concepts y la Top Concept Ontology (Álvez et al., 2008), y la ontologı́a SUMO (Niles y Pease, 2001). La versión actual del MCR contiene 934.771 relaciones semánticas entre synsets, la mayorı́a de ellos adquiridos automáticamente5 . Esto representa un volumen casi cuatro veces más grande que el de Princeton WordNet (235.402 relaciones semánticas únicas en WordNet 3.0). En lo sucesivo, nos referiremos a cada recurso semántico de la siguiente forma: WN (Fellbaum, 1998): Este recurso contiene las relaciones directas y no repetidas codificadas en WN1.6 y WN2.0 (por ejemplo, tree#n#1–hyponym–>teak#n#2). También hemos estudiado WN2 utilizando las relaciones a distancia 1 y 2, WN3 utilizando las relaciones a distancias 1 a 3 y WN4 utilizando las relaciones a distancias 1 a 4. XWN (Mihalcea y Moldovan, 2001): Este recurso contiene las relaciones directas codificadas en eXtended WN (por ejemplo, teak#n#2–gloss–>wood#n#1). WN+XWN: Este recurso contiene las relaciones directas incluidas en WN y XWN. También hemos estudiado (WN+XWN)2 (utilizando relaciones de WN o XWN a distancias 1 y 2). spBNC (McCarthy, 2001): Este recurso contiene 707.618 preferencias de selección con los sujetos y objetos tı́picos adquiridos del BNC. spSemCor (Agirre y Martinez, 2001): Este recurso contiene las preferencias de selección con los sujetos y los objetos tı́picos adquiridos de SemCor (por ejemplo, read#v#1–tobj–>book#n#1). MCR (Atserias et al., 2004): Este recurso contiene las relaciones directas incluidas en el MCR. Sin embargo, en los experimentos descritos a continuación se excluyó el recurso spBNC debido a su pobre rendimiento. Ası́, el MCR contiene las relaciones directas de WN , XWN, y spSemCor. Obsérvese que el MCR no incluye las relaciones indirectas de (WN+XWN)2 . No obstante, también hemos evaluado (MCR)2 (utilizando las relaciones a distancia 1 y 2), que sı́ integra las relaciones de (WN+XWN)2 . 2.2. Topic Signatures Las Topic Signatures (TS) son vectores de palabras relacionadas con un tema (o tópico) (Lin y Hovy, 2000). Las TS pueden ser construidas mediante la búsqueda en un corpus de gran tamaño del contexto de un tema (o tópico) objetivo. En nuestro caso, consideramos como un tema (o tópico) el sentido de una palabra. Para este estudio hemos usado dos conjuntos de TS distintos. Las primeras TS constituyen uno de los mayores recursos semánticos disponibles actualmente con alrededor de 100 millones de relaciones semánticas (entre synsets y palabras) que ha sido adquirido automáticamente de la web (Agirre y de la Calle, 2004). Las segundas TS se han obtenido directamente de SemCor. TSWEB6 : Inspirado en el trabajo de (Leacock, Chodorow, y Miller, 1998), estas Topic Signatures se adquirieron utilizando para la construcción de la consulta del tópico (o sentido de WN en nuestro caso), los sentidos monosémicos próximos al tópico en WordNet (esto es, sinónimos, hiperónimos, hipónimos directos e indirectos, y hermanos), consultando en Google y recuperando hasta un millar de fragmentos de texto por consulta (es decir, por sentido o tópico), y extrayendo de los fragmentos las palabras con frecuencias distintivas usando TFIDF. Para estos experimentos, se ha utilizado como máximo las primeras 700 palabras distintivas de cada TS resultante. Debido a que éste es un recurso semántico entre sentidos y palabras, no es posible transportar sus relaciones al wordnet castellano sin introducir gran cantidad de errores. El cuadro 1 presenta un ejemplo de TSWEB para el primer sentido de la palabra party. TSSEM: Estas TS se han construido utilizando SemCor, un corpus en inglés donde todas sus palabras han sido anotadas 5 No consideramos las preferencias de selección adquiridos del BNC (McCarthy, 2001). 6 37 http://ixa.si.ehu.es/Ixa/resources/~sensecorpus democratic tammany alinement federalist missionary anti-masonic nazi republican alcoholics 0.0126 0.0124 0.0122 0.0115 0.0103 0.0083 0.0081 0.0074 0.0073 Montse Cuadros, German Rigau tal de las relaciones transportadas es de sólo 586.881. 3. Con el fin de comparar los distintos recursos semánticos descritos en la sección anterior, hemos evaluado todos estos recursos como Topic Signatures (TS). Esto es, para cada synset (o tópico), tendremos un simple vector de palabras con pesos asociados. Este vector de palabras se construye reuniendo todas las palabras que aparecen directamente relacionados con un synset. Esta simple representación intenta ser lo más neutral posible respecto a los recursos utilizados. Todos los recursos se han evaluado en una misma tarea de WSD. En particular, en la sección 4 hemos utilizado el conjunto de nombres de la tarea de muestra léxica en inglés de Senseval-3 (Senseval-3 English Lexical Sample task) que consta de 20 nombres, y en la sección 5 hemos utilizado el conjunto de nombres de la tarea de muestra léxica en castellano de Senseval-3 (Senseval-3 Spanish Lexical Sample task) que consta de 21 nombres. Ambas tareas consisten en determinar el sentido correcto de una palabra en un contexto. Para la tarea en inglés se usó para la anotación los sentidos de WN1.7.1. Sin embargo, para el castellano se desarrolló especialmente para la tarea el diccionario MiniDir. La mayorı́a de los sentidos de MiniDir tienen vı́nculos a WN1.5 (que a su vez está integrado en el MCR, y por tanto enlazado al wordnet castellano). Todos los resultados se han evaluado en los datos de prueba usando el sistema de puntuación de grano fino proporcionado por los organizadores. Para la evaluación hemos usado sólo el conjunto de nombres etiquetados porque TSWEB se contruyó sólo para los nombres, y porque la tarea de muestra léxica para el inglés usa como conjunto de sentidos verbales aquellos que aparecen en el diccionario WordSmyth (Mihalcea, T., y A., 2004), en lugar de los que aparecen en WordNet. Ası́, el mismo método de WSD se ha aplicado a todos los recursos semánticos. Se realiza un simple recuento de las palabras coincidentes entre aquellas que aparecen en la Topic Signature de cada sentido de la palabra objetivo y el fragmento del texto de test7 . El synset que tiene el recuento mayor es seleccionado. De hecho, se trata de un méto- Cuadro 1: Topic Signature de party#n#1 obtenida de la web (9 de las 15.881 palabras totales) political party#n#1 party#n#1 election#n#1 nominee#n#1 candidate#n#1 campaigner#n#1 regime#n#1 government#n#1 authorities#n#1 2.3219 2.3219 1.0926 0.4780 0.4780 0.4780 0.3414 0.3414 0.3414 Cuadro 2: Topic Signature para party#n#1 obtenida de SemCor (9 de los 719 sentidos totales) semánticamente. Este corpus tiene un total de 192.639 palabras lematizadas y etiquetadas con su categorı́a y sentido según WN1.6. Para cada sentido objetivo (o tópico), obtuvimos todas las frases donde aparecı́a ese sentido. De esta forma derivamos un subcorpus de frases relativas al sentido objetivo. A continuación, para cada subcorpus se obtuvo su TS de sentidos utilizando TFIDF. En el cuadro 2, mostramos los primeros sentidos obtenidos para party#n#1. Aunque hemos probado con otras medidas, los mejores resultados se han obtenido utilizando la fórmula TFIDF (Agirre y de la Calle, 2004). T F IDF (w, C) = wfw N × log maxw wfw Cfw Marco de evaluación (1) Donde w es la palabra del contexto, wf la frecuencia de la palabra, C la colección (todo el corpus reunido para un determinado sentido), y Cf es la frecuencia en la colección. El número total de las relaciones entre synsets de WN adquiridos de SemCor es 932.008. En este caso, debido al menor tamaño del wordnet castellano, el número to- 7 También consideramos los términos multipalabra que aparecen en WN. 38 Bases de Conocimiento Multilíngües para el Procesamiento Semántico a Gran Escala 4.2. do muy simple de WSD que sólo considera la información de contexto en torno a la palabra que se desea interpretar. Por último, debemos señalar que los resultados no están sesgados (por ejemplo, para resolver empates entre sentidos), mediante el uso del sentido más frecuente en WN o cualquier otro conocimiento estadı́stico. A modo de ejemplo, el cuadro 3 muestra uno de los textos de prueba de Senseval-3 correspondiente al primer sentido de la palabra party. En negrita se muestran las palabras que aparecen en la TS correspondiente al sentido party#n#1 de la TSWEB. 4. 4.1. Evaluación de cada recurso en inglés El cuadro 4 presenta ordenadas por la medida F1, las referencias y el rendimiento de cada uno de los recursos presentados en la sección 2 y el tamaño medio de las TS por sentido de palabra. El tamaño medio de las TS de cada recurso es el número de palabras asociadas a un synset de promedio. Obviamente, los mejores recursos serán aquellos que obtengan los mejores resultados con un menor número de palabras asociadas al synset. Los mejores resultados de precisión, recall y medida F1 se muestran en negrita. También hemos marcado en cursiva los resultados de los sistemas de referencia. Los mejores resultados son obtenidos por TSSEM (con F1 de 52,4). El resultado más bajo se obtiene por el conocimiento obtenido directamente de WN debido principalmente a su escasa cobertura (R, de 18,4 y F1 de 26,1). También es interesante notar que el conocimiento integrado en el (MCR) aunque en parte derivado por medios automáticos obtiene mucho mejores resultados en términos de precisión, recall y medida F1 que utilizando cada uno de los recursos que lo integran por separado (F1 con 18,4 puntos más que WN, 9,1 más que XWN y 3,7 más que spSemCor). A pesar de su pequeño tamaño, los recursos derivados de SemCor obtienen mejores resultados que sus homólogos usando corpus mucho mayores (TSSEM vs. TSWEB y spSemCor vs. spBNC). En cuanto a los sistemas de referencia básicos, todos los recursos superan RANDOM, pero ninguno logra superar ni WNMFS, ni TRAIN-MFS, ni TRAIN. Sólo TSSEM obtiene mejores resultados que SEMCOR-MFS y está muy cerca del sentido más frecuente de WN (WN-MFS) y el corpus de entrenamiento (TRAIN-MFS). En cuanto a las expansiones y otras combinaciones, el rendimiento de WN se mejora utilizando palabras a distancias de hasta 2 (F1 de 30,0), y hasta 3 (F1 de 34,8), pero disminuye utilizando distancias de hasta 4 (F1 de 33,2). Curiosamente, ninguna de estas ampliaciones de WN logra los resultados de XWN (F1 de 35,4). Por último, (WN+XWN)2 va mejor que WN+XWN y (MCR)2 ligeramente mejor que MCR8 . Evaluación para el inglés Referencias básicas para el English Hemos diseñado una serie de referencias básicas con el fin de establecer un marco de evaluación que nos permita comparar el rendimiento de cada recurso semántico en la tarea WSD en inglés. RANDOM: Para cada palabra este método selecciona un sentido al azar. Esta referencia puede considerarse como un lı́mite inferior. SEMCOR-MFS: Esta referencia selecciona el sentido más frecuente de la palabra según SemCor. WN-MFS: Esta referencia selecciona el sentido más frecuente según WN (es decir, el primer sentido en WN1.6). Los sentidos de las palabras en WN se ordenaron utilizando las frecuencias de SemCor y otros corpus anotados con sentidos. Ası́, WN-MFS y SemCorMFS son similares, pero no iguales. TRAIN-MFS: Esta referencia selecciona el sentido más frecuente de la palabra objetivo en el corpus de entrenamiento. TRAIN: Esta referencia utiliza el corpus de entrenamiento de cada sentido proporcionado por Senseval-3 construyendo directamente una TS con las palabras de su contexto y utilizando la medida TFIDF. Téngase en cuenta que en los marcos de evaluación de WSD, este es un sistema muy básico. Sin embargo, en nuestro marco de evaluación, este sistema ”de referencia”podrı́a ser considerado como un lı́mite superior. No esperamos obtener mejores palabras relativas a un sentido que de su propio corpus. 8 39 No se han probado extensiones superiores. Montse Cuadros, German Rigau <instance id=”party.n.bnc.00008131”docsrc=”BNC”> <context> Up to the late 1960s , catholic nationalists were split between two main political groupings . There was the Nationalist Party , a weak organization for which local priests had to provide some kind of legitimation . As a <head>party</head> , it really only exercised a modicum of power in relation to the Stormont administration . Then there were the republican parties who focused their attention on Westminster elections . The disorganized nature of catholic nationalist politics was only turned round with the emergence of the civil rights movement of 1968 and the subsequent forming of the SDLP in 1970 . </context> </instance> Cuadro 3: Ejemplo de prueba número 00008131 para party#n cuyo sentido correcto es el primero. KB TRAIN TRAIN-MFS WN-MFS TSSEM SEMCOR-MFS MCR2 MCR spSemCor (WN+XWN)2 WN+XWN TSWEB XWN WN3 WN4 WN2 spBNC WN RANDOM P 65.1 54.5 53.0 52.5 49.0 45.1 45.3 43.1 38.5 40.0 36.1 38.8 35.0 33.2 33.1 36.3 44.9 19.1 R 65.1 54.5 53.0 52.4 49.1 45.1 43.7 38.7 38.0 34.2 35.9 32.5 34.7 33.1 27.5 25.4 18.4 19.1 F1 65.1 54.5 53.0 52.4 49.0 45.1 44.5 40.8 38.3 36.8 36.0 35.4 34.8 33.2 30.0 29.9 26.1 19.1 Size quiere interpretar. Para cada sentido, se agregarán las posiciones de cada uno de los recursos evaluados. El sentido que tenga un orden menor (más cercano a la primera posición), será el escogido como el correcto. 103 26,429 129 56 5,730 74 1,721 69 503 2,346 105 128 14 El cuadro 5 presenta las medidas de F1 correspondientes a las mejores combinaciones de dos, tres y cuatro recursos usando los tres métodos de combinación. Observando el método de combinación aplicado, los métodos de la Combinación de Probabilidad (PM) y la combinación basada en el orden (Rank) son los que dan mejores resultados, comparando con el de Combinación Directa (DV), sin embargo, el método basado en el orden da mejores resultados. Cuadro 4: Resultados de los recursos evaluados individualmente para el Inglés según las medidas de P, R y F1. 4.3. La combinación de los cuatro recursos semánticos obtiene mejores resultados que usando sólo tres, dos o un recurso. Parece ser que la combinación de los recursos aporta un conocimiento que no tienen los diferentes recursos individualmente. En este caso, 19.5 puntos por encima que TSWEB, 17.25 puntos por encima de (WN+XWN)2 , 11.0 puntos por encima de MCR y 3.1 puntos por encima de TSSEM. Combinación de Recursos Con el objetivo de evaluar de forma más detallada la contribución que tiene cada recurso, proporcionamos un pequeño análisis de su aportación combinada. Las combinaciones se han evaluado usando tres estrategias básicas diferentes (Brody, Navigli, y Lapata, 2006). DV (del inglés Direct Voting): Cada recurso semántico tiene un voto para el sentido predominante de la palabra a interpretar. Se escoge el sentido con más votos. PM (del inglés Probability Mixture): Cada recurso semántico proporciona una distribución de probabilidad sobre los sentidos de las palabras que serán interpretadas. Estas probabilidades (normalizadas), serán contabilizadas y se escogerá el sentido con mayor probabilidad. Rank: Cada recurso semántico proporciona un orden de sentidos de la palabra que se Observando las referencias básicas, esta combinación supera el sentido más frecuente de SemCor (SEMCOR-MFS con F1 de 49.1), WN (WN-MFS con F1 de 53.0) y el conjunto de entrenamiento (TRAIN-MFS con F1 de 54.5). Este hecho, indica que la combinación resultante de recursos a gran escala codifica el conocimiento necesario para tener un etiquetador de sentidos para el inglés que se comporta como un etiquetador del sentido más frecuente. Es importante mencionar que el sentido más frecuente de una palabra, de acuerdo con el orden de sentidos de WN es un desafio difı́cil de superar en las tareas de WSD (McCarthy et al., 2004). 40 Bases de Conocimiento Multilíngües para el Procesamiento Semántico a Gran Escala KB 2.system-comb: MCR+TSSEM 3.system-comb: MCR+TSSEM+(WN+XWN)2 4.system-comb: MCR+(WN+XWN)2 +TSWEB+TSSEM PM 52.3 52.6 53.1 DV 45.4 37.9 32.7 Rank 52.7 54.6 55.5 Cuadro 5: Combinaciones de 2, 3, y 4 sistemas según la medida de F1 5. Knowledge Bases TRAIN MiniDir-MFS MCR WN2 (WN+XWN)2 TSSEM XWN WN RANDOM Evaluación en castellano Del mismo modo que en el caso del inglés, hemos definido unas referencias básicas para poder establecer un marco de evaluación completo y comparar el comportamiento relativo de cada recurso semántico cuando es evaluado en la tarea de WSD en castellano. RANDOM: Para cada palabra este método selecciona un sentido al azar. Esta referencia puede considerarse como un lı́mite inferior. Minidir-MFS: Esta referencia selecciona el sentido más frecuente de la palabra según el diccionario Minidir. Minidir es un diccionario construido para la tarea de WSD. La ordenación de sentidos de palabras corresponde exactamente a la frecuencia de los sentidos de palabras del conjunto de entrenamiento. Por eso, Minidir-MFS és el mismo que TRAINMFS. TRAIN: Esta referencia usa el conjunto de entrenamiento para directamente construir una Topic Signature para cada sentido de palabra usando la medida de TFIDF. Igual que para el inglés, en nuestro caso, esta referencia puede considerarse como un lı́mite superior. Debemos indicar que el WN castellano no codifica la frecuencia de los sentidos de las palabras y que para el castellano no hay disponible ningún corpus suficientemente grande que esté etiquetado a nivel de sentido del estilo del italiano9 . Además, solamente pueden ser transportadas de un idioma a otro sin introducir demasiados errores las relaciones que existan en un recurso entre sentidos10 . Como TSWEB relaciona palabras en inglés a un synset, no ha sido transportado ni evaluado al castellano. 5.1. 9 R 68.0 52.7 41.1 29.0 41.2 33.2 27.1 13.6 21.3 F1 74.3 59.2 43.5 42.5 41.3 33.4 33.1 22.5 21.3 Size 66 51 1,892 208 24 8 Cuadro 6: Resultados de los recursos evaluados individualmente pare el castellano según las mediadas de P, R y F1. referencias básicas y recursos semánticos, ordenados por la medida de F1. En cursiva aparecen las referencias y en negrita los mejores resultados. Para el castellano, el recurso TRAIN ha sido evaluado con un tamaño de vector máximo de 450 palabras. Como se esperaba, RANDOM obtiene el menor resultado, y el sentido más frecuente obtenido de Minidir (Minidir-MFS, que es igual a TRAINMFS) es bastante más bajo que las TS obtenidas del corpus de entrenamiento (TRAIN). WN obtiene la precision más alta (P de 65.5) pero dado su pequeña cobertura (R de 13.6), tiene la F1 más baja (F1 de 22.5). Es interesante notar que en terminos de precisión, recall y F1, el conocimiento integrado en el MCR supera a los resultados de TSSEM. Este hecho, posiblemente indica que el conocimiento actualmente contenido en el MCR es más robusto que TSSEM. Este hecho también parece indicar que el conocimiento de tópico obtenido de un corpus anotado a nivel de sentido de un idioma, no puede ser transportado directamente a otro idioma. Otros posibles motivos de los bajos resultados podrı́an ser el menor tamaño de los recursos en castellano (comparándolos con los existentes en inglés) o los diferentes marcos de evaluación, incluyendo el diccionario (diferenciación de sentidos y enlace a WN). Observando los sistemas de referencia, todos los recursos de conocimiento superan Evaluando cada recurso del castellano por separado El cuadro 6 presenta las medidas de precisión (P), recall (R) y F1 de las diferentes 10 P 81.8 67.1 46.1 56.0 41.3 33.6 42.6 65.5 21.3 http://multisemcor.itc.it/ Es decir, relaciones semánticas synset a synset. 41 Montse Cuadros, German Rigau RANDOM, pero ninguno de ellos llega a Minidir-MFS (que es igual a TRAIN-MFS) ni a TRAIN. De todas formas, podemos remarcar que el conocimiento contenido en el MCR (F1 de 43.5), parcialmente derivado con medios automáticos y transportado al WN castellano del ingles, casi dobla los resultados del WN castellano original (F1 de 22.5). 6. Brody, S., R.Ñavigli, y M. Lapata. 2006. Ensemble methods for unsupervised wsd. En Proceedings of COLING-ACL, páginas 97–104. Cuadros, M., L. Padró, y G. Rigau. 2005. Comparing methods for automatic acquisition of topic signatures. En Proceedings of RANLP, Borovets, Bulgaria. Cuadros, M. y G. Rigau. 2006. Quality assessment of large scale knowledge resources. En Proceedings of EMNLP. Conclusiones Daudé, J., L. Padró, y G. Rigau. 2003. Validation and Tuning of Wordnet Mapping Techniques. En Proceedings of RANLP, Borovets, Bulgaria. Creemos, que un procesamiento semántico de amplia cobertura (como WSD) debe basarse no sólo en algoritmos sofisticados sino también en aproximaciones basadas en grandes bases de conocimiento. Los resultados presentados en este trabajo, sugieren que es necesaria mucha más investigación en la adquisición y uso de recursos semánticos a gran escala. Además, el hecho que esos recursos presenten relaciones semánticas a nivel conceptual, nos permite trasladar estas relaciones para ser evaluadas en otros idiomas. Por lo que sabemos, esta es la primera vez que un estudio empı́rico demuestra que las bases de conocimiento adquiridas automáticamente obtienen mejores resultados que los recursos derivados manualmente, y que la combinación del conocimiento contenido en estos recursos sobrepasa al clasificador que usa el sentido más frecuente para el inglés. Tenemos planificada la validación empı́rica de esta hipótesis en las tareas donde se interpretan todas las palabras de un texto allwords. Fellbaum, C., editor. 1998. WordNet. An Electronic Lexical Database. The MIT Press. Leacock, C., M. Chodorow, y G. Miller. 1998. Using Corpus Statistics and WordNet Relations for Sense Identification. Computational Linguistics, 24(1):147–166. Lin, C. y E. Hovy. 2000. The automated acquisition of topic signatures for text summarization. En Proceedings of COLING. Strasbourg, France. Magnini, B. y G. Cavaglià. 2000. Integrating subject field codes into wordnet. En Proceedings of LREC, Athens. Greece. McCarthy, D. 2001. Lexical Acquisition at the Syntax-Semantics Interface: Diathesis Aternations, Subcategorization Frames and Selectional Preferences. Ph.D. tesis, University of Sussex. McCarthy, D., R. Koeling, J. Weeds, y J. Carroll. 2004. Finding predominant senses in untagged text. En Proceedings of ACL, páginas 280– 297. Mihalcea, R. y D. Moldovan. 2001. extended wordnet: Progress report. En Proceedings of NAACL Workshop on WordNet and Other Lexical Resources, Pittsburgh, PA. Bibliografı́a Agirre, E. y O. Lopez de la Calle. 2004. Publicly available topic signatures for all wordnet nominal senses. En Proceedings of LREC, Lisbon, Portugal. Mihalcea, R., Chlovski T., y Killgariff A. 2004. The senseval-3 english lexical sample task. En Proceedings of ACL/SIGLEX Senseval-3, Barcelona. Agirre, E. y D. Martinez. 2001. Learning classto-class selectional preferences. En Proceedings of CoNLL, Toulouse, France. Niles, I. y A. Pease. 2001. Towards a standard upper ontology. En Proceedings of the 2nd International Conference on Formal Ontology in Information Systems (FOIS-2001), páginas 17–19. Chris Welty and Barry Smith, eds. Álvez, J., J. Atserias, J. Carrera, S. Climent, A. Oliver, y G. Rigau. 2008. Consistent annotation of eurowordnet with the top concept ontology. En Proceedings of Fourth International WordNet Conference (GWC’08). Vossen, P., editor. 1998. EuroWordNet: A Multilingual Database with Lexical Semantic Networks . Kluwer Academic Publishers . Atserias, J., L. Villarejo, G. Rigau, E. Agirre, J. Carroll, B. Magnini, y Piek Vossen. 2004. The meaning multilingual central repository. En Proceedings of GWC, Brno, Czech Republic. 42 Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 43-49 recibido 30-01-08, aceptado 03-03-08 From knowledge acquisition to information retrieval∗ De la adquisición del conocimiento a la recuperación de información M. Fernández Gavilanes S. Carrera Carrera M. Vilares Ferro Computer Science Department, University of Vigo Campus As Lagoas s/n, 32004 Ourense, Spain {mfgavilanes,sccarrera,vilares}@uvigo.es Resumen: Introducimos una propuesta en recuperación de información basada en la consideración de recursos sintácticos y semánticos complejos y automáticamente generados a partir de la propia colección documental. Se describe una estrategia donde el lenguaje y el dominio de documentos son independientes del proceso. Palabras clave: adquisición del conocimiento, análisis sintáctico,extracción de términos, recuperación de información, representación del conocimiento Abstract: We introduce a proposal on information recovery based on the consideration of complex syntactic and semantic resources which are automatically generated from the documentary collection itself. The paper describes a strategy where the language and the domain of documents are independent of the process. Keywords: information retrieval, knowledge acquisition, knowledge representation, parsing, term extraction 1 Introduction Efficiency in dealing with information retrieval (IR) tools is related to the consideration of relevant semantic data describing terms and concepts in the specific domain considered. This kind of resources are often taken from an external and generic module (Aussenac-Gilles and Mothe, 2004), which implies that we probably lose a number of interesting properties we would be able to recover if semantic processing was directly performed on the text collection we are dealing with. In order to solve this and produce practical understandable results, we should allow easy integration of background knowledge from possible complex document representations, fully exploiting linguistic structures. So, we could compensate for missing domain-specific knowledge, which is a significant advantage for redeploying the system when no external resources are yet available. Also, access to a concept hierarchy so generated allows information to be structured into categories, fostering its search and reuse; as well as to integrate an interestWork partially supported by the Spanish Government from research projects TIN2004-07246C03-01 and HUM2007-66607-C04-02, and by the Autonomous Goverment of Galicia from projects PGIDIT05PXIC30501PN, 07SIN005206PR and the Galician Network for nlp and ir. ∗ ISSN 1135-5948 ing strategy to relate languages, using it as a semantic pipeline between them (Bourigault, Aussenac-Gilles, and Charlet, 2004; Aussenac-Gilles, Condamines, and Szulman, 2002). In the state-of-the-art, methods to automatically derive a concept hierarchy from text can be grouped into similarity-based approaches and set-theoretical ones. The first type is characterized by the use of a distance in order to compute the pairwise similarity between vectors of two words in order to decide if they can be clustered (Faure and Nédellec, ; Grefenstette, 1994). Settheoretical ones partially order the objects according to the existing inclusion relations between their attribute sets (Petersen, 2001). Both approaches adopt a vector-space model and represent a term as a vector of attributes derived from a corpus. Typically some syntactic features are used to identify which attributes are used for this purpose. Our proposal aims to facilitate the knowledge acquisition task through a hybrid approach that combines natural language processing (nlp) strategies, such as shallow parsing and semantic markers, with statistical techniques and term extraction. A modular architecture allows for the addition of textual fonts on different topics and languages, providing the basis for dealing with multilingual ir. A collection of parallel texts on the © Sociedad Española para el Procesamiento del Lenguaje Natural Milagros Fernández Gavilanes, Sara Carrera Carrera, Manuel Vilares Ferro TERM sociedad de gestión (”management society”) inversión directa (”direct investment”) fondo luxemburgués (”Luxembourg fund”) sesión de subida (”rise session”) dólar por euro (”dollar for euro”) head sociedad (”society”) inversión (”investment”) fondo (”fund”) sesión (”session”) dólar (”dollar”) expansion de gestión (”management”) directa (”direct”) luxemburgués (”Luxembourg”) de subida (”rise”) por euro (”for euro”) Table 1: Example of terms extracted economy in French and Spanish is used as a running corpus to illustrate our proposal. 2 Once the extractor has provided all the base terms and, possibly, associated their syntactic and/or morpho-syntactic variations; we can differentiate between the head and the expansion of each term, often a nominal syntagm. The former is the kernel of the syntagm, usually a noun, around which we assume the meaning of the term is structured. The expansion is the complement of the head, modifying it and defining the context where it appears. This set of identified heads provides a local look around the meaning of the text, focused on the syntagms recognized as terms. In order to extend these primary semantic links to the full text, we apply a simple recursive process by generating a hash table whose entries we baptize as main elements. Mains elements are all heads whose pos-tag is a noun. The key of each entry is a main element, to which we associate the list of contexts where it appears either as an expansion or as an head. As a result, we obtain a simple graph structure capturing the essential meaning of the text, as seen in Table 1. The next step consists of grouping terms in semantic classes, filtering out non-relevant features. To deal with in practice, we go through the hash table generated, comparing different contexts by applying as a similarity1 measure the dice coefficient (Bourigault and Lame, 2002): Knowledge acquisition Intuitively, we are interested in strategies allowing semantic relations to emerge from text, which implies grouping relevant terms in classes according to their similarity and establishing semantic links between them. We approach this task from two different points of view. The former is a classic termbased strategy, that only takes into account lexical data. For the second, we incorporate explicit semantic hypotheses. In both cases, our framework is based on two general principles: the distributional semantic model (Harris, 1968) establishing that words whose meaning is close often appear in similar syntactic contexts, and the assumption that terms shared by these contexts are usually nouns and adjectives (Bouaud et al., 1995). As a general purpose, our work has an experimental interest as a testing frame for comparing different knowledge acquisition strategies, but also considering about the possibility of complementing capabilities. In effect, as we shall see, a term-based approach allows the acquisition task to be performed automatically. Although the results so obtained cannot compare with the quality of the semi-automatic dependency-based proposal introduced later, it could serve as a starting point for this function, generating the initial set of semantic classes we need to initialize an iterative process in order to establish more complex relationships. 2.1 dice(C1 , C2 ) = |C1 ∩ C2 | (|C1 | + |C2 |)/2 where C1 and C2 are contexts, and |Ci | represents the cardinal of Ci , i = 1, 2. Intuitively, we are computing the common terms between C1 and C2 , and then applying normalization. At this point, the generation of classes is an iterative process. In each iteration we join A term-based approach Our starting point here is the information provided by a classic term extractor running on a tagging environment. No particular architecture has been considered at this point. 1 we can define a similarity between entities as the number of common properties shared by them. 44 From knowledge acquisition to information retrieval E_CN de E_CN de CN de bajada la de CN a deuda la a E_CN a CN de largo plazo de Japon deuda:nc el:det bajada:nc de:prep el:det a:prep deudo:nc SA CN de SUJ ... CN a CN de dejar:v a frio:adj de:prep bolsa el:det bolsa:nc Japon:np E_CN a CN de la a:prep plazo:nc E_SA E_SUJ/CN dejar a ha dejado fria ... largo:adj de de:prep E_CN de Tokio Tokio:np CN de CC a Parser Dependencies E_CN de Extracted Dependencies Figure 1: Graph of dependencies from a parse to detect and delete these useless structures. We first introduce, from the sentence ”la bajada de la deuda a largo plazo de Japón ... ha dejado fria a la bolsa de Tokio” in Fig. 1, some simple notations to describe parses. So, rectangular shapes, called clusters, show positions in the input string. Lemmas with their corresponding lexical categories are represented by ellipses baptized as nodes. Green arcs represent binary dependencies between words through some syntactic construction. The parsing frame provides the mechanisms to deal with a posterior semantic phase of analysis, by avoiding the elimination of syntactic data until we are sure it is unnecessary for knowledge acquisition. So, the lexical ambiguity illustrated in Fig. 1 should be decided in favor of the first alternative4 , because we have the intuitive certainty that the word ”deuda” is related to ”debt” and not to ”relative”. Given that we are dealing with a specialized corpus, we should confirm this by exploring the corpus in depth. That is, in order to solve the ambiguity we only need the information we are looking for, which leads us to consider an iterative learning process to attain our goal. In particular, we are more interested in dependencies between nouns and adjectives. This justifies filtering those dependencies, as shown in Fig. 1, following the dotted lines. So, the word ”plazo” (”term”) is connected to ”largo” (”long”), the latter being an adjective. Furthermore, we are also interested in extracting dependencies between nouns through, for example, prepositions such as ”bolsa de Tokio” (”Tokyo Stock Exchange”) and through verbs such as ”bajada dejar a the pair of main elements whose dice value turns out to be the highest computed from the hash. So, in each step the hash table is reduced in an element and the process finishes when only dice coefficients equal to zero can be computed. In other words, when no more context sharing is possible. Once the iteration loop stops, entries in the hash are words semantically related together with their associated unified contexts. This hash outcome is stored in an xml2 file, in such a way that similar elements are grouped representing a new and previously undefined semantic class. This file is later converted to an owl3 (Szulman and Biébow, 2004) format, in order to facilitate ulterior retrieval tasks. 2.2 A dependency-based approach We start now from a robust parse based on a cascade of finite automata (Vilares, Alonso, and Vilares, 2004). So, we can identify relevant terms in nominal and verbal phrases, namely, those nouns and verbs relaying essential semantic information, as well as local relationships between them. As result, we obtain a graph of dependencies of the type governor/governed, as is shown in Fig. 1 by using dotted lines going from the governor term to the governed one. 2.2.1 Filtering out dependencies Once these primary syntactic dependencies have been established, possibly including a number of lexical and syntactic ambiguities generating useless dependencies, we try to effectively extract the latent semantics in the document. The idea consists of compiling additional information from the corpus in order 2 3 4 which corresponds to ”The long-term debt descent of Japan has left cold to the Stock Exchange of Tokyo”. see http://www.w3.org/XML/ see http://www.w3.org/TR/owl-features/ 45 Milagros Fernández Gavilanes, Sara Carrera Carrera, Manuel Vilares Ferro 1. 2. P (deuda:uc:money, [ CNde], Japón:up:country)local(0) 2.1 P (deuda:uc:money, [ CNde], X)global(n+1) = 2.2 P (Y, [ CNde], Japón:up:country)global(n+1) = 2.3 3. P (deuda:uc, [ CNde], Japón:up)local(0) P (deuda:uc:money)local(0) P (Japón:up:country)local(0) = ΣX,Y P (deuda:uc:X)local(0) P (Japón:up:Y)local(0) ΣX P (deuda:uc:money ,[ CNde],X)local(n) #deplocal(n) (deuda ) ΣY P (Y,[ CNde],Japón:up:country)local(n) #deplocal(n) (Japón) P (deuda:uc:money, [ CNde], Japón:up:country)global(n+1) = P (deuda:uc:money, [ CNde], Japón:up:country)local(n+1) = P (deuda:uc:money, [ CNde], X)global(n+1) P (Y, [ CNde], Japón:up:country)global(n+1) P (deuda:uc:money, [ CNde], Japón:up:country)local(n) P (deuda:uc:money, [ CNde], Japón:up:country)global(n+1) ΣX,Y P (deuda:uc:X, [ CNde], Japón:up:Y)local(n) P (deuda:uc:X, [ CNde], Japón:up:Y)global(n+1) Table 2: Extraction of classes for ”deuda de Japón” bolsa” (”descent leave Stock Exchange”). In order to identify the most pertinent dependencies, and also using dotted lines, we focus on detecting and later eliminating those dependencies that are found to be less probable in sentences, since they include terms with a low frequency. Nodes and arcs in the resulting graph are baptized as pivot terms and strong dependencies, as is shown in Fig. 1. A supplementary simplification phase consists of applying a simple syntactic constraint establishing that a governed word can only have one governor. So, for example, and indicated with a simple line in the sentence of Fig. 1, ”Japón” (”Japan”) is governed by ”deuda” (”debt”), but also by ”deuda” (”relative”) and, in consequence, we should eliminate one of these dependencies. No other topological restrictions are considered and, in consequence, a governor word can have more than one governed one, as in the second interpretation of Fig. 1 (”long-term debt descent of Japan”), where ”bajada” (”descent”) is the governor for ”plazo” (”term”) and ”Japón” (”Japan”), also indicated with a simple line. The same word could be governor and governed at the same time, this being the case of ”plazo” (”term”), which is the governor for ”largo” (”long”), but is also governed by ”deuda” (”debt”) in the first interpretation. Villemonte de La Clergerie, 2006). This technique combines two complementary iterative processes. For a given iteration, the first one computes, for each governor/governed pair in a sentence, the probability of the corresponding dependency; taking as its starting point the statistical data provided by the original error-mining strategy and related to the lexical category of the pivot terms. The second process computes, from the former, the most probable semantic class to be assigned to terms involved in the dependency. So, in each iteration we look for both semantic and syntactic disambiguation, each profiting from the other. A fixed point assures the convergence of the strategy (Sagot and Villemonte de La Clergerie, 2006). We illustrate term clustering on our running example in Fig. 1, focusing on the dependency labeled [ CNde] relating ”deuda” (”debt”) and ”Japón” (”Japan”). We do so by introducing both iterative processes in this particular case, talking without distinction about weight, probability or preference to refer the same statistical concept. So, from Table 2, we have that: 1. To begin with, we compute the local probability of the dependency in each sentence, which depends on the weight of each word, this in turn depending on the word having the correct lexical category. To start the process, first category assumptions are provided by the error-mining algorithm (Sagot and Villemonte de La Clergerie, 2006). We also take into account the initial probability 2.2.2 Term clustering The generation of semantic classes is inspired by an error-mining proposal originally designed to identify missing and erroneous information in parsing systems (Sagot and 46 From knowledge acquisition to information retrieval for the dependency considered, a simple ratio on all possible dependencies involving the lexical categories concerned. The normalization is given by the preferences for the possible lexical categories involving each of the terms considered. whole corpus locally in the sentences in order to re-compute the weights of all the possible classes in the sentence. In order to obtain this, we first compute the probability in the whole corpus (2.1 and 2.2) for each term and semantic class, disregarding the right and left context, represented by variables X and Y respectively. The final probability (2.3) is a combination of the two previous ones. 2. We reintroduce the local probabilities into the whole corpus locally in the sentences, in order to re-compute the weights of all possible dependencies,after which we then estimate globally the most probable ones. The normalization is given by the number of dependencies connecting the terms considered. 3. After each iteration, we re-inject the previous global weight to obtain a new local one, by reinforcing the local probabilities. The normalization is done by the addition of the preferences corresponding to the terms and classes involved in the dependency, for all the possible semantic classes considered. 3. The local value in the new iteration should take into account both the global preferences and the local injection of these preferences in the sentences, reinforcing the local probabilities. The normalization is given by previous local and global weights for the dependency involving all possible lexical categories associated to each of the terms considered. After applying these last two approaches, a hierarchy can be built according to the different elements obtained in all classes. 3 In dealing with semantic class assignment, the sequence of steps is shown in Table 2 illustrating the computation of the probability that ”deuda”(”debt”) refers to the group of money and ”Japón”(”Japan”) refers to a country, taking again the dependency labeled [ CNde] in Fig. 1, both money and country classes having been defined prior to the launch of the process in a list of semantic classes: Information retrieval Work in the field of IR increasingly aims to improve text indexing or query formulation with the help of different kinds of knowledge structures such as hierarchies or ontologies. These structures are expected to bring different targeted gains (Masolo, 2001) for example improving recall and precision or helping users to express their needs more easily. 3.1 A general approach Generally, users have no precise idea of what they can find in a document collection, and the consideration of a hierarchical structure as a guideline to describe and organize contents could simply facilitate the two essential ir tasks, information indexing and retrieval. We propose an approach where hierarchies, built up from the semantic relations emerging from text, are used in a more unusual and promising way in combination with visualization tools for guided exploration of the information space. In dealing with ir, concept hierarchies and documents can be related in a simple way through the indexing task, by associating each document to those concepts matching its content. So, in our running corpus the hierarchy is structured according to classes such as money or dates; and is automatically connected to documents after projection of the terms where they occur. We also consider 1. In each sentence, we compute the local probability of this dependency if ”deuda” (”debt”) and ”Japón” (”Japan”) are referring to money and a country. We start from the local weight previously computed in Table 2, and also the initial preferences of the terms involved corresponding to the classes considered5 . The normalization is given by the probabilities for the possible classes involving each one of the terms considered, without specifying any particular class and is here represented by variables X and Y. 2. We then calculate this preference at global level, by re-introducing it to the 5 this is fixed by the user if the term is in a list associated to that class. Otherwise, this probability is obtained as a ratio of the total number of classes considered. 47 Milagros Fernández Gavilanes, Sara Carrera Carrera, Manuel Vilares Ferro Figure 2: Sub-hierarchy for the query ”acción”(”share”) using a term-based strategy a graphical interface to show these structures to the user, as is shown in Figs. 2 and 3 for our running example. 3.2 sentences, these are firstly parsed to locate possible and/or-like operators and, in this case, we transfer them to Lucene which can perform directly this kind of queries. In other cases, we first eliminate stop-words to later look for physical proximity and order criteria between words and, finally, re-send the query to the search engine, also after expansion. Independently of the approach considered to generate the conceptual hierarchy, once a single-word query is introduced, we locate the corresponding class in the knowledge hierarchy we are dealing with. From this, we can identify the set of related classes, which also allows us to introduce a simple relevance criterion for the answers so obtained, based on the distance from the initial one. So, given that indexing was previously performed using the terms in these classes, we recover all the documents associated to them, assuming that they are related to the query. At this point, the choice of strategy impacts both the type and number of the semantic relations involved in the process described. In order to illustrate this, we study the answer given by the system for the query ”acción” (”share”) first using the term-based strategy and then the dependency-based one. Focusing on the term-based approach, Fig. 2 shows the sub-hierarchy for the query, from A practical approach In practice, a major factor impacting the consideration of such an approach is the knowledge acquisition process itself. We have described two different techniques, a termbased approach and a dependency-based one, which we have integrated in a single prototype in order to define a common testing frame allowing us to effectively compare them. Although the tool can combine several domains of knowledge on a variety of different languages, we are going to focus on our running corpus by using Lucene6 as a standard search text engine. That is, the system identifies, in parsing stage, the set of indexes to be considered for the effective retrieval task, using Lucene. Once we have located the indexes we apply what we have baptized an expansion phase. This process enlarges identification of relevant terms from the conceptual structure, which will be later sent to the search engine. In order to facilitate understanding, we illustrate the proposal through queries limited to single words. In dealing with general query 6 see http://lucene.apache.org/ 48 From knowledge acquisition to information retrieval Figure 3: Sub-hierarchy for the query ”acción”(”share”) using a dependency-based strategy by round blue shapes, as the word ”acción” (”share”) which is pointed to by the concept9 ”dineros” (”money”) and is related, for example, to that of ”entidades” (”entities”). Also, some of the properties that are related to it are ”subyacente” (”underlying”) which is a ”tipo” (”type”) property, and ”de febrero” (”of February”), which is a ”tiempo” (”time”) one. A particular case occurs when the governor and governed words are both concepts in a extracted parse dependency. We then represent these in the same rectangular shape using a tag governor governed. So, in the case of ”acción de Standard and Poor’s” (”Standard and Poor’s share”), it is associated to ”dineros entidades” (”money entities”) the governor being ”dineros” (”money”) and the governed ”entidades” (”entities”). In this way, the query word ”acción” (”share”) is a ”dineros” (”money”) concept which is related to ”Standard and Poor’s”, which is an ”entidades” (”entities”) one by means of arrows. If the governor is a concept and the governed is a property, only the property is represented in the rectangular shape without indicating the class of the concept. In this case, the query word ”acción” (”share”) is related with different kinds of properties, such as ”de which the system will search for the answers. The strategy groups in a class7 , the words8 ”moneda” (”currency”), ”deuda” (”debt”), ”acción” (”share”), ”fondo” (”fund”) and ”inversión” (”investment”) due to their similarities are considered high enough. Round blue shapes are heads whose expansions are indicated by arrows as in ”deuda de Japón” (”Japan debt”), where the head ”deuda” (”debt”) points to ”de Japón” (”of Japan”). The new class, baptized as ”grupo 41”, shows the way to identify the answers included at the bottom, with the documents classified according to the information retrieved and organized by their relevance and in different tabs related to the word. Applying now the dependency-based strategy, Fig. 3 shows the sub-hierarchy considered for retrieval purposes. Classes are already defined and separated in domain concepts such as ”dineros” (”money”), ”entidades” (”entities”) or ”paises” (”countries”); whilst properties are similarly treated as concept features such as ”tipo” (”type”), ”tiempo” (”time”) or ”tamaño” (”size”). The hierarchy represents the organization of the relations between the concepts and their features. Here, the governors are represented 7 8 here represented by a rectangular yellow shape. here represented by round blue shapes. 9 49 here represented in a rectangular shape. Milagros Fernández Gavilanes, Sara Carrera Carrera, Manuel Vilares Ferro febrero” (”of February”), which is a ”tiempo” (”time”) property; and ”subyacente” (”underlying”), which is a ”tipo” (”type”) one. 4 Bourigault, Didier, Nathalie Aussenac-Gilles, and Jean Charlet. 2004. Construction de ressources terminologiques ou ontologiques à partir de textes : un cadre unificateur pour trois études de cas. Revue d’Intelligence Artificielle (RIA), Numéro spécial sur les techniques informatiques de structuration de terminologies, M. Slodzian (Ed.), 18(1/2004):87–110. Conclusion We have introduced an ir strategy based on intelligent indexing that benefits from semantic relations between concepts in the text collection. In contrast with previous works, we generate dynamically the conceptual structure serving as a basis for the ir module, which would appear to be a promising approach exploring new knowledge domains as well as providing the user with a more flexible technique. Although the primary purpose of this kind of hierarchies is not to classify documents, but rather to order global concepts, linking them through linguistic expressions, deductions can nevertheless be made on the texts and index creation facilitades. This factor is important because it eliminates the human factor in decision-making, this also being reflected in the ability to specify the queries launched. In effect, it is possible from these structures to infer correlation between notions present in the source text. This fact is crucial for the refinement of queries that will allow mistakes introduced by classical search engines, such as polysemy or synonymy, to be avoided. Faure, D. and C. Nédellec. A corpusbased conceptual clustering method for verb frames and ontology acquisition. In Paola Velardi, editor, LREC workshop on Adapting lexical and corpus ressources to sublanguages and applications, pages 5– 12. Grefenstette, Gregory. 1994. Explorations in Automatic Thesaurus Discovery. Kluwer Academic Publishers, Norwell, MA, USA. Harris, Z.S. 1968. Mathematical Structures of Languages. J. Wiley & Sons, USA. Masolo, C. 2001. Ontology driven information retrieval. report of the ikf (information and knowledge fusion). eureka project e!2235. Petersen, Wiebke. 2001. A set-theoretical approach for the induction of inheritance hierarchies. Electr. Notes Theor. Comput. Sci., 53. Sagot, B. and É. Villemonte de La Clergerie. 2006. Error mining in parsing results. In Proc. of the 21st Int. Conf. on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics, pages 329–336, Australia. References Aussenac-Gilles, Nathalie, Anne Condamines, and Sylvie Szulman. 2002. Prise en compte de l’application dans la constitution de produits terminologiques. In 2e Assises Nationales du GDR I3, Nancy (F). Szulman, S. and B Biébow. 2004. Owl et terminae. In IC: Journées Francophones dÌngénieurie des connaissances, pages 41– 52. Aussenac-Gilles, Nathalie and Josiane Mothe. 2004. Ontologies as background knowledge to explore document collections. In RIAO 2004 , Avignon. Vilares, J., M.A. Alonso, and M. Vilares. 2004. Morphological and syntactic processing for text retrieval. Lecture Notes in Computer Science, 3180:371–380. Bouaud, J., B. Bachimont, J. Charlet, and P. Zweigenbaum. 1995. Methodological principles for structuring an ontology. Bourigault, D. and G. Lame. 2002. Analyse distibutionnelle et structuration de terminologie, application à la construction d’une ontologie documentaire de droit. In TAL: Traitement automatique des langues, pages 129–150, vol 43, n 1, Paris, France. Hermès. 50 Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 51-58 recibido 30-01-08, aceptado 03-03-08 Desarrollo de un Robot-Guía con Integración de un Sistema de Diálogo y Expresión de Emociones: Proyecto ROBINT Development of a Tour-Providing Robot Integrating Dialogue System and Emotional Speech: ROBINT Project Juan Manuel Lucas Cuesta, Rosario Alcázar Prior, Juan Manuel Montero Martínez, Fernando Fernández Martínez, Roberto Barra-Chicote, Luis Fernando D’Haro Enríquez, Javier Ferreiros López, Ricardo de Córdoba Herralde, Javier Macías Guarasa, Rubén San Segundo Hernández, José Manuel Pardo Muñoz Grupo de Tecnología del Habla, UPM Avenida Complutense s/n. 28040. Madrid [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected] Resumen. Este artículo presenta la incorporación de un sistema de diálogo hablado a un robot autónomo, concebido como elemento interactivo en un museo de ciencias capaz de realizar visitas guiadas y establecer diálogos sencillos con los visitantes del mismo. Para hacer más atractivo su funcionamiento, se ha dotado al robot de rasgos (como expresividad gestual o síntesis de voz con emociones) que humanizan sus intervenciones. El reconocedor de voz es un subsistema independiente del locutor (permite reconocer el habla de cualquier persona), que incorpora medidas de confianza para mejorar las prestaciones del reconocimiento, puesto que se logra un filtrado muy importante de habla parásita. En cuanto al sistema de comprensión, hace uso de un sistema de aprendizaje basado en reglas, lo que le permite inferir información explícita de un conjunto de ejemplos, sin que sea necesario generar previamente una gramática o un conjunto de reglas que guíen al módulo de comprensión. Estos subsistemas se han evaluado previamente en una tarea de control por voz de un equipo HIFI, empleando nuestro robot como elemento de interfaz, obteniendo valores de 95,9% de palabras correctamente reconocidas y 92,8% de conceptos reconocidos. En cuanto al sistema de conversión de texto a voz, se ha implementado un conjunto de modificaciones segmentales y prosódicas sobre una voz neutra, que conducen a la generación de emociones en la voz sintetizada por el robot, tales como alegría, enfado, tristeza o sorpresa. La fiabilidad de estas emociones se ha medido con varios experimentos perceptuales que arrojan resultados de identificación superiores al 70% para la mayoría de las emociones, (87% en tristeza, 79,1% en sorpresa). Palabras clave: reconocimiento de habla, medidas de confianza, síntesis de voz con emociones. Abstract. This paper describes the implementation of a spoken dialogue system on an autonomous robot which presents a high degree of interaction with the visitors in a Science Museum, providing interactive guided tours. Our main purpose was to provide the robot with some features towards the generation of more human-like interaction. These features are gestual expressivity and emotional speech synthesis. The speech recognition module is a speaker-independent recognizer which makes use of confidence measures, achieving the recognition of utterances spoken by any person, and a high reduction of the impact of noise in speech. The language understanding module makes use of a self-learning rule-based approach, which allows the system to infer information from the available example utterances. Thus, the generation of a formal grammar becomes unnecessary. Both modules have been evaluated on a task which includes dialogues between our robot and a ISSN 1135-5948 © Sociedad Española para el Procesamiento del Lenguaje Natural J.M. Lucas, R. Alcázar, J. M. Montero, F. Fernández, R.Barra-Chicote, L.F. D'Haro, J. Ferreiros, R. de Córdoba, J. Macías-Guarasa, R. San Segundo, J.M. Pardo human speaker. This task has been the control of a HI-FI system. The results of this experiment are 95.9% in Word Accuracy, and 92.8% in Concept Accuracy. We have also implemented a voice synthesizer that makes use of several prosodic and segmental modifications of the synthesized speech. This way, our system generates a speech with several emotions, such as happiness, anger, sadness or surprise. The performance of this module has been measured with several experiments for emotion identification, that show identification rates higher than 70% for most of tested emotions, (87% for sadness, or 79.1% for surprise). Keywords: speech recognition, confidence measures, emotional speech synthesis. distinta ante diferentes intervenciones de dichos visitantes. Se quiere orientar el funcionamiento del robot hacia uno de los grupos mayoritarios de visitantes de un museo, como puede ser el formado por niños en edad escolar. Los motivos que nos impulsan a tener en cuenta este sector son varios. En primer lugar, es un sector de población en el que las intervenciones habladas son más espontáneas. Además, los grupos de escolares suelen hacer este tipo de excursiones de manera obligada, por lo que resulta complicado mantener la atención de los mismos durante toda la visita, en especial si durante la misma se producen presentaciones excesivamente prolongadas (Willeke, Kunz y Nourbakhsh, 2001). En la actualidad ya existen robots capaces de interactuar con niños. Se trata sobre todo de sistemas de terapia de niños hospitalizados (Plaisant et al., 2000, Saldien et al., 2006, Shibata et al., 2001) o que presentan problemas en su comportamiento, como autismo (Dautenhahn y Werry, 2000). Estos robots suelen tener la forma de animales de compañía, con una serie de sensores y actuadores que permiten que los robots respondan a los estímulos producidos por la actividad de los niños. En cuanto a sistemas con capacidad de narrar una historia, (Silva, Vala y Paiva, 2001) desarrollan un agente virtual, mientras que (Druin et al., 1999), o (Plaisant et al., 2000), analizan un robot con capacidad de contar cuentos, aplicado en un contexto de rehabilitación pediátrica. En nuestro caso, el sistema cuentacuentos contará con un nivel expresivo mayor, gracias a su expresión de emociones, tales como la alegría, la tristeza o el enfado, a través de la voz, de tal manera que dicha emoción pueda ser percibida por los niños a lo largo de las intervenciones del robot. Se pretende, por tanto, dotar al robot de la capacidad de reconocer el habla de cualquier persona, y de generar habla sintética 1. Introducción La interacción entre seres humanos y máquinas ha pasado de ser un paradigma de investigación a convertirse en la actualidad en una realidad que se da en diferentes niveles. El nivel de interacción más básico, más próximo a la máquina que al hombre, lleva décadas siendo usado (a través de dispositivos como teclados, generando comandos que la máquina debe interpretar). Sin embargo, el campo más interesante es el desarrollo de plataformas que permitan una interacción a niveles más próximos a los que el ser humano emplea de manera intuitiva, tales como el uso de la voz o la expresión corporal. Si se concibe la interacción personamáquina como el establecimiento de una comunicación entre un ser humano y un robot, aparecen robots que desempeñan tareas con un elevado número de interacciones con seres humanos diferentes de sus programadores. Así, en (Fong, Nourbakhsh y Dautenhahn, 2003), se definen los robots sociales como aquellos robots en los que la interacción persona-máquina adquiere un nivel relevante. En la actualidad, tales robots se encuentran todavía en una fase de investigación, si bien se pueden encontrar ya implantados en determinados contextos, entre los que destacan su empleo como guías en museos (Willeke, Kunz y Nourbakhsh, 2001), (disam, 2008) o para la rehabilitación de niños hospitalizados (Plaisant et al., 2000), (Saldien et al., 2006). En función de la complejidad del escenario en el que se produce la interacción, (Breazeal, 2003) clasifica los robots sociales en cuatro grupos: socialmente evocativos, robots de interfaz social, socialmente receptivos, y sociables. Atendiendo a las características de esta clasificación, nuestro robot puede clasificarse dentro del tipo socialmente receptivo, pues ha de permitir la interacción natural con los visitantes del museo, además de responder de manera 52 Desarrollo de un Robot-Guía con Integración de un Sistema de Diálogo y Expresión de Emociones: Proyecto ROBINT resultado de los mismos. En nuestro caso, que la visita por el museo se desarrolle de manera satisfactoria, no restringiéndose a la visita, sino incluyendo otras actividades didácticas, tales como juegos o relatos educativos. expresiva. A mayor nivel, se pretende que el robot pueda narrar historias, modificando la voz emitida de acuerdo al contexto de la narración, o bien en función de las intervenciones de sus interlocutores humanos. Este artículo se estructura como sigue. La sección 2 presenta la plataforma física que soporta las estructuras de la cara y el brazo, así como el sistema de localización del robot. La sección 3 está dedicada a los bloques que componen el sistema de diálogo, y las pruebas realizadas sobre los mismos. La sección 4 presenta las conclusiones extraídas del trabajo realizado, además de plantear posibles líneas futuras de investigación. 2. Arquitectura física y sistema de guiado Figura 1: arquitectura de un sistema de diálogo El robot consta de una plataforma móvil sobre la cual se ha construido una estructura que da soporte a la cara y el brazo de nuestro robot. El desplazamiento que se puede aplicar a los párpados, labios y brazo puede ser modificado de acuerdo a la emoción que se desee expresar, por ejemplo elevando las cejas para indicar sorpresa, o frunciendo los labios para denotar tristeza. La estructura lleva dos procesadores empotrados. El primero se encarga de las tareas de guiado, construcción del mapa y movimiento del robot. Para ello, hace uso de una técnica conocida como SLAM (Localización y Mapeo Simultáneos), desarrollada en (Rodríguez-Losada, 2004) y (drodri, 2008), que le permite determinar su posición en tiempo real. El segundo equipo lleva a cabo parte de las tareas de diálogo. El resultado de la síntesis de voz se obtiene a través de dos altavoces incorporados a la plataforma. Adicionalmente, se emplea un ordenador portátil al que se conecta un micrófono, y en el cual se ejecuta el módulo de reconocimiento de voz. La comunicación entre el equipo portátil y el robot se lleva a cabo mediante sockets a través de un enlace Ethernet de radio. Los bloques que constituyen un sistema de diálogo son el módulo de reconocimiento de habla, que determina la transcripción escrita de la frase enunciada por el hablante, y la evalúa mediante la estimación de una serie de medidas de confianza; el sistema de comprensión de lenguaje natural, que extrae los conceptos relevantes del texto anterior; el gestor de diálogo, que determina las acciones a realizar a partir de los conceptos extraídos, y genera los conceptos de salida hacia el usuario; el bloque de generación de respuesta, que genera un texto comprensible con los conceptos del gestor de diálogo; y el conversor de texto a voz, que genera una locución que reproduce el texto que le entrega el generador de respuesta. 3.1. Reconocimiento de habla El módulo de reconocimiento de habla permite reconocer habla en castellano e inglés, pero en el presente proyecto sólo se empleará el sistema en castellano. En un primer momento se debe determinar si se dispone de alguna señal acústica válida a la entrada del sistema, es decir, si el micrófono está recibiendo algo diferente al eventual ruido ambiente. En caso afirmativo, se extraen los parámetros significativos de la señal (Huang, Acero y Hon, 2001), mediante el análisis trama a trama de la misma, y el cálculo de los coeficientes perceptuales de predicción lineal (PLP) y la energía de la señal en cada trama, más sus correspondientes derivadas de primer y segundo orden, dando lugar a un vector de 39 parámetros para cada trama. 3. Sistema de diálogo El objetivo de un sistema de diálogo es establecer una interacción hablada con un interlocutor humano con una finalidad doble: por un lado, interpretar la intervención del usuario para identificar los servicios que éste solicita, y por otro, prestar dichos servicios y ofrecer al usuario información acerca del 53 J.M. Lucas, R. Alcázar, J. M. Montero, F. Fernández, R.Barra-Chicote, L.F. D'Haro, J. Ferreiros, R. de Córdoba, J. Macías-Guarasa, R. San Segundo, J.M. Pardo etapas del sistema, pero la más empleada es la basada en medidas de confianza, es decir, valores de mérito que informan al propio sistema del grado de bondad que alcanzan sus hipótesis. Siguiendo el trabajo presentado en (Ferreiros et al., 2005), la medida de confianza empleada se basa en la obtención de un grafo de palabras y la evaluación de la pureza de cada una de las mismas, entendida como la fracción de hipótesis en el grafo que incluyen una palabra concreta en un instante dado. Mediante el establecimiento de un umbral de confianza, se fija un primer nivel de control de corrección de palabras reconocidas: si una palabra ha sido reconocida con una confianza inferior al umbral, no se tendrá en cuenta en etapas posteriores del sistema de diálogo (como, por ejemplo, en el módulo de comprensión). Además de la confianza de cada palabra, se calcula el valor de la confianza media para toda la frase. Este valor se obtiene mediante la ponderación de la contribución de cada palabra por el número de tramas que ocupa, valor que da una idea de la duración de dicha palabra. Este cálculo se ha planteado teniendo en cuenta que las palabras más largas suelen incluir información importante (y, por tanto, son de especial relevancia para etapas posteriores del sistema de diálogo). Las pruebas realizadas muestran una mejora significativa en el sistema de comprensión de lenguaje cuando se adopta esta modificación en el sistema de reconocimiento (Ferreiros et al., 2005; Sama et al., 2005). El reconocedor de habla es de desarrollo propio, basado en modelos ocultos de Markov (HMM) de tres estados por alófono. Se hace uso de un modelo de lenguaje que contribuye a limitar el número de hipótesis entre las que el reconocedor ha de optar en cada instante para determinar cuál es la secuencia de palabras más probable que se está recibiendo. El modelo empleado actualmente se basa en bigramas, es decir, se modela la probabilidad de aparición de cada palabra condicionada a la aparición de la anterior. Un avance importante con respecto al proyecto URBANO ha sido el empleo de micrófonos de habla cercana (close-talk) en la obtención de la señal acústica, que ha permitido, por un lado, una reducción significativa del ruido ambiente (de unos 45 dB a unos 30 dB) y, por otro, de una menor aparición de errores de tipo “false match” (determinar que hay una señal acústica a la entrada cuando sólo hay ruido ambiente), que hacen que el reconocedor asuma que se ha pronunciado alguna palabra, lo que provoca una mayor confusión del sistema. La evaluación del reconocedor de habla pasa por obtener, como cifras de mérito de las prestaciones (sobre un conjunto de enunciados de prueba) la fracción de palabras reconocidas correctamente, la fracción de palabras erróneas (porcentaje de sustituciones), y las fracciones de palabras insertadas o borradas. La suma de sustituciones, inserciones y borrados se conoce como tasa de error (ER) del reconocedor, cuyo complementario (es decir, 100% - ER) se conoce como Word Accuracy, WA. Para estimar el WA de nuestro sistema, se ha empleado el robot como interfaz para el control de un sistema domótico sencillo, como puede ser un equipo HI-FI (Fernández et al., 2005), lo cual asegura un vocabulario reducido (en torno a 500 palabras diferentes), con lo que el reconocimiento es más seguro que en vocabularios más amplios, puesto que el sistema ha de tomar una decisión sobre un menor número de hipótesis. Las pruebas realizadas sobre un conjunto de referencia de 1200 frases compuestas por un total de 6185 palabras, arrojan valores de WA del orden del 95,86%. Si bien el valor anterior resulta de utilidad para un evaluador humano, la tasa de error aporta muy poca información al propio sistema de diálogo. Se han planteado varias fuentes de información entre las diferentes 3.2. Comprensión del lenguaje natural El módulo de comprensión de lenguaje recibe como entrada la hipótesis que el reconocedor de habla ha determinado como más probablemente enunciada por el locutor, a partir de la cual debe extraer los conceptos clave incluidos en aquélla. A fin de determinar qué conceptos están contenidos en un enunciado concreto, es necesario establecer diferentes categorías de palabras, es decir, grupos de palabras con características comunes, extraídas de un conjunto de frases de entrenamiento. Además, se ha de indicar que la clasificación de una palabra no depende únicamente de sí misma, sino también del contexto en el que se localiza. Las diferentes palabras pueden ser categorizadas manualmente por un experto, o 54 Desarrollo de un Robot-Guía con Integración de un Sistema de Diálogo y Expresión de Emociones: Proyecto ROBINT mantener un marco con dos tipos de campos, denominados atributo y valor. En el primero de ellos, el sistema mantiene identificados los conceptos de interés para la tarea que está realizando en ese momento. En el campo de valor, el gestor almacenará las palabras que el módulo de comprensión ha etiquetado como uno de los conceptos presentes en la lista de atributos. Si el sistema no puede rellenar todos los campos a partir de un único enunciado por parte del locutor, el gestor de diálogo enviará al generador de respuesta uno o varios conceptos que aún no tienen un valor asociado, de tal manera que se solicite al usuario tal información. El generador de respuesta aplicará sobre dichos conceptos las plantillas oportunas para construir un enunciado comprensible por el usuario, y lo pasará al conversor texto-voz para que éste sintetice la frase, estableciendo de esta manera un diálogo con el interlocutor humano. Dicho diálogo continuará hasta que el robot disponga de todos aquellos datos necesarios para que realice la acción deseada. bien realizar una clasificación automática basada en un conjunto de reglas. El primero de los métodos tiene como ventaja la exactitud en la clasificación de cada palabra, mientras que el segundo método permite fijar un número concreto de clases, y es mucho más rápido que el primero, pero es más complicado que la clasificación se realice de acuerdo a la semántica de la lengua, cosa que el primer método permite. Una vez se conoce las diferentes categorías a las que puede pertenecer cada palabra, el módulo de comprensión evalúa el enunciado reconocido, obteniendo una serie de conceptos que se pasarán al gestor del diálogo. Como cifras de mérito, se obtendrán medidas de confianza a nivel de concepto, además de la tasa de acierto de conceptos, o Concept Accuracy (CA). Para evitar ambigüedades en las palabras más comunes del vocabulario, se incluyó en el cálculo de medidas de confianza el concepto de palabras no confiables: son aquellas palabras que carecen de una categoría propia, pero que contribuyen a definir la categoría de las palabras a las que acompañan. Dentro de este grupo de palabras se incluyen determinantes, preposiciones o conjunciones. A la hora de estimar la confianza de un conjunto de conceptos, las palabras no confiables se excluirán del cálculo, de tal manera que sólo se tienen en cuenta las palabras categorizadas. Esto asegura una mejor estimación de las medidas de confianza, puesto que se eliminan aquellas palabras que no sólo no incluyen información, sino que además presentan mayor confusión entre sí. El módulo de comprensión completo, al igual que el reconocedor de habla, se ha evaluado incluyendo el robot como interfaz para el control domótico de un equipo HI-FI. El valor de CA obtenido ha sido de 92,78%. 3.4. Conversor texto a voz El conversor texto a voz genera un enunciado a partir del texto que le proporciona el generador de respuesta. Para ello, hace uso de un conjunto de parámetros prosódicos, como son el pitch, o frecuencia percibida como frecuencia fundamental de vibración de las cuerdas vocales; la intensidad, o energía de la señal, y la duración temporal de cada sonido. Uno de los objetivos planteados a la hora de comenzar este proyecto era tratar de humanizar lo más posible el comportamiento del robot. Para eso, uno de los medios imprescindibles consiste en dotarle de una voz más expresiva y capaz de transmitir emociones, que se vea acompañada de los gestos tanto de la cara como del brazo que refuercen la expresión emitida por la voz. La síntesis de voz con emociones que ofrece una mayor calidad es la consistente en la concatenación de unidades acústicas (generalmente, difonemas) a partir de un corpus amplio constituido por voz grabada de actores expresando diferentes emociones. Sin embargo, hemos optado por realizar la síntesis a partir de la modificación de los formantes de la voz neutra por varios motivos. En primer lugar, porque el modelado matemático de la voz permite aplicar cualquier tipo de 3.3. Gestor de diálogo Las tareas que ha de desempeñar el gestor de diálogo son dos. Por un lado, y a partir de los conceptos que el módulo de comprensión ha extraído, debe generar una serie de acciones que el sistema (en nuestro caso, el robot) debe llevar a cabo. Por otra parte, el gestor ha de determinar los conceptos de una eventual respuesta vocal del robot, expresable a través del sistema de conversión de texto a voz. El gestor de diálogo está basado en marcos. Esta aproximación consiste en 55 J.M. Lucas, R. Alcázar, J. M. Montero, F. Fernández, R.Barra-Chicote, L.F. D'Haro, J. Ferreiros, R. de Córdoba, J. Macías-Guarasa, R. San Segundo, J.M. Pardo Emoción identificada Emoción simulada Alegría Enfado en frío Sorpresa Tristeza Neutra Alegría Enfado en frío Sorpresa 53,9% 7% 17,4% 9,6% 70,4% 2,6% 1,7% 3,5% 20,9% 14,8% 79,1% 1,7% 2,6% Tristeza Neutra Otra 2,6% 7,8% 3,5% 87% 7,8% 10,4% 83,5% 7,8% 1,7% 0,9% 0,9% 0,9% Tabla 1: Matriz de confusión de emociones sintetizadas. modificación en la señal generada, pudiendo obtener así una voz que exprese una emoción concreta a partir de una señal de voz neutra. Además, este método no requiere un corpus tan amplio como el anterior, puesto que sólo requiere un conjunto de frases de voz neutra, sobre la que se realizarán las modificaciones pertinentes, y un pequeño grupo de frases con las emociones que se desean sintetizar, a fin de obtener los parámetros para adaptar la voz neutra a la emoción objetivo. Así, basta con aplicar una serie de modificaciones sobre los elementos prosódicos de la voz original. (Barra et al., 2006) analiza las características de cuatro emociones básicas: alegría, tristeza, sorpresa y enfado, identificando los rasgos que permiten sintetizar una emoción a partir de voz neutra. Las modificaciones planteadas sobre la voz neutra dependen de la emoción a sintetizar: enunciado, y una mayor duración de las sílabas tónicas. Por último, el enfado es una emoción con una importante componente no vocal, dado que casi siempre va acompañado de gestos corporales. La modificación planteada estriba en aumentar la intensidad de las sílabas tónicas y aumentar el rango de variación del pitch. Además, para simular el efecto de voz contenida y temblorosa característico del enfado en frío, se ha añadido una fuente de ruido aditivo síncrono con el pitch. Este sistema de síntesis se ha evaluado presentando a un grupo de oyentes un conjunto de frases sintetizadas con diversas emociones, y solicitándoles que identificasen la emoción que, a su juicio, expresaba el locutor. Dicha emoción debía elegirse de un conjunto cerrado, que incluía las emociones sintetizadas, además de la voz neutra. Los resultados de esta evaluación se muestran en la tabla 1. Se puede ver que la confusión es especialmente elevada entre alegría y sorpresa. Esto se debe a que, puesto que la sorpresa es un breve estado transitorio, si se pretende transmitir sorpresa en un enunciado largo, hay que mantener constantemente las modificaciones sobre la voz original, y dichas modificaciones son muy similares a las aplicadas para la síntesis de alegría, por lo que la confusión mutua entre ambas emociones aumenta significativamente. Además se observa cómo la voz que expresa tristeza está, a juicio de los oyentes, muy bien lograda, puesto que apenas presenta confusión con otras emociones. La alegría necesita una modificación del ancho de banda de la señal original, así como una elevación del pitch y de su rango de variación, y un aumento de la velocidad de locución. La tristeza requiere una mayor lentitud en la expresión de la frase sintetizada y una reducción en la intensidad de la señal, además de un menor ancho de banda efectivo. Una mejora adicional consiste en modificar el pitch mediante la adición de un jitter, o pequeña variabilidad del mismo, de tal manera que se simula el temblor de la voz característico de una persona próxima a llorar. La sorpresa es especialmente difícil de sintetizar, puesto que se trata de una emoción transitoria que evoluciona rápidamente hacia otra emoción. Las modificaciones realizadas consisten en un aumento tanto del pitch como de su rango de variación, en un grado más acusado que en el caso de la alegría. Asimismo, se propone un contorno de frecuencia fundamental creciente hacia el final del 4. Conclusiones A la luz de los resultados mostrados en el presente trabajo, además de los resultados subjetivos obtenidos al emplear el robot en un contexto real, realizando las actividades propuestas con varios grupos de escolares entre 3 y 11 años, podemos afirmar que las prestaciones de los diferentes módulos que 56 Desarrollo de un Robot-Guía con Integración de un Sistema de Diálogo y Expresión de Emociones: Proyecto ROBINT contribuyan a una mayor expresividad del mismo, variando su posición de manera simultánea a la síntesis de voz, humanizando así sus intervenciones. Las pruebas realizadas con varios grupos de escolares demostraron que la identificación de la emoción se ve potenciada cuando ésta no sólo se expresa con la voz, sino también mediante gestos corporales. En resumen, se ha logrado que el robot genere un mayor interés en el ámbito de un Museo de Ciencias. componen nuestro robot lo hacen idóneo para cumplir una función fuertemente interactiva en el contexto de un museo de ciencias, no como sustituto de un guía humano, sino como un elemento más del museo al que se le añade una elevada capacidad de interacción con los visitantes. El robot se desenvuelve de manera óptima en un entorno controlado (como puede ser una de las salas del museo) gracias al sistema de navegación. Este control del entorno permite además el empleo de un vocabulario reducido, lo que asegura un número controlado de alternativas en el modelo de lenguaje empleado en el reconocedor de habla. La medida de confianza básica se ha visto modificada mediante la definición de confianzas ponderadas y de palabras no confiables. Todas estas medidas de confianza son independientes de la tarea a realizar, lo que permite mantenerlas activas en cualquier entorno en el que se desee disponer del reconocedor de habla. Las pruebas realizadas sobre el sistema demuestran que el cálculo modificado de medidas de confianza, junto con el empleo de un micrófono close-talk, han contribuido de manera importante a mejorar las tasas del reconocedor de habla y del sistema de comprensión, lo que permite que el robot responda a las intervenciones humanas con mayor eficacia, sin necesidad de volver a consultar con el interlocutor. La capacidad del módulo de comprensión de aprender gradualmente de los ejemplos que se presentan a su entrada asegura unas tasas de Concept Accuracy muy elevadas en entornos controlados, además de no requerir una gramática previa o un conjunto de reglas para inferir los conceptos de una frase. La inclusión de emociones en la voz sintetizada ha sido un gran acierto para hacer más atractivas las interacciones del robot con grupos de niños. Las modificaciones en los parámetros del sintetizador (valores medios y rangos del pitch, la amplitud, etcétera) han conducido a la obtención de una señal de voz capaz de expresar emociones. La evaluación de esta voz sintética demuestra cómo las modificaciones propuestas conducen a tasas significativas de reconocimiento de emociones por parte de oyentes no entrenados. Se ha logrado que los movimientos del brazo y el rostro del robot (párpados y labios) Agradecimientos El presente trabajo ha sido parcialmente financiado por el Ministerio de Educación y Ciencia, bajo los contratos DPI2007-66846C02-02 (ROBONAUTA), DPI2004-07908C02 (ROBINT) y por la UPM_CAM, bajo el contrato CCG06-UPM/CAM-516 (ATINA). Los autores desean agradecer la colaboración de Nuria Pérez Magariños, así como el trabajo desarrollado por Ramón Galán y Diego Rodríguez-Losada, responsables de la estructura y el guiado del robot. Bibliografía Barra, R., Montero, J.M., Macías, J., D’Haro, L.F., San Segundo, R. and Córdoba, R., ‘Prosodic and Segmental Rubrics in Emotion Identification’. Proceedings of the IEEE International Conference in Acoustics, Speech and Signal Processing (ICASSP’06) Pag. 1085-1088. 2006. Breazeal, C., ‘Toward Sociable Robots’. Robots and Autonomous Systems, n 42. Pag. 167-175. 2003. Dautenhahn, K. and Werry, I., ‘Issues of Robot-Human Interaction Dynamics in the Rehabilitation of Children with Autism’. Proceedings of the Sixth International Conference on the Simulation of Adaptive Behavior (SAB2000). Pag. 519-528. 2000. Druin, A., Montemayor, J., Hendler, J., McAlister, B., Boltman, A., Fiterman, E., Plaisant, A., Kruskal, A., Olsen, H., Revett, I., Plaisant Schwenn, T., Sumida, L. and Wagner, R., ‘Designing PETS: a Personal Electronic Teller of Stories’. Human Factors in Computing Systems (CHI 99). ACM Press. Pag. 326-329. May 1999. 57 J.M. Lucas, R. Alcázar, J. M. Montero, F. Fernández, R.Barra-Chicote, L.F. D'Haro, J. Ferreiros, R. de Córdoba, J. Macías-Guarasa, R. San Segundo, J.M. Pardo Fernández, F., Ferreiros, J., Sama, V., Montero, J.M., San Segundo, R., Macías, J. and García, R., ‘Speech Interface for Controlling an Hi-Fi Audio System based on a Bayesian Belief Networks Approach for Dialog Modeling’. Proceedings of the 9th Conference on Speech Communications and Technology (INTERSPEECH 2005). Pag. 3421-3424. September 2005. del lenguaje natural Nº 35, pp. 229-234, ISSN 1135-5948. Septiembre 2005. Shibata, T., Mitsui, T., Wada, K., Touda, A., Kumasaka, T., Tagami, K. and Tanie, K., ‘Mental Commit Robots and its Application to Therapy of Children’. Proceedings of the IEEE/ASME International Conference on Advanced Intelligence Mechatronics. Pag. 10531058. 2001. Ferreiros, J., San Segundo, R., Fernández, F., D’Haro, L.F., Sama, V., Barra, R. and Mellén, P., ‘New Word-Level and Sentence-Level Confidence Scoring using Graph Theory Calculus and its Evaluation on Speech Understanding’. In Proceedings of the 9th Conference on Speech Communication and Technology (INTERSPEECH 2005). Pag. 3377-3380. September 2005. Silva, A., Vala, M. and Paiva, A., ‘Papous: the Virtual Storyteller’. Intelligent Virtual Agents. Springer. 2001. Willeke, T., Kunz, C. and Nourbakhsh, I., ‘The History of the Mobot Museum Robot Series: An Evolutionary Study’. American Association for Artificial Intelligence (www.aaai.org). 2001. drodri http://www.disam.upm.es/~drodri/, 2008. Fong, T., Nourbakhsh, I. and Dautenhahn, K., ‘A Survey of Socially Interactive Robots’. Robots and Autonomous Systems, n 42. Pag. 143-166. 2003. disam 2008. Huang, X., Acero, A. and Hon, H., ‘Spoken Language Processing. A Guide to Theory, Algorithm and System Development’. Prentice Hall. New Jersey. 2001. Plaisant, C., Druin, A., Lathan, C., Dakhane, K., Edwards, K., Maxwell Vice, J. and Montemayor, J., ‘A Storytelling Robot for Pediatric Rehabilitation’. Proceedings of the Fourth International ACM Conference on Assistive Technologies. Pag. 50-55. 2000. Rodríguez-Losada, D., ‘SLAM Geométrico en Tiempo Real para Robots Móviles en Interiores basado en EKF’. PhD Thesis (Unpublished). Escuela Técnica Superior de Ingenieros Industriales. Universidad Politécnica de Madrid. 2004. Saldien, J., Goris, K., Vanderborght, B., Verrelst, B., Van Ham, R. and Lefeber, D., ‘ANTY: The Development of an Intelligent Huggable Robot for Hospitalized Children’. Vrije Universiteit Brussel (http://anty.vub.ac.be). 2006. Sama, V., Ferreiros, J., Fernández, F., San Segundo, R., Pardo, J.M., ‘Utilización de medidas de confianza en sistemas de comprensión del habla’. Procesamiento 58 http://www.disam.upm.es/control/, Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 59-66 recibido 30-01-08, aceptado 03-03-08 Experiments with an ensemble of Spanish dependency parsers∗ Experimentos con un sistema combinado de analizadores sintácticos de dependencias para el español Roser Morante Vallejo Tilburg University Postbus 90153, 5000 LE Tilburg, The Netherlands [email protected] Resumen: Este artı́culo presenta un sistema combinado de analizadores sintácticos de dependencias del español que integra tres analizadores basados en aprendizaje automático. El sistema opera en dos etapas. En la primera cada analizador procesa una frase y produce un grafo de dependencias. En la segunda un sistema de votación decide cual es el análisis final a partir de los análisis producidos en la primera etapa. Palabras clave: Analizadores sintácticos de dependencias, sistema combinado, MaltParser, aprendizaje basado en memoria. Abstract: This article presents an ensemble system for dependency parsing of Spanish that combines three machine-learning-based dependency parsers. The system operates in two stages. In the first stage, each of the three parsers analyzes an input sentence and produces a dependency graph. In the second stage, a voting system distills a final dependency graph out of the three first-stage dependency graphs. Keywords: Dependency parsers, ensemble system, MaltParser, memory-based learning. 1 Introduction This article presents the results of experiments with an ensemble system for dependency parsing of Spanish. The system has been developed as part of the project Técnicas semiautomáticas para el etiquetado de roles semánticos en corpus del español, which focuses on researching semiautomatic techniques for semantic role labeling. The final goal of the project is to annotate with semantic roles a seventy million word corpus, starting from an eighty thousand word train corpus. It is well known that semantic role labelers that use syntactic information perform better. This is why a parser is needed in the project that performs as accurately as possible. Since parser combination has proved to improve the performance of individual parsers (Henderson and Brill, 1999; Zeman and Žabokrtský, 2005; Sagae and Lavie, 2006), experimenting with an en∗ This research has been funded by the postdoctoral grant EX2005–1145 awarded by the Ministerio de Educación y Ciencia of Spain to the project Técnicas semiautomáticas para el etiquetado de roles semánticos en corpus del español. ISSN 1135-5948 semble of parsers that integrates one of the best dependency parsers for Spanish (MaltParser) seemed to be an appropriate first step. The system combines three machinelearning-based dependency parsers: Nivre’s MaltParser (Nivre, 2006; Nivre et al., 2006), Canisius’ memory-based constraintsatisfaction inference parser (Canisius and Tjong Kim Sang, 2007), and a new memorybased parser that operates with a single word-pair relation classifier. Like in Sagae and Lavie (2006), the ensemble system operates in two stages. In the first stage, each of the three parsers analyzes an input sentence and produces a dependency graph. The unlabeled attachment scores in this stage range from 82 to 87 %, according to the evaluation metrics used in the CoNLL Shared Task 2006 (Buchholz and Marsi, 2006). In the second stage, a voting system distills a final dependency graph out of the three first-stage dependency graphs. The system achieves a 4.44% error reduction over the best parser. © Sociedad Española para el Procesamiento del Lenguaje Natural Roser Morante N. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 FORM Asimismo defiende la financiación pública de la investigación básica y pone de manifiesto que las empresas se centran más en la I+D con objetivos de mercado . LEMMA asimismo defender el financiación pública de el investigación básico y poner de manifiesto que el empresa él centrar más en el I+D con objetivo de mercado . CPOS r v d n a s d n a c v s n c d n p v r s d n s n s n F POS rg vm da nc aq sp da nc aq cc vm sp nc cs da nc p0 vm rg sp da np sp nc sp nc Fp FEATS num=s|per=3|mod=i|tmp=p num=s|gen=f num=s|gen=f num=s|gen=f for=s num=s|gen=f num=s|gen=f num=s|gen=f num=s|per=3|mod=i|tmp=p for=s gen=m|num=s gen=f|num=p gen=f|num=p per=3 num=p|per=3|mod=i|tmp=p for=s num=s|gen=f for=s gen=m|num=p for=s gen=m|num=s HEAD 2 0 4 2 4 4 8 6 8 2 10 11 12 18 16 18 18 11 20 18 22 20 18 23 24 25 2 DEP.REL MOD ROOT ESP CD CN CN ESP CN CTE CDO CC ESP SUJ CD CREG ESP CC CN PUNC Table 1: Example sentence of the revised Cast3LB–CoNLL corpus of Spanish. and not all verbs are equally frequent1 . Table 1 shows an example sentence of the corpus. Like in the CoNLL Shared Task 2006 sentences are separated by a blank line and fields are separated by a single tab character. A sentence consists of tokens, each one starting on a new line. A token consists of the following 8 fields that contain information about morphosyntactic features and non-projective dependencies: The results presented here are preliminary. Because the MaltParser performs substantially better than the other two parsers, the results of the ensemble do not improve significantly over the results of the MaltParser. Consequently, more parsers will have to be added to the ensemble, and additional combination techniques will have to be experimented. The article is structured as follows. The corpus used is described in Section 2. Section 3 presents the parsers that were integrated in the ensemble, which is introduced in Section 4. The results are reported in Section 5, and compared to related work in Section 6. Finally, some conclusions are put forward in Section 7. 2 1. ID: token counter, starting at 1 for each new sentence. 2. FORM: word form or punctuation symbol. 3. LEMMA: lemma of word form. 4. CPOSTAG: speech tag. The Cast3LB–CoNLL corpus of Spanish coarse-grained part-of- 5. POSTAG: fine-grained part-of-speech tag. The experiments described in this paper were carried out on the Cast3LB–CoNLL Corpus of Spanish (Morante, 2006), which is a revised version of the Cast3LB treebank (Civit, Martı́, and Bufı́, 2006; Civit, 2003; Navarro et al., 2003) used in the CoNLL Shared Task 2006 (Buchholz and Marsi, 2006). It contains 89199 words in 3303 sentences. As for verbs, it contains 11023 forms, and 1443 lemmas, 1 1369 verbs appear less than 20 times; 54 verbs, from 20 to 50 times; 12 verbs, 50 to 100 times: tratar (51), dejar (53), acabar (55), pasar (59), parecer (62), seguir (62), quedar (67), encontrar (68), llevar (68), poner (68), deber (75), querer (78), dar (86). 6 verbs, from 100 to 300 times: saber (101), llegar (107), ver (121), ir (132), decir (210), tener (243), hacer (253), poder (282), estar (296); and 2 verbs appear more than 800 times: ser, 1348 times and haber, 812 times. 60 Experiments with an ensemble of Spanish dependency parsers POS POS POS POS POS POS POS POS POS POS POS POS POS FEATS FEATS FEATS FEATS DEP DEP DEP DEP LEX LEX LEMMA LEMMA LEMMA CPOS CPOS CPOS CPOS 6. FEATS: unordered set of syntactic and/or morphological features, separated by a vertical bar. If features are not available, the value of the feature is an underscore. The complete description of the CPOSTAG, POSTAG, and FEATS tags can be found in Civit (2002). 7. HEAD: head of the current token, which is either a value of ID or zero (’0’) for the sentence root. 8. DEPREL: dependency relation to the HEAD. The set of tags is described in Morante (2006). 3 Single parsers This section describes the parsers that were integrated into the ensemble system and their results. 3.1 MaltParser 0.4 (MP) The MaltParser 0.42 (Nivre, 2006; Nivre et al., 2006) is an inductive dependency parser that, according to Nivre et al. (2006), uses four essential components: a deterministic algorithm for building labeled projective dependency graphs; history-based feature models for predicting the next parser action; support vector machines for mapping histories to parser actions; and graph transformations for recovering non-projective structures. The MaltParser participated in the CoNLL-X Shared Task on multi-lingual dependency parsing obtaining the second best results for Spanish (81.29 % labeled attachment score). In these experiments we used the following model for Spanish: The learner type was support vector machines (LIBSVM (Chang and Lin, 2005)), with the same parameter options used by Nivre et al. (2006) in the CoNLL Shared Task 2006. The parser algorithm used was Nivre, with the options arc order eager, shift before reduce and allow reduction of unattached tokens. 3.2 STACK INPUT INPUT INPUT INPUT STACK STACK STACK STACK INPUT STACK INPUT STACK STACK INPUT INPUT STACK STACK STACK STACK INPUT STACK INPUT STACK INPUT INPUT STACK INPUT INPUT STACK 1 2 3 1 0 0 0 0 0 0 2 0 0 0 0 1 -1 1 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 -1 1 -1 0 0 0 -1 1 0 0 1 -1 1 -1 Table 2: Model of the MaltParser used. uses three memory-based classifiers that predict weighted soft-constraints on the structure of the parse tree. Each predicted constraint covers a small part of the complete dependency tree, and overlap between them ensures that global output structure is taken into account. A dynamic programming algorithm for dependency parsing is used to find the optimal solution to the constraint satisfaction problem thus obtained. 3.3 Memory-based constraint satisfaction parser (MB1) The memory-based constraint satisfaction parser (Canisius and Tjong Kim Sang, 2007) 2 Web page of MaltParser 0.4: http://w3.msi.vxu.se/∼nivre/research/MaltParser.html. 61 Memory-based single classifier parser (MB2) The memory-based single classifier parser is a new parser developed for performing the experiments reported here. It consists of a single classifier that predicts the relation between two words in a sentence, and a decision heuristics that chooses among the dependency relations that the classifier has predicted for one word, based on information from the classifier output. Given two words, w1 and w2, the task that the classifier performs is predicting at the same time the direction of the dependency and the type of dependency. A dummy class NONE represents absence of Roser Morante relation. For a sentence like El gato come pescado, the instances in the train corpus would be: distance metric with global feature weights that account for relative differences in discriminative power of the features. The IB1 algorithm was parametrized by using Overlap as the similarity metric, Information Gain for feature weighting, 11 k-nearest neighbors, and weighting the class vote of neighbors as a function of their inverse linear distance (Daelemans et al., 2007). Because the classifier might predict more than one dependency relation for one word, a decision heuristics is applied in order to disambiguate. The decision heuristics uses information about the class distribution and the distance to the nearest neighbor produced by TiMBL. w1:el w2:gato features class w1:el w2:come features class w1:el w2:pescado features class w1:gato w2:come features class w1:gato w2:pescado features class w1:come w2:pescado features class An instance is composed of the following features: • Lemma, POS, CPOS gender, number, person, mode, tense of the focus word w1 and focus word w2, and of the two previous and two next words to the focus words. Algorithm 1 Heuristics to filter the output of the classifier in MB1. • Number of coordinative conjunctions, subordinate conjunctions, prepositions, punctuation signs, main verbs, auxiliary verbs, pronouns, relative pronouns, nouns, and adjectives. if the predicted class is different than NONE then if there is not a NONE class among the nearest neighbors then if the distance is bigger than 6 then turn the prediction into NONE; else keep the predicted and tag it with a “not-none” flag; end if else if there is a NONE class among the nearest neighbors then if its class distribution is bigger than 0.70, and the difference between the probability of the predicted class and the NONE class is lower than 3 then turn the prediction into NONE; else keep the predicted class and tag it with a “possible-none” flag; end if end if else keep the NONE prediction; end if We performed 10-fold cross-validation experiments. Instances with the NONE class in the train corpus were downsampled in a 1:1 proportion. We use the IB1 classifier as implemented in TiMBL (version 6.0) (Daelemans et al., 2007), a supervised inductive algorithm for learning classification tasks based on the knearest neighbor classification rule (Cover and Hart, 1967). In IB1, similarity is defined by a feature-level distance metric between a test instance and a memorized example. The metric combines a per-feature value In the first step the output of the classifier is filtered according to Algorithm 1. In the second step the dependency tree is reconstructed and the dependency relations are disambiguated, if more than one dependency is predicted for a word. The system gives preference to the class tagged with a “not-none” flag that has the lower distance to the nearest neighbor. If no classes are tagged with the “not-none” flag, the system gives preference to the class tagged with a “possible-none” flag that has the lower distance to the nearest neighbor. • Features that express if w2 is placed between w1 and the first coordination / main verb / preposition / noun / adjective to the right of w1. • Features that expresses if w2 is placed between w1 and the second coordination / main verb / preposition / noun / adjective to the right of w1. • Features that expresses if w1 is placed between w2 and the first coordination / main verb / preposition / noun / adjective to the left of w2. • Features that expresses if w1 is placed between w2 and the second coordination / main verb / preposition / noun / adjective to the left of w2. 62 Experiments with an ensemble of Spanish dependency parsers DEPREL AP ATR AUX CA CAG CC CD CDO CI CN CPRED.CD CPRED.SUJ CREG CTE ENUM ESP ET IMPERS MOD NEG PASS PER ROOT SUJ - n.train 64 142 92 152 4 660 450 326 67 1171 9 28 83 263 3 1313 68 11 50 76 35 64 331 532 1896 rec 45.31 79.58 95.65 72.37 50.00 71.67 78.89 70.86 56.72 82.49 33.33 57.14 57.83 61.22 0.00 94.59 41.18 81.82 42.00 84.21 85.71 73.44 91.54 75.75 82.70 MP prec 54.72 84.96 93.62 72.37 66.67 63.15 71.43 66.38 79.17 80.10 75.00 72.73 67.61 62.65 0.00 92.89 54.90 69.23 72.41 88.89 90.91 75.81 71.46 80.12 90.64 F1 49.57 82.18 94.62 72.37 57.14 67.14 74.97 68.54 66.09 81.27 46.15 63.99 62.33 61.92 0.00 93.73 47.06 75.00 53.16 86.48 88.23 74.60 80.26 77.87 86.48 rec 40.62 79.58 86.96 63.16 50.00 53.64 74.44 66.56 50.75 81.81 0.00 42.86 33.73 55.13 0.00 95.05 41.18 63.64 36.00 85.53 48.57 65.62 76.74 68.80 80.80 MB1 prec 50.00 75.33 93.02 66.67 50.00 54.29 70.38 58.49 68.00 72.80 0.00 70.59 66.67 54.51 0.00 92.10 65.12 87.50 66.67 89.04 68.00 76.36 74.05 72.76 84.69 F1 44.82 77.39 89.88 64.86 50.00 53.96 72.35 62.26 58.12 77.04 0.00 53.33 44.79 54.81 0.00 93.55 50.45 73.68 46.75 87.24 56.66 70.58 75.37 70.72 82.69 rec 51.56 80.28 90.22 69.08 50.00 48.48 72.44 71.47 53.73 83.60 0.00 0.00 51.81 55.51 0.00 93.60 29.41 81.82 42.00 85.53 85.71 89.06 61.03 65.79 81.75 MB2 prec 55.00 73.55 86.46 61.05 66.67 61.19 69.81 54.31 60.00 73.33 0.00 0.00 55.13 54.28 0.00 91.58 31.75 75.00 48.84 82.28 88.24 55.34 85.59 74.63 84.19 F1 53.22 76.76 88.29 64.81 57.14 54.09 71.10 61.71 56.69 78.12 0.00 0.00 53.41 54.88 0.00 92.57 30.53 78.26 45.16 83.87 86.95 68.26 71.25 69.93 82.95 Table 3: Precision, recall and F1 of MP, MB1 and MB2 per dependency relation. 3.4 Results of the individual parsers Marsi, 2006). The MP performs significantly better than MB1 and MB2, whereas MB1 and MB2 perform similarly in spite of the fact that their approach to memory-based learning is different: MB1 applies constraint satisfaction, and MB2 is based on only one classifier and heuristics that rely on the distance of the predicted class to the nearest neighbor and on the class distribution. Table 3 shows precision, recall, and F1 of each of the single parsers per syntactic function. The n.train column contains the number of instances that have a certain dependency relation in the train corpus. The MP has the best F1 for 19 of the 25 dependency relations. This fact indicates that it is difficult to improve over the MP results with the ensemble system. MB1 has the best F1 for dependency relation ET and NEG, and MB2 for AP and IMPERS. LAS UAS LAc MP 80.45 % 87.42 % 85.12 % MB1 75.74 % 82.44 % 81.95 % 4 Ensemble dependency parser The ensemble system operates in two stages. In the first stage, each of the three parsers analyzes an input sentence and produces a dependency graph. The results of the individual parsers were presented in Table 4 in the previous section. In the second stage, a voting system distills a final dependency graph out of the three first-stage dependency graphs. Voting techniques have been previously applied to dependency parsing (Sagae and Lavie, 2006; Zeman and Žabokrtský, 2005). We provide results of three different voting systems, that take into account agreement among classifiers and/or the normalized F1 value of each classifier for each dependency MB2 75.44 % 82.75 % 81.35 % Table 4: Results of the individual parsers. The global results of the three parsers are shown in Table 4 in terms of Labeled Attachment Score (LAS), Unlabeled Attachment Score (UAS), and Label Accuracy (LAc) according to the evaluation metrics used in the CoNLL Shared Task 2006 (Buchholz and 63 Roser Morante relation: LAS UAS LAc • VS1: the system votes for the solution of the single classifier that has the higher F1 for the dependency relation that the single classifier predicts. LAS UAS LAc • VS3: the system votes for the solution of the MP, unless MB1 and MB2 agree or the three parsers disagree. In the first case, the MB1 and MB2 solution is chosen, and in the second, the system votes for the solution of the single classifier that has the higher F1 for the syntactic function that the single classifier predicts. LAS UAS LAc VS3 vs MP +0.64 +0.26 +0.66 VS3 79.71% 86.07% 85.92% VS3 vs MP -0.74 -1.35 +0.80 Table 8: LAS, UAS, and LAc of VS4. VS1 is the system that improves the least because the MP has the better F1 scores for 19 of the 25 dependency relations. That VS2 and VS3 do no improve significantly might be due to the fact that some agreement cases between MB1 and MB2 can be errors. VS3 is the voting system that performs better: by voting for the agreement between MB1 and MB2, or for the system with higher F1 in case of complete disagreement, more errors are eliminated than errors are introduced. For further research it would be interesting to analyze if it is possible to eliminate more errors by introducing specific voting strategies per dependency relation. Table 9 shows that precision and recall in VS3 increase for some dependency relations (AP, ATR, CD, NEG, PASS, PER, SUJ), as compared to precision and recall per dependency relation of the MaltParser, although they also decrease for other (AUX, CC, ET). As Sagae and Lavie (2006) point out “This very simple scheme guarantees that the final set of dependencies will have as many votes as possible, but it does not guarantee that the final voted set of dependencies will be a well–formed dependency tree”. We are aware of this limitation. Future research will focus on converting the resulting graph into a wellformed tree. Results The results of the different versions of the ensemble system are presented in Tables 5, 6, 7, and 8, as well as the improvement over the MP. Results show that combined systems VS1, VS2 and VS3 perform better than the best parser, although the difference is insignificant, since it reduces the error of MP in less than 5% (4.44%). Combined system VS4 improves only in accuracy over the results of the best system. LAS UAS LAc VS3 81.09% 87.68% 85.78% Table 7: LAS, UAS, and LAc of VS3. • VS4: the system votes for system VS1 unless two single systems agree. In this case, the system votes for the solution agreed by them. VS1 80.53% 87.43% 85.22% VS2 vs MP +0.59 +0.26 +0.59 Table 6: LAS, UAS, and LAc of VS2. • VS2: the system votes for the solution of the MP, unless MB1 and MB2 agree, in which case the MB1 and MB2 solution is chosen. 5 VS2 81.04% 87.68% 85.71% 6 VS1 vs MP +0.08 +0.01 +0.10 Related work The related work we are aware of deals with languages other than Spanish. Zeman and Žabokrtský (2005) tested several approaches for combining dependency parsers for Czech. They found that the best method was accuracy-aware voting, which reduced the error of the best parser in 13%. Differences between their approach an ours are that Table 5: LAS, UAS, and LAc of VS1. 64 Experiments with an ensemble of Spanish dependency parsers AP ATR AUX CA CAG CC CD CDO CI CN CPRED.CD CPRED.SUJ CREG CTE ENUM ESP ET IMPERS MOD NEG PASS PER ROOT SUJ - MP rec 45.31 79.58 95.65 72.37 50.00 71.67 78.89 70.86 56.72 82.49 33.33 57.14 57.83 61.22 0.00 94.59 41.18 81.82 42.00 84.21 85.71 73.44 91.54 75.75 82.70 prec 54.72 84.96 93.62 72.37 66.67 63.15 71.43 66.38 79.17 80.10 75.00 72.73 67.61 62.65 0.00 92.89 54.90 69.23 72.41 88.89 90.91 75.81 71.46 80.12 90.64 VS3 rec +7.81 +4.93 -1.08 +0.66 0.00 -5.76 +0.84 +3.68 +2.98 +1.71 -11.11 -3.57 -2.41 0.00 0.00 +0.99 -2.94 0.00 0.00 +2.63 +5.72 +6.25 -1.21 +2.82 +0.69 7 prec +1.60 +2.20 -0.07 -4.69 0.00 -1.97 +3.99 -1.23 -2.25 -2.03 +0.25 +6.22 +1.05 -0.96 0.00 +0.06 -3.92 +12.59 +2.59 +2.78 +0.52 +0.31 +6.81 +2.65 +0.33 Conclusions and future research In this paper we presented an ensemble system for dependency parsing of Spanish that combines three machine-learning-based dependency parsers. As far as we know, this is the first attempt to combine dependency parsers for Spanish. The results of the ensemble of parsers are only slightly better than the results of the best parser; the error reduction of the label accuracy score reaches 4.44%. This is due to the fact that there are only three parsers, one of which performs clearly better than the other two, which perform very similarly. The best results were obtained by the voting system that gives priority to the decisions of the best parser, unless the other two parsers agree, in which case their solution is chosen, or the three parsers disagree, in which case the system votes for the solution of the single classifier that has the higher F1 for the dependency relation that the single classifier predicts. We consider the results to be promising enough to continue our research. In the future we will integrate more parsers in the ensemble and we will explore additional combination techniques, like metalearning, and additional voting strategies that allow us to build well-constructed trees. Table 9: Recall and precision of VS3 compared to precision and recall of MP per dependency relation. they experiment with seven parsers, they perform stacking, and they check that the resulting structure is a well-formed tree. Acknowledgements Sagae and Lavie (2006) experiment with six parsers on the Wall Street Journal corpus. They apply a two stage procedure of reparsing focusing on unlabeled dependencies. In the first stage, m different parsers analyze an input sentence. In the second stage, a parsing algorithm is applied taking into account the analyses produced by each parser in the first stage. They reparse the sentence based on the output of m parsers in order to maximize the number of votes for a well-formed dependency structure. Their experiments increase the accuracy of the best parser in 1.7%. We would like to thank Sander Canisius and Joakim Nivre for making their parsers available and for being very helpful. Thanks also to the three anonymous reviewers for their valuable comments. References Buchholz, S. and E. Marsi. 2006. CoNLLX shared task on multilingual dependency parsing. In Proceedings of the X CoNLL Shared Task. SIGNLL. Canisius, S. and E. Tjong Kim Sang. 2007. A constraint satisfaction approach to dependency parsing. In Proceedings of the CoNLL Shared Task Session of EMNLPCoNLL 2007, pages 1124–1128. Nivre et al. (2007) combined the outputs of the parsers participating in the CoNLL Shared Task 2007 on dependency parsing using the method of Sagae and Lavie (2006). They show that accuracy never falls below the performance of the top three systems, although it degrades after ten different parsers have been added. Chang, C.C. and C.J. Lin. 2005. LIBSVM: A library for support vector machines. URL:http://www.csie.ntu.edu.tw/ ∼cjlin/papers/libsvm.pdf. 65 Roser Morante Civit, M. 2002. Guı́a para la anotación morfológica del corpus CLiC-TALP (versión 3). X-TRACT-II WP-00-06, CliC–UB. Nivre, J., J. Hall, J. Nilsson, G. Eryigit, and S. Marinov. 2006. Labeled pseudo– projective dependency parsing with support vector machines. In Proceedings of the Tenth Conference on Computational Natural Language Learning, CoNLL-X, New York City, NY, June. Civit, M. 2003. Guı́a para la anotación sintáctica de Cast3LB: un corpus del español con anotación sintáctica, semántica y pragmática. X-TRACT-II WP-03-06 y 3LB-WP-02-01, CliC–UB. Sagae, K. and A. Lavie. 2006. Parser combination by reparsing. In Proceedings of the Human Language Technology Conference on the North American Chapter of the ACL, pages 129–132, New York. ACL. Civit, M., M.A. Martı́, and N. Bufı́, 2006. Advances in Natural Language Processing (LNAI, 4139), chapter Cat3LB and Cast3LB: from Constituents to dependencies, pages 141–153. Springer Verlag, Berlin. Zeman, D. and Z. Žabokrtský. 2005. Improving parsing accuracy by combining diverse dependency parsers. In Proceedings of the International Workshop on Parsing Technologies, Vancouver, Canada. Cover, T. M. and P. E. Hart. 1967. Nearest neighbor pattern classification. Institute of Electrical and Electronics Engineers Transactions on Information Theory, 13:21–27. Daelemans, W., J. Zavrel, K. van der Sloot, and A. van den Bosch. 2007. TiMBL: Tilburg memory based learner, version 6, reference guide. Technical Report Series ILK 07-03, Tilburg University, Tilburg, The Netherlands. Henderson, J. and E. Brill. 1999. Exploiting diversity in natural language processing: combining parsers. In Proceedings of the Fourth Conference on Empirical Methods in Natural Language Processing (EMNLP), College Park, Maryland. Morante, R. 2006. Semantic role annotation in the Cast3LB-CoNNL-SemRol corpus. Induction of Linguistic Knowledge Research Group Technical Report ILK 0603, Tilburg University, Tilburg. Navarro, B., M. Civit, M.A. Martı́, R. Marcos, and B. Fernández. 2003. Syntactic, semantic and pragmatic annotation in cast3lb. In Proceedigns of the Shallow Processing of Large Corpora (SProLaC) Workshop of Corpus Linguistics 2003, Lancaster,UK. Nivre, J. 2006. Inductive Dependency Parsing. Springer. Nivre, J., J. Hall, S. Kübler, R. McDonald, J. Nilsson, S. Riedel, and D. Yuret. 2007. The CoNLL-2007 shared task on dependency parsing. In Proceedings of the CoNLL Shared Task Session of EMNLPCoNLL 2007, pages 915–932, Prague. 66 Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 67-74 recibido 14-02-08, aceptado 03-03-08 Predicción estadística de las discontinuidades espectrales del habla para síntesis concatenativa Statistical prediction of spectral discontinuities of speech in concatenative synthesis Manuel Pablo Triviño y Francesc Alías GTAM – Grup de Recerca en Tecnologies Audiovisuals i Multimèdia Enginyeria i Arquitectura La Salle. Universitat Ramon Llull Quatre Camins, 2. 08022 Barcelona, España {st08726, falias}@salle.url.edu Resumen: La estimación de discontinuidades espectrales es uno de los mayores problemas en el ámbito de la síntesis concatenativa del habla. Este artículo presenta una metodología basada en el estudio del comportamiento estadístico de medidas objetivas sobre uniones naturales. El objetivo es definir un proceso automático para seleccionar qué medidas emplear como coste de unión para sintetizar un habla lo más natural posible. El artículo presenta los resultados objetivos y subjetivos que permiten validar la propuesta. Palabras clave: Medida objetiva, discontinuidad espectral, tipificación, correlación Abstract: The estimation of spectral discontinuities is one of the most common problems in speech concatenative synthesis. This paper introduces a methodology based on analyzing the statistical behaviour of objective measures for natural concatenations. The main goal is defining an automatic process capable of including the most appropriate measures as concatenation cost to generate high quality synthetic speech. This paper describes both the objective and subjective results for validating the proposal. Keywords: Objective measure, spectral discontinuity, standardization, correlation. 1 Introducción Este trabajo se ubica en el ámbito de la generación de habla sintética a partir de texto o conversión de texto en habla (CTH). Existen distintas técnicas para obtener voz a partir de un texto cualquiera. Una de ellas es la síntesis por concatenación de unidades, en la que el habla sintetizada se genera uniendo segmentos de voz previamente grabados en un corpus. Uno de los problemas inherentes de este tipo de síntesis concatenativa es la aparición de discontinuidades audibles que se producen al unir las unidades acústicas (fonemas, difonemas, etc.). En este contexto, la CTH basada en selección de unidades trabaja con corpus de voz de dimensión considerable (mayor a 1 hora de voz) (Hunt, 1996). Como su nombre indica, esta técnica se basa en seleccionar los segmentos del corpus que permitan generar un habla sintetizada lo más natural posible. El proceso de selección considera la bondad de la unión de las unidades a seleccionar para ISSN 1135-5948 minimizar la presencia de discontinuidades en el habla sintética mediante criterios de coste basados en medidas objetivas (Hunt, 1996). La bondad de estas medidas vendrá determinada por su capacidad para detectar discontinuidades espectrales perceptibles. Hasta el momento, la dificultad que conlleva mapear esta subjetividad provoca que todavía no se haya definido una medida objetiva única capaz de estimar el grado audible de una discontinuidad producida al concatenar dos unidades acústicas cualesquiera. Por ello, en la literatura sobre el tema se pueden encontrar diversos estudios que presentan resultados divergentes. En (Wouters, 1998) se concluye que la mejor distancia es la Euclídea aplicada sobre coeficientes MFCC (o incorporando sus derivadas). Sin embargo, en (Klabbers, 2001) se argumenta que la mejor predicción se consigue con la combinación de la distancia de Kullback-Leibler y los coeficientes LPC, mientras que en (Stylianou, 2001) se apuesta por la misma distancia pero con coeficientes FFT. Por su parte, en (Donovan, 2001) se © Sociedad Española para el Procesamiento del Lenguaje Natural Manuel Pablo Triviño, Francesc Alías define una medida basada en la distancia de Mahalanobis que mejora los resultados obtenidos en la literatura hasta el momento. Posteriormente, en (Vepa, 2006) el mejor resultado se obtiene para un coste basado en coeficientes LSF (Line Spectral Frequencies), propuesta que se completa con un método de interpolación lineal de concatenación de unidades usando también LSFs. Desde otro punto de vista, se pueden encontrar trabajos que, además de estudiar las medidas objetivas, incorporan métodos de clasificación o regresión de las unidades acústicas. En (Syrdal, 2005) se aplica regresión lineal y CART (Classification and Regression Trees) a partir del etiquetado fonético y espectral del corpus. Se concluye que la agrupación por variables fonéticas permite una mejor predicción de las discontinuidades. Ante la dificultad de detectar las discontinuidades a través de medidas objetivas de forma fidedigna, últimamente han aparecido nuevas propuestas con un enfoque distinto: el empleo de modelos harmónicos y componentes AM-FM (Pantzanis, 2005), el estudio de la influencia del tamaño de ventana y las discontinuidades de fase (Kirpatrick, 2006) o el análisis de la influencia de la variación de las características espectrales de los formantes (Klabbers, 2007). 2 análisis estadístico y la tipificación (también conocida como z-score) del comportamiento de las medidas objetivas. Metodología Listado MRT (Test de Rimas Modificado) Clúster Fonético Clúster Espectral Cálculo distancias Análisis Estadístico Tipificación Selección distancias Definición de pruebas Pruebas Subjetivas Evaluación Método Figura 1: Esquema del proceso seguido en el estudio de las medidas objetivas de estimación de discontinuidades. Una vez seleccionadas las medidas que presentan un comportamiento más homogéneo, estadísticamente hablando, se procederá a evaluar la hipótesis de partida realizando una serie de pruebas subjetivas sobre un conjunto reducido de monosílabos tipo CVC, donde C indica consonante y V vocal obtenidos de un test de rimas (Stylianou, 2001;Syrdal, 2005). El objetivo es determinar qué distancias objetivas presenta una mayor correlación con los usuarios al estimar la naturalidad de las uniones CVC. Las distancias consideradas en el estudio son: i) Itakura-Saito, con coeficientes FFT y ii) Euclídea, Mahalanobis y Donovan, con coeficientes LPC, LSF, información de los tres primeros formantes (frecuencia, ancho de banda y energía) denotada como C3F, MFCC y MFCC con coeficientes delta (MFCC D) y energía (MFCC E) o con ambos (MFCC DE). Este conjunto de parejas distancia-coeficiente cubre la mayoría de los casos presentados en la literatura clásica sobre el tema. Asimismo, el estudio considera las características fonéticas y espectrales del corpus empleado. Enfoque del problema A partir del análisis de los trabajos anteriormente citados, se observa que todavía no se ha conseguido definir una medida que destaque sobre las demás y parece que se empieza a trabajar en otras direcciones de investigación. En este contexto, este trabajo pretende presentar una nueva metodología para seleccionar qué combinación medida-parámetro permite detectar mejor las discontinuidades espectrales. Esta metodología parte de la hipótesis que las distancias con comportamiento más homogéneo (i.e. con media más cercana a 0 y desviación estándar menor) obtenidas al evaluar uniones naturales serán las más eficientes a la hora de detectar discontinuidades. Esta metodología sigue distintas fases (véase la Figura 1). Primero se realiza un análisis del corpus de voz utilizado basado en: agrupación (clustering) fonética y espectral (para calcular la media y la desviación de los parámetros), cálculo de las medidas en estudio empleando la información extraída de la agrupación y el 3 Agrupación del corpus Dada la dificultad de definir una única distancia como coste de unión para todos los contextos fonéticos en los que se puede encontrar una 68 Predicción estadística de las discontinuidades espectrales del habla para síntesis concatenativa unidad acústica, generalmente se opta por organizarlos mediante agrupación fonética y/o espectral (Donovan, 2001; Syrdal, 2005). En este trabajo se ha utilizado un corpus neutro de voz femenina en catalán, cedido por la UPC, con una duración de 1,5 h. Nótese que la voz femenina permite una tasa de detección de discontinuidades audibles mayor que la voz masculina (Syrdal, 2001). A continuación, se presentan los resultados obtenidos del proceso de agrupación sobre el corpus en estudio. 3.1 Número de estímulos CVC 12000 9701 8000 6000 3295 2748 1321 2000 809 0,44 /a/ 0,13 0,11 /e/ 0,06 0,07 /E/ 0,04 0,03 0,17 /i/ 0,15 /o/ 0,02 0,05 /O/ 0,03 0,03 /u/ 0,12 0,12 Por otro lado, trabajos previos concluyen que la aparición de discontinuidades espectrales en las vocales depende de su contexto fonético previo y posterior (Syrdal, 2001). Por ello, los estímulos se agrupan considerando el modo de articulación de su contexto consonántico (Syrdal, 2005), así como su sonoridad, ya que la detección de discontinuidades es más elevada en contextos consonánticos sonoros (Syrdal, 2001). Esto es debido a que las consonantes sonoras tienen una fuerte influencia en términos de coarticulación sobre la vocal que las precede. Por lo tanto, se establecen 8 categorías de CVC según la consonante prevocálica (no se incluye el contexto fonético silencio) y 9 según la postvocálica. Los contextos fonéticos en estudio son: aproximante, fricativa sonora y sorda, lateral, nasal, oclusiva sonora y sorda, vibrante y silencio (sólo para postvocálico). La Figura 3 muestra su distribución en el corpus. Según (Syrdal, 2005), el efecto del contexto fonético tiene más influencia a la hora de detectar discontinuidades que la información espectral, por lo que en este trabajo se organiza el análisis de las discontinuidades acústicas según su contexto fonético. Como primer paso, se agrupan los fonemas del corpus en estructuras CVC según su fonema vocálico, sobre un total de 21654 estímulos. Como se muestra en la Figura 2, el conjunto mayoritario es el que contiene como núcleo vocálico la vocal /@/ 1, que está presente en casi la mitad de los estímulos CVC del corpus. 4000 Rafel 0,45 Tabla 1: Frecuencia de los fonemas vocálicos en los estímulos CVCs respecto a (Rafel, 1979). Clúster fonético 10000 CVCs /@/ 2669 382 729 /o/ /O/ 7000 Contextos Fonéticos Prevocálicos 6000 0 /a/ /e/ /E/ /i/ Número de Estímulos CVC Contex tos Fonétic os Pos tv oc álic os /@/ /u/ Fonemas vocálicos Figura 2: Histograma de la distribución de los estímulos CVC por fonema vocálico. 5000 4000 3000 2000 1000 Sil en cio Vib ra nt e So rd a So no ra O clu siv a Na sa l O clu siv a La te ra l So no ra Fr ica tiv a Fr ica tiv a Ap ro xim an te So rd a 0 Al diseñar un corpus de propósito general, generalmente, se tienen en cuenta las características estadísticas de la lengua que trata (i.e. frecuencia de los fonemas), por lo que el corpus suele presentar una buena correlación con la distribución estadística de los fonemas del idioma de trabajo. En este caso, la correlación entre la frecuencia de los fonemas vocálicos en los CVCs extraídos del corpus respeto a la de la lengua catalana de (Rafel, 1979) se obtiene una correlación de =0.99 (véase la Tabla 1). Conte x tos Foné ticos Consoná nticos Figura 3: Histograma de la distribución de los estímulos CVC para contextos fonéticos prevocálicos y postvocálicos. Si se calcula la correlación entre los porcentajes de fonemas consonánticos en los CVCs en estudio respecto a los indicados en (Rafel, 1979), se obtiene una correlación de =0.9 (véase la Tabla 2). Por lo tanto, de los resultados de correlación obtenidos, se puede concluir que los estímulos considerados son representativos del idioma de 1 En este artículo ese emplea notación SAMPA. Véase www.phon.ucl.ac.uk/home/sampa/home.htm 69 Manuel Pablo Triviño, Francesc Alías trabajo (i.e. el estudio utiliza información fonéticamente balanceada). CVCs Rafel Aproximante 0,14 0,10 Fricativa 0,21 0,20 Lateral 0,11 0,12 Nasal 0,20 0,19 Oclusiva 0,27 0,37 Vibrante 0,07 0,11 tiene un comportamiento más estable, independientemente del coeficiente empleado, y suele presentar una media cercana a cero (1). Tabla 2: Frecuencia de los fonemas consonánticos en los CVCs y en (Rafel, 1979). 4 Análisis de las distribuciones de las medidas objetivas sobre uniones naturales Cuando se calcula la distancia espectral entre dos difonemas CV-VC procedentes del habla natural, teóricamente su valor debería de ser nulo (o muy cercano a cero). Sin embargo, no todas las combinaciones distancia-parámetro presentan este comportamiento. Con el objetivo de determinar qué medidas objetivas presentan una distribución de valores con media más cercana a cero y menor desviación típica, se estudia la forma de las distribuciones de las medidas objetivas en estudio sobre uniones naturales. Este trabajo parte de la hipótesis que cuanto menos oscile el valor de las distancias respecto a la media en las uniones naturales (idealmente una delta de Dirac), la probabilidad de que la medida objetiva sea un buen detector de discontinuidad aumenta. Del resultado de este análisis se escogerán las combinaciones distanciaparámetro que presenten un comportamiento más cercano al deseado para ser usadas en los experimentos subjetivos. 4.1 Figura 4: Distribución de la media de las medidas Euclídea-LSF e Itakura Saito sobre los estímulos /C@C/. 4.2 Desviación de las distribuciones Además de considerar la media de la distribución, se estudia también su desviación (que también debe tender a 0). El problema surge al intentar comparar las distribuciones, ya que éstas presentan distribuciones muy distintas entre sí, según la medida objetiva considerada, para todos los contextos fonéticos analizados. Por lo tanto, resulta necesario homogeneizar las distribuciones para compararlas correctamente. En este trabajo, se ha optado por aplicar el teorema del límite central (TLC) sobre las distribuciones de partida, para obtener una distribución muestral del valor de la media de la distribución original. Las variables empleadas en el TLC son: 1000 ciclos, que nos garantiza poder calcular con fiabilidad el tercer y cuarto momentos, y 40 muestras/ciclo, para todos los contextos fonéticos (valor único para uniformizar la disparidad de tamaños existente). Dado que no se consigue el número mínimo de muestras para todos los contextos en todos los fonemas vocálicos en estudio, se decidió agrupar los datos de las vocales /e/+/E/ y /o/+/O/, dada su similitud espectral –al igual que en (Syrdal, 2005), donde no se tiene en cuenta la influencia de la apertura de las vocales en el estudio de las discontinuidades. La figura 6 presenta la media y la desviación de la simetría o skewness (S) y la kurtosis (K) de las distribuciones resultantes después de aplicar el TLC. Se puede observar como aparecen dos tipologías distintas de distribuciones. Por un lado, las distribuciones de las vocales /@/ e /i/ tienen forma Media de las distribuciones Como primera parte del estudio, se analiza la media de las distribuciones de las medidas objetivas consideradas. Este estudio se ha centrado en los estímulos CVC con vocal /@/, ya que éste es el grupo más numeroso en el corpus, por tanto, de mayor robustez estadística. En términos de combinación distanciacoeficiente, se observa que la distancia que presenta una media menor es la Euclídea aplicada sobre parámetros LSF (véase la Figura 4). En el otro extremo se encuentra la distancia de Itakura, que es la que presenta la media más alta del conjunto de medidas objetivas estudiado. La distancia de Donovan es la que 70 Predicción estadística de las discontinuidades espectrales del habla para síntesis concatenativa leptocúrtica (K>3) y una media estirada hacia la izquierda (S1). Por otro lado, se encuentra el resto de vocales, con valores de K y S cercanos a los típicos de las distribuciones gaussianas, cuestión corroborada, mediante la aplicación test de Kolmogorov-Smirnov, con p<0.05. Número de contextos con mejor tipificación como la distancia de Donovan es la que presenta el mejor comportamiento global y que los parámetros LPC, C3F y MFCC (con sus variantes) son los más representados. 7 Valor del estimador 6 5 Media Curtosis 4 Desviación Curtosis 3 Media Skewness Desviación Skewness 2 1 MFCC DE 200 MFCC E MFCC D 150 MFCC C3F 100 LSF LPC 50 FFT 0 Itakura 0 /@/ /a/ /e/+/E/ /i/ /o/+/O/ Euclídea Mahalanobis Donovan Distancia objetiva /u/ Contextos fonéticos vocálicos Figura 7: Número de contextos en los que una medida objetiva es de las que mejor tipificación presenta según coeficiente. Figura 6: Valor medio y desviación de la simetría y la kurtosis para las distribuciones de las medidas objetivas según fonema vocálico. 5 250 Si se analizan las combinaciones distanciacoeficiente en estudio, la que mejor tipificación presenta es la de Itakura-FFT, seguida muy de cerca por la de Donovan-C3F. Las medidas en las que se emplea información (media y varianza de los centroides) procedente del VQ (i.e. distancias Donovan y Mahalanobis) provocan una disminución de la eficiencia de los coeficientes LPC y MFCC D, obteniéndose mejores tipificaciones con la distancia Euclídea para estos coeficientes. Respecto a los coeficientes C3F y MFCC, el comportamiento en términos de tipificación es el inverso al anterior. De la figura 7 se puede concluir que el parámetro LSF no es un buen predictor de la discontinuidad. Finalmente, comentar que la inclusión del coeficiente energía junto a los MFCC tiende a mejorar el valor de tipificación. Comparativa de las medidas objetivas Por un lado, dado que las distribuciones dependen del tipo de coeficiente utilizado, además de aplicar el TLC, resulta necesario tipificar las distribuciones para permitir una comparativa fidedigna de sus desviaciones. Por otro lado, a partir de los resultados observados en términos de momentos de orden tercero y cuarto, resulta necesario definir un único parámetro para evaluar la homogeneidad de las distribuciones alrededor de la media. Cabe comentar que, en una distribución gaussiana, el 68% de los datos se encuentran en el margen definido por su media ± su desviación estándar, obteniendo un valor de tipificación de 1. Tomando este valor como referencia, las distribuciones leptocúrticas (más apuntadas que la gaussiana) tomarán un valor de tipificación <1, por el mayor número de muestras cercanas a la media. Por ejemplo, el fonema /i/ es el que presenta el mayor número de distribuciones leptocúrticas. Para trabajar con un número razonable de datos (se parte de 22 medidas distanciaparámetros 17 contextos 6 vocales), sólo se consideran las 5 mejores combinaciones distancia-parámetro en términos de su valor de tipificación (ordenadas de menor a mayor valor de tipificación) para cada uno de los contextos fonéticos en estudio. En la figura 7 se muestra el número de contextos para los que cada par distanciaparámetro presenta mejor tipificación en forma de histograma acumulado. Se puede observar 6 Pruebas subjetivas Una vez analizadas las medidas objetivas estadísticamente, se procede a estudiar su correlación con la percepción humana. El objetivo de los experimentos subjetivos es contrastar la hipótesis que las distancias con mejor comportamiento en términos de tipificación son capaces de predecir (y modelar) mejor las discontinuidades espectrales. 6.1 Diseño de las pruebas Siguiendo lo indicado en (Stylianou, 2001; Syrdal, 2005), el diseño del test perceptual parte de un listado de monosílabos tipo CVC procedentes de un Test de Rimas Modificado (MRT), en este caso adaptado al catalán (Alías, 71 Manuel Pablo Triviño, Francesc Alías 2007). Sin embargo, el diseño de un MRT se realiza de tal forma que abarque el mayor número de monosílabos del idioma, provocando la inclusión de palabras poco habituales en el caso de idiomas con bajo porcentaje de este tipo de palabras, como pasa en catalán (Alías, 2007). Sin embargo, resultó muy complejo encontrar estímulos CVC del MRT con más de 32 muestras en el corpus, umbral fijado para dotar de fiabilidad estadística a los resultados. Por ello, se decidió escoger para las pruebas los CVC con los contextos fonéticos y los fonemas vocálicos mejor representados (véanse las Figuras 2 y 3). Concretamente, los contextos fonéticos en estudio serán fricativos, nasales y oclusivos. Para la elección de los fonemas vocálicos se tuvieron en cuenta dos criterios: por un lado, el de representación en el corpus, y por otro, el hecho de que al analizar la kurtosis y la simetría se observan dos tendencias en las distribuciones de las medidas objetivas sobre uniones naturales: las que presentan /@/ e /i/, con mayor grado de leptocurtismo, y las del resto de fonemas vocálicos con un comportamiento más gaussiano. Por estas razones, los fonemas vocálicos escogidos fueron la /@/ y la /a/. Además, se introdujo el CVC /s@k/ en las pruebas por razones de limitación de corpus (aunque no esté presente en el MRT). Los estímulos empleados en las pruebas no fueron sintetizados mediante un CTH, sino que se generaron mediante la sustitución del difonema -VC de la estructura CVC por otros difonemas candidatos (emulando el proceso de selección de unidades), manteniendo fijo el difonema CV-. El hecho de no pasar por un proceso de síntesis estrictamente hablando, evita la interferencia del procesado de la señal en el proceso de valoración del comportamiento de las medidas objetivas en estudio. Los estímulos se presentaron en una frase portadora en la que se sustituía en 32 ocasiones el difonema -VC manteniendo fija la parte CV-: 6.2 Diseño del experimento En las pruebas subjetivas participaron 5 evaluadores (3 hombres y 2 mujeres). Como fase previa, se presentó a cada evaluador una serie de estímulos de entrenamiento para que pudiera familiarizarse con el proceso de evaluación, como en (Klabbers, 2001), indicándoles como distinguir la discontinuidad espectral de otros aspectos producidos al insertar el difonema -VC candidato. Las pruebas fueron realizadas usando una interfaz implementada en Matlab utilizando auriculares. La calificación de la naturalidad de los estímulos CVC sigue la escala MOS de 1 (peor) a 5 (mejor). Los informantes podían escuchar las uniones las veces que necesitaran, pero una vez puntuada la unión no podían volver a evaluarla. Asimismo, tenían la posibilidad de escuchar el estímulo CVC original, la frase portadora original, el CVC generado y la frase portadora que lo incluía. El proceso de pruebas tuvo una duración media de unos 30 minutos. 6.3 Resultados de las pruebas La evaluación de la capacidad de mapeo subjetivo de las medidas objetivas se obtiene a través de su correlación con la media de las puntuaciones MOS de los informantes. En una situación ideal, la mejor medida debería presentar una correlación =-1, ya que la unión natural (MOS=5) debería darse para una distancia mínima (tendiendo a 0). Tras la realización de las primeras pruebas, se obtuvieron valores significativos para el estímulo /tan/ (=-0.43 en el caso de Donovan MFCCC y Donovan MFCCE) mientras que los valores de para /s@k/ y /s@s/ fueron inferiores, con máximos de =-0.07 y =-0.14, respectivamente. Nótese que, aunque parezca un valor de correlación bajo matemáticamente hablando, el valor obtenido para /tan/ es cercano al obtenido en experimentos similares recientes (Klabbers, 2007). Aplicando t-student se obtienen valores de confianza del 98% sobre los valores de correlación obtenidos. Dado que los mejores resultados se obtuvieron para el último estímulo evaluado (/tan/), se decidió estudiar los 2 primeros estímulos de nuevo, partiendo de la hipótesis que a mayor experiencia (con 96 uniones evaluadas) en la realización de las pruebas se consiguen mejores valores de correlación. Tras esta segunda iteración el valor de correlación - Si algú es pensa que la comissió - /s@k/ (Si alguien se piensa que la comisión) - Economia i finances - /s@s/ (Economía y finanzas) - Mentrestant els nous habitants - /tan/ (Mientras los nuevos habitantes) donde el estímulo CVC a evaluar está marcado en negrita. 72 Predicción estadística de las discontinuidades espectrales del habla para síntesis concatenativa mejoró notablemente, con un valor máximo de =-0.35 para Mahalanobis-LSF (con fiabilidad del 95% según t-student) para el estímulo /s@k/. El comportamiento más uniforme se obtiene para los coeficientes MFCC y deltas con valores entorno al -0.3 (véase la Figura 8). Una vez comprobado que se obtienen valores de correlación perceptual significativos, se procede a evaluar la viabilidad de la metodología propuesta. Para ello se ordenan las distancias según la tipificación para cada contexto fonético dándole a la medida con mejor tipificación el valor de 22 (igual al número de distancias) y a la peor el valor de 1. 0,5 0,4 LPC 0,2 0,1 LSF 0,3 C3F 0,2 MFCC 0,1 0 MFCCE -0,1 MFCCD -0,2 Distancia Objetiva Correlación 0,3 MFCCDE Euclídea Mahalanobis Donovan Itakura FFT -0,3 -0,4 LPC LSF 0,0 C3F -0,1 MFCC -0,2 Euclídea Mahalanobis Donovan Itakura -0,3 MFCCD -0,4 MFCCDE -0,5 Distancias objetivas MFCCE FFT -0,6 Figura 8: Correlación perceptual para el estímulo /s@k/. -0,7 Correlación Figura 10: Medidas objetivas con valores de correlación más altos para el estímulo /tan/. Sin embargo, la correlación obtenida para el estímulo /s@s/ continua presentando valores bajos (véase la Figura 9). Esto puede ser debido a que, según los evaluadores, ésta fue la prueba más difícil de evaluar, al encontrarse el CVC a final de frase. El valor máximo de correlación obtenido es de =-0.31 para la medida Donovan-C3F, pero con patrón de correlación menos estable que en los otros dos estímulos. La correlación se calculará entre el valor de correlación obtenido en las pruebas preceptúales y el valor medio resultante de la ordenación por tipificación para los contextos prevocálicos, postvocálicos y el global de contextos para cada fonema vocálico. 0 Correlación entre el orden de tipificación y la correlación perceptual -0,1 0,3 -0,2 0,2 LSF Correlación 0,1 MFCC -0,1 MFCCE -0,2 Euclídea Mahalanobis Donovan Itakura /tan/ -0,5 -0,6 -0,7 MFCCD MFCCDE FFT -0,3 /s@s/ -0,4 C3F 0,0 /s@k/ -0,3 LPC Todos los contextos -0,8 Contextos Prevocálicos -0,9 Contextos Postvocálicos -1 Estímulo del test -0,4 Distancia objetiva Figura 9: Correlación perceptual para el estímulo /s@s/. Figura 11: Correlación entre el orden de tipificación y el valor de la correlación perceptual para los estímulos del test. Tras observar que los resultados mejoraban al incrementar la experiencia de los informantes, se decidió hacer también una segunda iteración para /tan/, en la que por cuestiones de disponibilidad sólo participaron 3 informantes. De nuevo, los resultados mejoraron notablemente hasta alcanzar una correlación de =-0.66 para MahalanobisMFCCE, con una fuerza estadística del 99.9%. Para el resto de parámetros MFCC y derivados se obtienen valores alrededor de -0.6 (véase la Figura 10). La Figura 11 muestra como para el estímulo /tan/, se obtiene una =-0,69, mientras que para los otros estímulos se obtiene una <-0,2, siguiendo de algún modo un patrón similar al observado en el estudio anterior. Asimismo, se puede observar como los contextos postvocálicos tienen menor correlación perceptual, resultado inverso al descrito en (Syrdal, 2001). A la hora de calcular las distancias de Mahalanobis y de Donovan para los estímulos del test sólo se consideró la información estadística del centroide respecto al difonema 73 Manuel Pablo Triviño, Francesc Alías CV, como esto puede provocar un sesgo hacia los contextos prevocálicos, se decidió recalcular estas distancias considerando la información del centroide del difonema VC. Este estudio se centró en el estímulo /tan/ por ser el más significativo. 10 0/ 0 90 /1 0 80 /2 0 70 /3 0 60 /4 0 50 /5 0 40 /5 0 30 /7 0 20 /8 0 10 /9 0 0/ 10 0 0 -0,1 Correlación -0,2 Bibliografía Alías F. y M. Triviño 2007. A phoneticallly balanced modified rhyme test for evaluating Catalan speech intelligibility. En Proc. de ICPhS, paper 1210. Donovan R. 2001. A new distance measure for costing spectral discontinuities in concatenative speech synthesis. En The 4th ISCA Tutorial and Research Workshop on Speech Synthesis. Todos Contextos Don y Mah Contextos Prevocálicos Don y Mah Hunt A. y A. Black 1996. Unit selection in a concatenative speech synthesis system using large speech database. En Proc. de ICASSP, pp. 373–376. Contextos Postvocálico s Don y Mah -0,3 -0,4 Todos los contextos -0,5 Contextos Prevocálicos -0,6 -0,7 Relación Postvocálica/Prevocálica Kirkpatrick, B., D. O’Brien y R. Scaife 2006. Feature extraction for spectral continuity measures in concatenative speech synthesis, En Proc. de Interspeech, paper 1385. Contextos Postvocálico s Figura 12: Variación de la correlación con distintos porcentajes de información prevocálica y postvocálica. Klabbers E., J. van Santen y A. Kain 2007. The contribution of various sources of spectral mismatch to audible discontinuities in a diphone database, En IEEE Transactions on Audio, Speech, and Language Processing, 15(3), pp. 949-956. La figura 12 confirma que a mayor información prevocálica se obtiene una mayor correlación respecto al orden de tipificación. No obstante, a nivel de correlación perceptual en algunos casos se consiguen valores mayores cuando se incluye mayor información postvocálica (p.ej. Mahalanobis MFCC DE para prevocálica obtiene una =-0.56 y para postvocálica =-0.69). 7 Klabbers E. y R. Veldhuis 2001. Reducing audible spectral discontinuities. En IEEE Transactions on Speech and Audio Processing, 9, pp. 39–51. Pantazis Y., Y. Stylianou, y E. Klabbers 2005. Discontinuity detection in concatenated speech synthesis based on nonlinear speech analysis, En Proc. de Eurospeech, pp. 2817 - 2820. Rafel, J. 1979. Dades sobre la freqüència de les unitats fonològiques en català, En Estudis Universitaris catalans XXIII, vol 2, 473-496. Conclusiones y líneas de futuro En el presente trabajo se ha propuesto una metodología para estimar la capacidad de predecir la presencia discontinuidades audibles de una serie de medidas objetivas. Esta metodología se basa en la hipótesis que las mejores medidas serán aquellas que presenten una distribución estadística más homogénea, i.e. media cero y mínima desviación estándar, una vez muestreada y tipificada. Esta hipótesis queda validada por los resultados del análisis de las distancias sobre uniones CVC naturales junto a la correlación de las mejores distancias con el test perceptual realizado sobre uniones CV-*, también analizado según el contexto pre y postvocálico. No obstante, resulta necesario seguir trabajando en más pruebas subjetivas para verificar los resultados obtenidos. Stylianou Y. y A. Syrdal 2001. Perceptual and objective detection of discontinuities in concatenative speech synthesis. En Proc. de ICASSP, vol 2, pp. 837-840. Syrdal A. K. 2001. Phonetic Effects on Listener Detection of Vowel Concatenation, En Proc. de Eurospeech, pp. 979-982. Syrdal A. K. y A Conkie 2005. Perceptually based data-driven join costs: Comparing join types, En Proc. de Eurospeech, pp. 2813–2816. Vepa J. y S. King 2006. Subjective evaluation of join cost and smoothing methods for unit selection speech synthesis. En IEEE Transactions on Speech and Audio Processing, 5 (14), pp. 1763- 1771. Wouters J. y M. Macon 1998. Perceptual evaluation of distance Measures for concatenative speech synthesis. En Proc. de ICSLP, pp. 2747–2750. Agradecimientos Los autores quieren agradecer al Dr.Antonio Bonafonte de la Universitat Politècnica de Catalunya la cesión del corpus de voz utilizado. 74 Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 75-82 recibido 01-02-08, aceptado 03-03-08 Identificación de emociones a partir de texto usando desambiguación semántica Emotion identification from text using semantic disambiguation David Garcı́a1 y Francesc Alı́as2 GPMM - Grup de Processament Multimodal 2 GTAM - Grup de Tecnologies Audiovisuals i Multimèdia Enginyeria i Arquitectura La Salle Universitat Ramon Llull Quatre Camins 2, 08022 Barcelona {dgarcia, falias}@salle.url.edu 1 Resumen: Este artı́culo presenta un sistema de identificación de emociones basado en texto con una arquitectura independiente del idioma. Éste usa distintas tareas de procesamiento del lenguaje natural además de un diccionario afectivo. Su principal novedad es la incorporación de un desambiguador semántico que permite considerar el significado de la palabra en la frase antes de categorizarla emocionalmente. Los experimentos muestran la mejora obtenida sobre un corpus de titulares en inglés. Palabras clave: Etiquetado de emociones en textos, análisis gramatical y semántico de textos, WordNet, desambiguación semántica Abstract: This paper presents a text-based emotion identification system based on text implemented by means of a language-independent architecture. The system includes several natural language processing tasks besides an affective keyword dictionary. The main novelty of the system is the incorporation of a semantic disambiguation module which focuses on the meaning of the word within the sentence before labelling it emotionally. The achived results show the this purpose. The conducted experiments show the achieved improvement on a corpus of English headlines. Keywords: Labelling of emotions in texts, grammatical and semantic analysis of texts, WordNet, word sense disambiguation 1. Introducción Hoy en dı́a, las tecnologı́as del habla son un elemento clave para conseguir interfaces hombre-máquina lo más naturales posible. En lo que se refiere a su etapa de salida, los Conversores de Texto en Habla (CTH) han alcanzado una buena inteligibilidad para sistemas de propósito general y una buena naturalidad para sistemas de dominio restringido. No obstante, todavı́a se continúa trabajando para lograr CTH expresivos, debido a la dificultad que supone, por un lado, generar el mensaje emocionado, y por otro, extraer la emoción del texto directamente. Para esto último, será de gran utilidad aplicar técnicas de Procesamiento del Lenguaje Natural (PLN) sobre los textos de entrada más allá del tı́pico análisis de los sistemas de CTH (normalización, transcripción y estimación prosódica) (Alı́as et al., 2008). Siguiendo con esta idea, en este trabajo se presenta un primer sistema que pretende extraer automáticamente la emoción intrı́nseca ISSN 1135-5948 del texto basándose en la aplicación de técnicas de PLN junto con un diccionario afectivo. El objetivo es que el sistema de CTH pueda generar el habla sintética con las caracterı́sticas expresivas adecuadas al contenido emocional del texto. En la sección 2 se presentan trabajos relacionados con el sistema propuesto, descrito en la sección 3. Seguidamente, en las secciones 4 y 5, se analiza su funcionamiento y se discuten los resultados obtenidos. Finalmente, en la sección 6 se exponen las conclusiones y las lı́neas de futuro. 2. Trabajos relacionados A continuación se presenta un breve resumen sobre la investigación en el ámbito de la identificación emocional de textos. Primero, se describen los modelos psicológicos emocionales que mejor se adaptan al mundo computacional. Seguidamente, se detallan las técnicas más utilizadas para la detección automática de emociones a partir de texto. © Sociedad Española para el Procesamiento del Lenguaje Natural 2.1. Modelo emocional David García, Francesc Alías 2.2.2. A continuación se revisan los modelos psicológico-computacionales más relevantes aplicables al ámbito de este trabajo. El modelo más intuitivo para representar emociones es el basado en categorı́as emocionales, como son: alegrı́a, tristeza, ira, etc. (Plutchik y Kellerman, 1980; Ekman, 1993). Un mejora de éste, es el modelo Circumplex (Schlosberg, 1952), que utiliza una circunferencia con dos ejes que representan sendas caracterı́sticas emocionales, dando lugar a diferentes versiones según cuales sean: i) valencia (positivo/negativo) y activación (excitado/tranquilo) (Russell, 1980); o ii) positividad y negatividad (Watson y Tellegen, 1985). Asimismo, existe un modelo similar al Circumplex llamado dimensiones emocionales (Schlosberg, 1954), que cuantifica las dimensiones de valencia, activación y control (dominado/dominante) mediante un vector de tres elementos. Finalmente, y en contraposición a los modelos anteriores, existe el modelo OCC (Ortony, Clore, y Collins, 1988), que presenta una jerarquı́a cognitiva de las emociones evitando el uso de categorı́as y dimensiones. 2.2. Basados en clasificación de textos Una de las técnicas utilizadas con mayor éxito dentro del ámbito de la clasificación temática de grandes colecciones de texto es la basada en Support Vector Machine (SVM) (Joachims, 1998). En (Leshed y Kaye, 2006) se presenta un clasificador emocional de blogs que utiliza SVM. En (Turney y Littman, 2003) se presenta un sistema de identificación de la polaridad del texto basado en Latent Semantic Analysis (LSA). Para saber la polaridad de cada palabra del texto, se calcula la diferencia entre su similitud con un conjunto de palabras positivas y otro de palabras negativas. El problema fundamental de ambas técnicas radica en el elevado volumen de datos (entrenamiento y test) necesario para asegurar su buen funcionamiento. En el ámbito de los CTH lo más usual es disponer de textos de entrada reducidos (i.e. una frase) (Alı́as et al., 2008). Asimismo, al trabajar con el texto como si fuera un único elemento, la información semántica que se puede obtener es poco precisa, no detectando, p.ej. la polisemia o la ironı́a (Liu, Lieberman, y Selker, 2003). Detección de emociones Este apartado resume las técnicas más usadas para la detección de emociones en textos en función del enfoque que siguen. 2.2.3. Basadas en diccionario afectivo Estas técnicas se basan en buscar las palabras afectivas que contiene el texto en un diccionario de vocablos afectivos construido previamente. Destaca Emotional Keyword Spotting (EKS), debido a su sencillez de implementación. La emoción global del texto se determina a partir de la media de los valores emocionales de cada una de las palabras clave detectadas. Un ejemplo de esta técnica se presenta en (Francisco, Hervás, y Gervás, 2005), donde se aplica a la lectura expresiva de cuentos. Una extensión de EKS es la denominada afinidad léxica, que exporta la emoción de las palabras clave a sus palabras cercanas (Liu, Lieberman, y Selker, 2003). Ambas son incapaces de detectar cambios de polaridad de la emoción debido a elementos del texto, p.ej. negaciones (Francisco y Gervás, 2006). 2.2.1. Basados en recuperación de información Una primera técnica es hacer un análisis PMI-IR (Pointwise-Mutual Information and Information Retrieval) basado en dos iteraciones (Read, 2004). Una primera, usada inicialmente por Turney (2002) y denominada SO-PMI-IR (Semantic Orientation using PMI-IR), que indica la polaridad del texto, es decir, si es positivo o negativo. Y una segunda, conocida como AO-PMI-IR (Affective Orientation using PMI-IR), que extrae la dimensión afectiva predominante del texto. Otro método es el etiquetado semántico + minerı́a web (Lu, Hong, y Cruz-Lara, 2005), que reduce el texto a dos adjetivos que representan al núcleo del sujeto y del predicado, gracias a un análisis morfosintáctico y semántico. A continuación se buscan los hiperónimos de ambos adjetivos con una tabla de conversión. Por último, usando un conjunto de reglas cuyo patrón es verbo-hiperónimos, se determina la emoción del texto. Estas técnicas han sido aplicadas en el ámbito de los CTH, especialmente EKS (Sugimoto et al., 2004; Hofer, Richmond, y Clark, 2005), debido principalmente a su bajo coste computacional, esencial para lograr sı́ntesis en tiempo real. 76 Identificación de emociones a partir de texto usando desambiguación semántica Figura 1: Diagrama de bloques del sistema En cuanto al modelo emocional, el sistema utiliza el basado en dimensiones emocionales debido: i) al uso de los diccionarios afectivos basados en este modelo —ANEW (Affective Norms for English Words) (Bradley y Lang, 1999) y ANSW (Affective Norms for Spanish Words) (Redondo et al., 2007)—; y ii) a su futura integración dentro de un CTH expresivo, donde trabajar con datos continuos permite generar voz sintética con mayor variedad emocional (Hofer, Richmond, y Clark, 2005; Schröder, 2004). A continuación, se describe cada uno de los módulos del sistema. 2.2.4. Otros Caso aparte es el trabajo de Liu, Lieberman, y Selker (2003), que extraen conceptos de una voluminosa base de conocimiento del sentido común. La ventaja que aporta este sistema es la capacidad de detectar emociones en frases donde a priori no hay una emoción definida explı́citamente. Se trata de una técnica compleja debido al tratamiento semántico que se debe hacer de los elementos de la base de conocimiento. Asimismo, Ovesdotter, Roth, y Sproat (2005) presentan un sistema complejo que incorpora técnicas de inteligencia artificial para predecir la emoción del texto en el ámbito de la lectura de cuentos. Éste utiliza, además de palabras afectivas, parámetros del texto como la temática, la longitud de las frases, etc. 3. 3.1. Analizador lexicográfico y PoS tagger El primer paso consiste en analizar el texto de entrada mediante un conjunto de expresiones regulares (tokens) que determinan la gramática del idioma de análisis. Como resultado, se obtiene la categorización gramatical básica de las palabras del texto, permitiendo filtrar aquellas sin significado afectivo potencial (stop words), como por ejemplo los artı́culos. Después, se procede a desambiguar las palabras restantes, que comparten la misma expresión regular, para determinar su función gramatical (sustantivos, adjetivos y verbos). Para ello se utiliza el PoS tagger proporcionado por la Universidad de Stanford (Toutanova y Manning, 2000) para el inglés, y Qtag2 para el español, debido a la implementación en Java de todo el sistema. Sistema propuesto El sistema que presentamos utiliza EKS y sigue una arquitectura base afı́n a la de Francisco, Hervás, y Gervás (2005), incorporándole un módulo de desambiguación semántica que permite extender dinámicamente el conjunto de palabras del texto a buscar en el diccionario afectivo (véase la figura 1). A partir de un texto de entrada, el sistema obtiene como salida el texto etiquetado emocionalmente mediante marcas XML. Hasta el momento, el sistema se ha diseñado para detectar las siguientes emociones: alegrı́a, sorpresa, tristeza, enfado y miedo, ası́ como el estado neutro (sin emoción). Asimismo, la arquitectura es independiente del idioma, presentando en este trabajo su aplicación para el inglés, junto a las primeras adaptaciones para el español (con menores prestaciones1 ). 3.2. Desambiguador semántico Cuando ya se tienen las palabras potencialmente emocionales, junto a sus correspondientes etiquetas gramaticales, se procede a 1 Esta menor prestación es debido a la imposibilidad de disponer de WordNet 2.0 en español. 2 77 www.english.bham.ac.uk/staff/omason/software/qtag.html David García, Francesc Alías desambiguar el significado de los sustantivos del texto. El objetivo es que el siguiente módulo (búsqueda de synsets) sólo busque los sinónimos, antónimos e hiperónimos del significado del sustantivo en el texto, reduciendo ası́ la probabilidad de falsa asignación (p.ej. se asigna a ratón los valores del diccionario correspondientes al significado de animal cuando en el texto se refiere a dispositivo electrónico). En este trabajo se utiliza una modificación del algoritmo maximum relatedness disambiguation propuesto por Pedersen, Banejee, y Patwardhan (2005), aplicándolo a todos los sustantivos del texto y con una ventana de desambiguación que abarca toda la frase. En cuanto a la medida de similitud semántica entre sustantivos, se utiliza la definida por Jiang y Conrath (1997), implementada en la librerı́a Java Similarity Library3 . 3.5. 3.3. Este módulo se encarga de buscar en el diccionario afectivo las palabras junto con sus sinónimos, antónimos e hiperónimos, una vez filtradas y lematizadas. Se trata de un proceso iterativo que finaliza cuando se encuentra un emparejamiento (coincidencia de raı́z y categorı́a gramatical), o el conjunto de datos queda vacı́o. En caso de darse un emparejamiento, se le asigna a la palabra del texto los valores de valencia, activación y control indicados en el diccionario. En el caso de que el emparejamiento sea con el antónimo, se le asigna los valores complementarios. Si no hay éxito en la búsqueda, se le asigna el valor -1. Con este proceso se etiquetarán emocionalmente las palabras afectivas del texto. Éste es el elemento clave de cualquier identificador de emociones basado en EKS. En este trabajo se utiliza ANEW para el inglés y su adaptación ANSW para el español. Ambos contienen 1034 palabras puntuadas en las tres dimensiones (valencia, activación y control) y normalizadas en este trabajo entre 0 y 10. En el diccionario, las palabras, además de estar etiquetas emocionalmente, también tienen asignada la etiqueta gramatical para la cual fueron evaluadas (p.ej. la palabra kiss sólo aparece como nombre). Este campo será muy útil para distinguir casos como por ejemplo afectar y afecto, que al eliminar la flexión (se quedan en afect) crearı́an ambigüedad. 3.6. Búsqueda de synsets Este módulo se encarga de extraer los sinónimos, antónimos e hiperónimo más directo de los adjetivos, verbos y sustantivos (con el significado indicado por el módulo anterior). De este modo, se amplı́a el espacio en la búsqueda de palabras. Ası́, aunque una palabra no esté en el diccionario afectivo, se puede buscar si lo está su sinónimo, antónimo o hiperónimo. Para encontrar este conjunto semántico se utiliza WordNet 2.04 . Al no disponer de WordNet para el español, sólo se usarán el desambiguador semántico y la búsqueda de synsets para el inglés. 3.4. Diccionario afectivo Flexionador Seguidamente se elimina la flexión de las palabras potencialmente afectivas y de sus sinónimos, antónimos e hiperónimo. Al trabajar con la raı́z de la palabra se consigue tener una mejor cobertura del idioma. De este modo, no se necesitará tener perro y perros en el diccionario, sino que perr será la representación única para ambos vocablos. Esto resulta fundamental para los idiomas fuertemente flexionadores como el español. En consecuencia, el flexionador se aplicará tanto a la hora de construir el corpus como en el momento previo a la búsqueda de palabras. En este trabajo se usa el flexionador de Porter (1980) para el inglés, y el que ofrece el paquete Snowball5 para el español. 3.7. Búsqueda de palabras Análisis a nivel de frase Los valores de valencia, activación y control de cada frase se obtienen del promedio de los valores de las palabras emocionadas que forman la frase. Asimismo, se asigna a cada frase una etiqueta emocional en función de los valores promedio obtenidos. Estas etiquetas son: alegrı́a, sorpresa, tristeza, enfado, miedo y estado neutro. Los valores asignados a estas etiquetas han sido establecidos siguiendo (Albrecht et al., 2005), situando como valores centroide de cada etiqueta los correspondientes a las palabras más comunes de cada emoción, y ajustándolos mediante la realización de pequeñas pruebas (véase el cuadro 1). El sistema debe tomar en consideración ciertos fenómenos lingüı́sticos que pueden modificar la emoción de la frase, como los modificadores emocionales y las negaciones. 3 eden.dei.uc.pt/˜nseco/javasimlib.tar.gz wordnet.princeton.edu 5 snowball.tartarus.org 4 78 Categorı́a Sorpresa Alegrı́a Tristeza Enfado Miedo Neutro Identificación de emociones a partir de texto usando desambiguación semántica Val. Activ. Control [0,100]) a cada una de las categorı́as conside≥8.5 ≥6.35 ≥6.5 radas: enfado, disgusto, miedo, alegrı́a, triste≥6.445 ≥5.86 ≥5 za y sorpresa (Strapparava y Mihalcea, 2007). ≤3 ≤4.575 >1.5 y ≤3.75 Para poder disponer de unos datos afines con ≤3.25 ≥6.25 >3.5 y ≤4.5 los de la salida del sistema propuesto, resulta ≤3 <7.5 ≤3.75 necesario reetiquetar manualmente las frases Resto o -1 Resto o -1 Resto o -1 del corpus con la categorı́a emocional más representativa. Mencionar que se asigna al titular la etiqueta enfado si la emoción que destaca es disgusto, al ser ésta la emoción más afı́n de las consideradas por nuestro sistema. El objetivo de este experimento es demostrar la mejora sucesiva del sistema a medida que se incorporan nuevos módulos. Para ello, se estudia la eficiencia de cuatro configuraciones distintas de nuestro sistema: Cuadro 1: Relación entre dimensiones y categorı́as emocionales del sistema propuesto. En este trabajo, para el primero de ellos, sólo se toma en consideración la presencia de adverbios de cantidad detectados mediante el analizador lexicográfico. Resaltar que se consideran seis intensidades distintas (tres positivas y tres negativas). Según la intensidad asociada, se le asigna un valor fijado experimentalmente (±0.25, ±0.40 ó ±0.66) que incrementará/decrementará la valencia de la palabra emocional más cercana en el sentido adecuado. Para saber más sobre modificadores de valencia, se recomienda consultar (Polanyi y Zaenen, 2004). Por su parte, el efecto causado por las negaciones se trata con un proceso que asigna a los emotional keywords valores complementarios cuando se encuentran después de un adverbio de negación. Para ello, se ha considerado, de un modo relajado, que la presencia de una negación no tiene porqué negar todas las palabras que la siguen. Ası́ pues, el sistema niega todo lo que sigue a la negación hasta encontrar una conjunción adversativa (p.ej. sino, pero, etc.), manteniendo los valores que las siguientes palabras tienen en el diccionario afectivo. En (Francisco y Gervás, 2006) se presenta otro método más completo basado en el análisis de dependencias sintácticas. 3.8. Simple: sin WordNet ni desambiguación semántica. Sólo se hará una búsqueda de las raı́ces de las palabras potencialmente emotivas dentro del diccionario afectivo. WN-Hiperónimos: incorpora la ontologı́a WordNet para incluir los hiperónimos en la búsqueda dentro del diccionario afectivo. Esta configuración intenta emular el sistema descrito en (Francisco, Hervás, y Gervás, 2005), pero sin la presencia de un diccionario adicional construido por los autores. WN-Full: es idéntica a la configuración anterior, pero añadiendo en la búsqueda los sinónimos y antónimos. WN-Sem: incorpora el módulo de desambiguación semántica de sustantivos al WN-Full. De este modo, se buscará en el diccionario únicamente los sinónimos, antónimos e hiperónimos que sólo hacen referencia al significado del sustantivo dentro del texto de entrada. Análisis a nivel de párrafo Tras tener todas las frases categorizadas emocionalmente, se analiza el texto a nivel de párrafo asignándole la media, por separado, de las tres dimensiones de todas las frases que forman dicha estructura lingüı́stica. Asimismo, se le asigna una etiqueta emocional. El análisis más exhaustivo de esta estructura queda abierto para trabajos futuros. 4. En la figura 2 se presenta la tasa de acierto de clasificación de las distintas configuraciones del sistema. De la gráfica, se puede observar una mejora absoluta de un 2 % entre el sistema Simple y el WN-Sem, con una tasa de acierto global significativamente superior a la de un clasificador aleatorio (16,67 % dadas las 6 categorı́as). Asimismo, se puede ver una tendencia creciente (con pequeñas mejoras sucesivas) a medida que se incorporan nuevas prestaciones al sistema. Una vez constatada esta tendencia global, se estudia el comportamiento de las cuatro configuraciones para cada una de las emociones de manera individual (véase la figura 3). Se puede Análisis del sistema En el estudio que se presenta a continuación se utiliza un corpus formado por 250 titulares de diarios en inglés, cuya emoción ha sido etiquetada manualmente estableciendo su grado de pertenencia (dentro del rango 79 David García, Francesc Alías Eti/Clas Sorp. Ale. Tris. Enf. Sorp. Ale. Mie. Neu. 0% 30 % 0% 5% 0% 65 % 0% 25.37 % 0% 0% 2.98 % 71.64 % Tris. 0% 8.19 % 0% Enf. 0% 8% 0% Mie. 0% 4% 8% 0% 28 % 60 % Neu. 0% 9.61 % 0% 1.92 % 3.84 % 84.61 % 4.91 % 22.95 % 63.93 % 4% 12 % 76 % Cuadro 2: Matriz de confusión del sistema para la configuración WN-Sem. te análisis se concluye que, en ocasiones, las distintas versiones del sistema identifican la emoción de la frase correctamente pero por diferentes motivos. Éste es el caso de la frase “This man is glad” (Este hombre está alegre), categorizada por las cuatro configuraciones como alegre. Las versiones WN-Sem y WN-Full tienen en cuenta tanto la palabra man como glad (ya que encuentran su sinónimo happy en ANEW), mientras que las otras dos sólo utilizan man. Las dos últimas configuraciones aciertan debido a que man por sı́ solo ya está categorizada como alegrı́a como consecuencia de los umbrales establecidos, cuestión totalmente subjetiva y discutible. Ası́ pues, si en esta frase se cambiara man por otro vocablo que no estuviera directamente en ANEW, la clasificación falları́a para Simple, mientras que WN-Hiperónimos falları́a si no estuviera el hiperónimo de la nueva palabra. La diferencia principal entre WN-Sem y WN-Full está en que el primero identifica la emoción del texto siendo consecuente con su semántica, puesto que utiliza el sinónimo más adecuado para sustituir la palabra en función del contexto. Esto hace que WN-Sem sea más rico semántica y cualitativamente, aunque a veces WN-Full acierta igual que WN-Sem debido a los umbrales del sinónimo elegido (puede ser el mismo que en WN-Sem). Para justificar por qué la tasa de acierto global, aunque significativamente superior a un sistema aleatorio, sobrepasa escasamente el 27 %, se debe decir que existen muchos titulares cuya semántica es imposible de extraer por cualquiera de los cuatro sistemas. Esto sucede, sobre todo, en los titulares en los que aparecen eventos concretos o personajes conocidos. Ası́, la frase “Bush insists troops stay in Iraq, predicts midterm victory” (Bush insiste en que las tropas permanezcan en Iraq, predice una victoria a medio plazo) es identificada por el sistema como po- Figura 2: Tasa de acierto global de las diferentes configuraciones del sistema propuesto. apreciar cómo la configuración WN-Sem presenta, como mı́nimo, la misma tasa de acierto que Simple. Destaca también la falta de acierto por parte de todas las configuraciones sobre las emociones sorpresa y tristeza (a excepción de un acierto de una frase triste por parte de WN-Hiperónimos, siendo la tristeza la única emoción en la que gana a WN-Sem). En el cuadro 2 se presenta la matriz de confusión de la mejor configuración del sistema: WN-Sem. Figura 3: Porcentaje de acierto de las cuatro configuraciones para cada emoción. 5. Discusión De los resultados obtenidos, se ha observado la mejora paulatina del sistema a medida que se incorporan nuevos módulos. No obstante, las reducidas mejoras porcentuales de la tasa de acierto llevan a analizar cualitativamente el funcionamiento de las distintas configuraciones del sistema mediante titulares concretos o ejemplos propios. De es80 Identificación de emociones a partir de texto usando desambiguación semántica sitiva (debido a la idea de victoria), cuando las personas, conocedoras de una mayor información semántica, la podemos interpretar negativamente (como oposición a dicha decisión polı́tica). Ası́ pues, tanto la subjetividad como el volumen de conocimiento semántico de las personas, son factores clave que afectan a los resultados. Por último, en el cuadro 2 se puede ver al detalle qué sucede con la falta de acierto para sorpresa y tristeza. En el primer caso, ésta es confundida con alegrı́a y neutro. Este hecho parece lógico, puesto que existen dos tipos de sorpresa: positiva y negativa. Para el caso positivo, que es el que se considera en este trabajo, una sorpresa puede ser perfectamente entendida como una alegrı́a, lo cual no es un error demasiado crı́tico y más, si en nuestro caso, la futura salida será una voz emocionada. Suponemos que el 65 % asignado a neutro serı́a mucho menor si el sistema clasificara mejor la emoción tristeza, puesto que este porcentaje se repartirı́a entre ambas categorı́as. Por tanto, el caso más crı́tico es la tristeza, puesto que el hecho de que un 63.93 % de las frases se clasifiquen como neutras nos indica que hay que mejorar la clasificación de oraciones tristes. Destacar también que si se hicieran dos grandes grupos entre las categorı́as consideradas (sin contar neutro), podrı́amos obtener positivas (sorpresa y alegrı́a) y negativas (el resto). Es decir, el grupo negativas estarı́a compuesto por tres emociones las cuales son muy cercanas entre sı́ a nivel de valores de las dimensiones (véase el cuadro 1), pero muy dispares en cuanto a semántica; mientras que en el primer grupo, aunque también cercanas en dimensiones, se pueden entender como una sola emoción tal y como se ha comentado anteriormente. 6. del análisis de los resultados obtenidos por categorı́as emocionales se puede observar la necesidad de continuar trabajando para mejorar las prestaciones del sistema. Además de esto, se desea disponer del sistema completo para el español, al no tener la misma profundidad de análisis que en inglés. También se quiere incorporar un análisis de dependencia sintáctica que reconozca los elementos afectados por un cuantificador o un negador. Asimismo se desea un mejor análisis de estructuras lingüı́sticas, como: condicionales, adversativas, párrafos, etc. También se quiere, para ambos idiomas, reemplazar el actual módulo flexionador por un lematizador, mejorando ası́ el acierto de búsqueda dentro del diccionario afectivo. A su vez se pretende trabajar con distintos diccionarios afectivos (p.ej. WordNet Affect, etc.) Por otra parte, para comparar mejor el sistema con otros existentes, se desea crear un corpus de test multilingüe (inicialmente en inglés y español) para poder evaluar los sistemas de igual manera. Este corpus también permitirá evaluar el comportamiento del sistema para textos en español. Finalmente, respecto a su incorporación en un sistema CTH, se pretende encontrar las primeras relaciones entre parámetros de texto y de voz. 7. Agradecimientos Los autores desean agradecer a J. Redondo la cesión del corpus ANSW. Bibliografı́a Alı́as, F., X. Sevillano, J.C. Socoró, y X. Gonzalvo. 2008. Towards high quality nextgeneration Text-to-Speech synthesis: a Multidomain approach by Automatic Domain Classification. IEEE Transactions on Audio, Speech and Language Processing. (aceptado). Albrecht, I., M. Schröder, J. Haber, y H. Seidel. 2005. Mixed feelings: expression of non-basic emotions in a muscle-based talking head. Virtual Real, 8(4):201–212. Bradley, M. y P. Lang. 1999. Affective Norms for English Words (ANEW): Stimuli, Instruction Manual and Affective Ratings. Informe Técnico C-1, Gainesville, FL, The Center for Research in Psychophysiology, Universidad de Florida. Ekman, P. 1993. Facial expression of emotion. American Psychologist, 48:384–392. Francisco, V. y P. Gervás. 2006. Análisis de dependencias para la marcación de cuentos con emociones. Procesamiento de Lenguaje Natural, (37):1135–5948, Septiembre. Conclusiones y trabajo futuro En este trabajo se presenta un primer paso para la implementación de un sistema de detección automática de emociones a partir de un texto cualquiera. A diferencia de otros trabajos similares, el presente artı́culo presenta un sistema capaz de detectar emociones para el inglés y el español, considerando la sinonimia, antonimia e hiperonimia en función del significado de las palabras (desambiguación) dentro del texto. Aunque la incorporación de sucesivos módulos de procesamiento del lenguaje natural ha permitido una mejora sucesiva de la tasa de acierto global del sistema, 81 David García, Francesc Alías Redondo, J., I. Fraga, I. Padrón, y M. Comesaña. 2007. The Spanish adaptation of ANEW (Affective Norms for English Words). Behavior Research Methods, 39(3):600–605, Agosto. Francisco, V., R. Hervás, y P. Gervás. 2005. Expresión de emociones en la sı́ntesis de voz en contextos narrativos. Simposio de Computación Ubicua e Inteligencia Ambiental, Septiembre. Russell, J. 1980. A circumplex model of affect. Journal of personality and social psychology, 39(6):1161–1178. Hofer, G., K. Richmond, y R. Clark. 2005. Informed blending of databases for emotional speech synthesis. En Proc. Interspeech. Schlosberg, H. 1952. The Description of Facial Expressions in Terms of Two Dimensions. Journal of Experimental Psychology, 44:229– 237. Jiang, J. y D. Conrath. 1997. Semantic Similarity Based on Corpus Statistics and Lexical Taxonomy. páginas 19–33. Schlosberg, H. 1954. Three dimensions of emotion. Psychol. Rev., 61(2):81–88. Joachims, T. 1998. Text categorization with support vector machines: learning with many relevant features. En Claire Nédellec y Céline Rouveirol, editores, Proceedings of ECML98, numero 1398, páginas 137–142, Chemnitz, DE. Springer Verlag, Heidelberg, DE. Schröder, M. 2004. Dimensional emotion representation as a basis for speech synthesis with non-extreme emotions. En Proc. Workshop on Affective Dialogue Systems, páginas 209–220, Kloster Irsee, Germany. Springer Verlag. Leshed, G. y J. Kaye. 2006. Understanding how bloggers feel: recognizing affect in blog posts. En Gary M. Olson y Robin Jeffries, editores, CHI Extended Abstracts, páginas 1019–1024. ACM. Strapparava, C. y R. Mihalcea. 2007. SemEval2007 Task 14: Affective Text. Proceedings of the 4th International Workshop on the Semantic Evaluations (SemEval), Junio. Liu, H., H. Lieberman, y T. Selker. 2003. A model of textual affect sensing using real-world knowledge. En IUI ’03: Proceedings of the 8th international conference on Intelligent user interfaces, páginas 125–132, New York, NY, USA. ACM. Sugimoto, F., K. Yazu, M. Murakami, y M. Yoneyama. 2004. Method to Classify Emotional Expressions of Text and Synthesize Speech. Proceedings of the IEEE-EURASIP International Symposium on Control, Communications, and Signal Processing, páginas 611–614. Lu, C., J. Hong, y S. Cruz-Lara. 2005. Emotion detection in textual information by semantic role labeling and web mining techniques. National ChiNan University and Universities of Nancy. Toutanova, Kristina y Christopher D. Manning. 2000. Enriching the knowledge sources used in a maximum entropy part-of-speech tagger. En Proceedings of the 2000 Joint SIGDAT conference on Empirical methods in NLP and very large corpora, páginas 63–70, Morristown, NJ, USA. Association for Computational Linguistics. Ortony, A., G. Clore, y A. Collins. 1988. The cognitive structure of emotions. Cambridge University Press. Turney, P. 2002. Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews. páginas 417–424. Ovesdotter, C., D. Roth, y R. Sproat. 2005. Emotions from text: machine learning for textbased emotion prediction. En Proceedings of HLT/EMNLP, páginas 579–586, Vancouver, Canadá. Turney, P. y M. Littman. 2003. Measuring praise and criticism: Inference of semantic orientation from association. ACM Trans. Inf. Syst., 21(4):315–346. Pedersen, T., S. Banejee, y S. Patwardhan. 2005. Maximizing semantic relatedness to perform word sense disambiguation. Marzo. Watson, J. y A. Tellegen. 1985. Toward a consensual structure of mood. Psychological bulletin, 98:219–235. Plutchik, R. y H. Kellerman. 1980. A general psychoevolutionary theory of emotion. Emotion: Theory, research, and experience, 1:3–33. Polanyi, L. y A. Zaenen. 2004. Contextual valence shifters. En Exploring Attitude and Affect in Text: Theories and Applications. AAAI Spring Symposium Series. Porter, M.F. 1980. An algorithm for suffix stripping. Program, 14(3):130–137, Julio. Read, J. 2004. Recognising affect in text using pointwise-mutual information. Univesity of Sussex. 82 Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 83-90 recibido 01-02-08, aceptado 03-03-08 InTiMe Plataforma de Integración de Recursos de PLN InTiMe Integration Platform of NLP Resources José Manuel Gómez Departamento de Lenguajes y Sistemas Informáticos Universidad de Alicante Carretera Sant Vicent del Raspeig s/n 03690 Sant Vicent del Raspeig (Alicante) [email protected] Resumen: La plataforma InTiMe (INtegration of Tools and corpora In the textMEss project) es un ambicioso proyecto del Departamento de Lenguajes y Sistemas Informáticos de la Universidad de Alicante. Nace con la idea de integrar, en una misma plataforma, gran parte de los recursos utilizados actualmente en Procesamiento del Lenguaje Natural (PLN). De esta forma, cualquier investigador incluido en la plataforma tendrá acceso inmediato, independientemente del sistema operativo que use o de su ubicación, a todas las herramientas y corpus integrados en el sistema. También será capaz de dar a conocer, si ası́ lo desea, a toda la comunidad cientı́fica los nuevos recursos desarrollados en sus investigaciones. Evitando ası́ que los investigadores tengan que desarrollar herramientas ya existentes, ahorrando tiempo y recursos y centrando los esfuerzos en actividades más novedosas. Como veremos en el presente artı́culo, InTiMe agilizará la compartición del conocimiento y el uso de los recursos generados en PLN aumentando la productividad sin tener que cambiar la metodologı́a de trabajo. Palabras clave: Herramientas PLN, Integración recursos, InTiMe, PLN Abstract: The InTiMe platform (INtegration of Tools and corpora In the text-MEss project) is an ambitious project of the Department of Languages and Computer Systems at the University of Alicante. Born with the idea of integrating, in a single platform, almost of the resources currently used in Natural Language Procesing (NLP). Thus, any researcher included in the platform will have immediately access, regardless of the operating system he use or his location, all the tools and corpora integrated in the system. It will also be able to disclose, if he so wish, to the entire scientific community developed new resources in his investigations. Avoiding so that researchers need to develop tools that already exist, saving time and resources and focusing efforts on newer activities. As we will see in this article, InTiMe expedite the sharing of knowledge and the use of resources generated in PLN increasing productivity without changing the methodology of work. Keywords: NLP tools, resource integration, InTiMe, NLP 1. Introducción La investigación se basa, principalmente, en la idea de compartir conocimientos, herramientas y corpus que permitan a los investigadores aunar sus esfuerzos para lograr metas mayores. En áreas de investigación como el Procesamiento del Lenguaje Natural (PLN) esto adquiere una mayor importancia pues las soluciones a los problemas que se plantean hoy en dı́a se basan en la combinación ISSN 1135-5948 de diversos recursos. Por lo tanto, un investigador debe ser capaz de conocer los recursos disponibles, saber utilizarlos correctamente y, a su vez, dar a conocer su propio trabajo. Es muy común que cada recurso lo desarrolle diferentes personas que tienen intereses muy concretos y es inusual que piensen en una futura integración de su trabajo con el resto de recursos (Graça, Mamede, y Pereira, 2006). Es más, cuando se intenta integrar © Sociedad Española para el Procesamiento del Lenguaje Natural José Manuel Gómez blema de estos formatos es que no permiten la separación de la información en capas teniendo que cargar, en cada proceso, todas las anotaciones previas. También podemos encontrar el sistema EMU (Cassidy y Harrington, 2001) que está enfocado, especı́ficamente, en tratamiento del habla. Existen otros proyectos de integración que intentan abarcar tanto la especificación de los corpus y datos como de las herramientas en una única plataforma. El ejemplo más destacado lo podemos encontrar en el proyecto GATE (Cunningham, Wilks, y Gaizauskas, 1996; Bontcheva et al., 2004), que permite añadir módulos en Java de forma muy sencilla y rápida aunque requiere de más trabajo en caso de otros lenguajes de programación. GATE, además, define un formato de datos basado en la arquitectura TIPSER (Grishman, 1996) y en el Annotation Graphs Toolkit. Un sistema muy similar al GATE es el UIMA (Ferrucci y Lally, 2004), que está basado en el proyecto TEXTRACT (Neff, Byrd, y Boguraev, 2004) de IBM. Pero, al igual que GATE, exige un cambio en la metodologı́a de los grupos de investigación que pretendan usar la plataforma UIMA. Otros trabajos menos conocidos son los realizados por (Graça, Mamede, y Pereira, 2006) con una propuesta cliente/servidor que unifica las herramientas de PLN utilizando repositorios etiquetados con información multicapa que elimina la necesidad de cargar toda la información en cada proceso; y el trabajo de (Monteagudo y Cueto, 2005), otra herramienta cliente/servidor que, a través de un middleware, unifica las herramientas y establece su propio formato de datos para comunicar los distintos procesos. Aunque hay bastantes herramientas, protocolos y formatos que te permiten integrar herramientas y recursos, todos fallan en algún aspecto. Algunos de ellos son muy especı́ficos y únicamente abarcan un conjunto de recursos de un área concreta del PLN (Badia et al., 2002; Petersen, 2004; Bird y Loper, 2004; Taylor, Black, y Caley, 1998). Otros no permiten muchos tipos de datos, por ejemplo, se centran en datos de texto o de habla únicamente (Maeda et al., 2001; Bird y Liberman, 2001; Bird et al., 2000; Cassidy y Harrington, 2001). También están los que obligan a trabajar en algún lenguaje informático concreto, un sistema operativo, plataforma, o que obligan a cambiar la metodologı́a de trabajo todos los recursos y herramientas es cuando surgen los problemas de cómo se van a comunicar las aplicaciones entre si y cómo van a procesar los distintos corpus. El problema crece cuando en un grupo de investigación existe personal investigador temporal y no se ha planteado ninguna polı́tica de integración de estos recursos. Esta situación se resume en que los grupos de investigación disponen de gran cantidad de herramientas, aplicaciones y corpus (tanto propios como ajenos), en diferentes lenguajes de programación y sistemas operativos, con formatos de salida y entrada particulares, de localización muchas veces difı́cil puesto que dependen de la persona o personas que los han generado, y de reutilización compleja ya que requiere un esfuerzo adicional para integrarlos en otros desarrollos (Monteagudo y Cueto, 2005). Para resolver estos problemas, muchos grupos de investigación han decidido, a lo largo de su vida, aplicar alguna metodologı́a de integración de recursos de PLN que diera a conocer a sus propios miembros los recursos disponibles. Algunos de estos proyectos de integración son parciales pues sólo tienen en cuenta algún aspecto concreto: o bien se centran en un tipo de recurso o en un dominio especı́fico. Entre estos proyectos se pueden destacar el BancTrad (Badia et al., 2002), que proponen un formato estándar para la integración de corpus etiquetados paralelos junto con herramientas para acceder a él; el Emdros text database system (Petersen, 2004), el cual es un motor de base de datos para el análisis y la recuperación del texto analizado o anotado; el Natural Language Toolkit (Bird y Loper, 2004) que es un conjunto de bibliotecas y programas para el procesamiento simbólico y estadı́stico del lenguaje natural; y el Festival speech synthesis system (Taylor, Black, y Caley, 1998), el cual es un framework para construir sistemas de sı́ntesis del habla. También están los proyectos que únicamente definen protocolos o formatos para la comunicación entre distintos procesos de PLN, como el Annotation Graphs Toolkit (Maeda et al., 2001) que es una implementación del formalismo de Grafos Anotados de (Bird y Liberman, 2001), y el más influyente trabajo en éste área: la arquitectura Atlas (Bird et al., 2000), que generaliza el trabajo de (Bird y Liberman, 2001) para permitir el uso de señales multidimensionales. El pro- 84 InTiMe: Plataforma de Integración de Recursos de PLN cutarla como si dicha herramienta estuviera ejecutándose localmente. Al ser distribuida, un investigador puede subir un recurso a cualquier servidor y que éste sea conocido por el resto de usuarios. Además, gracias a las caracterı́sticas del cliente InTiMe, se puede ejecutar una herramienta usando InTiMe exactamente igual a cómo se utilizarı́a la herramienta original, con las mismas entradas y salidas, y los mismos parámetros y ficheros de configuración. Esto permite que el investigador pueda seguir trabajando sin modificar un ápice su metodologı́a de trabajo. El proyecto InTiMe ha sido desarrollado integramente en JAVA. Ésto permite que InTiMe pueda funcionar en cualquier sistema operativo con soporte para JAVA y que se pueda integrar las herramientas compiladas para dichas plataformas. Por ejemplo, podremos tener acceso a herramientas especı́ficas de Microsoft Windows, GNU Linux o Mac OS siempre y cuando dispusiéramos un servidor InTiMe en cada una de esos sistemas operativos con sus respectivas herramientas. ajustándose a un API, protocolo o formato (Bontcheva et al., 2004; Bird y Loper, 2004; Monteagudo y Cueto, 2005; Grishman, 1996; Graça, Mamede, y Pereira, 2006). Ninguno tiene en cuenta los proyectos de terceros o, simplemente, es muy complicado la integración de éstos, como es el caso de GATE y UIMA. Esto lleva a eliminar de la integración la gran mayorı́a de herramientas y recursos desarrollados actualmente que no se ajustan a la metodologı́a escogida. Es decir, olvidan la naturaleza heterogénea de las herramientas de PLN. Esto conlleva a un aumento de trabajo de los investigadores cuando quieren adaptar dichas herramientas. Pero, en definitiva, la principal razón por la que ninguno de estos proyectos de integración no se han implantando y generalizado entre la comunidad cientı́fica es que requiere, para su adopción, un esfuerzo extra por parte de los investigadores para adaptarse a nuevas metodologı́a, protocolos, lenguajes, etc. En este trabajo presentamos una plataforma de integración que respecta la metodologı́as de trabajo de los investigadores pero que, a su vez, permite integrar cualquier tipo de herramienta o corpus, independientemente del lenguaje de programación, sistema operativo o formatos de entrada y salida. La única condición que debe cumplir el recurso integrado es que no requiera una interfaz gráfica para su funcionamiento. Además, permite añadirle una capa más para aplicar cualquier protocolo o metodologı́a de integración vistos anteriormente. También podremos integrar los recursos ya desarrollados o de terceros ası́ como conocer la existencia y el funcionamiento de los recursos que ya estén integrados en el sistema desde cualquier parte del mundo y utilizando una única aplicación cliente. Por último, destacar que el uso de esta plataforma por parte de los investigadores sólo requerirá un esfuerzo muy pequeño o nulo. 2. 2.1. Arquitectura del sistema La arquitectura de la plataforma InTiMe puede variar y adaptarse a las necesidades del grupo de investigación, permitiendo que uno o varios clientes puedan acceder simultáneamente a uno o varios servidores de la plataforma. La arquitectura que se presenta en la figura 1 es tan sólo un ejemplo de una de ellas. Descripción de la plataforma InTiMe InTiMe es una plataforma que permite conocer, acceder, usar y compartir herramientas y corpus. Tiene una arquitectura cliente/servidor y distribuida realizada con servicios web que permite, por una parte, integrar en los servidores cualquier recurso y, por otra, tener acceso a las herramientas que trabajan con esos corpus remotamente y eje- Figura 1: Arquitectura general de la plataforma InTiMe 85 2.2. Los servidores InTiMe José Manuel Gómez petición a un servidor que conozca. Éste reenviará la petición al servidor correcto, el cual ejecutará la aplicación y devolverá los resultados de nuevo al cliente. Además, el cliente actualizará su información con la dirección del nuevo servidor para futuras peticiones. En el caso de que el cliente del ejemplo quiera utilizar las herramientas Weka 3 o Freeling 4 , ambos en servidores InTiMe de una red local, él únicamente tendrá que pedirlo a un servidor conocido (en el ejemplo es el servidor 1), este servidor sabrá que dichas herramientas las tiene el servidor 2 y le lanzará la petición a dicho servidor. Aunque éste servidor no contiene esos recursos, sabe que se encuentran en dos servidores locales de los cuales él tiene acceso. De esta forma, la petición del cliente se redirigirá al servidor local que contiene la herramienta y el resultado de la ejecución se le devolverá al usuario. Después, la aplicación cliente, se actualizará añadiendo al servidor 2 como la fuente de las herramientas Weka y Freeling puesto que él no tiene acceso directo a los servidores locales 1 y 2. Un servidor InTiMe puede integrar tantos recursos como se quiera o sea capaz de contener. Además, un mismo recurso puede estar en varios servidores para, en caso necesario, repartir la carga de trabajo. Es más, esta plataforma permite construir aplicaciones más potentes a partir de otras y que cada parte de esas aplicaciones se encuentren en un mismo servidor o en distintos, permitiendo que se ejecuten de forma local o remota, serializada o distribuida o, en definitiva, en cualquier combinación de éstas. Cada servidor InTiMe almacenará un subconjunto de las herramientas y los corpus que se pretendan integrar en la plataforma pero, al mismo tiempo, conocerá qué recursos hay instalados en los otros servidores. Esto permitirá al cliente conectarse a cualquiera de estos servidores y acceder a todos los recursos. Por lo tanto, cuando se sube un recurso a un servidor, la información sobre dicho recurso, ası́ como el servidor en que se encuentra, es esparcida entre el resto de servidores de la red. Lo mismo ocurre cuando un servidor es dado de alta. Un servidor InTiMe, a su vez, puede contener redes locales de servidores que contengan parte de los recursos que éste oferte, actuando de manera muy similar a un proxy. En la figura 2 se puede apreciar un ejemplo de esta arquitectura. 2.3. Cada usuario tendrá a su disposición un cliente InTiMe que le permitirá listar, consultar, buscar y ejecutar las herramientas de cualquier servidor conectado a la red ası́ como consultar en qué servidores están disponibles los corpus. La función del cliente InTiMe será recoger la entrada, analizar los parámetros de la aplicación, subir esta información más todos aquellos archivos que requiera la herramienta, obtener los resultados de las salidas estándar y de error de la aplicación y descargar todos aquellos archivos que se hayan generado por la ejecución de la herramienta en el servidor. El cliente, finalmente, presentará por la Figura 2: Servidor InTiMe funcionando como proxy En este ejemplo hemos instalado cuatro servidores que tienen diversas herramientas. Dos de estos servidores están en una red local sin acceso directo a Internet, pero están subyugados al servidor 2. Con esta arquitectura, si el cliente quiere ejecutar el clasificador SVM-Light 1 únicamente debe pedir al servidor 1 que lo ejecute. Sin embargo, si lo que quiere ejecutar es el sistema de recuperación de pasajes JIRS 2 y no conoce en qué servidor se encuentra instalado, el cliente realizará la 1 2 Los clientes InTiMe 3 http://svmlight.joachims.org/ http://jirs.dsic.upv.es/ 4 86 http://www.cs.walkato.ac.nz/ml/weka/ http://www.lsi.upc.es/ /nlp/freeling/ InTiMe: Plataforma de Integración de Recursos de PLN tuviéramos que utilizar una herramienta que cuando se utiliza un corpus en español tiene una serie de argumentos y cuando se utiliza con un corpus en inglés otros, con InTiMe podrı́amos definir un argumento llamado, por ejemplo, lang que nos permitiera encapsular el resto de parametros. Ası́, si quisiéramos lanzar dicha herramienta con el corpus en español podrı́amos escribir: intime tool -lang es Ahorrándonos tener que escribir o conocer el resto de parámetros. Esto permite a un investigador simplificar el uso de las herramientas que use, definiendo los argumentos que mejor resultados den, para futuros usos o para el resto de la comunidad cientı́fica. Pero la plataforma InTiMe no sólo permite ejecutar herramientas, sino que, además, nos permite conocer qué recursos ya han sido instalados en la red de servidores InTiMe. De esta forma, podemos listar o buscar todos los recursos mediante el siguiente comando: Figura 3: El cliente InTiMe salida estándar y de error lo que devolvió la herramienta en ambas salidas cuando se ejecutó en el servidor. También descargará los archivos de resultados que se hayan podido generar durante la ejecución. Para cada herramienta integrada en la plataforma se puede definir qué argumentos tiene, cuáles de ellos serán archivos que deberán subirse al servidor y cuáles de ellos serán archivos a descargar como resultado de la ejecución de la herramienta. Por ejemplo, imaginemos que queremos utilizar el sistema JIRS (Gómez et al., 2005) de recuperación de pasajes. Para realizar una búsqueda con este sistema y que nos devuelva una lista de pasajes relacionados tendrı́amos que lanzar siguiente comando: intime list [-cat cathegory_name] [-show all|cat|services] [-search key_words] Los recursos integrados en la plataforma están clasificados por categorı́as. Ası́ podemos listar los recursos categorizados o sin categorizar, visualizar sólo las categorı́as o los recursos de una categorı́a dada, o buscar cualquier recurso a partir de unas palabras claves. Pero no sólo podemos listar los recursos sino que podemos obtener ayuda de uso para cada herramienta o corpus con el siguiente comando: jirs SearchPassages -language spanish -collection clefqa Con el cliente InTiMe tendrı́amos que escribir: únicamente intime help tool_name [-language lang] [-format format] intime jirs SearchPassages -language spanish -collection clefqa Esto nos devolverı́a la ayuda de una herramienta dada, preferiblemente en el lenguaje y formato elegidos. Como vemos, lanzar el buscador de pasajes de JIRS con la plataforma InTiMe supondrı́a una diferencia mı́nima, es decir, el investigador utilizarı́a JIRS prácticamente igual que si la tuviera instalada en su máquina, con los mismos argumentos y las mismas entrada y salidas. La plataforma InTiMe permite, además, simplificar los argumentos de una aplicación definiendo argumentos con valores por defecto o argumentos condicionados, es decir, argumentos cuyo valor dependerá de los valores de otros argumentos. De esta forma, si 3. Metodologı́a de trabajo con la plataforma InTiMe Nuestra metodologı́a de trabajo no pretende modificar la forma de trabajar de los grupos de investigación a la hora de integrar las herramientas y, por ello, no hemos especificado ningún formato para el intercambio de datos. Ası́, si un usuario utiliza el analizador morfosintáctico del freeling o el clasificador SVM-Light a través de InTiMe, el 87 José Manuel Gómez buscar o pedir información sobre alguna herramienta o recurso incluido en el sistema. También nos permite integrar aplicaciones y herramientas que sólo funcionan en un sistema operativo concreto y crear aplicaciones a partir de otras aplicaciones o herramientas, concatenando procesos de forma serie, paralela, cliente/servidor, distribuida o de cualquier combinación de éstos. A medida que InTiMe crezca en número de recursos, se convertirá, cada vez más, en una herramienta muy útil para los investigadores, permitiendo conocer instantáneamente qué herramientas están disponibles entre la comunidad cientı́fica y usarlas inmediatamente. Con esto ahorraremos tiempo y recursos, sabiendo exactamente qué recursos tenemos disponibles en todo momento evitando esfuerzo innecesario y centrando la labor del investigador en desarrollar recursos novedosos. Dando, ası́, una ventaja competitiva con respecto a otros grupos que no la usen. Además, aporta un plataforma de integración que los grupos de investigación pueden adoptar, incluso si ya disponen de alguna metodologı́a. usuario deberá dar al cliente InTiMe las entradas, parámetros y ficheros de configuración que necesitan esos recursos y, a cambio, recibirá exactamente la misma salida que recibirı́a si los ejecutara de forma local. Pero no creemos que ésto sea una limitación por dos razones: (i) el usuario siempre puede adaptar las herramientas para que trabajen con algún protocolo de integración existente y seguir trabajando con InTiMe; y (ii) permite a los usuarios adaptar las entradas y salidas a sus necesidades y compartir estas adaptaciones al resto de la comunidad cientı́fica. 4. Conclusiones En este trabajo hemos presentado una plataforma de integración para cualquier tipo de aplicación, herramienta o corpus con la única condición de que no requiera un entorno gráfico. Esto incluye a prácticamente la totalidad de las herramientas utilizadas actualmente en el PLN. Es más, permite integrar recursos tanto nuevos, como ya existentes o de terceros sin mucho esfuerzo. InTiMe tiene la ventaja, con respecto a otras plataformas de integración, de que no modifica la metodologı́a de trabajo de los cientı́ficos adaptándose perfectamente a cualquiera de ellas. Esto hace de InTiMe una herramienta idónea para la compartición de conocimientos y recursos entre miembros de un mismo grupo de investigación o, en general, entre toda comunidad cientı́fica. En estos momentos se está implantando paulatinamente en el marco del proyecto Text-Mess en el cual participan 5 universidades españolas. Debido a la heterogeneidad del proyecto y de los intereses de los participantes, nos hemos visto en la necesidad de evitar cualquier intento de implantación de un estándar para la comunicación de datos, limitándonos a la compartición de los recursos sin establecer ningún cambio en la metodologı́a de cada grupo. Además, por experiencias anteriores, hemos podido comprobar que estos complejos proyectos de integración se suelen abandonar en poco tiempo quedándose en un cúmulo de buenas intenciones. Ası́, la plataforma InTiMe permite que todos los grupos aprovechen del trabajo del resto pero, a su vez, no exige ningún esfuerzo extra por parte de sus investigadores aportando innumerables ventajas como, por ejemplo, el acceso y uso inmediato de cualquier herramientas incluida en la plataforma. Permite listar, 5. Trabajos futuros Aunque la herramienta está operativa en estos momentos y está siendo utilizada en varios proyectos propios, queda mucho trabajo por realizar. Uno de las tareas pendientes más importantes es evaluar el grado de satisfacción de los usuarios. Tampoco hemos desarrollado completamente el analizador de argumentos para que el cliente se adapte a los argumentos de las herramientas integradas, pero sı́ que permitimos que se puedan pasar dichos argumentos a la aplicación aunque sea cambiando la sintaxis original. Tampoco hemos terminado el proceso de sincronización entre servidores InTiMe y estamos trabajando en un administrador web que permita instalar y configurar el servidor de forma sencilla. Uno de los trabajos futuros más interesantes es la creación de un banco de pruebas que permita probar todas las aplicaciones y herramientas integradas en la plataforma a través de un portal web. Esto nos permitirá tener inmediatamente una demostración de nuestras herramientas cara a posibles inversores. Y esto lo realizará de forma automática en el momento en que se incluya dicho recurso en un servidor InTiMe. También pensamos incluir en la platafor88 InTiMe: Plataforma de Integración de Recursos de PLN Bird, Steven y Mark Liberman. 2001. A formal framework for linguistic annotation. Speech Communication, 33:23–60. ma una comprobación automática y rutinaria de las herramientas para comprobar su correcto funcionamiento, evitando ası́ que, debido a actualizaciones del sistema operativo o cambios en la propia herramienta, éstas queden inoperativas durante largos periodos de tiempo sin que nadie se percate de ello. La plataforma, automáticamente, enviará un correo electrónico a los responsables del recurso cuando detecte algún fallo en alguna de sus herramientas. Esta comprobación también se realizará a nivel de servidores InTiMe. Ası́, cada servidor InTiMe podrá ser controlado por otros servidores InTiMe para que, periódicamente, se revisen mutuamente. Por último, y no menos importante, la plataforma InTiMe gestionará, mediante cifrado de claves públicas y privadas, el acceso a los recursos por parte de los usuarios, permitiendo, de esta manera, que los recursos de un mismo servidor puedan ser accedidos por ciertos grupos de usuarios únicamente. Con este mecanismo podremos reservar recursos que tengan restricciones de copyright a usuarios con licencias válidas o con aquellas instituciones en las que hayamos concertado un acuerdo o convenio para el uso de nuestras herramientas. Bird, Steven y Edward Loper. 2004. Nltk: The natural language toolkit. En Proceedings 42nd Meeting of the Association for Computational Linguistics, páginas 214–217, Barcelona, Spain. Association for Computational Linguistics. Bontcheva, Kalina, Valentin Tablan, Diana Maynard, y Hamish Cunningham. 2004. Evolving gate to meet new challenges in language engineering. Natural Language Engineering, 10(3/4):349–373. Cassidy, Steve y Jonathan Harrington. 2001. Multi-level annotation in the emu speech database management system. Speech Communication, 33:61–77. Cunningham, Hamish, Yorick Wilks, y Robert J. Gaizauskas. 1996. Gate: a general architecture for text engineering. En Proceedings of the 16th conference on Computational linguistics, páginas 1057– 1060, Morristown, NJ, USA. Association for Computational Linguistics. Ferrucci, David y Adam Lally. 2004. Uima: an architectural approach to unstructured information processing in the corporate research environment. Natural Language Engineering, 10(3-4):327–348. Agradecimientos Este trabajo ha sido parcialmente financiado por el proyecto QALL-ME (FP6-IST033860), el cual es el 6th Framenwork Research Programme de la Comunidad Europea, y el proyecto TEXT-MESS (TIN-200615265-C06-01) del gobierno español. Gómez, José Manuel, Manuel Montes y Gómez, Emilio Sanchis, y Paolo Rosso. 2005. A passage retrieval system for multilingual question answering. En Text, Speech and Dialogue: 8th International Conference, TSD 2005, volumen 3658 de Lecture Notes in Computer Science, páginas 443–450, Karlovy Vary, Czech Republic. Springer Berlin / Heidelberg. Bibliografı́a Badia, Toni, Gemma Boleda, Jenny Brumme, Carme Colominas, Mireia Garmendia, y Martı́ Quixal. 2002. Banctrad: un banco de corpus anotados con interfaz web. Procesamiento del Lenguaje Natural, 29:293– 294. Graça, João, Nuno J. Mamede, y João D. Pereira. 2006. Nlp tools integration using a multi-layered repository. En Proceedings of the Merging and Layering Linguistic Information Workshop, páginas 24–32, Genoa, Italy. Bird, Steven, David Day, John Garofolo, John Henderson, Christophe Laprun, y Mark Liberman. 2000. Atlas: A flexible and extensible architecture for linguistic annotation. En Proceedings of the Second International Conference on Language Resources and Evaluation, páginas 1699–1706, Paris, France. European Language Resources Association. Grishman, Ralph. 1996. Tipster text phase ii architecture design. En Proceedings of a workshop on held at Vienna, Virginia, páginas 249–305, Morristown, NJ, USA. Association for Computational Linguistics. 89 José Manuel Gómez Maeda, Kazuaki, Steven Bird, Xiaoyi Ma, y Haejoong Lee. 2001. The annotation graph toolkit: Software components for building linguistic annotation tools. En Proceedings of the First International Conference on Human Language Technology Research, Human Language Technology Conference, páginas 1–6, San Diego, USA. Association for Computational Linguistics. Monteagudo, Lorenza Moreno y Armando Suárez Cueto. 2005. Una propuesta de infraestructura para el procesamiento del lenguaje natural. Procesamiento del Lenguaje Natural, 35:303–310. Neff, Mary S., Roy J. Byrd, y Branimir K. Boguraev. 2004. The talent system: Textract architecture and data model. Natural Language Engineering, 10(3-4):307– 326. Petersen, Ulrik. 2004. Emdros: a text database engine for analyzed or annotated text. En COLING ’04: Proceedings of the 20th international conference on Computational Linguistics, International Conference On Computational Linguistics, páginas 1190–1193, Geneva, Switzerland. Association for Computational Linguistics. Taylor, Paul A., Alan W. Black, y Richard J. Caley. 1998. The architecture of the the festival speech synthesis system. En Proceedings Third ESCA/COCOSDA Workshop on Speech Synthesis, páginas 147–152, Sydney, Australia. International Speech Communication Association. 90 Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 91-98 recibido 01-02-08, aceptado 03-03-08 Non-Parametric Document Clustering by Ensemble Methods Clustering No Paramétrico de Documentos mediante Métodos de Consenso Edgar Gonzàlez TALP Research Center c/Jordi Girona, 1-3 08034 Barcelona [email protected] Jordi Turmo TALP Research Center c/Jordi Girona, 1-3 08034 Barcelona [email protected] Resumen: Los sesgos de los algoritmos individuales para clustering no paramétrico de documentos pueden conducir a soluciones no óptimas. Los métodos de consenso podrı́an compensar esta limitación, pero no han sido probados sobre colecciones de documentos. Este artı́culo presenta una comparación de estrategias para clustering no paramétrico de documentos por consenso. Palabras clave: Combinación de clusterings, Clustering de documentos, Clustering no paramétrico Abstract: The biases of individual algorithms for non-parametric document clustering can lead to non-optimal solutions. Ensemble clustering methods may overcome this limitation, but have not been applied to document collections. This paper presents a comparison of strategies for non-parametric document ensemble clustering. Keywords: Clustering combination, Document clustering, Non-parametric clustering 1 Introduction As the availability of large amounts of textual information is unlimited in practice, supervised processes for mining these data can become highly expensive for human experts. For this reason, unsupervised methods are a central topic of research on tasks related to text mining. One of these tasks is document clustering. Most of the work in this area deals with parametric approaches (Zhao and Karypis, 2004), in which the number of clusters has to be provided a priori. On the contrary, non-parametric document clustering can be defined as the process of grouping similar documents without requiring a priori either the number of document categories or a careful initialization of the process from a human user. Some approaches to this task consist in repeatedly applying an iterative clustering algorithm (e.g., k-Means) to obtain a set of clusterings with a different number of clusters and starting conditions each one, and then selecting the best clustering using some model criterion (Milligan and Cooper, 1985). Some others estimate the number of clusters a priori considering mathematical properties of the input documents, and then apply an iterative clustering algorithm (Li, Ma, and OgiISSN 1135-5948 hara, 2004). Other approaches are based on the use of a hierarchical clustering algorithm (e.g., Hierarchical Agglomerative Clustering (HAC)) and a criterion function to select the best number of clusters in the dendrogram (Tibshirani, Walther, and Hastie, 2001). Recently, hybrid methods have been experimented, using the output generated from one clustering algorithm to initialize another one (Surdeanu, Turmo, and Ageno, 2005). However, each proposed algorithm has an intrinsic and particular bias, uses a certain document representation, and depends on a different document similarity measure. All these assumptions lead the clustering process to a particular solution that may not be the optimal document clustering. In order to overcome this limitation, ensemble methods can be used. From a general point of view, given multiple clusterings, these methods aim at finding a combined clustering with better quality (Topchy, Jain, and Punch, 2005). Most work in ensemble document clustering has focused on parametric approaches (Strehl and Ghosh, 2002; Sevillano et al., 2006; Greene and Cunningham, 2006). However, non-parametric ensemble approaches for generic clustering have appeared recently, such as (Gionis, Mannila, and Tsaparas, © Sociedad Española para el Procesamiento del Lenguaje Natural Edgar Gonzàlez Pellicer, Jordi Turmo Borràs 2005). We believe that two questions remain hence unanswered in the state of the art with respect to the use of ensemble methods for document clustering: representation of the data. It is usual to refer to the case when the original data are not accessed as cluster ensemble (Strehl and Ghosh, 2002). This setting allows combination of clusterings obtained using different document representations. We stick to it in this paper, as it is a more general framework than the former and, in addition, it is widely used by the machine learning research community (Strehl and Ghosh, 2002; Topchy, Jain, and Punch, 2005). For our experiments, we have focused on the non-parametric ensemble clustering approach of (Gionis, Mannila, and Tsaparas, 2005), which includes methods for the determination of the number of clusters. Among the methods proposed in the paper, we have chosen the Agglomerative algorithm, enhanced with LocalSearch. This combination was found in preliminary experiments to outperform the rest of the proposed approaches on the evaluation data collections1 . • How well do ensemble methods perform for non-parametric document clustering? Non-parametric methods have not been tested thoroughly on document collections so far. • How well do different individual clustering strategies perform in the context of non-parametric ensemble document clustering? The influence of the strategy used to find individual clusterings to be later combined has often been overlooked. Different strategies need to be compared. This paper deals with both questions. It evaluates non-parametric clustering algorithms on document collections; and it presents an empirical comparison of the effectiveness of two different strategies for the generation of clustering ensembles: one relying on massive randomization of a single algorithm, and another relying on few but heterogeneous different algorithms. The rest of the paper is organized as follows: Section 2 settles the problem of non-parametric document ensemble clustering. Sections 3 and 4 describe the two considered generation strategies for the clustering ensembles. Section 5 then gives an overview of the experiments performed and their results. Last, Section 6 draws conclusions of our work. 2 3 Major Ensemble Strategy There has been recent interest in research on ensemble clusterings from repeated runs of randomly initialized algorithms (Topchy, Jain, and Punch, 2005). In these works, the results obtained were competitive to other proposed approaches for a variety of classical clustering problems in machine learning. For this reason, as a first strategy we have considered repeatedly applying a single individual clustering method a high number of times, with different starting conditions selected at random. The main properties of this strategy are the following: • The resulting clusterings share the same data representation. Non-Parametric Document Ensemble Clustering • The algorithm is unique, hence, the implicit bias introduced by the clustering process is always the same. Having D = {d1 . . . dn } a set of documents, a clustering, Π, of this set is a partition of D into a set, {π1 . . . πk }, of k disjoint clusters, πi . The clustering, Π, can also be viewed as a function mapping documents, dl , onto labels {1 . . . k} corresponding to clusters {π1 . . . πk }, where Π(dl ) = i ↔ dl ∈ πi . Bearing this in mind, the aim of clustering combination is to find a clustering, Π̄, which is the consensus of r clusterings, {Π1 . . . Πr }, by means of a consensus function Γ. Two settings are classically considered for this problem, according to whether the consensus function accesses or not the original • The size of the ensemble can be high. The procedure is detailed in Algorithm 1. First, a number of clusters k from 2 to kmax is selected at random. Then, k documents are selected at random from the collection, and are given as starting centroids to a clustering algorithm, ϕ. This process is repeated a number of times r, and the r resulting clusterings 1 Further details about these algorithms can be found on the original paper. 92 Non-Parametric Document Clustering by Ensemble Methods Algorithm 1 Major ensemble strategy Parameter: Parameter: Parameter: Parameter: rithm 1: 2: 3: 4: 5: 6: deanu, Turmo, and Ageno, 2005), which has been shown to give good performance for unsupervised document clustering of different real-world collections. D a document collection r a natural number kmax a natural number ϕ a supervised clustering algo- • A new version of the previous hybrid method, based on information theory, which we have devised specially for this purpose. for j = 1 . . . r do Select a number of clusters at random kj ∈ {2 . . . kmax } Select kj documents at random as starting centroids Apply ϕ to D to obtain clustering Πj end for Return ensemble {Π1 . . . Πr } A description of each one of them follows. 4.1 In order to generate a dendrogram, the Agglomerative Information Bottleneck algorithm (aIB) is used. (Slonim, 2003) applies the algorithm to a variety of standard supervised clustering problems. Particularly, aIB showed good performance for the task of supervised document clustering. After the dendrogram is built, the Calinski and Harabasz C score (Calinski and Harabasz, 1974) is used to determine the level of the dendrogram at which the best clustering occurs. This score has been compared to other similar criteria to determine the number of clusters in a collection, and shown to be the most efficient one (Milligan and Cooper, 1985). Its value is the normalized ratio of the inter-cluster distances (between documents of different clusters) against intracluster distances (within documents of the same cluster). The level at which this value is highest is selected as the best estimation of the number of clusters. We will refer to this method as Hi. are combined using the ensemble clustering function. The parametric clustering algorithm, ϕ, is a parameter of the method. For our experiments, we have used the EM-based clustering algorithm of (Nigam et al., 2000). This algorithm has obtained competitive results for text classification, and has already been used for document clustering (Surdeanu, Turmo, and Ageno, 2005). Other parameters that need to be chosen are the number of individual clusterings, r, and the maximum number of clusters, kmax . For the considered document collections, the best results among the set of explored parameter values were obtained with r = 50 and kmax = 10. We will refer to this method as Major. 4 Hierarchical Method Minor Ensemble Strategy 4.2 Whereas the Major combination strategy we have described in the previous section is based on the repetition of a randomly initialized single clustering algorithm, the second strategy we have considered, Minor, is based on the use of a small number of heterogeneous, unsupervised and deterministic clustering algorithms. As in this case there is no randomization, it is crucial to the method that the biases provided by the algorithms be substantially different from each other. For this reason we have selected the following unsupervised clustering methods: Geometric Hybrid Method The method presented in (Surdeanu, Turmo, and Ageno, 2005) tries to find a good initial clustering for an iterative refinement algorithm. Iterative refinement algorithms are known to be efficient and give good performance, but nevertheless are sensitive to the choice of the initial model, and require the number of clusters to be provided. In particular, a good estimation of the number of clusters is mandatory for a good initial model, even if this model does not cover all documents in the collection. An outline of the procedure follows: • A classical method, consisting of a hierarchical algorithm and a clustering criterion function. 1. A hierarchical algorithm is used to find a dendrogram. • A hierarchical-iterative hybrid method. Specifically, the hybrid method of (Sur- 2. The inner nodes in the dendrogram are scored according to different heuristics, 93 Edgar Gonzàlez Pellicer, Jordi Turmo Borràs based in minimizing the distances within documents covered by the node, and maximizing distances to the rest of the documents2 . • The distance metric is Jensen-Shannon divergence. There are other measures coming from information theory that could be useful to define a document distance, such as Kullback-Leibler divergence or mutual information. However, on the contrary of Jensen-Shannon divergence, they are not symmetric or require absolute continuity. 3. The nodes the best scored according to the heuristics are chosen as clusters for an initial clustering candidate. A different candidate is built for each heuristic. 4. These candidates are scored using a global quality function, and the best scored candidate is selected. • The hierarchical algorithm used is aIB. • The global quality function used is a specially devised Message Length Criterion, described below in Section 4.3.1. 5. This candidate is used as initial model for an iterative refinement algorithm, to produce a final clustering solution. • The iterative refinement algorithm applied is Divisive Information Theoretical Clustering (DITC) (Dhillon and Guan, 2003). This algorithm includes devices to deal with sparseness and high dimensionality of data, and was shown to give good performance on document collections. In its original implementation, the method is specified using a geometric point of view: • Documents are represented as tf ·idf vectors of words. • The distance metric is cosine distance. • The hierarchical algorithm used is HAC with group average distance as distance between clusters, which was pointed as the most suitable distance in HAC context by published evaluations of the algorithm (Zhao and Karypis, 2004). We will refer to this method as IT. 4.3.1 Message Length Criterion Classical information theoretical selection criteria, such as Minimum Description Length or Minimum Message Length, require a probability distribution, which cannot be directly derived from the dendrogram. However, we have devised a criterion to select the best clustering in the same spirit, based in coding, messages and lengths. The idea is to use the information in a clustering Π to send a collection of documents D as a message. We first send the send the centroid of each cluster using a code based on the meta-centroid of the collection (a first message of length LC (Π)), and then send the distribution of words in each document using a code based of the centroid of the cluster to which it belongs (a second message of length LD (Π)). Using formulae from Information Theory, the total length of this message, L(Π), is roughly: • The global quality function is Calinski and Harabasz C score. • The iterative refinement algorithm applied is the EM-based algorithm of (Nigam et al., 2000). We will refer to this method as Geo. 4.3 Information Theoretical Hybrid Method Even if geometric clustering methods remain the state of the art, there has been a recent interest in applying information theoretical measures to the task of document clustering (Dhillon and Guan, 2003; Slonim, 2003). Following this general direction of research, and to find a view of the data different from that of Geo, we have made a new version of the aforementioned hybrid method using information theoretical concepts: L(Π) ≈ LC (Π) + LD (Π) LC (Π) ≈ − X p(w|ci ) · log p(w|mc) πi ∈Π w • Documents are represented as conditional probability distributions of words. LD (Π) ≈ − X πi ∈Π dl ∈πi w 2 For simplicity, the details about these heuristics have been elided in this paper. 94 p(w|dl ) · log p(w|ci ) Non-Parametric Document Clustering by Ensemble Methods Collection APW EFE LAT REU SMT SWB where w are words, ci are the cluster centroids and mc is the meta-centroid. We expect better clusterings (i.e. more suited to the data) to allow better compression of the data and hence, shorter messages. Therefore, we select the clustering Π which has the lowest L(Π), expecting it to be the best. This formula was the one to give the best results in preliminary experiments, compared to a version of the C score using JensenShannon divergence. Moreover, this formula was appealing to us because it includes an implicit measure of the goodness of the number of clusters (more clusters imply largest LC (Π) but smallest LD (Π), and vice versa). 5 Cats 11 6 8 10 4 22 Terms 27366 10334 31960 6734 11950 11565 Table 1: Evaluation data sets SWB A subset of the Switchboard conversational speech corpus, which contains the 22 topics which were treated in more than fifty conversations. Each side of the conversation was considered a separate document. Experiments Following other research work (Zhao and Karypis, 2004; Surdeanu, Turmo, and Ageno, 2005), the documents were pre-processed by discarding stop words and numbers, converting all words to lower case, and removing terms occurring in a single document. Table 1 lists relevant collection characteristics after pre-processing (number of documents, categories and terms). In order to evaluate and compare the performance of the two proposed ensemble strategies, Major and Minor, we have carried out a series of experiments. The following sections explain the experimental framework, and present their results. 5.1 Docs 5000 1979 5000 2545 5467 2682 Evaluation Data Six different real-world English document collections have been used in our experiments: 5.2 Evaluation Metrics The quality of the clustering solutions is measured using the metrics of purity, inverse purity and F1 . These metrics have been widely used to evaluate the performance of document clustering algorithms (Zhao and Karypis, 2004), and are based in comparing the clustering to a partition which is considered true. If we have a partition of the documents in D into a set of disjoint categories considered true, these metrics can be defined as: APW The Associated Press (year 1999) subset of the AQUAINT collection. Due to memory limitations in our test machines, the collection was reduced to the first 5000 documents. EFE A collection of news-wire documents from year 2000 provided by the EFE news agency. LAT The Los Angeles Times subset of the TREC-5 collection. For the same reason as in APW, again only the first 5000 documents were selected. Pur Purity evaluates the degree to which each cluster contains documents from a single category. The purity of a cluster is the fraction of the documents in the cluster that belong to its majoritarian category. The overall purity is the average of all cluster purities, weighted by cluster size. REU A subset of the Reuters-21578 text categorization collection, which includes only the ten most frequent categories. Similarly to previous work, we use the ModApte split (Nigam et al., 2000; Surdeanu, Turmo, and Ageno, 2005), but, since our algorithms are unsupervised, we use the test partition directly. IPur Inverse purity evaluates the degree to which the documents in a category are grouped in a single cluster. The inverse purity of a category is the fraction of the documents in the category that are assigned to its majoritarian cluster. The SMT A collection previously developed and used for the evaluation of the SMART information retrieval system. 95 Edgar Gonzàlez Pellicer, Jordi Turmo Borràs overall inverse purity is the average of all category inverse purities, weighted by category size. APW EFE LAT REU SMT SWB F1 F1 is a global performance score, and is calculated as the harmonic mean of purity and inverse purity. 5.3 Geo 0.75 0.61 0.67 0.88 0.85 0.79 Hi 0.74 0.61 0.67 0.79 0.82 0.26 IT 0.63 0.58 0.67 0.76 0.71 0.53 Major 0.75 0.62 0.75 0.88 0.93 0.44 Minor 0.72 0.60 0.67 0.88 0.91 0.66 Experimental Setup Each collection was clustered using each of the proposed methods. For the Geo, Hi, IT and Minor methods, a single run was performed, as these methods are deterministic. For the Major method, we performed five runs and the results presented are the average of all the runs. As mentioned in Section 3, the results are those obtained with r = 50 and kmax = 10, which were the parameter values to provide the best F1 scores in average across all collections. Table 2: F1 values for all methods and collections 5.4 Table 3: Purity values for all methods and collections APW EFE LAT REU SMT SWB Results Tables 2, 3 and 4 show the results obtained by each method in each collection. For each collection, the best results are highlighted. In addition, Table 5 shows the number of clusters k estimated by each method in each collection. We include two numbers for each method, the total number of clusters (All), and the number of relevant clusters (Rel). The reason for this is that we have found that the Agglomerative algorithm tends to find a high number of clusters, but many of them are small, possibly corresponding to outliers among the data. Given that these small clusters are not relevant to the evaluation (and their detection as outliers is, in fact, an advantageous byproduct of the method), to obtain a more useful measure we have filtered those clusters smaller than a fourth of the average category size in the collection. The remaining ones are considered relevant, and their number is the figure appearing in the table. The number of categories (Cats) in each collection is also included in the table. Following sections discuss the obtained results. Geo 0.78 0.73 0.78 0.84 0.92 0.69 Hi 0.63 0.60 0.66 0.73 0.71 0.15 IT 0.72 0.64 0.75 0.77 0.89 0.38 Major 0.80 0.75 0.73 0.86 0.93 0.29 Minor 0.74 0.70 0.79 0.85 0.93 0.53 it is always comparable to that of the rest of the methods. The performance of Minor and Geo is quite similar in terms of purity, but Minor suffers from lower inverse purity, so overall its F1 is also lower. The Hi method usually gives solutions with a high inverse purity but a low purity, so in many cases the global F1 scores are lower than other approaches. Lastly, the results of IT do not stand out in any aspect, and its utility outside the Minor combination seems limited, at least at the light of these results. Nevertheless, we have applied a Friedman test, followed by pairwise Nemenyi tests, to account for statistical significance of these differences (Demsar, 2006). We only found that Hi is worse than Major, Minor and Geo in terms of purity; and that IT is worse than Major in terms of F1 . No other significant differences were found. This is relevant, because it means there is no empirical evidence supporting the rejection of any of the Geo, Major or Minor methods as less suitable to the task than the others, in terms of purity, inverse purity or F1 score. 5.4.1 Overall Comparison It can be seen how the Major approach outperforms the rest of the approaches in almost all collections in terms of F1 , and is also the best approach in terms of purity in four of the six collections. Its performance in terms of inverse purity is not always the best, but 5.4.2 Estimation of the Number of Clusters Concerning the estimated number of clusters, we can see how the ensemble-based approaches greatly overestimate the total num96 Non-Parametric Document Clustering by Ensemble Methods APW EFE LAT REU SMT SWB Cats 11 6 8 10 4 22 Geo All Rel 10 9 12 7 14 9 6 6 6 5 15 15 All 3 4 6 4 3 3 Hi Rel 3 4 6 4 3 3 All 8 5 7 6 9 8 IT Rel 8 5 7 6 7 8 Major All Rel 60.6 7.0 69.0 6.2 27.2 4.8 18.2 5.2 20.6 4.0 10.4 5.8 Minor All Rel 19 7 14 7 40 7 13 6 18 4 22 12 Table 5: Number of clusters k for all methods and collections APW EFE LAT REU SMT SWB Geo 0.73 0.52 0.59 0.92 0.80 0.94 Hi 0.88 0.63 0.68 0.86 0.97 0.92 IT 0.56 0.53 0.61 0.76 0.58 0.91 Major 0.70 0.53 0.79 0.90 0.92 0.97 Minor 0.70 0.53 0.59 0.89 0.90 0.89 across document collections than its components Hi and IT. Moreover, the fact that neither Hi nor IT do not perform competitively on document collections (particularly on SWB) suggests that using some other algorithm more suitable for this kind of data the performance of Minor could be boosted, and more competitive results could be obtained. Table 4: Inverse purity values for all methods and collections For this reason, together with the facts that its performance is not significantly worse than that of Major; that it gives a better estimation of the number of clusters; and that it has no parameters needing to be tuned, whereas Major requires the values of kmax and r have to be determined (see Section 3); we believe that the Minor method remains an attractive approach, and that more research should be carried on the topic of small ensembles of heterogeneous clusterings. ber of clusters (All). As explained in Section 5.4, this is caused by the presence of a large number of small clusters, and the figures for the number of relevant clusters (Rel) are much closer to the actual number of categories (Cats). However, it can be seen that the estimation of the total number of clusters by Minor is more accurate than that by Major in all but the LAT collection. Major shows a bias for purity, and shows a slightly displeasing tendency to disgregation. Regarding the individual methods, whereas the estimation by Geo and IT is fairly accurate; Hi shows a tendency to underestimation, which explains its high inverse purity values and low purity values. The individual methods do not present such a large number of small clusters, which on the one hand means there is not such a risk of disgregation, but on the other one can mean a more limited capability to detect outliers. 5.4.4 SWB Collection The main exception to the general behaviour seems to be the SWB collection. Almost all methods experiment a considerable decrease in purity when applied to this data set. We believe this comes from the fact that the size of all categories in SWB is quite similar, whereas for the rest of collections a few large categories cover most of the documents. This makes the SWB collection harder than the rest, and specially sensitive to underestimation of the number of clusters. The fact that all the considered methods do underestimate the number of clusters (as can be seen in the Rel columns of Table 5), causes low values of purity (in some causes dramatically low, e.g. Hi), and hence of F1 . Only Geo and, to a lesser extent, Minor seem able to find a reasonable (even if still underestimated) number of relevant clusters (column Rel) in this collection. 5.4.3 Minor Method As mentioned before, the performance of Minor method is only significantly better than that of Hi in terms of purity. Nevertheless, the results of the combination seem comparable to those of Geo, and better than those of IT. Overall, Minor offers a greater stability 97 Edgar Gonzàlez Pellicer, Jordi Turmo Borràs 6 Conclusions clustering. Technical report, Department of Computer Science, Trinity College Dublin. We have studied the application of a nonparametric ensemble clustering approach to document collections, and considered two different strategies for the generation of the clustering ensembles. Lastly, we have carried a set of experiments with real-world data. At the light of the results, we can conclude that non-parametric ensemble methods do perform competitively for clustering of document collections. Regarding the two considered strategies, whereas the Major approach gives better figures of purity and F1 score, the differences with Minor are not statistically significant, its estimation of the number of clusters is worse, and it has a number of parameters to be tuned. In addition, there is clearly further room for improvement in Minor, for instance through the incorporation of the individual clustering generation strategies studied in (Sevillano et al., 2006; Hadjitodorov and Kuncheva, 2007; Luo, Xie, and Li, 2007) as components of the ensemble. For this and the previous reasons, we believe that the results of this heterogeneous approach can be boosted, and that it remains an attractive approach for the task. Hadjitodorov, S. and L. Kuncheva. 2007. Selecting diversifying heuristics for cluster ensembles. In Proc. of MCS. Li, T., S. Ma, and M. Ogihara. 2004. Document clustering via adaptive subspace iteration. In Proc. of SIGIR. Luo, H., X. Xie, and K. Li. 2007. A new method for constructing clustering ensembles. In Proc. of WAPR. Milligan, G.W. and M.C. Cooper. 1985. An examination of procedures for determining the number of clusters in a data set. Psychometrica, 50. Nigam, K., A. McCallum, S. Thrun, and T. Mitchell. 2000. Text classification from labeled and unlabeled documents using EM. Machine Learning, 39(2/3). Sevillano, X., G. Cobo, F. Alı́as, and J.C. Socoró. 2006. Robust document clustering by exploiting feature diversity in cluster ensembles. Procesamiento del Lenguaje Natural, 37. Slonim, N. 2003. The Information Bottleneck: Theory and Applications. Ph.D. thesis, The Hebrew University. Acknowledgments This work has been partially funded by the European CHIL Project (IP-506909); the Commissionate for Universities and Research of the Department of Innovation, Universities and Enterprises of the Catalan Government; and the European Social Fund. Strehl, A. and J. Ghosh. 2002. Cluster ensembles - A knowledge reuse framework for combining multiple partitions. Journal of Machine Learning Research, 3. Surdeanu, M., J. Turmo, and A. Ageno. 2005. A hybrid unsupervised approach for document clustering. In Proc. of KDD. References Calinski, T. and J. Harabasz. 1974. A dendrite method for cluster analysis. Communications in Statistics, 3. Tibshirani, R., G. Walther, and T. Hastie. 2001. Estimating the number of clusters in a data set via the gap statistic. Journal of the Royal Statistical Society, Series B, 63(2). Demsar, J. 2006. Statistical comparisons of classifiers over multiple data sets. Journal of Machine Learning Research, 7. Topchy, A., A.K. Jain, and W. Punch. 2005. Clustering ensembles: Models of consensus and weak partitions. IEEE Transactions on Pattern Analysis and Machine Intelligence, 27(12). Dhillon, I.S. and Y. Guan. 2003. Information theoretic clustering of sparse cooccurrence data. In Proc. of ICDM. Gionis, A., H. Mannila, and P. Tsaparas. 2005. Clustering aggregation. In Proc. of ICDE. Zhao, Y. and G. Karypis. 2004. Empirical and theoretical comparisons of selected criterion functions for document clustering. Machine Learning, 55(3). Greene, D. and P. Cunningham. 2006. Efficient ensemble methods for document 98 Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 99-105 recibido 01-02-08, aceptado 03-03-08 An Innovative Two-Stage WSD Unsupervised Method Un Innovador Método No Supervisado para Desambiguación de Sentidos de Palabras basado en dos etapas Javier Tejada Cárcamo Centro de Investigación en Computación. Instituto Politécnico Nacional. Ciudad de México, 07738, México Sociedad Peruana de Computación, Perú. Alexander Gelbukh, Hiram Calvo Centro de Investigación en Computación. Instituto Politécnico Nacional. Ciudad de México, 07738, México [email protected] [email protected], [email protected] Abstract. An unsupervised method for word sense disambiguation is proposed. The sense of the word is chosen to be the most similar to the senses of other words that appear in the corpus in similar contexts. Training consists of building a weighted list of related words (quasi-synonyms) for each word; the weights are obtained by measuring similarity between the word’s contexts. We adapt the algorithm of McCarthy et al. 2004 for finding the best sense in each occurrence, instead of finding the predominant sense of each word in the entire corpus. Their maximization algorithm allows then each quasi-synonym to accumulate a score for each ambiguous word sense; the sense with the highest score is chosen. We obtain a top precision of 69.86% using the same corpus for training and disambiguating. Keywords: Natural Language Processing, Unsupervised Machine Learning, Word Sense Disambiguation, Semantic Similarity. Resumen: Se propone un método no supervisado para la desambiguación de sentidos de palabra. El sentido de un vocablo ambiguo depende de los sentidos de otras palabras que aparecen en contextos similares en un corpus. El entrenamiento consiste en obtener una lista ponderada de sinónimos o palabras relacionadas (quasi-sinónimos) para cada vocablo del corpus tomando en cuenta la similitud de sus contextos. Adaptamos el algoritmo de McCarthy et al. 2004 para encontrar el mejor sentido de cada ocurrencia, en lugar de encontrar el sentido predominante de cada palabra en todo el corpus. Su algoritmo de maximización permite entonces que cada quasi-sinónimo acumule puntaje para cada sentido del vocablo ambiguo. El sentido con puntaje más alto es el seleccionado. Se obtuvo una precisión máxima de 69.86% usando el mismo corpus para entrenamiento y desambiguación. Palabras clave: Procesamiento de Lenguaje Natural, Aprendizaje no Supervisado, Desambiguación de Sentidos de palabras, Similitud Semántica. 1 Introduction Word sense disambiguation (WSD) consists of determining the sense expressed by an ambiguous word in a specific context. For example, for doctor there are three senses listed in WordNet: (1) a person who practices medicine, (2) a person who holds a Ph.D. ISSN 1135-5948 degree from an academic institution; and (3) a title conferred on 33 saints who distinguished themselves through the orthodoxy of their theological teaching. In order to find the right structure from a text the right sense of a particular word must be chosen. There are two different types of methods to approach this problem: supervised and unsupervised. Supervised methods consist of © Sociedad Española para el Procesamiento del Lenguaje Natural Javier Tejada-Cárcamo, Alexander Gelbukh, Hiram Calvo classifiers which associate a specific context to each sense of the ambiguous word using manually tagged corpora. In this way, supervised methods determine the sense of future ambiguous instances of a word. This process is costly mainly in building a tagged corpora: a large quantity of annotated text is needed for a good performance. If there are not enough ambiguous word instances, the problem of data sparseness arises. Many unsupervised methods try to build these classifiers automatically, obtaining contexts by sense. Other methods, based on the assumption that different words have similar meanings if they are presented in similar contexts, try to get contexts by word. (Pedersen et al., 2004). These contexts are used in later stages of clustering and word sense discrimination techniques. (Leacock, C. and M. Chodorow. 1998) In our method, we obtain a list of synonyms or related words (quasi-synonyms) for each ambiguous word. That is, other words that are used in contexts similar to those surrounding the ambiguous word, within a specific corpus. These quasi-synonyms will determine the sense for a word using the maximization algorithm presented in (McCarthy et al. 2004). This algorithm allows each quasi-synonym to accumulate a score for each sense of the ambiguous word, so that the sense which has the highest score is chosen. The main contribution of this work is the method of obtaining quasi-synonyms. For this purpose we collect all the contexts in a corpus where a specific word is present, and then we use this information to build a semantic similarity model that measures the semantic distance between the words of the training corpus. The quasi-synonyms of an ambiguous word are those which are the closest by their contexts. Quasi-synonyms of any word change dynamically depending on their local contexts and the corpus. For example, in The doctor cured my wounds with a medicine, the quasisynonyms for doctor would be: physician, medicine, alcohol, lint; however, in The doctor published his latest research in the conference, the quasi-synonyms of doctor would be scientific, academic, university, conference. Originally, the maximizing algorithm proposed in (McCarthy et al. 2004) was used to obtain the predominant sense of a word. In their work, the context for the ambiguous word is not considered: Its quasi-synonyms are obtained from Lin’s Thesaurus (Lin, D. 1998). In The stars of the sky are brighter in the coastline, the top 5 quasi-synonyms from the Lin’s thesaurus for the word star are: fame, glamour, money, Hollywood, constellation. We can see here that these quasi-synonyms reflect poorly the sense of heavenly body. We will describe further details of our method in the following sections. Section 2 describes the training stage; Section 3 describes the disambiguation stage. Section 4 describes our experiments. Finally, we conclude in Section 5. 2 Training Stage Training consists of creating a semantic similarity model for each corpus to be disambiguated. The model was built as a Word Space Model (WSM) (Karlgren, J. and M. Sahlgren. 2001), which determines the proximity or semantic distance between the words of a corpus. First we obtained the contexts in which each word is presented in a particular corpus. This information was then organized in our WSM. (Schütze, H. 1993). 2.1 Obtaining Contexts The first step in building a semantic similarity model is to collect all the contexts for each word in a corpus. Among the definitions of context, we have chosen syntactic context. We used MINIPAR syntactic analyzer presented in (Lin, D. 1998), to obtain dependency relationships in a corpus. Dependency relationships are binary asymmetric relationships between a head word and a modifier word. These dependency relationships build a tree that connects all the words in a sentence (Allen, J. 2000). A head may have several modifiers, but each modifier has only one head. (Mel’čuk, Igor A. 1987). Once we have a tree, we apply further transformations to filter out less useful relationships: Ignore prepositions – see Figure 1 and Include sub-modifiers as modifiers of the head – see Figure 2. We obtain syntactic modifier dependencies for each word in the corpus. See formula (1) L ( word n ) = {( mod 1 , f 1 ),...., ( mod n , f n )} (1) where wordn is a word in the corpus, modn is a syntactic modifier of wordn, and fn is the 100 An Innovative Two-Stage WSD Unsupervised Method frequency of modn and wordn appearing together. In our method, the number of dimensions of the WSM is the same as the number of different words in the corpus. Each word is represented by a vector and the word’s modifiers determine the weight w in each dimension. This value is calculated as the product of TF and IDF corresponding to that modifier. The weight represents the affinity degree between a word and a modifier when they are represented in the model. TF reflects the importance of a modifier with regard to the word that it is modifying. Its value is greater if the modifier appears more often with that word. IDF measures the importance of a modifier with respect to the remaining words in the same corpus. The weight of a modifier decreases if it appears more often with other heads of the corpus, and it increases when it appears with a smaller number of words. This is because highly frequent modifiers have a low factor of discrimination when words are represented by a vector (Schütze, H., and J. Pedersen. 1993). Formulas 2, 3, y 4 show these measures. winds winds of change change Figure 1: Ignoring prepositions sell sell beautiful beautiful flowers flowers Figure 2: Sub-modifiers as modifiers of a head 2.2 Semantic Similarity Model Once the syntactic context for each word has been obtained, we use a Word Space Model (WSM) to represent the information to be used for measuring semantic similarity. WSM is a spatial representation of word meaning. The main idea behind WSMs is that semantic similarity can be represented as proximity in an n-dimensional space, where n can be any integer ranging from 1 to some very large number. This term is due to (Schütze, H. 1993), who defines it as follows: Vector similarity is the only information present in Word Space: semantically related words are close, unrelated words are distant. WSM is based on the geometric metaphor of meaning proposed in (Lakoff, G., and M. Johnson. 1980), (Lakoff, G., and M. Johnson. 1999) and the distributional hypothesis. (Schütze, H., and J. Pedersen. 1993) argue that meanings are locations in a semantic space, and semantic similarity is the proximity between those locations and (Sahlgren, Magnus. 2006) argue that words with similar distributional properties have similar meanings. Implementation of WSM is based on the model of vector space, also known as the TFIDF scheme (term frequency - inverse document frequency). This model is usually used for classification tasks and for measuring document similarity. Each document is represented by a vector whose number of dimensions is equal to the quantity of different words that are in it. f i, j = freqi , j max freql , j idfi = log N ni wi = fi , j × idf i (2) (3) (4) Where freqi,j is the frequency of the modifieri with wordj, max freqi is the highest frequency of the modifiers of wordj, N is the number of words in the corpus, ni is the number of words which modifieri modifies, and wi is the final weight. The weights w calculated for all modifiers of each word are represented as a vector in our WSM. See formula 5. V ( word i ) = {( dim 1 , w1 ),...., ( dim n , w n )} (5) Where V(wordi) is the vector which represents word i , n is the number of dimensions of our WSM, dimn is each dimension of the WSM (there are as many dimensions as there are different words in the corpus), and wn is the weight assigned to dimn. Several dimensions for a word are weighted as 0 because the modifier corresponding to that dimension was not found related to this word. 101 Javier Tejada-Cárcamo, Alexander Gelbukh, Hiram Calvo 3 weighted list of quasi-synonyms represented in Formula 7. Disambiguation stage In this stage we describe how the sense of an ambiguous word is obtained, considering its syntactic context, the created word space model, and the maximization algorithm proposed in (McCarthy et al. 2004). In that work, McCarthy et al. propose obtaining the predominant sense in a word for the overall corpus, while we adapt their algorithm to a local context, finding a different sense for each context. 3.1 QS ( word i ) = {( qs 1 , w 1 ),...., ( qs n , w n )} Where qs1 is the quasi-synonym that is the most semantically related to the ambiguous word wordi and qsn is the quasi-synonym that is the least related to wordi. wn is the weigth of qsn. 3.2 Choosing the right sense Once the quasi-synonym list has been obtained, we use the maximization algorithm proposed in (McCarthy et al. 2004) to label syntactically the ambiguous word. This algorithm allows each quasi-synonym to accumulate a score for each sense of the polysemous word. The sense with the highest score is selected. Formulas 8, 9 and 10 show how the quasi-synonym list accumulates a score for a sense. See also Figure 4. Obtaining Quasi-Synonyms One of the premises of the context similarity concept can be stated as: two different words are semantically related if they are presented in similar contexts. Based on this premise, we try to find terms which are used in contexts similar to those of the ambiguous word. We call these terms quasi-synonyms. These terms vary depending on the syntactic context of the word and the corpus from which the WSM has been created, as Figure 3 shows. Syntactic context of ambiguous word Weight ( wsi ) = PNorm ( wsi ) = → → vj (6) → × P ( w, qs j ) × PNorm ( wsi ) (8) pswn( wsi , qs j ) ∑ pswn( wsi , qs j ) ∈ sentidos ( w ) (9) In this equation, w is the ambiguous word, wsi is each one of the senses of w, QSw is the set of quasi-synonyms of w, and qsj is each quasisynonym. P(w, qsj) represents the semantic similarity between w and qsj. This value has been computed in the WSM. PNorm represents how we normalize the weight of wsi using all the senses of w and the current qsj. The function pswn returns the sense of a word that has the greatest semantic similarity to a particular sense. For example, pswn (wsi,qsj) compares all the senses of the quasi-synonym qsj with wsi and obtains the sense of qs j which has more semantic similarity with regard to wsi. We use WordNet::Similarity presented in (Patwardhan et al., 2003) to measure semantic similarity between two senses. This is a set of libraries that implement similarity and semantic relationship measures in WordNet (Miller, G., 1990)1. Following (McCarthy et al. 2004), we used Jiang–Conrath (JCN) measure. Extraction of Quasi-synonyms consists of the following steps: First, we extract the syntactic dependencies for each ambiguous word and then we create a query vector with the same number of dimensions as the WSM. This vector is compared with each of the vectors which represent the words of the corpus in the WSM. There are several ways to compute the similarity between two vectors (Patwardhan et al., 2003). In our method this is determined by the cosine value of the angle measured between such vectors (Formula 6). Cosine_value = qs j ∈QS w pswn ( w si , qs j ) = max s x ∈ senses ( qs j ) ( pswn ( w si , s x ))(10) Figure 3: Obtaining Quasy-Synonyms → ∑ wsi Query Quasi-Synonyms WSM vj• q (7) q → Where v j is the vector that represents each → word in the corpus and q j is the query vector which represents the syntactic context of the → 1 These measures were proposed in (Resnik, P. 1995), (Lin, D. 1998), (Jiang, J. and D. Conrath. 1997) and (Leacock, C. and M. Chodorow. 1998). ambiguous word. After comparing q j with every other word of the WSM, we obtain a 102 An Innovative Two-Stage WSD Unsupervised Method For evaluating, we considered the number of quasi-synonyms to choose the right sense. For most of the comparisons, we conducted experiments for the first 10, 20, 30, 40, 50, 60, 70, 100 and 1000 words from the weighted list of quasi-synonyms. In both experiments, general results for 10% of the remaining of Semcor corpus were better than for the Senseval-2 corpus. In the first experiment, the best result using Semcor evaluation was 69.86% precision and in the second one 73.07% precision (See Table 1. Blank cells correspond to experiments not conducted.) These particular results are better than the 64% precision obtained in (McCarthy et al. 2004). However, there are many differences, which must be taken into account, between these and McCarthy's experiments: McCarthy used Senseval-2 in the evaluation and the Lin’s thesaurus for creating the equivalent of our WSM to obtain a weighted list; also McCarthy’s goal was to find the predominant sense whereas our goal was to find the specific sense of an ambiguous word in a context. The results of the second experiment, in which we used the Senseval-2 corpus in our evaluation are better than all the unsupervised methods presented in Senseval-2 (See Table 2). Figure 4: Scoring a sense 4 Experiments In this section we describe our experiments. We created a WSM using 90% of SemCor corpus (we did not use tags for training). We evaluated the model with the remaining 10% of SemCor and Senseval-2 (all words nouns only). We chose these corpora to be able to compare with related works such as McCarthy et al. We created a WSM using British National Corpus, and evaluated it with the same data that was used in the previous experiment. When using a corpus for creating a WSM, the semantic tags of word senses are not considered. These tags refer to specific synsets in WordNet In these experiments we disambiguated only nouns, because JCN measure is based on WordNet, which does not have populated hierarchies for adjectives or adverbs. Usually verbs are not disambiguated, because they are highly polysemous and the difference between each of their senses is very fine graded. Rank 1 2 3 4 5 6 7 8 9 Number of top quasi-synonyms Trained on: SemCor BNC SemCor BNC Tested on: Senseval-2 SemCor 44.22 51.35 64.23 73.07 10 20 44.77 52.88 69.44 60.00 30 45.91 53.33 67.36 65.27 40 45.76 53.33 66.43 65.16 50 45.55 53.33 67.8 63.8 48.12 55.36 68.15 63.41 60 70 49.84 57.22 69.86 63.84 100 48.80 56.02 69.86 62.33 200 49.05 57.57 66.75 61.58 500 49.10 58.79 65.89 61.08 1000 44.55 54.27 65.06 61.08 2000 41.05 51.75 62.76 61.08 10 11 System Recall 0.69 SMUaw 0.636 CNTS-Antwerp 0.618 Sinequa-LIA-HMM 0.587 Our Method 0.569 UNED - AW-U2 0.55 UNED - AW-U 0.454 UCLA - gchao2 0.453 UCLA - gchao3 0.451 CL Research DIMAP 0.451 0.451 CL Research DIMAP (R) 0.5 0.449 UCLA - gchao Prec. 0.69 0.636 0.618 0.587 0.575 0.556 0.475 0.474 0.416 Sense tagged data? Y Y Y N N N Y Y N N Y Table 2: The Top-10 Systems for Senseval-2 The main goal of this article is to demonstrate how WSD can be improved if we train our method with the same corpus that we use in the evaluation. This hypothesis was confirmed in the first experiment. However, the results obtained in the second experiment did Table 1: Precision, training with SemCor and BNC / evaluation with SemCor and Senseval-2 103 Javier Tejada-Cárcamo, Alexander Gelbukh, Hiram Calvo not confirm our hypothesis entirely. We would expect that training with BNC and evaluating with a fragment of Senseval-2 corpus would be better than evaluating with Semcor. The English Senseval-2 corpus is sampled from BNC and Penn Treebank (comprising components from the Wall Street Journal, Brown, and IBM manuals). We believe that these surprising results are due to the affinity between Semcor and WordNet, which have been reflected in the measure we have used: JCN. This measure uses the information content concept obtained from the SemCor corpus itself in the package WordNet::Similarity. The concept of information content, where a value is assigned to the specificity of a concept, was introduced in (Resnik, P. 1995). A concept with a high information content is closely related to a particular subject, whereas a concept with a low information content is associated to more general subjects. For example, the expression carving fork has a high information content, while entity has a very low information content. terms is not always the same; it depends on the context of the ambiguous word and the corpus wherefrom the resource is created. The main goal of the method presented in (McCarthy et al. 2004) is to obtain the predominant sense for a word, and not the sense expressed in a particular context unless it coincides with the predominant sense; however, the results that they obtained are better than those of any unsupervised method which look for the sense of a word within a context. By substituting the Lin’s thesaurus with a syntactic resource built specifically for the corpus to be disambiguated our method improves these results. Thus, the main difference between the method proposed in (McCarthy et al. 2004) and that of ours lies in the list of related terms, which are used by the maximizing algorithm to infer the sense of a word. We can conclude then that the weighted list is an important factor for the disambiguation process in our method. Another conclusion is about the optimal number of quasi-synonyms that we need in order to disambiguate a word within a specific context. In the first experiment, the results are very irregular; in the second one, the best result was obtained where we used ten quasisynonyms. The quality of quasi-synonyms seemed to be related with the WSM. In the second experiment the WSM was built with BNC (100 million words) and in the first one with SemCor (1 million word). We believe that strong quasi-synonyms are enough to disambiguate a word with the McCarthy et al. algorithm. The computational cost of our disambiguation algorithm is the same than the one proposed by McCarthy et al. The performance of both algorithms depend of WordNet:Similarity package performance and obviously WordNet too. As a future work, we plan to obtain the information content from BNC and repeat the second experiment to see the impact of that concept on the JCN measure and on our method. Also we plan to do testing with wider local contexts. This could be done by considering several levels of the syntactic dependency tree and wider co-occurrence windows, or a combination of both strategies. Finally, we will build a denser WSM using the Google corpus to obtain the strongest possible quasi-synonyms 5 Conclusions The method we presented is useful for disambiguating a corpus trained with itself (the first stage consists of training on the corpus itself, the second stage is disambiguation), as shown by the results of training with 90% of SemCor and evaluating with its remaining part. Note that this is not the usual training and test as in supervised learning algorithms, since we are not using sense tags for learning. Our method obtained better results than all the unsupervised methods presented in Senseval-2. This allows to extend the method proposed in McCarthy et al., which is used for finding the predominant sense of a word in certain corpus, to adaptively use context to find the correct sense of a word using local information. The method proposed in (McCarthy et al. 2004) is used to find the most predominant sense of an ambiguous word considering a weighted list of related terms. In their work, these terms are from the Lin’s thesaurus (Lin, D. 1998). This list is always the same for any ambiguous instance of a word, because it does not depend on its context. Our method does not use the Lin’s thesaurus. Instead, a specific WSM is created for the corpus to be disambiguated. This way, the list of weighted 104 An Innovative Two-Stage WSD Unsupervised Method Patwardhan, S., S. Banerjee, and T. Pedersen. Using measures of semantic relatedness for word sense disambiguation. 2003. In Proceedings of the Fourth International Conference on Intelligent Text Processing and Computational Linguistics, Mexico City. Bibliography Allen, J., D. Byron, M. Dzikovska, G. Ferguson, L. Galescu, y A. Stent. 2000. An Architecture for a Generic Dialogue Shell. Natural Language Engineering. Volume 6, Issue 3-4. Pedersen, T., S. Patwardhan and J. Michelizzi. 2004. WordNet::Similarity - Measuring the Relatedness of Concepts. Proceedings of the Nineteenth National Conference on Artificial Intelligence (AAAI-2004). pp. 1024-1025, 2004. San Jose, CA. Hays, D. 1964. Dependency theory: a formalism and some observations. Language. 40:511-525, 1964. Jiang, J. and D. Conrath. 1997. Semantic similarity based on corpus statistics and lexical taxonomy. In International Conference on Research in Computational Linguistics. Taiwan. Pedersen, T. and A. Kulkarnu. 2007. Unsupervised Discrimination of Person Names in Web Contxts. 8th Internacional Conference, CICLing 2007, México. Karlgren, J. and M. Sahlgren. 2001. From Words to Understanding. In: Foundations of Real-World Intelligence. CSLI Publications, Stanford, California, pp. 294-308. Resnik, P. 1995. Using information content to evaluate semantic similarity in a taxonomy. In Proceedings of the 14th International Joint Conference on Artificial Intelligence, Montreal. Lakoff, G., and M. Johnson. 1980. Metaphors we live by. Chicago: University of Chicago Press. Lakoff, G., and M. Johnson. 1999. Philosophy in the esh: The embodied mind and ts challenge to western thought. New York: Basic Books. Schütze, H. 1992. Dimensions of meaning. In Proceedings of the 1992 ACM/IEEE Conference on Supercomputing, Supercomputing'92. pp. 787–796. IEEE Computer Society Press. Leacock, C. and M. Chodorow. 1998. Combining local context and WordNet similarity for word sense identification. In C. Fellbaum, editor, WordNet: An electronic lexical database, pages 265–283. MIT Press. Schütze, H. 1993. Word space. In Proceedings of the Conference on Advances in Neural Information Processing Systems. NIPS'93. pp. 895–902. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc. Lin, D. 1998. Automatic retrieval and clustering of similar words. In Proceedings of COLING-ACL 98, Montreal, Canada. Schütze, H., and J. Pedersen. 1993. A vector model for syntagmatic and paradigmatic relatedness. In Making sense of words. pp. 104–113. Oxford, England: Ninth Annual Conference of the UW Centre for the New OED and Text Research. Lin, D. 1998. Dependency-based Evaluation of MINIPAR. In Workshop on the Evaluation of Parsing Systems, Granada, Spain. Sahlgren, Magnus. 2006. The Word-Space Model Using distributional analysis to represent syntagmatic and paradigmatic relations between words in high-dimensional vector spaces. Ph. D. dissertation, Department of Linguistics, Stockholm University. McCarthy, D., R. Koeling, J. Weeds and J. Carroll. 2004. Finding predominant senses in untagged text. In Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics, Barcelona, Spain. Mel’čuk, Igor A. 1987. Dependency syntax; theory and practice. State University of New York Press, Albany. Miller, G., 1990. WordNet: an On-Line Lexical Database, International Journal of Lexicography. 105 Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 107-114 recibido 02-02-08, aceptado 03-03-08 Applying a culture dependent emotion triggers database for text valence and emotion classification Definición de disparador de emoción asociado a la cultura y aplicación a la clasificación de la valencia y la emoción en textos Alexandra Balahur Universidad de Alicante, DLSI Apartado de Correos 99 E-03080, Alicante [email protected] Andrés Montoyo Universidad de Alicante, DLSI Apartado de Correos 99 E-03080, Alicante [email protected] Resumen: Este artículo presenta un método de identificación y clasificación de la valencia y las emociones presentes en un texto. Para ello, se introduce un nuevo concepto denominado disparador de emoción. Inicialmente, se construye de forma incremental una base de datos léxica de disparadores de emoción asociados a la cultura con la que se quiere trabajar, basándose en tres teorías diferentes: la Teoría de la Relevancia de Pragmática, la Teoría de la Motivación de Maslow de Psicología y la Teoría de Necesidades de Neef de Economía. La base de datos creada parte de un conjunto inicial de términos y es ampliada con la información de otros recursos léxicos, como WordNet, NomLex y dominios relevantes. El enlace entre idiomas se hace por medio de EuroWordNet y se completa y adapta a diversas culturas con bases de conocimiento específicas para cada lengua. También, se demuestra cómo la base de datos construida puede ser utilizada para buscar en textos la valencia (polaridad) y el significado afectivo. Finalmente, se evalúa el método utilizando los datos de prueba de la tarea nº 14 de Semeval “Texto afectivo” y su traducción al español. Los resultados y las mejoras se presentan junto con una discusión en la que se tratan los puntos fuertes y débiles del método y las directrices para el trabajo futuro. Palabras clave: disparador de emoción, base de datos léxica, teoría de la relevancia, motivación, modelo cognitivo de construcción e integración Abstract: This paper presents a method to automatically spot and classify the valence and emotions present in written text, based on a concept we introduced - of emotion triggers. The first step consists of incrementally building a culture dependent lexical database of emotion triggers, emerging from the theory of relevance from pragmatics, Maslow´s theory of human needs from psychology and Neef´s theory of human needs in economics. We start from a core of terms and expand them using lexical resources such as WordNet, completed by NomLex, sense number disambiguated using the Relevant Domains concept. The mapping among languages is accomplished using EuroWordNet and the completion and projection to different cultures is done through language-specific commonsense knowledge bases. Subsequently, we show the manner in which the constructed database can be used to mine texts for valence (polarity) and affective meaning. An evaluation is performed on the Semeval Task No. 14: Affective Text test data and their corresponding translation to Spanish. The results and improvements are presented together with an argument on the strong and weak points of the method and the directions for future work. Keywords: emotion trigger, lexical database, theory of relevance, human motivation, construction and integration cognitive model ISSN 1135-5948 © Sociedad Española para el Procesamiento del Lenguaje Natural Alexandra Balahur, Andrés Montoyo 1 ¨esteem¨, ¨family¨ and so on. We will use this defined notion to build a database of such emotion triggers, classify them and integrate them in a system which spots and classifies text valence and emotion. Introduction In recent years, there has been growing interest in studying the methods through which emotion is expressed in written text. Whether it is mining for customer opinions, or tracing attitudes towards different topics of interest, tools and applications aiming at discovering sentiment, spotting and, moreover, interpreting emotion in text is highly applicable to various natural language processing areas. Some important examples include word sense disambiguation (Wiebe and Mihalcea, 2006), multi-document summarization, multiperspective question answering and speech generation. Present work in the field focused on determining methods to capture emotion and opinion arising from written text, at a word level – identifying positive or negatve sentiment of words (Esuli and Sebastiani, 2005), sentence or phrase level (Kim and Hovy, 2006), document level (Hu and Liu, 2004). Lexical resources born from these endowments are WordNet Affect (Strapparava and Valitutti, 2004) and SentiWordNet (Esuli and Sebastiani, 2006), both for English. Lexical databases were in turn completed in several approaches toward sentiment analysis with lexical and commonsense knowledge databases such as ConceptNet (Liu and Singh, 2007), word similarity measures using WordNet (Fellbaum, 1999), rules for determining text polarity using word and part-of-speech composition rules (Al Masum et al, 2007), statistical and machine learning methods (Wiebe et al., 2005). To our knowledge, there has been little work done towards obtaining lexical databases of affective terms on other languages than English (Mihalcea et al., 2007) and no work that included motivational theories to fundament the emotional effect of text. The method presented herein was developed in view of a novel perspective of emotion detection and interpretation, based on the defined notions of ¨emotion triggers. An ¨emotion trigger¨ is a word or concept expressing an idea, that depending on the reader´s world of interest, cultural, educational and social factors, leads to an emotional interpretation of the text content or not. Examples of emotion triggers are ¨freedom¨, ¨salary¨, ¨employment¨, ¨sale¨, ¨pride¨, 2 Theories and Resources The motivation for introducing the concept of ¨emotion triggers¨ is found in the assumptions and principles of the relevance theory from pragmatics. Abraham Maslow´s theory of human motivation and its corresponding pyramid offer the method to classify the emotion triggers and create rules of emotion trigger interaction. In parallel, we apply Neef´s matrix of fundamental human needs to create a need-satisfier system of emotion triggers. 2.1 Theory of Relevance ¨The Theory of Relevance¨ (Sperber and Wilson, 2004), from pragmatics, states in the cognitive principle that ¨human cognition tends to be geared toward the maximization of relevance¨, that is, from the multiple stimuli present in a communication, be it written or spoken, a person will choose the one with highest significance to its world of interest, activating the stimuli whose interpretation could bring it important information and inhibiting those it holds as unimportant. These statements, together with the principles of the relevance theory, can be seen to explain also the process of emotionally interpreting a text. The theory of relevance contains no explicit mentioning or classification of what could constitute stimuli to a person. To that respect, we considered a good classification the one made by Abraham Maslow, under the form of a 5-level pyramid of human motivations. 2.2 Maslow´s Pyramid of Motivations Abraham Maslow (Maslow, 1943), classified the human needs and motivational factors into a 5-level pyramid, from the basic, physiological ones, to the more education and personal level of development dependent ones. Needs as food, shelter, peace are at the bottom of the pyramid, whereas needs for self achievement, fame, glory are at the top. The basic needs are the general human ones; as we move towards the top, we find the more individual dependent ones. 108 Applying a culture dependent emotion triggers database for text valence and emotion classification is made up of emotion triggers. It contains the terms that carry in themselves an emotion or a conjunct of emotions, each in a certain percentage. Such a resource has not been built so far and constructing it is the starting point of our method. The fourth component is period, culture and place dependent. It consists of the concepts that become emotion triggers due to the degree of importance they are given in the media, in conjunct with the emotions they are associated with. Also, important events in the history or recent past of an individual, as well as society are considered as being emotion triggers. Examples of such emotion triggers are ¨9/11¨, ¨Second World War¨ etc. It is important to make the observation that these four components are not disjoint sets, neither are they fixed as components or constant among individuals. On the contrary, each can evolve in time, when ordinary words become emotion triggers and when emotion triggers in the fourth component lose impact and become ordinary words. Furthermore, by using the principles of the theory of relevance, we state that the ¨bag of knowledge¨ (BK) consists of different levels of factors, different as importance and by assigning this importance quotient, a system analyzing text will be able to tell the difference between relevant and irrelevant information. We further consider that the interpretation is also dependent on the source of the text and the relation the reader has with it or the a priori knowledge on the degree of trust, reliability of the text source or the attitude of agreement or disagreement of the reader towards the latter. Figure 2 shows the architecture for the analysis of emotion in text: 2.3 Neef´s Matrix of Fundamental Human Needs Among the critics of the Maslow theory of human needs is Manfred Max Neef, whose theory (Max-Neef, 1991) describes the economical perspective of fundamental human needs. According to Max-Neef, human needs are equally important, few, finite and classifiable. Max-Neef classifies the fundamental human needs as: subsistence, protection, affection, understanding, participation, recreation, creation, identity and freedom. Needs are also defined according to the existential categories of being, having, doing and interacting, and from these dimensions, a 36 cell matrix is developed. 3 Emotion Trigger Method Our emotion trigger method starts from the idea that words in text carry no affectivity, but become emotionally charged depending on the interpretation they are given by each reader´s world of interest and the intention and world of interest of the author. This world of interest is made up of general, personal needs and motivation factors, notions satisfying these needs, knowledge on the historical and social facts, information vehiculated in the media (media news) and so on. We call this collection of factors “bag of knowledge” (figure 1). Bag of knowledge General knowledge about words and meanings of words General affectiv e terms Emotion triggers Media news Figure 1. Model for the reader analysis of text The first component of the bag of knowledge is made up of general knowledge about words and meanings of words. It contains what words can mean, the manner in which they are linked, how they change their meaning. The second component is formed of general affective terms, as ¨kind-hearted¨, ¨furious¨, ¨anxious¨, ¨fear¨ and so on. They express emotion, but do not necessarily induce emotion. For example, a title such as ¨Feared opponents, defeated without problems¨ has no connection to the idea of fear. Such classification of words can be found in lexical affective resources such as WordNet Affect or SentiWordNet. The third component Figure 2. Architecture for the analysis of emotion in text The system implemented by following the above architecture identifies the corresponding 109 Alexandra Balahur, Andrés Montoyo ¨bag of knowledge¨ of a reader and uses it to spot and classify text valence and emotion according to it. In the following subsections, we start by presenting the steps we performed in order to build the lexical databases of emotion triggers for English and Spanish, the process of mapping the concepts found in English to their correspondents in Spanish and the process of projection to culture dependent knowledge bases for both languages. Further, we explain the method used for assigning valence and classifying emotion induced by emotion triggers. We then present the words and rules that influence the basic valence and emotion in a context and finally the rules of emotional inference derived from the theories underlying this method. sense number that has the same top relevant domain. If more such senses exist, they are all added. On the other hand, the core of English words is completed with the terms found in Max Neef´s matrix of fundamental human needs. This matrix is built according to the four main characteristics of the individual: being, having, doing and interacting, for which terms are assigned in order to nine categories of needs: identity, subsistence, affection, creation, protection, freedom, participation, leisure and understanding. Building the core of words corresponding to the taxonomy proposed by Neef is done in the same manner as presented above. 3.1 Constructing and Expanding the Core of Emotion Triggers Using EuroWordNet, we map the words in the English lexical database of emotion triggers to their Spanish correspondents, preserving the meaning through the WordNet sense numbers. 3.2 The core of English emotion triggers is built, at the first stage, of the approximately 37 terms found in Maslow´s pyramid of human needs, structured on 5 levels starting from the terms corresponding to the deficiency needs, found on the four bottom levels and having on top the growth needs terms, of achieving the personal potential, on level 5. Since most of the words are general notions and their number is relatively small (37), we disambiguate them with the sense numbers they have in WordNet 2.1, in order to ensure that further on, the added words will remain with the intended meaning. For each term, we add all the senses and all grammatical categories that are valid in the context of Maslow´s pyramid levels. We then add to these words the corresponding synonyms and hyponyms from WordNet. For the verbs considered, we also add the entailed actions. We consider as having a negative value the emotion triggers that are antonyms of the nouns found. For each of the nouns and verbs, we further add the corresponding nouns and verbs, respectively, using NomLex (Macleod et al, 1998). Since NomLex does not assign sense numbers to distinguish between the possible semantics of the nouns and verbs in the collection, we use the Relevant domain concept and corresponding repository (Vázquez et al, 2007) to preserve the intended meaning, by taking the top relevant domain of each word sense and assigning the corresponding verb or noun in NomLex the Mapping of Concepts 3.3 Adding World Knowledge to the Lexical Databases The final step in building the lexical databases consists of adding real-world situations, cultural-dependent contexts terms to the two lexical databases. For English, we use the ConceptNet to add culture specific actions and terms related to the considered core of words. For Spanish, we add the cultural context by using the Larousse Ideological Dictionary of the Spanish Language. 3.3.1 ConceptNet ConceptNet1 is a freely available commonsense knowledgebase and natural-languageprocessing toolkit which supports many practical textual-reasoning tasks over realworld documents. Commonsense knowledge in ConceptNet contains relations such as CapableOf, ConceptuallyRelatedTo, IsA, LocationOf etc. For the purpose of maintaining the originally intended meaning of the emotional triggers in the lexical database constructed so far, we chose to project the emotion triggers only based on the relations DefinedAs, LocationOf, CapableOf, PropertyOf and UsedFor. 1 110 http://web.media.mit.edu/~hugo/conceptnet/ Applying a culture dependent emotion triggers database for text valence and emotion classification synonyms, hyponyms and entailment and change their valence from positive to negative or negative to positive in the case of antonyms. 5. Value of all emotion triggers is modified according to the valence shifters they are determined by. Further on, we assign an emotion triggers a value of the 6 categories of emotion proposed for classification in the SemEval Task No. 14 – joy, sadness, anger, fear, disgust and surprise, using the following rules: 1. The emotion triggers found in the levels of Maslow´s pyramid of needs and those found in the components of Neef´s matrix of fundamental human needs are manually annotated with scores for each of the 6 categories 2. The primary emotion triggers are assigned values for each emotion. 3. The terms (also emotion triggers in the final lexical database) synonym and hyponym of the primary emotion triggers, as well as the entailed verbs are assigned inherited values. 4. The terms opposed and antonym of those from 1. and 2. are assigned manually a value for each emotion. 5. Emotion triggers added further on inherit the valence from the emotion trigger they are related to. 6. Value of all emotions of an emotion triggers is modified according to the valence shifters they are determined by. 7. If any of the values calculated in 6 is higher than 100, it is set to 100. 3.3.2 Larousse Dictionary of the Spanish Language The Larousse Ideologic Dictionary of the Spanish Language (LIDSL) is made up of four parts: a general classification frame, a synoptic part, an analogic part and an alphabetic index. The Dictionary offers a two-way view on words and ideas they express, thus semantically relating terms pertaining to the same idea and also, given one idea, gathering in frames all concepts related to it. In using this resource, we start from the parallel core of concepts representing the levels of needs and motivations, completed as stated before with the synonyms, hyponyms and antonyms found in WordNet, and add the Spanish culture specific terms related to them. For example, from the general concept of ¨comida¨ (¨food¨), we find as subordinated concepts ¨carne¨ (¨meat¨), ¨fruit¨ (¨fruta¨), ¨verdura¨ (¨vegetables¨) etc. These concepts are further refined to specific notions that are types of meat found in the real world: In the case of ¨carne¨, some examples are ¨vaca¨, ¨ternera¨, ¨carnero¨, ¨cordero¨, ¨matanza¨, ¨chicha¨. 3.4 Adding Valence and Classifying Emotion Having at hand a lexical database of emotion triggers constitutes the first step towards the building of a system conforming to the architecture described in Figure 3., that spots possible emotional interpretation of texts in a culturally specific way, parting from the general motivational traits applicable to the whole human species. The next step taken consists in assigning valence and emotion to the terms in the database. This is done with the following rules, both for the terms in Maslow´s pyramid as well as for those in Neef´s matrix: 1. The primary emotion triggers are assigned a positive value. 2. The terms (also emotion triggers in the final lexical database) synonym and hyponym of the primary emotion triggers, as well as the entailed verbs are assigned a positive value 3. The terms opposed and antonym of those from 1. and 2. are assigned a negative valence. 4. Emotion triggers added further on inherit the valence from the emotion trigger they are related to in case of 3.5 Valence Shifters In order to be able to recognize the change in meaning of emotion triggers due to modifiers, we have defined a set of valence shifters – words that negate the emotion triggers, intensify or diminish their sense. The set contains: Words that introduce negation (no, never, not, doesn´t, don´t and negated modal verbs) A set of adjectives that intensify the meaning of the nouns they modify – big, more, better etc. A set of adjectives that diminish the meaning of the nouns they modify – small, less, worse, etc. 111 Alexandra Balahur, Andrés Montoyo The set of modal verbs and conditional of modal verbs that introduce uncertainty to the active verb they determine- can, could, might, should, would. The set of modal verbs that stress on the meaning of the verb they determine – must etc. A set of adverbs that stress the overall valence and intensify emotion of the context – surely, definitely, etc. A set of adverbs that shift the valence and diminish emotion of the context – maybe, possibly, etc. For each of the valence shifters, we define a weight of 1.5 for the meaning intensifiers and 0.5 for the meaning diminishers. These coefficients will be multiplied with the weight assigned to the emotion trigger level and emotions- level association ratio corresponding to the given emotion trigger in the case of emotion triggers built from Maslow´s pyramid. In the case of emotion triggers stemming from Neef`s matrix of fundamental human needs, the weights of the valence shifters are multiplied with the emotion-category association ratio, computed for each emotion trigger and each of the four existential categories. 3.6 features of words that are appropriate to the context and inhibit those that are not. The construction-integration model has been so far successfully used in the field of Natural Language Processing for anaphora resolution, generation of representations of word meanings from dictionaries (Powell et al, 2000) and automatic assessment of summarizations (Lemaire et al., 2005). Also, its author also proposed a computational method for metaphor comprehension (Kintsch, 2000) based on this cognitive model. 4 The final system built to classify text at valence and emotion level follows a series of steps. First, the input text is parsed with Minipar (Lin, 1998) and Freeling2 for Spanish to obtain for each word the grammatical category, the lemma and its modifiers. Further on, the emotion triggers in the text are identified, together with their corresponding modifiers. We calculate the valence of the text on the basis of the identified emotion triggers and their modifiers, using the formulas described in what follows. In the case of emotion triggers obtained from Maslow´s pyramid, we calculate a score called weighted valence of emotion trigger(wv) using the following formula: Emotion Trigger Association Ratio The association ration score provides a significance score information of the most relevant and common domain of a word. In our approach, besides quantifying the importance of each emotion trigger in a manner appropriate to the level and emotion it conveys, we propose to use a variant of the association ratio that we call emotional association ratio per level or category. This score will provide the significance information of the most relevant emotion to each level and category. The corresponding formula is therefore: AR ( e; L) = Pr( e, L) log 2 • • • 3.7 System for valence and emotion wv ( et ij ) = w( m) * w(l j ) * v ( et i ) , where • w(m) is the weight of modifier • w(lj )is the weight of level • v(eti)is the emotion trigger valence • i is the index of the emotion trigger • j is the number of the level In the case of emotion triggers obtained from Neef´s matrix, we calculate a score called weighted valence of emotion trigger(wv) using the following formula: wv(eti ) = w(m) * v(eti ) , where • w(m) is the weight of modifier • v(eti)is the emotion trigger valence • i is the index of the level The total valence of text is equal to the sum of all weighted valences of all emotion triggers in the text. For values lower than -50, the final value assigned is -1, for values between -50 and 50 the final value is set to 0 and for values higher than 50, the final value will be 1. Pr( e, L) Pr( e) Pr( L) , where Pr(e,L) is the probability of the emotion in the given level Pr(e) is the probability of the emotion Pr(L) is the probability of the level or category Construction-Integration Model The Construction-Integration Model is a psychological model of text comprehension (Kintsch, 1999), based on the idea that while reading a text, a person will activate the 2 112 http://garraf.epsevg.upc.es/freeling/ Applying a culture dependent emotion triggers database for text valence and emotion classification Further, we calculate the emotions present in the text, by computing the emotion to level association ratio for each emotion trigger stemming from Maslow´s pyramid and the emotion to category association ratio for each emotion trigger from Max-Neef´s matrix. We then apply the Contruction Integration Model and construct a spreading activation network. We consider the working memory as being composed of the set of emotion triggers and their association ratio value which is considered as activation value. The semantic memory is set up of the modifiers and the top 5 synonyms and antonyms of emotion triggers with their AR value. We set the value of each emotion trigger to 1. We create a link between all concepts in the semantic memory with all the emotion triggers. We consider the strength of link the higher of the two emotional AR scores. The text is processed in the order in which emotion triggers appear and finally we obtain the activation value for each emotion trigger. The output values of the emotions in text is obtained by multiplying the activation values with 100 and adding the scores obtained for the same emotion from different emotion triggers when it is the case. The values of emotions higher than 50 are mapped to 1 and the values lower than 50 are mapped to a final value of 0 for the emotion. 5 Acc Prec Rec F Eng 95.1 47.2 45.3 46.2 Sp 95.2 46.0 43.8 44.8 Table 2. System results for annotation of ¨fear¨ Although the results show relevant improvements over the ones obtained by previously built systems, in using such a complex system, one could and should use a more complex set of emotions. The set of emotions is rather limited and sometimes does not allow for an accurate assignment of the appropriate emotion for the emotion triggers, but a conventional classification. 6 Conclusions and future work In this paper we presented a method to assign valence and classify emotion in text starting with a database of cultural dependent emotion triggers derived from a theory in pragmatics and 2 motivational and need-based theories. The final classification of texts was done using the cognitive model of construction and integration, the emotion to level and emotion to category association ratio and taking into account valence shifters, outperforming previously obtained results. In order for the system to be complete, we should also build the fourth component of the system, by applying the system on large corpora of news and of world and culture specific data. Part of the future work is also applying a larger set of emotions for classification. Experiments and evaluation The evaluation of the system presented was done using the test data provided within the SemEval Task No. 14: Affective Text test set (Strapparava and Mihalcea, 2007) and its Spanish translation. In the task proposed in SemEval, the objective was to assign valence – positive or negative - and classify emotion of 1000 news headlines provided as test set according to 6 given emotions: joy, fear, sadness, anger, surprise and disgust and their translation to Spanish. The results we obtained are presented in Table 1 for valence classification and in Table 2 for one of the 6 emotions- fear: References Al Masum Shaikh , M., Prendinger, H., Mitsuru, I. 2007. Assessing Sentiment of Text by Semantic Dependency and Contextual Valence Analysis. Lecture Notes in Computer Science. Volume 4738/2007. pp. 191-202 Atserias, J., B. Casas, E. Comelles, M. González, L. Padró and M. Padró FreeLing 1.3: Syntactic and semantic services in an open-source NLP library Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC'06). Genoa, Italy. 2006. Acc Prec Rec F Eng 70.1 75.2 65.0 69.7 Sp 65.0 71.1 66.1 68.5 Table 1. System results for valence annotation Diccionario Ideológico de la Lengua Española, Larousse Editorial, RBA Promociones Editoriales, S.L., ISBN 84-8016-640-1 113 Alexandra Balahur, Andrés Montoyo Esuli, A., Sebastiani, F. 2006. SentiWordNet: A Publicly Available Resource for Opinion Mining. In Proceedings of the 6th International Conference on Language Resources and Evaluation, LREC 2006, Genoa, Italy. Maslow, A.H. 1943. A Theory of Human Motivation. Psychological Review 50 (1943):370-96. Max-Neef, M. A. 1991: Human scale development: conception, application and further reflections. The Apex Press. New York Esuli, A., Sebastiani, F.2005. Determining the semantic orientation of terms through gloss analysis. In Proceedings of CIKM, pp. 617624 Mihalcea, R., Banea, C., Wiebe, J. 2007. Learning Multilingual Subjective Language via Cross-Lingual Projections. In Proceedings of the Association for Computational Linguistics (ACL 2007), Prague, Czeck Republic Fellbaum, C. (ed.). 1999. WordNet: An Electronic Lexical Database, MIT Press, Cambridge, Massachusetts Hu., M. Liu, B.: Mining and summarizing customer reviews. In Proceedings of KDD (2004) Powell, C., Zajicek, M., David, D. (2000): "The generation of representations of word meanings from dictionaries", In ICSLP2000, vol.3, 482-485. Kim, S.M., Hovy, E.H. 2006. Identifying and Analyzing Judgement Opinions. In Proceedings of HLT-NAACL 2006, ACL, pp. 200-207 Sperber, D., Wilson, D.2004. Relevance Theory. In G. Ward and L. Horn (eds) Handbook of Pragmatics. Oxford: Blackwell, pp. 607-632. Kintsch, W. 1999. Comprehension: A Paradigm for Cognition. Cambridge Press, Cambridge, UK Strapparava, C. Valitutti, A. 2004. WordNetAffect: an affective extension of WordNet. In Proceedings ofthe 4th International Conference on Language Resources and Evaluation (LREC 2004), Lisbon, Portugal, pp. 1083-1086. Kintsch, W. 2000. Metaphor Comprehension: A computational theory. Psychonomic Bulletin & Review Lemaire, B., Mandin, S., Dessus,Ph., Denhière, G. 2005. Computational cognitive models of summarization assessment skills. In Proceedings of the 27th Annual Conference of the Cognitive Science Society (CogSci' 2005), B. G. Bara, L. Barsalou and M. Bucciarelli, Ed.Mahwah: Erlbaum, pp. 1266–1271. Strapparava, C., Mihalcea, R. 2007. SemEval2007 Task 14: Affective Text. In Proceedings of the th International Workshop on Semantic Evaluations (SemEval 2007), Prague, Czeck Republic, pp. 70-74 Vázquez, S., Montoyo, A., Rigau, G. 2004. Using relevant domains resource for word sense disambiguation. In Proceedings of ICAI 2004, pp. 784-789. Lin, D. 1998. Dependency-based Evaluation of MINIPAR. In Proceedings of the Workshop on the Evaluation of Parsing Systems 1998, Granada, Spain Wiebe, J., Wilson, T., Cardie, C. 2005. Annotating expressions of opinions and emotions in language. Language Resources and Evaluation 39(2-3), pp. 165-210 Liu, H., Singh, P. .2004. ConceptNet: A Practical Commonsense Reasoning Toolkit. BT Technology Journal, To Appear. Volume 22, forthcoming issue. Kluwer Academic Publishers. Macleod,C., Grishman,R., Meyers,A., Barrett,L., Reeves, R. (1998) NOMLEX: A Lexicon of Nominalizations. Proceedings of EURALEX'98, Liege, Belgium, August 1998. 114 Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 115-119 recibido 08-02-08, aceptado 03-03-08 Test of Complementarity on Sentence Extraction Methods Prueba de complementariedad para métodos de extracción de oraciones Alberto Bañuelos Moro, José de Jesús Lavalle Martı́nez Héctor Jiménez Salazar B. Universidad Autónoma de Puebla Universidad Autónoma Metropolitana Fac. de Ciencias de la Computación Dept. de Tecnologı́as de la Información [email protected], [email protected] [email protected] Resumen: Analizamos tres enfoques para la generación del extracto de un texto con el fin de saber si algún método provee a otro caracterı́sticas complementarias. Se aplicaron los métodos en forma combinada para analizar sus resultados, en un marco teórico propuesto. Los tres enfoques tratados fueron los basados: en gráficas, en términos clave, y en la representatividad de las oraciones. Utilizando la colección DUC 2002, el método basado en representatividad fue el mejor. Sin embargo, no se encontraron caracterı́sticas complementarias entre ellos, aunque a partir del análisis se identificaron algunos rasgos relevantes de los métodos. Palabras clave: extracto automático, caracterı́sticas complementarias de métodos Abstract: In this work three approaches to sentence extraction methods are analyzed. We try to find if the used methods show some complementary features. In order to accomplish this goal, the methods of sentence extraction were applied and combined, analyzing the results in the theoretical framework that we propose. We test three approaches: graph-based, keyword-based and representation-based. The methods were tested using the text collection DUC 2002, obtaining the best performance for a very simple method based on representation index. Even though no complementary methods were found, the results allow to identify some relevant features of the methods. Keywords: sentence extraction method, complementary features of methods 1 Introduction The huge volume of available text in the web contrasts with the quantity of tools to make the growing information profitable to daily activities. Given a text, its title and its index, a summary of it could be the key to decide if the text contains valuable information. There have been many attempts to build a summary from a given text (Hovy, 2005). One of them considers to get an extract; i.e. a reduced set of sentences from the text that better represents it. This work considers the problem related to get an extract from a given text. Getting the extract from a text has been focused on by different ways. For example, in order to choose the most representative sentences from a text, a score is assigned to each sentence based on the similarity between such a sentence and all the terms. This method gets good results and ISSN 1135-5948 its complexity is in O(n2 ), where n is the number of text sentences. Another approach first identifies the “most important” terms used in the text, then the score of each sentence is computed according to the occurrence of those terms in the sentence. Finally, the score determines the representation degree of each sentence (Bueno-Tecpanecatl, Pinto, and Jiménez-Salazar, 2005). Lastly, we cite the method text-rank, which has had a high impact in Natural Language Processing (NLP) applications (Mihalcea, Tarau, and Figa, 2004). The text-rank method (Mihalcea, 2004) is derived from the algorithm page-rank, which has been used to determine the importance of a web page as a function of its relevance in the world wide web; i.e. according to the set of pages refering to, and the set of pages refered from it (Brin and Page, 1998). Many NLP tasks have used multiple © Sociedad Española para el Procesamiento del Lenguaje Natural Alberto Bañuelos-Moro, Héctor Jiménez-Salazar, José de Jesús Lavalle-Martínez sources of information and several methods at the same time, obtaining improvements on the results. We belive it is possible to take advantage from the analysis of a set of methods, therefore we propose a methodology in order to identify strengths of the methods and the possible success of combining them. In this work we try to make clear if there are important differences among some sentence extraction methods. In the rest of this work we deal with complementary methods concept, the used sentence extaction methods, a description of the tests carried out, and finally, a discussion on the given results. 2 lies on the complementary character of the results of methods. Therefore, it is worthy to combine complementary methods. We considered that two methods are complementary if each of them provides exclusive results to some extent. More formally, given two methods, M1 and M2 , a dataset, D, and an evaluation function, E, it is considered that M1 is better than M2 if E(M1 ) > E(M2 ). The result, M1 (D), provided by applying M1 to D may be compared, in a suitable scale, with the result of another method, M2 (D). Considering a measure, ||, of the results (score) we can state a combination, M of the methods: M (D) = M1 (D) if |M1 (D)| > |M2 (D)| or M (D) = M2 (D) if |M1 (D)| < |M2 (D)|. Note that, in this case, M is not guarantee on the enhancement of both methods; nevertheless that |M1 (D)| > |M2 (D)|, we could obtain E(M1 ) < E(M2 ). This is possible if M1 has a decision criteria from which false positive cases take advantage. Besides, if congruence is obtained, |M1 (D)| < |M2 (D)| then E(M1 ) < E(M2 ), the methods would be complementary and, we can rise their performance: E(M ) ≥ E(M1 ) and E(M ) ≥ E(M2 ), i.e. a significative improvement, thus M1 and M2 are considered complementary. We are interested in knowing if methods based on different strategies have inherently different results. This fact may conjecture if they are complementary, whenever combining their results there exists a significative improvement. Now, we give an overview of the applied techniques. Combination of methods In this work, we apply three approaches to sentence extraction and combine some of them to observe possible relationships among them. Our goal is to analyse these approaches in order to strengthen a simple algorithm without losing their efficacy. We stablish three possible levels to combine methods: (1) high level, joining the results of the methods; (2) middle level, combining partial results; and (3) low level, embedding one method in another one. Some examples of these levels follow. In (1), iterative algorithms which in each step refine their results may be considered; Brill’s POS tagger may be seen (Brill, 1994), at least, as the application of two methods: tag assignment and correction assignment. For (2), combining of scores to choose a partial result; voting algorithms used, for instance, in text categorization (Montejo, Urena, and Steinberg, 2005). And in (3) some approaches are: merging, a clear example is quick-sort which can use another sort algorithm to end the recursive process; resources, each method works on some kind of data providing a step within the whole method, word sense disambiguation has some examples of this approach (Ng and Lee, 1996); fusion, in this class any improvement of an algorithm may be considered. In our context, high level combination could require combining of sentences in a similar way to text generation do for summarization. Low level would imply formulating a new method. As we can see, middle level is the simplest one, and according to the results we can investigate other combining strategies. The power of a combination 3 Sentence Extraction Methods In this section we give some details on the used methods. Let T be a text and [o1 , . . . , on ] the sentences that make up T . 3.1 Text-rank The algorithm page-rank and its derivatives (Kleinberg, 1999) use a graph. Broadly speaking, at the beginning of page-rank a value is assigned to each node. Then, in an iterative fashion, it updates the values. After an −convergency to its fixed point is reached, every node has a score; which means the importance degree of the node as a function of the role it played in the paths of the graph. These algorithms belong to the class of iterative algorithms that look for a fix point; similar to the Gauss-Seidel algorithm 116 Test of complementarity on sentence extraction methods to solve simultaneous equations. The edges arrangement can be done in one of the following ways: a directed graph with forward edges (previous sentences pointing to posterior ones); a directed graph with backward edges (posterior sentences pointing to previous ones); or an undirected graph. Let G = (V, E) be the graph that we have constructed, where V is the set of nodes, and E ⊂ V × V is the set of edges. For each vi ∈ V , let In(vi ) be the set of nodes pointing to vi , and let Out(vi ) be the set of nodes pointed by vi (in the case of undirected graphs In(vi ) = Out(vi )). The weighting of the graph is done from a text: each sentence labels a node of the graph, the similarity between two sentences is the weight of the edge that links the corresponding nodes. The similarity between sentences is a measure computed in different ways; for example, by using the following formula: sim(o1 , o2 ) = inter(o1 , o2 ) log(|o1 |) + log(|o2 |) foreach oi ∈ T do si = sim(oi , kywr) 0 T = project2 (sort([(s1 , o1 ), . . . , (sn , on )])) end Now, we will see two methods which obtain an input of the algorithm, namely kywr. 3.2.1 In this case (Kw), an undirected and not weighed graph is constructed taking lexical units as nodes. To define the edges between nodes the co-occurrence criteria, of both terms in a window of N units (Mihalcea and Tarau, 2004) is used. We select the 10 first terms with highest score. 3.2.2 (1) where o1 and o2 are the sentences under consideration, inter(o1 , o2 ) is the number of words belonging to both o1 and o2 , and |oi | the number of words of oi . The text-rank method (TR) is convergent with margin of error . The score of each node is computed as follows: T R(oi ) = (1−d)+d∗ X wji P oj ∈In(oi ) T R(oj ) ok ∈Out(oj ) wjk , (2) where, wij is the weight of the vertex joining oi and oj (sim(oi , oj )), and d is a fix value between 0 and 1. After getting the initial scores, T R is iterated until a fix point is reached using ; see (Mihalcea, 2004) for more details. 3.2 Text-rank Extracting keywords Two methods to get keywords from a text are presented. They get the sentences score by computing the similarity between the set of keywords of the text and the sentence (formula (1)). The next code may clear the previous statement: Transition rank Another method used in this work takes terms of mid-frequency as the base to get an extract. It has been seen (UrbizagásteguiAlvarado, 1999) that such terms have high semantical contents. We use the transition point (TP) method to get terms of midfrequency. The TP is a frequency that divides the vocabulary of a text into words of high and low frequency. In this way, the terms with a frequency around the TP are candidates for important terms; therefore, to choose mid-frequencies, a threshold must be given. This method was used in (Bueno-Tecpanecatl, Pinto, and JiménezSalazar, 2005) to get extracts. Also TP has been used in text clustering (JiménezSalazar, Pinto, and Rosso, 2005). In the present work, we use the transition rank method (see (Pérez et al., 2006)) because it does not need to define a threshold around the TP in order to select terms. When the terms of mid-frequency have been found, they are used to compute the score of each sentence accounting the mid-frequency terms contained in the sentence. An analog procedure may followed taking the keywords provided by text-rank algorithm (Mihalcea, 2004). Essentially the procedure (TPR) is to choose terms with a frequency in a rank from the lowest not repeated frequencies to the highest repeated frequencies. The terms with such frequencies presumably have high semantical contents, and they are taken as the keywords of the text. Algorithm: Ordering of sentences; input T : list of sentences; kywr : list of words; output T 0 : list of sentences; // ordered begin 117 Alberto Bañuelos-Moro, Héctor Jiménez-Salazar, José de Jesús Lavalle-Martínez 3.3 Method TR TPR Kw RI Representation index In (Marcu, 1999) a simple method to generate the extract of a text was proposed. The key idea of this method is the representativeness index of a sentence, which in turn, the index is determined in the following way: the importance degree of a sentence oi is determined inversely to the similarity between the text T removing oi and T ; since if oi is important, and removing it from T make less similar this text to T. Then, the sentences are ordered according to its index: o1 , . . . , on , where sim(T − [oi ], T ) ≤ sim(T − [oi+1 ], T ), 1 ≤ i < n. We made a little variant to this method using the sentence instead of text diminished by the sentence: o1 , . . . , on , where sim([oi ], T ) ≥ sim([oi+1 ], T ), 1 ≤ i < n. This method (RI) directly computes the score of each sentence oi applying the formula (1) to the sentence and the full text: sim(oi , T ). RI uses the same code as above (Odering of sentences) replacing T instead kywr in the similarity function. 4 4.3 Evaluation To evaluate the results, the automatic summaries evaluation package, ROUGE was used, it is based on statistics of N-grams. ROUGE was used with: ROUGE-L, confidence interval of 95%, without reserved words, score formula model average, assigning the same importance to precision and recall, and averaging the score of the units. Table 1 shows the values gotten in evaluating the results by ROUGE. The representation index method had the highest value (0.6284). Experiments Dataset 5 Discussion Three approaches to sentence extraction were applied to the collection DUC 2002: keyword-based (TPR, Kw), representationbased (RI) and, graph-based (TR). The best method was RI. Combining its results, through score maximization, the evaluation revealed they are not complementary; one of them can not help the other. Since they share score function and data from the text, the combination improved only one method: E(M1 ) < E(M ) < E(M2 ). In Table 1 we can see higher scores are shown by methods which use the full sentences in order to determine the score. Those methods whose parameters were a reduced set of words, i.e. keyword-based, got the lowest evaluation. And how they calculate the keywords was not important because the difference between score values was very small. Applied procedure The methods described above were applied: TPR, transition rank; Kw, keywords using text-rank; RI, representation index; and TR, text-rank. In the case of the text-rank algorithm, having the text already preprocessed, a graph was constructed applying the formula (2) with d = 0.85 (Mihalcea, 2004). The initial value assigned to each node was 1, and the convergency error was = 0.001. It took 1 Document Understanding http://duc.nist.gov/. Score 0.5416 0.5498 0.4813 0.6148 an average of 18 iterations to reach the fixed point. To produce the extract from each text the 7 sentences with the highest score were taken, independently of the method considered. Some method combinations were made in order to know the possible relationship between them. The combination consisted of getting the score of each sentence, by computing the maximum between the score of two methods M1 , M2 : max(score(M1 ), score(M2 )). The experiments were made on 533 articles, about news in the English language, from the DUC 2002 collection1 they have no format at all. Each text was converted to lower-case, spaces were inserted to separate punctuation symbols. The texts were divided into sentences (taking the period as a separator), empty lines and stopwords were deleted. 4.2 Method max(TR,TPR) max(TR,Kw) max(Kw,TPR) max(TR,RI) Table 1: Evaluation of the methods and some combinations. A description of the used data, its preprocessing, and an evaluation of the results is now given. 4.1 Score 0.5761 0.4711 0.4969 0.6284 Conference, 118 Test of complementarity on sentence extraction methods This result is explained by the lose of information, since they only worked with isolated terms. For high score, the differences among the methods are mainly given by the parameters used in the similarity function. RI method used as a parameter the whole text to calculate the score, while TR method extends the similarity between sentences to all sentences indirectly through iteration. In spite of using the whole text, RI could introduce noise in the computation of similarity, when it was used the highest performance was obtained. It seems that used information in graph-based method cannot be incorporated throughout iteration as it was done in the representation-based method. The strength of TR is the iteration2 , which refine scores of sentences, whilst the strength for RI is the use of full text. These features may help to formulate a better algorithm considering a deeper representation of the text sentence, for instance using relative position of terms in the sentence; and a richer class of nodes in the graph-based method, as the application of TR to connected components instead of nodes. These issues as well as test of combination at high or low level, varying the dataset and evaluation system will be considered as future work. Jiménez-Salazar, Héctor, David Pinto, and Paolo Rosso. 2005. Uso del punto de transición en la selección de términos ı́ndice para agrupamiento de textos cortos. Procesamiento del Lenguaje Natural, 35:383–390. Kleinberg, J.M. 1999. Authoritative sources in a hyperlinked environment. Journal of the ACM, 46(5):604–632. Marcu, Daniel. 1999. The automatic construction of large-scale corpora for summarization research. In Proceedings of the SIGIR of ACM 99, pages 137–144. Mihalcea, Rada. 2004. Graph-based ranking algorithms for sentence extraction, applied to text summarization. In The Companion Volume to the Proc. of 42st Annual Meeting of the ACL, pages 170–173, Barcelona, Spain, July. Association for Computational Linguistics. Mihalcea, Rada and Paul Tarau. 2004. Textrank: bringing order into text. In The Companion Volume to the Proc. of 42st Annual Meeting of the ACL, pages 190– 193, Barcelona, Spain, July. Association for Computational Linguistics. Mihalcea, Rada, Paul Tarau, and Elizabeth Figa. 2004. PageRank on Semantic Networks, with application to Word Sense Disambiguation. In Proc. of the 20st International Conference on Computational Linguistics. References Brill, Erick. 1994. Some advances in rulebased part of speech tagging. In AAAI, editor, Proceedings of the AAAI Conference. Montejo, Arturo Ráez, Alfonso Urena, and Ralf Steinberg. 2005. Text categorization using bibliographic records: beyond document content. Procesamiento del Lenguaje Natural, 35:119–126. Brin, Sergey and Lawrence Page. 1998. The anatomy of a large-scale hypertextual web search engine. Computer Networks and ISDN Systems, 30:1–7. Ng, Hwee Tou and Hian Beng Lee. 1996. Integrating Multiple Knowledge Sources to Disambiguate Word Sense: An Exemplar Based Approach. In Proc. the 34th Annual Meeting of the ACL. Bueno-Tecpanecatl, Claudia, D. Pinto, and Héctor Jiménez-Salazar. 2005. El párrafo virtual en la generación de extractos. Research on Computing Science, 13:85–90. Pérez, David, José Tepacuacho, Héctor Jiménez, and Grigori Sidorov. 2006. A term frequency range for text representation. Research on Computing Science, 20:113–118. Hovy, Eduard. 2005. Text summarization. In R. Mitkov, editor, The Oxford Handbook of Computational Linguistics. Oxford University Press, 1st edition, pages 583– 598. Urbizagástegui-Alvarado, Rubén. 1999. Las posibilidades de la ley de Zipf en la indización automática. Technical report, Universidad de California Riverside, California, USA. 2 Actually TR outperformed (HITS, 0.5023) the top systems of DUC 2002 (0.5011) (Mihalcea and Tarau, 2004). 119 Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 121-127 recibido 06-02-08, aceptado 03-03-08 Categorización de textos biomédicos usando UMLS∗ Biomedical text categorization using UMLS José Manuel Perea Ortega Arturo Montejo Ráez María Teresa Martín Valdivia Manuel Carlos Díaz Galiano Universidad de Jaén, Campus Las Lagunillas Edicio A3. E-23071 {jmperea,maite,amontejo,mcdiaz}@ujaen.es Resumen: En este artículo se presenta un sistema automático de categorización de texto multi-etiqueta que hace uso del metatesauro UMLS (Unied Medical Language System). El sistema ha sido probado sobre un corpus biomédico que incluye textos muy cortos pertenecientes a expedientes de niños con enfermedades respiratorias. El corpus ha sido enriquecido utilizando las ontologías que incluye UMLS y los resultados obtenidos demuestran que la expansión de términos realizada mejora notablemente al sistema de categorización tradicional. Palabras clave: Categorización de texto, Ontologías, UMLS, Integración de conocimiento, Expansión de términos Abstract: In this paper we present an automatic system for multi-label text ca- tegorization which makes use of UMLS (Unied Medical Language System). Our approach has been tested on a biomedical corpus which includes very short texts belonging to expedients of children with respiratory disseases. The corpus has been enriched by using those ontologies integrated in UMLS and the results obtained show that the term expansion approach proposed greatly improves the traditional categorization system. Keywords: Text categorization, Ontology, UMLS, Knowledge integration, Term expansion 1. Introducción No cabe duda que la información es uno de los recursos fundamentales en cualquier ámbito profesional o personal. Sin embargo, en los últimos años, la cantidad de información generada diariamente de manera electrónica está creciendo de forma exponencial. De hecho, el acceso a dicha información se está convirtiendo en un gran problema. Esta saturación de información está provocando que gran parte de la investigación en nuevas tecnologías esté siendo orientada a la recuperación y uso eciente de dicha información. Parte de esta investigación hace uso de técnicas y herramientas propias del Procesamiento del Lenguaje Natural (PLN). El PLN es una disciplina que ha demostrado a lo largo de los años que es imprescindible ∗ Este trabajo ha sido nanciado por el Ministerio de Ciencia y Tecnología a través del proyecto TIMOM (TIN2006-15265-C06-03). ISSN 1135-5948 para mejorar la precisión de los sistemas de información (Mitkov, 2003) tales como sistemas de categorización de documentos, sistemas de recuperación de información monolingüe y multilingüe, sistemas de extracción de conocimiento, sistemas de generación automática de resúmenes... En este trabajo se presenta un sistema de categorización de textos multi-etiqueta que ha sido entrenado en un entorno biomédico. La categorización de textos es una de las tareas fundamentales del PLN y que mas ampliamente han sido estudiadas (Sebastiani, 2002). La categorización consiste en determinar si un documento dado pertenece a un conjunto de categorías predeterminadas. Por otra parte, una de las técnicas que han sido utilizadas para aumentar la precisión de los sistemas consiste en la integración de recursos externos que permitan obtener una información de mayor calidad. Así por ejemplo, © Sociedad Española para el Procesamiento del Lenguaje Natural José Manuel Perea Ortega, María Teresa Martín Valdivia, Arturo Montejo Ráez, Manuel Carlos Díaz Galiano la integración de conocimiento mediante el uso de ontologías ha conseguido muy buenos resultados en numerosos sistemas. Por ejemplo, WordNet1 (Miller, G.A. et al., 1993) ha sido utilizada con éxito en multitud de trabajos relacionados con recuperación de información, desambiguación e incluso categorización de textos (Martín Valdivia, Ureña López, y García Vega, 2007). Por otra parte, en el entorno biomédico se están desarrollando muchos sistemas de información que hacen uso de recursos externos como ontologías. Los trabajos realizados demuestran que la integración de conocimiento puede ayudar a mejorar los sistemas. Por ejemplo, la ontología GO2 (Gene Ontology) ha constituido una fuente de información incalculable para muchos investigadores que trabajan con temas relacionados con el genoma humano (Bontempi, 2007). La ontología MeSH (Medical Subject Headings) ha sido aplicada con éxito para expandir términos de las consultas en sistemas de recuperación de información (Díaz Galiano et al., 2007). Sin embargo, la mayoría de los trabajos que integran información a partir de ontologías han estado orientados a la recuperación y extracción de información más que a la categorización de texto. En un trabajo anterior (Martín Valdivia et al., 2007) hicimos uso de la ontología MeSH pero los resultados obtenidos no fueron muy prometedores. El sistema desarrollado realizaba una expansión de términos que tenía en cuenta la jerarquía de conceptos de MeSH usando los nodos padres, hijos y/o hermanos. En este artículo se propone usar el metatesauro UMLS que incluye varias ontologías médicas (entre ellas la ontología MeSH) para realizar una expansión de términos a la colección de documentos CCHMC. Con esto, se pretende conseguir una mejor categorización de textos multi-etiqueta integrando el conocimiento incluido en UMLS sobre el corpus CCHMC. El artículo se organiza de la siguiente manera: en primer lugar, se describe brevemente la tarea de categorización de textos multietiqueta así como el sistema categorizador utilizado. A continuación, se presentan el corpus biomédico utilizado (el corpus CCHMC). El metatesauro UMLS se describe en la siguiente sección junto con la manera de expandir los términos del corpus. En la sección cinco se muestran los experimentos y resultados obtenidos. Finalmente, se comentan las conclusiones y trabajos futuros. 2. Categorización de textos multi-etiqueta La asignación automática de palabras clave a los documentos abre nuevas posibilidades en la exploración documental (Montejo Ráez y Steinberger, 2004), y su interés ha despertado a la comunidad cientíca en la propuesta de soluciones. La disciplina de la Recuperación de Información (RI), junto con las técnicas para el Procesamiento del Lenguaje Natural (PLN) y los algoritmos de Aprendizaje Automático (Machine Learning, ML) son el sustrato de donde emergen las tareas de Categorización Automática de Textos (Sebastiani, 2002). Los algoritmos de aprendizaje empleados van desde clasicadores lineales, probabilísticos y métodos de regresión (Joachims, 1998), (Friedman, Geiger, y Goldszmidt, 1997), (Lewis et al., 1996) a redes neuronales (Martín Valdivia, García Vega, y Ureña López, 2003; Li et al., 2002), pasando por técnicas de voto y boosting (Li et al., 2002; Bauer y Kohavi, 1999). En la clasicación de documentos se distinguen tres casos: categorización binaria, cuando el clasicador debe devolver una de entre dos posibles categorías, categorización multi-clase, cuando el clasicador debe proporcionar una categoría de entre varias propuestas. Por último, tenemos el caso más complejo, la categorización multi-etiqueta, donde el clasicador debe determinar un número indenido de clases de entre una amplia variedad de candidatas. En cualquier caso, los sistemas de categorización automáticos se componen habitualmente de dos módulos principales: un procesador de documentos y un algoritmo de entrenamiento y clasicación. El primero transforma los textos a representaciones manejables por los segundos, generalmente siguiendo el modelo de espacio vectorial. El segundo aplica algoritmos de aprendizaje automático para modelizar los clasicadores. El dominio biomédico ha sido uno de los más interesados en el desarrollo y progreso de este tipos de sistemas, al contar con una larga tradición en el uso de ontologías y vocabularios controlados para el manejo de documentos, siendo el multi-etiquetado el problema que se plantea en general. 1 http://wordnet.princeton.edu 2 http://www.geneontology.org 122 Categorización de textos biomédicos usando UMLS BIOSIS categorizaba documentos a partir de un vocabulario de 15,000 términos biológicos que se podían resumir en 600 conceptos (Vieduts-Stokolo, 1987). Esta clasicación era jerárquica, y si sólo se consideraba el nivel primario en torno al 75 % de los conceptos quedaban cubiertos por el sistema. La precisión rozaba el 65 %. Medical Subject Headings (MeSH) es una taxonomía de conceptos médicos usados para la categorización de documentos en la base de datos MEDLINE. El sistema desarrollado por Bruno Pouliquen (Pouliquen, Delamarre, y Beux, 2002) denominado Nomindex es una de las primeras propuestas para la automatización de su etiquetado. Su sistema aplicaba principalmente medidas estadísticas típicas dentro del mundo de la Recuperación de Información dando como resultado un sistema más que aceptable. Podemos citar también el trabajo de Wright et al. (Wright et al., 1999) en el desarrollo de una herramienta para el indexado de documentos en el UMLS (siglas de Unied Medical Language System en inglés). Este sistema hace también uso intensivo de recursos lingüísticos como el reconocimiento de componentes nominativos (noun phrases ) o sinónimos. Una combinación de la información en el título, el resumen y el contenido permite asignar a cada concepto del tesauro MeSH. Nuestro enfoque se ha centrado en el uso de las ontologías médicas como un recurso para la mejora de los sistemas de categorización mediante la expansión de términos en la consulta. Con respecto a trabajos anteriores (Martín Valdivia et al., 2007), hemos modicado el método de expansión, pasando de usar exclusivamente MeSH y una expansión basada en recorridos sobre la jerarquía de términos a una expansión sobre UMLS a través de la interfaz MetaMap Transfer 3 . El conjunto de datos utilizado no diere, así como el sistema de categorización y evaluación: hemos aplicado la herramienta TECAT4 sobre el corpus CCHMC (detallado más adelante) mediante una validación cruzada. Si bien los resultados eran desalentadores, consideramos que el problema debía radicar en la ontología usada así como en la forma en que ésta fue aplicada. Es por ello que estudiar un cambio de enfoque era necesario a la hora de emitir un juicio acerca de los efectos que la integración de estos recursos producen en la categorización de textos biomédicos. 3. La colección CCHMC Esta colección de 978 documentos ha sido preparada por The Computational Medicine Center 5 . Dicho corpus incluye registros médicos anónimos recopilados en el departamento de radiología del Hospital infantil de Cincinnati (the Cincinnati Children's Hospital Medical Center's Department of Radiology - CCHMC) (cmc, 2007). Estos documentos son informes radiológicos que están etiquetados con códigos del ICD-9-CM (Internacional Classication of Diseases 9th Revision Clinical Modication). Se trata de un catálogo de enfermedades codicadas con un número de 3 a 5 dígitos con un punto decimal después del tercer dígito. Los códigos ICD-9-CM son un subgrupo de los códigos ICD-9. Están organizados de manera jerárquica, agrupándose varios códigos consecutivos en los niveles superiores. Estos códigos están relacionados con enfermedades del sistema respiratorio únicamente y sus valores se establecen dentro del rango de números 460 al 5196 . Cada documento contiene dos campos de texto a partir del cual se ha construido el cuerpo a procesar: CLINICAL_HISTORY e IMPRESSION. Ambos campos son, por lo general, muy breves, veamos un ejemplo: CLINICAL_HISTORY: Eleven year old with ALL, bone marrow transplant on Jan. 2, now with three day history of cough. IMPRESSION: 1. No focal pneumonia. Likely chronic changes at the left lung base. 2. Mild anterior wedging of the thoracic vertebral bodies. La brevedad de contenido nos hace pensar que la expansión de términos debería contribuir a una mejora del sistema de categorización, al aumentar el número de características representativas de cada documento. El proceso seguido para dicha expansión se describe más adelante. 5 http://www.computationalmedicine.org 6 Se puede consultar dicho catálogo de códigos ICD-9-CM en la dirección http://www.cs.umu.se/∼medinfo/ICD9/ icd9cm_group8.html 3 http://mmtx.nlm.nih.gov/index.shtml 4 http://sinai.ujaen.es/wiki/index.php/TeCat 123 José Manuel Perea Ortega, María Teresa Martín Valdivia, Arturo Montejo Ráez, Manuel Carlos Díaz Galiano 4. UMLS UMLS7 es un repositorio de varias ontologías biomédicas desarrollado por la Biblioteca Nacional de Medicina de Estados Unidos. UMLS integra más de 2 millones de nombres para unos 900,000 conceptos procedentes de más de 60 familias de vocabularios biomédicos, así como 12 millones de relaciones entre esos conceptos (Bodenreider, 2004). UMLS es un sistema que garantiza referencias cruzadas entre más de treinta vocabularios y clasicaciones. La mayoría de estas referencias cruzadas se realizan gracias al análisis léxico de los términos, de ahí su inclusión en la categoría de sistemas léxicos de clasicación en el dominio biomédico (Ceusters et al., 1997). Algunos ejemplos de ontologías que incorpora UMLS son ICD-9CM, ICD-10, MeSH, SNOMED CT, LOINC, MEDLINE, WHO Adverse Drug Reaction Terminology, UK Clinical Terms, RxNORM, Gene Ontology, and OMIM. UMLS está formado por tres componentes principales: Figura 1: Procesamiento de un texto con MetaMap semánticos denidos y 54 relaciones entre ellos. UMLS tiene varias herramientas software de soporte como MetaMap . MetaMap es una herramienta online que se utiliza para encontrar conceptos relevantes del Metatesauro dado un texto arbitrario. MetaMap Transfer (MMTx) provee la misma funcionalidad que MetaMap pero como programa Java. Para los experimentos de este trabajo hemos utilizado esta interfaz. El Metatesauro. Es la base de datos núcleo de UMLS, una colección de conceptos, términos y sus relaciones. El Metatesauro está organizado por conceptos, y cada concepto tiene atributos especícos que denen su signicado y lo enlazan a sus correspondientes nombres de conceptos en las distintas ontologías que conforman UMLS. También se representan numerosas relaciones entre conceptos, tales como ”es un ”, ”es parte de ”, ”es causado por ”, etc. 4.1. Expansión de CCHMC usando UMLS Para expandir con UMLS cada chero de texto de la colección CCHMC hemos utilizado la herramienta MetaMap Transfer (MMTx). El texto de cada chero se procesa a través de una serie de módulos. En primer lugar, el texto se divide en componentes como párrafos, sentencias, frases, elementos léxicos y tokens. Después, las distintas variantes se generan a partir de las frases detectadas. Los conceptos candidatos del Metatesauro UMLS son recuperados y evaluados en relación a estas frases. Los conceptos candidatos que mayor similitud tengan con la frase se organizan en un mapping nal que será el que se utilice para la expansión de términos. Se puede observar el procesamiento que sigue el texto de un documento con MetaMap en la Figura 1. El pseudocódigo seguido en los experimentos para realizar la expansión de términos a El Lexicón Especializado. Es una base de datos de información lexicográca para uso en Procesamiento de Lenguaje Natural. Contiene información sobre vocabulario común, términos biomédicos, términos encontrados en MEDLINE y en el propio Metatesauro. Cada entrada contiene información sintáctica, morfológica y ortográca. La Red Semántica. Es un conjunto de categorías y relaciones usadas para clasicar y relacionar las entradas en el Metatesauro. Cada concepto en el Metatesauro se asigna al menos a un tipo semántico o categoría. Existen 135 tipos 7 http://www.nlm.nih.gov/research/umls 124 Categorización de textos biomédicos usando UMLS un documento de la colección CCHMC se explica a continuación: 1. Para cada sentencia encontrada en el documento obtenemos las frases detectadas. 2. Para cada frase obtenemos su mapping nal (mejores conceptos candidatos). 3. Para cada concepto candidato: Obtenemos su nombre UMLS y lo añadimos al conjunto de términos expandidos (si no estuviera ya añadido). Añadimos también al conjunto de la expansión el grupo de términos sinónimos que conforman dicho concepto, es decir, aquellos términos que aparecen en distintas ontologías de UMLS y que pertenecen al concepto en cuestión, controlando que no haya términos repetidos. En la Figura 2 podemos ver varios ejemplos de expansión realizada con la herramienta MetaMap Transfer (MMTx) a un documento de la colección CCHMC, siguiendo las estrategias que se explican en el apartado 5. Figura 2: Ejemplos de expansión UMLS de un documento de la colección CCHMC descrito en el apartado 4.1. En algunas ocasiones, los términos de expansión obtenidos de la ontología estaban compuestos por más de una palabra o token. Esta característica nos ha permitido utilizar dos estrategias en el proceso de expansión: 5. Experimentos y resultados Para este trabajo se han realizado varios experimentos con distintos tipos de expansión UMLS y con diferentes algoritmos de aprendizaje automático. Concretamente se ha utilizado el algoritmo SVM (Support Vector Machine) y una red neuronal tipo perceptrón denominada PLAUM. Para estos algoritmos se han considerado sus conguraciones por defecto, sin variaciones de ningún parámetro. También se ha utilizado expansión de términos haciendo uso de una ontología médica como UMLS para incorporar información de calidad a los documentos de la colección que ayude a mejorar la categorización de los mismos. Los resultados demuestran que el uso de SVM es mejor que PLAUM cuando no se aplica expansión de términos. En cambio, PLAUM mejora cuando hemos utilizado expansión. Para todos los casos, el uso de la expansión de términos con UMLS mejora el caso base. La expansión de los documentos de la colección CCHMC se ha realizado utilizando la ontología médica UMLS. El procedimiento seguido para realizar dicha expansión se ha Estrategia joint . Consiste en conside- rar los términos de expansión de más de una palabra como un único token. Para ello, hemos sustituido los espacios entre las palabras del término por el símbolo subrayado. De esta forma se consigue introducir más términos diferentes para el posterior proceso de clasicación. Estrategia no-joint . Consiste en sepa- rar los tokens de aquellos términos de expansión formados por más de una palabra y añadirlos por separado a la expansión, comprobando que no haya tokens repetidos. Con esta estrategia, al contrario de lo que ocurre con la anterior, el número total de términos añadidos a los documentos de la colección es bastante inferior. En la Figura 2 se puede observar el resulta125 José Manuel Perea Ortega, María Teresa Martín Valdivia, Arturo Montejo Ráez, Manuel Carlos Díaz Galiano P R F1 PLAUM 80.91 % 64.08 % 71.52 % SVM P R F1 90.48 % 61.79 % 73.43 % Tabla 1: Micro-averaging sin expansión P R F1 PLAUM 85.17 % 69.49 % 76.53 % PLAUM 84.97 % 71.13 % 77.44 % SVM 92.98 % 64.80 % 76.37 % Tabla 3: Micro-averaging con expansión joint SVM las diferencias no son muy importantes (2,33 puntos para la estrategia no-joint y 1,38 puntos para la expansión joint ). 92.04 % 62.92 % 74.74 % 6. Conclusiones y trabajo futuro Tabla 2: Micro-averaging con expansión nojoint En este trabajo se ha presentado un estudio sobre la integración de conocimiento médico en la categorización multi-etiqueta de documentos biomédicos. Para ello, se ha expandido el corpus utilizado (CCHMC) en el proceso de categorización multi-etiqueta con el tesauro médico UMLS. Para realizar el estudio se han utilizado dos algoritmos de aprendizaje como SVM y PLAUM. Aunque las diferencias encontradas entre ambos algoritmos no son determinantes, parece que PLAUM funciona mejor cuando utilizamos cualquiera de las dos estrategias de expansión explicadas. No obstante, no consideramos relevantes las diferencias. Los resultados corroboran la conveniencia de integrar conocimiento externo procedente de una ontología especíca, en este caso UMLS. Estos resultados ponen de maniesto que, independientemente del algoritmo utilizado, la expansión de términos usando UMLS mejora considerablemente los resultados. En el futuro se intentarán aplicar estas técnicas de expansión con UMLS a otros corpus biomédicos para comprobar su rendimiento. Por otro lado, se tiene pensado aplicar las mismas estrategias seguidas en este trabajo sobre otras tareas de PLN como minería de textos o recuperación de información biomédica. do de la aplicación de ambas estrategias de expansión a un documento de la colección. Con respecto a la evaluación de los resultados obtenidos, las medidas consideradas son la precisión (P), la cobertura (R) y la F1, siendo ésta última la que nos da una visión más completa del comportamiento del sistema. Estas medidas han sido obtenidas mediante micro-averaging sobre validación cruzada en 10 particiones (10-fold cross-validation ), es decir, repitiendo el experimento 10 veces con distintas colecciones de entrenamiento y evaluación, y calculando, cada vez, los aciertos y fallos en cada clase de forma acumulativa y calculando los valores nales sobre dichos valores acumulados. Se pueden observar los resultados obtenidos para los distintos experimentos en las tablas 1, 2 y 3 para la medida micro-averaging. Si analizamos los resultados desde el punto de vista de la expansión de los documentos, se puede armar que la integración de UMLS mejora notablemente los resultados sin expansión. En concreto, para el algoritmo PLAUM, la medida F1 mejora en 6,54 puntos si se utiliza expansión no-joint y en 7,64 puntos con expansión joint. Para el algoritmo SVM ocurre igual pero con una diferencia más pequeña que el PLAUM (1,75 puntos con expansión no-joint y 3,84 puntos con expansión joint ). En cuanto a los algoritmos de aprendizaje utilizados, se puede observar que la expansión funciona tanto para PLAUM como para SVM, pero hay que señalar que SVM funciona mejor que PLAUM cuando no se aplica expansión de términos (2,6 puntos mejor). En cambio, con PLAUM se han obtenido mejores resultados que con SVM cuando hemos utilizado expansión de términos UMLS, aunque Bibliografía 2007. CMC. The Computational Medicine Center's 2007 Medical Natural Language Processing Challenge. Bauer, Eric y Ron Kohavi. 1999. An Empirical Comparison of Voting Classication Algorithms: Bagging, Boosting, and Variants. Machine Learning, 36(1-2):10513, August. Bodenreider, Olivier. 2004. The Unied Medical Language System (UMLS): inte126 Categorización de textos biomédicos usando UMLS grating biomedical terminology. Nucleic Acids Research, 32. Martín Valdivia, M.T., A. Montejo Ráez, M.C. Díaz Galiano, y L.A. Ureña López. 2007. Integración de conocimiento en un dominio especíco para la categorización multietiqueta. Procesamiento del Lenguaje Natural, 38. Bontempi, Gianluca. 2007. A Blocking Strategy to Improve Gene Selection for Classication of Gene Expression Data. IEEEACM Transactions on Computational Biology and Bioinformatics, 4(2):293300. Martín Valdivia, M.T., L.A. Ureña López, y M. García Vega. 2007. The learning vector quantization algorithm applied to automatic text classication tasks. Neural Networks, 20(6):748756. Ceusters, W., F. Buekens, G. De Moor, y A. Waagmeister. 1997. The distinction between linguistic and conceptual semantics in medical terminology and its implications for NLP-based knowledge acquisition. En IMIA Working Group 6, Jacksonville, Florida. Miller, G.A., Beckwith, R., Fellbaum, C., Gross, D., y Miller, K. 1993. Introduction to WordNet: An On-line Lexical Database. Díaz Galiano, M.C., M.A. García Cumbreras, M.T. Martín Valdivia, A. Montejo Ráez, y L.A. Ureña López. 2007. Using Information Gain to Improve the ImageCLEF 2006 Collection. En CLEF, volumen 4730 de Lecture Notes in Computer Science, páginas 711714. Springer. Mitkov, Ruslan, editor. 2003. The Oxford Handbook of Computational Linguistics. Oxford University Press. Friedman, Nir, Dan Geiger, y Moises Goldszmidt. 1997. Bayesian Network Classiers. Mach. Learn., 29(2-3):131 163. Pouliquen, Bruno, Denis Delamarre, y Pierre Le Beux. 2002. Indexation de textes médicaux par extraction de concepts, et ses utilisations. En A. Morin & P. Sébillot (eds.), editor, 6th International Conference on the Statistical Analysis of Textual Data, JADT'2002, volumen 2, páginas 617628, March. Montejo Ráez, A. y R. Steinberger. 2004. Why keywording matters. High Energy Physics Libraries Webzine, (Issue 10), December. Joachims, T. 1998. Text categorization with support vector machines: learning with many relevant features. Proceedings of ECML-98, 10th European Conference on Machine Learning. Springer Verlag, (1398):137142. Sebastiani, Fabrizio. 2002. Machine learning in automated text categorization. ACM Comput. Surv., 34(1):147. Lewis, David D., Robert E. Schapire, James P. Callan, y Ron Papka. 1996. Training algorithms for linear text classiers. En Hans-Peter Frei Donna Harman Peter Schäuble, y Ross Wilkinson, editores, Proceedings of SIGIR-96, 19th ACM International Conference on Research and Development in Information Retrieval, páginas 298306, Zürich, CH. ACM Press, New York, US. Vieduts-Stokolo, Natasha. 1987. Concept recognition in an automatic textprocessing system for the life sciences. Wright, Lawrence W., Holly K. Grossetta Nardini, Alan R. Aronson, y Thomas C. Rindesch. 1999. Hierarchical concept indexing of full-text documents in the R InUnied Medical Language System° formation Sources Map. Journal of the American Society for Information Science, 50(6):514523. Li, Y., H. Zaragoza, R. Herbrich, J. ShaweTaylor, y J. Kandola. 2002. The Perceptron Algorithm with Uneven Margins. En Proceedings of the International Conference of Machine Learning (ICML'2002). Martín Valdivia, M.T., M. García Vega, y L.A. Ureña López. 2003. LVQ for Text Categorization using Multilingual Linguistic Resource. Neurocomputing, 55:665' 679. 127 Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 129-136 recibido 08-02-08, aceptado 03-03-08 Sistemas de Recuperación de Información Geográfica multilingües en CLEF∗ Multilingual Geographical Information Retrieval systems in CLEF José Manuel Perea Ortega Miguel Angel Garcı́a Cumbreras Manuel Garcı́a Vega L. Alfonso Ureña López Universidad de Jaén, Campus Las Lagunillas Edificio A3. E-23071 {jmperea,magc,mgarcia,laurena}@ujaen.es Resumen: En este artı́culo se presenta un estudio comparativo de las distintas estrategias y técnicas de procesamiento del lenguaje natural más utilizadas en la actualidad para abordar la tarea de la recuperación de información geográfica (Geographical Information Retrieval, GIR). Este trabajo se ha basado fundamentalmente en el análisis de los mejores sistemas presentados a la tarea de búsqueda del GeoCLEF, un marco de evaluación para recuperación de información geográfica que pertenece al foro internacional Cross Language Evaluation Forum (CLEF). Las conclusiones obtenidas reflejan que es imprescindible hacer uso de recursos externos de información geográfica, tales como gazetteers y tesauros o reconocedores de entidades. Ası́ mismo es necesario realizar una indexación por separado de la información geográfica y de la no geográfica antes del proceso de recuperación. Palabras clave: Recuperación de Información Geográfica, GeoCLEF, Procesamiento del Lenguaje Natural, Recuperación de Información Abstract: This paper presents a comparative study of several strategies and techniques of natural language processing most used at present to solve the geographical retrieval information (GIR) task. This work has been based on the analysis of the best systems submitted to the search task of GeoCLEF, an evaluation framework for the geographical information retrieval task which belongs to the international forum Cross Language Evaluation Forum (CLEF). The main conclusions show that it is imperative to make use of external geographic information resources such as gazetteers and thesaurus, named entity recognizers and it is necessary to make an index for geographic information only and another index for non-geographic information before the retrieval process. Keywords: Geographical Information Retrieval, GeoCLEF, Natural Language Processing, Information Retrieval 1. Introducción La recuperación de información geográfica (GIR a partir de ahora, del inglés Geographical Information Retrieval) pertenece a una rama especializada de la recuperación de información (IR, del inglés Information Retrieval ) tradicional. Incluye todas las áreas de investigación que tradicionalmente forman el núcleo de la IR, pero además con un énfasis ∗ Este trabajo ha sido financiado por el Ministerio de Ciencia y Tecnologı́a a través del proyecto TIMOM (TIN2006-15265-C06-03) y el proyecto RFC/PP2006/Id514 financiado por la Universidad de Jaén. ISSN 1135-5948 en la información geográfica y espacial. La recuperación de información geográfica se preocupa de la recuperación de información que involucra algún tipo de percepción espacial. Muchos documentos contienen algún tipo de referencia espacial relevante para la búsqueda (Mandl et al., 2007). Existen congresos y foros de evaluación como el Text REtrieval Conference1 (TREC) y el CLEF2 que no evalúan expresamente la relevancia en la tarea de la recuperación de información geográfica. El objetivo del Geo1 2 http://trec.nist.gov http://www.clef-campaign.org © Sociedad Española para el Procesamiento del Lenguaje Natural José Manuel Perea Ortega, Miguel Angel García Cumbreras, Manuel García Vega, L. Alfonso Ureña López CLEF3 es proporcionar el marco de trabajo necesario en el que evaluar estos sistemas GIR en búsquedas de información, teniendo en cuenta aspectos geo-referenciales y multilingües. Es una tarea perteneciente al CLEF que se viene celebrando desde 2005. La principal contribución de este artı́culo es ofrecer una visión general de las estrategias y técnicas de procesamiento del lenguaje natural (PLN) más utilizadas en los sistemas presentados a la tarea GeoCLEF durante los últimos tres años, para resolver la recuperación de información basada en contenido geográfico. El artı́culo se organiza de la siguiente manera: en primer lugar, se describe brevemente la tarea de la recuperación de información geográfica. A continuación, se presentan los recursos utilizados en GeoCLEF. Las principales estrategias usadas en un sistema de recuperación de información geográfica se describen en la siguiente sección. En la sección cinco se muestra un análisis de los resultados obtenidos en el marco del GeoCLEF. Finalmente, se comentan las conclusiones. 2. Figura 1: Arquitectura básica del sistema GIR GeoUJA La tarea de la recuperación de información geográfica Se puede definir la tarea de la recuperación de información geográfica como la recuperación de documentos relevantes en respuesta a una consulta con el formato <tema, localización>, donde la relación espacial puede implicar implı́citamente contenido, o explı́citamente ser seleccionado de un conjunto de posibles opciones topológicas, direccionales o de proximidad (Bucher et al., 2005). La tarea más importante definida en GeoCLEF es la de búsqueda de información geográfica (search task ). Pero GeoCLEF no sólo evalúa sistemas de búsqueda de información geográfica, sino que también está proponiendo nuevas subtareas que se enmarcan dentro de esta rama, como la de análisis de consultas (query parsing), cuyo objetivo es identificar aspectos geográficos en una consulta, o las subtareas piloto que han propuesto para este año 2008 relacionadas con Wikipedia4 y la búsqueda geográfica de imágenes. Para la tarea principal de búsqueda, GeoCLEF organiza a su vez dos subtareas: la monolingüe, 3 4 en la que hay que utilizar el mismo idioma tanto para las consultas como para las colecciones (inglés, alemán o portugués en 2007), y la bilingüe, que implica traducción, ya que el idioma de la consulta tiene que ser distinto al de la colección utilizada. Existen una amplia variedad de enfoques para resolver la tarea GIR, que van desde aproximaciones simples de recuperación de información sin indexación de términos geográficos a arquitecturas que hacen uso de técnicas de procesamiento del lenguaje natural para extraer localizaciones e información topológica de los documentos y las consultas. Algunas de las técnicas usadas en la actualidad incluyen extracción de entidades geográficas, análisis semántico, bases de conocimiento geográfico (como ontologı́as, tesauros o gazetteers), técnicas de expansión de consultas y desambiguación geográfica. En la Figura 1 se puede observar la arquitectura básica empleada en el sistema GIR GeoUJA (Perea Ortega et al., 2007). Este sistema ha sido desarrollado por nuestro grupo de investigación SINAI5 para resolver la tarea http://ir.shef.ac.uk/geoclef http://www.wikipedia.org 5 130 http://sinai.ujaen.es Sistemas de Recuperación de Información Geográfica multilingües en CLEF de la recuperación de información geográfica, presentando distintas versiones del mismo en las competiciones de GeoCLEF 2006 (Garcı́a Vega et al., 2007) y 2007. 3. Granularidad en las referencias a paı́ses. Por ejemplo, “al norte de Italia”. El formato utilizado para las consultas en los años 2006 y 2007 difiere ligeramente del empleado en 2005, ya que no proporciona las entidades geográficas ya etiquetadas. Como se puede observar en la Figura 2, una consulta consta de tres etiquetas: tı́tulo (<title>), descripción (<desc>) y narrativa (<narr>). Normalmente para los experimentos se suele utilizar el texto de las etiquetas tı́tulo y descripción, aunque para algunas consultas es interesante usar el texto de la etiqueta narrativa, ya que contiene descripciones geográficas detalladas que ayudan al motor de búsqueda a definir con más exactitud su criterio de relevancia e incluso, a veces, contiene listados de localizaciones o regiones relevantes para la búsqueda. Recursos Las colecciones de documentos utilizadas en GeoCLEF constan de relatos periodı́sticos ocurridos en los años 1994 y 1995. La colección de inglés contiene historias, noticias y eventos de cobertura nacional e internacional que representan una amplia variedad de regiones geográficas y localizaciones. Esta colección consta de un total de 169.477 documentos y fue compuesta con noticias del periódico inglés The Glasgow Herald (1995) y del periódico americano Los Angeles Times (1994). Además de la colección en inglés, GeoCLEF 2007 proporcionó colecciones en idioma alemán y portugués. En GeoCLEF 2006 se llegó a facilitar incluso una colección de documentos en español. Todas estas colecciones tienen una estructura común: información especı́fica de periódico como fecha, página, tema, tı́tulo, autor y el texto de la noticia. Las colecciones no han sido etiquetadas geográficamente y no contienen información semántica especı́fica sobre localizaciones (Mandl et al., 2007). Un total de 25 consultas fueron generadas para GeoCLEF 2007. Estas consultas han intentado reflejar un punto de vista de usuario razonable, bien preguntando por lugares turı́sticos (por ejemplo la catedral de St. Paul ), definiendo zonas especı́ficas (“al norte de Italia”), o bien desde un punto de vista periodı́stico (“violación de derechos humanos en Myanmar ” o “muertes en el Himalaya”). También se han tratado de reflejar distintas dificultades relacionadas con tareas que aborda el procesamiento del lenguaje natural: Figura 2: Formato de una consulta del GeoCLEF 2007 4. Principales técnicas de PLN aplicadas en un sistema GIR En el estudio de las principales técnicas PLN aplicadas en una arquitectura GIR nos hemos basado en los sistemas presentados en GeoCLEF 2005, 2006 y 2007 para la tarea monolingüe en inglés. En general, todas las arquitecturas presentadas realizan un preprocesamiento tanto a las colecciones de documentos como a las consultas formuladas. Este análisis lingüı́stico consiste en aplicar un extractor de raı́ces (stemmer ), una lista de palabras sin contenido semántico (stop-words), para eliminar las palabras vacı́as, y un Reconocedor de Entidades (Named Entity Recognizer, NER) para detectar y reconocer posibles entidades en cualquier texto. Según el estudio realizado, el stemmer más utilizado es el Porter Stemmer 6 . También Ambigüedad geográfica. Por ejemplo, existe una catedral de St. Paul en Londres y otra en Sao Paulo. Regiones geográficas mal definidas (“cerca del este”). Relaciones geográficas complejas como “cerca de ciudades rusas” o “a lo largo de la costa mediterránea”. Aspectos multilingües. “Greater Lisbon” en inglés es lo mismo que “grande Lisboa” en portugués o que “großraum Lissabon” en alemán. 6 131 http://tartarus.org/martin/PorterStemmer José Manuel Perea Ortega, Miguel Angel García Cumbreras, Manuel García Vega, L. Alfonso Ureña López se usa en varios sistemas, pero con menos frecuencia que el anterior, el Snowball Tartarus 7 . Con respecto a la lista de stopwords para el inglés, la más utilizada ha sido la creada por Salton y Buckley8 , que consta de 571 palabras. En relación a los reconocedores de entidades más empleados, hay sistemas que han optado por implementar sus propios reconocedores haciendo uso de distintas bases de conocimiento geográficas y tesauros (Ferrés y Rodrı́guez, 2007), (Larson, 2007), pero la mayorı́a han empleado Lingpipe 9 como herramienta NER. En nuestro sistema GIR presentado a las dos últimas ediciones del GeoCLEF hemos hecho uso del módulo NER que incorpora la herramienta GATE (General Architecture for Text Engineering)10 , obteniendo buenos resultados. Según el análisis de los distintos sistemas, es poco habitual utilizar herramientas de etiquetado POS (Part Of Speech), aunque algunos sistemas como (Ferrés y Rodrı́guez, 2007) hacen uso de un etiquetador POS estadı́stico llamado TnT. Por último, otra herramienta importante en el ámbito del PLN son los traductores o sistemas de traducción automática (Machine Translation, MT). Para la tarea GIR es necesario utilizarlos cuando la consulta planteada y la colección a indexar están en idiomas distintos (tarea multilingüe). En (Larson, 2007) se hace uso del traductor LEC Power Translator. En nuestro sistema GIR GeoUJA utilizamos un sistema propio de traducción automática llamado SINTRAM (SINai TRAnslation Module) (Garcı́a Cumbreras et al., 2007). 5. mentar su propio motor de búsqueda, como en (Toral et al., 2006), con el sistema IR-n, basado en pasajes, obteniendo buenos resultados en la competición GeoCLEF 2006. Según el estudio, los esquemas de pesado más utilizados en los sistemas IR han sido: TF·IDF, Okapi (Robertson y Walker, 1999), DFR (Divergence From Randomness) (Ounis et al., 2006), BRF (Blind Relevance Feedback ) (Chen, 2003), PRF (Pseudo Relevant Feedback ) (Buckley et al., 1995) y LR (Logistic Regression) o modelo de Regresión Logı́stica (Cooper, Gey, y Dabney, 1992). Existen otros esquemas menos usuales como el de frecuencia inversa de documento con normalización 2 de Laplace o InL2, utilizado en (Guillén, 2007). 5.1. GeoCLEF 2005 En la primera edición del GeoCLEF, a diferencia de las dos posteriores, los organizadores añadieron en las consultas información sobre el concepto principal, las localizaciones y las relaciones espaciales de las mismas. Toda esta información fue extraı́da de forma manual y colocada en etiquetas justo después de las principales de cada topic. Por este motivo, hubo algunas aproximaciones basadas únicamente en recuperación de información clásica, sin ningún tratamiento geográfico. De hecho, de los cuatro sistemas con mayor puntuación en esta edición, tres de ellos se basaron únicamente en un sistema de IR sin tratamiento de la información geográfica. La arquitectura que obtuvo mejores resultados en la tarea monolingüe de inglés fue la presentada por la Universidad de Berkeley (Gey y Petras, 2005), que utilizó un sistema clásico de recuperación de información con un algoritmo de ranking de documentos basado en regresión logı́stica. La mayorı́a de sistemas apostaron por utilizar reconocedores de entidades especializados en el dominio geográfico como una aproximación inicial para resolver esta tarea (Cardoso et al., 2005). Otras arquitecturas también emplearon recursos externos de conocimiento geográfico tales como ontologı́as y gazetteers, ası́ como estadı́sticas sociales y caracterı́sticas fı́sicas de los mismos. En concreto, hicieron uso de gazetteers como GNIS14 (Geographic Names Information System) y GNS15 (Geonet Names Ser- Aproximaciones más utilizadas para resolver la tarea GIR En general, la arquitectura de cualquier sistema GIR parte de un modelo básico de recuperación de información. Por tanto, un elemento esencial en todos los sistemas presentados es la herramienta utilizada como motor de búsqueda. Entre los más usados están Lucene11 , Terrier12 y algo menos Lemur13 . Algunos participantes han optado por imple7 http://snowball.tartarus.org ftp://ftp.cs.cornell.edu/pub/smart/english.stop 9 http://www.alias-i.com/lingpipe 10 http://gate.ac.uk 11 http://lucene.apache.org 12 http://ir.dcs.gla.ac.uk/terrier 13 http://www.lemurproject.org 8 14 15 132 http://www.usgs.gov http://www.nga.mil Sistemas de Recuperación de Información Geográfica multilingües en CLEF ver). El grupo XLDB de la Universidad de Lisboa construyó su propia ontologı́a geográfica basándose en recursos externos como Wikipedia y World Gazetteer16 (Cardoso et al., 2005). Por otro lado, hubo varios sistemas que utilizaron expansión de consulta (Buscaldi, Rosso, y Sanchis Arnal, 2005). La arquitectura presentada por la Universidad Politécnica de Valencia hizo uso de la ontologı́a no geográfica WordNet17 para realizar dicha expansión, basándose en las relaciones de sinonimia y meronimia. 5.2. su sistema es que hicieron uso de desambiguación de referencias geográficas (topónimos) y de similitud geográfica entre ámbitos. Nuestro grupo de investigación SINAI, en su primera participación en GeoCLEF (Garcı́a Vega et al., 2007), optó por el enfoque de expandir las consultas utilizando información geográfica procedente de un NER, de un gazetteer como Geonames18 y de un tesauro generado a partir de las propias colecciones del GeoCLEF. Esta aproximación no ofreció mejores resultados que el caso base (sin expansión de consultas) por lo que concluimos que la expansión no se estaba haciendo correctamente. Esto mismo le ocurrió a la Universidad de Alicante, que quedó en segunda posición en la tarea monolingüe en inglés. El enfoque básico que utilizó este grupo fue el que siguieron la mayorı́a de sistemas presentados en esta segunda edición del GeoCLEF (Toral et al., 2006). GeoCLEF 2006 En GeoCLEF 2006 la variación de arquitecturas presentadas en los distintos sistemas aumentó considerablemente con respecto a la primera edición. Estas aproximaciones variaban desde enfoques básicos de IR sin indexación geográfica a profundos procesamientos del lenguaje natural para extraer lugares y términos topológicos tanto de las colecciones como de las consultas. Algunas de las técnicas especı́ficas usadas fueron: 5.3. GeoCLEF 2007 se presentaba con la novedad de una nueva tarea: clasificación de consultas. Su objetivo era identificar componentes geográficos en las mismas. La tarea principal mantuvo las subtareas monolingüe y bilingüe. Los organizadores continuaron con su esfuerzo de proponer un conjunto de consultas difı́ciles desde el punto de vista geográfico (ver apartado 3). El mejor sistema en la tarea de búsqueda monolingüe en inglés fue el presentado por la Universidad Politécnica de Cataluña (Ferrés y Rodrı́guez, 2007). En este enfoque, a partir del texto de las colecciones, se construyen dos ı́ndices: Técnicas ad-hoc (BRF, descomposición de palabras, expansión manual de consultas). Construcción propia de recursos de conocimiento geográfico a partir de recursos externos (gazetteers como GNIS o World Gazetteer). Expansión de consultas basada en gazetteer y WordNet. Módulos de pregunta-respuesta utilizando recuperación de pasajes. Extracción de entidades geográficas. Índice geográfico. Contiene toda la información geográfica extraı́da del texto de las colecciones (entidades, variaciones de nombres de entidades para resolver posibles ambigüedades, coordenadas geográficas, etc.). Resolución de la ambigüedad geográfica. El sistema presentado por el grupo XLDB de la Universidad de Lisboa (Martins et al., 2006) fue el que obtuvo mejores resultados en la tarea monolingüe en inglés. Volvieron a hacer uso de la ontologı́a geográfica que crearon en la edición anterior y la utilizaron para expandir las consultas. Esta ontologı́a se organiza en conceptos que ellos hacen corresponder con ámbitos geográficos (geographic scopes). De este modo, también utilizaron expansión de consultas basadas en ámbitos geográficos. Otra caracterı́stica interesante de 16 17 GeoCLEF 2007 Índice textual. Almacena los lemas de las palabras con contenido semántico de la colección, sin incluir ninguna información geográfica. Para extraer la información geográfica tanto de las colecciones como de las consultas, hacen uso de una base de conocimien- http://world-gazetteer.com http://wordnet.princeton.edu 18 133 http://www.geonames.org José Manuel Perea Ortega, Miguel Angel García Cumbreras, Manuel García Vega, L. Alfonso Ureña López to geográfico generada por ellos mismos y que consta de tres componentes: Un tesauro geográfico. Este componente fue construido a su vez uniendo cuatro gazetteers: GNS, GNIS, GeoWorldMap 19 y World Gazetteer. Como cada gazetteer tiene distintas clases y conceptos, ellos mapearon estas clases al conjunto de caracterı́sticas proporcionado por el tesauro ADL Feature Type Thesaurus20 (ADLFTT). Un tesauro de tipos de caracterı́sticas. Utilizaron el tesauro ADL Feature Type Thesaurus. Una base de datos que contiene conjuntos de regiones no coincidentes (representadas por polı́gonos) para cada paı́s (Pouliquen et al., 2004). Esta base de datos resuelve tareas como la obtención de los lı́mites de cualquier paı́s, la detección de si unas coordenadas dadas pertenecen a una determinada área, etc. Antes del proceso de recuperación, una fase importante en este sistema es el análisis de la consulta. Este procesamiento se divide en un análisis lingüı́stico de los topics (etiquetado POS, extracción de lemas y de entidades) y en un análisis geográfico, aplicado sobre las localizaciones y organizaciones detectadas durante el análisis lingüı́stico, y que hace uso de la base de conocimiento geográfica explicada anteriormente. Con todos estos ingredientes lanzan la recuperación de documentos teniendo como consulta los lemas (sin información geográfica) del topic en cuestión. Para ello, utilizan Terrier como motor de búsqueda con varios esquemas de pesado (TF·IDF, Okapi y DFR). Por otro lado, obtienen otra lista de documentos recuperados utilizando la información geográfica extraı́da del topic y el ı́ndice geográfico creado con anterioridad. Como motor de búsqueda en este ı́ndice hacen uso de un sistema IR basado en pregunta-respuesta (Question-Answering based IR system). La última fase de la arquitectura consta de un proceso de filtrado con los documentos recuperados por el sistema IR y los recuperados usando la base de conocimiento geográfico y el ı́ndice geográfico. En el ranking final de documentos se colocan primero aquellos que 19 20 Figura 3: Arquitectura básica del sistema TALP presentado por la Universidad Politécnica de Cataluña en GeoCLEF 2007 aparezcan en las dos listas. Se puede ver un esquema del enfoque seguido por la Universidad Politécnica de Cataluña en la Figura 3. El resto de sistemas presentados optaron básicamente por la misma filosofı́a de usar recursos geográficos externos, gazetteers, tesauros, ontologı́as como WordNet e incluso Wikipedia. Mencionar la propuesta de la Universidad Politécnica de Valencia (Buscaldi y Rosso, 2007) que utilizó expansión de consultas con WordNet haciendo uso de tres ı́ndices: uno para términos geográficos (topónimos); otro para términos no geográficos y el último para términos extraı́dos de WordNet holónimos y sinónimos de los topónimos encontrados en el primer ı́ndice. 6. Análisis de resultados En esta sección vamos a analizar los resultados obtenidos por los distintos participantes de las tres últimas ediciones del GeoCLEF para la tarea monolingüe en inglés (ver http://www.geobytes.com http://www.alexandria.ucsb.edu/gazetteer 134 Sistemas de Recuperación de Información Geográfica multilingües en CLEF Año 2005 2005 2005 2006 2006 2006 2007 2007 2007 Universidad Berkeley2 San Marcos Alicante Lisboa Alicante San Marcos Politécnica Cataluña Berkeley1 Politécnica Valencia MAP 0.3936 0.3613 0.3495 0.3034 0.2723 0.2637 0.2850 0.2642 0.2636 información geográfica (entidades, georeferencias, relaciones espaciales, etc.). Técnicas PLN básicas aplicadas tanto a las colecciones como a las consultas: detector y reconocedor de entidades (NER), lematizador, lista de palabras vacı́as y etiquetador POS. Serı́a interesante contar también con un desambigüador de topónimos para resolver ambigüedades geográficas. Tabla 1: Principales resultados del GeoCLEF en la tarea monolingüe inglés En cuanto a la expansión de consultas no queda claro si es recomendable utilizarla. Hay sistemas que han empeorado sus resultados usando esta técnica como (Garcı́a Vega et al., 2007) o (Toral et al., 2006) y otros que los han mejorado (Buscaldi y Rosso, 2007) o (Ferrés y Rodrı́guez, 2007). Tabla 1). En general, se observa una decadencia de resultados en términos de precisión media (Mean Average Precision, MAP) desde 2005 a 2007. Esto es debido fundamentalmente a la mayor innovación y diversidad introducida a la hora de generar las consultas tanto del 2006 como del 2007. Por ejemplo, para los topics del GeoCLEF 2007 se introdujeron dificultades añadidas como relaciones geográficas complejas (“la costa mediterránea”), regiones polı́ticas (“Bosphorus”) o lugares geográficos delicados como lagos, aeropuertos, circuitos de fórmula uno o catedrales. Todo esto ha hecho que la dificultad en resolver la tarea aumente y la precisión obtenida por los sistemas empeore. 7. El uso de otros recursos como WordNet o Wikipedia también pueden ser interesantes. Bibliografı́a Bucher, B., P. Clough, H. Joho, R. Purves, y A. K. Syed. 2005. Geographic IR Systems: Requirements and Evaluation. En Proceedings of the 22nd International Cartographic Conference. Buckley, C., G. Salton, J. Allan, y A. Singhal. 1995. Automatic query expansion using smart: Trec 3. Proceedings of TREC3. NIST, Gaithesburg, MD, páginas 69–80. Conclusiones En este trabajo se ha presentado un estudio sobre las distintas estrategias empleadas para resolver la tarea de la recuperación de información geográfica (GIR), ası́ como las técnicas de PLN más utilizadas. Dicho estudio se ha centrado en los sistemas presentados en GeoCLEF, un marco de evaluación GIR que organiza el CLEF desde el año 2005. Las conclusiones que se derivan de este estudio se resumen a continuación: Buscaldi, D. y P. Rosso. 2007. The UPV at GeoCLEF 2007. En Working Notes of the Cross Language Evaluation Forum (CLEF 2007). Buscaldi, D., P. Rosso, y E. Sanchis Arnal. 2005. A WordNet-based Query Expansion method for Geographical Information Retrieval. En Working Notes of the Cross Language Evaluation Forum (CLEF 2005). Es imprescindible hacer uso de recursos externos de información geográfica, tales como gazetteers y tesauros. Algunos de los más utilizados son: GNIS, GNS, Geonames, World Gazetteer o GeoWorldMap. Cardoso, N., B. Martins, M. Silveira Chaves, L. Andrade, y M.J. Silva. 2005. The XLDB Group at GeoCLEF 2005. En Working Notes of the Cross Language Evaluation Forum (CLEF 2005). Es recomendable la creación de al menos dos ı́ndices para el proceso de recuperación de información: uno que contenga la información no geográfica (ı́ndice textual) y otro sólo con la Chen, Aitao. 2003. Cross-Language Retrieval Experiments at CLEF 2002, volumen 2785 of LNCS Series. SpringerVerlag. 135 José Manuel Perea Ortega, Miguel Angel García Cumbreras, Manuel García Vega, L. Alfonso Ureña López Cooper, W.S., F.C. Gey, y D.P. Dabney. 1992. Probabilistic retrieval based on staged logistic regression. En 15th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Ounis, I., G. Amati, V. Plachouras, B. He, C. Macdonald, y C. Lioma. 2006. Terrier: A High Performance and Scalable Information Retrieval Platform. En Proceedings of ACM SIGIR’06 Workshop on Open Source Information Retrieval (OSIR 2006). Seattle, Washington, USA. Ferrés, D. y H. Rodrı́guez. 2007. TALP at GeoCLEF 2007: Using Terrier with Geographical Knowledge Filtering. En Working Notes of the Cross Language Evaluation Forum (CLEF 2007). Perea Ortega, J.M., M.A. Garcı́a Cumbreras, M. Garcı́a Vega, y A. Montejo Ráez. 2007. GEOUJA System. University of Jaén at GEOCLEF 2007. En Working Notes of the Cross Language Evaluation Forum (CLEF 2007), página 52. Garcı́a Cumbreras, M.A., L.A. Ureña-López, F. Martı́nez Santiago, y J.M. Perea Ortega. 2007. BRUJA System. The University of Jaén at the Spanish task of QA@CLEF 2006. LNCS of Springer-Verlag. Pouliquen, B., R. Steinberger, C. Ignat, y T. De Groeve. 2004. Geographical information recognition and visualization in texts written in various languages. En Proceedings of the 2004 ACM symposium on Applied computing, páginas 1051–1058. Garcı́a Vega, M., M.A. Garcı́a Cumbreras, L.A. Ureña López, y J.M. Perea Ortega. 2007. GEOUJA System. The first participation of the University of Jaén at GEOCLEF 2006, volumen 4730 of LNCS Series. Springer-Verlag. Robertson, S.E. y S. Walker. 1999. OkapiKeenbow at TREC-8. En Proceedings of the 8th Text Retrieval Conference TREC8, NIST Special Publication 500-246, páginas 151–162. Gey, F. y V. Petras. 2005. Berkeley2 at GeoCLEF: Cross-Language Geographic Information Retrieval of German and English Documents. En Working Notes of the Cross Language Evaluation Forum (CLEF 2005). Toral, A., O. Ferrández, Noguera, E., Z. Kozareva, A. Montoyo, y R. Muñoz. 2006. Geographic IR Helped by Structured Geospatial Knowledge Resources. En Working Notes of the Cross Language Evaluation Forum (CLEF 2006). Guillén, R. 2007. GeoCLEF2007 Experiments in Query Parsing and Crosslanguage GIR. En Working Notes of the Cross Language Evaluation Forum (CLEF 2007). Larson, R.R. 2007. Cheshire at GeoCLEF 2007: Retesting Text Retrieval Baselines. En Working Notes of the Cross Language Evaluation Forum (CLEF 2007). Mandl, T., F. Gey, Di Nunzio, G., N. Ferro, R. Larson, M. Sanderson, D. Santos, C. Womser-Hacker, y Xing Xie. 2007. Geoclef 2007: the clef 2007 crosslanguage geographic information retrieval track overview. En Proceedings of the Cross Language Evaluation Forum (CLEF 2007). Martins, B., N. Cardoso, M. Silveira Chaves, L. Andrade, y M.J. Silva. 2006. The University of Lisbon at GeoCLEF 2006. En Working Notes of the Cross Language Evaluation Forum (CLEF 2006). 136 Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 137-143 recibido 12-02-08, aceptado 03-03-08 PPIEs: Protein-Protein Interaction Information Extraction system∗ PPIEs: Sistema de Extracción de Información sobre interacciones entre proteı́nas Roxana Danger Paolo Rosso Ferran Pla Antonio Molina Technical University of Valencia Cam. Vera, s/n 46022 (Spain) (rdanger; prosso; fpla; amolina)@dsic.upv.es Abstract: More than three millions research articles have been written about proteins and Protein-Protein Interactions (PPI). The present work describes a plausible architecture and some preliminary experiments of our Protein-Protein Interaction Information Extraction system, PPIEs. The promising results obtained suggest that the approach deserves further efforts. Some important aspects that need to be improved in the future have been identified: entity recognition; lexical data storage and searching (in particular, controlled vocabularies); knowledge discovery for ontology enrichment. Keywords: Information Extraction, Protein-Protein Interaction. Resumen: En la literatura aparecen más de tres millones de artı́culos acerca de las proteı́nas y sus interacciones (PPI). En este trabajo se expone una arquitectura plausible y algunos experimentos preliminares de nuestro sistema de extracción de información sobre interacciones entre proteı́nas, PPIEs. Los resultados obtenidos son muy prometedores, por lo que el trabajo merece ulteriores desarrollos. Este estudio ha permitido, además, identificar algunos aspectos a mejorar en el futuro: el reconocimiento de entidades y el almacenaje y búsqueda de datos léxicos (en particular, los vocabularios controlados) y el descubrimiento de conocimiento para el enriquecimiento de ontologı́as. Palabras clave: Extracción de información, Interacción entre proteı́nas. 1 Introduction The goal of Information Extraction Systems (IES) is the enrichment of knowledge bases with information from texts. None of the different methodologies used to solve this problem has clearly demonstrated its superiority (Reeve and Han, 2005). On the one hand, many of them are based on learning processes. In such cases, the quality of Information Extraction (IE) depends on the representativity of the training data, and the ability for generalization of the systems. On the other hand, the majority of IES uses a complete syntactic and semantic analysis. The quality here is affected by possible errors during Natural Language Processing (NLP). Background knowledge is an essential element for IES. If the interesting concepts for the task are known, as well as others semanThis work has been funded by the projects TIN2006-15265-C06-04 and “Juan de la Cierva” of the Ministry of Education and Science of Spain. ∗ ISSN 1135-5948 tically related concepts (such as their synonyms, antonyms, meronyms, etc.,), its identification could be used for an effective IE. The methods for instance extraction should be based on the own nature of the data to be extracted. This kind of IES guided by knowledge or, more formally, by ontology- has demonstrated to be effective when the domain knowledge is enclosed and specific enough. For example, in (Danger, 2007) is described IES to populate an archeology ontology from text collection of archeology site memories. The system has considered both the ontological entities and the complex instances related them, and obtained a 92% of precision and 84% of recall for the archeology ontology with more than 500 concepts and relations. Our goal is to propose a general architecture for IES guided by ontologies, which allows to enrich both the domain knowledge of ontologies and their instances. This study © Sociedad Española para el Procesamiento del Lenguaje Natural Roxana Danger, Paolo Rosso, Ferran Pla, Antonio Molina 8 7 6 5 4 3 2 1 0 1950 1955 1960 1965 1970 1975 % of papers about "protein" 1980 1985 1990 1995 2000 % of papers about "protein protein interaction" Figure 1: Increasing interest of the biomedical community in PPI research. http://dan.corlan.net/medline-trend.html. is part of a research project for the specific biomedical domain1 . The availability of huge data in text format, the growing interest in the fascinating world of proteins as well as the necessity for biochemistry researchers to arrange all discovered protein features in databases made us decide to carry out some experiments in the Protein-Protein Interaction (PPI) domain. The present work summarizes the available resources which make plausible our proposal and shows some preliminary results of the simplest IES guided by ontology we conceive for the PPI domain. Section 2 introduces the role of proteins for life, and the importance of PPI. In Section 3 the available resources as well as our first PPIEs (Protein-Protein Interaction Information Extraction system) are described.The results of some preliminary experiments carried out using our PPIEs, are discussed in Section 5. Finally, conclusions and future works are drawn in Section 6. 2 2005 Data source: A very short and shallow summary of genetic discoveries is given below. Each cell (the human body has about 100 billion of cells) contains DNA (Deoxyribonucleic acid) molecules, which are sequences of nucleotides that “describe” hereditary information, contained in a set of chromosomes (23 pairs for humans). DNA fragments containing this hereditary information are genes; other fragments are involved in the structural definition or in the regulation processes of the cells. At the beginning of a gene there is a promoter which controls its activity, and the coding and non-coding of a sequence. Noncoding sequences regulate the conditions necessary for gene expression (the process of converting a gene into a useful form for the cell). The products of gene expression, determined by the coding sequences, are in the majority proteins. Proteins are linear polymers built from 20 aminoacids. The majority of chemical reactions occurring inside the cell are produced thanks to the protein capability of binding other molecules. Bindings between the same molecule form fibers (structural function). If a protein is associated with other ones, an interaction between proteins is observed. Protein-protein interactions allow catalyzing chemical reactions (enzymatic function), controlling the cell cycle (control function) and assembling protein complexes (complex functions) which, in turn, are involved in cell signing or in signal transduction functions. The importance of PPI in living bodies Proteins and Protein-Protein Interaction Heredity and variation in living organisms are the subject study of Genetics. The discoveries obtained from the pioneer studies of Mendel in 1880 up to have made possible to understand a little but exciting part of the biochemical mechanisms of the living bodies. 1 MIDES: Métodos de aprendizaje para la minerı́a de textos en dominios especı́ficos. http://gplsi.dlsi.ua.es/text-mess/index.php 138 PPIEs: Protein-Protein Interaction Information Extraction system Biomedical Ontologies 2 ) complying with various requirements, including a minimal level of agreement between experts in each domain area. A controlled and consensual vocabulary useful in many tasks may thus be assumed. The most relevant ontologies (structures of databases, in some cases) associated with proteins and their interaction concepts are: intAct (Interaction Database), interPro, PO, Uniprot/Swiss-Prot, MI, MGED and Tambis. All above ontologies share a set of 4 essential concepts, which have been described in (Orchard and et. al., 2007) as the minimal interesting information for PPI: has motivated an increasing interest in their study. Figure 1 shows the proportional increasing of the published papers about proteins and PPI since the middle of the last century until nowadays. Up to 2005, more than 3 millions papers about proteins have been published, and at least 5% of them were related specifically to PPI. In the figure, it may be noticed the growing interest of the biomedical community in protein research, and it is clear the faster behaviour of the published papers regarding to PPI. Different point of views are emphasized in the studies about proteins: their structural utility, biochemical signals and/or biochemical reactions. All viewpoints have to be combined in order to obtain a general idea of the influence of a determined gene or protein in the organism. Moreover, PPI are important because they may help to discover the functions of other proteins making them interact and observing the successive behaviour. Considering all the above, the current challenge of bioinformatics is to populate biomedical databases with the essential information in order to allow some basic processing, such as searching or general comparison between proteins or their interactions. Currently, manual and semi-automatic processing are carried out in order to make the recent discoveries available to all biochemical community. The present work aspires to contribute to this process of information diffusion and interchange. 3 • Publications: a subject research together with its authors, institutions, journal of publication, etc. and the experiments which have been carried out; • Experiments: a description of the experiments which justify the research; • Interactions: a list of interactions occurring in the experiments; • Interactors: a list of interacting molecular elements. An ontology-driven IES for PPI should consider, in an initial stage, at least the above concepts. In successive stages, other related concepts could be incrementally added. 3.2 PPI resources The PPI resources which make possible to define an IES are enumerated in the three successive sections. As we explained above, the definition of an ontology to guide the process is essential. In the literature we have found different ontologies regarding PPI. Their study have allowed us to discover the indispensable information needed to be extracted. On the other hand, some biomedical NLP tools have been defined; the understanding of the used methods together with how to improve them is an important issues. Finally, we describe the available data as well as the textual medical databases over which we work. 3.1 Biomedical NLP tools Recognizing bio-entities (proteins, genes, biological functions, diseases, treatments and others biomedical concepts) is the task in which current developments are focusing on. Given the huge amount of concepts available in the controlled vocabularies which could appear in biomedical texts, some of these recognizers merge Information Retrieval (IR) and IE techniques in order to speed up the recognition process. Table 1 gives an idea of the quality of protein entity recognizers. Four of the available systems were (trained if necessary and) used to extract proteins from the evaluation sentences provided by BIOCREATIVE’06 challenge3 . As may be noticed, more than 44% of the proteins remained undetected. Most of the biomedical recognizers use: rules or dictionary searcher strategies, like in (Hanisch et al., 2005) and (Kou, Cohen, and Murphy, 2005); or machine learning PPI ontologies The biomedical community has been developing a set of ontologies (the OBO, Open 2 3 139 http://obo.sourceforge.net http://biocreative.sourceforge.net/biocreative 2.html Roxana Danger, Paolo Rosso, Ferran Pla, Antonio Molina Figure 2: General architecture for a simple IES. System ABNER GAPSCORE (Score ≤ 0.3) NLPROT WHATIZIT Pr 0.57 0.67 0.57 0.82 R 0.44 0.52 0.56 0.54 teins or a set of grammatical rules manually computed. The systems which detected interactions from raw text obtained a F-score of 30, whereas those that used manually interactor annotations reached as much an Fscore of 48. F1 0.50 0.56 0.56 0.65 Table 1: Comparison of protein recognizers. Pr=Precision, R=Recall. 3.3 Public PPI data The biomedical community publishes various databases in which PPI are described and are constantly updated and supervised by biologists. The most relevant are: HPRD (Human Protein Reference Database), IntAct (Interaction Database) and DIP (Database of Interacting Proteins). Each of them provides sophisticated searching capabilities in order to allow users to review, compare and search for particular protein features. A big amount of researches are public available in various format (pdf, xml, etc.). Pubmed database 4 provides access to citations from biomedical literature of many journals and conferences. Moreover, the data available in databases are referred to Pubmed paper identifiers. Therefore, combining both sources of information, sets of texts for training and evaluation purposes may be easily defined. approaches based on Hidden Markov Models or Conditional Random Fields, like in (Okanohara et al., 2006) and (Sun et al., 2007). Such bad results are due to the terminology problems observed in bio-entities. Although some molecular names provide useful cues (as the molecular weight, function or the discoverer name), many interactors are described by long, compound, ambiguous, common and jargon English words. However, in BIOCREATIVE’06 challenge (Wilbur, Smith, and Tanabe, 2007) new proteins recognizers (not freely available) which obtain better results with a highest F1-score of 87.21, have been described. Moreover, combining the results a significant improvement of a 90.66 of F1-score is achieved. This fact reveals us that new bio-entities recognizers, in particular proteins, would be able to reach high quality values by combining different techniques. A similar conclusion was obtained in recent comparison studies (Ponomareva et al., 2007), (Sun et al., 2007). A representative set of IES for PPI has been met in BIOCREATIVE’06 challenge (Krallinger, Leitner, and Valencia, 2007). The competition was concentrated in detecting pairs of proteins and the kind of interaction between them. The common framework of the systems is to use a complete syntactic and semantic analysis to extract clearly defined interactions. Interactions are extracted considering verb joining two pro- 4 Defining our first PPIEs The simplest approximation we may conceive for an IES guided by ontologies is represented in Figure 2. It is composed basically by a process which converts a raw text in a list of words (by using a text segmentation, which includes the recognition of simple datatypes such as those that use regular expressions, and a signs remover). Then, the words are stemmed and used by ontology entity recognizers. Ontology entities to be recognized are defined in form of concepts and relations of a 4 140 http://www.ncbi.nlm.nih.gov/PubMed/ PPIEs: Protein-Protein Interaction Information Extraction system Type of entity Biological role Cell type Detection method Identification method Interaction type Interactor type Tissue type Protein name Vocabulary Resource psi-mi.obo#biological role cell.obo#cell psi-mi.obo#interaction detection method psi-mi.obo#participant identification method psi-mi.obo#interaction type psi-mi.obo#interactor type http://www.expasy.org/cgi-bin/lists?tisslist.txt Uniprot/Swiss-Prot database5 Table 2: PPI controlled vocabulary. Notation: Ontology name#concept base in the Ontology. PPI ontology. We assume that the lexical information to extract them from text is also specified in the ontology. Therefore, a reasoner should be used to: 1) interpret the ontology, that is, the concepts and their relations; and 2) make available lexical information needed for the IE task. The instance generator makes use of the algorithm proposed in (Danger, 2007). This algorithm defines a set of rules for the complex instance generation which use the ontology interpretation to properly link a list of ontological entities. The above architecture is useful for a study of the complexity of the problem we are facing. In the following sections we describe, our PPI including how the lexical information has been linked to the appropriated ontological elements and the inference process used to generate the complex instances. 4.1 Entity recognizers are simply dictionary searchers. In Table 2 the resources from which the dictionaries have been created are described. Almost all of them are ontologies from the Open Biomedical Ontologies 6 . 4.2 Ontology Reasoner and instance generation The Pellet reasoner7 , the most popular reasoner for OWL, has been used to recover, from PPIO, the instances models (general descriptions of the concepts and their relations) and the lexical information which will be used to generate complex instances describing protein-protein interactions. For simplicity, the reader should assume that we obtain, for each concept, the other concepts and relations associated with it, its position in the hierarchy with respect to the others concepts, and how to recognize it in a text. Therefore, using all this information, the ontology entities in texts may be discovered. It is easy to infer the compositions of relations linking two concepts and the semantic distances between them. The two aspects above allow, by using the algorithm introduced in (Danger, 2007), to infer the complex ontological instances described in texts. PPI ontology We have defined an ontology in OWL (Ontology Web Language) for PPI, based on the recommendations about the minimal interesting information for PPI (Orchard and et. al., 2007). We include other important and well classified concepts related to this domain knowledge such as: interaction and interactor types, biological role of a host in the experiments, cell type on which the experiment was carried out or applied, detection interaction and identification of the interactors methods. The ontology we defined, PPIO, contains 19 concepts and 21 relations. Moreover, it has been enriched with lexical information in two annotation properties, lex and lexValue. Through them the lexical methods for identifying ontological elements (concepts and properties) and properties values are described. In the current implementation lex and lexValue are limited to list entity examples. 5 Preliminary experiments Experiments have been carried out on two resources developed and maintained by EBI8 . The first resource is IntAct, the previously mentioned database, and the second one is a set of 3422 paragraphs extracted from PPI research papers along with the interaction identification number (Accession number, AC ) in IntAct database which represents the interaction described in the paragraph. Each paragraph represents a complex interaction in6 http://obo.sourceforge.net http://www.mindswap.org/2003/pellet/ 8 http://www.ebi.ac.uk/ 7 141 Roxana Danger, Paolo Rosso, Ferran Pla, Antonio Molina Type of entity Biological role Cell type Detection method Identification method Interaction type Interactor type Tissue type Protein name %of Parag. 100 32 100 100 100 100 9 100 Precision 90 92 70 98 99 100 58 95 Recall 46 69 23 85 83 78 35 78 Table 3: Entities in text paragraphs. stance: there are 3422 interaction instances which include a total of 87186 relations. For example, given a typical paragraph such as: “Co-immunoprecipitation from T-cells of theta PKC and p59fyn.”, ontological entities are recognized using dictionary searchers, as in the example: High recall values were obtained for proteins, but these results are due to the completeness of the protein dictionary, which also includes protein synonyms. In the future, we should use a molecular (protein) recognizer based on morpho-syntactic features of protein names, and protein synonyms should be discovered and matched to the corresponding most common protein names. We limit the analysis to protein interactor types: therefore, the precision is of 100% and the recall coincides with the recall of protein name. Other entities have different behaviours. The interaction type, identification method and cell type concepts are well recognized due to the stability of their vocabulary, whereas a low proportion of detection method, and tissue type are recognized. We plan to perform a thorough study of the dynamism of biomedical terminology in order to recognize new terms, as well as to improve the entity disambiguation mechanism. Also, a process for identifying typing errors will be included, because we notice a high frequency of such mistakes in the processed text. With respect to the instance generation process, a precision of 72% and a recall of 67% were obtained considering all paragraphs. We consider that an instance is well recognized if it is referred to the correct concept and all its relations are well formed. In spite of the rather simple linguistics processing, the precision and recall values obtained by the system are satisfactory. We will try to maintain linguistic processing complexity as low as possible in future developments. Moreover, we plan to improve the entity recognition process to make it less dictionary-dependent.Other two issues will be considered in the future. These are the learning of new terms, synonyms, acronyms and metonyms to enrich the controlled vocabulary, and the efficient recognition of such <detect method >Co-immunoprecipitation </detect method > from <tissue type> Tcells </tissue type> of <protein> theta PKC </protein> and <protein> p59fyn </protein>. Finally, the corresponding instance is reconstructed using the instance generator as follows. The indentation is used to identify relations with previously defined instances. As it may be noticed, the complex instance is created using the list of recognized entities. The appropriate relations are selected and used to link the corresponding instances. Some instances (such as experiment) and data (such as interaction type) are inferred using the ontology information. interaction has been produced by :: experiment f ound in source :: ncbiTaxId=9606 has tissue type :: Peripheral blood T-lym. detect method :: anti bait coimmunoprecipit. has participant :: Concrete interactor name :: Proto-oncog. tyros.-protein kin. Fyn interactorT ype :: protein has participant :: Concrete interactor name :: Protein kinase C theta type interactorT ype :: protein has interaction type :: physical interaction Table 3 shows for each type of entity mentioned in the paragraphs, the percentage of paragraphs in which it has been found and the precision and recall obtained by the particular ontology entity recognizer. 142 PPIEs: Protein-Protein Interaction Information Extraction system terms in texts. The latter aspect includes the use of efficient indexing strategies for searching terms appearing in texts. 6 the second biocreative ppi task: Automatic extraction of protein-protein interactions. In Proceedings of the Second BioCreative Challenge Evaluation Workshop, pages 41–54. Conclusions and further work In this paper we have introduced an architecture for an information extraction system about protein protein interactions, PPIEs. The most important resources available regarding PPI have been summarized. Such resources have been used in order to perform information extraction in relevant papers. A domain ontology on PPI has been defined which includes lexical information regarding ontological entities. Preliminary experimental results are encouraging. They indicate that the proposed set of tools is suitable for PPI identification, although a more sophisticated mechanism for entity identification should be used in the future. Furthermore, we plan to study the dynamism of the biomedical vocabulary (including the recognition and evolution of new terms, synonyms, acronyms and metonyms), the disambiguation process and the extension of the PPIO ontology. Okanohara, Aisuke, Yusuke Miyao, Yoshimasa Tsuruoka, and Junichi Tsujii. 2006. Improving the scalability of semi-markov conditional random fields for named entity recognition. Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the ACL, pages 465–472. Orchard, Sandra and et. al. 2007. The minimum information required for reporting a molecular interaction experiment (mimix). Nature Biotechnology, 25(8):894–898. Ponomareva, Natalia, Paolo Rosso, Ferrán Pla, and Antonio Molina. 2007. Conditional random fields vs. hidden markov models in a biomedical named entity recognition task. In Proc. of Int. Conf. Recent Advances in Natural Language Processing, RANLP, pages 479–483. References Reeve, Lawrence and Hyoil Han. 2005. Survey of semantic annotation platforms. In SAC, pages 1634–1638. Danger, Roxana. 2007. Extraction and analysis of information from the Semantic Web perspective (in Spanish: Extracción y análisis de información desde la perspectiva de la Web Semántica). Ph.D. thesis. Sun, Chengjie, Yi Guan, Xiaolong Wang, and Lei Lin. 2007. Rich features based conditional random fields for biological named entities recognition. Computers in Biology and Medicine, 37(9):1327–1333. Hanisch, Fundel, Mevissen, Zimmer, and Fluck. 2005. Prominer: rule-based protein and gene entity recognition. BMC Bioinformatics, 6 Suppl 1. Wilbur, Johm, Larry Smith, and Lorrie Tanabe. 2007. Biocreative 2. gene mention task. In Proceedings of the Second BioCreative Challenge Evaluation Workshop, pages 7–16. Kou, Zhenzhen, William Cohen, and Robert Murphy. 2005. High-recall protein entity recognition using a dictionary. Bioinformatics, 21(1):266–273. Krallinger, Martin, Florian Leitner, and Alfonso Valencia. 2007. Assessment of 143 Tesis Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 147-148 recibido 06-11-07, aceptado 03-03-08 Computing Meaning in Interaction Computación del Significado en Diálogos Roser Morante Vallejo Tilburg University Postbus 90153, 5000 LE Tilburg, The Netherlands [email protected] Resumen: Tesis doctoral realizada en la Universidad de Tilburg por Roser Morante Vallejo bajo la dirección de Harry Bunt (Tilburg Univ.). La defensa de la tesis tuvo lugar el 3 de diciembre de 2007 ante el tribunal formado por los doctores David Traum (Univ. of Southern California), Michael McTear (Univ. of Ulster), Reinhard Muskens (Tilburg Univ.), Emiel Krahmer (Tilburg Univ.) y Robbert-Jan Beun (Utrecht Univ.). Palabras clave: Actos de habla, simulación del diálogo, actualización del contexto, DIT, grounding. Abstract: PhD Thesis written by Roser Morante Vallejo at Tilburg University under the supervision of Harry Bunt (Tilburg Univ.). The thesis defence (viva voce) took place before the committee formed by doctors David Traum (Univ. of Southern California), Michael McTear (Univ. of Ulster), Reinhard Muskens (Tilburg Univ.), Emiel Krahmer (Tilburg Univ.) and Robbert-Jan Beun (Utrecht Univ.) on the 3rd of December 2007. Keywords: Dialogue acts, dialogue simulation, context update, DIT, grounding. 1. Introduction The general purpose of our research is to define a model of dialogue context update in the framework of Dynamic Interpretation Theory (DIT) (Bunt, 2000). According to the theory, communicative agents can be modelled as structures of goals, beliefs, preferences, expectations, and other types of information, plus memory and processing capabilities. Part of these structures is dynamic in the sense of changing during a dialogue, as a result of the agents perceiving and understanding each other’s communicative behavior, of reasoning with the outcomes of these processes, and of planning communicative and other acts. A dialogue participant’s beliefs about the domain and about the dialogue partner form a crucial part of his information state, which in DIT is called his context. Dialogue acts are functional units used by the speaker to change the context. Formally, a dialogue act in DIT consists of a semantic content and a communicative function, the latter specifying how the information state of the addressee is to be updated with the former upon understanding the corresponding utterance. Context includes the participant’s state of beliefs and goals, including beliefs about each other’s processing of previous utterances. 2. Contributions Our main contributions are: (i) applying the theory to the analysis of dialogue, using the DIT taxonomy of dialogue acts to model dialogues; in ISSN 1135-5948 particular we are concerned with modeling the effects of three groups of dialogue acts in the dialogue context: Information Transfer, Action Discussion, and Dialogue Control Feedback; (ii) assigning the model of beliefs and goals to dialogue acts; (iii) analysing fragments of dialogues by applying this model; (iv) defining a model of context update by defining certain principles and rules. On the basis of a detailed analysis of the flow of beliefs in a number of simple dialogue fragments, we propose certain mechanisms for modeling the transfer of information: adoption, strengthening, and cancellation of beliefs. This has allowed us to explain in the form of an algorithm how information may be updated in a dialogue (Morante, Keizer, y Bunt, 2007), in particular how information may be grounded. We have proposed that grounding is the side–effect of general communication principles, and mostly the result of addressees giving feedback, implicit or explicit, to speakers (Bunt y Morante, 2007). The context update model has been converted into an algorithm and implemented in a dialogue simulator (Keizer y Morante, 2007). In sum, our investigation has yielded theoretical and practical results. On the theoretical side, the analysis of dialogues has led to a better understanding of how the dialogue participant’s context is updated as an effect of the utterances being produced. On the practical side, the context update model has been converted into an algorithm and implemented in a dialogue simulator. © Sociedad Española para el Procesamiento del Lenguaje Natural Roser Morante 3. Contents lator and context update system synthesizes the belief update process as understood in DIT in the form of a general algorithm that is implemented in a tool. The algorithm concentrates the findings of our research and it reflects what we understand to be an aspect of computing meaning in interaction, namely updating the beliefs and goals in the participant’s context model. The chapter presents the tool in which the algorithm is implemented, DISCUS, a Dialogue Simulation and Context Update System. Finally, Chapter 10: Conclusions and Future Research puts forward some conclusions and suggestions for future research. Chapter 1: Introduction introduces the topic of research, goals, scope, and background. Chapter 2: Dialogue Modelling presents a general view of the main approaches to dialogue modeling, a review of foundational literature on belief modeling, and the information state approach to dialogue management, where DIT can be placed. In Chapter 3: Grounding we review various approaches to grounding, which is a dialogue phenomenon for which our model of dialogue analysis can give an account. We start by defining some concepts related to grounding, we introduce the foundational Contribution Model by (Clark y Schaefer, 1989) and two related proposals: the extension of the Contribution Model to HC interaction by Brennan and collaborators (Brennan, 1998; Cahn y Brennan, 1999), and the formal theory of grounding by (Paek y Horvitz, 2000); the computational theory of grounding by (Traum, 1994), and the treatment of grounding from the information state update perspective. Chapter 4: Dynamic Interpretation Theory is devoted to introducing the theoretical framework of our research. The concepts of dialogue act and context are explained, the DIT dialogue act taxonomy is presented, and the DIT approach to dialogue management is sketched. Chapter 5: Dialogue Analysis Methodology presents the methodology that will be applied to the analysis of dialogues. It consists of defining the effects that an utterance has in the context model, and making explicit general rules and principles that govern the context update: creation, adoption, and cancellation of beliefs. In Chapter 6: Analysis of Dialogue Patterns (I), General Purpose Communicative Functions we analyse how the context is updated with the General Purpose Communicative Functions of Information Transfer and Action Discussion. In Chapter 7: Analysis of Dialogue Patterns (II), Dialogue Control Communicative Functions we focus our attention on a group of Dialogue Control Functions: Auto– Feedback Functions. Feedback Functions are used by dialogue participants to provide information about their processing of the partner’s previous utterances. Feedback can be positive or negative, and can refer to different levels of processing. The goal of this chapter is to provide an analysis for all levels and types of Autofeedback communicative functions, as defined in DIT. In Chapter 8: Context Update in Dialogues: a DIT approach we analyse long dialogues, and we show that the DIT mechanisms for context update can explain how dialogue participants reach a subjective state of grounding, without the need of specific grounding mechanisms. Chapter 9: DISCUS: A dialogue simu- Bibliografı́a Brennan, S. E. 1998. The grounding problem in conversations with and through computers. En S.R. Fussell y R.J. Kreuz, editores, Social and cognitive psychological approaches to interpersonal communication. Lawrence Erlbaum, Hillsdale, NJ, páginas 201–225. Bunt, H. 2000. Dialogue pragmatics and context specification. En H. Bunt y W. Black, editores, Abduction, Belief and Context in Dialogue. Studies in Computational Pragmatics. John Benjamins, Amsterdam, páginas 81–150. Bunt, H. y R. Morante. 2007. The weakest link. En Text, Speech and Dialogue, 10th International Conference, TSD 2007, Proceedings. Lecture Notes in Computer Science 4629, páginas 591–598, Plzen, Czech Republic. Cahn, J. E. y S. E. Brennan. 1999. A psychological model of grounding and repair in dialog. En Proceedings AAAI FAll Symposium on Psychological Models of Communication in Collaborative Systems, páginas 25–33, North Falmouth, MA. American Association for Artificial Intelligence, AAAI. Clark, H.H. y E.F. Schaefer. 1989. Contributing to discourse. Cognitive Science, 13:259–294. Keizer, S. y R. Morante. 2007. Dialogue simulation and context dynamics for dialogue management. En Proceedings of the NODALIDA conference, páginas 310–317, Tartu, Estonia. Morante, R., S. Keizer, y H. Bunt. 2007. A dialogue act based model for context updating. En Proceedings of the 11th Workshop on the Semantics and Pragmatics of Dialogue (DECALOG), páginas 9–16, Rovereto, Italy. Paek, T. y Eric Horvitz. 2000. Grounding criterion: toward a formal theory of grounding. Technical report MSR–TR–2000–40, Microsoft Research, Redmond, WA. Traum, D.R. 1994. A Computational Theory of Grounding in Natural Language Conversation. PhD Thesis. Department of Computer Science, University of Rochester, Rochester. 148 Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 149-150 recibido 29-01-08, aceptado 03-03-08 Recuperación de Pasajes Multilingüe para la Búsqueda de Respuestas∗ Multilingue Passage Retrieval for Question Answering José M. Gómez Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia Camino Vera s/n - 4022 Valencia [email protected] Resumen: Tesis doctoral en Informática realizada en la Universidad Politécnica de Valencia (UPV) por José Manuel Gómez Soriano bajo la dirección del Dr. Emilio Sanchis Arnal (UPV). La defensa de tesis tuvo lugar ante el tribunal formado por los doctores Manuel Palomar Sanz y Fernando Llopis Pascual (Univ. Alicante), L. Alfonso Ureña López (Univ. Jaén), y Lidia A. Moreno Boronat y Paolo Rosso (UPV) el 28 de noviembre de 2007. La calificación obtenida fue Sobresaliente Cum Laude por unanimidad. Palabras clave: JIRS, recuperación de información, recuperación de pasajes, búsqueda de respuestas Abstract: PhD Thesis in Computer Science written by José Manuel Gómez Soriano under the supervision of Dr. Emilio Sanchis Arnal from Polithecnic Univ. of Valencia (PUV). The author was examined in Nov 28, 2007 by the commitee formed by the doctors Manuel Palomar Sanz and Fernando Llopis Pascual (Univ. Alicante), L. Alfonso Ureña López (Univ. Jaén), and Lidia A. Moreno Boronat and Paolo Rosso (PUV). The greade obtained was Sobresaliente Cum Laude. Keywords: JIRS, information retrieval, passage retrieval, question answering 1. Introducción Los sistemas de Búsqueda de Respuestas (BR) son sistemas que dan una respuesta concreta a una pregunta realizada por el usuario. Esta pregunta, en vez de ser un conjunto de términos como en las tareas de Recuperación de Información (RI) ad hoc, se realiza en lenguaje natural y, generalmente, está escrita correctamente tanto sintáctica como semánticamente. Una de las dificultades a las que se enfrentan los sistemas de BR es que éstos devuelven mucha menos información que los sistemas de RI clásicos. Los primeros únicamente devuelven una respuesta formada por unos pocos términos y los segundos una lista de documentos relevantes. Es usual que los sistemas de BR hagan uso de sistemas de RI como primera etapa para reducir la cantidad de información que deben procesar. Por lo general, los sistemas tradicionales de RI, basados en palabras claves, fallan a la hora de entregar pedazos de texto (pa∗ Este artı́culo ha sido parcialmente financiado bajo el proyecto TEX-MESS número TIN2006-15265-C0601. ISSN 1135-5948 sajes) con la respuesta cuando la pregunta se realiza en lenguaje natural. JAVA Information Retrieval System (JIRS) es un sistema de RI que fue inicialmente ideado y especializado para tareas de BR. El objetivo de JIRS, al contrario que los sistemas tradicionales de RI, es encontrar pasajes con mayor probabilidad de contener la respuesta en vez de obtener documentos relevantes. Es más, está enfocado para recuperar pasajes directamente en vez de documentos. JIRS es un sistema independiente del idioma, de hecho ha sido usado en idiomas tan dispares como español, inglés, francés, italiano, árabe, urdu y oromo y, en general, puede ser utilizado, sin apenas cambios, en cualquier idioma no aglutinativo. Recientemente también ha sido adaptado al euskera, que es un idioma aglutinativo, añadiendo un pequeño módulo de separación de términos para el euskera. La hipótesis en la que se basa JIRS es que, en una colección de documentos suficientemente grande, siempre habrá una expresión muy similar a la pregunta que contenga la respuesta. JIRS busca estas semejanzas y de© Sociedad Española para el Procesamiento del Lenguaje Natural José M. Gómez vuelve las más parecidas al principio de la lista de resultados. Por ejemplo, si la pregunta es “What is the capital of Croatia? ”, JIRS intentará encontrar la estructura Zagreb is the capital of Croatia, o alguna muy similar. JIRS busca n-gramas formados por términos de la pregunta en una colección de documentos y aquellos pasajes con estructuras de mayor peso y más aglutinadas serán los que obtendrán mayor valor de similitud. 2. delo de Distancias valora mejor aquellos pasajes que estén formados por estructuras con los términos de la pregunta de mayor peso y que, además, estén más aglutinadas. 4. JAVA Information Retrieval System es un sistema de RP especialmente orientado a BR puesto que fue diseñado especı́ficamente para dicha tarea. Este sistema no busca los documentos o pasajes relevantes a una consulta sino los pasajes con mayor probabilidad de contener la respuesta. Para ello utiliza un sistema que busca estructuras formadas por los términos de la pregunta y las valora dependiendo del peso de dichos términos y la distancia con respecto a las estructuras de mayor peso. Los resultados presentados en la tesis demuestran que JIRS mejora la precisión, cobertura y MRR de los pasajes devolviendo un mayor número de pasajes que contiene la respuesta que los tradicionales sistemas de RI. Los sistemas de BR que utilizaron algún modelo de n-gramas de JIRS en la edición del CLEF 2005, se situaron entre las mejores posiciones y, en el CLEF 2006, se demostró que el mismo sistema de BR mejoraba considerablemente si se utilizaba JIRS en vez de Lucene como sistema de RP. Usando JIRS se podrı́a mejorar los resultados de la mayorı́a de los participantes del CLEF puesto que éstos utilizan el Lucene en sus respectivos sistemas de BR. La única condición que se debe cumplir para que los sistemas de n-gramas mejoren los resultados es que el corpus tenga la suficiente redundancia. De no ser ası́, JIRS se comporta como un sistema tradicional de RI. JIRS es una aplicación modular y escalable, que permite una alta adaptabilidad a nuevos proyectos sin tener que conocer el código desarrollado por otros. En estos momentos está siendo utilizada por diversos grupos nacionales e internaciones de investigación para desarrollar nuevas herramientas de Procesamiento del Lenguaje Natural debido a su cualiades y su potencia. JIRS es una aplicación libre con licencia GPL que puede ser descargada gratuitamente de http://jirs.dsic.upv.es/. Descripción de JIRS JIRS es un sistema de RI y Recuperación de Pasajes (RP) de alta modularidad, escalabilidad y configuración. A parte de realizar búsquedas por los tradicionales métodos basados en palabras claves, permite hacer búsquedas basadas en n-gramas. Esto lo hace especialmente apropiado para sistemas de BR multilingüe. JIRS se compone de un núcleo llamado Java Process Manager (JPM), unos archivos de configuración. y un conjunto de bibliotecas de clases. JPM es un gestor de procesos que permite añadir o modificar la operatividad del sistema ası́ como los parámetros de ejecución de una forma sencilla sin recompilar toda la aplicación, únicamente modificando los archivos de configuración. Dichos archivos tienen una estructura jerárquica basada en documentos XML que permite estructurar la información de una forma lógica. Los archivos de configuración no se componen únicamente de parámetros de la forma nombre-valor que determinan la configuración de las diferentes acciones, sino que determinan qué acciones y cuál será el orden de ejecución de dichas acciones. De esta forma se puede modificar totalmente el comportamiento del sistema cambiando únicamente el archivo de configuración. 3. Conclusiones El modelo de Densidad de Distancias de N -gramas JIRS incorpora tres modelos de n-gramas para realizar las búsquedas. De los cuales, el modelo de Densidad de Distancias de N gramas (en adelante el modelo de Distancias) es el que mejor resultados aporta. Este modelo busca, en los pasajes, estructuras que estén formadas por términos de la pregunta. Después valora estas estructuras dependiendo del peso de los términos que contienen y el número de términos que las separa del ngrama de mayor peso. De esta forma, el mo150 Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 151-152 recibido 30-01-08, aceptado 03-03-08 Desarrollo y evaluación de diferentes metodologı́as para la gestión automática del diálogo ∗ Development and evaluation of different methodologies for automatic dialog management David Griol Barres Departament de Sistemes Informàtics i Computació Universitat Politècnica de València. E-46022 València, Spain [email protected] Resumen: Tesis doctoral en Informática realizada por David Griol Barres bajo la dirección de los doctores Lluı́s Hurtado Oliver y Encarna Segarra Soriano (Univ. Politècnica de València). El acto de defensa de la tesis tuvo lugar el 12 de Diciembre de 2007 ante el tribunal formado por los doctores Eduardo Lleida Solano (Univ. de Zaragoza), Javier Macı́as Guarasa (Univ. de Alcalá de Henares), Marı́a Inés Torres Barañano (Univ. del Paı́s Vasco), Emilio Sanchis Arnal (Univ. Politècnica de València) y Fernando Garcı́a Granada (Univ. Politècnica de València). La calificación obtenida fue de Sobresaliente Cum Laude por unanimidad. Palabras clave: Gestión de Diálogo, Modelos Estadı́sticos, Simulación de usuarios, Adaptación, Sistemas de Diálogo Abstract: PhD Thesis in Computer Science written by David Griol Barres under the supervision of Dr. Lluı́s Hurtado Oliver and Dr. Encarna Segarra Soriano (Univ. Politècnica of València). The author was examined on December 12th 2007 by the committee formed by Eduardo Lleida Solano (Univ. de Zaragoza), Javier Macı́as Guarasa (Univ. de Alcalá de Henares), Marı́a Inés Torres Barañano (Univ. del Paı́s Vasco), Emilio Sanchis Arnal (Univ. Politècnica de València) y Fernando Garcı́a Granada (Univ. Politècnica de València). The grade obtained was Sobresaliente Cum Laude. Keywords: Dialog Management, Statistical Models, User Simulation, Adaptation, Dialog Systems 1. Introducción Un interés histórico dentro del campo de las Tecnologı́as del Habla ha sido utilizar estas tecnologı́as en aplicaciones reales, especialmente en aplicaciones que permitan a una persona utilizar su voz para obtener información mediante la interacción directa con una máquina o para controlar un determinado sistema. Un sistema de diálogo puede, de esta forma, entenderse como un sistema automático capaz de emular a un ser humano en un diálogo con otra persona, con el objetivo de que el sistema cumpla con una cierta tarea (normalmente suministrar una cierta información o llevar a cabo una determinada tarea). El gestor del diálogo es un elemento central dentro de la arquitectura de un sistema de diálogo, dado el número de módulos con ∗ Trabajo parcialmente financiado por los proyectos TIN2005-08660-C04-02 y TIC2002-04103-C03-03. ISSN 1135-5948 los que interacciona y las tareas que debe llevar a cabo para decidir las acciones que dan respuesta a la intervención del usuario. El objetivo principal de la tesis es el estudio y desarrollo de diferentes metodologı́as para la gestión del diálogo en sistemas de diálogo hablado. El principal reto planteado reside en el desarrollo de metodologı́as puramente estadı́sticas para la gestión del diálogo, basadas en el aprendizaje de un modelo a partir de un corpus de diálogos etiquetados. En este campo, se presentan diferentes aproximaciones para realizar la gestión, la mejora del modelo estadı́stico y la evaluación del sistema del diálogo. Para la implementación práctica de estas metodologı́as, en el ámbito de una tarea especı́fica, ha sido necesaria la adquisición y etiquetado de un corpus de diálogos. El hecho de disponer de un gran corpus de diálogos ha facilitado el aprendizaje y evaluación del mo© Sociedad Española para el Procesamiento del Lenguaje Natural David Griol Barres delo de gestión desarrollado. Ası́ mismo, se ha implementado un sistema de diálogo completo, que permite evaluar el funcionamiento práctico de las metodologı́as de gestión en condiciones reales de uso. Para evaluar las técnicas de gestión del diálogo se proponen diferentes aproximaciones: la evaluación mediante usuarios reales; la evaluación con el corpus adquirido, en el cual se han definido unas particiones de entrenamiento y prueba; y la utilización de técnicas de simulación de usuarios. El simulador de usuario desarrollado permite modelizar de forma estadı́stica el proceso completo del diálogo. En la aproximación que se presenta, tanto la obtención de la respuesta del sistema como la generación del turno de usuario se modelizan como un problema de clasificación, para el que se codifica como entrada un conjunto de variables que representan el estado actual del diálogo y como resultado de la clasificación se obtienen las probabilidades de seleccionar cada una de las respuestas (secuencia de actos de diálogo) definidas respectivamente para el usuario y el sistema. A partir de los diálogos generados mediante el uso de este módulo de simulación se ha ampliado y mejorado el corpus adquirido inicialmente. Además se presentan diferentes técnicas para la generación automática de diálogos, que facilitan la obtención automática de un corpus etiquetado de diálogos y el posterior aprendizaje de un gestor de diálogo. Los trabajos desarrollados se engloban en el marco del proyecto DIHANA, cuyo principal objetivo fue el desarrollo de un sistema de diálogo para el acceso a un sistema de diálogo mediante el habla espontánea. La tarea definida para el proyecto fue el acceso vocal a un sistema que proporciona información sobre trayectos en tren de recorrido nacional. En último lugar, las metodologı́as propuestas en DIHANA para la gestión del diálogo se han adaptado para desarrollar un gestor de diálogo en el ámbito del proyecto EDECÁN. Se describe la adaptación realizada y la evaluación de un gestor desarrollado para un sistema de diálogo que facilita la reserva de instalaciones deportivas. Adicionalmente, se presentan diferentes metodologı́as basadas en reglas para la gestión del diálogo, ası́ como distintas aproximaciones para el desarrollo de generadores de respuestas en lenguaje natural. De este modo, las lı́neas de investigación principales que se definieron para la tesis doctoral se materializaron en los siguientes objetivos: 1. Estudio y desarrollo de diferentes metodologı́as estadı́sticas para el desarrollo de gestores de diálogo. 2. Estudio e implementación de diferentes metodologı́as para la evaluación de sistemas de diálogo. 3. Estudio y desarrollo de diferentes modelos para la simulación de usuarios. 4. Definición de metodologı́as que permitan la estandarización de los sistemas de diálogo y su adaptación a diferentes tareas. 2. Estructura de la tesis En cuanto a la estructura del documento, la tesis está comprendida por un total de diez capı́tulos. El capı́tulo primero presenta los objetivos y el contexto en el que se enmarca la tesis. El capı́tulo segundo aborda de manera más detallada el estado de arte relativo a los sistemas de diálogo hablado. Los capı́tulos tercero y cuarto se dedican a la descripción de la tarea DIHANA y de las caracterı́sticas principales del sistema de diálogo implementado para este proyecto. El capı́tulo quinto presenta dos aproximaciones basadas en reglas para la gestión de diálogo. El capı́tulo sexto describe el núcleo central del trabajo desarrollado en el marco de la tesis: el desarrollo de modelos estadı́sticos para la gestión del diálogo. El capı́tulo séptimo describe diferentes técnicas y medidas para la evaluación de sistemas de diálogo, mostrándose los resultados obtenidos en la evaluación de los gestores de diálogo desarrollados. El capı́tulo octavo presenta el simulador de usuario desarrollado para evaluar y mejorar el comportamiento del gestor estadı́stico. El capı́tulo noveno se dedica al estudio de la adaptación de las metodologı́as de gestión propuestas para afrontar nuevas tareas. Completan la tesis, las conclusiones del trabajo y una serie de anexos en los que se amplı́a con mayor detalle la información presentada en los diferentes capı́tulos. La tesis puede consultarse en el apartado de Investigación del website del Departamento de Sistemas Informáticos y Computación de la UPV (www.dsic.upv.es). 152 Información General SEPLN'2008 XXIV CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL Escuela Politécnica Superior de la Universidad Carlos III de Madrid (España) 10-12 de septiembre 2008 http://basesdatos.uc3m.es/sepln2008/web/ 1 Presentación La XXIV edición del congreso anual de la Sociedad Española para el Procesamiento del Lenguaje Natural se celebrará en Madrid (España) del día 10 al 13 de septiembre de 2008, organizado por la Sociedad Española para el Procesamiento del Lenguaje Natural junto con la Universidad Carlos III de Madrid. Como en ediciones anteriores, con este evento la SEPLN pretende promover la difusión de las actividades de investigación, desarrollo e innovación que realizan en cualquiera de los ámbitos del procesamiento del lenguaje natural los diversos grupos e investigadores españoles y extranjeros. El congreso aspira a ofrecer un foro de discusión y comunicación en el que se favorezca el intercambio de la información y materiales científicos necesarios para promover la publicación de trabajos y la colaboración con instituciones nacionales e internacionales que actúen en el ámbito de interés del congreso. 2 Objetivos El objetivo principal de este congreso es el de ofrecer a la comunidad científica y empresarial del sector el foro idóneo para la presentación de las últimas investigaciones y desarrollos del ámbito de trabajo en PLN, así como mostrar las posibilidades reales de aplicación y conocer nuevos proyectos. De esta manera, el XX Congreso de la SEPLN pretende ser un lugar de encuentro para la comunicación de resultados e intercambio de opiniones sobre el desarrollo de esta área en la actualidad. Además, se desea conseguir el objetivo de anteriores ediciones de este congreso identificando las futuras directrices de la investigación básica y de las aplicaciones previstas por los profesionales, con el fin de ISSN 1135-5948 contrastarlas con las necesidades reales del mercado. Igualmente el congreso pretende ser un marco propicio para introducir a otras personas interesadas en esta área de conocimiento. 3 Areas Temáticas Se anima a grupos e investigadores a enviar comunicaciones, resúmenes de proyectos o demostraciones en alguna de las áreas temáticas siguientes: • Modelos lingüísticos, matemáticos y psicolingüísticos del lenguaje • Lingüística de corpus • Extracción y recuperación de información monolingüe y multilingüe • Gramáticas y formalismos para el análisis morfológico y sintáctico • Lexicografía computacional • Generación textual monolingüe y multilingüe • Traducción automática • Reconocimiento y síntesis de voz • Semántica, pragmática y discurso • Resolución de la ambigüedad léxica • Aplicaciones industriales del PLN • Análisis automático del contenido textual 4 Formato del Congreso La duración prevista del congreso será de tres día, con ponencias invitadas y sesiones dedicadas a la presentación de comunicaciones y de proyectos o demostraciones. 5 Comité de programa Miembros: • Prof. José Gabriel Amores Carredano (Universidad de Sevilla) Sociedad Española para el Procesamiento del Lenguaje Natural • • • • • • • • • • • • • • • • • • • • • • • • • Prof. Toni Badia i Cardús (Universitat Pompeu Fabra) Prof. Manuel de Buenaga Rodríguez (Universidad Europea de Madrid) Prof. Fco. Javier Calle Gómez (Universidad Carlos III de Madrid) Prof.ª Irene Castellón Masalles (Universitat de Barcelona) Prof.ª Arantza Díaz de Ilarraza (Euskal Herriko Unibertsitatea) Prof. Antonio Ferrández Rodríguez (Universitat d'Alacant) Prof. Mikel Forcada Zubizarreta (Universitat d'Alacant) Prof.ª Ana María García Serrano (Universidad Politécnica de Madrid) Prof. Koldo Gojenola Galletebeitia (Euskal Herriko Unibertsitatea) Prof. Xavier Gómez Guinovart (Universidade de Vigo) Prof. Julio Gonzalo Arroyo (Universidad Nacional de Educación a Distancia) Prof. José Miguel Goñi Menoyo (Universidad Politécnica de Madrid) José B. Mariño Acebal(Universitat Politécnica de Catalunya) Prof.ª M. Antonia Martí Antonín (Universitat de Barcelona) Prof.ª Mª Teresa Martín Valdivia (Universidad de Jaén) Prof. Patricio Martínez Barco (Universitat d'Alacant) Prof. Paloma Martínez Fernández (Universidad Carlos III de Madrid) Profª. Raquel Martínez Unanue (Universidad Nacional de Educación a Distancia) Prof.ª Lidia Ana Moreno Boronat (Universitat Politécnica de Valencia) Prof. Lluis Padró (Universitat Politécnica de Catalunya) Prof. Manuel Palomar Sanz (Universitat d'Alacant) Prof. Ferrán Pla (Universitat Politécnica de Valencia) Prof. Germán Rigau (Euskal Herriko Unibertsitatea) Prof. Horacio Rodríguez Hontoria (Universitat Politécnica de Catalunya) Prof. Kepa Sarasola Gabiola (Euskal Herriko Unibertsitatea) • • • • 6 Prof. Emilio Sanchís (Universitat Politécnica de Valencia) Prof. L. Alfonso Ureña López (Universidad de Jaén) Prof.ª Mª Felisa Verdejo Maillo (Universidad Nacional de Educación a Distancia) Prof. Manuel Vilares Ferro (Universidade de Vigo) Fechas importantes Fechas para la presentación y aceptación de comunicaciones: • Fecha límite para la entrega de comunicaciones: 28 de abril de 2008 • Notificación de aceptación: 13 de junio de 2008 • Fecha límite para entrega de la versión definitiva: 27 de junio de 2008 • Fecha límite para entrega de proyectos y demostraciones: 6 de junio de 2008 Hoja de Inscripción para Socios Datos Personales Apellidos Nombre DNI Teléfono Domicilio Municipio Provincia : ................................................................................................................................................. : ................................................................................................................................................. : ............................................................ Fecha de Nacimiento : ........................................... : ............................................................ E-mail : ........................................... : ................................................................................................................................................. : ................................................................................................. Código Postal : ................. : ................................................................................................................................................. Datos Profesionales Centro de trabajo : ..................................................................................................................................... Domicilio : ..................................................................................................................................... Código Postal : .................... Municipio : ..................................................................................... Provincia : ........................................... Teléfono : ................................. Fax : ............................. E-mail : ..................................... Áreas de investigación o interés: ................................................................................................................... ........................................................................................................................................................................ Preferencia para envío de correo: [ ] Dirección personal [ ] Dirección Profesional Datos Bancarios: Nombre de la Entidad Domicilio Cód. Postal y Municipio Provincia : ............................................................................................................................ : ............................................................................................................................ : ............................................................................................................................ : ............................................................................................................................ Cód. Banco (4 dig.) Cód. Suc. (4 dig.) Dig. Control (2 Dig.) Núm.cuenta (10 dig.) ........................................ ........................................ ........................................ ........................................ En.....................a....................................de..............................................de........................... (firma) ------------------------------------------------------------------------------------------------------------------------------------------------------ Sociedad Española para el Procesamiento del Lenguaje Natural. SEPLN Sr. Director de: Entidad Núm. Sucursal Domicilio Municipio Provincia Tipo cuenta (corriente/caja de ahorro) : ......................................................................................................... : ......................................................................................................... : ......................................................................................................... : ............................................................... Cód. Postal : .............. : ......................................................................................................... : ......................................................................................................... Ruego a Vds. que a partir de la fecha y hasta nueva orden se sirvan de abonar a la Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN) los recibos anuales correspondientes a las cuotas vigentes de dicha asociación. Les saluda atentamente Fdo: ........................................................................... (nombre y apellidos del firmante) ............................de ..................................de................. -----------------------------------------------------------------------------------------------------------------------------------------------------Cuotas de los socios: 18 € (residentes en España) o 24 € (socios residentes en el extranjero). Nota: La parte inferior debe enviarse al banco o caja de ahorros del socio Hoja de Inscripción para Instituciones Datos Entidad/Empresa Nombre : ................................................................................................................................................. NIF : ............................................................ Teléfono : ............................................................ E-mail : ............................................................ Fax : ............................................................ Domicilio : ................................................................................................................................................. Municipio : ................................................... Código Postal : ............ Provincia : .......................... Áreas de investigación o interés: ................................................................................................................... ........................................................................................................................................................................ Datos de envío Dirección Municipio Teléfono : .............................................................................................. Código Postal : ................. : .......................................................................... Provincia : .............................................. : ........................................... Fax : ................................ E-mail : ............................... Datos Bancarios: Nombre de la Entidad Domicilio Cód. Postal y Municipio Provincia : ............................................................................................................................ : ............................................................................................................................ : ............................................................................................................................ : ............................................................................................................................ Cód. Banco (4 dig.) Cód. Suc. (4 dig.) Dig. Control (2 Dig.) Núm.cuenta (10 dig.) ........................................ ........................................ ........................................ ........................................ -------------------------------------------------------------------------------------------------------------------------------------------------- Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN). Sr. Director de: Entidad Núm. Sucursal Domicilio Municipio Provincia Tipo cuenta (corriente/caja de ahorro) Núm Cuenta : .......................................................................................................................... : .......................................................................................................................... : .......................................................................................................................... : ............................................................................. Cód. Postal : ................. : .......................................................................................................................... : .......................................................................................................................... : .......................................................................................................................... Ruego a Vds. que a partir de la fecha y hasta nueva orden se sirvan de abonar a la Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN) los recibos anuales correspondientes a las cuotas vigentes de dicha asociación. Les saluda atentamente Fdo: ........................................................................... (nombre y apellidos del firmante) ............................de ..................................de................. -------------------------------------------------------------------------------------------------------------------------------------------------.......................................................................................................................................................................... Cuotas de los socios institucionales: 300 €. Nota: La parte inferior debe enviarse al banco o caja de ahorros del socio Información para los Autores Formato de los Trabajos • La longitud máxima admitida para las contribuciones será de 8 páginas DIN A4 (210 x 297 mm.), incluidas referencias y figuras. • Los artículos pueden estar escritos en inglés o español. El título, resumen y palabras clave deben escribirse en ambas lenguas. • El formato será en Word ó LaTeX Envío de los Trabajos • El envío de los trabajos se realizará electrónicamente a través de la página web de la Sociedad Española para el Procesamiento del Lenguaje Natural (http://www.sepln.org) • Para los trabajos con formato LaTeX se mandará el archivo PDF junto a todos los fuentes necesarios para compilación LaTex • Para los trabajos con formato Word se mandará el archivo PDF junto al DOC o RTF