40 ISSN: 1135-5948

Anuncio
Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008
ISSN: 1135-5948
Artículos
Modelling OLIF frame with EAGLES/ISLE specifications: an interlingual approach
Carlos Periñán-Pascual, Francisco Arcas-Túnez..........................................................................................9
Aggregation in the In-Home Domain
Eva Florencio, Gabriel Amores, Guillermo Pérez, Pilar Manchón...............................................................17
Detección de fármacos genéricos en textos biomédicos
Isabel Segura-Bedmar, Paloma Martínez, Dooa Samy...............................................................................27
Bases de Conocimiento Multilíngües para el Procesamiento Semántico a Gran Escala
Montse Cuadros, German Rigau..................................................................................................................35
From knowledge acquisition to information retrieval
Milagros Fernández Gavilanes, Sara Carrera Carrera, Manuel Vilares Ferro.............................................43
Desarrollo de un Robot-Guía con Integración de un Sistema de Diálogo y Expresión de Emociones:
Proyecto ROBINT
J.M. Lucas, R. Alcázar, J. M. Montero, F. Fernández, R.Barra-Chicote, L.F. D'Haro, J. Ferreiros, R. de
Córdoba, J. Macías-Guarasa, R. San Segundo, J.M. Pardo.......................................................................51
Experiments with an ensemble of Spanish dependency parsers
Roser Morante..............................................................................................................................................59
Predicción estadística de las discontinuidades espectrales del habla para síntesis concatenativa
Manuel Pablo Triviño, Francesc Alías..........................................................................................................67
Identificación de emociones a partir de texto usando desambiguación semántica
David García, Francesc Alías......................................................................................................................75
InTiMe: Plataforma de Integración de Recursos de PLN
José Manuel Gómez.....................................................................................................................................83
Non-Parametric Document Clustering by Ensemble Methods
Edgar Gonzàlez Pellicer, Jordi Turmo Borràs..............................................................................................91
An Innovative Two-Stage WSD Unsupervised Method
Javier Tejada-Cárcamo, Alexander Gelbukh, Hiram Calvo.........................................................................99
Applying a culture dependent emotion triggers database for text valence and emotion classification
Alexandra Balahur, Andrés Montoyo.........................................................................................................107
Test of complementarity on sentence extraction methods
Alberto Bañuelos-Moro, Héctor Jiménez-Salazar, José de Jesús Lavalle-Martínez.................................115
Categorización de textos biomédicos usando UMLS
José Manuel Perea Ortega, María Teresa Martín Valdivia, Arturo Montejo Ráez, Manuel Carlos Díaz
Galiano.......................................................................................................................................................121
Sistemas de Recuperación de Información Geográfica multilingües en CLEF
José Manuel Perea Ortega, Miguel Angel García Cumbreras, Manuel García Vega................................129
PPIEs: Protein-Protein Interaction Information Extraction system
Roxana Danger, Paolo Rosso, Ferran Pla, Antonio Molina.......................................................................137
Tesis
Computing meaning in interaction
Roser Morante............................................................................................................................................147
Recuperación de Pasajes Multilingües para la Búsqueda de Respuestas
José M. Gómez..........................................................................................................................................149
Desarrollo y evaluación de diferentes metodologías para la gestión automática del diálogo
David Griol Barres......................................................................................................................................151
Información General
XXIV Congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural..........................153
Impresos de Inscripción
Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008
ISSN: 1135-5948
Artículos
Modelling OLIF frame with EAGLES/ISLE specifications: an interlingual approach
Carlos Periñán-Pascual, Francisco Arcas-Túnez..........................................................................................9
Aggregation in the In-Home Domain
Eva Florencio, Gabriel Amores, Guillermo Pérez, Pilar Manchón...............................................................17
Detección de fármacos genéricos en textos biomédicos
Isabel Segura-Bedmar, Paloma Martínez, Dooa Samy...............................................................................27
Bases de Conocimiento Multilíngües para el Procesamiento Semántico a Gran Escala
Montse Cuadros, German Rigau..................................................................................................................35
From knowledge acquisition to information retrieval
Milagros Fernández Gavilanes, Sara Carrera Carrera, Manuel Vilares Ferro.............................................43
Desarrollo de un Robot-Guía con Integración de un Sistema de Diálogo y Expresión de Emociones:
Proyecto ROBINT
J.M. Lucas, R. Alcázar, J. M. Montero, F. Fernández, R.Barra-Chicote, L.F. D'Haro, J. Ferreiros, R. de
Córdoba, J. Macías-Guarasa, R. San Segundo, J.M. Pardo.......................................................................51
Experiments with an ensemble of Spanish dependency parsers
Roser Morante..............................................................................................................................................59
Predicción estadística de las discontinuidades espectrales del habla para síntesis concatenativa
Manuel Pablo Triviño, Francesc Alías..........................................................................................................67
Identificación de emociones a partir de texto usando desambiguación semántica
David García, Francesc Alías......................................................................................................................75
InTiMe: Plataforma de Integración de Recursos de PLN
José Manuel Gómez.....................................................................................................................................83
Non-Parametric Document Clustering by Ensemble Methods
Edgar Gonzàlez Pellicer, Jordi Turmo Borràs..............................................................................................91
An Innovative Two-Stage WSD Unsupervised Method
Javier Tejada-Cárcamo, Alexander Gelbukh, Hiram Calvo.........................................................................99
Applying a culture dependent emotion triggers database for text valence and emotion classification
Alexandra Balahur, Andrés Montoyo.........................................................................................................107
Test of complementarity on sentence extraction methods
Alberto Bañuelos-Moro, Héctor Jiménez-Salazar, José de Jesús Lavalle-Martínez.................................115
Categorización de textos biomédicos usando UMLS
José Manuel Perea Ortega, María Teresa Martín Valdivia, Arturo Montejo Ráez, Manuel Carlos Díaz
Galiano.......................................................................................................................................................121
Sistemas de Recuperación de Información Geográfica multilingües en CLEF
José Manuel Perea Ortega, Miguel Angel García Cumbreras, Manuel García Vega................................129
PPIEs: Protein-Protein Interaction Information Extraction system
Roxana Danger, Paolo Rosso, Ferran Pla, Antonio Molina.......................................................................137
Tesis
Computing meaning in interaction
Roser Morante............................................................................................................................................147
Recuperación de Pasajes Multilingües para la Búsqueda de Respuestas
José M. Gómez..........................................................................................................................................149
Desarrollo y evaluación de diferentes metodologías para la gestión automática del diálogo
David Griol Barres......................................................................................................................................151
Información General
XXIV Congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural..........................153
Impresos de Inscripción
Procesamiento del Lenguaje Natural, Revista nº 40, Marzo de 2008
ISSN: 1135-5948
Comité de Edición:
L. Alfonso Ureña López
Universidad de Jaén
[email protected]
Mariona Taulé Delor
Universitat de Barcelona
[email protected]
Mª Teresa Martín Valdivia
Universidad de Jaén
[email protected]
Comité de Lectura:
José Gabriel Amores (Universidad de Sevilla). Toni Badía (Universitat Pompeu Fabra). Manuel de
Buenaga (Universidad Europea de Madrid). Irene Castellón (Universitat de Barcelona). Arantza Díaz de
Ilarraza (Euskal Herriko Unibertsitatea). Antonio Fernández (Universitat d'Alacant). Mikel Forcada
(Universitat d'Alacant). Ana García-Serrano (Universidad Politécnica de Madrid). Koldo Gojenola (Euskal
Herriko Unibertsitatea). Xavier Gómez Guinovart (Universidade de Vigo). Julio Gonzalo (UNED). José
Miguel Goñi (Universidad Politécnica de Madrid). José Mariño (Universitat Politècnica de Catalunya). M.
Antonia Martí (Universitat de Barcelona). M. Teresa Martín (Universidad de Jaén). Patricio MartínezBarco (Universitat d'Alacant). Raquel Martínez (UNED). Ruslan Mitkov(Universidad de Wolverhampton).
Lidia Moreno (Universitat Politècnica de València). Lluís Padro (Universitat Politècnica de Catalunya).
Manuel Palomar (Universitat d'Alacant). Ferrán Pla (Universitat Politècnica de València). German Rigau
(Euskal Herriko Unibertsitatea). Horacio Rodríguez (Universitat Politècnica de Catalunya). Kepa Sarasola
(Euskal Herriko Unibertsitatea). Emilio Sanchís (Universitat Politècnica de València). L. Alfonso Ureña
(Universidad de Jaén). Felisa Verdejo (UNED). Manuel Vilares (Universidad de A Coruña).
Revisores adicionales:
Iñaki Alegra (EHU). Enero Agirre (EHU). Roxana Danger (UPV). Víctor Fresno (UNED). David Griol
Bares (UPV). Antonio Molina (UPV). Juan M. Montero (UPM). Guillermo Pérez (US). Rafael M. Perol
(Universitat d'Alacant). Paolo Rosso (UPV). Aitor Soroa (EHU).
ISSN: 1135-5948
Depósito Legal: B:3941-91
Editado en: Universidad de Jaén, 2008.
Publicado por:
Sociedad Española para el Procesamiento del Lenguaje Natural
Departamento de Informática.
Universidad de Jaén
Campus Las Lagunillas, EdificioA3. Despacho 127
23071 Jaén
[email protected]
Artículos
Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 9-16
recibido 06-11-07, aceptado 03-03-08
Modelling OLIF frame with EAGLES/ISLE specifications:
an interlingual approach
El modelado de OLIF utilizando las especificaciones de EAGLES/ISLE:
un enfoque interlingüístico
Carlos Periñán-Pascual, Francisco Arcas-Túnez
Universidad Católica San Antonio
Campus de los Jerónimos s/n
30107 Guadalupe - Murcia (Spain)
{jcperinan, farcas}@pdi.ucam.edu
Resumen: FunGramKB es una base de conocimiento léxico-conceptual para su
implementación en sistemas del PLN. El modelo léxico de FunGramKB se construyó a partir
del modelo de OLIF, aunque fue preciso incorporar algunas de las recomendaciones de
EAGLES/ISLE con el fin de poder diseñar lexicones computacionales más robustos. El
propósito de este artículo es describir cómo el enfoque interlingüístico de FunGramKB
proporciona una visión más cognitiva de los marcos léxicos que las propuestas por OLIF y
EAGLES/ISLE.
Palabras clave: FunGramKB, OLIF, EAGLES, ISLE, lexicón, ontología, marco, postulado de
significado.
Abstract: FunGramKB is a lexico-conceptual knowledge base for NLP systems. The
FunGramKB lexical model is basically derived from OLIF and enhanced with EAGLES/ISLE
recommendations with the purpose of designing robust computational lexica. However, the
FunGramKB interlingual approach gives a more cognitive view to EAGLES/ISLE proposals.
The aim of this paper is to describe how this approach influences the way of conceiving
lexical frames.
Keywords: FunGramKB, OLIF, EAGLES, ISLE, lexicon, ontology, frame, meaning
postulate.
1 Introduction
FunGramKB (Functional Grammar Knowledge
Base) is a lexico-conceptual knowledge base
for NLP systems, mainly those requiring natural
language understanding. FunGramKB is
multipurpose, in the sense that it is both
multifunctional and multilanguage. In other
words, FunGramKB has been designed to be
reused in various NLP tasks (e.g. information
retrieval/extraction, machine translation or
ISSN 1135-5948
dialogue-based systems) and with several
natural languages.1
The FunGramKB lexical model is basically
derived from OLIF2 (Lieske et al. 2001;
McCormick 2002; McCormick et al. 2004) and
1
FunGramKB lexica for English and Spanish are
being currently populated.
2
OLIF (Open Lexicon Interchange Format) is
created in the 90’s as part of the OTELO (Open
Translation Environment for Localization) project,
whose primary goal is the development of interfaces
and formats which can help users share lexical
resources within the translation environment (e.g.
machine
translation,
translation
memories,
terminology databases, and so on).
© Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008
Carlos Periñán-Pascual, Francisco Arcas-Túnez
enhanced
with
EAGLES/ISLE3
recommendations (EAGLES 1993, 1996a,
1996b, 1999; Monachini et alii 2003;
Underwood and Navarretta 1997; Calzolari et
alii 2001a, 2001b, 2003). OLIF, an XMLcompliant standard for lexical/terminological
data encoding, was chosen as the starting point
for implementing the FunGramKB lexical level.
However, some parts of the OLIF model had to
be re-considered in order to make it conform to
the
FunGramKB
architecture.4
The
FunGramKB team soon realised that, for
example, full-fledged lexical frames were not
possible if language engineers were confined to
OLIF recommendations. Therefore, OLIF was
modelled with EAGLES/ISLE specifications
with the purpose of designing robust
computational lexica.
In computational linguistics, lexical frames
usually include key information which allows
the computer to build the underlying
predication of an input text. This paper presents
a conceptualist model of frame semantics
which, in turn, complies with current standards
for computational lexica. Section 2 briefly
describes the two-tier architecture of the
FunGramKB model. Section 3 shows how
frame participants should be fully integrated
into the lexical meaning of verbs via meaning
postulates, resulting in a more “intelligent”
resource for natural language understanding.
Finally, sections 4 and 5 discuss the degree to
which FunGramKB is indebted to OLIF and
EAGLES/ISLE standards.
2 The FunGramKB architecture
FunGramKB comprises two information levels,
where several independent modules are
interrelated:5
Lexical level (i.e. linguistic knowledge):
• The lexicon stores morphosyntactic,
pragmatic
and
collocational
information of lexical units.
• The morphicon helps our system to
handle
cases
of
inflectional
morphology.
(i.e.
non-linguistic
Cognitive
level
knowledge):
• The ontology is presented as a
hierarchical structure of well-defined
concepts used by ordinary humans
when talking about everyday situations.
• The cognicon stores procedural
knowledge by means of cognitive
macrostructures,
i.e.
script-like
schemata in which a sequence of
stereotypical actions is organised on the
basis of temporal continuity.
• The onomasticon stores information
about instances of entities, such as
people, cities, products, and so on.
The motivation of this two-tier design lies in
the fact that lexical modules are language
specific but cognitive modules are shared by all
languages. In other words, computational
lexicographers must develop one lexicon and
one morphicon for English, one lexicon and one
morphicon for Spanish and so on, but
knowledge engineers build just one ontology,
one cognicon and one onomasticon to process
any language input cognitively. Unlike most
current NLP systems, where the lexicalist
approach prevails, the FunGramKB architecture
is ontology-oriented, since the ontology plays a
pivotal role between the lexical and the
cognitive levels.
3
EAGLES (The Expert Advisory Group on
Language Engineering Standards) is an initiative
sponsored by the European Commission which aims
to provide recommendations for the standardization
of the language technologies field. More
particularly, the Computational Lexicons Interest
Group is in charge of analysing the main practices in
lexicographic encoding by comparing computational
lexical resources available in European languages.
ISLE (International Standards for Language
Engineering) is initiated in 2000 as an extension of
EAGLES work. The objective of this joint EU-US
project is to support R&D on Human Language
Technology issues. The ISLE Computational
Lexicon Working Group is committed to the design
of MILE (Multilingual ISLE Lexical Entry), a metaentry for the encoding of multilingual lexical
information.
4
Indeed, one of the advantages of OLIF is the
ease of extensibility and customization of its XMLbased format in order to accommodate it to the
requirements of a project.
5
Computationally speaking, entries for any of
these modules take the form of XML-formatted data
structures. XML was chosen as the formal language
for knowledge representation because data can be
encoded in such a portable way that information can
be easily compilable into the format that is needed
by other formalisms and systems.
10
Modelling OLIF frame with EAGLES/ISLE specifications: an interlingual approach
Figure 1: FunGramKB Suite
Since FunGramKB is intended to be an
extensive NLP knowledge base, it is important
to minimize the effort for ontology
maintenance, so strict control is placed on the
management of data consistency. As shown in
figure 1, FunGramKB Suite has been designed
for that purpose.
For instance, the construction of knowledge
schemata such as predicate frames or meaning
postulates is semiautomatic, because human
intervention is required but the knowledge
engineer’s intuition is guided and reviewed
through FunGramKB Editor, so that consistent
well-formed constructs can be stored.
The following section describes how the
FunGramKB
conceptualist
approach
undoubtedly influences the way of conceiving
frames.
frames, which are called “predicate frames”. To
illustrate, figure 2 displays both the parenthetic
string representation (edition format) and the
XML representation (storage format) of the
predicate frame of load:
(x1)S/Agent/NP (x2)O/Theme/NP (x4)A/Goal/PP-into,onto
(x1)S/Agent/NP (x4)O/Goal/NP (x2)A/Theme/PP-with
<prFrame>
<pattern>
<slot phrase="NP" syn="S" sem="Agent" />
<slot phrase="NP" syn="O" sem="Theme" />
<slot phrase="PP" syn="A" sem="Goal">
<prep>into</prep>
<prep>onto</prep>
</slot>
</pattern>
<pattern>
<slot phrase="NP" syn="S" sem="Agent" />
<slot phrase="NP" syn="O" sem="Goal" />
<slot phrase="PP" syn="A" sem="Theme">
<prep>with</prep>
</slot>
</pattern>
</prFrame>
3 Integrating frames into meaning postulates
Most semantic representations of verbs have
traditionally taken one of two forms (Levin
1995): semantic role-centred approaches
(Fillmore 1968, Gruber 1965), where verb
arguments are identified on the basis of their
semantic relations with the verb, or predicate
decomposition approaches (Jackendoff 1972,
Schank
1973),
which
involve
the
decomposition of verb meaning by means of a
restricted set of primitive predicates.
In FunGramKB, both approaches are
integrated. Similarly to semantic role-centred
approaches, verbs are assigned one or more
Figure 2: Predicate frame of load
The predicate frame is a structural scheme in
which the quantitative and qualitative6
6
Selectional preferences on an argument are not
really stored in predicate frames, but they are part of
thematic frames in the FunGramKB ontology.
However, since predicate frames are derived from
thematic frames, selectional preferences can
definitely take part in full-fledged predicate frames.
11
Carlos Periñán-Pascual, Francisco Arcas-Túnez
the lexical units linked to that event.8 Therefore,
predicate frames are lexical constructs
belonging to a particular language, but they are
constructed from the interlingual thematic
frames located in the ontology. In FunGramKB,
every argument found in the predicate frame of
a verb must be referenced through coindexation in the thematic frame of the event to
which the verb is linked. Moreover, every
argument found in the thematic frame of an
event is referenced through co-indexation in the
meaning postulate assigned to that event. To
illustrate, figure 4 displays both the parenthetic
string
representation
and
the
XML
representation of the meaning postulate of
+LOAD_00:
valencies of the verb are stated: e.g. load has
three subcategorized arguments with the
semantic functions Agent, Theme and Goal.
Moreover, predicate frames are enriched with
information about subcategorization patterns
describing the phrasal realizations and syntactic
behaviour of the arguments which can
linguistically co-occur with the verb.
On the other hand, and like predicate
decomposition approaches, a lexical unit is
linked to a meaning postulate through a
conceptual unit in the FunGramKB ontology.7
Furthermore, predicate frames assigned to a
lexical unit are integrated into the meaning
representation to which the lexical unit is linked
by means of the “thematic frame”. To illustrate,
figure 3 displays both the parenthetic string
representation and the XML representation of
the thematic frame of +LOAD_00:
+(e1: +PUT_00 (x1)Agent (x2)Theme (x3)Origin
(x4)Goal (f1: +IN_00 ^ +ON_00)Position (f2: (e2:
+TAKE_01 (x4)Agent (x2)Theme (x5)Location
(x4)Origin (x6)Goal))Purpose)
(x1: +HUMAN_00 ^ +VEHICLE_00)Agent (x2:
+CORPUSCULAR_00)Theme
(x3)Origin (x4: +HUMAN_00 ^ +ANIMAL_00 ^
+VEHICLE_00)Goal
<mPostulate>
<Predication opr="+">
<e n="1" concept="+PUT_00">
<Arguments>
<x n="1" sem="Agent" />
<x n="2" sem="Theme" />
<x n="3" sem="Origin" />
<x n="4" sem="Goal" />
</Arguments>
<Satellites>
<fSet oper="and">
<f n="1" sem="Position">
<PrefSet oper="xor">
<Pref concept="+IN_00" />
<Pref concept="+ON_00" />
</PrefSet>
</f>
<f n="2" sem="Purpose">
<e n="2" concept="+TAKE_01">
<Arguments>
<x n="4" sem="Agent" />
<x n="2" sem="Theme" />
<x n="5" sem="Location" />
<x n="4" sem="Origin" />
<x n="6" sem="Goal" />
</Arguments>
</e>
</f>
</fSet>
</Satellites>
</e>
</Predication>
</mPostulate>
<thFrame>
<Arguments>
<x n="1" sem="Agent">
<PrefSet oper="xor">
<Pref concept="+HUMAN_00" />
<Pref concept="+VEHICLE_00" />
</PrefSet>
</x>
<x n="2" sem="Theme">
<Pref concept="+CORPUSCULAR_00" />
</x>
<x n="3" sem="Origin" />
<x n="4" sem="Goal">
<PrefSet oper="xor">
<Pref concept="+HUMAN_00" />
<Pref concept="+ANIMAL_00" />
<Pref concept="+VEHICLE_00" />
</PrefSet>
</x>
</Arguments>
</thFrame>
Figure 3: Thematic frame of +LOAD_00
Thematic frames are cognitive schemata
specifying the type of participants involved in
the situation described by an event. These
participants can be instantiated in the form of
arguments in the predicate frames assigned to
Figure 4: Meaning postulate of +LOAD_00
8
The difference between thematic frames and
predicate frames is partly influenced by the
distinction in the Construction Grammar (Goldberg
1995) between argument roles and participant roles
respectively, where the first are related to the
construction and the latter to the frame of a
particular verb.
7
In fact, regularities in the semantic distribution
of verbs in FunGramKB are not based on syntactic
criteria (cf. Levin 1993) but on the cognitive
decompositions of events by means of their meaning
postulates.
12
Modelling OLIF frame with EAGLES/ISLE specifications: an interlingual approach
information, but also on its remarkable
conceptualist approach. To this respect, two
main differences are observed between OLIF
frames and FunGramKB predicate frames.
Firstly, OLIF frames are semantically
underspecified, since no semantic role is
assigned to any slot. Secondly, slot fillers in
OLIF are language-specific and not formally
represented,
whereas
in
FunGramKB
selectional preferences are represented by
concepts. Selection preferences should not be
lexicalized, but somehow they should be part of
human beings’ cognitive knowledge. The
benefit of this approach is twofold: (i) the use
of concepts as the building blocks of predicate
frames removes the problem of lexical semantic
ambiguity, and (ii) the inferential power of the
reasoning engine is more robust if predictions
are based on cognitive expectations. The
following section highlights the influence of
EAGLES/ISLE standard on the construction of
both predicate and thematic frames in
FunGramKB.
For example, the first predicate frame of
load matches the morphosyntactic structure of a
sentence such as They loaded all their
equipment into backpacks, identifying they as
the loaders (Agent), equipment as the thing to
be loaded (Theme) and backpacks as the target
entity where that thing is placed (Goal).
However, the semantic burden of the frame is
greater when linked to the thematic frame and
the meaning postulate of +LOAD_00, which
reveal that “they put the equipment into
backpacks because they intended to carry it to
another place”.9
As it has been demonstrated, every
argument in the predicate frame of a verb is
finally integrated in the meaning postulate of its
event through the arguments of its thematic
frame, which plays a crucial role in both the
semantic
role-centred
and
predicate
decomposition approaches to the semantic
representation of verbs in FunGramKB.
4 The OLIF frame category
Three OLIF data categories are relevant for the
construction of FunGramKB predicate frames:
(i)
<transType> specifies the type of
prototypical transitivity of the verb.
(ii)
<synFrame>
describes
the
subcategorization of the lexical entry.
A slot-grammar approach is taken for
the description of syntactic frames. For
example, the frame for the English verb
try is as follows (McCormick 2002):
5 Taking into
recommendations
EAGLES/ISLE
EAGLES/ISLE proposes two types of frame:
the syntactic frame, which describes the surface
structure, and the semantic frame, which
describes the deep structure.
On the one hand, the syntactic (or
subcategorization) frame is expressed as a list
of slots, where each slot is described in terms of
phrasal realization, grammatical function,
restricting features and optionality. Indeed,
EAGLES/ISLE proposes a FrameSet to be
included in the syntactic entry with the aim of
collecting
surface
regular
alternations
associated with the same deep structure by
explicitly linking the slots of the alternating
frames by means of rules. Frames involved in a
FrameSet are considered to be at the same level,
i.e. no alternating frame has a status of privilege
from which the other frames are derived
through some lexical rule. Surprisingly, the
EAGLES/ISLE approach is not as descriptively
economical as the traditional approach, where,
given two alternating frames, one of them is
deemed to be basic and the other derivative.
In comparison with the EAGLES/ISLE
proposal of syntactic frame, FunGramKB
predicate frames make a limited use of
restricting features, because only lexical
features can be used to refine the information
[subj, (dobj-opt | dobj-sent-ing-opt |
dobj-sent-inf-opt)]
(iii)
account
<prep> specifies the preposition that
fills a “prepositional phrase” slot.
The main advantage of the FunGramKB
model of predicate frame does not lie just on
the further specification of the lexical
9
Indeed, a lexical unit is associated to much
more semantic information which is really shown in
its meaning postulate. In FunGramKB, all this
underlying cognitive information is revealed through
a multi-level process called MicroKnowing
(Periñán-Pascual and Arcas-Túnez 2005), where
thematic frames also play a key role in the
application of the inheritance and inference
mechanisms on meaning postulates.
13
Carlos Periñán-Pascual, Francisco Arcas-Túnez
specified in the arguments: e.g. the preposition
that introduces a prepositional phrase.
Moreover, the optional realization of an
argument is not stated in FunGramKB predicate
frames, because it is thought that context can
admit the omission of any traditionally
obligatory argument. Concerning frame
alternations, FunGramKB can reflect all those
syntactic phenomena in which no satellite is
involved in the shift. On the contrary, satelliteoriented alternations such as locative
alternations or material/product alternations are
disregarded, since satellites are excluded from
predicate frames.
On the other hand, the EAGLES/ISLE
semantic frame (or argument structure) is
defined in the form of a predicate and a list of
arguments, which are described in terms of
thematic role and semantic preferences. In
general, the type of information in the
FunGramKB thematic frame matches that of
the EAGLES/ISLE semantic frame; however,
differences are found in their approaches to the
syntax-semantics interface within a multilingual
dimension.
EAGLES/ISLE
recommends
preferably a transfer architecture,10 where
monolingual syntactic and semantic frames are
put into correlation between L1 and L2; in
addition,
this
approach
requires
the
specification of a set of transformational
operations to go from L1 to L2. On the
contrary, an interlingual model is adopted by
FunGramKB, where thematic frames serve as
the bridge between L1 predicate frames and
those in L2. Transfer rules are not required
since thematic frames are not linked to any
particular lexicon but to the ontology, which is
shared by all languages.
As a result, the FunGramKB interlingual
approach gives a more cognitive view to the
EAGLES/ISLE semantic frame. Firstly,
EAGLES/ISLE recommends that both the
predicate and its arguments should be
instantiated with language-dependent lexical
units, so that complexity in the linkage of the
syntactic and semantic frames is dramatically
reduced. On the contrary, sub-elements in
FunGramKB thematic frames are not lexically
driven, since predicates and semantic
preferences on arguments are chosen from
concepts of the ontology. Therefore, the notion
of thematic frame is more abstract than that of
semantic frame. Secondly, EAGLES/ISLE
proposes that the choice of the number of
arguments for a predicate should be determined
on purely semantic grounds; thus it is possible
that (a) a syntactic position cannot be mapped
to any semantic argument—i.e. reduced
correspondence, or (b) a semantic argument
cannot be mapped to any syntactic position—
i.e.
augmented
correspondence.
In
FunGramKB, any decision on the type and
number of arguments in thematic frames is
guided by cognitive criteria. However, the
FunGramKB architecture is so marked by the
conceptualist approach that, for example,
reduced correspondences in the syntaxsemantics interface are not permitted because
predicate frames are built out of their thematic
frames, but not conversely.
6 Conclusions and future work
This paper presents the modifications and
extensions to the OLIF model of frame by
taking into account some of the EAGLES/ISLE
recommendations. The result is that
FunGramKB is provided with predicate frames
in the lexicon (lexical frames) and thematic
frames in the ontology (cognitive frames). We
have also described that the two most important
approaches to lexical semantic representation
are fully integrated in FunGramKB: thus verbs
are assigned one or more predicate frames,
whose arguments play an active role in the
construction of the meaning postulates to which
those verbs are linked. In short, the
FunGramKB interlingual approach, which gives
a more cognitive view to the EAGLES/ISLE
semantic frame, contributes to the large-scale
development of deep-semantic NLP resources,
mainly for natural language understanding.
We intend to develop a more robust
characterization of predicate frames by
exploring linguistically annotated corpora.
Thus, and guided by some other suggestions
proposed by EAGLES/ISLE, predicate frames
could also include:
(i)
11
an index indicating the frequency
of the frame,11
Frame probability can be particularly useful in
natural language generation. For example, the
current model of FunGramKB stores a default
translation equivalent for every lexical unit, but it
could be possible to use statistical information to
10
Although other approaches to translation are
also considered, EAGLES/ISLE multilingual layer is
inspired mostly on the transfer-based model.
14
Modelling OLIF frame with EAGLES/ISLE specifications: an interlingual approach
(ii)
(iii)
(iv)
(v)
a wider range of participants, i.e.
satellites together with arguments,
morphosyntactic restrictions on
participants, e.g. whether the
phrasal realization in a slot must be
instantiated via plural word form,
conditional
optionality
of
participants, i.e. when the absence
of a participant excludes or requires
the presence of another participant,
lexical collocations as selectional
preferences on participants,
EAGLES
Document
MORPHSYN/R.
EAG-CLWG-
EAGLES Lexicon Interest Group. 1996b.
EAGLES: preliminary recommendations on
subcategorisation. EAGLES Document
EAG-CLWG-SYNLEX/P.
EAGLES Lexicon Interest Group. 1999.
EAGLES: preliminary recommendations on
lexical semantic encoding. Final report LE34244.
Fillmore, C.J. 1968. The case for case. E. Bach
and R.T. Harms. eds. Universals in
Linguistic Theory. Holt, Rinehart &
Winston, New York, 1-88.
Bibliography
Calzolari, N., R. Grishman, and M. Palmer. eds.
2001. Survey of major approaches towards
bilingual/multilingual
lexicons.
ISLE
Deliverable
D2.1-D3.1.
ISLE
Computational Lexicon Working Group.
Goldberg, A.E. 1995. Constructions: A
Construction Grammar Approach to
Argument Structure. The University of
Chicago Press, Chicago.
Calzolari, N., F. Bertagna, A. Lenci, and M.
Monachini. eds. 2003. Standards and best
practice for multilingual computational
lexicons and MILE. Deliverable D2.2-D3.2.
ISLE Computational Lexicon Working
Group.
Gruber, J.S. 1965. Studies in Lexical Relations.
Doctoral dissertation. MIT.
Jackendoff, R.S. 1972. Semantic Interpretation
in Generative Grammar. MIT Press,
Cambridge (Mass.).
Levin, B. 1993. English Verb Classes and
Alternations: A Preliminary Investigation.
The University of Chicago Press, Chicago.
Calzolari, N., A. Lenci, and A. Zampolli.
2001a. The EAGLES/ISLE computational
lexicon working group for multilingual
computational lexicons. Proceedings of the
First International Workshop on Multimedia
Annotation. Tokyo (Japan).
Levin, B. 1995. Approaches to lexical semantic
representation. D.E. Walker, A. Zampolli,
and N. Calzolari. eds. Automating the
Lexicon: Research and Practice in a
Multilingual
Environment.
Oxford
University Press, New York.
Calzolari, N., A. Lenci, and A. Zampolli.
2001b.
International
standards
for
multilingual resource sharing: the ISLE
Computational Lexicon Working Group.
Proceedings of the ACL 2001 Workshop on
Human
Language
Technology
and
Knowledge
Management.
71-78,
Morristown (USA).
Lieske, C., S. McCormick, and G. Thurmair.
2001. The Open Lexicon Interchange
Format (OLIF) comes of age. Proceedings
of the Machine Translation Summit VIII:
Machine Translation in the Information
Age. 211-216, Santiago de Compostela
(Spain).
EAGLES Lexicon Interest Group. 1993.
EAGLES:
Computational
Lexicons
Methodology Task. EAGLES Document
EAG-CLWG-METHOD/B.
McCormick, S. 2002. The Structure and
Content of the Body of an OLIF v.2.0/2.1.
The OLIF2 Consortium.
EAGLES Lexicon Interest Group. 1996a.
EAGLES: synopsis and comparison of
morphosyntactic phenomena encoded in
lexicons and corpora. A common proposal
and applications to European languages.
McCormick, S., C. Lieske, and A. Culum.
2004. OLIF v.2: A Flexible Language Data
Standard. The OLIF2 Consortium.
Monachini, M., F. Bertagna, N. Calzolari, N.
Underwood, and C. Navarretta. 2003.
Towards a Standard for the Creation of
address the translation of an L1 lexical unit to the
most probable equivalent in L2.
15
Carlos Periñán-Pascual, Francisco Arcas-Túnez
Lexica.
ELRA
European
Resources Association.
Language
Periñán-Pascual, C. and F. Arcas-Túnez. 2005.
Microconceptual-Knowledge Spreading in
FunGramKB. 9th IASTED International
Conference on Artificial Intelligence and
Soft Computing, 239- 244, ACTA Press,
Anaheim-Calgary-Zurich.
Schank, R.C. 1973. Identification of
conceptualizations
underlying
natural
language. R.C. Schank and K.M. Colby. eds.
Computer Models of Thought and
Language. W.H. Freeman, San Francisco,
187-247.
Underwood, N. and C. Navarretta. 1997.
Towards a standard for the creation of
lexica.
Center
for
Sprogteknologi.
Copenhagen.
16
Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 17-26
recibido 28-01-08, aceptado 03-03-08
Aggregation in the In–Home Domain∗
Agregación en el entorno domótico
Eva Florencio, Gabriel Amores, Guillermo Pérez, Pilar Manchón
Grupo de Investigación Julietta
Universidad de Sevilla
Palos de la Frontera, s/n
41004 Sevilla, Spain
{evaflorencio,jgabriel,gperez,pmanchon}@us.es
Resumen: Este artı́culo describe experimentos realizados con vistas a determinar
las preferencias de agregación léxica y sintáctica en inglés y español. El objetivo final
es la implementación de dichas estrategias en el módulo de generación de lenguaje
natural de un sistema de diálogo multimodal para el entorno domótico.
Palabras clave: Agregación, Generación de Lenguaje Natural, Sistemas de Diálogo
Abstract: This paper describes experiments carried out in order to determine
syntactic and lexical aggregation preferences by English and Spanish users. The
final goal of this work is the implementation of such strategies in the NLG module
of a multimodal dialogue system in the in–home domain.
Keywords: Aggregation, Natural Language Generation, Dialogue Systems
1
Introduction
Describing the state of the different devices in
a scenario such as the one in Figure 1, where
information can be presented and expressed
in multiple ways, involves a great complexity for Natural Language Generation (NLG)
systems, and even for human beings.
Figure 1: Virtual House Example
Thus, the house in Figure 1, could be described by focussing on those devices which
are switched–on, or we could group them according to their location, or type, as shown
in examples 1, 2 and 3, respectively:
(1) The TV, the lights in the sitting
room and the light in the kitchen
∗
This work has been funded by the Education and
Science Spanish Ministry under the project GILDA:
Natural Language Generation for Dialogue Systems
(TIN2006-14433-C02-02).
ISSN 1135-5948
are on.
(2) In the sitting room, the light is on.
The light is on in the kitchen and
the TV is on in the bedroom.
(3) The lights in the sitting room and
kitchen are on, and the TV in the
bedroom is on.
Moreover, not only can elements be
grouped in several ways, but information can
also be aggregated differently. Thus, the
state of each individual device could be described by single independent clauses without
combining them, as shown in example 4:
(4) The light in the bedroom is off. The
blinds in the bedroom are rolled
down. The TV in the bedroom is
off. The lights in the patio are off
...
Although this way of presenting information is perfectly grammatical, it results in
very monotonous and machine–like outputs.
An NLG system which is capable of performing different aggregation strategies will produce a more natural output.
This paper describes experiments carried
out in order to determine aggregation preferences by English and Spanish users. The
final goal of this work is the implementation
of such strategies in the NLG module of a
© Sociedad Española para el Procesamiento del Lenguaje Natural
Eva Florencio, Gabriel Amores, Guillermo Pérez, Pilar Manchón
by Reape and Mellish (1999), most NLG systems lack a linguistic foundation to account
for aggregation strategies.
multimodal dialogue system in the in–home
domain.
The paper is organised as follows. Section
2 introduces the process of aggregation and
its relevance in natural language generation.
Next, section 3 describes the MIMUS multimodal dialogue system in which the aggregation strategies will be implemented. Section
4 outlines the initial working hypothesis to be
confirmed by the experimental results. The
experiments carried out are described in section 5. Sections 6 and 7 review the results obtained and the conclusions to be drawn from
the experiments. Finally, section 8 advances
some of the lines to be carried out from this
moment in the context of the project.
2
3
The MIMUS Dialogue System
The context for this project is MIMUS, a
multimodal and multilingual dialogue system
based on the Information State Update (ISU)
Approach (Larsson and Traum, 2000). The
system has a symmetric architecture that allows that both the input and the output can
be presented in graphical, voice or mixed
(voice plus graphical) modalities. Besides,
as it is a multilingual system, the user may
interact dynamically in English and Spanish (Solar et al., 2007). MIMUS is made
up of a series of collaborative agents (Pérez,
Amores, and Manchón, 2006) that cooperate and communicate among them under
the Open Agent Architecture (OAA, Martin,
Cheyer, and Moran (1999)) framework.
The core module is the Dialogue Manager
(DM), a collaborative agent that is linked to
a Natural Language Understanding (NLU)
module and to a Generation Module. Dialogues are driven both by the semantic information provided by the user and by the dialogue expectations generated by the dialogue
manager. MIMUS incorporates its own specification language for dialogue structures that
allows for the representation of the dialogue
history, the control of expectations and the
treatment of ambiguity.
The current version of MIMUS contains
a hybrid NLG module in which sentence
planning takes the form of predefined templates, as described in (Amores, Pérez, and
Manchón, 2006). Utterances are elaborated
from the mapping of abstract content representations to linguistic ones. In addition,
some canned texts are used for common invariable expressions such as Hello, Thank
you, or Bye–bye.
Aggregation
A review of the literature on aggregation
(Dalianis, 1999; Wilkinson, 1995; Shaw,
1998; Cheng, 2000) clearly points out that
there is no agreement on its definition or
where to place it in the generation process.
Albeit thorough attempts have been made to
come up with a core definition (Reape and
Mellish, 1999) and a standard architecture
(Cahill and Reape, 1999), conceptual problems arise.
For the purpose of this project, aggregation is conceived of as a process which removes redundant information from a text because it can be inferred or retrieved from
linguistic sources (the remaining text), from
computational sources (ontology), or pragmatically (using common knowledge).
In this work, we will focus on syntactic aggregation, understanding it as the process of combining phrases by means of syntactic rules, such as coordination, ellipsis or
subordination. There are, however, some
cases of lexical aggregation covered in this
study too. Lexical aggregation is understood
as the process of mapping several lexical
predicates/lexemes into fewer lexical predicates/lexemes.
Pronominalisation is considered as a special case of lexical aggregation on the basis
of Quirk et al. (1985)’s analysis of pro–form
reduction. The theoretical motivation for it
is that, indeed, it reduces the number of lexemes or predicates, but it is done by means
of a pronoun, unlike other cases of reduction.
We claim that all these phenomena have a
linguistic motivation and, consequently, they
should be linguistically–grounded. As noted
4
Working Hypothesis
The final goal of this work is to implement
aggregation strategies in our NLG system.
Namely, the final NLG module will be required to produce coordinated messages as
well as sentences containing other linguistic
phenomena, such as ellipsis, gapping or stripping. For instance, sentence 5 below shows
an example of how the system should be able
to concatenate the light’s locations, either by
juxtaposition or coordination, and produce
18
Aggregation in the In-Home Domain
4.2
ellipsis or contribute with cue words such as
also.
With a view to implementing aggregation in
the NLG module of our system, it is important to have some understanding of the grammatical coverage needed in the in–home domain. In addition, the linguistic coverage of
the expected texts to be generated is also conditioned by the type of application being implemented (a multimodal dialogue system),
and the type of interactions supported (requests about the state of devices in the in–
home domain).
Taking into account possible questions
that users may formulate when interacting
with the system, answers may reply to questions about:
(5) The lights are on in the sitting
room, in the bedroom, and in the
kitchen. The hall is also on.
4.1
Linguistic constructions
expected
Location in the overall system
This section discusses where aggregation
strategies could be placed in the NLG module
of MIMUS.
Our first hypothesis is that both syntactic and lexical aggregation in the generation
process in MIMUS will be located in the sentence planner. That is, sentence planning
templates will be expanded with linguistic information so that they can perform syntactic
and lexical aggregation.
As explained in the previous section, sentence planning templates map conceptual
representations into linguistic ones that will
later be passed on to the surface realiser.
Therefore, the type of syntactic construction
should be specified in the sentence planner
so that the surface realiser transforms it into
a linguistic unit by means of syntactic rules.
The form that terminal nodes will have if lexical aggregation has taken place should also
be specified. For instance, some items may
have been lexically aggregated by employing
a hypernym (e.g., device) instead of their hyponyms (e.g., light, TV, fan and/or blind ).
In this fashion, the proposed architecture
including aggregation can be seen in Figure
2.
a. Quantity: the number of device(s) satisfying a specified condition(s).
b. State: the state (on or off) of the devices
will be requested. Two subtypes may be
found:
• Replies about the state of devices
(How is the light in the kitchen? )
• Confirm the state of devices (Is the
light in the kitchen on? )
c. Devices: information about which devices are in a specific state or location,
i.e. (Which devices are on in the house? )
d. Location: obtain information about the
location of devices, i.e. Where is the tv?
As discussed in Section 1, the information
gathered may be grouped according to some
common feature, for example, the type of device, the state they are in, or the location.
As a first hypothesis, our prediction is that
the grouping will mainly be done by location
(see example 6 below), perhaps as a consequence of the distribution of the house, which
is clearly separated into rooms, as seen in Figure 1.
(6) In the sitting room, the light is on,
the fan is off, and the TV is on. In
the bedroom, all the devices are on.
In the patio, one light is on.
Nevertheless, the description could also
hinge on the type of device or on their state.
In those situations in which one of these characteristics (state, device or location) is explicitly mentioned in the question, it is foreseen
that:
Figure 2: Proposed location of aggregation
strategies in the NLG module
19
Eva Florencio, Gabriel Amores, Guillermo Pérez, Pilar Manchón
1. If the device is explicitly mentioned,
then the grouping is done by location;
Sys: Please, tell me the state
of the lights.
Usr: In the sitting room, there
is one light on. In the hall,
the light is on. In the kitchen,
the light is off. In the bathroom,
it is on. In the patio, two lights
are on and two are off.
– Constituent coordination: [ [The
light in the kitchen] and [the light
in the garage] ] are on.
• Reduction: It is probably the most
common definition of aggregation in the
literature and one of the most controversial aspects of its definition. Reduction
is the process of removing information
that can be inferred or retrieved from
the remaining text. Different kinds are
distinguished, depending on the type of
information elided.
2. If the location is explicitly mentioned,
then the grouping is done by device type:
Sys: How are the devices in the
sitting room?
Usr: There is one light on
and the other one is off;
the TV is on and the fan is off.
– Ellipsis: In our domain, we expect it
to be performed mainly when asking
about a particular device or when
there is only one type of device in a
location.
(7) The (light in the) patio is on.
– Gapping: It is prone to happen
when the main verb is understood,
because it has just been mentioned,
or when it is a copulative verb. In
this domain, the main verb will be
the copulative estar/to be in almost
every sentence.
(8) In the sitting room, the TV
is on and the fan (is) off.
– Stripping: It will take place when
describing a device that shares the
same state as the one previously
mentioned.
(9) The light is off and the stove
[is off ] too.
3. If the state is the only feature mentioned,
then it is considered as a non–specific
situation in which the general prediction
applies (i.e., grouping will be done by
location).
Sys:
Usr:
4.3
Which devices are on?
In the sitting room,
only the fan is on.
In the bedroom,
the light and the TV are on.
In the hall, two lights are on.
Types of aggregation required
Concerning the types of syntactic and lexical aggregation that will be necessary in the
MIMUS dialogue system, what follows is a
list of the ones that should be implemented.
The system should be able to produce them,
but also to combine them when necessary.
Besides, the insertion of some cue words or
discourse markers would also be desirable.
• Multiple aggregation: more than aggregation process, including also lexical
aggregation takes place. For instance,
(10) In
the
patio,
there
are
two
lights
on
and
[constituent
coor]
one
[pronominalisation:
light]
off. The [ellipsis: light in]
kitchen is on and [coor] the
bathroom [gapping: is] off.
4.3.1 Syntactic Aggregation
The next syntactic aggregation processes are
required:
• Paratactic constructions: linking
units of the same rank (sentences,
clauses or phrases –the latter case will
be referred to as constituent coordination). They are used whenever we need
to go through a list of references.
4.3.2 Lexical Aggregation
Reducing the number of lexemes or predicates is required when all the devices in
the same location have the same state, for
instance: En el dormitorio, todo está apagado/In the bedroom, everything is off ; or
when describing the same device, such as Hay
una luz encendida en el baño y otra en la
– Coordination: [The light in the
kitchen is on] and [the blind is rolled
up].
20
Aggregation in the In-Home Domain
• 4 about devices.
cocina/There is one light on in the bathroom
and another one in the kitchen.
Apart from these pronominalisations, we
also expect users to make use of other types
of lexical aggregation such as the use of hypernym instead of its hyponyms, as in The
devices are on (instead of The light and hob
in the kitchen are on)/Los aparatos están encendidos (instead of La luz y la vitrocerámica
están encendidas en la cocina).
• 2 about devices and location.
• 3 about description.
• 2 asked for confirmation of state.
The user’s profile was not specific; the
only feature they had in common was that
they were naı̈ve, in the sense that they did
not have any previous knowledge of the overall functioning of the system. The role of the
users was to describe what they saw in a natural manner. In other words, they had to reply as information came to their minds, without elaborating the utterances beforehand.
They were provided with some information prior to the experiments, such as the
type of devices they may come across (lights,
televisions . . . ) as well as the state they may
be in (on, off . . . ) and the number of them
in each location.
There are nineteen devices available in the
house, distributed as follows:
4.3.3 Cue Words
Finally, the following cue words may contribute fluency, cohesion and coherence to
the output messages: también; ası́ como;
tanto. . . como. . . ; and sin embargo, salvo, or
pero in Spanish; and too, also, both, and but
or however in English. This will also result
in more varied and less repetitive sentences.
5
Experiments
This section describes the experiments carried out in order to corroborate or refute the
working hypotheses.
5.1
Goals
The main goal of these experiments has been
the study of syntactic and lexical aggregation in the in–home domain, both in English
and Spanish. Experiments were carried out
in both languages in order to determine, in
the first place, if they differ in the way information is aggregated.
In doing so, aggregation per se will be
studied (how do speakers aggregate?, how often?, in which order?) with the aim of obtaining a pattern which may serve as a model
of behaviour for its subsequent implementation in the system.
Sitting room: two lights, a TV, a fan and
a blind.
5.2
The first settings were considered as an
initial contact with the system, in which only
basic information could be obtained, being
aggregation either basic or non–existent at
all.
As the experiment moves on, the difficulty
increases. Different states with different devices and locations are combined together to
see how the user aggregates information:
Bedroom: one light, a TV, a blind and a
fan.
Kitchen: one light and the ceramic hob.
Bathroom: one light.
Garage: two lights.
Patio: four lights.
Hall: one light.
Design
The experiment consisted in showing the informants fifteen print screens of the house in
which the devices were in different state configurations. Informants were then asked to
describe the state of the devices.
The questions to be answered were in the
range of possible requests that users can formulate to the system in the real application.
Our final goal is to achieve a natural, human–
like, virtual butler for the house.
The scenarios were distributed as follows:
• simple enumeration,
• use of cue words, and
• 3 scenarios asked about quantity.
• preferences either by location, type of
device or state.
• 1 about location.
21
Eva Florencio, Gabriel Amores, Guillermo Pérez, Pilar Manchón
5.3
Corpus
The corpus of study was obtained after interviewing twenty–four informants, twelve in
Spanish and twelve in English. As aforementioned, since no specific user profile was
sought, informants do not share the same
characteristics in both languages.
Since
each informant was presented with 15 print
screens, a corpus of 180 descriptions has been
obtained for each language.
5.3.1 Spanish Corpus
In the Spanish version of the experiment,
twelve users were enrolled. Out of these
twelve informants, only four were women; the
rest were men. All of them were native speakers of Spanish. Their education level was
high, meaning that except for one of the informants, all of them held at least a university degree (Master’s Degree, PhD students
and PhDs were also interviewed). Their age
ranged between 25 and 44 years old. The average age was 27.1, the median was 26, the
mode was 25, and the standard deviation was
5.51.
Figure 3: Users’ age range in years
type of information demanded, determining if
users were asked about the number of a specific device with a concrete state or about the
number of devices in general, among other
possibilities. Then, the different model answers were set and the usage percentages (out
of the total answers for that specific kind of
question) were given (see (Florencio, 2007)
for further details).
At the same time, we also analysed the
way in which informants grouped information, either by devices, states or location. After that, the lexical and syntactic aggregation
found in each of the predominant patterns is
pointed out, as well as the cue words used.
5.3.2 English Corpus
For the English version, another twelve informants were recruited. As opposed to the
Spanish version, the majority of the users
were women, there were only four men involved in the experiment.1 Two of these
informants were bilingual (one English and
French, and the other Tamil and English),
but both reside in English-speaking countries. The average education level was degree
studies. Except for three users (two Master’s
Degree and Degree), the rest of them were
college students.
The range of age was from 20 to 62 years
old. The average age was 24.3, the median
was 21.5, the mode was 20, and the standard
deviation was 11.7. The informants’ age distribution of both languages can be seen in
Figure 3.
6
6.1
Spanish Results
6.1.1
Types of Syntactic and Lexical
Aggregation Performed
The most common syntactic structures employed in Spanish were ellipsis, gapping and
coordination (including constituent coordination), which were found in almost every reply.
Coordination is the most frequent aggregation strategy employed (147 times), above all,
when enumerating. Besides, since there were
many questions demanding a description, it
took place in almost every reply at least once
(either sentence coordination or constituent
coordination).
Ellipsis was the second most frequent type
of aggregation (104 times), which was mostly
used when the question specified the device.
In such cases, most users elided the device in
the reply.
Results
In order to properly analyse the results, we
first specified the kind of question being
asked. That is, among the questions asking
for quantity, for example, we broke down the
Sys:
1
The data survey collection was carried out to determine if personal aspects, such as age, sex, or cultural level, could have an influence on their answers.
Since no differences were found, no further comment
will be made on these aspects.
Usr:
22
¿Qué luces están apagadas?
(setting 3)
Las del salón, una del garage,
la cocina, el baño, dos del patio
y el dormitorio.
Aggregation in the In-Home Domain
Ellipsis also occurred when describing the
state of a particular device.
Sys:
Dı́game qué luces están encendidas.
(setting 6)
Usr: Una (luz) en el salón,
Una (luz) en el dormitorio,
dos (luces) en el garaje.
As expected, users avoided repetition
when they deemed the information was inferable. Gapping was also used very frequently
(81 times). There were some informants who
omitted the main verb in 90% of their productions. This pattern was used by a few
users regularly but not very often by the rest.
The reason may reside in the copulative nature of the verb estar.
Sys: ¿Me puede describir el estado
de todos los dispositivos
(luces, aparatos y persianas)?
(setting 5)
Usr: En el salón, las dos luces apagadas,
televisión apagada, y ventilador
en movimiento,
la persiana del salón bajada,
la luz de la entrada apagada.
Las dos luces del garaje apagadas.
La luz de la cocina encendida,
la vitrocerámica encendida . . .
Stripping was not used very frequently,
with the exception of a couple of users who
performed it (an average of twice per user, 4
times used). When used, it occurred when
a location had more than one device, especially two, and both of them were in the same
state, for example: La luz de la cocina está
encendida y la vitrocerámica (está encendida)
también.
Concerning lexical aggregation, todo/a,
ninguno/a, nada (15 times), and otro/a (16
times) were often used when describing the
same state or when all the devices shared
the same state. Otro/a was often employed
when enumerating the same device in different locations. No use of the hypernym
dispositivo(s), for instance, was made to refer to all lights, blinds, and so on; instead,
todo/ninguno was preferred.
6.1.2 Use of cue words
The most commonly used cue word was
también (15 times), in an average of at least
one time per user. It was mostly used
in enumeration. Some users alternated it
with other cue words such as ası́ como (1
time) or tanto. . . como. . . (2 times). Other
23
markers used were adversative conjunctions,
such as sin embargo (1 time), pero (1 time),
salvo (1 time), and some distributive ones:
uno. . . otro. . . (10 times). The words sólo and
el resto were used once each.
6.2
6.2.1
English Results
Types of Syntactic and Lexical
Aggregation Performed
An analysis of the syntactic and lexical aggregations performed on the English productions was carried out. With respect to syntactic aggregation, the most frequent strategies were ellipsis and coordination again.
Coordination, both sentence and constituent coordination, was employed in almost every utterance, adding to a total of
151 times. This phenomenon was employed
when listing the types of devices and/or their
locations. In the settings in which a description was required, coordination was mostly
found.
Concerning reduction, ellipsis was highly
employed as well. Ellipsis was realised 72
times in all. In the majority of cases, the type
of device was the element elided in the sentence, particularly when it appeared in the
question in hand. Another form of reduction used was gapping, which appeared 10
times. Only a couple of informants generally
omitted the main verb in the sentence, even
though it was a copulative verb. No other
syntactic strategies were found.
With regard to lexical aggregation, we
should point out the use of pronominal forms
such as one(s) (16 times), other/another (5
times), everything (5 times) and nothing (2
times). They appeared mostly in descriptions, such as Everything is off in the sitting
room or The fan is off in the bedroom, but the
one in the sitting is on.
Finally, all (7 times) and both (15 times)
were also employed in the descriptions when
the same state applied to all the devices, either in the house or in a specific location: All
of the lights are on or Both of the lights are
off in the sitting room.
6.2.2 Use of cue words
It should be pointed out that English informants did not make use of many cue words
in their replies. The most common cue words
used were also (7 times) and the adversative
but (9 times), which were used when enumerating or describing the state of all the devices
in the house.
Eva Florencio, Gabriel Amores, Guillermo Pérez, Pilar Manchón
Other additive phrases employed were as
well as (2 times), so is. . . (3 times), or as
is. . . (1 time). For instance, The light in
the living room is on, so is the one in the
patio. As for other adversative phrases, the
following ones were also mentioned: except
for (1 time), all the rest (1 time), or all the
other (3 times). An example would be The
light in the kitchen is on, all the rest are off.
The highly formal as far as was also used
once when listing all the devices in the house
(e.g. As far as TV’s, there are two). The
adverb only was employed just once to make
a contrast, On the patio, only one of the lights
is off.
7
Dialogue alignment. Another interesting
result from the experiment was that sentence
structuring in the replies aligned with the
structure of the question. In both languages
users were prone to reply following a similar pattern as the one employed in the question whenever a full sentence was provided.
In both cases the end–weight and end–focus
principles applied.
Long vs short answers. However, concerning the patterns established for the several questions, it should be highlighted that
different models were obtained for English
and Spanish. English speakers tend to construct full sentences, while Spanish speakers
were more economic, and provided only the
minimum information requested. For example, 53% of the Spanish informants replied
to the quantity questions by just giving the
number of devices, while only around 11%
did so in English.
Another divergence is found in the patterns obtained for the reply location scenario.
Nearly 70% of the Spanish users just provided the location, as opposed to a 75% of
English speakers who provided full sentences
(The lights are on in the sitting room, in the
bathroom, and in the hall ). This shows a
preference for short incomplete sentences in
Spanish and full sentences in English.
Comparison and conclusions
By and large, the predictions and working hypotheses advanced in section 4.2, were mostly
correct.
Grouping of information. With regard
to the grouping of information, it was clearly
done by location in both English and Spanish. This can be considered as a general preference on how to present the data as can be
drawn form Figure 4.2
Syntactic aggregation. Another conclusion related to the preference for short or
full sentences is the type of aggregation performed. As illustrated in Figure 5, Spanish
users used more aggregation strategies than
English informants, although not many aggregation strategies have been observed in
the in–home domain overall. Apart from coordination, which was frequently employed in
both languages, we could find other forms of
syntactic aggregation in the Spanish corpus,
such as ellipsis, gapping, and a few cases of
stripping. Nevertheless, in the English data
just ellipsis was found, and it was not commonly used. No other types of reduction were
observed.
Figure 4: Preference for starting descriptions
with location
Information was not only grouped by location, though; it was presented in a hierarchical way. This hierarchy was not the same
for both languages. In Spanish, the most
common way to present the data follows a
[State — Device — Location] pattern (Está
encendida la luz de la cocina); while, in English, the most popular pattern was [Device
— State — Location] (The light is on in the
kitchen).
Lexical aggregation. As far as lexical
aggregation, the results were very similar
in English and Spanish. Pronominalisation was the most frequent strategy in both
languages. We should emphasise the use
of pronominalisation forms such as todo/a,
ninguno/a, nada, otro/a in Spanish, and
one(s), other/another, everything or nothing
2
As we previously mentioned, this might be due
to the graphical interface of the house.
24
Aggregation in the In-Home Domain
tegrated with the TAP system so that different aggregation strategies for both languages
can be compared on the basis of the results
obtained by the experiments.
In addition, the new integrated prototype
will incorporate preference strategies for lexical alignment, (i.e. if a user preferred the
term bombilla instead of luz to refer to the
lights in the house, the system should align
consequently in the reply) and for fragmentary vs. verbose replies depending on the
context.
References
Amores, G., G. Pérez, and P. Manchón.
2006. Reusing MT Components in Natural Language Generation for Dialogue Systems. Procesamiento del Lenguaje Natural, 37:215–221.
Figure 5: Syntactic aggregation performed
in English.
Use of cue words. Finally, with respect
to cue words, no remarkable differences
can be found between the two languages.
Also/también obtained the highest frequency
in both languages. The only point worth
mentioning is that it seems that in English
fewer cue words were employed but the ones
employed were more varied. However, the
difference is not significant.
Is aggregation language–dependent?
Finally, although a much broader analysis
should be performed, a comparison of the
corpora in English and Spanish seems to suggest that aggregation is language–dependent
instead of language–independent. Besides,
the enormous differences found between the
patterns established in each language plus
the different aggregation strategies employed
open the possibility of reconsidering the localisation of the aggregation process at a later
stage (i.e., not in the Sentence Realiser, but
on the Surface Realiser), or consider that
the generation module as a whole should be
language–dependent.
8
Cahill, L. and M. Reape. 1999. Component
tasks in applied NLG Systems. Technical
report, Information Technology Research
Institute Technical Report Series.
Cheng, H. 2000. Experimenting with the Interaction between Aggregation and Text
Structuring. In Proceedings of the ANLPNAACL 2000 Student Research Workshop, pages 1–6, Seattle, Washington,
USA.
Dalianis, H. 1999. Aggregation in Natural
Language Generation. Computational Intelligence, 15(4):384–414, November.
Florencio, E. 2007. A study on syntactic and lexical aggregation in the in-home
domain. Master’s thesis, University of
Seville, Spain, May.
Gervás, P. 2007. TAP: a Text Arranging Pipeline. Technical report, Natural
Interaction based on Language Research
Group, Facultad de Informática, Universidad Complutense de Madrid, May. Working draft.
Larsson, S. and D. Traum. 2000. Information state and dialogue management
in the TRINDI Dialogue Move Engine
Toolkit. Natural Language Engineering,
6(3-4):323–340.
Future Work
At this point in the project, a new specification language is being created in collaboration with the TAP (a Text Arranging
Pipeline) project (Gervás, 2007) in an effort to create a set of interfaces which define generic functionality for a pipeline of
tasks oriented towards natural language generation. The DTAC representation obtained
by our dialogue system is currently being in-
Martin, D. L., A. J. Cheyer, and D. B.
Moran. 1999. The Open Agent Architecture: A Framework for Building Distributed Software Systems. Applied Artificial Intelligence, 13(1-2):91–128.
25
Eva Florencio, Gabriel Amores, Guillermo Pérez, Pilar Manchón
Pérez, G., G. Amores, and P. Manchón.
2006. A Multimodal Architecture for
Home Control by Disabled Users. In Proceedings of IEEE ACL Workshop on Spoken Language Technology (SLT), pages
134–137, Aruba, December.
Quirk, R., S. Greenbaum, G. Leech, and
J. Svartvik. 1985. A Comprehensive
Grammar of the English Language. Longman Group Limited.
Reape, M. and C. Mellish. 1999. Just what
is aggregation anyway? In Proceedings
of the 7th European Workshop on Natural Language Processing, pages 20–29,
Toulouse (France), May.
Shaw, J.C. 1998. Clause Aggregation Using
Linguistic Knowledge. In Proceedings of
the 9th International Workshop on Natural Language Generation, pages 138–147,
Niagara-on-the-Lake, Canada, August.
Solar, C. Del, G. Pérez, E. Florencio,
D. Moral, G. Amores, and P. Manchón.
2007.
Dynamic Language Change in
MIMUS. In Proceedings of the Eighth
Interspeech Conference (INTERSPEECH
2007 Special Session: Multilingualism in
Speech and Language Processing), pages
2141–2144, Antwerp, Belgium, August 2731.
Wilkinson, J. 1995. Aggregation in natural
language generation: Another look. Technical report, Co-op work term report, Department of Computer Science, University
of Waterloo, September.
26
Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 27-34
recibido 31-01-08, aceptado 03-03-08
Detección de fármacos genéricos en textos biomédicos
Detecting generic drugs in biomedical texts
Isabel Segura Bedmar
Paloma Martínez
Doaa Samy
Universidad Carlos III de
Universidad Carlos III de
Universidad Carlos III de
Madrid
Madrid
Madrid
Avda. Universidad 30, 28911 Avda. Universidad 30, 28911 Avda. Universidad 30, 28911
Leganés, Madrid
Leganés, Madrid
Leganés, Madrid
[email protected]
[email protected]
[email protected]
Resumen: Este trabajo presenta un sistema para el reconocimiento y clasificación de nombres
genéricos de fármacos en textos biomédicos1. El sistema combina información del Metatesauro
UMLS2 y reglas de nomenclatura para fármacos genéricos, recomendadas por el consejo
“United States Adoptated Names” (USAN)3, que permiten la clasificación de los fármacos en
familias farmacológicas. La hipótesis de partida es que las reglas USAN son capaces de detectar
posibles candidatos de fármacos que no están incluidos en UMLS (versión 2007AC),
aumentando la cobertura del sistema. El sistema consigue un 100% de precisión y un 97% de
cobertura usando sólo UMLS sobre una colección de 1481 resúmenes de artículos científicos de
PubMed. La combinación de las reglas USAN con UMLS mejoran ligeramente la cobertura del
sistema.
Palabras clave: Reconocimiento de entidades biomédicas, Fármacos Genéricos, UMLS
Abstract: This paper presents a system for drug name recognition and clasification in
biomedical texts. The system combines information from UMLS Metathesaurus and
nomenclatura rules for generic drugs, recommended by United States Adoptated Names
(USAN), that allow the classification of the drugs in pharmacologic families. The initial
hypothesis is that rules are able to detect possible candidates of drug names which are not
included in the UMLS database (version 2007AC), increasing, in this way, the coverage of the
system. The system achieves a 100% precision and 97% recall using UMLS only. The
combination of the USAN rules and UMLS slightly improves the coverage of the system.
Keywords: Biomedical Named Entities, Generic Drugs, UMLS.
1
Introducción
Este trabajo es un primer paso en el
desarrollo de un sistema que permita la
extracción
automática
de
interacciones
farmacológicas en textos biomédicos. Una
interacción ocurre cuando los efectos de un
fármaco se modifican por la presencia de otro
fármaco, o bien de un alimento, una bebida o
algún agente químico ambiental (Stockley,
2004).
Las consecuencias pueden ser perjudiciales
si la interacción causa un aumento de la
toxicidad del fármaco. Por ejemplo, los
pacientes que reciben warfarina pueden
comenzar a sangrar si se les administra
azapropazona o fenilbutazona sin disminuir la
dosis de warfarina. Del mismo modo, la
disminución de la eficacia de un fármaco
causada por una interacción puede ser igual de
peligrosa: si a los pacientes que reciben
warfarina se les administra rifampicina,
necesitaran más cantidad de aquélla para
mantener una anticoagulación adecuada. Sin
1
Este trabajo ha sido parcialmente financiado por los proyectos FIT-350300-2007-75 (Interoperabilidad
basada en semántica para la Sanidad Electrónica) y TIN2007-67407-C03-01 (BRAVO: Búsqueda de respuestas
avanzada multimodal y multilingüe).
2
http://www.nlm.nih.gov/research/umls/
3
http://www.ama-assn.org/ama/pub/category/2956.html
ISSN 1135-5948
© Sociedad Española para el Procesamiento del Lenguaje Natural
Isabel Segura-Bedmar, Paloma Martínez, Dooa Samy
embargo, en determinadas ocasiones el uso
combinado de medicamentos puede ser
beneficioso. La combinación de fármacos
antihipertensivos y diuréticos logran unos
efectos antihipertensores que no se obtendrían
con la administración de uno u otro fármaco por
separado (Stockley, 2004).
Cuantos más fármacos toma un paciente,
mayor es la probabilidad de producirse una
interacción adversa. En un estudio hospitalario
se halló que el porcentaje era del 7% entre
aquellos pacientes que tomaban entre 6 y 10
fármacos, pero aumentaba en un 40% en
aquellos que ingerían entre 16 y 20 fármacos, lo
que representa un aumento desproporcionado
(Smith et al., 1969).
Investigadores y profesionales de la salud
utilizan distintos recursos como bases de datos
online y herramientas4,5 para identificar y
prevenir las interacciones farmacológicas. Sin
embargo, la literatura biomédica es el mejor
sistema para estar al día en lo que se refiere a la
información sobre nuevas interacciones.
Los últimos avances en biomedicina han
provocado un crecimiento vertiginoso del
número de publicaciones científicas. PubMed6,
un buscador online de artículos de la revista
MedLine, tiene más de 16 millones de
resúmenes. Investigadores y profesionales de la
salud están desbordados ante tal avalancha de
información.
Por este motivo, es imprescindible el
desarrollo de sistemas que faciliten la
extracción de conocimiento y un acceso
eficiente a la información en el dominio de la
biomedicina. El uso de recursos y tecnologías
de procesamiento de lenguaje natural puede
contribuir a ello.
El reconocimiento y clasificación de los
términos biomédicos es una fase crucial en el
desarrollo de este tipo de sistemas. Es
imposible comprender un artículo sin una
precisa identificación de sus términos (genes,
proteínas, principios activos, compuestos
químicos, etc.).
La detección de nombres de fármacos
genéricos es una tarea compleja debido a las
dificultades que implica el procesamiento del
texto farmacológico. Nuevos fármacos se
introducen diariamente mientras que otros se
retiran. Los recursos terminológicos, aunque se
modificados frecuentemente, no pueden seguir
el paso acelerado de esta terminología en
constante cambio. Así, los sistemas capaces de
detectar de forma automática nuevos fármacos
pueden contribuir a la actualización automática
de sus bases de conocimiento.
El sistema presentado en este artículo
persigue el reconocimiento y clasificación de
nombres genéricos de fármacos, combinando
información de UMLS y un módulo que
implementa las reglas recomendadas por el
consejo USAN para la denominación de
sustancias farmacológicas. Esta fase es un paso
previo e imprescindible para la extracción
automática de las interacciones farmacológicas
en la literatura biomédica.
La combinación de ambos recursos obtiene
una precisión y cobertura elevada. UMLS
garantiza la precisión, mientras que las reglas
amplían la cobertura del dominio detectando
nuevos nombres de fármacos que aún no han
sido registrados en UMLS.
Además,
las
reglas permiten una
clasificación más específica de los fármacos en
familias farmacológicos, que ULMS no es
capaz de aportar. Consideramos que la familia
de un fármaco puede ser una pista valiosa a la
hora de detectar interacciones farmacológicas
en textos biomédicos. Los fármacos de una
misma familia comparten una estructura
química base, y por este motivo, si es conocida
la interacción de un determinado fármaco, es
bastante probable que otro fármaco de la misma
familia presenten la misma interacción.
El artículo está organizado como sigue: la
sección 2 es una revisión de los trabajos en el
reconocimiento de entidades biomédicas. La
sección 3 describe brevemente los principales
recursos de información utilizados en el
sistema: UMLS y las reglas USAN. La sección
4 proporciona una descripción de la arquitectura
del sistema y el corpus utilizado. La evaluación
se presenta en la sección 5. Finalmente, la
sección 6 incluye algunas conclusiones y el
trabajo futuro.
2
Trabajos relacionados
La identificación de genes, proteínas,
compuestos
químicos,
fármacos
y
enfermedades, etc., es crucial para facilitar la
recuperación de información y la identificación
de relaciones entre esas entidades, como por
ejemplo, las interacciones entre fármacos.
4
http://www.micromedex.com/products/
http://www.ashp.org/ahfs/index.cfm
6
http://www.ncbi.nlm.nih.gov/sites/entrez/
5
28
Detección de fármacos genéricos en textos biomédicos
entidades mediante el uso de pistas léxicas y
ortográficas, aunque también se suele utilizar
información morfosintáctica. Una de sus
principales desventajas es el elevado coste de
tiempo y esfuerzo que implica el desarrollo de
las reglas. Además, su adaptación para el
reconocimiento de otro tipo de entidades es
compleja. La combinación de elementos
internos tales como afijos, raíces, letras griegas
y latinas se emplea para describir la formación
de patrones de términos mediante una gramática
en el trabajo (Ananiadou, 1994).
El sistema PROPER, desarrollado por
(Fukuda et al., 1998), utiliza patrones léxicos y
elementos ortográficos para la detección de
nombres de proteínas, consiguiendo en un
pequeño experimento una precisión del 94.7% y
una cobertura del 98.8%. El sistema PASTA
utiliza una gramática libre de contexto para el
reconocimiento de proteínas. Las reglas están
basadas en propiedades léxicas y morfológicas
de los términos del dominio. El sistema
consigue un 84% de precisión y un 82% de
cobertura en el reconocimiento de 12 clases de
proteínas (Gaizauskas et al., 2003). En el
trabajo de (Narayanaswamy et al., 2003) se
combina el uso de raíces y sufijos típicos en el
dominio químico, con información contextual,
es decir, información sobre las palabras que
rodean la entidad. También hay trabajos de
adaptación de reconocedores de entidades de
carácter general com el presentado en (Hobbs,
2002) para detección de nombres de proteínas.
Otros enfoques combinan el uso de
diccionario y reglas para mitigar el problema de
la variabilidad terminológica, y conseguir así
una mayor cobertura. (Chiang y Yu, 2003)
proponen un sistema robusto de reconocimiento
de términos basado en reglas y en la ontología
Gene8. Las reglas consideran las posibles
variaciones multipalabra, generadas por las
permutaciones y por la inserción o eliminación
de palabra individuales.
Menor es el número de los sistemas que han
utilizado aprendizaje supervisado, debido
principalmente a la carencia de corpus
etiquetados en el dominio biomédico. A
continuación, se presentan algunos de estos
sistemas basados en aprendizaje automático.
En (Zhan et al., 2004) se adaptó un modelo
oculto de Markov para el reconocimiento de
entidades y abreviaturas en el dominio
El reconocimiento de entidades intenta
encontrar términos de interés en el texto y
clasificarlos dentro de categorías predefinidas
como genes, compuestos químicos, fármacos,
etc. El problema consiste en determinar dónde
empieza y termina cada término, y la asignación
de la clase correcta.
Muchos trabajos se han centrado en la
identificación de genes (Tanabe y Wilbur,
2002) y proteínas (Fukuda et al., 1998). Menor
atención ha recibido la detección de otro tipo de
entidades como las sustancias químicas (Wilbur
et al., 1999), fármacos (Rindflesch et al., 2000)
o enfermedades (Friedman et al., 2004).
Se han empleado diferentes enfoques para
tratar el problema del reconocimiento de
entidades biomédicas: reglas, diccionarios,
aprendizaje automático, métodos estadísticos, y
una combinación de las distintas técnicas. Los
métodos basados en diccionarios utilizan
recursos terminológicos para localizar las
ocurrencias de los términos en el texto. Su
principal desventaja es que no son capaces de
tratar
adecuadamente
la
variabilidad
terminológica. Normalmente, un mismo
concepto puede recibir distintos nombres, y los
diccionarios, en numerosas ocasiones, no
recogen esta variabilidad.
(Hirschman et al, 2002) utiliza patrones para
localizar genes en una lista extensa obtenida de
la base de datos FlyBase. Muchos nombres de
genes comparten su representación léxica con
palabras comunes en el idioma inglés (ej: an,
by, can, for). Esta homonimia es la responsable
de la baja precisión del sistema: un 2% en
artículos completos y un 7% en resúmenes. La
cobertura varía de 31% en resúmenes a un 84%
en artículos completos.
En (Tsuruoka y Tsujii, 2003) se describe un
método para el emparejamiento aproximado de
cadenas en un diccionario de proteínas.
Además, este método utilizaba un clasificador
Bayesiano entrenado sobre el corpus GENIA7,
para filtrar los falsos positivos. Este filtrado
mejora la precisión (73.5%), al excluir ciertos
términos detectados como proteínas según el
diccionario, pero que realmente no lo son en el
texto. El sistema consigue una cobertura del
67.2%.
El principal enfoque de los sistemas basados
en reglas consiste en el desarrollo de heurísticas
o gramáticas que describan las estructuras
comunes de los nombres de determinadas
8
7
http://www-tsujii.is.s.u-tokyo.ac.jp/GENIA/
29
http://www.geneontology.org/
Isabel Segura-Bedmar, Paloma Martínez, Dooa Samy
biomédico, mediante el uso de elementos
ortográficos, morfológicos, morfosintácticos y
semánticos. (Collier y Takeuchi, 2004) utilizan
el clasificador Support Vector Machines (SVM)
para detectar entidades biomédicas. Los
elementos utilizados fueron ortográficos y
etiquetas morfosintácticas. Los experimentos
demostraron que el uso de información
morfosintáctica provocaba un ligero descenso
en los resultados.
En (Lee et al, 2004), el reconocimiento se
divide en dos fases: identificación y
clasificación. Esta división permite una
selección más apropiada de los elementos
utilizados para el entrenamiento del algoritmo
SVM en cada una de las fases.
El sistema descrito en este artículo combina
el uso de reglas y diccionario. Las reglas están
basadas en las recomendaciones del consejo
USAN para nominar sustancias farmacológicas.
Además, la utilización de estándares oficiales,
como es el caso de las reglas USAN, garantiza
cierta precisión comparada con la que podría
obtenerse al aplicar simples heurísticas.
3
identificación de los nombres de fármacos en el
texto.
La red semántica consta de 135 tipos
semánticos y 54 relaciones que representan
relaciones importantes en el dominio de la
biomedicina. La Figura 1 muestra parte de la
red semántica. Cada concepto de UMLS se
clasifica por al menos un tipo semántico.
Debido a su extenso alcance, la red semántica
permite la categorización de un amplio rango de
terminología, lo que favorece el desarrollo de
sistemas para el procesamiento automático del
lenguaje natural en múltiples dominios
biomédicos.
Sin embargo, en lo que se refiere al dominio
farmacológico,
esta
categorización
es
insuficiente. En UMLS, los fármacos genéricos
se clasifican en “Pharmacological Substances”
o “Antibiotics”. El tipo “Clinical Drugs” se
refiere a marcas comerciales, y queda fuera del
alcance de nuestro estudio.
Mientras que los antibióticos se clasifican en
el tipo “Antibiotics”, para el resto de familias
farmacológicas
(analgésicos,
antivirales,
anticoagulantes, antiinflamatorios, etc), UMLS
proporciona una clasificación demasiado
general, al clasificarlos como “Pharmacologic
Substance”, sin hacer distinción alguna entre las
distintas familias.
El tercer recurso de UMLS, SPECIALIST
Lexicón está formado por numerosos términos
biomédicos y contiene información sintáctica,
morfológica y ortográfica.
Es posible acceder a estos recursos de tres
formas distintas: a través de un servidor cliente
utilizando un navegador estándar, mediante un
programa que utilice el API UMLSKS, o a
través de una interfaz TCP/IP. También es
posible trabajar con una copia local de los
recursos UMLS, distribuida gratuitamente por
la National Library Medical (NLM)9 de Estados
Unidos. En la arquitectura aquí descrita se
implementó un programa JAVA que embebía el
API UMLSKS para acceder a la información en
el servidor remoto.
Recursos específicos del sistema
El sistema utiliza dos fuentes de información
para identificar y clasificar los nombres de
fármacos en textos biomédicos: el Metatesauro
UMLS y las recomendaciones del consejo
USAN para el nombrado de fármacos
genéricos. Ambos se describen a continuación.
3.1 UMLS Knowledge Sources
(UMLSKS)
El Sistema de Lenguaje Médico Unificado
(UMLS) es una base de datos de conocimiento
que integra varios recursos. Uno de sus
principales propósitos es facilitar el desarrollo
de sistemas automáticos para el procesamiento
lenguaje natural en el dominio de la
biomedicina. Tres son los recursos principales
de UMLS: el Metatesauro, la red semántica y el
SPECIALIST Lexicón.
El Metatesauro solventa en gran medida el
problema de la variabilidad terminológica,
debido a que integra información de más de 60
vocabularios y clasificaciones biomédicas. La
organización del Metatesauro está basada en
conceptos. Un concepto agrupa los posibles
nombres que puede tomar un mismo significado
en la literatura médica. En el sistema aquí
presentado, el Metatesauro UMLS permite la
3.2 Reglas de nombrado recomendadas
por el consejo USAN.
Un fármaco tiene tres nombres: uno químico
basado en su estructura, uno genérico (no
propietario) que es el nombre oficial del
fármaco durante su existencia, y la marca
9
30
http://www.nlm.nih.gov/
Detección de fármacos genéricos en textos biomédicos
La
categorización
en
familias
farmacológicas proporcionada por los afijos es
más específica y detallada que la proporcionada
por los tipos semánticos de UMLS. Además, los
afijos permiten identificar nombres de fármacos
que aún no han sido registrados en el
Metatesauro UMLS.
comercial que es el nombre dado por la
compañía farmacéutica que lo comercializa.
La selección de un nombre para un nuevo
fármaco es un proceso complejo. En Estados
Unidos, el consejo U.S. Adopted Name (USAN)
es la institución responsable de la creación y
asignación de un nombre genérico a un nuevo
fármaco. En la selección de un nombre, se
consideran los siguientes aspectos: la seguridad
del paciente, la facilidad de pronunciación, la
ausencia de conflictos con marcas comerciales
y la utilidad para los profesionales de la salud.
Afijos
-ast
-cromil
-atadine
-tibant
-adol,
-adol-butazone
-eridine
-fenine
-fentanil
-adox
-ezolid
-mulin
-penem
-oxacin
Figura 1 Un subconjunto de la Red Semántica
de UMLS
-planin
-prim
Las prácticas actuales para nombrar
fármacos recaen en el uso de afijos. Estos afijos
clasifican los fármacos dependiendo de su
estructura química, indicación o mecanismo de
acción. Por ejemplo, el nombre de un
analgésico podría contener alguno de los
siguientes afijos:–adol, -adol-, -butazone, fenine, -eridine y –fentanil.
En este trabajo, la clasificación de los
fármacos se ha basado en los afijos
recomendados por USAN10. La lista utilizada
no es exhaustiva, debido a que no incluye ni
todos los afijos aprobados por el consejo
USAN, ni los recomendados por otras
organizaciones. La Tabla 1 muestra algunos de
los sufijos empleados en la clasificación.
10
-pristin
-arol
-irudin
-rubicin
-fungin
Definición
antiasthmatics/antiallergics
antiallergics (cromoglicic).
Ej: nedocromil
tricyclic antiasthmatics.
Ej: olopatadine
antiasthmatics (bradykinin
antagonists). Ej: icatibant
analgesics (mixed opiate
receptor agonists/antagonists).
Ej: tazadolen
anti-inflammatory analgesics.
Ej: mofebutazone
analgesics (meperidine).
Ej: anileridine
analgesics (fenamic).
Ej: floctafenine
narcotic analgesics.
Ej: alfentanil
antibacterials (quinoline
dioxide). Ej: carbadox
oxazolidinone antibacterials
Ej: eperezolid
antibacterials (pleuromulin)
Ej: retapamulin
antibacterial antibiotics,
Ej: tomopenem
antibacterials (quinolone).
Ej: difloxacin
antibacterials (Actinoplane)
Ej: mideplanin
Antibacterials (trimethoprim
type). Ej: ormetoprim
Antibacterials (pristinamycin)
Ej: quinupristin
anticoagulants (dicumarol).
Ej: dicumarol
anticoagulants (hirudin).
Ej: desirudin
antineoplastic antibiotics
(daunorubicin) Ej: esorubicin
antifungal antibiotics
Ej. kalafungin
Tabla 1: Algunos afijos empleados por USAN
4
Descripción del sistema
Se ha trabajado con una colección de 1481
resúmenes de artículos científicos de PubMed
recuperada mediante búsquedas de los nombres
http://www.ama-assn.org/ama/pub/category/4782.html
31
Isabel Segura-Bedmar, Paloma Martínez, Dooa Samy
contrario, alguno de los tipos semánticos es
“Pharmacologic Substance” o “Antibiotic”, el
término se etiqueta como fármaco, junto el resto
de la información obtenida de UMLS.
Los términos que no se encuentran en
UMLS, se etiquetan como candidatos a nuevos
fármacos no registrados en UMLS.
Por último, el modulo que implementa las
recomendaciones del consejo USAN es el
responsable de clasificar los términos
etiquetados como fármacos por el modulo
anterior. Para cada uno de los términos, el
modulo devuelve la lista de los afijos que están
contenidos dentro del nombre, consiguiendo
así, la lista de sus posibles familias
farmacológicas.
de familias farmacológicas, tales como
“antiallergics”, “antiasthmatics”, “analgesics”,
“antibacterials”, “anticoagulants”, etc. Esta
colección se obtuvo mediante un Web Crawler
implementado para la recuperación de los
resúmenes.
La arquitectura del sistema (Figura 2) consta de
tres módulos que se ejecutan de forma
secuencial: (1) un módulo encargado del
procesamiento de los resúmenes, (2) un módulo
que identifica los términos que son fármacos, y
por último, (3) el módulo responsable de la
clasificación y de detectar nuevos fármacos que
aún no han sido registrados en UMLS. Para
cada uno de los resúmenes de la colección, cada
módulo produce como salida un fichero XML
con la información obtenida por él.
En primer lugar, los resúmenes se dividen en
oraciones, se identifican los tokens y se
analizan morfosintácticamente. Este módulo
utiliza los procesos Sentence Splitter, Tokenizer
y POS tagger de la infraestructura GATE11.
El análisis morfosintáctico es necesario para
identificar aquellos tokens cuya categoría
morfosintáctica es nombre (común, propio o
plural). A continuación, cada uno de estos
nombres se busca en WordNet para descartar
aquellos nombres que no son específicos del
dominio biomédico, debido a que WordNet es
un lexicón de carácter general. La lista inicial
de candidatos está formada por aquellos
nombres no encontrados en WordNet.
El segundo módulo busca en el Metatesauro
de UMLS cada uno de los términos que no han
sido encontrados en WordNet. Esta búsqueda es
implementada utilizando el API de Java que
proporciona UMLSKS y que permite consultar
información en su servidor remoto.
El servidor devuelve un fichero XML con
los resultados de la búsqueda. Si se ha
encontrado uno o más conceptos, el módulo
trata la respuesta y localiza sus posibles tipos
semánticos. Si ninguno de ellos se corresponda
con
“Pharmacological
Substance”
o
“Antibiotics” entonces el término pertenece a
otro tipo de entidades (genes, proteínas, etc.).
Aunque estas entidades están fuera del alcance
del presente estudio, la información relativa a
sus tipos semánticos, así como el nombre del
concepto, idioma, recurso de información
origen, y su identificación dentro de UMLS,
queda registrada en el fichero XML que
produce el módulo como salida. Si por el
11
Figura 2. Arquitectura del sistema
Algunos afijos son demasiado ambiguos,
tales como: -ac, -vin-,-vir-, -vin, -mab-, -kin, glil-, -dil, -sal- etc. Dichos afijos podrían
disminuir la precisión del sistema, clasificando
términos en familias incorrectas. Por este
motivo, en la implementación del módulo se
decidió prescindir de los afijos con menos de
tres letras. Claramente, la clasificación no es
exhaustiva, debido a la eliminación de estos
afijos ambiguos, y al hecho de que la lista
considerada inicialmente no era completa. Por
otro lado, con el objeto de detectar posibles
candidatos de nuevos fármacos que aún no han
sido registrados en el Metatesauro, el módulo
procesa el conjunto de términos que no fueron
encontrados en UMLS. Como se analizará en el
siguiente apartado, el número de nuevos
candidatos detectados exclusivamente por las
reglas es muy pequeño.
http://www.gate.ac.uk/
32
Detección de fármacos genéricos en textos biomédicos
5
actualizado frecuentemente y con una elevada
cobertura en el dominio de la farmacología,
pensamos que las reglas USAN podrían
detectar fármacos que aún no han sido
registrados en el metatesauro. Por este motivo,
el módulo de clasificación se ejecutó sobre este
conjunto, detectándose 102 nuevos candidatos.
Un experto del dominio evaluó manualmente el
conjunto de candidatos concluyendo que sólo
82 de estos candidatos eran realmente fármacos
no incluidos en UMLS (versión 2007AC).
Algunos ejemplos de estos fármacos son:
spiradolene,
mideplanin,
efepristin,
tomopenem.
Del resto de candidatos, 579 se
correspondían con entidades del dominio
general tales como organizaciones, nombres de
personas, etc. Esto se debe a que los resúmenes,
además de contener el título del artículo,
también contenían información sobre los
autores y su afiliación que no se había filtrado
previamente. Los restantes 830 son términos del
dominio de la biomedicina que no están
registrados en UMLS, tales como nonherbal,
suboptimal, thromboprophylaxis, interpatient,
coadministration, etc.
Finalmente, los resultados globales de la
evaluación se muestran en la Tabla 3. El
sistema consigue una cobertura del 97% y una
precisión del 100% si se utiliza únicamente
información de UMLS. La combinación de
UMLS y las reglas USAN aumentan
ligeramente la cobertura, pero disminuye la
precisión del sistema.
Evaluación del sistema
Una vez procesados los 1481 resúmenes y
descartados los nombres de dominio general, es
decir, aquellos que fueron encontrados en
WodNet, la lista inicial de candidatos está
formada por 10.743 tokens.
Cada uno de estos términos se busca en el
metatesauro de UMLS. Un 10.5% de ellos
(1.129) están registrados en el Metatesauro,
pero ninguno de sus tipos semánticos es
“Pharmacologic Substances” o “Antibiotics”.
Es decir, estos términos pertenecen a otros tipos
semánticos como “Organic Chemical”, “Lipid2,
“Carbohydrate”, etc., Como se comentó
anteriormente, este subconjunto está fuera del
alcance del presente estudio.
El 75.4% (8.103) de los 10.743 candidatos
iniciales se corresponden con sustancias
farmacológicas o antibióticos.
El módulo que implementa las reglas USAN
consigue clasificar un 35% (2.893) de ellos. La
Tabla 2 muestra parte de la distribución de
familias farmacológicas en la colección de
resúmenes.
Familia
Antineoplastics
Anticoagulants
Antihistaminics
antiasthmatics or
antiallergics
Anxiolytic
sedatives
Antibacterials
Antifungals
Antivirals
Anti-inflammatory
Afijos
-abine, -antrone, -bulin,
-platin, -rubicin, -taxel,
-tinib, -tecan, -trexate,
-vudine
-arol-, -grel-tadine, -astine
-azoline, -cromil
% (num)
7% (205)
-azenil, -azepam,
-bamete,
-peridone, -perone
-ezolid, -mulin, -oxacin,
-penem, -planin, -prim,
-pristin
-conazole, -fungin
-cavir, -ciclovir, -navir,
-vudine, -virenz,
-bufen, -butazone,
-icam, -nidap, -profen,
0,8%(24)
1,3%(37)
1,5%(44)
2,1%(61)
5%(146)
1,8%(53)
4,7%(137)
4,9%(141)
Immunomodulator
s
-imod, -leukin
5,3%(154)
Antidiabetics
Vasodilators
Analgesics
-glinide, -glitazone
-dipine, -pamil
-adol, -butazone, -coxib
-eridine, -fentanil
0,7%(22)
2,4%(71)
3,9%(115)
Cobertura
Precisión
97%
99.8%
100%
99,3%
UMLS
UMLS + Rules
Tabla 3. Resultados del sistema
6
Conclusiones
La implementación de las reglas USAN
puede mejorar la detección de nuevos fármacos
aún no registrados en el Metatesauro UMLS.
Sin embargo, los resultados demuestran que la
mejora es realmente pequeña. Por esta razón, es
lógico concluir que UMLS tiene una elevada
cobertura en el dominio de la farmacología.
Por otro lado, la categorización aportada por
UMLS en lo que se refiere a los fármacos es
insuficiente a la hora de desarrollar sistemas
automáticos para la extracción automática de
Tabla 2. Distribución de las familias
farmacológicas en el corpus
UMLS no detectó ningún concepto para el
14% (1.511) de los candidatos iniciales
(10.743). Aunque UMLS es un recurso
33
Isabel Segura-Bedmar, Paloma Martínez, Dooa Samy
Collier N, Takeuchi K. 2004. Comparison of character-level
and part of speech features for name recognition in biomedical texts:423–35.
información. Las reglas USAN pueden
contribuir a completar la clasificación de
UMLS. Conocer la clase o familia de un
determinado fármaco es una valiosa pista a la
hora de determinar la presencia real de una
interacción.
Este enfoque preliminar es el primer paso
hacia un sistema de extracción de información
en el campo de la farmacología. Ampliar la
cobertura de la clasificación gracias a la
inclusión de un mayor número de afijos, el
tratamiento de términos multipalabra, así como
la resolución de acrónimos y abreviaturas son
algunos de los siguientes pasos dentro de la
planificación de nuestro trabajo.
La evaluación del sistema fue realizada por
un farmacéutico, debido a la falta de corpus
etiquetados para el dominio farmacológico. Este
proceso manual, además de tedioso, implica una
gran cantidad de tiempo y esfuerzo. Por este
motivo, con el objeto de reducir la carga de
nuestro experto, hemos supuesto que la
información aportada por UMLS es correcta.
Sin embargo, una revisión manual de una
pequeña muestra de los conceptos clasificados
como sustancias farmacológicas en UMLS,
mostró que algunos de ellos no eran sustancias,
sino acciones o funciones farmacológicas. Esta
inconsistencia semántica también fue reportada
Schulze-Kremer y colegas (Schulze-Kremer et
al., 2004). Por tanto, somos conscientes que es
imprescindible evaluar manualmente el
conjunto de conceptos clasificados por UMLS
para conseguir una estimación real de la
precisión y cobertura del sistema.
Integrar un modulo para el reconocimiento
de entidades del dominio general, así como una
lista de términos biomédicos no incluidos en
UMLS son algunas de las medidas futuras para
reducir el coste de la evaluación.
The FlyBase database of the Drosophila genome projects and
community literature. Nucleic Acids Res 2003;31(1):172–
5.
Friedman, C., Shagina, L., Lussier, Y. and Hripcsak, G.,
2004. Automated encoding of clinical documents based
on natural language processing. J. Am. Med. Inform.
Assoc. 11, 392–402
Fukuda, K., A. Tamura, T. Tsunoda, and T. Takagi. 1998.
“Toward information extraction: identifying protein
names from biological papers”. In: Proceedings of Pac
Symp Biocomput.: 707-718.
Gaizauskas R, Demetriou G, Artymiuk PJ, Willett P. 2003.
Protein structures and information extraction from
biological
texts:
the
PASTA
system.
Bioinformatics;19(1):135–43.
Hobbs JR. 2002. Information extraction from biomedical text.
J Biomed Inform;35(4):260–4.
Hirschman L, Morgan AA, Yeh AS. 2002. Rutabaga by any
other name: extracting biological names. J Biomed
Inform;35(4):247–59.
Lee KJ, Hwang YS, Kim S, Rim HC. 2004. Biomedical
named entity recognition using two phase model based on
SVMs. J Biomed Inform. 37(6):436–47.
Narayanaswamy M, Ravikumar KE, Vijay-Shanker K. A
biological named entity recognizer. In: Proceedings of
Pacific Symposium on Biocomputations. 2003. pp. 427–
38.
Rindflesch, T.C., Tanabe,L., Weinstein,J.N. and Hunter,L.
2000. EDGAR: extraction of drugs, genes and relations
from the biomedical literature. Pac. Symp. Biocomput. 5,
517–528
Smith JW, Seidl LG y Cluff LE, 1969. Studies on the
epidemiology of adverse drug interactions. V. Clinical
factors influencing susceptibility. Ann Intern Med: 65,
629 .
Stockley, I. 2004. Stockley Interacciones farmacológicas.
Pharma Editores. Barcelona.
Tanabe, L. y Wilbur, W.J. 2002. Tagging gene and protein
names in biomedical text. Bioinformatics 18, 1124–1132
Tsuruoka Y, Tsujii J. 2003. Boosting precision and recall of
dictionarybased protein name recognition. En:
Proceedings of NLP in Biomedicine, ACL. Sapporo,
Japan; 41–8.
Agradecimientos
Wilbur WJ, Hazard GF Jr, Divita G, Mork JG, Aronson AR,
Browne AC. 1999. Analysis of biomedical text for
chemical names: a comparison of three methods. Proc.
AMIA Symp. 176–180
Los autores agradecen a María Segura Bedmar,
responsable del centro de información de
medicamentos del Hospital de Móstoles, su
valiosa ayuda en la evaluación del sistema.
Zhang J, Shen D, Zhou G, Su J, Tan CL. 2004. Enhancing
HMM-based biomedical named entity recognition by
studying special phenomena. J Biomed Inform.
37(6):411–22.
Bibliografía
Ananiadou, S. 1994. A Methodology for Automatic Term
Recognition. En: Proceedings of COLING-94. Kyoto,
Japan. 1034-1038
Schulze-Kremer S, B. Smith, A. Kumar. 2004. Revising the
UMLS Semantic Network. In: Fieschi M, Coiera E, Li YC, editors. Proceedings of Medinfo. San Francisco, CA;
2004. p. 1700.
Chiang, J.-H. and Yu, H.-C. 2003. Meke: Discovering the
functions of gene products from biomedical literature via
sentence alignment. Bioinformatics, Vol. 19(11): 1417–
1422.
34
Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 35-42
recibido 29-01-08, aceptado 03-03-08
Bases de Conocimiento Multilı́ngües
para el Procesamiento Semántico a Gran Escala∗
Multilingual Knowledge Resources
for wide–coverage Semantic Processing
Montse Cuadros
[email protected]
TALP Research Center, UPC
Barcelona, Spain
German Rigau
[email protected]
IXA Group, UPV/EHU
Donostia-San Sebastian, Spain
Resumen: Este artı́culo presenta el resultado del estudio de un amplio conjunto
de bases de conocimiento multilı́ngües actualmente disponibles que pueden ser de
interés para un gran número de tareas de procesamiento semántico a gran escala. El
estudio incluye una amplia gama de recursos derivados de forma manual y automática para el inglés y castellano. Con ello pretendemos mostrar una imagen clara de su
estado actual. Para establecer una comparación justa y neutral, la calidad de cada
recurso se ha evaluado indirectamente usando el mismo método en dos tareas de resolución de la ambigüedad semántica de las palabras (WSD, del inglés Word Sense
Disambiguation). En concreto, las tareas de muestra léxica del inglés del Senseval-3.
Palabras clave: Adquisición y Representación del Conocimiento Léxico, WSD
Abstract: This report presents a wide survey of publicly available multilingual
Knowledge Resources that could be of interest for wide–coverage semantic processing
tasks. We also include an empirical evaluation in a multilingual scenario of the
relative quality of some of these large-scale knowledge resources. The study includes
a wide range of manually and automatically derived large-scale knowledge resources
for English and Spanish. In order to establish a fair and neutral comparison, the
quality of each knowledge resource is indirectly evaluated using the same method
on a Word Sense Disambiguation task (Senseval-3 English Lexical Sample Task).
Keywords: Adquisition and Representation of Lexical Knowledge, WSD
1.
Introdución
El uso de bases de conocimiento de amplia
cobertura, tales como WordNet (Fellbaum,
1998), se ha convertido en una práctica frecuente, y a menudo necesaria, de los sistemas actuales de Procesamiento del Lenguaje
Natural (NLP, del inglés Natural Language
Processing). Incluso ahora, la construcción de
bases de conocimiento suficientemente grandes y ricas para un procesamiento semántico de amplia cobertura, requiere de un gran
y costoso esfuerzo manual que involucra a
grandes grupos de investigación durante largos perı́odos de desarrollo. De hecho, centenares de años/persona se han invertido en
Este trabajo ha sido parcialmente financiado por
grupo IXA de la UPV/EHU y los proyectos KNOW
(TIN2006-15049-C03-01) y ADIMEN (EHU06/113)
∗
ISSN 1135-5948
el desarrollo de wordnets para varios idiomas (Vossen, 1998). Por ejemplo, en más de
diez años de construcción manual (desde 1995
hasta 2006, esto es desde la versión 1.5 hasta la 3.0), WordNet ha pasado de 103.445 a
235.402 relaciones semánticas1 . Es decir, alrededor de unas mil nuevas relaciones por
mes. Sin embargo, estas bases de conocimiento no parecen ser suficientemente ricas como
para ser usadas directamente por aplicaciones avanzadas basadas en conceptos. Parece
que estas aplicaciones no se mostrarán eficaces en dominios abiertos (y también en dominios especı́ficos) sin un conocimiento semántico de amplia cobertura más detallado y más
rico construido mediante procedimientos automáticos. Obviamente, este hecho ha sido un
1
Las relaciones simétricas se han contado una sola
vez.
© Sociedad Española para el Procesamiento del Lenguaje Natural
Montse Cuadros, German Rigau
2.
obstáculo al progreso del estado del arte en
NLP.
Afortunadamente, en los últimos años, la
comunidad investigadora ha desarrollado un
amplio conjunto de métodos y herramientas
innovadoras para la adquisición automática
de conocimiento léxico a gran escala a partir de fuentes estructuradas y no estructuradas. Entre otros podemos mencionar eXtended WordNet (Mihalcea y Moldovan, 2001),
grandes colecciones de preferencias semánticas adquiridas de SemCor (Agirre y Martinez, 2001)o adquiridas de British National
Corpus (BNC) (McCarthy, 2001), Topic Signatures2 para cada synset adquiridas de la
web (Agirre y de la Calle, 2004) o adquiridas
del BNC (Cuadros, Padró, y Rigau, 2005).
Evidentemente, todos estos recursos semánticos han sido adquiridos mediante un conjunto muy diferente de procesos, herramientas y
corpus, dando lugar a un conjunto muy amplio y variado de nuevas relaciones semánticas entre synsets. De hecho, cada uno estos
recursos semánticos presentan volúmenes y
exactitudes muy distintas cuando se evalúan
en un marco común y controlado (Cuadros y
Rigau, 2006). De hecho, que sepamos, ningún
estudio empı́rico se ha llevado a cabo tratando de ver la forma en que estos grandes recursos semánticos se complementan entre sı́.
Además, dado que este conocimiento es
independiente de idioma (conocimiento representado en el plano semántico, es decir,
como relaciones entre conceptos), hasta la fecha ninguna evaluación empı́rica se ha llevado
a cabo mostrando: a) hasta qué punto estos
recursos semánticos adquiridos de un idioma
(en este caso inglés) podrı́an ser de utilidad
para otro (en este caso castellano), y b) cómo
estos recursos se complementan entre sı́.
Este artı́culo está organizado de la siguiente manera. Tras esta breve introducción, mostramos los recursos semánticos multilı́ngües
que analizaremos. En la sección 3 presentamos el marco de evaluación multilı́ngüe utilizado en este estudio. La sección 4 describe los
resultados cuando evaluamos para el inglés
estos recursos semánticos a gran escala y en
la sección 5 para el castellano. Por último, la
sección 6 se presentan algunas observaciones
finales y el trabajo futuro.
Recursos Semánticos
Multilı́ngües
La evaluación que aquı́ presentamos abarca una amplia variedad de recursos semánticos de gran tamaño: WordNet (WN) (Fellbaum, 1998), eXtended WordNet (Mihalcea
y Moldovan, 2001), grandes colecciones de
preferencias semánticas adquiridas de SemCor (Agirre y Martinez, 2001)o adquiridos
del BNC (McCarthy, 2001), y Topic Signatures para cada synset adquiridas de la web
(Agirre y de la Calle, 2004).
A pesar de que estos recursos se han
obtenido utilizando diferentes versiones de
WN, utilizando la tecnologı́a para alinear automáticamente wordnets (Daudé, Padró, y
Rigau, 2003), la mayorı́a de estos recursos se
han integrado en un recurso común llamado Multilingual Central Repository (MCR)
(Atserias et al., 2004). De esta forma, mantenemos la compatibilidad entre todas las bases de conocimiento que utilizan una versión
concreta de WN como repositorio de sentidos.
Además, estos enlaces permiten transportar
los conocimientos asociados a un WN particular, al resto de versiones de WN.
2.1.
MCR
El Multilingual Central Repository3
(MCR) sigue el modelo propuesto por
el proyecto EuroWordNet. EuroWordNet
(Vossen, 1998) es una base de datos léxica
multilingüe con wordnets de varias lenguas
europeas, que están estructuradas como
el WordNet de Princeton. El WordNet de
Princeton contiene información sobre los
nombres, verbos, adjetivos y adverbios en
inglés y está organizado en torno a la noción
de un synset. Un synset es un conjunto
de palabras con la misma categorı́a morfosintáctica que se pueden intercambiar en un
determinado contexto.
La versión actual del MCR (Atserias et
al., 2004) es el resultado del proyecto europeo MEANING del quinto programa marco4 .
El MCR integra siguiendo el modelo de EuroWordNet, wordnets de cinco idiomas diferentes, incluido el castellano (junto con seis
versiones del WN inglés). Los wordnets están
vinculados entre sı́ a través del Inter-LingualIndex (ILI) permitiendo la conexión de las
3
http://adimen.si.ehu.es/cgibin/wei5/public/wei.consult.perl
4
http://nipadio.lsi.upc.es/˜nlp/meaning
2
Topic Signatures es el término en inglés para referirse a las palabras relacionadas con un tópico o tema.
36
Bases de Conocimiento Multilíngües para el Procesamiento Semántico a Gran Escala
palabras en una lengua a las palabras equivalentes en cualquiera de las otras lenguas integradas en el MCR. De esta manera, el MCR
constituye un recurso lingüı́stico multilı́ngüe
de gran tamaño útil para un gran número
de procesos semánticos que necesitan de una
gran cantidad de conocimiento multilı́ngüe
para ser instrumentos eficaces. Por ejemplo,
el synset en inglés <party, political party>
está vinculado a través del ILI al synset en
castellano <partido, partido polı́tico>.
El MCR también integra WordNet Domains (Magnini y Cavaglià, 2000), nuevas
versiones de los Base Concepts y la Top Concept Ontology (Álvez et al., 2008), y la ontologı́a SUMO (Niles y Pease, 2001). La versión
actual del MCR contiene 934.771 relaciones
semánticas entre synsets, la mayorı́a de ellos
adquiridos automáticamente5 . Esto representa un volumen casi cuatro veces más grande
que el de Princeton WordNet (235.402 relaciones semánticas únicas en WordNet 3.0).
En lo sucesivo, nos referiremos a cada recurso semántico de la siguiente forma:
WN (Fellbaum, 1998): Este recurso contiene las relaciones directas y no repetidas
codificadas en WN1.6 y WN2.0 (por ejemplo,
tree#n#1–hyponym–>teak#n#2). También
hemos estudiado WN2 utilizando las relaciones a distancia 1 y 2, WN3 utilizando las relaciones a distancias 1 a 3 y WN4 utilizando
las relaciones a distancias 1 a 4.
XWN (Mihalcea y Moldovan, 2001): Este recurso contiene las relaciones directas
codificadas en eXtended WN (por ejemplo,
teak#n#2–gloss–>wood#n#1).
WN+XWN: Este recurso contiene las
relaciones directas incluidas en WN y XWN.
También hemos estudiado (WN+XWN)2
(utilizando relaciones de WN o XWN a distancias 1 y 2).
spBNC (McCarthy, 2001): Este recurso
contiene 707.618 preferencias de selección con
los sujetos y objetos tı́picos adquiridos del
BNC.
spSemCor (Agirre y Martinez, 2001): Este recurso contiene las preferencias de selección con los sujetos y los objetos tı́picos adquiridos de SemCor (por ejemplo,
read#v#1–tobj–>book#n#1).
MCR (Atserias et al., 2004): Este recurso
contiene las relaciones directas incluidas en
el MCR. Sin embargo, en los experimentos
descritos a continuación se excluyó el recurso
spBNC debido a su pobre rendimiento. Ası́,
el MCR contiene las relaciones directas de
WN , XWN, y spSemCor. Obsérvese que el
MCR no incluye las relaciones indirectas de
(WN+XWN)2 . No obstante, también hemos
evaluado (MCR)2 (utilizando las relaciones a
distancia 1 y 2), que sı́ integra las relaciones
de (WN+XWN)2 .
2.2.
Topic Signatures
Las Topic Signatures (TS) son vectores de
palabras relacionadas con un tema (o tópico)
(Lin y Hovy, 2000). Las TS pueden ser construidas mediante la búsqueda en un corpus
de gran tamaño del contexto de un tema (o
tópico) objetivo. En nuestro caso, consideramos como un tema (o tópico) el sentido de
una palabra.
Para este estudio hemos usado dos conjuntos de TS distintos. Las primeras TS constituyen uno de los mayores recursos semánticos disponibles actualmente con alrededor de
100 millones de relaciones semánticas (entre
synsets y palabras) que ha sido adquirido automáticamente de la web (Agirre y de la Calle, 2004). Las segundas TS se han obtenido
directamente de SemCor.
TSWEB6 : Inspirado en el trabajo de
(Leacock, Chodorow, y Miller, 1998), estas
Topic Signatures se adquirieron utilizando
para la construcción de la consulta del tópico (o sentido de WN en nuestro caso), los
sentidos monosémicos próximos al tópico en
WordNet (esto es, sinónimos, hiperónimos,
hipónimos directos e indirectos, y hermanos),
consultando en Google y recuperando hasta
un millar de fragmentos de texto por consulta
(es decir, por sentido o tópico), y extrayendo
de los fragmentos las palabras con frecuencias
distintivas usando TFIDF. Para estos experimentos, se ha utilizado como máximo las
primeras 700 palabras distintivas de cada TS
resultante.
Debido a que éste es un recurso semántico
entre sentidos y palabras, no es posible transportar sus relaciones al wordnet castellano sin
introducir gran cantidad de errores.
El cuadro 1 presenta un ejemplo de
TSWEB para el primer sentido de la palabra party.
TSSEM: Estas TS se han construido utilizando SemCor, un corpus en inglés donde todas sus palabras han sido anotadas
5
No consideramos las preferencias de selección adquiridos del BNC (McCarthy, 2001).
6
37
http://ixa.si.ehu.es/Ixa/resources/~sensecorpus
democratic
tammany
alinement
federalist
missionary
anti-masonic
nazi
republican
alcoholics
0.0126
0.0124
0.0122
0.0115
0.0103
0.0083
0.0081
0.0074
0.0073
Montse Cuadros, German Rigau
tal de las relaciones transportadas es de sólo
586.881.
3.
Con el fin de comparar los distintos recursos semánticos descritos en la sección anterior, hemos evaluado todos estos recursos
como Topic Signatures (TS). Esto es, para
cada synset (o tópico), tendremos un simple
vector de palabras con pesos asociados. Este vector de palabras se construye reuniendo
todas las palabras que aparecen directamente relacionados con un synset. Esta simple
representación intenta ser lo más neutral posible respecto a los recursos utilizados.
Todos los recursos se han evaluado en una
misma tarea de WSD. En particular, en la
sección 4 hemos utilizado el conjunto de nombres de la tarea de muestra léxica en inglés de
Senseval-3 (Senseval-3 English Lexical Sample task) que consta de 20 nombres, y en la
sección 5 hemos utilizado el conjunto de nombres de la tarea de muestra léxica en castellano de Senseval-3 (Senseval-3 Spanish Lexical Sample task) que consta de 21 nombres.
Ambas tareas consisten en determinar el sentido correcto de una palabra en un contexto.
Para la tarea en inglés se usó para la anotación los sentidos de WN1.7.1. Sin embargo,
para el castellano se desarrolló especialmente
para la tarea el diccionario MiniDir. La mayorı́a de los sentidos de MiniDir tienen vı́nculos a WN1.5 (que a su vez está integrado en el
MCR, y por tanto enlazado al wordnet castellano). Todos los resultados se han evaluado
en los datos de prueba usando el sistema de
puntuación de grano fino proporcionado por
los organizadores. Para la evaluación hemos
usado sólo el conjunto de nombres etiquetados porque TSWEB se contruyó sólo para los
nombres, y porque la tarea de muestra léxica
para el inglés usa como conjunto de sentidos
verbales aquellos que aparecen en el diccionario WordSmyth (Mihalcea, T., y A., 2004),
en lugar de los que aparecen en WordNet.
Ası́, el mismo método de WSD se ha aplicado a todos los recursos semánticos. Se realiza un simple recuento de las palabras coincidentes entre aquellas que aparecen en la Topic Signature de cada sentido de la palabra
objetivo y el fragmento del texto de test7 .
El synset que tiene el recuento mayor es seleccionado. De hecho, se trata de un méto-
Cuadro 1: Topic Signature de party#n#1 obtenida de la web (9 de las 15.881 palabras
totales)
political party#n#1
party#n#1
election#n#1
nominee#n#1
candidate#n#1
campaigner#n#1
regime#n#1
government#n#1
authorities#n#1
2.3219
2.3219
1.0926
0.4780
0.4780
0.4780
0.3414
0.3414
0.3414
Cuadro 2: Topic Signature para party#n#1
obtenida de SemCor (9 de los 719 sentidos
totales)
semánticamente. Este corpus tiene un total
de 192.639 palabras lematizadas y etiquetadas con su categorı́a y sentido según WN1.6.
Para cada sentido objetivo (o tópico), obtuvimos todas las frases donde aparecı́a ese sentido. De esta forma derivamos un subcorpus
de frases relativas al sentido objetivo. A continuación, para cada subcorpus se obtuvo su
TS de sentidos utilizando TFIDF.
En el cuadro 2, mostramos los primeros
sentidos obtenidos para party#n#1.
Aunque hemos probado con otras medidas, los mejores resultados se han obtenido
utilizando la fórmula TFIDF (Agirre y de la
Calle, 2004).
T F IDF (w, C) =
wfw
N
× log
maxw wfw
Cfw
Marco de evaluación
(1)
Donde w es la palabra del contexto, wf la
frecuencia de la palabra, C la colección (todo
el corpus reunido para un determinado sentido), y Cf es la frecuencia en la colección.
El número total de las relaciones entre
synsets de WN adquiridos de SemCor es
932.008. En este caso, debido al menor tamaño del wordnet castellano, el número to-
7
También consideramos los términos multipalabra
que aparecen en WN.
38
Bases de Conocimiento Multilíngües para el Procesamiento Semántico a Gran Escala
4.2.
do muy simple de WSD que sólo considera
la información de contexto en torno a la palabra que se desea interpretar. Por último,
debemos señalar que los resultados no están
sesgados (por ejemplo, para resolver empates
entre sentidos), mediante el uso del sentido
más frecuente en WN o cualquier otro conocimiento estadı́stico.
A modo de ejemplo, el cuadro 3 muestra
uno de los textos de prueba de Senseval-3
correspondiente al primer sentido de la palabra party. En negrita se muestran las palabras que aparecen en la TS correspondiente
al sentido party#n#1 de la TSWEB.
4.
4.1.
Evaluación de cada recurso en
inglés
El cuadro 4 presenta ordenadas por la medida F1, las referencias y el rendimiento de
cada uno de los recursos presentados en la
sección 2 y el tamaño medio de las TS por
sentido de palabra. El tamaño medio de las
TS de cada recurso es el número de palabras asociadas a un synset de promedio. Obviamente, los mejores recursos serán aquellos que obtengan los mejores resultados con
un menor número de palabras asociadas al
synset. Los mejores resultados de precisión,
recall y medida F1 se muestran en negrita.
También hemos marcado en cursiva los resultados de los sistemas de referencia. Los mejores resultados son obtenidos por TSSEM (con
F1 de 52,4). El resultado más bajo se obtiene por el conocimiento obtenido directamente de WN debido principalmente a su escasa
cobertura (R, de 18,4 y F1 de 26,1). También es interesante notar que el conocimiento
integrado en el (MCR) aunque en parte derivado por medios automáticos obtiene mucho
mejores resultados en términos de precisión,
recall y medida F1 que utilizando cada uno
de los recursos que lo integran por separado
(F1 con 18,4 puntos más que WN, 9,1 más
que XWN y 3,7 más que spSemCor).
A pesar de su pequeño tamaño, los recursos derivados de SemCor obtienen mejores
resultados que sus homólogos usando corpus
mucho mayores (TSSEM vs. TSWEB y spSemCor vs. spBNC).
En cuanto a los sistemas de referencia
básicos, todos los recursos superan RANDOM, pero ninguno logra superar ni WNMFS, ni TRAIN-MFS, ni TRAIN. Sólo
TSSEM obtiene mejores resultados que
SEMCOR-MFS y está muy cerca del sentido
más frecuente de WN (WN-MFS) y el corpus
de entrenamiento (TRAIN-MFS).
En cuanto a las expansiones y otras combinaciones, el rendimiento de WN se mejora utilizando palabras a distancias de hasta 2 (F1 de 30,0), y hasta 3 (F1 de 34,8),
pero disminuye utilizando distancias de hasta 4 (F1 de 33,2). Curiosamente, ninguna
de estas ampliaciones de WN logra los resultados de XWN (F1 de 35,4). Por último,
(WN+XWN)2 va mejor que WN+XWN y
(MCR)2 ligeramente mejor que MCR8 .
Evaluación para el inglés
Referencias básicas para el
English
Hemos diseñado una serie de referencias
básicas con el fin de establecer un marco de
evaluación que nos permita comparar el rendimiento de cada recurso semántico en la tarea WSD en inglés.
RANDOM: Para cada palabra este
método selecciona un sentido al azar. Esta
referencia puede considerarse como un lı́mite
inferior.
SEMCOR-MFS: Esta referencia selecciona el sentido más frecuente de la palabra
según SemCor.
WN-MFS: Esta referencia selecciona el
sentido más frecuente según WN (es decir, el
primer sentido en WN1.6). Los sentidos de las
palabras en WN se ordenaron utilizando las
frecuencias de SemCor y otros corpus anotados con sentidos. Ası́, WN-MFS y SemCorMFS son similares, pero no iguales.
TRAIN-MFS: Esta referencia selecciona
el sentido más frecuente de la palabra objetivo en el corpus de entrenamiento.
TRAIN: Esta referencia utiliza el corpus de entrenamiento de cada sentido proporcionado por Senseval-3 construyendo directamente una TS con las palabras de su contexto y utilizando la medida TFIDF. Téngase
en cuenta que en los marcos de evaluación de
WSD, este es un sistema muy básico. Sin embargo, en nuestro marco de evaluación, este
sistema ”de referencia”podrı́a ser considerado como un lı́mite superior. No esperamos
obtener mejores palabras relativas a un sentido que de su propio corpus.
8
39
No se han probado extensiones superiores.
Montse Cuadros, German Rigau
<instance id=”party.n.bnc.00008131”docsrc=”BNC”> <context> Up to the late 1960s , catholic nationalists were split between two main political groupings . There was the Nationalist
Party , a weak organization for which local priests had to provide some kind of legitimation
. As a <head>party</head> , it really only exercised a modicum of power in relation to the
Stormont administration . Then there were the republican parties who focused their attention
on Westminster elections . The disorganized nature of catholic nationalist politics was only
turned round with the emergence of the civil rights movement of 1968 and the subsequent
forming of the SDLP in 1970 . </context> </instance>
Cuadro 3: Ejemplo de prueba número 00008131 para party#n cuyo sentido correcto es el primero.
KB
TRAIN
TRAIN-MFS
WN-MFS
TSSEM
SEMCOR-MFS
MCR2
MCR
spSemCor
(WN+XWN)2
WN+XWN
TSWEB
XWN
WN3
WN4
WN2
spBNC
WN
RANDOM
P
65.1
54.5
53.0
52.5
49.0
45.1
45.3
43.1
38.5
40.0
36.1
38.8
35.0
33.2
33.1
36.3
44.9
19.1
R
65.1
54.5
53.0
52.4
49.1
45.1
43.7
38.7
38.0
34.2
35.9
32.5
34.7
33.1
27.5
25.4
18.4
19.1
F1
65.1
54.5
53.0
52.4
49.0
45.1
44.5
40.8
38.3
36.8
36.0
35.4
34.8
33.2
30.0
29.9
26.1
19.1
Size
quiere interpretar. Para cada sentido, se agregarán las posiciones de cada uno de los recursos evaluados. El sentido que tenga un orden
menor (más cercano a la primera posición),
será el escogido como el correcto.
103
26,429
129
56
5,730
74
1,721
69
503
2,346
105
128
14
El cuadro 5 presenta las medidas de F1
correspondientes a las mejores combinaciones
de dos, tres y cuatro recursos usando los tres
métodos de combinación.
Observando el método de combinación
aplicado, los métodos de la Combinación de
Probabilidad (PM) y la combinación basada
en el orden (Rank) son los que dan mejores
resultados, comparando con el de Combinación Directa (DV), sin embargo, el método
basado en el orden da mejores resultados.
Cuadro 4: Resultados de los recursos evaluados individualmente para el Inglés según las
medidas de P, R y F1.
4.3.
La combinación de los cuatro recursos
semánticos obtiene mejores resultados que
usando sólo tres, dos o un recurso. Parece
ser que la combinación de los recursos aporta
un conocimiento que no tienen los diferentes
recursos individualmente. En este caso, 19.5
puntos por encima que TSWEB, 17.25 puntos por encima de (WN+XWN)2 , 11.0 puntos
por encima de MCR y 3.1 puntos por encima
de TSSEM.
Combinación de Recursos
Con el objetivo de evaluar de forma más
detallada la contribución que tiene cada recurso, proporcionamos un pequeño análisis
de su aportación combinada. Las combinaciones se han evaluado usando tres estrategias
básicas diferentes (Brody, Navigli, y Lapata,
2006).
DV (del inglés Direct Voting): Cada recurso semántico tiene un voto para el sentido
predominante de la palabra a interpretar. Se
escoge el sentido con más votos.
PM (del inglés Probability Mixture): Cada recurso semántico proporciona una distribución de probabilidad sobre los sentidos de
las palabras que serán interpretadas. Estas
probabilidades (normalizadas), serán contabilizadas y se escogerá el sentido con mayor
probabilidad.
Rank: Cada recurso semántico proporciona un orden de sentidos de la palabra que se
Observando las referencias básicas, esta
combinación supera el sentido más frecuente
de SemCor (SEMCOR-MFS con F1 de 49.1),
WN (WN-MFS con F1 de 53.0) y el conjunto de entrenamiento (TRAIN-MFS con F1
de 54.5). Este hecho, indica que la combinación resultante de recursos a gran escala
codifica el conocimiento necesario para tener
un etiquetador de sentidos para el inglés que
se comporta como un etiquetador del sentido
más frecuente. Es importante mencionar que
el sentido más frecuente de una palabra, de
acuerdo con el orden de sentidos de WN es
un desafio difı́cil de superar en las tareas de
WSD (McCarthy et al., 2004).
40
Bases de Conocimiento Multilíngües para el Procesamiento Semántico a Gran Escala
KB
2.system-comb: MCR+TSSEM
3.system-comb: MCR+TSSEM+(WN+XWN)2
4.system-comb: MCR+(WN+XWN)2 +TSWEB+TSSEM
PM
52.3
52.6
53.1
DV
45.4
37.9
32.7
Rank
52.7
54.6
55.5
Cuadro 5: Combinaciones de 2, 3, y 4 sistemas según la medida de F1
5.
Knowledge Bases
TRAIN
MiniDir-MFS
MCR
WN2
(WN+XWN)2
TSSEM
XWN
WN
RANDOM
Evaluación en castellano
Del mismo modo que en el caso del inglés,
hemos definido unas referencias básicas para poder establecer un marco de evaluación
completo y comparar el comportamiento relativo de cada recurso semántico cuando es
evaluado en la tarea de WSD en castellano.
RANDOM: Para cada palabra este
método selecciona un sentido al azar. Esta
referencia puede considerarse como un lı́mite
inferior.
Minidir-MFS: Esta referencia selecciona
el sentido más frecuente de la palabra según
el diccionario Minidir. Minidir es un diccionario construido para la tarea de WSD. La ordenación de sentidos de palabras corresponde
exactamente a la frecuencia de los sentidos de
palabras del conjunto de entrenamiento. Por
eso, Minidir-MFS és el mismo que TRAINMFS.
TRAIN: Esta referencia usa el conjunto de entrenamiento para directamente construir una Topic Signature para cada sentido de palabra usando la medida de TFIDF.
Igual que para el inglés, en nuestro caso, esta
referencia puede considerarse como un lı́mite
superior.
Debemos indicar que el WN castellano no
codifica la frecuencia de los sentidos de las
palabras y que para el castellano no hay disponible ningún corpus suficientemente grande que esté etiquetado a nivel de sentido del
estilo del italiano9 .
Además, solamente pueden ser transportadas de un idioma a otro sin introducir demasiados errores las relaciones que existan en
un recurso entre sentidos10 . Como TSWEB
relaciona palabras en inglés a un synset, no
ha sido transportado ni evaluado al castellano.
5.1.
9
R
68.0
52.7
41.1
29.0
41.2
33.2
27.1
13.6
21.3
F1
74.3
59.2
43.5
42.5
41.3
33.4
33.1
22.5
21.3
Size
66
51
1,892
208
24
8
Cuadro 6: Resultados de los recursos evaluados individualmente pare el castellano según
las mediadas de P, R y F1.
referencias básicas y recursos semánticos, ordenados por la medida de F1. En cursiva aparecen las referencias y en negrita los mejores resultados. Para el castellano, el recurso
TRAIN ha sido evaluado con un tamaño de
vector máximo de 450 palabras. Como se esperaba, RANDOM obtiene el menor resultado, y el sentido más frecuente obtenido de Minidir (Minidir-MFS, que es igual a TRAINMFS) es bastante más bajo que las TS obtenidas del corpus de entrenamiento (TRAIN).
WN obtiene la precision más alta (P de
65.5) pero dado su pequeña cobertura (R de
13.6), tiene la F1 más baja (F1 de 22.5). Es
interesante notar que en terminos de precisión, recall y F1, el conocimiento integrado
en el MCR supera a los resultados de TSSEM. Este hecho, posiblemente indica que
el conocimiento actualmente contenido en
el MCR es más robusto que TSSEM. Este
hecho también parece indicar que el conocimiento de tópico obtenido de un corpus
anotado a nivel de sentido de un idioma, no
puede ser transportado directamente a otro
idioma. Otros posibles motivos de los bajos
resultados podrı́an ser el menor tamaño de
los recursos en castellano (comparándolos con
los existentes en inglés) o los diferentes marcos de evaluación, incluyendo el diccionario
(diferenciación de sentidos y enlace a WN).
Observando los sistemas de referencia, todos los recursos de conocimiento superan
Evaluando cada recurso del
castellano por separado
El cuadro 6 presenta las medidas de precisión (P), recall (R) y F1 de las diferentes
10
P
81.8
67.1
46.1
56.0
41.3
33.6
42.6
65.5
21.3
http://multisemcor.itc.it/
Es decir, relaciones semánticas synset a synset.
41
Montse Cuadros, German Rigau
RANDOM, pero ninguno de ellos llega a
Minidir-MFS (que es igual a TRAIN-MFS)
ni a TRAIN.
De todas formas, podemos remarcar que
el conocimiento contenido en el MCR (F1 de
43.5), parcialmente derivado con medios automáticos y transportado al WN castellano
del ingles, casi dobla los resultados del WN
castellano original (F1 de 22.5).
6.
Brody, S., R.Ñavigli, y M. Lapata. 2006. Ensemble methods for unsupervised wsd. En Proceedings of COLING-ACL, páginas 97–104.
Cuadros, M., L. Padró, y G. Rigau. 2005. Comparing methods for automatic acquisition of
topic signatures. En Proceedings of RANLP,
Borovets, Bulgaria.
Cuadros, M. y G. Rigau. 2006. Quality assessment of large scale knowledge resources. En
Proceedings of EMNLP.
Conclusiones
Daudé, J., L. Padró, y G. Rigau. 2003. Validation and Tuning of Wordnet Mapping Techniques. En Proceedings of RANLP, Borovets,
Bulgaria.
Creemos, que un procesamiento semántico
de amplia cobertura (como WSD) debe basarse no sólo en algoritmos sofisticados sino
también en aproximaciones basadas en grandes bases de conocimiento. Los resultados
presentados en este trabajo, sugieren que es
necesaria mucha más investigación en la adquisición y uso de recursos semánticos a gran
escala.
Además, el hecho que esos recursos presenten relaciones semánticas a nivel conceptual,
nos permite trasladar estas relaciones para
ser evaluadas en otros idiomas.
Por lo que sabemos, esta es la primera vez
que un estudio empı́rico demuestra que las
bases de conocimiento adquiridas automáticamente obtienen mejores resultados que los
recursos derivados manualmente, y que la
combinación del conocimiento contenido en
estos recursos sobrepasa al clasificador que
usa el sentido más frecuente para el inglés.
Tenemos planificada la validación empı́rica
de esta hipótesis en las tareas donde se interpretan todas las palabras de un texto allwords.
Fellbaum, C., editor. 1998. WordNet. An Electronic Lexical Database. The MIT Press.
Leacock, C., M. Chodorow, y G. Miller. 1998.
Using Corpus Statistics and WordNet Relations for Sense Identification. Computational
Linguistics, 24(1):147–166.
Lin, C. y E. Hovy. 2000. The automated acquisition of topic signatures for text summarization. En Proceedings of COLING. Strasbourg,
France.
Magnini, B. y G. Cavaglià. 2000. Integrating subject field codes into wordnet. En Proceedings
of LREC, Athens. Greece.
McCarthy, D. 2001. Lexical Acquisition at the
Syntax-Semantics Interface: Diathesis Aternations, Subcategorization Frames and Selectional Preferences. Ph.D. tesis, University of
Sussex.
McCarthy, D., R. Koeling, J. Weeds, y J. Carroll.
2004. Finding predominant senses in untagged
text. En Proceedings of ACL, páginas 280–
297.
Mihalcea, R. y D. Moldovan. 2001. extended
wordnet: Progress report. En Proceedings of
NAACL Workshop on WordNet and Other Lexical Resources, Pittsburgh, PA.
Bibliografı́a
Agirre, E. y O. Lopez de la Calle. 2004. Publicly available topic signatures for all wordnet nominal senses. En Proceedings of LREC,
Lisbon, Portugal.
Mihalcea, R., Chlovski T., y Killgariff A. 2004.
The senseval-3 english lexical sample task. En
Proceedings of ACL/SIGLEX Senseval-3, Barcelona.
Agirre, E. y D. Martinez. 2001. Learning classto-class selectional preferences. En Proceedings of CoNLL, Toulouse, France.
Niles, I. y A. Pease. 2001. Towards a standard
upper ontology. En Proceedings of the 2nd
International Conference on Formal Ontology
in Information Systems (FOIS-2001), páginas
17–19. Chris Welty and Barry Smith, eds.
Álvez, J., J. Atserias, J. Carrera, S. Climent,
A. Oliver, y G. Rigau. 2008. Consistent annotation of eurowordnet with the top concept
ontology. En Proceedings of Fourth International WordNet Conference (GWC’08).
Vossen, P., editor. 1998. EuroWordNet: A Multilingual Database with Lexical Semantic Networks . Kluwer Academic Publishers .
Atserias, J., L. Villarejo, G. Rigau, E. Agirre,
J. Carroll, B. Magnini, y Piek Vossen. 2004.
The meaning multilingual central repository.
En Proceedings of GWC, Brno, Czech Republic.
42
Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 43-49
recibido 30-01-08, aceptado 03-03-08
From knowledge acquisition to information retrieval∗
De la adquisición del conocimiento a la recuperación de información
M. Fernández Gavilanes S. Carrera Carrera M. Vilares Ferro
Computer Science Department, University of Vigo
Campus As Lagoas s/n, 32004 Ourense, Spain
{mfgavilanes,sccarrera,vilares}@uvigo.es
Resumen: Introducimos una propuesta en recuperación de información basada en
la consideración de recursos sintácticos y semánticos complejos y automáticamente
generados a partir de la propia colección documental. Se describe una estrategia
donde el lenguaje y el dominio de documentos son independientes del proceso.
Palabras clave: adquisición del conocimiento, análisis sintáctico,extracción de
términos, recuperación de información, representación del conocimiento
Abstract: We introduce a proposal on information recovery based on the consideration of complex syntactic and semantic resources which are automatically generated
from the documentary collection itself. The paper describes a strategy where the
language and the domain of documents are independent of the process.
Keywords: information retrieval, knowledge acquisition, knowledge representation,
parsing, term extraction
1
Introduction
Efficiency in dealing with information retrieval (IR) tools is related to the consideration of relevant semantic data describing terms and concepts in the specific domain considered. This kind of resources are
often taken from an external and generic
module (Aussenac-Gilles and Mothe, 2004),
which implies that we probably lose a number of interesting properties we would be able
to recover if semantic processing was directly
performed on the text collection we are dealing with.
In order to solve this and produce practical understandable results, we should allow easy integration of background knowledge from possible complex document representations, fully exploiting linguistic structures. So, we could compensate for missing
domain-specific knowledge, which is a significant advantage for redeploying the system when no external resources are yet available. Also, access to a concept hierarchy
so generated allows information to be structured into categories, fostering its search and
reuse; as well as to integrate an interestWork partially supported by the Spanish Government from research projects TIN2004-07246C03-01 and HUM2007-66607-C04-02, and by the
Autonomous Goverment of Galicia from projects
PGIDIT05PXIC30501PN, 07SIN005206PR and the
Galician Network for nlp and ir.
∗
ISSN 1135-5948
ing strategy to relate languages, using it as
a semantic pipeline between them (Bourigault, Aussenac-Gilles, and Charlet, 2004;
Aussenac-Gilles, Condamines, and Szulman,
2002).
In the state-of-the-art, methods to automatically derive a concept hierarchy from
text can be grouped into similarity-based approaches and set-theoretical ones. The first
type is characterized by the use of a distance in order to compute the pairwise similarity between vectors of two words in order to decide if they can be clustered (Faure
and Nédellec, ; Grefenstette, 1994). Settheoretical ones partially order the objects
according to the existing inclusion relations
between their attribute sets (Petersen, 2001).
Both approaches adopt a vector-space model
and represent a term as a vector of attributes
derived from a corpus. Typically some syntactic features are used to identify which attributes are used for this purpose.
Our proposal aims to facilitate the knowledge acquisition task through a hybrid approach that combines natural language processing (nlp) strategies, such as shallow parsing and semantic markers, with statistical
techniques and term extraction. A modular
architecture allows for the addition of textual fonts on different topics and languages,
providing the basis for dealing with multilingual ir. A collection of parallel texts on the
© Sociedad Española para el Procesamiento del Lenguaje Natural
Milagros Fernández Gavilanes, Sara Carrera Carrera, Manuel Vilares Ferro
TERM
sociedad de gestión
(”management society”)
inversión directa
(”direct investment”)
fondo luxemburgués
(”Luxembourg fund”)
sesión de subida
(”rise session”)
dólar por euro
(”dollar for euro”)
head
sociedad
(”society”)
inversión
(”investment”)
fondo
(”fund”)
sesión
(”session”)
dólar
(”dollar”)
expansion
de gestión
(”management”)
directa
(”direct”)
luxemburgués
(”Luxembourg”)
de subida
(”rise”)
por euro
(”for euro”)
Table 1: Example of terms extracted
economy in French and Spanish is used as a
running corpus to illustrate our proposal.
2
Once the extractor has provided all the
base terms and, possibly, associated their
syntactic and/or morpho-syntactic variations; we can differentiate between the head
and the expansion of each term, often a nominal syntagm. The former is the kernel of the
syntagm, usually a noun, around which we
assume the meaning of the term is structured.
The expansion is the complement of the head,
modifying it and defining the context where
it appears.
This set of identified heads provides a local
look around the meaning of the text, focused
on the syntagms recognized as terms. In order to extend these primary semantic links to
the full text, we apply a simple recursive process by generating a hash table whose entries
we baptize as main elements. Mains elements
are all heads whose pos-tag is a noun. The
key of each entry is a main element, to which
we associate the list of contexts where it appears either as an expansion or as an head.
As a result, we obtain a simple graph structure capturing the essential meaning of the
text, as seen in Table 1.
The next step consists of grouping terms
in semantic classes, filtering out non-relevant
features. To deal with in practice, we go
through the hash table generated, comparing
different contexts by applying as a similarity1
measure the dice coefficient (Bourigault and
Lame, 2002):
Knowledge acquisition
Intuitively, we are interested in strategies
allowing semantic relations to emerge from
text, which implies grouping relevant terms
in classes according to their similarity and
establishing semantic links between them.
We approach this task from two different
points of view. The former is a classic termbased strategy, that only takes into account
lexical data. For the second, we incorporate explicit semantic hypotheses. In both
cases, our framework is based on two general principles: the distributional semantic
model (Harris, 1968) establishing that words
whose meaning is close often appear in similar syntactic contexts, and the assumption
that terms shared by these contexts are usually nouns and adjectives (Bouaud et al.,
1995).
As a general purpose, our work has an
experimental interest as a testing frame for
comparing different knowledge acquisition
strategies, but also considering about the
possibility of complementing capabilities. In
effect, as we shall see, a term-based approach
allows the acquisition task to be performed
automatically. Although the results so obtained cannot compare with the quality of
the semi-automatic dependency-based proposal introduced later, it could serve as a
starting point for this function, generating
the initial set of semantic classes we need to
initialize an iterative process in order to establish more complex relationships.
2.1
dice(C1 , C2 ) =
|C1 ∩ C2 |
(|C1 | + |C2 |)/2
where C1 and C2 are contexts, and |Ci | represents the cardinal of Ci , i = 1, 2. Intuitively,
we are computing the common terms between
C1 and C2 , and then applying normalization.
At this point, the generation of classes is
an iterative process. In each iteration we join
A term-based approach
Our starting point here is the information
provided by a classic term extractor running
on a tagging environment. No particular architecture has been considered at this point.
1
we can define a similarity between entities as the
number of common properties shared by them.
44
From knowledge acquisition to information retrieval
E_CN de
E_CN de
CN de
bajada
la
de
CN a
deuda
la
a
E_CN a
CN de
largo
plazo
de
Japon
deuda:nc
el:det
bajada:nc
de:prep
el:det
a:prep
deudo:nc
SA
CN de
SUJ
...
CN a
CN de
dejar:v
a
frio:adj
de:prep
bolsa
el:det
bolsa:nc
Japon:np
E_CN a
CN de
la
a:prep
plazo:nc
E_SA
E_SUJ/CN dejar a
ha dejado fria
...
largo:adj
de
de:prep
E_CN de
Tokio
Tokio:np
CN de
CC a
Parser Dependencies
E_CN de
Extracted Dependencies
Figure 1: Graph of dependencies from a parse
to detect and delete these useless structures.
We first introduce, from the sentence ”la
bajada de la deuda a largo plazo de Japón ...
ha dejado fria a la bolsa de Tokio” in Fig. 1,
some simple notations to describe parses. So,
rectangular shapes, called clusters, show positions in the input string. Lemmas with
their corresponding lexical categories are represented by ellipses baptized as nodes. Green
arcs represent binary dependencies between
words through some syntactic construction.
The parsing frame provides the mechanisms to deal with a posterior semantic phase
of analysis, by avoiding the elimination of
syntactic data until we are sure it is unnecessary for knowledge acquisition. So, the lexical ambiguity illustrated in Fig. 1 should be
decided in favor of the first alternative4 , because we have the intuitive certainty that the
word ”deuda” is related to ”debt” and not to
”relative”. Given that we are dealing with a
specialized corpus, we should confirm this by
exploring the corpus in depth. That is, in order to solve the ambiguity we only need the
information we are looking for, which leads
us to consider an iterative learning process
to attain our goal.
In particular, we are more interested in
dependencies between nouns and adjectives.
This justifies filtering those dependencies, as
shown in Fig. 1, following the dotted lines.
So, the word ”plazo” (”term”) is connected
to ”largo” (”long”), the latter being an adjective. Furthermore, we are also interested
in extracting dependencies between nouns
through, for example, prepositions such as
”bolsa de Tokio” (”Tokyo Stock Exchange”)
and through verbs such as ”bajada dejar a
the pair of main elements whose dice value
turns out to be the highest computed from
the hash. So, in each step the hash table is reduced in an element and the process finishes
when only dice coefficients equal to zero can
be computed. In other words, when no more
context sharing is possible.
Once the iteration loop stops, entries in
the hash are words semantically related together with their associated unified contexts.
This hash outcome is stored in an xml2
file, in such a way that similar elements are
grouped representing a new and previously
undefined semantic class. This file is later
converted to an owl3 (Szulman and Biébow,
2004) format, in order to facilitate ulterior
retrieval tasks.
2.2
A dependency-based approach
We start now from a robust parse based on a
cascade of finite automata (Vilares, Alonso,
and Vilares, 2004). So, we can identify relevant terms in nominal and verbal phrases,
namely, those nouns and verbs relaying essential semantic information, as well as local
relationships between them. As result, we
obtain a graph of dependencies of the type
governor/governed, as is shown in Fig. 1 by
using dotted lines going from the governor
term to the governed one.
2.2.1 Filtering out dependencies
Once these primary syntactic dependencies
have been established, possibly including a
number of lexical and syntactic ambiguities
generating useless dependencies, we try to effectively extract the latent semantics in the
document. The idea consists of compiling additional information from the corpus in order
2
3
4
which corresponds to ”The long-term debt descent
of Japan has left cold to the Stock Exchange of Tokyo”.
see http://www.w3.org/XML/
see http://www.w3.org/TR/owl-features/
45
Milagros Fernández Gavilanes, Sara Carrera Carrera, Manuel Vilares Ferro
1.
2.
P (deuda:uc:money, [ CNde], Japón:up:country)local(0)
2.1
P (deuda:uc:money, [ CNde], X)global(n+1) =
2.2
P (Y, [ CNde], Japón:up:country)global(n+1) =
2.3
3.
P (deuda:uc, [ CNde], Japón:up)local(0)
P (deuda:uc:money)local(0)
P (Japón:up:country)local(0)
=
ΣX,Y P (deuda:uc:X)local(0) P (Japón:up:Y)local(0)
ΣX P (deuda:uc:money ,[
CNde],X)local(n)
#deplocal(n) (deuda )
ΣY P (Y,[
CNde],Japón:up:country)local(n)
#deplocal(n) (Japón)
P (deuda:uc:money, [ CNde], Japón:up:country)global(n+1) =
P (deuda:uc:money, [ CNde], Japón:up:country)local(n+1) =
P (deuda:uc:money, [ CNde], X)global(n+1)
P (Y, [ CNde], Japón:up:country)global(n+1)
P (deuda:uc:money, [ CNde], Japón:up:country)local(n)
P (deuda:uc:money, [ CNde], Japón:up:country)global(n+1)
ΣX,Y
P (deuda:uc:X, [ CNde], Japón:up:Y)local(n)
P (deuda:uc:X, [ CNde], Japón:up:Y)global(n+1)
Table 2: Extraction of classes for ”deuda de Japón”
bolsa” (”descent leave Stock Exchange”).
In order to identify the most pertinent
dependencies, and also using dotted lines,
we focus on detecting and later eliminating those dependencies that are found to be
less probable in sentences, since they include
terms with a low frequency. Nodes and arcs
in the resulting graph are baptized as pivot
terms and strong dependencies, as is shown
in Fig. 1.
A supplementary simplification phase consists of applying a simple syntactic constraint
establishing that a governed word can only
have one governor. So, for example, and indicated with a simple line in the sentence
of Fig. 1, ”Japón” (”Japan”) is governed by
”deuda” (”debt”), but also by ”deuda” (”relative”) and, in consequence, we should eliminate one of these dependencies. No other
topological restrictions are considered and, in
consequence, a governor word can have more
than one governed one, as in the second interpretation of Fig. 1 (”long-term debt descent
of Japan”), where ”bajada” (”descent”) is the
governor for ”plazo” (”term”) and ”Japón”
(”Japan”), also indicated with a simple line.
The same word could be governor and governed at the same time, this being the case
of ”plazo” (”term”), which is the governor
for ”largo” (”long”), but is also governed by
”deuda” (”debt”) in the first interpretation.
Villemonte de La Clergerie, 2006). This technique combines two complementary iterative
processes. For a given iteration, the first one
computes, for each governor/governed pair in
a sentence, the probability of the corresponding dependency; taking as its starting point
the statistical data provided by the original
error-mining strategy and related to the lexical category of the pivot terms. The second process computes, from the former, the
most probable semantic class to be assigned
to terms involved in the dependency. So, in
each iteration we look for both semantic and
syntactic disambiguation, each profiting from
the other. A fixed point assures the convergence of the strategy (Sagot and Villemonte
de La Clergerie, 2006).
We illustrate term clustering on our running example in Fig. 1, focusing on the dependency labeled [ CNde] relating ”deuda”
(”debt”) and ”Japón” (”Japan”). We do so
by introducing both iterative processes in this
particular case, talking without distinction
about weight, probability or preference to refer the same statistical concept. So, from Table 2, we have that:
1. To begin with, we compute the local
probability of the dependency in each
sentence, which depends on the weight
of each word, this in turn depending on
the word having the correct lexical category. To start the process, first category assumptions are provided by the
error-mining algorithm (Sagot and Villemonte de La Clergerie, 2006). We also
take into account the initial probability
2.2.2 Term clustering
The generation of semantic classes is inspired by an error-mining proposal originally
designed to identify missing and erroneous
information in parsing systems (Sagot and
46
From knowledge acquisition to information retrieval
for the dependency considered, a simple
ratio on all possible dependencies involving the lexical categories concerned. The
normalization is given by the preferences
for the possible lexical categories involving each of the terms considered.
whole corpus locally in the sentences in
order to re-compute the weights of all the
possible classes in the sentence. In order
to obtain this, we first compute the probability in the whole corpus (2.1 and 2.2)
for each term and semantic class, disregarding the right and left context, represented by variables X and Y respectively.
The final probability (2.3) is a combination of the two previous ones.
2. We reintroduce the local probabilities
into the whole corpus locally in the
sentences, in order to re-compute the
weights of all possible dependencies,after
which we then estimate globally the
most probable ones. The normalization
is given by the number of dependencies
connecting the terms considered.
3. After each iteration, we re-inject the previous global weight to obtain a new local
one, by reinforcing the local probabilities. The normalization is done by the
addition of the preferences corresponding to the terms and classes involved in
the dependency, for all the possible semantic classes considered.
3. The local value in the new iteration
should take into account both the global
preferences and the local injection of
these preferences in the sentences, reinforcing the local probabilities. The normalization is given by previous local and
global weights for the dependency involving all possible lexical categories associated to each of the terms considered.
After applying these last two approaches,
a hierarchy can be built according to the different elements obtained in all classes.
3
In dealing with semantic class assignment,
the sequence of steps is shown in Table 2 illustrating the computation of the probability that ”deuda”(”debt”) refers to the group
of money and ”Japón”(”Japan”) refers to a
country, taking again the dependency labeled
[ CNde] in Fig. 1, both money and country classes having been defined prior to the
launch of the process in a list of semantic
classes:
Information retrieval
Work in the field of IR increasingly aims to
improve text indexing or query formulation
with the help of different kinds of knowledge
structures such as hierarchies or ontologies.
These structures are expected to bring different targeted gains (Masolo, 2001) for example improving recall and precision or helping
users to express their needs more easily.
3.1
A general approach
Generally, users have no precise idea of what
they can find in a document collection, and
the consideration of a hierarchical structure
as a guideline to describe and organize contents could simply facilitate the two essential
ir tasks, information indexing and retrieval.
We propose an approach where hierarchies,
built up from the semantic relations emerging from text, are used in a more unusual
and promising way in combination with visualization tools for guided exploration of the
information space.
In dealing with ir, concept hierarchies and
documents can be related in a simple way
through the indexing task, by associating
each document to those concepts matching
its content. So, in our running corpus the
hierarchy is structured according to classes
such as money or dates; and is automatically
connected to documents after projection of
the terms where they occur. We also consider
1. In each sentence, we compute the
local probability of this dependency
if ”deuda” (”debt”) and ”Japón”
(”Japan”) are referring to money and a
country. We start from the local weight
previously computed in Table 2, and
also the initial preferences of the terms
involved corresponding to the classes
considered5 . The normalization is given
by the probabilities for the possible
classes involving each one of the terms
considered, without specifying any
particular class and is here represented
by variables X and Y.
2. We then calculate this preference at
global level, by re-introducing it to the
5
this is fixed by the user if the term is in a list
associated to that class. Otherwise, this probability
is obtained as a ratio of the total number of classes
considered.
47
Milagros Fernández Gavilanes, Sara Carrera Carrera, Manuel Vilares Ferro
Figure 2: Sub-hierarchy for the query ”acción”(”share”) using a term-based strategy
a graphical interface to show these structures
to the user, as is shown in Figs. 2 and 3 for
our running example.
3.2
sentences, these are firstly parsed to locate
possible and/or-like operators and, in this
case, we transfer them to Lucene which can
perform directly this kind of queries. In other
cases, we first eliminate stop-words to later
look for physical proximity and order criteria
between words and, finally, re-send the query
to the search engine, also after expansion.
Independently of the approach considered
to generate the conceptual hierarchy, once a
single-word query is introduced, we locate the
corresponding class in the knowledge hierarchy we are dealing with. From this, we can
identify the set of related classes, which also
allows us to introduce a simple relevance criterion for the answers so obtained, based on
the distance from the initial one. So, given
that indexing was previously performed using the terms in these classes, we recover all
the documents associated to them, assuming
that they are related to the query.
At this point, the choice of strategy impacts both the type and number of the semantic relations involved in the process described. In order to illustrate this, we study
the answer given by the system for the query
”acción” (”share”) first using the term-based
strategy and then the dependency-based one.
Focusing on the term-based approach, Fig. 2
shows the sub-hierarchy for the query, from
A practical approach
In practice, a major factor impacting the consideration of such an approach is the knowledge acquisition process itself. We have
described two different techniques, a termbased approach and a dependency-based one,
which we have integrated in a single prototype in order to define a common testing frame allowing us to effectively compare
them. Although the tool can combine several
domains of knowledge on a variety of different
languages, we are going to focus on our running corpus by using Lucene6 as a standard
search text engine. That is, the system identifies, in parsing stage, the set of indexes to
be considered for the effective retrieval task,
using Lucene. Once we have located the indexes we apply what we have baptized an expansion phase. This process enlarges identification of relevant terms from the conceptual structure, which will be later sent to the
search engine.
In order to facilitate understanding, we illustrate the proposal through queries limited
to single words. In dealing with general query
6
see http://lucene.apache.org/
48
From knowledge acquisition to information retrieval
Figure 3: Sub-hierarchy for the query ”acción”(”share”) using a dependency-based strategy
by round blue shapes, as the word ”acción”
(”share”) which is pointed to by the concept9
”dineros” (”money”) and is related, for example, to that of ”entidades” (”entities”). Also,
some of the properties that are related to
it are ”subyacente” (”underlying”) which is
a ”tipo” (”type”) property, and ”de febrero”
(”of February”), which is a ”tiempo” (”time”)
one.
A particular case occurs when the governor and governed words are both concepts in
a extracted parse dependency. We then represent these in the same rectangular shape
using a tag governor governed. So, in the
case of ”acción de Standard and Poor’s”
(”Standard and Poor’s share”), it is associated
to ”dineros entidades” (”money entities”) the
governor being ”dineros” (”money”) and the
governed ”entidades” (”entities”). In this
way, the query word ”acción” (”share”) is a
”dineros” (”money”) concept which is related
to ”Standard and Poor’s”, which is an ”entidades” (”entities”) one by means of arrows.
If the governor is a concept and the governed is a property, only the property is represented in the rectangular shape without indicating the class of the concept. In this case,
the query word ”acción” (”share”) is related
with different kinds of properties, such as ”de
which the system will search for the answers.
The strategy groups in a class7 , the words8
”moneda” (”currency”), ”deuda” (”debt”),
”acción” (”share”), ”fondo” (”fund”) and
”inversión” (”investment”) due to their similarities are considered high enough. Round
blue shapes are heads whose expansions are
indicated by arrows as in ”deuda de Japón”
(”Japan debt”), where the head ”deuda”
(”debt”) points to ”de Japón” (”of Japan”).
The new class, baptized as ”grupo 41”, shows
the way to identify the answers included at
the bottom, with the documents classified according to the information retrieved and organized by their relevance and in different
tabs related to the word.
Applying now the dependency-based
strategy, Fig. 3 shows the sub-hierarchy considered for retrieval purposes. Classes are already defined and separated in domain concepts such as ”dineros” (”money”), ”entidades” (”entities”) or ”paises” (”countries”);
whilst properties are similarly treated as
concept features such as ”tipo” (”type”),
”tiempo” (”time”) or ”tamaño” (”size”). The
hierarchy represents the organization of the
relations between the concepts and their features. Here, the governors are represented
7
8
here represented by a rectangular yellow shape.
here represented by round blue shapes.
9
49
here represented in a rectangular shape.
Milagros Fernández Gavilanes, Sara Carrera Carrera, Manuel Vilares Ferro
febrero” (”of February”), which is a ”tiempo”
(”time”) property; and ”subyacente” (”underlying”), which is a ”tipo” (”type”) one.
4
Bourigault, Didier, Nathalie Aussenac-Gilles,
and Jean Charlet.
2004.
Construction de ressources terminologiques ou ontologiques à partir de textes : un cadre
unificateur pour trois études de cas. Revue
d’Intelligence Artificielle (RIA), Numéro
spécial sur les techniques informatiques
de structuration de terminologies, M.
Slodzian (Ed.), 18(1/2004):87–110.
Conclusion
We have introduced an ir strategy based on
intelligent indexing that benefits from semantic relations between concepts in the text collection. In contrast with previous works, we
generate dynamically the conceptual structure serving as a basis for the ir module,
which would appear to be a promising approach exploring new knowledge domains as
well as providing the user with a more flexible
technique.
Although the primary purpose of this kind
of hierarchies is not to classify documents,
but rather to order global concepts, linking
them through linguistic expressions, deductions can nevertheless be made on the texts
and index creation facilitades. This factor is
important because it eliminates the human
factor in decision-making, this also being reflected in the ability to specify the queries
launched. In effect, it is possible from these
structures to infer correlation between notions present in the source text. This fact is
crucial for the refinement of queries that will
allow mistakes introduced by classical search
engines, such as polysemy or synonymy, to be
avoided.
Faure, D. and C. Nédellec.
A corpusbased conceptual clustering method for
verb frames and ontology acquisition. In
Paola Velardi, editor, LREC workshop on
Adapting lexical and corpus ressources to
sublanguages and applications, pages 5–
12.
Grefenstette, Gregory. 1994. Explorations in
Automatic Thesaurus Discovery. Kluwer
Academic Publishers, Norwell, MA, USA.
Harris, Z.S. 1968. Mathematical Structures
of Languages. J. Wiley & Sons, USA.
Masolo, C. 2001. Ontology driven information retrieval. report of the ikf (information and knowledge fusion). eureka project
e!2235.
Petersen, Wiebke. 2001. A set-theoretical
approach for the induction of inheritance
hierarchies. Electr. Notes Theor. Comput.
Sci., 53.
Sagot, B. and É. Villemonte de La Clergerie.
2006. Error mining in parsing results. In
Proc. of the 21st Int. Conf. on Computational Linguistics and 44th Annual Meeting of the Association for Computational
Linguistics, pages 329–336, Australia.
References
Aussenac-Gilles, Nathalie, Anne Condamines, and Sylvie Szulman.
2002.
Prise en compte de l’application dans la
constitution de produits terminologiques.
In 2e Assises Nationales du GDR I3,
Nancy (F).
Szulman, S. and B Biébow. 2004. Owl et
terminae. In IC: Journées Francophones
dÌngénieurie des connaissances, pages 41–
52.
Aussenac-Gilles, Nathalie and Josiane
Mothe.
2004.
Ontologies as background knowledge to explore document
collections. In RIAO 2004 , Avignon.
Vilares, J., M.A. Alonso, and M. Vilares.
2004. Morphological and syntactic processing for text retrieval. Lecture Notes in
Computer Science, 3180:371–380.
Bouaud, J., B. Bachimont, J. Charlet, and
P. Zweigenbaum. 1995. Methodological
principles for structuring an ontology.
Bourigault, D. and G. Lame. 2002. Analyse distibutionnelle et structuration de
terminologie, application à la construction d’une ontologie documentaire de
droit. In TAL: Traitement automatique
des langues, pages 129–150, vol 43, n 1,
Paris, France. Hermès.
50
Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 51-58
recibido 30-01-08, aceptado 03-03-08
Desarrollo de un Robot-Guía con Integración de un Sistema de
Diálogo y Expresión de Emociones: Proyecto ROBINT
Development of a Tour-Providing Robot Integrating Dialogue
System and Emotional Speech: ROBINT Project
Juan Manuel Lucas Cuesta, Rosario Alcázar Prior, Juan Manuel Montero Martínez,
Fernando Fernández Martínez, Roberto Barra-Chicote, Luis Fernando D’Haro
Enríquez, Javier Ferreiros López, Ricardo de Córdoba Herralde, Javier Macías
Guarasa, Rubén San Segundo Hernández, José Manuel Pardo Muñoz
Grupo de Tecnología del Habla, UPM
Avenida Complutense s/n. 28040. Madrid
[email protected], [email protected], [email protected], [email protected],
[email protected], [email protected], [email protected], [email protected],
[email protected], [email protected], [email protected]
Resumen. Este artículo presenta la incorporación de un sistema de diálogo hablado a un robot
autónomo, concebido como elemento interactivo en un museo de ciencias capaz de realizar
visitas guiadas y establecer diálogos sencillos con los visitantes del mismo. Para hacer más
atractivo su funcionamiento, se ha dotado al robot de rasgos (como expresividad gestual o
síntesis de voz con emociones) que humanizan sus intervenciones.
El reconocedor de voz es un subsistema independiente del locutor (permite reconocer el
habla de cualquier persona), que incorpora medidas de confianza para mejorar las prestaciones
del reconocimiento, puesto que se logra un filtrado muy importante de habla parásita. En cuanto
al sistema de comprensión, hace uso de un sistema de aprendizaje basado en reglas, lo que le
permite inferir información explícita de un conjunto de ejemplos, sin que sea necesario generar
previamente una gramática o un conjunto de reglas que guíen al módulo de comprensión. Estos
subsistemas se han evaluado previamente en una tarea de control por voz de un equipo HIFI,
empleando nuestro robot como elemento de interfaz, obteniendo valores de 95,9% de palabras
correctamente reconocidas y 92,8% de conceptos reconocidos.
En cuanto al sistema de conversión de texto a voz, se ha implementado un conjunto de
modificaciones segmentales y prosódicas sobre una voz neutra, que conducen a la generación
de emociones en la voz sintetizada por el robot, tales como alegría, enfado, tristeza o sorpresa.
La fiabilidad de estas emociones se ha medido con varios experimentos perceptuales que
arrojan resultados de identificación superiores al 70% para la mayoría de las emociones, (87%
en tristeza, 79,1% en sorpresa).
Palabras clave: reconocimiento de habla, medidas de confianza, síntesis de voz con
emociones.
Abstract. This paper describes the implementation of a spoken dialogue system on an
autonomous robot which presents a high degree of interaction with the visitors in a Science
Museum, providing interactive guided tours. Our main purpose was to provide the robot with
some features towards the generation of more human-like interaction. These features are gestual
expressivity and emotional speech synthesis.
The speech recognition module is a speaker-independent recognizer which makes use of
confidence measures, achieving the recognition of utterances spoken by any person, and a high
reduction of the impact of noise in speech. The language understanding module makes use of a
self-learning rule-based approach, which allows the system to infer information from the
available example utterances. Thus, the generation of a formal grammar becomes unnecessary.
Both modules have been evaluated on a task which includes dialogues between our robot and a
ISSN 1135-5948
© Sociedad Española para el Procesamiento del Lenguaje Natural
J.M. Lucas, R. Alcázar, J. M. Montero, F. Fernández, R.Barra-Chicote, L.F. D'Haro,
J. Ferreiros, R. de Córdoba, J. Macías-Guarasa, R. San Segundo, J.M. Pardo
human speaker. This task has been the control of a HI-FI system. The results of this experiment
are 95.9% in Word Accuracy, and 92.8% in Concept Accuracy.
We have also implemented a voice synthesizer that makes use of several prosodic and
segmental modifications of the synthesized speech. This way, our system generates a speech
with several emotions, such as happiness, anger, sadness or surprise. The performance of this
module has been measured with several experiments for emotion identification, that show
identification rates higher than 70% for most of tested emotions, (87% for sadness, or 79.1%
for surprise).
Keywords: speech recognition, confidence measures, emotional speech synthesis.
distinta ante diferentes intervenciones de
dichos visitantes.
Se quiere orientar el funcionamiento del
robot hacia uno de los grupos mayoritarios de
visitantes de un museo, como puede ser el
formado por niños en edad escolar. Los
motivos que nos impulsan a tener en cuenta
este sector son varios. En primer lugar, es un
sector de población en el que las
intervenciones habladas son más espontáneas.
Además, los grupos de escolares suelen hacer
este tipo de excursiones de manera obligada,
por lo que resulta complicado mantener la
atención de los mismos durante toda la visita,
en especial si durante la misma se producen
presentaciones excesivamente prolongadas
(Willeke, Kunz y Nourbakhsh, 2001).
En la actualidad ya existen robots capaces
de interactuar con niños. Se trata sobre todo de
sistemas de terapia de niños hospitalizados
(Plaisant et al., 2000, Saldien et al., 2006,
Shibata et al., 2001) o que presentan
problemas en su comportamiento, como
autismo (Dautenhahn y Werry, 2000). Estos
robots suelen tener la forma de animales de
compañía, con una serie de sensores y
actuadores que permiten que los robots
respondan a los estímulos producidos por la
actividad de los niños. En cuanto a sistemas
con capacidad de narrar una historia, (Silva,
Vala y Paiva, 2001) desarrollan un agente
virtual, mientras que (Druin et al., 1999), o
(Plaisant et al., 2000), analizan un robot con
capacidad de contar cuentos, aplicado en un
contexto de rehabilitación pediátrica. En
nuestro caso, el sistema cuentacuentos contará
con un nivel expresivo mayor, gracias a su
expresión de emociones, tales como la alegría,
la tristeza o el enfado, a través de la voz, de tal
manera que dicha emoción pueda ser percibida
por los niños a lo largo de las intervenciones
del robot.
Se pretende, por tanto, dotar al robot de la
capacidad de reconocer el habla de cualquier
persona, y de generar habla sintética
1. Introducción
La interacción entre seres humanos y
máquinas ha pasado de ser un paradigma de
investigación a convertirse en la actualidad en
una realidad que se da en diferentes niveles. El
nivel de interacción más básico, más próximo
a la máquina que al hombre, lleva décadas
siendo usado (a través de dispositivos como
teclados, generando comandos que la máquina
debe interpretar). Sin embargo, el campo más
interesante es el desarrollo de plataformas que
permitan una interacción a niveles más
próximos a los que el ser humano emplea de
manera intuitiva, tales como el uso de la voz o
la expresión corporal.
Si se concibe la interacción personamáquina como el establecimiento de una
comunicación entre un ser humano y un robot,
aparecen robots que desempeñan tareas con un
elevado número de interacciones con seres
humanos diferentes de sus programadores.
Así, en (Fong, Nourbakhsh y Dautenhahn,
2003), se definen los robots sociales como
aquellos robots en los que la interacción
persona-máquina adquiere un nivel relevante.
En la actualidad, tales robots se encuentran
todavía en una fase de investigación, si bien se
pueden encontrar ya implantados en
determinados contextos, entre los que destacan
su empleo como guías en museos (Willeke,
Kunz y Nourbakhsh, 2001), (disam, 2008) o
para la rehabilitación de niños hospitalizados
(Plaisant et al., 2000), (Saldien et al., 2006).
En función de la complejidad del
escenario en el que se produce la interacción,
(Breazeal, 2003) clasifica los robots sociales
en cuatro grupos: socialmente evocativos,
robots de interfaz social, socialmente
receptivos, y sociables. Atendiendo a las
características de esta clasificación, nuestro
robot puede clasificarse dentro del tipo
socialmente receptivo, pues ha de permitir la
interacción natural con los visitantes del
museo, además de responder de manera
52
Desarrollo de un Robot-Guía con Integración de un Sistema de Diálogo y Expresión de Emociones: Proyecto ROBINT
resultado de los mismos. En nuestro caso, que
la visita por el museo se desarrolle de manera
satisfactoria, no restringiéndose a la visita,
sino incluyendo otras actividades didácticas,
tales como juegos o relatos educativos.
expresiva. A mayor nivel, se pretende que el
robot pueda narrar historias, modificando la
voz emitida de acuerdo al contexto de la
narración, o bien en función de las
intervenciones de sus interlocutores humanos.
Este artículo se estructura como sigue. La
sección 2 presenta la plataforma física que
soporta las estructuras de la cara y el brazo, así
como el sistema de localización del robot. La
sección 3 está dedicada a los bloques que
componen el sistema de diálogo, y las pruebas
realizadas sobre los mismos. La sección 4
presenta las conclusiones extraídas del trabajo
realizado, además de plantear posibles líneas
futuras de investigación.
2. Arquitectura física y sistema de guiado
Figura 1: arquitectura de un sistema de diálogo
El robot consta de una plataforma móvil sobre
la cual se ha construido una estructura que da
soporte a la cara y el brazo de nuestro robot.
El desplazamiento que se puede aplicar a los
párpados, labios y brazo puede ser modificado
de acuerdo a la emoción que se desee
expresar, por ejemplo elevando las cejas para
indicar sorpresa, o frunciendo los labios para
denotar tristeza.
La estructura lleva dos procesadores
empotrados. El primero se encarga de las
tareas de guiado, construcción del mapa y
movimiento del robot. Para ello, hace uso de
una técnica conocida como SLAM
(Localización
y
Mapeo
Simultáneos),
desarrollada en (Rodríguez-Losada, 2004) y
(drodri, 2008), que le permite determinar su
posición en tiempo real.
El segundo equipo lleva a cabo parte de
las tareas de diálogo. El resultado de la síntesis
de voz se obtiene a través de dos altavoces
incorporados a la plataforma. Adicionalmente,
se emplea un ordenador portátil al que se
conecta un micrófono, y en el cual se ejecuta
el módulo de reconocimiento de voz. La
comunicación entre el equipo portátil y el
robot se lleva a cabo mediante sockets a través
de un enlace Ethernet de radio.
Los bloques que constituyen un sistema de
diálogo son el módulo de reconocimiento de
habla, que determina la transcripción escrita
de la frase enunciada por el hablante, y la
evalúa mediante la estimación de una serie de
medidas de confianza; el sistema de
comprensión de lenguaje natural, que extrae
los conceptos relevantes del texto anterior; el
gestor de diálogo, que determina las acciones
a realizar a partir de los conceptos extraídos, y
genera los conceptos de salida hacia el
usuario; el bloque de generación de respuesta,
que genera un texto comprensible con los
conceptos del gestor de diálogo; y el
conversor de texto a voz, que genera una
locución que reproduce el texto que le entrega
el generador de respuesta.
3.1. Reconocimiento de habla
El módulo de reconocimiento de habla permite
reconocer habla en castellano e inglés, pero en
el presente proyecto sólo se empleará el
sistema en castellano.
En un primer momento se debe determinar
si se dispone de alguna señal acústica válida a
la entrada del sistema, es decir, si el micrófono
está recibiendo algo diferente al eventual ruido
ambiente. En caso afirmativo, se extraen los
parámetros significativos de la señal (Huang,
Acero y Hon, 2001), mediante el análisis
trama a trama de la misma, y el cálculo de los
coeficientes perceptuales de predicción lineal
(PLP) y la energía de la señal en cada trama,
más sus correspondientes derivadas de primer
y segundo orden, dando lugar a un vector de
39 parámetros para cada trama.
3. Sistema de diálogo
El objetivo de un sistema de diálogo es
establecer una interacción hablada con un
interlocutor humano con una finalidad doble:
por un lado, interpretar la intervención del
usuario para identificar los servicios que éste
solicita, y por otro, prestar dichos servicios y
ofrecer al usuario información acerca del
53
J.M. Lucas, R. Alcázar, J. M. Montero, F. Fernández, R.Barra-Chicote, L.F. D'Haro,
J. Ferreiros, R. de Córdoba, J. Macías-Guarasa, R. San Segundo, J.M. Pardo
etapas del sistema, pero la más empleada es la
basada en medidas de confianza, es decir,
valores de mérito que informan al propio
sistema del grado de bondad que alcanzan sus
hipótesis. Siguiendo el trabajo presentado en
(Ferreiros et al., 2005), la medida de confianza
empleada se basa en la obtención de un grafo
de palabras y la evaluación de la pureza de
cada una de las mismas, entendida como la
fracción de hipótesis en el grafo que incluyen
una palabra concreta en un instante dado.
Mediante el establecimiento de un umbral de
confianza, se fija un primer nivel de control de
corrección de palabras reconocidas: si una
palabra ha sido reconocida con una confianza
inferior al umbral, no se tendrá en cuenta en
etapas posteriores del sistema de diálogo
(como, por ejemplo, en el módulo de
comprensión).
Además de la confianza de cada palabra,
se calcula el valor de la confianza media para
toda la frase. Este valor se obtiene mediante la
ponderación de la contribución de cada
palabra por el número de tramas que ocupa,
valor que da una idea de la duración de dicha
palabra. Este cálculo se ha planteado teniendo
en cuenta que las palabras más largas suelen
incluir información importante (y, por tanto,
son de especial relevancia para etapas
posteriores del sistema de diálogo). Las
pruebas realizadas muestran una mejora
significativa en el sistema de comprensión de
lenguaje cuando se adopta esta modificación
en el sistema de reconocimiento (Ferreiros et
al., 2005; Sama et al., 2005).
El reconocedor de habla es de desarrollo
propio, basado en modelos ocultos de Markov
(HMM) de tres estados por alófono. Se hace
uso de un modelo de lenguaje que contribuye a
limitar el número de hipótesis entre las que el
reconocedor ha de optar en cada instante para
determinar cuál es la secuencia de palabras
más probable que se está recibiendo. El
modelo empleado actualmente se basa en
bigramas, es decir, se modela la probabilidad
de aparición de cada palabra condicionada a la
aparición de la anterior.
Un avance importante con respecto al
proyecto URBANO ha sido el empleo de
micrófonos de habla cercana (close-talk) en la
obtención de la señal acústica, que ha
permitido, por un lado, una reducción
significativa del ruido ambiente (de unos 45
dB a unos 30 dB) y, por otro, de una menor
aparición de errores de tipo “false match”
(determinar que hay una señal acústica a la
entrada cuando sólo hay ruido ambiente), que
hacen que el reconocedor asuma que se ha
pronunciado alguna palabra, lo que provoca
una mayor confusión del sistema.
La evaluación del reconocedor de habla
pasa por obtener, como cifras de mérito de las
prestaciones (sobre un conjunto de enunciados
de prueba) la fracción de palabras reconocidas
correctamente, la fracción de palabras erróneas
(porcentaje de sustituciones), y las fracciones
de palabras insertadas o borradas. La suma de
sustituciones, inserciones y borrados se conoce
como tasa de error (ER) del reconocedor, cuyo
complementario (es decir, 100% - ER) se
conoce como Word Accuracy, WA.
Para estimar el WA de nuestro sistema, se
ha empleado el robot como interfaz para el
control de un sistema domótico sencillo, como
puede ser un equipo HI-FI (Fernández et al.,
2005), lo cual asegura un vocabulario reducido
(en torno a 500 palabras diferentes), con lo
que el reconocimiento es más seguro que en
vocabularios más amplios, puesto que el
sistema ha de tomar una decisión sobre un
menor número de hipótesis. Las pruebas
realizadas sobre un conjunto de referencia de
1200 frases compuestas por un total de 6185
palabras, arrojan valores de WA del orden del
95,86%.
Si bien el valor anterior resulta de utilidad
para un evaluador humano, la tasa de error
aporta muy poca información al propio
sistema de diálogo. Se han planteado varias
fuentes de información entre las diferentes
3.2. Comprensión del lenguaje natural
El módulo de comprensión de lenguaje recibe
como entrada la hipótesis que el reconocedor
de habla ha determinado como más
probablemente enunciada por el locutor, a
partir de la cual debe extraer los conceptos
clave incluidos en aquélla.
A fin de determinar qué conceptos están
contenidos en un enunciado concreto, es
necesario establecer diferentes categorías de
palabras, es decir, grupos de palabras con
características comunes, extraídas de un
conjunto de frases de entrenamiento. Además,
se ha de indicar que la clasificación de una
palabra no depende únicamente de sí misma,
sino también del contexto en el que se
localiza.
Las diferentes palabras pueden ser
categorizadas manualmente por un experto, o
54
Desarrollo de un Robot-Guía con Integración de un Sistema de Diálogo y Expresión de Emociones: Proyecto ROBINT
mantener un marco con dos tipos de campos,
denominados atributo y valor. En el primero
de ellos, el sistema mantiene identificados los
conceptos de interés para la tarea que está
realizando en ese momento. En el campo de
valor, el gestor almacenará las palabras que el
módulo de comprensión ha etiquetado como
uno de los conceptos presentes en la lista de
atributos.
Si el sistema no puede rellenar todos los
campos a partir de un único enunciado por
parte del locutor, el gestor de diálogo enviará
al generador de respuesta uno o varios
conceptos que aún no tienen un valor
asociado, de tal manera que se solicite al
usuario tal información. El generador de
respuesta aplicará sobre dichos conceptos las
plantillas oportunas para construir un
enunciado comprensible por el usuario, y lo
pasará al conversor texto-voz para que éste
sintetice la frase, estableciendo de esta manera
un diálogo con el interlocutor humano. Dicho
diálogo continuará hasta que el robot disponga
de todos aquellos datos necesarios para que
realice la acción deseada.
bien realizar una clasificación automática
basada en un conjunto de reglas. El primero de
los métodos tiene como ventaja la exactitud en
la clasificación de cada palabra, mientras que
el segundo método permite fijar un número
concreto de clases, y es mucho más rápido que
el primero, pero es más complicado que la
clasificación se realice de acuerdo a la
semántica de la lengua, cosa que el primer
método permite.
Una vez se conoce las diferentes
categorías a las que puede pertenecer cada
palabra, el módulo de comprensión evalúa el
enunciado reconocido, obteniendo una serie de
conceptos que se pasarán al gestor del diálogo.
Como cifras de mérito, se obtendrán medidas
de confianza a nivel de concepto, además de la
tasa de acierto de conceptos, o Concept
Accuracy (CA).
Para evitar ambigüedades en las palabras
más comunes del vocabulario, se incluyó en el
cálculo de medidas de confianza el concepto
de palabras no confiables: son aquellas
palabras que carecen de una categoría propia,
pero que contribuyen a definir la categoría de
las palabras a las que acompañan. Dentro de
este grupo de palabras se incluyen
determinantes, preposiciones o conjunciones.
A la hora de estimar la confianza de un
conjunto de conceptos, las palabras no
confiables se excluirán del cálculo, de tal
manera que sólo se tienen en cuenta las
palabras categorizadas. Esto asegura una
mejor estimación de las medidas de confianza,
puesto que se eliminan aquellas palabras que
no sólo no incluyen información, sino que
además presentan mayor confusión entre sí.
El módulo de comprensión completo, al
igual que el reconocedor de habla, se ha
evaluado incluyendo el robot como interfaz
para el control domótico de un equipo HI-FI.
El valor de CA obtenido ha sido de 92,78%.
3.4. Conversor texto a voz
El conversor texto a voz genera un enunciado
a partir del texto que le proporciona el
generador de respuesta. Para ello, hace uso de
un conjunto de parámetros prosódicos, como
son el pitch, o frecuencia percibida como
frecuencia fundamental de vibración de las
cuerdas vocales; la intensidad, o energía de la
señal, y la duración temporal de cada sonido.
Uno de los objetivos planteados a la hora
de comenzar este proyecto era tratar de
humanizar lo más posible el comportamiento
del robot. Para eso, uno de los medios
imprescindibles consiste en dotarle de una voz
más expresiva y capaz de transmitir
emociones, que se vea acompañada de los
gestos tanto de la cara como del brazo que
refuercen la expresión emitida por la voz.
La síntesis de voz con emociones que
ofrece una mayor calidad es la consistente en
la concatenación de unidades acústicas
(generalmente, difonemas) a partir de un
corpus amplio constituido por voz grabada de
actores expresando diferentes emociones. Sin
embargo, hemos optado por realizar la síntesis
a partir de la modificación de los formantes de
la voz neutra por varios motivos. En primer
lugar, porque el modelado matemático de la
voz permite aplicar cualquier tipo de
3.3. Gestor de diálogo
Las tareas que ha de desempeñar el gestor de
diálogo son dos. Por un lado, y a partir de los
conceptos que el módulo de comprensión ha
extraído, debe generar una serie de acciones
que el sistema (en nuestro caso, el robot) debe
llevar a cabo. Por otra parte, el gestor ha de
determinar los conceptos de una eventual
respuesta vocal del robot, expresable a través
del sistema de conversión de texto a voz.
El gestor de diálogo está basado en
marcos. Esta aproximación consiste en
55
J.M. Lucas, R. Alcázar, J. M. Montero, F. Fernández, R.Barra-Chicote, L.F. D'Haro,
J. Ferreiros, R. de Córdoba, J. Macías-Guarasa, R. San Segundo, J.M. Pardo
Emoción identificada
Emoción
simulada
Alegría
Enfado en frío
Sorpresa
Tristeza
Neutra
Alegría
Enfado en frío
Sorpresa
53,9%
7%
17,4%
9,6%
70,4%
2,6%
1,7%
3,5%
20,9%
14,8%
79,1%
1,7%
2,6%
Tristeza
Neutra
Otra
2,6%
7,8%
3,5%
87%
7,8%
10,4%
83,5%
7,8%
1,7%
0,9%
0,9%
0,9%
Tabla 1: Matriz de confusión de emociones sintetizadas.
modificación en la señal generada, pudiendo
obtener así una voz que exprese una emoción
concreta a partir de una señal de voz neutra.
Además, este método no requiere un corpus
tan amplio como el anterior, puesto que sólo
requiere un conjunto de frases de voz neutra,
sobre la que se realizarán las modificaciones
pertinentes, y un pequeño grupo de frases con
las emociones que se desean sintetizar, a fin de
obtener los parámetros para adaptar la voz
neutra a la emoción objetivo. Así, basta con
aplicar una serie de modificaciones sobre los
elementos prosódicos de la voz original.
(Barra et al., 2006) analiza las características
de cuatro emociones básicas: alegría, tristeza,
sorpresa y enfado, identificando los rasgos que
permiten sintetizar una emoción a partir de
voz neutra.
Las modificaciones planteadas sobre la
voz neutra dependen de la emoción a
sintetizar:
ƒ
ƒ
ƒ
ƒ
enunciado, y una mayor duración de las
sílabas tónicas.
Por último, el enfado es una emoción con
una importante componente no vocal,
dado que casi siempre va acompañado de
gestos corporales. La modificación
planteada estriba en aumentar la
intensidad de las sílabas tónicas y
aumentar el rango de variación del pitch.
Además, para simular el efecto de voz
contenida y temblorosa característico del
enfado en frío, se ha añadido una fuente de
ruido aditivo síncrono con el pitch.
Este sistema de síntesis se ha evaluado
presentando a un grupo de oyentes un
conjunto de frases sintetizadas con diversas
emociones, y solicitándoles que identificasen
la emoción que, a su juicio, expresaba el
locutor. Dicha emoción debía elegirse de un
conjunto cerrado, que incluía las emociones
sintetizadas, además de la voz neutra.
Los resultados de esta evaluación se
muestran en la tabla 1. Se puede ver que la
confusión es especialmente elevada entre
alegría y sorpresa. Esto se debe a que, puesto
que la sorpresa es un breve estado transitorio,
si se pretende transmitir sorpresa en un
enunciado largo, hay que mantener
constantemente las modificaciones sobre la
voz original, y dichas modificaciones son muy
similares a las aplicadas para la síntesis de
alegría, por lo que la confusión mutua entre
ambas emociones aumenta significativamente.
Además se observa cómo la voz que expresa
tristeza está, a juicio de los oyentes, muy bien
lograda, puesto que apenas presenta confusión
con otras emociones.
La alegría necesita una modificación del
ancho de banda de la señal original, así
como una elevación del pitch y de su
rango de variación, y un aumento de la
velocidad de locución.
La tristeza requiere una mayor lentitud en
la expresión de la frase sintetizada y una
reducción en la intensidad de la señal,
además de un menor ancho de banda
efectivo. Una mejora adicional consiste en
modificar el pitch mediante la adición de
un jitter, o pequeña variabilidad del
mismo, de tal manera que se simula el
temblor de la voz característico de una
persona próxima a llorar.
La sorpresa es especialmente difícil de
sintetizar, puesto que se trata de una
emoción transitoria que evoluciona
rápidamente hacia otra emoción. Las
modificaciones realizadas consisten en un
aumento tanto del pitch como de su rango
de variación, en un grado más acusado que
en el caso de la alegría. Asimismo, se
propone un contorno de frecuencia
fundamental creciente hacia el final del
4. Conclusiones
A la luz de los resultados mostrados en el
presente trabajo, además de los resultados
subjetivos obtenidos al emplear el robot en un
contexto real, realizando las actividades
propuestas con varios grupos de escolares
entre 3 y 11 años, podemos afirmar que las
prestaciones de los diferentes módulos que
56
Desarrollo de un Robot-Guía con Integración de un Sistema de Diálogo y Expresión de Emociones: Proyecto ROBINT
contribuyan a una mayor expresividad del
mismo, variando su posición de manera
simultánea a la síntesis de voz, humanizando
así sus intervenciones. Las pruebas realizadas
con varios grupos de escolares demostraron
que la identificación de la emoción se ve
potenciada cuando ésta no sólo se expresa con
la voz, sino también mediante gestos
corporales.
En resumen, se ha logrado que el robot
genere un mayor interés en el ámbito de un
Museo de Ciencias.
componen nuestro robot lo hacen idóneo para
cumplir una función fuertemente interactiva en
el contexto de un museo de ciencias, no como
sustituto de un guía humano, sino como un
elemento más del museo al que se le añade
una elevada capacidad de interacción con los
visitantes.
El robot se desenvuelve de manera óptima
en un entorno controlado (como puede ser una
de las salas del museo) gracias al sistema de
navegación.
Este control del entorno permite además el
empleo de un vocabulario reducido, lo que
asegura un número controlado de alternativas
en el modelo de lenguaje empleado en el
reconocedor de habla.
La medida de confianza básica se ha visto
modificada mediante la definición de
confianzas ponderadas y de palabras no
confiables. Todas estas medidas de confianza
son independientes de la tarea a realizar, lo
que permite mantenerlas activas en cualquier
entorno en el que se desee disponer del
reconocedor de habla.
Las pruebas realizadas sobre el sistema
demuestran que el cálculo modificado de
medidas de confianza, junto con el empleo de
un micrófono close-talk, han contribuido de
manera importante a mejorar las tasas del
reconocedor de habla y del sistema de
comprensión, lo que permite que el robot
responda a las intervenciones humanas con
mayor eficacia, sin necesidad de volver a
consultar con el interlocutor.
La capacidad del módulo de comprensión
de aprender gradualmente de los ejemplos que
se presentan a su entrada asegura unas tasas de
Concept Accuracy muy elevadas en entornos
controlados, además de no requerir una
gramática previa o un conjunto de reglas para
inferir los conceptos de una frase.
La inclusión de emociones en la voz
sintetizada ha sido un gran acierto para hacer
más atractivas las interacciones del robot con
grupos de niños. Las modificaciones en los
parámetros del sintetizador (valores medios y
rangos del pitch, la amplitud, etcétera) han
conducido a la obtención de una señal de voz
capaz de expresar emociones. La evaluación
de esta voz sintética demuestra cómo las
modificaciones propuestas conducen a tasas
significativas de reconocimiento de emociones
por parte de oyentes no entrenados.
Se ha logrado que los movimientos del
brazo y el rostro del robot (párpados y labios)
Agradecimientos
El presente trabajo ha sido parcialmente
financiado por el Ministerio de Educación y
Ciencia, bajo los contratos DPI2007-66846C02-02 (ROBONAUTA), DPI2004-07908C02 (ROBINT) y por la UPM_CAM, bajo el
contrato CCG06-UPM/CAM-516 (ATINA).
Los autores desean agradecer la
colaboración de Nuria Pérez Magariños, así
como el trabajo desarrollado por Ramón Galán
y Diego Rodríguez-Losada, responsables de la
estructura y el guiado del robot.
Bibliografía
Barra, R., Montero, J.M., Macías, J., D’Haro,
L.F., San Segundo, R. and Córdoba, R.,
‘Prosodic and Segmental Rubrics in
Emotion Identification’. Proceedings of
the IEEE International Conference in
Acoustics, Speech and Signal Processing
(ICASSP’06) Pag. 1085-1088. 2006.
Breazeal, C., ‘Toward Sociable Robots’.
Robots and Autonomous Systems, n 42.
Pag. 167-175. 2003.
Dautenhahn, K. and Werry, I., ‘Issues of
Robot-Human Interaction Dynamics in the
Rehabilitation of Children with Autism’.
Proceedings of the Sixth International
Conference on the Simulation of Adaptive
Behavior (SAB2000). Pag. 519-528. 2000.
Druin, A., Montemayor, J., Hendler, J.,
McAlister, B., Boltman, A., Fiterman, E.,
Plaisant, A., Kruskal, A., Olsen, H.,
Revett, I., Plaisant Schwenn, T., Sumida,
L. and Wagner, R., ‘Designing PETS: a
Personal Electronic Teller of Stories’.
Human Factors in Computing Systems
(CHI 99). ACM Press. Pag. 326-329. May
1999.
57
J.M. Lucas, R. Alcázar, J. M. Montero, F. Fernández, R.Barra-Chicote, L.F. D'Haro,
J. Ferreiros, R. de Córdoba, J. Macías-Guarasa, R. San Segundo, J.M. Pardo
Fernández, F., Ferreiros, J., Sama, V.,
Montero, J.M., San Segundo, R., Macías,
J. and García, R., ‘Speech Interface for
Controlling an Hi-Fi Audio System based
on a Bayesian Belief Networks Approach
for Dialog Modeling’. Proceedings of the
9th
Conference
on
Speech
Communications
and
Technology
(INTERSPEECH 2005). Pag. 3421-3424.
September 2005.
del lenguaje natural Nº 35, pp. 229-234,
ISSN 1135-5948. Septiembre 2005.
Shibata, T., Mitsui, T., Wada, K., Touda, A.,
Kumasaka, T., Tagami, K. and Tanie, K.,
‘Mental Commit Robots and its
Application to Therapy of Children’.
Proceedings
of
the
IEEE/ASME
International Conference on Advanced
Intelligence Mechatronics. Pag. 10531058. 2001.
Ferreiros, J., San Segundo, R., Fernández, F.,
D’Haro, L.F., Sama, V., Barra, R. and
Mellén, P., ‘New Word-Level and
Sentence-Level Confidence Scoring using
Graph Theory Calculus and its Evaluation
on Speech Understanding’. In Proceedings
of the 9th Conference on Speech
Communication
and
Technology
(INTERSPEECH 2005). Pag. 3377-3380.
September 2005.
Silva, A., Vala, M. and Paiva, A., ‘Papous: the
Virtual Storyteller’. Intelligent Virtual
Agents. Springer. 2001.
Willeke, T., Kunz, C. and Nourbakhsh, I.,
‘The History of the Mobot Museum Robot
Series: An Evolutionary Study’. American
Association for Artificial Intelligence
(www.aaai.org). 2001.
drodri
http://www.disam.upm.es/~drodri/,
2008.
Fong, T., Nourbakhsh, I. and Dautenhahn, K.,
‘A Survey of Socially Interactive Robots’.
Robots and Autonomous Systems, n 42.
Pag. 143-166. 2003.
disam
2008.
Huang, X., Acero, A. and Hon, H., ‘Spoken
Language Processing. A Guide to Theory,
Algorithm and System Development’.
Prentice Hall. New Jersey. 2001.
Plaisant, C., Druin, A., Lathan, C., Dakhane,
K., Edwards, K., Maxwell Vice, J. and
Montemayor, J., ‘A Storytelling Robot for
Pediatric Rehabilitation’. Proceedings of
the Fourth International ACM Conference
on Assistive Technologies. Pag. 50-55.
2000.
Rodríguez-Losada, D., ‘SLAM Geométrico en
Tiempo Real para Robots Móviles en
Interiores basado en EKF’. PhD Thesis
(Unpublished). Escuela Técnica Superior
de Ingenieros Industriales. Universidad
Politécnica de Madrid. 2004.
Saldien, J., Goris, K., Vanderborght, B.,
Verrelst, B., Van Ham, R. and Lefeber, D.,
‘ANTY: The Development of an Intelligent
Huggable
Robot
for
Hospitalized
Children’. Vrije Universiteit Brussel
(http://anty.vub.ac.be). 2006.
Sama, V., Ferreiros, J., Fernández, F., San
Segundo, R., Pardo, J.M., ‘Utilización de
medidas de confianza en sistemas de
comprensión del habla’. Procesamiento
58
http://www.disam.upm.es/control/,
Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 59-66
recibido 30-01-08, aceptado 03-03-08
Experiments with an ensemble of Spanish dependency parsers∗
Experimentos con un sistema combinado de analizadores sintácticos de
dependencias para el español
Roser Morante Vallejo
Tilburg University
Postbus 90153, 5000 LE Tilburg, The Netherlands
[email protected]
Resumen: Este artı́culo presenta un sistema combinado de analizadores sintácticos
de dependencias del español que integra tres analizadores basados en aprendizaje
automático. El sistema opera en dos etapas. En la primera cada analizador procesa
una frase y produce un grafo de dependencias. En la segunda un sistema de votación
decide cual es el análisis final a partir de los análisis producidos en la primera etapa.
Palabras clave: Analizadores sintácticos de dependencias, sistema combinado,
MaltParser, aprendizaje basado en memoria.
Abstract: This article presents an ensemble system for dependency parsing of
Spanish that combines three machine-learning-based dependency parsers. The system operates in two stages. In the first stage, each of the three parsers analyzes an
input sentence and produces a dependency graph. In the second stage, a voting system distills a final dependency graph out of the three first-stage dependency graphs.
Keywords: Dependency parsers, ensemble system, MaltParser, memory-based
learning.
1
Introduction
This article presents the results of experiments with an ensemble system for dependency parsing of Spanish. The system
has been developed as part of the project
Técnicas semiautomáticas para el etiquetado
de roles semánticos en corpus del español,
which focuses on researching semiautomatic
techniques for semantic role labeling. The final goal of the project is to annotate with
semantic roles a seventy million word corpus, starting from an eighty thousand word
train corpus. It is well known that semantic role labelers that use syntactic information perform better. This is why a parser is
needed in the project that performs as accurately as possible. Since parser combination has proved to improve the performance
of individual parsers (Henderson and Brill,
1999; Zeman and Žabokrtský, 2005; Sagae
and Lavie, 2006), experimenting with an en∗
This research has been funded by the postdoctoral grant EX2005–1145 awarded by the Ministerio de Educación y Ciencia of Spain to the project
Técnicas semiautomáticas para el etiquetado de roles
semánticos en corpus del español.
ISSN 1135-5948
semble of parsers that integrates one of the
best dependency parsers for Spanish (MaltParser) seemed to be an appropriate first
step.
The system combines three machinelearning-based dependency parsers: Nivre’s
MaltParser (Nivre, 2006; Nivre et al.,
2006), Canisius’ memory-based constraintsatisfaction inference parser (Canisius and
Tjong Kim Sang, 2007), and a new memorybased parser that operates with a single
word-pair relation classifier.
Like in Sagae and Lavie (2006), the ensemble system operates in two stages. In
the first stage, each of the three parsers analyzes an input sentence and produces a dependency graph. The unlabeled attachment
scores in this stage range from 82 to 87 %,
according to the evaluation metrics used in
the CoNLL Shared Task 2006 (Buchholz and
Marsi, 2006). In the second stage, a voting
system distills a final dependency graph out
of the three first-stage dependency graphs.
The system achieves a 4.44% error reduction
over the best parser.
© Sociedad Española para el Procesamiento del Lenguaje Natural
Roser Morante
N.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
FORM
Asimismo
defiende
la
financiación
pública
de
la
investigación
básica
y
pone
de
manifiesto
que
las
empresas
se
centran
más
en
la
I+D
con
objetivos
de
mercado
.
LEMMA
asimismo
defender
el
financiación
pública
de
el
investigación
básico
y
poner
de
manifiesto
que
el
empresa
él
centrar
más
en
el
I+D
con
objetivo
de
mercado
.
CPOS
r
v
d
n
a
s
d
n
a
c
v
s
n
c
d
n
p
v
r
s
d
n
s
n
s
n
F
POS
rg
vm
da
nc
aq
sp
da
nc
aq
cc
vm
sp
nc
cs
da
nc
p0
vm
rg
sp
da
np
sp
nc
sp
nc
Fp
FEATS
num=s|per=3|mod=i|tmp=p
num=s|gen=f
num=s|gen=f
num=s|gen=f
for=s
num=s|gen=f
num=s|gen=f
num=s|gen=f
num=s|per=3|mod=i|tmp=p
for=s
gen=m|num=s
gen=f|num=p
gen=f|num=p
per=3
num=p|per=3|mod=i|tmp=p
for=s
num=s|gen=f
for=s
gen=m|num=p
for=s
gen=m|num=s
HEAD
2
0
4
2
4
4
8
6
8
2
10
11
12
18
16
18
18
11
20
18
22
20
18
23
24
25
2
DEP.REL
MOD
ROOT
ESP
CD
CN
CN
ESP
CN
CTE
CDO
CC
ESP
SUJ
CD
CREG
ESP
CC
CN
PUNC
Table 1: Example sentence of the revised Cast3LB–CoNLL corpus of Spanish.
and not all verbs are equally frequent1 .
Table 1 shows an example sentence of the
corpus. Like in the CoNLL Shared Task 2006
sentences are separated by a blank line and
fields are separated by a single tab character. A sentence consists of tokens, each one
starting on a new line. A token consists
of the following 8 fields that contain information about morphosyntactic features and
non-projective dependencies:
The results presented here are preliminary. Because the MaltParser performs substantially better than the other two parsers,
the results of the ensemble do not improve
significantly over the results of the MaltParser. Consequently, more parsers will have
to be added to the ensemble, and additional
combination techniques will have to be experimented.
The article is structured as follows. The
corpus used is described in Section 2. Section 3 presents the parsers that were integrated in the ensemble, which is introduced
in Section 4. The results are reported in Section 5, and compared to related work in Section 6. Finally, some conclusions are put forward in Section 7.
2
1. ID: token counter, starting at 1 for each
new sentence.
2. FORM: word form or punctuation symbol.
3. LEMMA: lemma of word form.
4. CPOSTAG:
speech tag.
The Cast3LB–CoNLL corpus
of Spanish
coarse-grained
part-of-
5. POSTAG: fine-grained part-of-speech
tag.
The experiments described in this paper were
carried out on the Cast3LB–CoNLL Corpus
of Spanish (Morante, 2006), which is a revised version of the Cast3LB treebank (Civit,
Martı́, and Bufı́, 2006; Civit, 2003; Navarro
et al., 2003) used in the CoNLL Shared Task
2006 (Buchholz and Marsi, 2006). It contains
89199 words in 3303 sentences. As for verbs,
it contains 11023 forms, and 1443 lemmas,
1
1369 verbs appear less than 20 times; 54 verbs,
from 20 to 50 times; 12 verbs, 50 to 100 times: tratar
(51), dejar (53), acabar (55), pasar (59), parecer (62),
seguir (62), quedar (67), encontrar (68), llevar (68),
poner (68), deber (75), querer (78), dar (86). 6 verbs,
from 100 to 300 times: saber (101), llegar (107), ver
(121), ir (132), decir (210), tener (243), hacer (253),
poder (282), estar (296); and 2 verbs appear more
than 800 times: ser, 1348 times and haber, 812 times.
60
Experiments with an ensemble of Spanish dependency parsers
POS
POS
POS
POS
POS
POS
POS
POS
POS
POS
POS
POS
POS
FEATS
FEATS
FEATS
FEATS
DEP
DEP
DEP
DEP
LEX
LEX
LEMMA
LEMMA
LEMMA
CPOS
CPOS
CPOS
CPOS
6. FEATS: unordered set of syntactic
and/or morphological features, separated by a vertical bar. If features are
not available, the value of the feature is
an underscore.
The complete description of the
CPOSTAG, POSTAG, and FEATS tags
can be found in Civit (2002).
7. HEAD: head of the current token, which
is either a value of ID or zero (’0’) for
the sentence root.
8. DEPREL: dependency relation to the
HEAD. The set of tags is described in
Morante (2006).
3
Single parsers
This section describes the parsers that were
integrated into the ensemble system and their
results.
3.1
MaltParser 0.4 (MP)
The MaltParser 0.42 (Nivre, 2006; Nivre et
al., 2006) is an inductive dependency parser
that, according to Nivre et al. (2006), uses
four essential components: a deterministic algorithm for building labeled projective dependency graphs; history-based feature models for predicting the next parser action; support vector machines for mapping histories
to parser actions; and graph transformations
for recovering non-projective structures.
The MaltParser participated in the
CoNLL-X Shared Task on multi-lingual dependency parsing obtaining the second best
results for Spanish (81.29 % labeled attachment score). In these experiments we used
the following model for Spanish:
The learner type was support vector machines (LIBSVM (Chang and Lin, 2005)),
with the same parameter options used by
Nivre et al. (2006) in the CoNLL Shared
Task 2006. The parser algorithm used was
Nivre, with the options arc order eager,
shift before reduce and allow reduction of
unattached tokens.
3.2
STACK
INPUT
INPUT
INPUT
INPUT
STACK
STACK
STACK
STACK
INPUT
STACK
INPUT
STACK
STACK
INPUT
INPUT
STACK
STACK
STACK
STACK
INPUT
STACK
INPUT
STACK
INPUT
INPUT
STACK
INPUT
INPUT
STACK
1
2
3
1
0
0
0
0
0
0
2
0
0
0
0
1
-1
1
0
0
0
1
0
0
1
0
0
0
0
0
0
0
0
0
-1
1
-1
0
0
0
-1
1
0
0
1
-1
1
-1
Table 2: Model of the MaltParser used.
uses three memory-based classifiers that predict weighted soft-constraints on the structure of the parse tree. Each predicted constraint covers a small part of the complete
dependency tree, and overlap between them
ensures that global output structure is taken
into account. A dynamic programming algorithm for dependency parsing is used to find
the optimal solution to the constraint satisfaction problem thus obtained.
3.3
Memory-based constraint
satisfaction parser (MB1)
The memory-based constraint satisfaction
parser (Canisius and Tjong Kim Sang, 2007)
2
Web
page
of
MaltParser
0.4:
http://w3.msi.vxu.se/∼nivre/research/MaltParser.html.
61
Memory-based single classifier
parser (MB2)
The memory-based single classifier parser is
a new parser developed for performing the
experiments reported here. It consists of a
single classifier that predicts the relation between two words in a sentence, and a decision heuristics that chooses among the dependency relations that the classifier has predicted for one word, based on information
from the classifier output.
Given two words, w1 and w2, the task
that the classifier performs is predicting
at the same time the direction of the dependency and the type of dependency. A
dummy class NONE represents absence of
Roser Morante
relation. For a sentence like El gato come
pescado, the instances in the train corpus
would be:
distance metric with global feature weights
that account for relative differences in discriminative power of the features. The IB1
algorithm was parametrized by using Overlap as the similarity metric, Information Gain
for feature weighting, 11 k-nearest neighbors,
and weighting the class vote of neighbors
as a function of their inverse linear distance
(Daelemans et al., 2007).
Because the classifier might predict more
than one dependency relation for one word, a
decision heuristics is applied in order to disambiguate. The decision heuristics uses information about the class distribution and
the distance to the nearest neighbor produced by TiMBL.
w1:el w2:gato features class
w1:el w2:come features class
w1:el w2:pescado features class
w1:gato w2:come features class
w1:gato w2:pescado features class
w1:come w2:pescado features class
An instance is composed of the following
features:
• Lemma, POS, CPOS gender, number,
person, mode, tense of the focus word
w1 and focus word w2, and of the two
previous and two next words to the focus words.
Algorithm 1 Heuristics to filter the output
of the classifier in MB1.
• Number of coordinative conjunctions,
subordinate conjunctions, prepositions,
punctuation signs, main verbs, auxiliary verbs, pronouns, relative pronouns,
nouns, and adjectives.
if the predicted class is different than NONE
then
if there is not a NONE class among the nearest neighbors then
if the distance is bigger than 6 then
turn the prediction into NONE;
else
keep the predicted and tag it with a
“not-none” flag;
end if
else if there is a NONE class among the
nearest neighbors then
if its class distribution is bigger than 0.70,
and the difference between the probability
of the predicted class and the NONE class
is lower than 3 then
turn the prediction into NONE;
else
keep the predicted class and tag it with
a “possible-none” flag;
end if
end if
else
keep the NONE prediction;
end if
We performed 10-fold cross-validation experiments. Instances with the NONE class in
the train corpus were downsampled in a 1:1
proportion.
We use the IB1 classifier as implemented
in TiMBL (version 6.0) (Daelemans et al.,
2007), a supervised inductive algorithm for
learning classification tasks based on the knearest neighbor classification rule (Cover
and Hart, 1967). In IB1, similarity is defined by a feature-level distance metric between a test instance and a memorized example. The metric combines a per-feature value
In the first step the output of the classifier is filtered according to Algorithm 1.
In the second step the dependency tree is
reconstructed and the dependency relations
are disambiguated, if more than one dependency is predicted for a word. The system
gives preference to the class tagged with a
“not-none” flag that has the lower distance
to the nearest neighbor. If no classes are
tagged with the “not-none” flag, the system
gives preference to the class tagged with a
“possible-none” flag that has the lower distance to the nearest neighbor.
• Features that express if w2 is placed between w1 and the first coordination /
main verb / preposition / noun / adjective to the right of w1.
• Features that expresses if w2 is placed
between w1 and the second coordination
/ main verb / preposition / noun / adjective to the right of w1.
• Features that expresses if w1 is placed
between w2 and the first coordination /
main verb / preposition / noun / adjective to the left of w2.
• Features that expresses if w1 is placed
between w2 and the second coordination
/ main verb / preposition / noun / adjective to the left of w2.
62
Experiments with an ensemble of Spanish dependency parsers
DEPREL
AP
ATR
AUX
CA
CAG
CC
CD
CDO
CI
CN
CPRED.CD
CPRED.SUJ
CREG
CTE
ENUM
ESP
ET
IMPERS
MOD
NEG
PASS
PER
ROOT
SUJ
-
n.train
64
142
92
152
4
660
450
326
67
1171
9
28
83
263
3
1313
68
11
50
76
35
64
331
532
1896
rec
45.31
79.58
95.65
72.37
50.00
71.67
78.89
70.86
56.72
82.49
33.33
57.14
57.83
61.22
0.00
94.59
41.18
81.82
42.00
84.21
85.71
73.44
91.54
75.75
82.70
MP
prec
54.72
84.96
93.62
72.37
66.67
63.15
71.43
66.38
79.17
80.10
75.00
72.73
67.61
62.65
0.00
92.89
54.90
69.23
72.41
88.89
90.91
75.81
71.46
80.12
90.64
F1
49.57
82.18
94.62
72.37
57.14
67.14
74.97
68.54
66.09
81.27
46.15
63.99
62.33
61.92
0.00
93.73
47.06
75.00
53.16
86.48
88.23
74.60
80.26
77.87
86.48
rec
40.62
79.58
86.96
63.16
50.00
53.64
74.44
66.56
50.75
81.81
0.00
42.86
33.73
55.13
0.00
95.05
41.18
63.64
36.00
85.53
48.57
65.62
76.74
68.80
80.80
MB1
prec
50.00
75.33
93.02
66.67
50.00
54.29
70.38
58.49
68.00
72.80
0.00
70.59
66.67
54.51
0.00
92.10
65.12
87.50
66.67
89.04
68.00
76.36
74.05
72.76
84.69
F1
44.82
77.39
89.88
64.86
50.00
53.96
72.35
62.26
58.12
77.04
0.00
53.33
44.79
54.81
0.00
93.55
50.45
73.68
46.75
87.24
56.66
70.58
75.37
70.72
82.69
rec
51.56
80.28
90.22
69.08
50.00
48.48
72.44
71.47
53.73
83.60
0.00
0.00
51.81
55.51
0.00
93.60
29.41
81.82
42.00
85.53
85.71
89.06
61.03
65.79
81.75
MB2
prec
55.00
73.55
86.46
61.05
66.67
61.19
69.81
54.31
60.00
73.33
0.00
0.00
55.13
54.28
0.00
91.58
31.75
75.00
48.84
82.28
88.24
55.34
85.59
74.63
84.19
F1
53.22
76.76
88.29
64.81
57.14
54.09
71.10
61.71
56.69
78.12
0.00
0.00
53.41
54.88
0.00
92.57
30.53
78.26
45.16
83.87
86.95
68.26
71.25
69.93
82.95
Table 3: Precision, recall and F1 of MP, MB1 and MB2 per dependency relation.
3.4
Results of the individual
parsers
Marsi, 2006). The MP performs significantly
better than MB1 and MB2, whereas MB1
and MB2 perform similarly in spite of the fact
that their approach to memory-based learning is different: MB1 applies constraint satisfaction, and MB2 is based on only one classifier and heuristics that rely on the distance
of the predicted class to the nearest neighbor
and on the class distribution.
Table 3 shows precision, recall, and F1 of
each of the single parsers per syntactic function. The n.train column contains the number of instances that have a certain dependency relation in the train corpus. The MP
has the best F1 for 19 of the 25 dependency
relations. This fact indicates that it is difficult to improve over the MP results with the
ensemble system. MB1 has the best F1 for
dependency relation ET and NEG, and MB2
for AP and IMPERS.
LAS
UAS
LAc
MP
80.45 %
87.42 %
85.12 %
MB1
75.74 %
82.44 %
81.95 %
4
Ensemble dependency parser
The ensemble system operates in two stages.
In the first stage, each of the three parsers
analyzes an input sentence and produces a
dependency graph. The results of the individual parsers were presented in Table 4 in
the previous section. In the second stage,
a voting system distills a final dependency
graph out of the three first-stage dependency
graphs. Voting techniques have been previously applied to dependency parsing (Sagae
and Lavie, 2006; Zeman and Žabokrtský,
2005).
We provide results of three different voting
systems, that take into account agreement
among classifiers and/or the normalized F1
value of each classifier for each dependency
MB2
75.44 %
82.75 %
81.35 %
Table 4: Results of the individual parsers.
The global results of the three parsers are
shown in Table 4 in terms of Labeled Attachment Score (LAS), Unlabeled Attachment
Score (UAS), and Label Accuracy (LAc) according to the evaluation metrics used in
the CoNLL Shared Task 2006 (Buchholz and
63
Roser Morante
relation:
LAS
UAS
LAc
• VS1: the system votes for the solution
of the single classifier that has the higher
F1 for the dependency relation that the
single classifier predicts.
LAS
UAS
LAc
• VS3: the system votes for the solution
of the MP, unless MB1 and MB2 agree
or the three parsers disagree. In the first
case, the MB1 and MB2 solution is chosen, and in the second, the system votes
for the solution of the single classifier
that has the higher F1 for the syntactic function that the single classifier predicts.
LAS
UAS
LAc
VS3 vs MP
+0.64
+0.26
+0.66
VS3
79.71%
86.07%
85.92%
VS3 vs MP
-0.74
-1.35
+0.80
Table 8: LAS, UAS, and LAc of VS4.
VS1 is the system that improves the least
because the MP has the better F1 scores for
19 of the 25 dependency relations. That VS2
and VS3 do no improve significantly might
be due to the fact that some agreement cases
between MB1 and MB2 can be errors.
VS3 is the voting system that performs
better: by voting for the agreement between
MB1 and MB2, or for the system with higher
F1 in case of complete disagreement, more
errors are eliminated than errors are introduced. For further research it would be interesting to analyze if it is possible to eliminate more errors by introducing specific voting strategies per dependency relation.
Table 9 shows that precision and recall in
VS3 increase for some dependency relations
(AP, ATR, CD, NEG, PASS, PER, SUJ), as
compared to precision and recall per dependency relation of the MaltParser, although
they also decrease for other (AUX, CC, ET).
As Sagae and Lavie (2006) point out “This
very simple scheme guarantees that the final
set of dependencies will have as many votes
as possible, but it does not guarantee that
the final voted set of dependencies will be a
well–formed dependency tree”. We are aware
of this limitation. Future research will focus
on converting the resulting graph into a wellformed tree.
Results
The results of the different versions of the ensemble system are presented in Tables 5, 6,
7, and 8, as well as the improvement over
the MP. Results show that combined systems VS1, VS2 and VS3 perform better than
the best parser, although the difference is insignificant, since it reduces the error of MP in
less than 5% (4.44%). Combined system VS4
improves only in accuracy over the results of
the best system.
LAS
UAS
LAc
VS3
81.09%
87.68%
85.78%
Table 7: LAS, UAS, and LAc of VS3.
• VS4: the system votes for system VS1
unless two single systems agree. In this
case, the system votes for the solution
agreed by them.
VS1
80.53%
87.43%
85.22%
VS2 vs MP
+0.59
+0.26
+0.59
Table 6: LAS, UAS, and LAc of VS2.
• VS2: the system votes for the solution
of the MP, unless MB1 and MB2 agree,
in which case the MB1 and MB2 solution
is chosen.
5
VS2
81.04%
87.68%
85.71%
6
VS1 vs MP
+0.08
+0.01
+0.10
Related work
The related work we are aware of deals
with languages other than Spanish. Zeman
and Žabokrtský (2005) tested several approaches for combining dependency parsers
for Czech. They found that the best method
was accuracy-aware voting, which reduced
the error of the best parser in 13%. Differences between their approach an ours are that
Table 5: LAS, UAS, and LAc of VS1.
64
Experiments with an ensemble of Spanish dependency parsers
AP
ATR
AUX
CA
CAG
CC
CD
CDO
CI
CN
CPRED.CD
CPRED.SUJ
CREG
CTE
ENUM
ESP
ET
IMPERS
MOD
NEG
PASS
PER
ROOT
SUJ
-
MP
rec
45.31
79.58
95.65
72.37
50.00
71.67
78.89
70.86
56.72
82.49
33.33
57.14
57.83
61.22
0.00
94.59
41.18
81.82
42.00
84.21
85.71
73.44
91.54
75.75
82.70
prec
54.72
84.96
93.62
72.37
66.67
63.15
71.43
66.38
79.17
80.10
75.00
72.73
67.61
62.65
0.00
92.89
54.90
69.23
72.41
88.89
90.91
75.81
71.46
80.12
90.64
VS3
rec
+7.81
+4.93
-1.08
+0.66
0.00
-5.76
+0.84
+3.68
+2.98
+1.71
-11.11
-3.57
-2.41
0.00
0.00
+0.99
-2.94
0.00
0.00
+2.63
+5.72
+6.25
-1.21
+2.82
+0.69
7
prec
+1.60
+2.20
-0.07
-4.69
0.00
-1.97
+3.99
-1.23
-2.25
-2.03
+0.25
+6.22
+1.05
-0.96
0.00
+0.06
-3.92
+12.59
+2.59
+2.78
+0.52
+0.31
+6.81
+2.65
+0.33
Conclusions and future
research
In this paper we presented an ensemble system for dependency parsing of Spanish that
combines three machine-learning-based dependency parsers. As far as we know, this
is the first attempt to combine dependency
parsers for Spanish.
The results of the ensemble of parsers are
only slightly better than the results of the
best parser; the error reduction of the label
accuracy score reaches 4.44%. This is due
to the fact that there are only three parsers,
one of which performs clearly better than the
other two, which perform very similarly. The
best results were obtained by the voting system that gives priority to the decisions of
the best parser, unless the other two parsers
agree, in which case their solution is chosen,
or the three parsers disagree, in which case
the system votes for the solution of the single classifier that has the higher F1 for the
dependency relation that the single classifier
predicts.
We consider the results to be promising
enough to continue our research. In the future we will integrate more parsers in the ensemble and we will explore additional combination techniques, like metalearning, and
additional voting strategies that allow us to
build well-constructed trees.
Table 9: Recall and precision of VS3 compared to precision and recall of MP per dependency relation.
they experiment with seven parsers, they perform stacking, and they check that the resulting structure is a well-formed tree.
Acknowledgements
Sagae and Lavie (2006) experiment with
six parsers on the Wall Street Journal corpus.
They apply a two stage procedure of reparsing focusing on unlabeled dependencies. In
the first stage, m different parsers analyze an
input sentence. In the second stage, a parsing
algorithm is applied taking into account the
analyses produced by each parser in the first
stage. They reparse the sentence based on
the output of m parsers in order to maximize
the number of votes for a well-formed dependency structure. Their experiments increase
the accuracy of the best parser in 1.7%.
We would like to thank Sander Canisius and
Joakim Nivre for making their parsers available and for being very helpful. Thanks also
to the three anonymous reviewers for their
valuable comments.
References
Buchholz, S. and E. Marsi. 2006. CoNLLX shared task on multilingual dependency
parsing. In Proceedings of the X CoNLL
Shared Task. SIGNLL.
Canisius, S. and E. Tjong Kim Sang. 2007.
A constraint satisfaction approach to dependency parsing. In Proceedings of the
CoNLL Shared Task Session of EMNLPCoNLL 2007, pages 1124–1128.
Nivre et al. (2007) combined the outputs
of the parsers participating in the CoNLL
Shared Task 2007 on dependency parsing using the method of Sagae and Lavie (2006).
They show that accuracy never falls below
the performance of the top three systems, although it degrades after ten different parsers
have been added.
Chang, C.C. and C.J. Lin. 2005. LIBSVM:
A library for support vector machines.
URL:http://www.csie.ntu.edu.tw/
∼cjlin/papers/libsvm.pdf.
65
Roser Morante
Civit, M. 2002. Guı́a para la anotación morfológica del corpus CLiC-TALP (versión
3). X-TRACT-II WP-00-06, CliC–UB.
Nivre, J., J. Hall, J. Nilsson, G. Eryigit,
and S. Marinov. 2006. Labeled pseudo–
projective dependency parsing with support vector machines. In Proceedings of
the Tenth Conference on Computational
Natural Language Learning, CoNLL-X,
New York City, NY, June.
Civit, M.
2003.
Guı́a para la anotación sintáctica de Cast3LB: un corpus del español con anotación sintáctica,
semántica y pragmática. X-TRACT-II
WP-03-06 y 3LB-WP-02-01, CliC–UB.
Sagae, K. and A. Lavie. 2006. Parser combination by reparsing. In Proceedings of
the Human Language Technology Conference on the North American Chapter of
the ACL, pages 129–132, New York. ACL.
Civit, M., M.A. Martı́, and N. Bufı́, 2006.
Advances in Natural Language Processing (LNAI, 4139), chapter Cat3LB and
Cast3LB: from Constituents to dependencies, pages 141–153. Springer Verlag,
Berlin.
Zeman, D. and Z. Žabokrtský. 2005. Improving parsing accuracy by combining diverse dependency parsers. In Proceedings
of the International Workshop on Parsing
Technologies, Vancouver, Canada.
Cover, T. M. and P. E. Hart. 1967. Nearest neighbor pattern classification. Institute of Electrical and Electronics Engineers Transactions on Information Theory, 13:21–27.
Daelemans, W., J. Zavrel, K. van der Sloot,
and A. van den Bosch. 2007. TiMBL:
Tilburg memory based learner, version 6,
reference guide. Technical Report Series
ILK 07-03, Tilburg University, Tilburg,
The Netherlands.
Henderson, J. and E. Brill. 1999. Exploiting diversity in natural language processing: combining parsers. In Proceedings
of the Fourth Conference on Empirical
Methods in Natural Language Processing
(EMNLP), College Park, Maryland.
Morante, R. 2006. Semantic role annotation in the Cast3LB-CoNNL-SemRol corpus. Induction of Linguistic Knowledge
Research Group Technical Report ILK 0603, Tilburg University, Tilburg.
Navarro, B., M. Civit, M.A. Martı́, R. Marcos, and B. Fernández. 2003. Syntactic, semantic and pragmatic annotation
in cast3lb. In Proceedigns of the Shallow
Processing of Large Corpora (SProLaC)
Workshop of Corpus Linguistics 2003,
Lancaster,UK.
Nivre, J. 2006. Inductive Dependency Parsing. Springer.
Nivre, J., J. Hall, S. Kübler, R. McDonald, J. Nilsson, S. Riedel, and D. Yuret.
2007. The CoNLL-2007 shared task on
dependency parsing. In Proceedings of the
CoNLL Shared Task Session of EMNLPCoNLL 2007, pages 915–932, Prague.
66
Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 67-74
recibido 14-02-08, aceptado 03-03-08
Predicción estadística de las discontinuidades espectrales del
habla para síntesis concatenativa
Statistical prediction of spectral discontinuities of speech
in concatenative synthesis
Manuel Pablo Triviño y Francesc Alías
GTAM – Grup de Recerca en Tecnologies Audiovisuals i Multimèdia
Enginyeria i Arquitectura La Salle. Universitat Ramon Llull
Quatre Camins, 2. 08022 Barcelona, España
{st08726, falias}@salle.url.edu
Resumen: La estimación de discontinuidades espectrales es uno de los mayores
problemas en el ámbito de la síntesis concatenativa del habla. Este artículo presenta una
metodología basada en el estudio del comportamiento estadístico de medidas objetivas
sobre uniones naturales. El objetivo es definir un proceso automático para seleccionar qué
medidas emplear como coste de unión para sintetizar un habla lo más natural posible. El
artículo presenta los resultados objetivos y subjetivos que permiten validar la propuesta.
Palabras clave: Medida objetiva, discontinuidad espectral, tipificación, correlación
Abstract: The estimation of spectral discontinuities is one of the most common
problems in speech concatenative synthesis. This paper introduces a methodology based
on analyzing the statistical behaviour of objective measures for natural concatenations.
The main goal is defining an automatic process capable of including the most appropriate
measures as concatenation cost to generate high quality synthetic speech. This paper
describes both the objective and subjective results for validating the proposal.
Keywords: Objective measure, spectral discontinuity, standardization, correlation.
1
Introducción
Este trabajo se ubica en el ámbito de la
generación de habla sintética a partir de texto o
conversión de texto en habla (CTH). Existen
distintas técnicas para obtener voz a partir de un
texto cualquiera. Una de ellas es la síntesis por
concatenación de unidades, en la que el habla
sintetizada se genera uniendo segmentos de voz
previamente grabados en un corpus. Uno de los
problemas inherentes de este tipo de síntesis
concatenativa es la aparición de discontinuidades audibles que se producen al unir las
unidades acústicas (fonemas, difonemas, etc.).
En este contexto, la CTH basada en
selección de unidades trabaja con corpus de voz
de dimensión considerable (mayor a 1 hora de
voz) (Hunt, 1996). Como su nombre indica,
esta técnica se basa en seleccionar los
segmentos del corpus que permitan generar un
habla sintetizada lo más natural posible. El
proceso de selección considera la bondad de la
unión de las unidades a seleccionar para
ISSN 1135-5948
minimizar la presencia de discontinuidades en
el habla sintética mediante criterios de coste
basados en medidas objetivas (Hunt, 1996). La
bondad de estas medidas vendrá determinada
por su capacidad para detectar discontinuidades
espectrales perceptibles.
Hasta el momento, la dificultad que conlleva
mapear esta subjetividad provoca que todavía
no se haya definido una medida objetiva única
capaz de estimar el grado audible de una
discontinuidad producida al concatenar dos
unidades acústicas cualesquiera. Por ello, en la
literatura sobre el tema se pueden encontrar
diversos estudios que presentan resultados
divergentes. En (Wouters, 1998) se concluye
que la mejor distancia es la Euclídea aplicada
sobre coeficientes MFCC (o incorporando sus
derivadas). Sin embargo, en (Klabbers, 2001)
se argumenta que la mejor predicción se
consigue con la combinación de la distancia de
Kullback-Leibler y los coeficientes LPC,
mientras que en (Stylianou, 2001) se apuesta
por la misma distancia pero con coeficientes
FFT. Por su parte, en (Donovan, 2001) se
© Sociedad Española para el Procesamiento del Lenguaje Natural
Manuel Pablo Triviño, Francesc Alías
define una medida basada en la distancia de
Mahalanobis que mejora los resultados
obtenidos en la literatura hasta el momento.
Posteriormente, en (Vepa, 2006) el mejor
resultado se obtiene para un coste basado en
coeficientes LSF (Line Spectral Frequencies),
propuesta que se completa con un método de
interpolación lineal de concatenación de
unidades usando también LSFs.
Desde otro punto de vista, se pueden
encontrar trabajos que, además de estudiar las
medidas objetivas, incorporan métodos de
clasificación o regresión de las unidades
acústicas. En (Syrdal, 2005) se aplica regresión
lineal y CART (Classification and Regression
Trees) a partir del etiquetado fonético y
espectral del corpus. Se concluye que la
agrupación por variables fonéticas permite una
mejor predicción de las discontinuidades.
Ante la dificultad de detectar las
discontinuidades a través de medidas objetivas
de forma fidedigna, últimamente han aparecido
nuevas propuestas con un enfoque distinto: el
empleo de modelos harmónicos y componentes
AM-FM (Pantzanis, 2005), el estudio de la
influencia del tamaño de ventana y las
discontinuidades de fase (Kirpatrick, 2006) o el
análisis de la influencia de la variación de las
características espectrales de los formantes
(Klabbers, 2007).
2
análisis estadístico y la tipificación (también
conocida como z-score) del comportamiento de
las medidas objetivas.
Metodología
Listado
MRT (Test
de Rimas
Modificado)
Clúster
Fonético
Clúster
Espectral
Cálculo
distancias
Análisis
Estadístico
Tipificación
Selección
distancias
Definición
de pruebas
Pruebas
Subjetivas
Evaluación
Método
Figura 1: Esquema del proceso seguido en el
estudio de las medidas objetivas de estimación de
discontinuidades.
Una vez seleccionadas las medidas que
presentan un comportamiento más homogéneo,
estadísticamente hablando, se procederá a
evaluar la hipótesis de partida realizando una
serie de pruebas subjetivas sobre un conjunto
reducido de monosílabos tipo CVC, donde C
indica consonante y V vocal obtenidos de un
test de rimas (Stylianou, 2001;Syrdal, 2005). El
objetivo es determinar qué distancias objetivas
presenta una mayor correlación con los usuarios
al estimar la naturalidad de las uniones CVC.
Las distancias consideradas en el estudio
son: i) Itakura-Saito, con coeficientes FFT y ii)
Euclídea, Mahalanobis y Donovan, con
coeficientes LPC, LSF, información de los tres
primeros formantes (frecuencia, ancho de banda
y energía) denotada como C3F, MFCC y
MFCC con coeficientes delta (MFCC D) y
energía (MFCC E) o con ambos (MFCC DE).
Este conjunto de parejas distancia-coeficiente
cubre la mayoría de los casos presentados en la
literatura clásica sobre el tema. Asimismo, el
estudio considera las características fonéticas y
espectrales del corpus empleado.
Enfoque del problema
A partir del análisis de los trabajos anteriormente citados, se observa que todavía no se ha
conseguido definir una medida que destaque
sobre las demás y parece que se empieza a
trabajar en otras direcciones de investigación.
En este contexto, este trabajo pretende presentar
una nueva metodología para seleccionar qué
combinación
medida-parámetro
permite
detectar mejor las discontinuidades espectrales.
Esta metodología parte de la hipótesis que las
distancias con comportamiento más homogéneo
(i.e. con media más cercana a 0 y desviación
estándar menor) obtenidas al evaluar uniones
naturales serán las más eficientes a la hora de
detectar discontinuidades.
Esta metodología sigue distintas fases (véase
la Figura 1). Primero se realiza un análisis del
corpus de voz utilizado basado en: agrupación
(clustering) fonética y espectral (para calcular
la media y la desviación de los parámetros),
cálculo de las medidas en estudio empleando la
información extraída de la agrupación y el
3
Agrupación del corpus
Dada la dificultad de definir una única distancia
como coste de unión para todos los contextos
fonéticos en los que se puede encontrar una
68
Predicción estadística de las discontinuidades espectrales del habla para síntesis concatenativa
unidad acústica, generalmente se opta por
organizarlos mediante agrupación fonética y/o
espectral (Donovan, 2001; Syrdal, 2005).
En este trabajo se ha utilizado un corpus
neutro de voz femenina en catalán, cedido por
la UPC, con una duración de 1,5 h. Nótese que
la voz femenina permite una tasa de detección
de discontinuidades audibles mayor que la voz
masculina (Syrdal, 2001). A continuación, se
presentan los resultados obtenidos del proceso
de agrupación sobre el corpus en estudio.
3.1
Número de estímulos CVC
12000
9701
8000
6000
3295
2748
1321
2000
809
0,44
/a/
0,13
0,11
/e/
0,06
0,07
/E/
0,04
0,03
0,17
/i/
0,15
/o/
0,02
0,05
/O/
0,03
0,03
/u/
0,12
0,12
Por otro lado, trabajos previos concluyen
que la aparición de discontinuidades espectrales
en las vocales depende de su contexto fonético
previo y posterior (Syrdal, 2001). Por ello, los
estímulos se agrupan considerando el modo de
articulación de su contexto consonántico
(Syrdal, 2005), así como su sonoridad, ya que la
detección de discontinuidades es más elevada
en contextos consonánticos sonoros (Syrdal,
2001). Esto es debido a que las consonantes
sonoras tienen una fuerte influencia en términos
de coarticulación sobre la vocal que las precede.
Por lo tanto, se establecen 8 categorías de
CVC según la consonante prevocálica (no se
incluye el contexto fonético silencio) y 9 según
la postvocálica. Los contextos fonéticos en
estudio son: aproximante, fricativa sonora y
sorda, lateral, nasal, oclusiva sonora y sorda,
vibrante y silencio (sólo para postvocálico). La
Figura 3 muestra su distribución en el corpus.
Según (Syrdal, 2005), el efecto del contexto
fonético tiene más influencia a la hora de
detectar discontinuidades que la información
espectral, por lo que en este trabajo se organiza
el análisis de las discontinuidades acústicas
según su contexto fonético.
Como primer paso, se agrupan los fonemas
del corpus en estructuras CVC según su fonema
vocálico, sobre un total de 21654 estímulos.
Como se muestra en la Figura 2, el conjunto
mayoritario es el que contiene como núcleo
vocálico la vocal /@/ 1, que está presente en casi
la mitad de los estímulos CVC del corpus.
4000
Rafel
0,45
Tabla 1: Frecuencia de los fonemas vocálicos en
los estímulos CVCs respecto a (Rafel, 1979).
Clúster fonético
10000
CVCs
/@/
2669
382
729
/o/
/O/
7000
Contextos Fonéticos Prevocálicos
6000
0
/a/
/e/
/E/
/i/
Número de Estímulos CVC
Contex tos Fonétic os Pos tv oc álic os
/@/
/u/
Fonemas vocálicos
Figura 2: Histograma de la distribución de los
estímulos CVC por fonema vocálico.
5000
4000
3000
2000
1000
Sil
en
cio
Vib
ra
nt
e
So
rd
a
So
no
ra
O
clu
siv
a
Na
sa
l
O
clu
siv
a
La
te
ra
l
So
no
ra
Fr
ica
tiv
a
Fr
ica
tiv
a
Ap
ro
xim
an
te
So
rd
a
0
Al diseñar un corpus de propósito general,
generalmente, se tienen en cuenta las
características estadísticas de la lengua que trata
(i.e. frecuencia de los fonemas), por lo que el
corpus suele presentar una buena correlación
con la distribución estadística de los fonemas
del idioma de trabajo. En este caso, la
correlación entre la frecuencia de los fonemas
vocálicos en los CVCs extraídos del corpus
respeto a la de la lengua catalana de (Rafel,
1979) se obtiene una correlación de =0.99
(véase la Tabla 1).
Conte x tos Foné ticos Consoná nticos
Figura 3: Histograma de la distribución de los
estímulos
CVC
para
contextos
fonéticos
prevocálicos y postvocálicos.
Si se calcula la correlación entre los
porcentajes de fonemas consonánticos en los
CVCs en estudio respecto a los indicados en
(Rafel, 1979), se obtiene una correlación de
=0.9 (véase la Tabla 2).
Por lo tanto, de los resultados de correlación
obtenidos, se puede concluir que los estímulos
considerados son representativos del idioma de
1
En este artículo ese emplea notación SAMPA.
Véase www.phon.ucl.ac.uk/home/sampa/home.htm
69
Manuel Pablo Triviño, Francesc Alías
trabajo (i.e. el estudio utiliza información
fonéticamente balanceada).
CVCs
Rafel
Aproximante
0,14
0,10
Fricativa
0,21
0,20
Lateral
0,11
0,12
Nasal
0,20
0,19
Oclusiva
0,27
0,37
Vibrante
0,07
0,11
tiene un comportamiento más estable, independientemente del coeficiente empleado, y suele
presentar una media cercana a cero (1).
Tabla 2: Frecuencia de los fonemas
consonánticos en los CVCs y en (Rafel, 1979).
4 Análisis de las distribuciones de las
medidas objetivas sobre uniones naturales
Cuando se calcula la distancia espectral entre
dos difonemas CV-VC procedentes del habla
natural, teóricamente su valor debería de ser
nulo (o muy cercano a cero). Sin embargo, no
todas las combinaciones distancia-parámetro
presentan este comportamiento.
Con el objetivo de determinar qué medidas
objetivas presentan una distribución de valores
con media más cercana a cero y menor
desviación típica, se estudia la forma de las
distribuciones de las medidas objetivas en
estudio sobre uniones naturales. Este trabajo
parte de la hipótesis que cuanto menos oscile el
valor de las distancias respecto a la media en las
uniones naturales (idealmente una delta de
Dirac), la probabilidad de que la medida
objetiva sea un buen detector de discontinuidad
aumenta. Del resultado de este análisis se
escogerán las combinaciones distanciaparámetro que presenten un comportamiento
más cercano al deseado para ser usadas en los
experimentos subjetivos.
4.1
Figura 4: Distribución de la media de las
medidas Euclídea-LSF e Itakura Saito sobre los
estímulos /C@C/.
4.2
Desviación de las distribuciones
Además de considerar la media de la
distribución, se estudia también su desviación
(que también debe tender a 0). El problema
surge al intentar comparar las distribuciones, ya
que éstas presentan distribuciones muy distintas
entre sí, según la medida objetiva considerada,
para todos los contextos fonéticos analizados.
Por lo tanto, resulta necesario homogeneizar
las distribuciones para compararlas correctamente. En este trabajo, se ha optado por aplicar
el teorema del límite central (TLC) sobre las
distribuciones de partida, para obtener una
distribución muestral del valor de la media de la
distribución original. Las variables empleadas
en el TLC son: 1000 ciclos, que nos garantiza
poder calcular con fiabilidad el tercer y cuarto
momentos, y 40 muestras/ciclo, para todos los
contextos fonéticos (valor único para
uniformizar la disparidad de tamaños existente).
Dado que no se consigue el número mínimo
de muestras para todos los contextos en todos
los fonemas vocálicos en estudio, se decidió
agrupar los datos de las vocales /e/+/E/ y
/o/+/O/, dada su similitud espectral –al igual
que en (Syrdal, 2005), donde no se tiene en
cuenta la influencia de la apertura de las vocales
en el estudio de las discontinuidades.
La figura 6 presenta la media y la
desviación de la simetría o skewness (S) y la
kurtosis (K) de las distribuciones resultantes
después de aplicar el TLC. Se puede observar
como aparecen dos tipologías distintas de
distribuciones. Por un lado, las distribuciones
de las vocales /@/ e /i/ tienen forma
Media de las distribuciones
Como primera parte del estudio, se analiza la
media de las distribuciones de las medidas
objetivas consideradas. Este estudio se ha
centrado en los estímulos CVC con vocal /@/,
ya que éste es el grupo más numeroso en el
corpus, por tanto, de mayor robustez estadística.
En términos de combinación distanciacoeficiente, se observa que la distancia que
presenta una media menor es la Euclídea
aplicada sobre parámetros LSF (véase la Figura
4). En el otro extremo se encuentra la distancia
de Itakura, que es la que presenta la media más
alta del conjunto de medidas objetivas
estudiado. La distancia de Donovan es la que
70
Predicción estadística de las discontinuidades espectrales del habla para síntesis concatenativa
leptocúrtica (K>3) y una media estirada hacia la
izquierda (S1). Por otro lado, se encuentra el
resto de vocales, con valores de K y S cercanos
a los típicos de las distribuciones gaussianas,
cuestión corroborada, mediante la aplicación
test de Kolmogorov-Smirnov, con p<0.05.
Número de contextos con mejor
tipificación
como la distancia de Donovan es la que
presenta el mejor comportamiento global y que
los parámetros LPC, C3F y MFCC (con sus
variantes) son los más representados.
7
Valor del estimador
6
5
Media Curtosis
4
Desviación Curtosis
3
Media Skewness
Desviación Skewness
2
1
MFCC DE
200
MFCC E
MFCC D
150
MFCC
C3F
100
LSF
LPC
50
FFT
0
Itakura
0
/@/
/a/
/e/+/E/
/i/
/o/+/O/
Euclídea
Mahalanobis
Donovan
Distancia objetiva
/u/
Contextos fonéticos vocálicos
Figura 7: Número de contextos en los que una
medida objetiva es de las que mejor tipificación
presenta según coeficiente.
Figura 6: Valor medio y desviación de la simetría
y la kurtosis para las distribuciones de las medidas
objetivas según fonema vocálico.
5
250
Si se analizan las combinaciones distanciacoeficiente en estudio, la que mejor tipificación
presenta es la de Itakura-FFT, seguida muy de
cerca por la de Donovan-C3F. Las medidas en
las que se emplea información (media y
varianza de los centroides) procedente del VQ
(i.e. distancias Donovan y Mahalanobis)
provocan una disminución de la eficiencia de
los coeficientes LPC y MFCC D, obteniéndose
mejores tipificaciones con la distancia Euclídea
para estos coeficientes. Respecto a los
coeficientes C3F y MFCC, el comportamiento
en términos de tipificación es el inverso al
anterior. De la figura 7 se puede concluir que el
parámetro LSF no es un buen predictor de la
discontinuidad. Finalmente, comentar que la
inclusión del coeficiente energía junto a los
MFCC tiende a mejorar el valor de tipificación.
Comparativa de las medidas objetivas
Por un lado, dado que las distribuciones
dependen del tipo de coeficiente utilizado,
además de aplicar el TLC, resulta necesario
tipificar las distribuciones para permitir una
comparativa fidedigna de sus desviaciones. Por
otro lado, a partir de los resultados observados
en términos de momentos de orden tercero y
cuarto, resulta necesario definir un único
parámetro para evaluar la homogeneidad de las
distribuciones alrededor de la media. Cabe
comentar que, en una distribución gaussiana, el
68% de los datos se encuentran en el margen
definido por su media ± su desviación estándar,
obteniendo un valor de tipificación de 1.
Tomando este valor como referencia, las
distribuciones leptocúrticas (más apuntadas que
la gaussiana) tomarán un valor de tipificación
<1, por el mayor número de muestras cercanas
a la media. Por ejemplo, el fonema /i/ es el que
presenta el mayor número de distribuciones
leptocúrticas.
Para trabajar con un número razonable de
datos (se parte de 22 medidas distanciaparámetros 17 contextos 6 vocales), sólo se
consideran las 5 mejores combinaciones
distancia-parámetro en términos de su valor de
tipificación (ordenadas de menor a mayor valor
de tipificación) para cada uno de los contextos
fonéticos en estudio.
En la figura 7 se muestra el número de
contextos para los que cada par distanciaparámetro presenta mejor tipificación en forma
de histograma acumulado. Se puede observar
6
Pruebas subjetivas
Una vez analizadas las medidas objetivas
estadísticamente, se procede a estudiar su
correlación con la percepción humana. El
objetivo de los experimentos subjetivos es
contrastar la hipótesis que las distancias con
mejor comportamiento en términos de
tipificación son capaces de predecir (y modelar)
mejor las discontinuidades espectrales.
6.1
Diseño de las pruebas
Siguiendo lo indicado en (Stylianou, 2001;
Syrdal, 2005), el diseño del test perceptual
parte de un listado de monosílabos tipo CVC
procedentes de un Test de Rimas Modificado
(MRT), en este caso adaptado al catalán (Alías,
71
Manuel Pablo Triviño, Francesc Alías
2007). Sin embargo, el diseño de un MRT se
realiza de tal forma que abarque el mayor
número de monosílabos del idioma, provocando
la inclusión de palabras poco habituales en el
caso de idiomas con bajo porcentaje de este tipo
de palabras, como pasa en catalán (Alías, 2007).
Sin embargo, resultó muy complejo
encontrar estímulos CVC del MRT con más de
32 muestras en el corpus, umbral fijado para
dotar de fiabilidad estadística a los resultados.
Por ello, se decidió escoger para las pruebas los
CVC con los contextos fonéticos y los fonemas
vocálicos mejor representados (véanse las
Figuras 2 y 3). Concretamente, los contextos
fonéticos en estudio serán fricativos, nasales y
oclusivos. Para la elección de los fonemas
vocálicos se tuvieron en cuenta dos criterios:
por un lado, el de representación en el corpus, y
por otro, el hecho de que al analizar la kurtosis
y la simetría se observan dos tendencias en las
distribuciones de las medidas objetivas sobre
uniones naturales: las que presentan /@/ e /i/,
con mayor grado de leptocurtismo, y las del
resto de fonemas vocálicos con un comportamiento más gaussiano. Por estas razones, los
fonemas vocálicos escogidos fueron la /@/ y la
/a/. Además, se introdujo el CVC /s@k/ en las
pruebas por razones de limitación de corpus
(aunque no esté presente en el MRT).
Los estímulos empleados en las pruebas no
fueron sintetizados mediante un CTH, sino que
se generaron mediante la sustitución del
difonema -VC de la estructura CVC por otros
difonemas candidatos (emulando el proceso de
selección de unidades), manteniendo fijo el
difonema CV-. El hecho de no pasar por un
proceso de síntesis estrictamente hablando,
evita la interferencia del procesado de la señal
en el proceso de valoración del comportamiento
de las medidas objetivas en estudio.
Los estímulos se presentaron en una frase
portadora en la que se sustituía en 32 ocasiones
el difonema -VC manteniendo fija la parte CV-:
6.2
Diseño del experimento
En las pruebas subjetivas participaron 5
evaluadores (3 hombres y 2 mujeres). Como
fase previa, se presentó a cada evaluador una
serie de estímulos de entrenamiento para que
pudiera familiarizarse con el proceso de
evaluación, como en (Klabbers, 2001),
indicándoles como distinguir la discontinuidad
espectral de otros aspectos producidos al
insertar el difonema -VC candidato. Las
pruebas fueron realizadas usando una interfaz
implementada en Matlab utilizando auriculares.
La calificación de la naturalidad de los
estímulos CVC sigue la escala MOS de 1 (peor)
a 5 (mejor). Los informantes podían escuchar
las uniones las veces que necesitaran, pero una
vez puntuada la unión no podían volver a
evaluarla. Asimismo, tenían la posibilidad de
escuchar el estímulo CVC original, la frase
portadora original, el CVC generado y la frase
portadora que lo incluía. El proceso de pruebas
tuvo una duración media de unos 30 minutos.
6.3
Resultados de las pruebas
La evaluación de la capacidad de mapeo
subjetivo de las medidas objetivas se obtiene a
través de su correlación con la media de las
puntuaciones MOS de los informantes. En una
situación ideal, la mejor medida debería
presentar una correlación =-1, ya que la unión
natural (MOS=5) debería darse para una
distancia mínima (tendiendo a 0).
Tras la realización de las primeras pruebas,
se obtuvieron valores significativos para el
estímulo /tan/ (=-0.43 en el caso de Donovan
MFCCC y Donovan MFCCE) mientras que los
valores de para /s@k/ y /s@s/ fueron
inferiores, con máximos de =-0.07 y =-0.14,
respectivamente. Nótese que, aunque parezca
un valor de correlación bajo matemáticamente
hablando, el valor obtenido para /tan/ es
cercano al obtenido en experimentos similares
recientes (Klabbers, 2007). Aplicando t-student
se obtienen valores de confianza del 98% sobre
los valores de correlación obtenidos.
Dado que los mejores resultados se
obtuvieron para el último estímulo evaluado
(/tan/), se decidió estudiar los 2 primeros
estímulos de nuevo, partiendo de la hipótesis
que a mayor experiencia (con 96 uniones
evaluadas) en la realización de las pruebas se
consiguen mejores valores de correlación. Tras
esta segunda iteración el valor de correlación
- Si algú es pensa que la comissió - /s@k/
(Si alguien se piensa que la comisión)
- Economia i finances - /s@s/
(Economía y finanzas)
- Mentrestant els nous habitants - /tan/
(Mientras los nuevos habitantes)
donde el estímulo CVC a evaluar está
marcado en negrita.
72
Predicción estadística de las discontinuidades espectrales del habla para síntesis concatenativa
mejoró notablemente, con un valor máximo de
=-0.35 para Mahalanobis-LSF (con fiabilidad
del 95% según t-student) para el estímulo
/s@k/. El comportamiento más uniforme se
obtiene para los coeficientes MFCC y deltas
con valores entorno al -0.3 (véase la Figura 8).
Una vez comprobado que se obtienen
valores de correlación perceptual significativos,
se procede a evaluar la viabilidad de la
metodología propuesta. Para ello se ordenan las
distancias según la tipificación para cada
contexto fonético dándole a la medida con
mejor tipificación el valor de 22 (igual al
número de distancias) y a la peor el valor de 1.
0,5
0,4
LPC
0,2
0,1
LSF
0,3
C3F
0,2
MFCC
0,1
0
MFCCE
-0,1
MFCCD
-0,2
Distancia Objetiva
Correlación
0,3
MFCCDE
Euclídea
Mahalanobis
Donovan
Itakura
FFT
-0,3
-0,4
LPC
LSF
0,0
C3F
-0,1
MFCC
-0,2
Euclídea
Mahalanobis
Donovan
Itakura
-0,3
MFCCD
-0,4
MFCCDE
-0,5
Distancias objetivas
MFCCE
FFT
-0,6
Figura 8: Correlación perceptual para el estímulo
/s@k/.
-0,7
Correlación
Figura 10: Medidas objetivas con valores de
correlación más altos para el estímulo /tan/.
Sin embargo, la correlación obtenida para el
estímulo /s@s/ continua presentando valores
bajos (véase la Figura 9). Esto puede ser debido
a que, según los evaluadores, ésta fue la prueba
más difícil de evaluar, al encontrarse el CVC a
final de frase. El valor máximo de correlación
obtenido es de =-0.31 para la medida
Donovan-C3F, pero con patrón de correlación
menos estable que en los otros dos estímulos.
La correlación se calculará entre el valor de
correlación
obtenido
en
las
pruebas
preceptúales y el valor medio resultante de la
ordenación por tipificación para los contextos
prevocálicos, postvocálicos y el global de
contextos para cada fonema vocálico.
0
Correlación entre el orden de
tipificación y la correlación
perceptual
-0,1
0,3
-0,2
0,2
LSF
Correlación
0,1
MFCC
-0,1
MFCCE
-0,2
Euclídea
Mahalanobis
Donovan
Itakura
/tan/
-0,5
-0,6
-0,7
MFCCD
MFCCDE
FFT
-0,3
/s@s/
-0,4
C3F
0,0
/s@k/
-0,3
LPC
Todos los contextos
-0,8
Contextos Prevocálicos
-0,9
Contextos Postvocálicos
-1
Estímulo del test
-0,4
Distancia objetiva
Figura 9: Correlación perceptual para el estímulo
/s@s/.
Figura 11: Correlación entre el orden de
tipificación y el valor de la correlación perceptual
para los estímulos del test.
Tras observar que los resultados mejoraban
al incrementar la experiencia de los
informantes, se decidió hacer también una
segunda iteración para /tan/, en la que por
cuestiones de disponibilidad sólo participaron 3
informantes. De nuevo, los resultados
mejoraron notablemente hasta alcanzar una
correlación de =-0.66 para MahalanobisMFCCE, con una fuerza estadística del 99.9%.
Para el resto de parámetros MFCC y derivados
se obtienen valores alrededor de -0.6 (véase la
Figura 10).
La Figura 11 muestra como para el estímulo
/tan/, se obtiene una =-0,69, mientras que para
los otros estímulos se obtiene una <-0,2,
siguiendo de algún modo un patrón similar al
observado en el estudio anterior. Asimismo, se
puede observar como los contextos postvocálicos tienen menor correlación perceptual,
resultado inverso al descrito en (Syrdal, 2001).
A la hora de calcular las distancias de
Mahalanobis y de Donovan para los estímulos
del test sólo se consideró la información
estadística del centroide respecto al difonema
73
Manuel Pablo Triviño, Francesc Alías
CV, como esto puede provocar un sesgo hacia
los contextos prevocálicos, se decidió recalcular
estas distancias considerando la información del
centroide del difonema VC. Este estudio se
centró en el estímulo /tan/ por ser el más
significativo.
10
0/
0
90
/1
0
80
/2
0
70
/3
0
60
/4
0
50
/5
0
40
/5
0
30
/7
0
20
/8
0
10
/9
0
0/
10
0
0
-0,1
Correlación
-0,2
Bibliografía
Alías F. y M. Triviño 2007. A phoneticallly
balanced modified rhyme test for evaluating
Catalan speech intelligibility. En Proc. de
ICPhS, paper 1210.
Donovan R. 2001. A new distance measure for
costing spectral discontinuities in concatenative
speech synthesis. En The 4th ISCA Tutorial and
Research Workshop on Speech Synthesis.
Todos
Contextos
Don y Mah
Contextos
Prevocálicos
Don y Mah
Hunt A. y A. Black 1996. Unit selection in a
concatenative speech synthesis system using
large speech database. En Proc. de ICASSP, pp.
373–376.
Contextos
Postvocálico
s Don y Mah
-0,3
-0,4
Todos los
contextos
-0,5
Contextos
Prevocálicos
-0,6
-0,7
Relación Postvocálica/Prevocálica
Kirkpatrick, B., D. O’Brien y R. Scaife 2006.
Feature extraction for spectral continuity
measures in concatenative speech synthesis, En
Proc. de Interspeech, paper 1385.
Contextos
Postvocálico
s
Figura 12: Variación de la correlación con
distintos porcentajes de información prevocálica y
postvocálica.
Klabbers E., J. van Santen y A. Kain 2007. The
contribution of various sources of spectral
mismatch to audible discontinuities in a diphone
database, En IEEE Transactions on Audio,
Speech, and Language Processing, 15(3), pp.
949-956.
La figura 12 confirma que a mayor
información prevocálica se obtiene una mayor
correlación respecto al orden de tipificación. No
obstante, a nivel de correlación perceptual en
algunos casos se consiguen valores mayores
cuando se incluye mayor información
postvocálica (p.ej. Mahalanobis MFCC DE para
prevocálica obtiene una =-0.56 y para
postvocálica =-0.69).
7
Klabbers E. y R. Veldhuis 2001. Reducing audible
spectral discontinuities. En IEEE Transactions
on Speech and Audio Processing, 9, pp. 39–51.
Pantazis Y., Y. Stylianou, y E. Klabbers 2005.
Discontinuity detection in concatenated speech
synthesis based on nonlinear speech analysis, En
Proc. de Eurospeech, pp. 2817 - 2820.
Rafel, J. 1979. Dades sobre la freqüència de les
unitats fonològiques en català, En Estudis
Universitaris catalans XXIII, vol 2, 473-496.
Conclusiones y líneas de futuro
En el presente trabajo se ha propuesto una
metodología para estimar la capacidad de
predecir la presencia discontinuidades audibles
de una serie de medidas objetivas. Esta
metodología se basa en la hipótesis que las
mejores medidas serán aquellas que presenten
una distribución estadística más homogénea,
i.e. media cero y mínima desviación estándar,
una vez muestreada y tipificada. Esta hipótesis
queda validada por los resultados del análisis de
las distancias sobre uniones CVC naturales
junto a la correlación de las mejores distancias
con el test perceptual realizado sobre uniones
CV-*, también analizado según el contexto pre
y postvocálico. No obstante, resulta necesario
seguir trabajando en más pruebas subjetivas
para verificar los resultados obtenidos.
Stylianou Y. y A. Syrdal 2001. Perceptual and
objective detection of discontinuities in
concatenative speech synthesis. En Proc. de
ICASSP, vol 2, pp. 837-840.
Syrdal A. K. 2001. Phonetic Effects on Listener
Detection of Vowel Concatenation, En Proc. de
Eurospeech, pp. 979-982.
Syrdal A. K. y A Conkie 2005. Perceptually based
data-driven join costs: Comparing join types, En
Proc. de Eurospeech, pp. 2813–2816.
Vepa J. y S. King 2006. Subjective evaluation of
join cost and smoothing methods for unit
selection
speech
synthesis.
En
IEEE
Transactions on Speech and Audio Processing, 5
(14), pp. 1763- 1771.
Wouters J. y M. Macon 1998. Perceptual evaluation
of distance Measures for concatenative speech
synthesis. En Proc. de ICSLP, pp. 2747–2750.
Agradecimientos
Los autores quieren agradecer al Dr.Antonio
Bonafonte de la Universitat Politècnica de
Catalunya la cesión del corpus de voz utilizado.
74
Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 75-82
recibido 01-02-08, aceptado 03-03-08
Identificación de emociones a partir de texto usando
desambiguación semántica
Emotion identification from text using semantic disambiguation
David Garcı́a1 y Francesc Alı́as2
GPMM - Grup de Processament Multimodal
2
GTAM - Grup de Tecnologies Audiovisuals i Multimèdia
Enginyeria i Arquitectura La Salle
Universitat Ramon Llull
Quatre Camins 2, 08022 Barcelona
{dgarcia, falias}@salle.url.edu
1
Resumen: Este artı́culo presenta un sistema de identificación de emociones basado
en texto con una arquitectura independiente del idioma. Éste usa distintas tareas de
procesamiento del lenguaje natural además de un diccionario afectivo. Su principal
novedad es la incorporación de un desambiguador semántico que permite considerar
el significado de la palabra en la frase antes de categorizarla emocionalmente. Los
experimentos muestran la mejora obtenida sobre un corpus de titulares en inglés.
Palabras clave: Etiquetado de emociones en textos, análisis gramatical y semántico
de textos, WordNet, desambiguación semántica
Abstract: This paper presents a text-based emotion identification system based
on text implemented by means of a language-independent architecture. The system
includes several natural language processing tasks besides an affective keyword dictionary. The main novelty of the system is the incorporation of a semantic disambiguation module which focuses on the meaning of the word within the sentence before
labelling it emotionally. The achived results show the this purpose. The conducted
experiments show the achieved improvement on a corpus of English headlines.
Keywords: Labelling of emotions in texts, grammatical and semantic analysis of
texts, WordNet, word sense disambiguation
1.
Introducción
Hoy en dı́a, las tecnologı́as del habla son
un elemento clave para conseguir interfaces
hombre-máquina lo más naturales posible.
En lo que se refiere a su etapa de salida, los
Conversores de Texto en Habla (CTH) han
alcanzado una buena inteligibilidad para sistemas de propósito general y una buena naturalidad para sistemas de dominio restringido. No obstante, todavı́a se continúa trabajando para lograr CTH expresivos, debido a la dificultad que supone, por un lado,
generar el mensaje emocionado, y por otro,
extraer la emoción del texto directamente.
Para esto último, será de gran utilidad aplicar técnicas de Procesamiento del Lenguaje
Natural (PLN) sobre los textos de entrada
más allá del tı́pico análisis de los sistemas de
CTH (normalización, transcripción y estimación prosódica) (Alı́as et al., 2008).
Siguiendo con esta idea, en este trabajo se
presenta un primer sistema que pretende extraer automáticamente la emoción intrı́nseca
ISSN 1135-5948
del texto basándose en la aplicación de técnicas de PLN junto con un diccionario afectivo.
El objetivo es que el sistema de CTH pueda generar el habla sintética con las caracterı́sticas expresivas adecuadas al contenido
emocional del texto. En la sección 2 se presentan trabajos relacionados con el sistema
propuesto, descrito en la sección 3. Seguidamente, en las secciones 4 y 5, se analiza su
funcionamiento y se discuten los resultados
obtenidos. Finalmente, en la sección 6 se exponen las conclusiones y las lı́neas de futuro.
2.
Trabajos relacionados
A continuación se presenta un breve resumen sobre la investigación en el ámbito
de la identificación emocional de textos. Primero, se describen los modelos psicológicos
emocionales que mejor se adaptan al mundo computacional. Seguidamente, se detallan
las técnicas más utilizadas para la detección
automática de emociones a partir de texto.
© Sociedad Española para el Procesamiento del Lenguaje Natural
2.1.
Modelo emocional
David García, Francesc Alías
2.2.2.
A continuación se revisan los modelos
psicológico-computacionales más relevantes
aplicables al ámbito de este trabajo.
El modelo más intuitivo para representar
emociones es el basado en categorı́as emocionales, como son: alegrı́a, tristeza, ira, etc.
(Plutchik y Kellerman, 1980; Ekman, 1993).
Un mejora de éste, es el modelo Circumplex
(Schlosberg, 1952), que utiliza una circunferencia con dos ejes que representan sendas
caracterı́sticas emocionales, dando lugar a diferentes versiones según cuales sean: i) valencia (positivo/negativo) y activación (excitado/tranquilo) (Russell, 1980); o ii) positividad y negatividad (Watson y Tellegen, 1985).
Asimismo, existe un modelo similar al Circumplex llamado dimensiones emocionales
(Schlosberg, 1954), que cuantifica las dimensiones de valencia, activación y control (dominado/dominante) mediante un vector de tres
elementos. Finalmente, y en contraposición a
los modelos anteriores, existe el modelo OCC
(Ortony, Clore, y Collins, 1988), que presenta una jerarquı́a cognitiva de las emociones
evitando el uso de categorı́as y dimensiones.
2.2.
Basados en clasificación de
textos
Una de las técnicas utilizadas con mayor
éxito dentro del ámbito de la clasificación
temática de grandes colecciones de texto es
la basada en Support Vector Machine (SVM)
(Joachims, 1998). En (Leshed y Kaye, 2006)
se presenta un clasificador emocional de blogs
que utiliza SVM.
En (Turney y Littman, 2003) se presenta
un sistema de identificación de la polaridad
del texto basado en Latent Semantic Analysis (LSA). Para saber la polaridad de cada
palabra del texto, se calcula la diferencia entre su similitud con un conjunto de palabras
positivas y otro de palabras negativas.
El problema fundamental de ambas técnicas radica en el elevado volumen de datos
(entrenamiento y test) necesario para asegurar su buen funcionamiento. En el ámbito de
los CTH lo más usual es disponer de textos
de entrada reducidos (i.e. una frase) (Alı́as et
al., 2008). Asimismo, al trabajar con el texto
como si fuera un único elemento, la información semántica que se puede obtener es poco
precisa, no detectando, p.ej. la polisemia o la
ironı́a (Liu, Lieberman, y Selker, 2003).
Detección de emociones
Este apartado resume las técnicas más
usadas para la detección de emociones en textos en función del enfoque que siguen.
2.2.3.
Basadas en diccionario afectivo
Estas técnicas se basan en buscar las palabras afectivas que contiene el texto en un diccionario de vocablos afectivos construido previamente. Destaca Emotional Keyword Spotting (EKS), debido a su sencillez de implementación. La emoción global del texto se
determina a partir de la media de los valores
emocionales de cada una de las palabras clave
detectadas. Un ejemplo de esta técnica se presenta en (Francisco, Hervás, y Gervás, 2005),
donde se aplica a la lectura expresiva de cuentos. Una extensión de EKS es la denominada
afinidad léxica, que exporta la emoción de las
palabras clave a sus palabras cercanas (Liu,
Lieberman, y Selker, 2003). Ambas son incapaces de detectar cambios de polaridad de la
emoción debido a elementos del texto, p.ej.
negaciones (Francisco y Gervás, 2006).
2.2.1.
Basados en recuperación de
información
Una primera técnica es hacer un análisis
PMI-IR (Pointwise-Mutual Information and
Information Retrieval) basado en dos iteraciones (Read, 2004). Una primera, usada inicialmente por Turney (2002) y denominada SO-PMI-IR (Semantic Orientation using
PMI-IR), que indica la polaridad del texto,
es decir, si es positivo o negativo. Y una segunda, conocida como AO-PMI-IR (Affective
Orientation using PMI-IR), que extrae la dimensión afectiva predominante del texto.
Otro método es el etiquetado semántico +
minerı́a web (Lu, Hong, y Cruz-Lara, 2005),
que reduce el texto a dos adjetivos que representan al núcleo del sujeto y del predicado, gracias a un análisis morfosintáctico y
semántico. A continuación se buscan los hiperónimos de ambos adjetivos con una tabla
de conversión. Por último, usando un conjunto de reglas cuyo patrón es verbo-hiperónimos, se determina la emoción del texto.
Estas técnicas han sido aplicadas en el
ámbito de los CTH, especialmente EKS (Sugimoto et al., 2004; Hofer, Richmond, y
Clark, 2005), debido principalmente a su bajo coste computacional, esencial para lograr
sı́ntesis en tiempo real.
76
Identificación de emociones a partir de texto usando desambiguación semántica
Figura 1: Diagrama de bloques del sistema
En cuanto al modelo emocional, el sistema
utiliza el basado en dimensiones emocionales
debido: i) al uso de los diccionarios afectivos
basados en este modelo —ANEW (Affective
Norms for English Words) (Bradley y Lang,
1999) y ANSW (Affective Norms for Spanish
Words) (Redondo et al., 2007)—; y ii) a su
futura integración dentro de un CTH expresivo, donde trabajar con datos continuos permite generar voz sintética con mayor variedad emocional (Hofer, Richmond, y Clark,
2005; Schröder, 2004).
A continuación, se describe cada uno de
los módulos del sistema.
2.2.4. Otros
Caso aparte es el trabajo de Liu, Lieberman, y Selker (2003), que extraen conceptos de una voluminosa base de conocimiento del sentido común. La ventaja que aporta
este sistema es la capacidad de detectar emociones en frases donde a priori no hay una
emoción definida explı́citamente. Se trata de
una técnica compleja debido al tratamiento
semántico que se debe hacer de los elementos
de la base de conocimiento.
Asimismo, Ovesdotter, Roth, y Sproat
(2005) presentan un sistema complejo que incorpora técnicas de inteligencia artificial para
predecir la emoción del texto en el ámbito de
la lectura de cuentos. Éste utiliza, además de
palabras afectivas, parámetros del texto como la temática, la longitud de las frases, etc.
3.
3.1.
Analizador lexicográfico y
PoS tagger
El primer paso consiste en analizar el texto de entrada mediante un conjunto de expresiones regulares (tokens) que determinan
la gramática del idioma de análisis. Como resultado, se obtiene la categorización gramatical básica de las palabras del texto, permitiendo filtrar aquellas sin significado afectivo potencial (stop words), como por ejemplo
los artı́culos. Después, se procede a desambiguar las palabras restantes, que comparten
la misma expresión regular, para determinar
su función gramatical (sustantivos, adjetivos
y verbos). Para ello se utiliza el PoS tagger
proporcionado por la Universidad de Stanford (Toutanova y Manning, 2000) para el
inglés, y Qtag2 para el español, debido a la
implementación en Java de todo el sistema.
Sistema propuesto
El sistema que presentamos utiliza EKS y
sigue una arquitectura base afı́n a la de Francisco, Hervás, y Gervás (2005), incorporándole un módulo de desambiguación semántica
que permite extender dinámicamente el conjunto de palabras del texto a buscar en el
diccionario afectivo (véase la figura 1).
A partir de un texto de entrada, el sistema
obtiene como salida el texto etiquetado emocionalmente mediante marcas XML. Hasta el
momento, el sistema se ha diseñado para detectar las siguientes emociones: alegrı́a, sorpresa, tristeza, enfado y miedo, ası́ como el
estado neutro (sin emoción). Asimismo, la arquitectura es independiente del idioma, presentando en este trabajo su aplicación para
el inglés, junto a las primeras adaptaciones
para el español (con menores prestaciones1 ).
3.2.
Desambiguador semántico
Cuando ya se tienen las palabras potencialmente emocionales, junto a sus correspondientes etiquetas gramaticales, se procede a
1
Esta menor prestación es debido a la imposibilidad de disponer de WordNet 2.0 en español.
2
77
www.english.bham.ac.uk/staff/omason/software/qtag.html
David García, Francesc Alías
desambiguar el significado de los sustantivos del texto. El objetivo es que el siguiente módulo (búsqueda de synsets) sólo busque
los sinónimos, antónimos e hiperónimos del
significado del sustantivo en el texto, reduciendo ası́ la probabilidad de falsa asignación
(p.ej. se asigna a ratón los valores del diccionario correspondientes al significado de animal cuando en el texto se refiere a dispositivo electrónico). En este trabajo se utiliza una
modificación del algoritmo maximum relatedness disambiguation propuesto por Pedersen,
Banejee, y Patwardhan (2005), aplicándolo
a todos los sustantivos del texto y con una
ventana de desambiguación que abarca toda
la frase. En cuanto a la medida de similitud
semántica entre sustantivos, se utiliza la definida por Jiang y Conrath (1997), implementada en la librerı́a Java Similarity Library3 .
3.5.
3.3.
Este módulo se encarga de buscar en el
diccionario afectivo las palabras junto con sus
sinónimos, antónimos e hiperónimos, una vez
filtradas y lematizadas. Se trata de un proceso iterativo que finaliza cuando se encuentra un emparejamiento (coincidencia de raı́z
y categorı́a gramatical), o el conjunto de datos queda vacı́o. En caso de darse un emparejamiento, se le asigna a la palabra del texto
los valores de valencia, activación y control
indicados en el diccionario. En el caso de que
el emparejamiento sea con el antónimo, se le
asigna los valores complementarios. Si no hay
éxito en la búsqueda, se le asigna el valor -1.
Con este proceso se etiquetarán emocionalmente las palabras afectivas del texto.
Éste es el elemento clave de cualquier identificador de emociones basado en EKS. En este trabajo se utiliza ANEW para el inglés y
su adaptación ANSW para el español. Ambos contienen 1034 palabras puntuadas en
las tres dimensiones (valencia, activación y
control) y normalizadas en este trabajo entre 0 y 10. En el diccionario, las palabras,
además de estar etiquetas emocionalmente,
también tienen asignada la etiqueta gramatical para la cual fueron evaluadas (p.ej. la
palabra kiss sólo aparece como nombre). Este campo será muy útil para distinguir casos
como por ejemplo afectar y afecto, que al eliminar la flexión (se quedan en afect) crearı́an
ambigüedad.
3.6.
Búsqueda de synsets
Este módulo se encarga de extraer los
sinónimos, antónimos e hiperónimo más directo de los adjetivos, verbos y sustantivos
(con el significado indicado por el módulo
anterior). De este modo, se amplı́a el espacio en la búsqueda de palabras. Ası́, aunque
una palabra no esté en el diccionario afectivo, se puede buscar si lo está su sinónimo,
antónimo o hiperónimo. Para encontrar este
conjunto semántico se utiliza WordNet 2.04 .
Al no disponer de WordNet para el español,
sólo se usarán el desambiguador semántico y
la búsqueda de synsets para el inglés.
3.4.
Diccionario afectivo
Flexionador
Seguidamente se elimina la flexión de las
palabras potencialmente afectivas y de sus
sinónimos, antónimos e hiperónimo. Al trabajar con la raı́z de la palabra se consigue
tener una mejor cobertura del idioma. De este modo, no se necesitará tener perro y perros
en el diccionario, sino que perr será la representación única para ambos vocablos. Esto
resulta fundamental para los idiomas fuertemente flexionadores como el español. En consecuencia, el flexionador se aplicará tanto a
la hora de construir el corpus como en el momento previo a la búsqueda de palabras. En
este trabajo se usa el flexionador de Porter
(1980) para el inglés, y el que ofrece el paquete Snowball5 para el español.
3.7.
Búsqueda de palabras
Análisis a nivel de frase
Los valores de valencia, activación y control de cada frase se obtienen del promedio de
los valores de las palabras emocionadas que
forman la frase. Asimismo, se asigna a cada
frase una etiqueta emocional en función de los
valores promedio obtenidos. Estas etiquetas
son: alegrı́a, sorpresa, tristeza, enfado, miedo
y estado neutro. Los valores asignados a estas etiquetas han sido establecidos siguiendo
(Albrecht et al., 2005), situando como valores
centroide de cada etiqueta los correspondientes a las palabras más comunes de cada emoción, y ajustándolos mediante la realización
de pequeñas pruebas (véase el cuadro 1).
El sistema debe tomar en consideración
ciertos fenómenos lingüı́sticos que pueden
modificar la emoción de la frase, como los
modificadores emocionales y las negaciones.
3
eden.dei.uc.pt/˜nseco/javasimlib.tar.gz
wordnet.princeton.edu
5
snowball.tartarus.org
4
78
Categorı́a
Sorpresa
Alegrı́a
Tristeza
Enfado
Miedo
Neutro
Identificación de emociones a partir de texto usando desambiguación semántica
Val.
Activ.
Control
[0,100]) a cada una de las categorı́as conside≥8.5
≥6.35
≥6.5
radas: enfado, disgusto, miedo, alegrı́a, triste≥6.445
≥5.86
≥5
za y sorpresa (Strapparava y Mihalcea, 2007).
≤3
≤4.575
>1.5 y ≤3.75
Para poder disponer de unos datos afines con
≤3.25
≥6.25
>3.5 y ≤4.5
los de la salida del sistema propuesto, resulta
≤3
<7.5
≤3.75
necesario reetiquetar manualmente las frases
Resto o -1 Resto o -1
Resto o -1
del corpus con la categorı́a emocional más representativa. Mencionar que se asigna al titular la etiqueta enfado si la emoción que destaca es disgusto, al ser ésta la emoción más
afı́n de las consideradas por nuestro sistema.
El objetivo de este experimento es demostrar la mejora sucesiva del sistema a medida
que se incorporan nuevos módulos. Para ello,
se estudia la eficiencia de cuatro configuraciones distintas de nuestro sistema:
Cuadro 1: Relación entre dimensiones y categorı́as emocionales del sistema propuesto.
En este trabajo, para el primero de ellos, sólo
se toma en consideración la presencia de adverbios de cantidad detectados mediante el
analizador lexicográfico. Resaltar que se consideran seis intensidades distintas (tres positivas y tres negativas). Según la intensidad
asociada, se le asigna un valor fijado experimentalmente (±0.25, ±0.40 ó ±0.66) que
incrementará/decrementará la valencia de la
palabra emocional más cercana en el sentido adecuado. Para saber más sobre modificadores de valencia, se recomienda consultar
(Polanyi y Zaenen, 2004).
Por su parte, el efecto causado por las negaciones se trata con un proceso que asigna a
los emotional keywords valores complementarios cuando se encuentran después de un
adverbio de negación. Para ello, se ha considerado, de un modo relajado, que la presencia
de una negación no tiene porqué negar todas
las palabras que la siguen. Ası́ pues, el sistema niega todo lo que sigue a la negación hasta
encontrar una conjunción adversativa (p.ej.
sino, pero, etc.), manteniendo los valores que
las siguientes palabras tienen en el diccionario afectivo. En (Francisco y Gervás, 2006)
se presenta otro método más completo basado en el análisis de dependencias sintácticas.
3.8.
Simple: sin WordNet ni desambiguación
semántica. Sólo se hará una búsqueda de
las raı́ces de las palabras potencialmente
emotivas dentro del diccionario afectivo.
WN-Hiperónimos: incorpora la ontologı́a WordNet para incluir los hiperónimos en la búsqueda dentro del diccionario afectivo. Esta configuración intenta
emular el sistema descrito en (Francisco,
Hervás, y Gervás, 2005), pero sin la presencia de un diccionario adicional construido por los autores.
WN-Full: es idéntica a la configuración
anterior, pero añadiendo en la búsqueda
los sinónimos y antónimos.
WN-Sem: incorpora el módulo de
desambiguación semántica de sustantivos al WN-Full. De este modo, se buscará en el diccionario únicamente los
sinónimos, antónimos e hiperónimos que
sólo hacen referencia al significado del
sustantivo dentro del texto de entrada.
Análisis a nivel de párrafo
Tras tener todas las frases categorizadas
emocionalmente, se analiza el texto a nivel
de párrafo asignándole la media, por separado, de las tres dimensiones de todas las frases
que forman dicha estructura lingüı́stica. Asimismo, se le asigna una etiqueta emocional.
El análisis más exhaustivo de esta estructura
queda abierto para trabajos futuros.
4.
En la figura 2 se presenta la tasa de acierto
de clasificación de las distintas configuraciones del sistema. De la gráfica, se puede observar una mejora absoluta de un 2 % entre
el sistema Simple y el WN-Sem, con una tasa
de acierto global significativamente superior
a la de un clasificador aleatorio (16,67 % dadas las 6 categorı́as). Asimismo, se puede ver
una tendencia creciente (con pequeñas mejoras sucesivas) a medida que se incorporan
nuevas prestaciones al sistema. Una vez constatada esta tendencia global, se estudia el
comportamiento de las cuatro configuraciones para cada una de las emociones de manera individual (véase la figura 3). Se puede
Análisis del sistema
En el estudio que se presenta a continuación se utiliza un corpus formado por 250
titulares de diarios en inglés, cuya emoción
ha sido etiquetada manualmente estableciendo su grado de pertenencia (dentro del rango
79
David García, Francesc Alías
Eti/Clas
Sorp.
Ale.
Tris.
Enf.
Sorp.
Ale.
Mie.
Neu.
0%
30 %
0%
5%
0%
65 %
0%
25.37 %
0%
0%
2.98 %
71.64 %
Tris.
0%
8.19 %
0%
Enf.
0%
8%
0%
Mie.
0%
4%
8%
0%
28 %
60 %
Neu.
0%
9.61 %
0%
1.92 %
3.84 %
84.61 %
4.91 % 22.95 % 63.93 %
4%
12 %
76 %
Cuadro 2: Matriz de confusión del sistema para
la configuración WN-Sem.
te análisis se concluye que, en ocasiones, las
distintas versiones del sistema identifican la
emoción de la frase correctamente pero por
diferentes motivos. Éste es el caso de la frase
“This man is glad” (Este hombre está alegre), categorizada por las cuatro configuraciones como alegre. Las versiones WN-Sem
y WN-Full tienen en cuenta tanto la palabra
man como glad (ya que encuentran su sinónimo happy en ANEW), mientras que las otras
dos sólo utilizan man. Las dos últimas configuraciones aciertan debido a que man por
sı́ solo ya está categorizada como alegrı́a como consecuencia de los umbrales establecidos, cuestión totalmente subjetiva y discutible. Ası́ pues, si en esta frase se cambiara
man por otro vocablo que no estuviera directamente en ANEW, la clasificación falları́a
para Simple, mientras que WN-Hiperónimos
falları́a si no estuviera el hiperónimo de la
nueva palabra. La diferencia principal entre
WN-Sem y WN-Full está en que el primero
identifica la emoción del texto siendo consecuente con su semántica, puesto que utiliza
el sinónimo más adecuado para sustituir la
palabra en función del contexto. Esto hace
que WN-Sem sea más rico semántica y cualitativamente, aunque a veces WN-Full acierta
igual que WN-Sem debido a los umbrales del
sinónimo elegido (puede ser el mismo que en
WN-Sem).
Para justificar por qué la tasa de acierto global, aunque significativamente superior
a un sistema aleatorio, sobrepasa escasamente el 27 %, se debe decir que existen muchos
titulares cuya semántica es imposible de extraer por cualquiera de los cuatro sistemas.
Esto sucede, sobre todo, en los titulares en
los que aparecen eventos concretos o personajes conocidos. Ası́, la frase “Bush insists
troops stay in Iraq, predicts midterm victory” (Bush insiste en que las tropas permanezcan en Iraq, predice una victoria a medio
plazo) es identificada por el sistema como po-
Figura 2: Tasa de acierto global de las diferentes
configuraciones del sistema propuesto.
apreciar cómo la configuración WN-Sem presenta, como mı́nimo, la misma tasa de acierto que Simple. Destaca también la falta de
acierto por parte de todas las configuraciones
sobre las emociones sorpresa y tristeza (a excepción de un acierto de una frase triste por
parte de WN-Hiperónimos, siendo la tristeza
la única emoción en la que gana a WN-Sem).
En el cuadro 2 se presenta la matriz de confusión de la mejor configuración del sistema:
WN-Sem.
Figura 3: Porcentaje de acierto de las cuatro configuraciones para cada emoción.
5.
Discusión
De los resultados obtenidos, se ha observado la mejora paulatina del sistema a medida que se incorporan nuevos módulos. No
obstante, las reducidas mejoras porcentuales
de la tasa de acierto llevan a analizar cualitativamente el funcionamiento de las distintas configuraciones del sistema mediante titulares concretos o ejemplos propios. De es80
Identificación de emociones a partir de texto usando desambiguación semántica
sitiva (debido a la idea de victoria), cuando
las personas, conocedoras de una mayor información semántica, la podemos interpretar
negativamente (como oposición a dicha decisión polı́tica). Ası́ pues, tanto la subjetividad
como el volumen de conocimiento semántico
de las personas, son factores clave que afectan
a los resultados.
Por último, en el cuadro 2 se puede ver
al detalle qué sucede con la falta de acierto
para sorpresa y tristeza. En el primer caso,
ésta es confundida con alegrı́a y neutro. Este
hecho parece lógico, puesto que existen dos
tipos de sorpresa: positiva y negativa. Para
el caso positivo, que es el que se considera en
este trabajo, una sorpresa puede ser perfectamente entendida como una alegrı́a, lo cual
no es un error demasiado crı́tico y más, si
en nuestro caso, la futura salida será una voz
emocionada. Suponemos que el 65 % asignado a neutro serı́a mucho menor si el sistema
clasificara mejor la emoción tristeza, puesto
que este porcentaje se repartirı́a entre ambas categorı́as. Por tanto, el caso más crı́tico
es la tristeza, puesto que el hecho de que un
63.93 % de las frases se clasifiquen como neutras nos indica que hay que mejorar la clasificación de oraciones tristes. Destacar también
que si se hicieran dos grandes grupos entre
las categorı́as consideradas (sin contar neutro), podrı́amos obtener positivas (sorpresa
y alegrı́a) y negativas (el resto). Es decir, el
grupo negativas estarı́a compuesto por tres
emociones las cuales son muy cercanas entre
sı́ a nivel de valores de las dimensiones (véase
el cuadro 1), pero muy dispares en cuanto a
semántica; mientras que en el primer grupo,
aunque también cercanas en dimensiones, se
pueden entender como una sola emoción tal
y como se ha comentado anteriormente.
6.
del análisis de los resultados obtenidos por
categorı́as emocionales se puede observar la
necesidad de continuar trabajando para mejorar las prestaciones del sistema.
Además de esto, se desea disponer del sistema completo para el español, al no tener la
misma profundidad de análisis que en inglés.
También se quiere incorporar un análisis de
dependencia sintáctica que reconozca los elementos afectados por un cuantificador o un
negador. Asimismo se desea un mejor análisis
de estructuras lingüı́sticas, como: condicionales, adversativas, párrafos, etc. También se
quiere, para ambos idiomas, reemplazar el actual módulo flexionador por un lematizador,
mejorando ası́ el acierto de búsqueda dentro
del diccionario afectivo. A su vez se pretende
trabajar con distintos diccionarios afectivos
(p.ej. WordNet Affect, etc.)
Por otra parte, para comparar mejor el sistema con otros existentes, se desea crear un
corpus de test multilingüe (inicialmente en
inglés y español) para poder evaluar los sistemas de igual manera. Este corpus también
permitirá evaluar el comportamiento del sistema para textos en español. Finalmente, respecto a su incorporación en un sistema CTH,
se pretende encontrar las primeras relaciones
entre parámetros de texto y de voz.
7.
Agradecimientos
Los autores desean agradecer a J. Redondo la cesión del corpus ANSW.
Bibliografı́a
Alı́as, F., X. Sevillano, J.C. Socoró, y X. Gonzalvo. 2008. Towards high quality nextgeneration Text-to-Speech synthesis: a Multidomain approach by Automatic Domain Classification.
IEEE Transactions on Audio,
Speech and Language Processing. (aceptado).
Albrecht, I., M. Schröder, J. Haber, y H. Seidel.
2005. Mixed feelings: expression of non-basic
emotions in a muscle-based talking head. Virtual Real, 8(4):201–212.
Bradley, M. y P. Lang. 1999. Affective Norms
for English Words (ANEW): Stimuli, Instruction Manual and Affective Ratings. Informe
Técnico C-1, Gainesville, FL, The Center for
Research in Psychophysiology, Universidad de
Florida.
Ekman, P. 1993. Facial expression of emotion.
American Psychologist, 48:384–392.
Francisco, V. y P. Gervás. 2006. Análisis de dependencias para la marcación de cuentos con
emociones. Procesamiento de Lenguaje Natural, (37):1135–5948, Septiembre.
Conclusiones y trabajo futuro
En este trabajo se presenta un primer paso
para la implementación de un sistema de detección automática de emociones a partir de
un texto cualquiera. A diferencia de otros trabajos similares, el presente artı́culo presenta
un sistema capaz de detectar emociones para
el inglés y el español, considerando la sinonimia, antonimia e hiperonimia en función del
significado de las palabras (desambiguación)
dentro del texto. Aunque la incorporación de
sucesivos módulos de procesamiento del lenguaje natural ha permitido una mejora sucesiva de la tasa de acierto global del sistema,
81
David García, Francesc Alías
Redondo, J., I. Fraga, I. Padrón, y M. Comesaña.
2007. The Spanish adaptation of ANEW (Affective Norms for English Words). Behavior
Research Methods, 39(3):600–605, Agosto.
Francisco, V., R. Hervás, y P. Gervás. 2005.
Expresión de emociones en la sı́ntesis de voz
en contextos narrativos. Simposio de Computación Ubicua e Inteligencia Ambiental, Septiembre.
Russell, J. 1980. A circumplex model of affect.
Journal of personality and social psychology,
39(6):1161–1178.
Hofer, G., K. Richmond, y R. Clark. 2005. Informed blending of databases for emotional
speech synthesis. En Proc. Interspeech.
Schlosberg, H. 1952. The Description of Facial Expressions in Terms of Two Dimensions.
Journal of Experimental Psychology, 44:229–
237.
Jiang, J. y D. Conrath. 1997. Semantic Similarity Based on Corpus Statistics and Lexical
Taxonomy. páginas 19–33.
Schlosberg, H. 1954. Three dimensions of emotion. Psychol. Rev., 61(2):81–88.
Joachims, T. 1998. Text categorization with
support vector machines: learning with many
relevant features. En Claire Nédellec y Céline Rouveirol, editores, Proceedings of ECML98, numero 1398, páginas 137–142, Chemnitz,
DE. Springer Verlag, Heidelberg, DE.
Schröder, M. 2004. Dimensional emotion representation as a basis for speech synthesis with
non-extreme emotions. En Proc. Workshop on
Affective Dialogue Systems, páginas 209–220,
Kloster Irsee, Germany. Springer Verlag.
Leshed, G. y J. Kaye. 2006. Understanding how
bloggers feel: recognizing affect in blog posts.
En Gary M. Olson y Robin Jeffries, editores,
CHI Extended Abstracts, páginas 1019–1024.
ACM.
Strapparava, C. y R. Mihalcea. 2007. SemEval2007 Task 14: Affective Text. Proceedings of
the 4th International Workshop on the Semantic Evaluations (SemEval), Junio.
Liu, H., H. Lieberman, y T. Selker. 2003. A model of textual affect sensing using real-world
knowledge. En IUI ’03: Proceedings of the 8th
international conference on Intelligent user
interfaces, páginas 125–132, New York, NY,
USA. ACM.
Sugimoto, F., K. Yazu, M. Murakami, y M. Yoneyama. 2004. Method to Classify Emotional
Expressions of Text and Synthesize Speech.
Proceedings of the IEEE-EURASIP International Symposium on Control, Communications, and Signal Processing, páginas 611–614.
Lu, C., J. Hong, y S. Cruz-Lara. 2005. Emotion
detection in textual information by semantic
role labeling and web mining techniques. National ChiNan University and Universities of
Nancy.
Toutanova, Kristina y Christopher D. Manning.
2000. Enriching the knowledge sources used in
a maximum entropy part-of-speech tagger. En
Proceedings of the 2000 Joint SIGDAT conference on Empirical methods in NLP and very
large corpora, páginas 63–70, Morristown, NJ,
USA. Association for Computational Linguistics.
Ortony, A., G. Clore, y A. Collins. 1988. The cognitive structure of emotions. Cambridge University Press.
Turney, P. 2002. Thumbs up or thumbs down?
Semantic orientation applied to unsupervised
classification of reviews. páginas 417–424.
Ovesdotter, C., D. Roth, y R. Sproat. 2005.
Emotions from text: machine learning for textbased emotion prediction. En Proceedings of
HLT/EMNLP, páginas 579–586, Vancouver,
Canadá.
Turney, P. y M. Littman. 2003. Measuring praise and criticism: Inference of semantic orientation from association. ACM Trans. Inf. Syst.,
21(4):315–346.
Pedersen, T., S. Banejee, y S. Patwardhan. 2005.
Maximizing semantic relatedness to perform
word sense disambiguation. Marzo.
Watson, J. y A. Tellegen. 1985. Toward a consensual structure of mood. Psychological bulletin,
98:219–235.
Plutchik, R. y H. Kellerman. 1980. A general
psychoevolutionary theory of emotion. Emotion: Theory, research, and experience, 1:3–33.
Polanyi, L. y A. Zaenen. 2004. Contextual valence shifters. En Exploring Attitude and Affect in Text: Theories and Applications. AAAI
Spring Symposium Series.
Porter, M.F. 1980. An algorithm for suffix stripping. Program, 14(3):130–137, Julio.
Read, J. 2004. Recognising affect in text using
pointwise-mutual information. Univesity of
Sussex.
82
Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 83-90
recibido 01-02-08, aceptado 03-03-08
InTiMe
Plataforma de Integración de Recursos de PLN
InTiMe
Integration Platform of NLP Resources
José Manuel Gómez
Departamento de Lenguajes y Sistemas Informáticos
Universidad de Alicante
Carretera Sant Vicent del Raspeig s/n
03690 Sant Vicent del Raspeig (Alicante)
[email protected]
Resumen: La plataforma InTiMe (INtegration of Tools and corpora In the textMEss project) es un ambicioso proyecto del Departamento de Lenguajes y Sistemas
Informáticos de la Universidad de Alicante. Nace con la idea de integrar, en una misma plataforma, gran parte de los recursos utilizados actualmente en Procesamiento
del Lenguaje Natural (PLN). De esta forma, cualquier investigador incluido en la
plataforma tendrá acceso inmediato, independientemente del sistema operativo que
use o de su ubicación, a todas las herramientas y corpus integrados en el sistema.
También será capaz de dar a conocer, si ası́ lo desea, a toda la comunidad cientı́fica
los nuevos recursos desarrollados en sus investigaciones. Evitando ası́ que los investigadores tengan que desarrollar herramientas ya existentes, ahorrando tiempo y
recursos y centrando los esfuerzos en actividades más novedosas. Como veremos en
el presente artı́culo, InTiMe agilizará la compartición del conocimiento y el uso de
los recursos generados en PLN aumentando la productividad sin tener que cambiar
la metodologı́a de trabajo.
Palabras clave: Herramientas PLN, Integración recursos, InTiMe, PLN
Abstract: The InTiMe platform (INtegration of Tools and corpora In the text-MEss
project) is an ambitious project of the Department of Languages and Computer
Systems at the University of Alicante. Born with the idea of integrating, in a single
platform, almost of the resources currently used in Natural Language Procesing
(NLP). Thus, any researcher included in the platform will have immediately access,
regardless of the operating system he use or his location, all the tools and corpora
integrated in the system. It will also be able to disclose, if he so wish, to the entire
scientific community developed new resources in his investigations. Avoiding so that
researchers need to develop tools that already exist, saving time and resources and
focusing efforts on newer activities. As we will see in this article, InTiMe expedite
the sharing of knowledge and the use of resources generated in PLN increasing
productivity without changing the methodology of work.
Keywords: NLP tools, resource integration, InTiMe, NLP
1.
Introducción
La investigación se basa, principalmente,
en la idea de compartir conocimientos, herramientas y corpus que permitan a los investigadores aunar sus esfuerzos para lograr metas
mayores. En áreas de investigación como el
Procesamiento del Lenguaje Natural (PLN)
esto adquiere una mayor importancia pues
las soluciones a los problemas que se plantean hoy en dı́a se basan en la combinación
ISSN 1135-5948
de diversos recursos. Por lo tanto, un investigador debe ser capaz de conocer los recursos
disponibles, saber utilizarlos correctamente y,
a su vez, dar a conocer su propio trabajo.
Es muy común que cada recurso lo desarrolle diferentes personas que tienen intereses
muy concretos y es inusual que piensen en
una futura integración de su trabajo con el
resto de recursos (Graça, Mamede, y Pereira, 2006). Es más, cuando se intenta integrar
© Sociedad Española para el Procesamiento del Lenguaje Natural
José Manuel Gómez
blema de estos formatos es que no permiten
la separación de la información en capas teniendo que cargar, en cada proceso, todas las
anotaciones previas. También podemos encontrar el sistema EMU (Cassidy y Harrington, 2001) que está enfocado, especı́ficamente, en tratamiento del habla.
Existen otros proyectos de integración que
intentan abarcar tanto la especificación de los
corpus y datos como de las herramientas en
una única plataforma. El ejemplo más destacado lo podemos encontrar en el proyecto
GATE (Cunningham, Wilks, y Gaizauskas,
1996; Bontcheva et al., 2004), que permite
añadir módulos en Java de forma muy sencilla y rápida aunque requiere de más trabajo
en caso de otros lenguajes de programación.
GATE, además, define un formato de datos
basado en la arquitectura TIPSER (Grishman, 1996) y en el Annotation Graphs Toolkit. Un sistema muy similar al GATE es el
UIMA (Ferrucci y Lally, 2004), que está basado en el proyecto TEXTRACT (Neff, Byrd,
y Boguraev, 2004) de IBM. Pero, al igual que
GATE, exige un cambio en la metodologı́a
de los grupos de investigación que pretendan
usar la plataforma UIMA. Otros trabajos menos conocidos son los realizados por (Graça,
Mamede, y Pereira, 2006) con una propuesta
cliente/servidor que unifica las herramientas
de PLN utilizando repositorios etiquetados
con información multicapa que elimina la necesidad de cargar toda la información en cada
proceso; y el trabajo de (Monteagudo y Cueto, 2005), otra herramienta cliente/servidor
que, a través de un middleware, unifica las
herramientas y establece su propio formato
de datos para comunicar los distintos procesos.
Aunque hay bastantes herramientas, protocolos y formatos que te permiten integrar
herramientas y recursos, todos fallan en algún
aspecto. Algunos de ellos son muy especı́ficos
y únicamente abarcan un conjunto de recursos de un área concreta del PLN (Badia et
al., 2002; Petersen, 2004; Bird y Loper, 2004;
Taylor, Black, y Caley, 1998). Otros no permiten muchos tipos de datos, por ejemplo, se
centran en datos de texto o de habla únicamente (Maeda et al., 2001; Bird y Liberman,
2001; Bird et al., 2000; Cassidy y Harrington,
2001). También están los que obligan a trabajar en algún lenguaje informático concreto, un sistema operativo, plataforma, o que
obligan a cambiar la metodologı́a de trabajo
todos los recursos y herramientas es cuando
surgen los problemas de cómo se van a comunicar las aplicaciones entre si y cómo van a
procesar los distintos corpus.
El problema crece cuando en un grupo
de investigación existe personal investigador
temporal y no se ha planteado ninguna polı́tica de integración de estos recursos. Esta situación se resume en que los grupos de investigación disponen de gran cantidad de herramientas, aplicaciones y corpus (tanto propios
como ajenos), en diferentes lenguajes de programación y sistemas operativos, con formatos de salida y entrada particulares, de localización muchas veces difı́cil puesto que dependen de la persona o personas que los han
generado, y de reutilización compleja ya que
requiere un esfuerzo adicional para integrarlos en otros desarrollos (Monteagudo y Cueto, 2005).
Para resolver estos problemas, muchos
grupos de investigación han decidido, a lo largo de su vida, aplicar alguna metodologı́a de
integración de recursos de PLN que diera a
conocer a sus propios miembros los recursos
disponibles. Algunos de estos proyectos de integración son parciales pues sólo tienen en
cuenta algún aspecto concreto: o bien se centran en un tipo de recurso o en un dominio especı́fico. Entre estos proyectos se pueden destacar el BancTrad (Badia et al., 2002), que
proponen un formato estándar para la integración de corpus etiquetados paralelos junto
con herramientas para acceder a él; el Emdros
text database system (Petersen, 2004), el cual
es un motor de base de datos para el análisis
y la recuperación del texto analizado o anotado; el Natural Language Toolkit (Bird y Loper, 2004) que es un conjunto de bibliotecas
y programas para el procesamiento simbólico
y estadı́stico del lenguaje natural; y el Festival speech synthesis system (Taylor, Black,
y Caley, 1998), el cual es un framework para
construir sistemas de sı́ntesis del habla.
También están los proyectos que únicamente definen protocolos o formatos para
la comunicación entre distintos procesos de
PLN, como el Annotation Graphs Toolkit
(Maeda et al., 2001) que es una implementación del formalismo de Grafos Anotados de
(Bird y Liberman, 2001), y el más influyente trabajo en éste área: la arquitectura Atlas
(Bird et al., 2000), que generaliza el trabajo de (Bird y Liberman, 2001) para permitir
el uso de señales multidimensionales. El pro-
84
InTiMe: Plataforma de Integración de Recursos de PLN
cutarla como si dicha herramienta estuviera ejecutándose localmente. Al ser distribuida, un investigador puede subir un recurso
a cualquier servidor y que éste sea conocido
por el resto de usuarios. Además, gracias a
las caracterı́sticas del cliente InTiMe, se puede ejecutar una herramienta usando InTiMe
exactamente igual a cómo se utilizarı́a la herramienta original, con las mismas entradas y
salidas, y los mismos parámetros y ficheros de
configuración. Esto permite que el investigador pueda seguir trabajando sin modificar un
ápice su metodologı́a de trabajo. El proyecto InTiMe ha sido desarrollado integramente
en JAVA. Ésto permite que InTiMe pueda
funcionar en cualquier sistema operativo con
soporte para JAVA y que se pueda integrar
las herramientas compiladas para dichas plataformas. Por ejemplo, podremos tener acceso a herramientas especı́ficas de Microsoft
Windows, GNU Linux o Mac OS siempre y
cuando dispusiéramos un servidor InTiMe en
cada una de esos sistemas operativos con sus
respectivas herramientas.
ajustándose a un API, protocolo o formato
(Bontcheva et al., 2004; Bird y Loper, 2004;
Monteagudo y Cueto, 2005; Grishman, 1996;
Graça, Mamede, y Pereira, 2006). Ninguno
tiene en cuenta los proyectos de terceros o,
simplemente, es muy complicado la integración de éstos, como es el caso de GATE y UIMA. Esto lleva a eliminar de la integración
la gran mayorı́a de herramientas y recursos
desarrollados actualmente que no se ajustan
a la metodologı́a escogida. Es decir, olvidan
la naturaleza heterogénea de las herramientas de PLN. Esto conlleva a un aumento de
trabajo de los investigadores cuando quieren
adaptar dichas herramientas. Pero, en definitiva, la principal razón por la que ninguno de
estos proyectos de integración no se han implantando y generalizado entre la comunidad
cientı́fica es que requiere, para su adopción,
un esfuerzo extra por parte de los investigadores para adaptarse a nuevas metodologı́a,
protocolos, lenguajes, etc.
En este trabajo presentamos una plataforma de integración que respecta la metodologı́as de trabajo de los investigadores pero
que, a su vez, permite integrar cualquier tipo de herramienta o corpus, independientemente del lenguaje de programación, sistema
operativo o formatos de entrada y salida. La
única condición que debe cumplir el recurso integrado es que no requiera una interfaz
gráfica para su funcionamiento. Además, permite añadirle una capa más para aplicar cualquier protocolo o metodologı́a de integración
vistos anteriormente. También podremos integrar los recursos ya desarrollados o de terceros ası́ como conocer la existencia y el funcionamiento de los recursos que ya estén integrados en el sistema desde cualquier parte
del mundo y utilizando una única aplicación
cliente. Por último, destacar que el uso de esta plataforma por parte de los investigadores
sólo requerirá un esfuerzo muy pequeño o nulo.
2.
2.1.
Arquitectura del sistema
La arquitectura de la plataforma InTiMe
puede variar y adaptarse a las necesidades del
grupo de investigación, permitiendo que uno
o varios clientes puedan acceder simultáneamente a uno o varios servidores de la plataforma. La arquitectura que se presenta en la
figura 1 es tan sólo un ejemplo de una de ellas.
Descripción de la plataforma
InTiMe
InTiMe es una plataforma que permite conocer, acceder, usar y compartir herramientas y corpus. Tiene una arquitectura cliente/servidor y distribuida realizada con servicios web que permite, por una parte, integrar en los servidores cualquier recurso y,
por otra, tener acceso a las herramientas que
trabajan con esos corpus remotamente y eje-
Figura 1: Arquitectura general de la plataforma InTiMe
85
2.2.
Los servidores InTiMe
José Manuel Gómez
petición a un servidor que conozca. Éste reenviará la petición al servidor correcto, el cual
ejecutará la aplicación y devolverá los resultados de nuevo al cliente. Además, el cliente
actualizará su información con la dirección
del nuevo servidor para futuras peticiones.
En el caso de que el cliente del ejemplo quiera
utilizar las herramientas Weka 3 o Freeling 4 ,
ambos en servidores InTiMe de una red local,
él únicamente tendrá que pedirlo a un servidor conocido (en el ejemplo es el servidor 1),
este servidor sabrá que dichas herramientas
las tiene el servidor 2 y le lanzará la petición a
dicho servidor. Aunque éste servidor no contiene esos recursos, sabe que se encuentran
en dos servidores locales de los cuales él tiene
acceso. De esta forma, la petición del cliente
se redirigirá al servidor local que contiene la
herramienta y el resultado de la ejecución se
le devolverá al usuario. Después, la aplicación
cliente, se actualizará añadiendo al servidor
2 como la fuente de las herramientas Weka y
Freeling puesto que él no tiene acceso directo
a los servidores locales 1 y 2.
Un servidor InTiMe puede integrar tantos
recursos como se quiera o sea capaz de contener. Además, un mismo recurso puede estar
en varios servidores para, en caso necesario,
repartir la carga de trabajo. Es más, esta plataforma permite construir aplicaciones más
potentes a partir de otras y que cada parte
de esas aplicaciones se encuentren en un mismo servidor o en distintos, permitiendo que
se ejecuten de forma local o remota, serializada o distribuida o, en definitiva, en cualquier
combinación de éstas.
Cada servidor InTiMe almacenará un subconjunto de las herramientas y los corpus que
se pretendan integrar en la plataforma pero,
al mismo tiempo, conocerá qué recursos hay
instalados en los otros servidores. Esto permitirá al cliente conectarse a cualquiera de
estos servidores y acceder a todos los recursos. Por lo tanto, cuando se sube un recurso a
un servidor, la información sobre dicho recurso, ası́ como el servidor en que se encuentra,
es esparcida entre el resto de servidores de
la red. Lo mismo ocurre cuando un servidor
es dado de alta. Un servidor InTiMe, a su
vez, puede contener redes locales de servidores que contengan parte de los recursos que
éste oferte, actuando de manera muy similar
a un proxy. En la figura 2 se puede apreciar
un ejemplo de esta arquitectura.
2.3.
Cada usuario tendrá a su disposición un
cliente InTiMe que le permitirá listar, consultar, buscar y ejecutar las herramientas de
cualquier servidor conectado a la red ası́ como consultar en qué servidores están disponibles los corpus. La función del cliente InTiMe
será recoger la entrada, analizar los parámetros de la aplicación, subir esta información
más todos aquellos archivos que requiera la
herramienta, obtener los resultados de las salidas estándar y de error de la aplicación y
descargar todos aquellos archivos que se hayan generado por la ejecución de la herramienta en el servidor.
El cliente, finalmente, presentará por la
Figura 2: Servidor InTiMe funcionando como
proxy
En este ejemplo hemos instalado cuatro
servidores que tienen diversas herramientas.
Dos de estos servidores están en una red local
sin acceso directo a Internet, pero están subyugados al servidor 2. Con esta arquitectura, si el cliente quiere ejecutar el clasificador
SVM-Light 1 únicamente debe pedir al servidor 1 que lo ejecute. Sin embargo, si lo que
quiere ejecutar es el sistema de recuperación
de pasajes JIRS 2 y no conoce en qué servidor
se encuentra instalado, el cliente realizará la
1
2
Los clientes InTiMe
3
http://svmlight.joachims.org/
http://jirs.dsic.upv.es/
4
86
http://www.cs.walkato.ac.nz/ml/weka/
http://www.lsi.upc.es/ /nlp/freeling/
InTiMe: Plataforma de Integración de Recursos de PLN
tuviéramos que utilizar una herramienta que
cuando se utiliza un corpus en español tiene
una serie de argumentos y cuando se utiliza con un corpus en inglés otros, con InTiMe
podrı́amos definir un argumento llamado, por
ejemplo, lang que nos permitiera encapsular
el resto de parametros. Ası́, si quisiéramos
lanzar dicha herramienta con el corpus en español podrı́amos escribir:
intime tool -lang es
Ahorrándonos tener que escribir o conocer el resto de parámetros. Esto permite a un
investigador simplificar el uso de las herramientas que use, definiendo los argumentos
que mejor resultados den, para futuros usos
o para el resto de la comunidad cientı́fica.
Pero la plataforma InTiMe no sólo permite ejecutar herramientas, sino que, además,
nos permite conocer qué recursos ya han sido
instalados en la red de servidores InTiMe. De
esta forma, podemos listar o buscar todos los
recursos mediante el siguiente comando:
Figura 3: El cliente InTiMe
salida estándar y de error lo que devolvió la
herramienta en ambas salidas cuando se ejecutó en el servidor. También descargará los
archivos de resultados que se hayan podido
generar durante la ejecución.
Para cada herramienta integrada en la plataforma se puede definir qué argumentos tiene, cuáles de ellos serán archivos que deberán
subirse al servidor y cuáles de ellos serán archivos a descargar como resultado de la ejecución de la herramienta. Por ejemplo, imaginemos que queremos utilizar el sistema JIRS
(Gómez et al., 2005) de recuperación de pasajes. Para realizar una búsqueda con este sistema y que nos devuelva una lista de pasajes
relacionados tendrı́amos que lanzar siguiente
comando:
intime list [-cat cathegory_name]
[-show all|cat|services]
[-search key_words]
Los recursos integrados en la plataforma
están clasificados por categorı́as. Ası́ podemos listar los recursos categorizados o sin categorizar, visualizar sólo las categorı́as o los
recursos de una categorı́a dada, o buscar cualquier recurso a partir de unas palabras claves.
Pero no sólo podemos listar los recursos
sino que podemos obtener ayuda de uso para
cada herramienta o corpus con el siguiente
comando:
jirs SearchPassages -language spanish
-collection clefqa
Con el cliente InTiMe
tendrı́amos que escribir:
únicamente
intime help tool_name [-language lang]
[-format format]
intime jirs SearchPassages -language spanish
-collection clefqa
Esto nos devolverı́a la ayuda de una herramienta dada, preferiblemente en el lenguaje
y formato elegidos.
Como vemos, lanzar el buscador de pasajes de JIRS con la plataforma InTiMe
supondrı́a una diferencia mı́nima, es decir,
el investigador utilizarı́a JIRS prácticamente
igual que si la tuviera instalada en su máquina, con los mismos argumentos y las mismas
entrada y salidas.
La plataforma InTiMe permite, además,
simplificar los argumentos de una aplicación
definiendo argumentos con valores por defecto o argumentos condicionados, es decir, argumentos cuyo valor dependerá de los valores de otros argumentos. De esta forma, si
3.
Metodologı́a de trabajo con la
plataforma InTiMe
Nuestra metodologı́a de trabajo no pretende modificar la forma de trabajar de los
grupos de investigación a la hora de integrar
las herramientas y, por ello, no hemos especificado ningún formato para el intercambio
de datos. Ası́, si un usuario utiliza el analizador morfosintáctico del freeling o el clasificador SVM-Light a través de InTiMe, el
87
José Manuel Gómez
buscar o pedir información sobre alguna herramienta o recurso incluido en el sistema.
También nos permite integrar aplicaciones y
herramientas que sólo funcionan en un sistema operativo concreto y crear aplicaciones a
partir de otras aplicaciones o herramientas,
concatenando procesos de forma serie, paralela, cliente/servidor, distribuida o de cualquier combinación de éstos.
A medida que InTiMe crezca en número
de recursos, se convertirá, cada vez más, en
una herramienta muy útil para los investigadores, permitiendo conocer instantáneamente qué herramientas están disponibles entre
la comunidad cientı́fica y usarlas inmediatamente. Con esto ahorraremos tiempo y recursos, sabiendo exactamente qué recursos tenemos disponibles en todo momento evitando esfuerzo innecesario y centrando la labor
del investigador en desarrollar recursos novedosos. Dando, ası́, una ventaja competitiva
con respecto a otros grupos que no la usen.
Además, aporta un plataforma de integración
que los grupos de investigación pueden adoptar, incluso si ya disponen de alguna metodologı́a.
usuario deberá dar al cliente InTiMe las entradas, parámetros y ficheros de configuración que necesitan esos recursos y, a cambio,
recibirá exactamente la misma salida que recibirı́a si los ejecutara de forma local. Pero no
creemos que ésto sea una limitación por dos
razones: (i) el usuario siempre puede adaptar las herramientas para que trabajen con
algún protocolo de integración existente y seguir trabajando con InTiMe; y (ii) permite a
los usuarios adaptar las entradas y salidas a
sus necesidades y compartir estas adaptaciones al resto de la comunidad cientı́fica.
4.
Conclusiones
En este trabajo hemos presentado una plataforma de integración para cualquier tipo de
aplicación, herramienta o corpus con la única condición de que no requiera un entorno
gráfico. Esto incluye a prácticamente la totalidad de las herramientas utilizadas actualmente en el PLN. Es más, permite integrar
recursos tanto nuevos, como ya existentes o
de terceros sin mucho esfuerzo. InTiMe tiene
la ventaja, con respecto a otras plataformas
de integración, de que no modifica la metodologı́a de trabajo de los cientı́ficos adaptándose perfectamente a cualquiera de ellas. Esto
hace de InTiMe una herramienta idónea para
la compartición de conocimientos y recursos
entre miembros de un mismo grupo de investigación o, en general, entre toda comunidad
cientı́fica.
En estos momentos se está implantando paulatinamente en el marco del proyecto
Text-Mess en el cual participan 5 universidades españolas. Debido a la heterogeneidad del
proyecto y de los intereses de los participantes, nos hemos visto en la necesidad de evitar cualquier intento de implantación de un
estándar para la comunicación de datos, limitándonos a la compartición de los recursos
sin establecer ningún cambio en la metodologı́a de cada grupo. Además, por experiencias anteriores, hemos podido comprobar que
estos complejos proyectos de integración se
suelen abandonar en poco tiempo quedándose en un cúmulo de buenas intenciones. Ası́,
la plataforma InTiMe permite que todos los
grupos aprovechen del trabajo del resto pero,
a su vez, no exige ningún esfuerzo extra por
parte de sus investigadores aportando innumerables ventajas como, por ejemplo, el acceso y uso inmediato de cualquier herramientas incluida en la plataforma. Permite listar,
5.
Trabajos futuros
Aunque la herramienta está operativa en
estos momentos y está siendo utilizada en varios proyectos propios, queda mucho trabajo por realizar. Uno de las tareas pendientes más importantes es evaluar el grado de
satisfacción de los usuarios. Tampoco hemos
desarrollado completamente el analizador de
argumentos para que el cliente se adapte a
los argumentos de las herramientas integradas, pero sı́ que permitimos que se puedan
pasar dichos argumentos a la aplicación aunque sea cambiando la sintaxis original. Tampoco hemos terminado el proceso de sincronización entre servidores InTiMe y estamos
trabajando en un administrador web que permita instalar y configurar el servidor de forma sencilla. Uno de los trabajos futuros más
interesantes es la creación de un banco de
pruebas que permita probar todas las aplicaciones y herramientas integradas en la plataforma a través de un portal web. Esto nos
permitirá tener inmediatamente una demostración de nuestras herramientas cara a posibles inversores. Y esto lo realizará de forma
automática en el momento en que se incluya
dicho recurso en un servidor InTiMe.
También pensamos incluir en la platafor88
InTiMe: Plataforma de Integración de Recursos de PLN
Bird, Steven y Mark Liberman. 2001. A formal framework for linguistic annotation.
Speech Communication, 33:23–60.
ma una comprobación automática y rutinaria
de las herramientas para comprobar su correcto funcionamiento, evitando ası́ que, debido a actualizaciones del sistema operativo o
cambios en la propia herramienta, éstas queden inoperativas durante largos periodos de
tiempo sin que nadie se percate de ello. La
plataforma, automáticamente, enviará un correo electrónico a los responsables del recurso
cuando detecte algún fallo en alguna de sus
herramientas. Esta comprobación también se
realizará a nivel de servidores InTiMe. Ası́,
cada servidor InTiMe podrá ser controlado
por otros servidores InTiMe para que, periódicamente, se revisen mutuamente.
Por último, y no menos importante, la plataforma InTiMe gestionará, mediante cifrado de claves públicas y privadas, el acceso a
los recursos por parte de los usuarios, permitiendo, de esta manera, que los recursos de
un mismo servidor puedan ser accedidos por
ciertos grupos de usuarios únicamente. Con
este mecanismo podremos reservar recursos
que tengan restricciones de copyright a usuarios con licencias válidas o con aquellas instituciones en las que hayamos concertado un
acuerdo o convenio para el uso de nuestras
herramientas.
Bird, Steven y Edward Loper. 2004. Nltk:
The natural language toolkit. En Proceedings 42nd Meeting of the Association for Computational Linguistics, páginas 214–217, Barcelona, Spain. Association for Computational Linguistics.
Bontcheva, Kalina, Valentin Tablan, Diana
Maynard, y Hamish Cunningham. 2004.
Evolving gate to meet new challenges in
language engineering. Natural Language
Engineering, 10(3/4):349–373.
Cassidy, Steve y Jonathan Harrington. 2001.
Multi-level annotation in the emu speech
database management system. Speech
Communication, 33:61–77.
Cunningham, Hamish, Yorick Wilks, y Robert J. Gaizauskas. 1996. Gate: a general architecture for text engineering.
En Proceedings of the 16th conference on
Computational linguistics, páginas 1057–
1060, Morristown, NJ, USA. Association
for Computational Linguistics.
Ferrucci, David y Adam Lally. 2004. Uima: an architectural approach to unstructured information processing in the corporate research environment. Natural Language Engineering, 10(3-4):327–348.
Agradecimientos
Este trabajo ha sido parcialmente financiado por el proyecto QALL-ME (FP6-IST033860), el cual es el 6th Framenwork Research Programme de la Comunidad Europea, y el proyecto TEXT-MESS (TIN-200615265-C06-01) del gobierno español.
Gómez, José Manuel, Manuel Montes
y Gómez, Emilio Sanchis, y Paolo Rosso.
2005. A passage retrieval system for
multilingual question answering. En Text,
Speech and Dialogue: 8th International
Conference, TSD 2005, volumen 3658
de Lecture Notes in Computer Science,
páginas 443–450, Karlovy Vary, Czech
Republic. Springer Berlin / Heidelberg.
Bibliografı́a
Badia, Toni, Gemma Boleda, Jenny Brumme, Carme Colominas, Mireia Garmendia,
y Martı́ Quixal. 2002. Banctrad: un banco
de corpus anotados con interfaz web. Procesamiento del Lenguaje Natural, 29:293–
294.
Graça, João, Nuno J. Mamede, y João D. Pereira. 2006. Nlp tools integration using a
multi-layered repository. En Proceedings
of the Merging and Layering Linguistic Information Workshop, páginas 24–32, Genoa, Italy.
Bird, Steven, David Day, John Garofolo,
John Henderson, Christophe Laprun, y
Mark Liberman. 2000. Atlas: A flexible and extensible architecture for linguistic annotation. En Proceedings of the
Second International Conference on Language Resources and Evaluation, páginas
1699–1706, Paris, France. European Language Resources Association.
Grishman, Ralph. 1996. Tipster text phase ii architecture design. En Proceedings
of a workshop on held at Vienna, Virginia, páginas 249–305, Morristown, NJ,
USA. Association for Computational Linguistics.
89
José Manuel Gómez
Maeda, Kazuaki, Steven Bird, Xiaoyi Ma,
y Haejoong Lee. 2001. The annotation graph toolkit: Software components
for building linguistic annotation tools.
En Proceedings of the First International
Conference on Human Language Technology Research, Human Language Technology Conference, páginas 1–6, San Diego,
USA. Association for Computational Linguistics.
Monteagudo, Lorenza Moreno y Armando Suárez Cueto. 2005. Una propuesta
de infraestructura para el procesamiento
del lenguaje natural. Procesamiento del
Lenguaje Natural, 35:303–310.
Neff, Mary S., Roy J. Byrd, y Branimir K.
Boguraev. 2004. The talent system: Textract architecture and data model. Natural Language Engineering, 10(3-4):307–
326.
Petersen, Ulrik. 2004. Emdros: a text
database engine for analyzed or annotated text. En COLING ’04: Proceedings
of the 20th international conference on
Computational Linguistics, International
Conference On Computational Linguistics, páginas 1190–1193, Geneva, Switzerland. Association for Computational Linguistics.
Taylor, Paul A., Alan W. Black, y Richard J.
Caley. 1998. The architecture of the the
festival speech synthesis system. En Proceedings Third ESCA/COCOSDA Workshop on Speech Synthesis, páginas 147–152,
Sydney, Australia. International Speech
Communication Association.
90
Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 91-98
recibido 01-02-08, aceptado 03-03-08
Non-Parametric Document Clustering by Ensemble Methods
Clustering No Paramétrico de Documentos mediante Métodos de Consenso
Edgar Gonzàlez
TALP Research Center
c/Jordi Girona, 1-3
08034 Barcelona
[email protected]
Jordi Turmo
TALP Research Center
c/Jordi Girona, 1-3
08034 Barcelona
[email protected]
Resumen: Los sesgos de los algoritmos individuales para clustering no paramétrico
de documentos pueden conducir a soluciones no óptimas. Los métodos de consenso
podrı́an compensar esta limitación, pero no han sido probados sobre colecciones de
documentos. Este artı́culo presenta una comparación de estrategias para clustering
no paramétrico de documentos por consenso.
Palabras clave: Combinación de clusterings, Clustering de documentos, Clustering
no paramétrico
Abstract: The biases of individual algorithms for non-parametric document clustering can lead to non-optimal solutions. Ensemble clustering methods may overcome this limitation, but have not been applied to document collections. This paper
presents a comparison of strategies for non-parametric document ensemble clustering.
Keywords: Clustering combination, Document clustering, Non-parametric clustering
1
Introduction
As the availability of large amounts of textual information is unlimited in practice, supervised processes for mining these data can
become highly expensive for human experts.
For this reason, unsupervised methods are
a central topic of research on tasks related
to text mining. One of these tasks is document clustering. Most of the work in this
area deals with parametric approaches (Zhao
and Karypis, 2004), in which the number of
clusters has to be provided a priori.
On the contrary, non-parametric document clustering can be defined as the process of grouping similar documents without
requiring a priori either the number of document categories or a careful initialization of
the process from a human user. Some approaches to this task consist in repeatedly applying an iterative clustering algorithm (e.g.,
k-Means) to obtain a set of clusterings with
a different number of clusters and starting
conditions each one, and then selecting the
best clustering using some model criterion
(Milligan and Cooper, 1985). Some others estimate the number of clusters a priori
considering mathematical properties of the
input documents, and then apply an iterative clustering algorithm (Li, Ma, and OgiISSN 1135-5948
hara, 2004). Other approaches are based on
the use of a hierarchical clustering algorithm
(e.g., Hierarchical Agglomerative Clustering
(HAC)) and a criterion function to select the
best number of clusters in the dendrogram
(Tibshirani, Walther, and Hastie, 2001). Recently, hybrid methods have been experimented, using the output generated from one
clustering algorithm to initialize another one
(Surdeanu, Turmo, and Ageno, 2005).
However, each proposed algorithm has an
intrinsic and particular bias, uses a certain
document representation, and depends on a
different document similarity measure. All
these assumptions lead the clustering process to a particular solution that may not be
the optimal document clustering. In order to
overcome this limitation, ensemble methods
can be used. From a general point of view,
given multiple clusterings, these methods aim
at finding a combined clustering with better
quality (Topchy, Jain, and Punch, 2005).
Most work in ensemble document clustering has focused on parametric approaches
(Strehl and Ghosh, 2002; Sevillano et al.,
2006; Greene and Cunningham, 2006). However, non-parametric ensemble approaches
for generic clustering have appeared recently,
such as (Gionis, Mannila, and Tsaparas,
© Sociedad Española para el Procesamiento del Lenguaje Natural
Edgar Gonzàlez Pellicer, Jordi Turmo Borràs
2005).
We believe that two questions remain
hence unanswered in the state of the art with
respect to the use of ensemble methods for
document clustering:
representation of the data. It is usual to refer
to the case when the original data are not accessed as cluster ensemble (Strehl and Ghosh,
2002). This setting allows combination of
clusterings obtained using different document
representations. We stick to it in this paper, as it is a more general framework than
the former and, in addition, it is widely used
by the machine learning research community
(Strehl and Ghosh, 2002; Topchy, Jain, and
Punch, 2005).
For our experiments, we have focused on
the non-parametric ensemble clustering approach of (Gionis, Mannila, and Tsaparas,
2005), which includes methods for the determination of the number of clusters. Among
the methods proposed in the paper, we have
chosen the Agglomerative algorithm, enhanced with LocalSearch. This combination was found in preliminary experiments
to outperform the rest of the proposed approaches on the evaluation data collections1 .
• How well do ensemble methods
perform for non-parametric document clustering? Non-parametric
methods have not been tested thoroughly on document collections so far.
• How well do different individual
clustering strategies perform in the
context of non-parametric ensemble document clustering? The influence of the strategy used to find individual clusterings to be later combined has
often been overlooked. Different strategies need to be compared.
This paper deals with both questions.
It evaluates non-parametric clustering algorithms on document collections; and it
presents an empirical comparison of the effectiveness of two different strategies for the
generation of clustering ensembles: one relying on massive randomization of a single
algorithm, and another relying on few but
heterogeneous different algorithms.
The rest of the paper is organized as
follows: Section 2 settles the problem of
non-parametric document ensemble clustering. Sections 3 and 4 describe the two considered generation strategies for the clustering
ensembles. Section 5 then gives an overview
of the experiments performed and their results. Last, Section 6 draws conclusions of
our work.
2
3
Major Ensemble Strategy
There has been recent interest in research
on ensemble clusterings from repeated runs
of randomly initialized algorithms (Topchy,
Jain, and Punch, 2005). In these works, the
results obtained were competitive to other
proposed approaches for a variety of classical clustering problems in machine learning.
For this reason, as a first strategy we have
considered repeatedly applying a single individual clustering method a high number of
times, with different starting conditions selected at random. The main properties of
this strategy are the following:
• The resulting clusterings share the same
data representation.
Non-Parametric Document
Ensemble Clustering
• The algorithm is unique, hence, the implicit bias introduced by the clustering
process is always the same.
Having D = {d1 . . . dn } a set of documents,
a clustering, Π, of this set is a partition of
D into a set, {π1 . . . πk }, of k disjoint clusters, πi . The clustering, Π, can also be
viewed as a function mapping documents, dl ,
onto labels {1 . . . k} corresponding to clusters
{π1 . . . πk }, where Π(dl ) = i ↔ dl ∈ πi .
Bearing this in mind, the aim of clustering
combination is to find a clustering, Π̄, which
is the consensus of r clusterings, {Π1 . . . Πr },
by means of a consensus function Γ.
Two settings are classically considered for
this problem, according to whether the consensus function accesses or not the original
• The size of the ensemble can be high.
The procedure is detailed in Algorithm 1.
First, a number of clusters k from 2 to kmax is
selected at random. Then, k documents are
selected at random from the collection, and
are given as starting centroids to a clustering
algorithm, ϕ. This process is repeated a number of times r, and the r resulting clusterings
1
Further details about these algorithms can be
found on the original paper.
92
Non-Parametric Document Clustering by Ensemble Methods
Algorithm 1 Major ensemble strategy
Parameter:
Parameter:
Parameter:
Parameter:
rithm
1:
2:
3:
4:
5:
6:
deanu, Turmo, and Ageno, 2005), which
has been shown to give good performance for unsupervised document clustering of different real-world collections.
D a document collection
r a natural number
kmax a natural number
ϕ a supervised clustering algo-
• A new version of the previous hybrid
method, based on information theory,
which we have devised specially for this
purpose.
for j = 1 . . . r do
Select a number of clusters at random
kj ∈ {2 . . . kmax }
Select kj documents at random as
starting centroids
Apply ϕ to D to obtain clustering Πj
end for
Return ensemble {Π1 . . . Πr }
A description of each one of them follows.
4.1
In order to generate a dendrogram, the
Agglomerative Information Bottleneck algorithm (aIB) is used. (Slonim, 2003) applies
the algorithm to a variety of standard supervised clustering problems. Particularly, aIB
showed good performance for the task of supervised document clustering.
After the dendrogram is built, the Calinski and Harabasz C score (Calinski and
Harabasz, 1974) is used to determine the level
of the dendrogram at which the best clustering occurs. This score has been compared to
other similar criteria to determine the number of clusters in a collection, and shown
to be the most efficient one (Milligan and
Cooper, 1985). Its value is the normalized
ratio of the inter-cluster distances (between
documents of different clusters) against intracluster distances (within documents of the
same cluster). The level at which this value
is highest is selected as the best estimation of
the number of clusters.
We will refer to this method as Hi.
are combined using the ensemble clustering
function.
The parametric clustering algorithm, ϕ, is
a parameter of the method. For our experiments, we have used the EM-based clustering
algorithm of (Nigam et al., 2000). This algorithm has obtained competitive results for
text classification, and has already been used
for document clustering (Surdeanu, Turmo,
and Ageno, 2005). Other parameters that
need to be chosen are the number of individual clusterings, r, and the maximum number
of clusters, kmax . For the considered document collections, the best results among the
set of explored parameter values were obtained with r = 50 and kmax = 10.
We will refer to this method as Major.
4
Hierarchical Method
Minor Ensemble Strategy
4.2
Whereas the Major combination strategy
we have described in the previous section is
based on the repetition of a randomly initialized single clustering algorithm, the second strategy we have considered, Minor, is
based on the use of a small number of heterogeneous, unsupervised and deterministic
clustering algorithms. As in this case there is
no randomization, it is crucial to the method
that the biases provided by the algorithms be
substantially different from each other. For
this reason we have selected the following unsupervised clustering methods:
Geometric Hybrid Method
The method presented in (Surdeanu, Turmo,
and Ageno, 2005) tries to find a good initial clustering for an iterative refinement algorithm. Iterative refinement algorithms are
known to be efficient and give good performance, but nevertheless are sensitive to the
choice of the initial model, and require the
number of clusters to be provided. In particular, a good estimation of the number of clusters is mandatory for a good initial model,
even if this model does not cover all documents in the collection.
An outline of the procedure follows:
• A classical method, consisting of a hierarchical algorithm and a clustering criterion function.
1. A hierarchical algorithm is used to find
a dendrogram.
• A hierarchical-iterative hybrid method.
Specifically, the hybrid method of (Sur-
2. The inner nodes in the dendrogram are
scored according to different heuristics,
93
Edgar Gonzàlez Pellicer, Jordi Turmo Borràs
based in minimizing the distances within
documents covered by the node, and
maximizing distances to the rest of the
documents2 .
• The distance metric is Jensen-Shannon
divergence. There are other measures
coming from information theory that
could be useful to define a document
distance, such as Kullback-Leibler divergence or mutual information. However,
on the contrary of Jensen-Shannon divergence, they are not symmetric or require absolute continuity.
3. The nodes the best scored according to
the heuristics are chosen as clusters for
an initial clustering candidate. A different candidate is built for each heuristic.
4. These candidates are scored using a
global quality function, and the best
scored candidate is selected.
• The hierarchical algorithm used is aIB.
• The global quality function used is a specially devised Message Length Criterion,
described below in Section 4.3.1.
5. This candidate is used as initial model
for an iterative refinement algorithm, to
produce a final clustering solution.
• The iterative refinement algorithm applied is Divisive Information Theoretical
Clustering (DITC) (Dhillon and Guan,
2003). This algorithm includes devices
to deal with sparseness and high dimensionality of data, and was shown to give
good performance on document collections.
In its original implementation, the method
is specified using a geometric point of view:
• Documents are represented as tf ·idf vectors of words.
• The distance metric is cosine distance.
• The hierarchical algorithm used is HAC
with group average distance as distance
between clusters, which was pointed as
the most suitable distance in HAC context by published evaluations of the algorithm (Zhao and Karypis, 2004).
We will refer to this method as IT.
4.3.1 Message Length Criterion
Classical information theoretical selection
criteria, such as Minimum Description
Length or Minimum Message Length, require
a probability distribution, which cannot be
directly derived from the dendrogram. However, we have devised a criterion to select the
best clustering in the same spirit, based in
coding, messages and lengths.
The idea is to use the information in a
clustering Π to send a collection of documents
D as a message. We first send the send the
centroid of each cluster using a code based
on the meta-centroid of the collection (a first
message of length LC (Π)), and then send the
distribution of words in each document using a code based of the centroid of the cluster to which it belongs (a second message of
length LD (Π)). Using formulae from Information Theory, the total length of this message, L(Π), is roughly:
• The global quality function is Calinski
and Harabasz C score.
• The iterative refinement algorithm applied is the EM-based algorithm of
(Nigam et al., 2000).
We will refer to this method as Geo.
4.3
Information Theoretical
Hybrid Method
Even if geometric clustering methods remain
the state of the art, there has been a recent
interest in applying information theoretical
measures to the task of document clustering (Dhillon and Guan, 2003; Slonim, 2003).
Following this general direction of research,
and to find a view of the data different from
that of Geo, we have made a new version
of the aforementioned hybrid method using
information theoretical concepts:
L(Π) ≈ LC (Π) + LD (Π)
LC (Π) ≈ −
X
p(w|ci ) · log p(w|mc)
πi ∈Π
w
• Documents are represented as conditional probability distributions of words.
LD (Π) ≈ −
X
πi ∈Π
dl ∈πi
w
2
For simplicity, the details about these heuristics
have been elided in this paper.
94
p(w|dl ) · log p(w|ci )
Non-Parametric Document Clustering by Ensemble Methods
Collection
APW
EFE
LAT
REU
SMT
SWB
where w are words, ci are the cluster centroids and mc is the meta-centroid.
We expect better clusterings (i.e. more
suited to the data) to allow better compression of the data and hence, shorter messages.
Therefore, we select the clustering Π which
has the lowest L(Π), expecting it to be the
best.
This formula was the one to give the best
results in preliminary experiments, compared
to a version of the C score using JensenShannon divergence.
Moreover, this formula was appealing to
us because it includes an implicit measure of
the goodness of the number of clusters (more
clusters imply largest LC (Π) but smallest
LD (Π), and vice versa).
5
Cats
11
6
8
10
4
22
Terms
27366
10334
31960
6734
11950
11565
Table 1: Evaluation data sets
SWB A subset of the Switchboard conversational speech corpus, which contains
the 22 topics which were treated in more
than fifty conversations. Each side of the
conversation was considered a separate
document.
Experiments
Following other research work (Zhao and
Karypis, 2004; Surdeanu, Turmo, and Ageno,
2005), the documents were pre-processed by
discarding stop words and numbers, converting all words to lower case, and removing
terms occurring in a single document. Table 1 lists relevant collection characteristics
after pre-processing (number of documents,
categories and terms).
In order to evaluate and compare the performance of the two proposed ensemble strategies, Major and Minor, we have carried
out a series of experiments. The following
sections explain the experimental framework,
and present their results.
5.1
Docs
5000
1979
5000
2545
5467
2682
Evaluation Data
Six different real-world English document
collections have been used in our experiments:
5.2
Evaluation Metrics
The quality of the clustering solutions is measured using the metrics of purity, inverse
purity and F1 . These metrics have been
widely used to evaluate the performance of
document clustering algorithms (Zhao and
Karypis, 2004), and are based in comparing
the clustering to a partition which is considered true.
If we have a partition of the documents in
D into a set of disjoint categories considered
true, these metrics can be defined as:
APW The Associated Press (year 1999)
subset of the AQUAINT collection. Due
to memory limitations in our test machines, the collection was reduced to the
first 5000 documents.
EFE A collection of news-wire documents
from year 2000 provided by the EFE
news agency.
LAT The Los Angeles Times subset of the
TREC-5 collection. For the same reason as in APW, again only the first 5000
documents were selected.
Pur Purity evaluates the degree to which
each cluster contains documents from a
single category. The purity of a cluster
is the fraction of the documents in the
cluster that belong to its majoritarian
category. The overall purity is the average of all cluster purities, weighted by
cluster size.
REU A subset of the Reuters-21578 text
categorization collection, which includes
only the ten most frequent categories.
Similarly to previous work, we use the
ModApte split (Nigam et al., 2000; Surdeanu, Turmo, and Ageno, 2005), but,
since our algorithms are unsupervised,
we use the test partition directly.
IPur Inverse purity evaluates the degree to
which the documents in a category are
grouped in a single cluster. The inverse
purity of a category is the fraction of the
documents in the category that are assigned to its majoritarian cluster. The
SMT A collection previously developed and
used for the evaluation of the SMART
information retrieval system.
95
Edgar Gonzàlez Pellicer, Jordi Turmo Borràs
overall inverse purity is the average of
all category inverse purities, weighted by
category size.
APW
EFE
LAT
REU
SMT
SWB
F1 F1 is a global performance score, and is
calculated as the harmonic mean of purity and inverse purity.
5.3
Geo
0.75
0.61
0.67
0.88
0.85
0.79
Hi
0.74
0.61
0.67
0.79
0.82
0.26
IT
0.63
0.58
0.67
0.76
0.71
0.53
Major
0.75
0.62
0.75
0.88
0.93
0.44
Minor
0.72
0.60
0.67
0.88
0.91
0.66
Experimental Setup
Each collection was clustered using each of
the proposed methods. For the Geo, Hi, IT
and Minor methods, a single run was performed, as these methods are deterministic.
For the Major method, we performed five
runs and the results presented are the average
of all the runs. As mentioned in Section 3,
the results are those obtained with r = 50
and kmax = 10, which were the parameter
values to provide the best F1 scores in average
across all collections.
Table 2: F1 values for all methods and collections
5.4
Table 3: Purity values for all methods and
collections
APW
EFE
LAT
REU
SMT
SWB
Results
Tables 2, 3 and 4 show the results obtained
by each method in each collection. For each
collection, the best results are highlighted.
In addition, Table 5 shows the number of
clusters k estimated by each method in each
collection. We include two numbers for each
method, the total number of clusters (All),
and the number of relevant clusters (Rel).
The reason for this is that we have found that
the Agglomerative algorithm tends to find
a high number of clusters, but many of them
are small, possibly corresponding to outliers
among the data.
Given that these small clusters are not
relevant to the evaluation (and their detection as outliers is, in fact, an advantageous
byproduct of the method), to obtain a more
useful measure we have filtered those clusters
smaller than a fourth of the average category
size in the collection. The remaining ones are
considered relevant, and their number is the
figure appearing in the table. The number
of categories (Cats) in each collection is also
included in the table.
Following sections discuss the obtained results.
Geo
0.78
0.73
0.78
0.84
0.92
0.69
Hi
0.63
0.60
0.66
0.73
0.71
0.15
IT
0.72
0.64
0.75
0.77
0.89
0.38
Major
0.80
0.75
0.73
0.86
0.93
0.29
Minor
0.74
0.70
0.79
0.85
0.93
0.53
it is always comparable to that of the rest of
the methods.
The performance of Minor and Geo is
quite similar in terms of purity, but Minor
suffers from lower inverse purity, so overall its
F1 is also lower. The Hi method usually gives
solutions with a high inverse purity but a low
purity, so in many cases the global F1 scores
are lower than other approaches. Lastly, the
results of IT do not stand out in any aspect,
and its utility outside the Minor combination seems limited, at least at the light of
these results.
Nevertheless, we have applied a Friedman
test, followed by pairwise Nemenyi tests, to
account for statistical significance of these
differences (Demsar, 2006). We only found
that Hi is worse than Major, Minor and
Geo in terms of purity; and that IT is worse
than Major in terms of F1 . No other significant differences were found. This is relevant,
because it means there is no empirical evidence supporting the rejection of any of the
Geo, Major or Minor methods as less suitable to the task than the others, in terms of
purity, inverse purity or F1 score.
5.4.1 Overall Comparison
It can be seen how the Major approach outperforms the rest of the approaches in almost
all collections in terms of F1 , and is also the
best approach in terms of purity in four of
the six collections. Its performance in terms
of inverse purity is not always the best, but
5.4.2
Estimation of the Number of
Clusters
Concerning the estimated number of clusters, we can see how the ensemble-based approaches greatly overestimate the total num96
Non-Parametric Document Clustering by Ensemble Methods
APW
EFE
LAT
REU
SMT
SWB
Cats
11
6
8
10
4
22
Geo
All Rel
10
9
12
7
14
9
6
6
6
5
15
15
All
3
4
6
4
3
3
Hi
Rel
3
4
6
4
3
3
All
8
5
7
6
9
8
IT
Rel
8
5
7
6
7
8
Major
All Rel
60.6 7.0
69.0 6.2
27.2 4.8
18.2 5.2
20.6 4.0
10.4 5.8
Minor
All Rel
19
7
14
7
40
7
13
6
18
4
22
12
Table 5: Number of clusters k for all methods and collections
APW
EFE
LAT
REU
SMT
SWB
Geo
0.73
0.52
0.59
0.92
0.80
0.94
Hi
0.88
0.63
0.68
0.86
0.97
0.92
IT
0.56
0.53
0.61
0.76
0.58
0.91
Major
0.70
0.53
0.79
0.90
0.92
0.97
Minor
0.70
0.53
0.59
0.89
0.90
0.89
across document collections than its components Hi and IT. Moreover, the fact that
neither Hi nor IT do not perform competitively on document collections (particularly
on SWB) suggests that using some other algorithm more suitable for this kind of data
the performance of Minor could be boosted,
and more competitive results could be obtained.
Table 4: Inverse purity values for all methods
and collections
For this reason, together with the facts
that its performance is not significantly worse
than that of Major; that it gives a better estimation of the number of clusters; and that
it has no parameters needing to be tuned,
whereas Major requires the values of kmax
and r have to be determined (see Section 3);
we believe that the Minor method remains
an attractive approach, and that more research should be carried on the topic of small
ensembles of heterogeneous clusterings.
ber of clusters (All). As explained in Section 5.4, this is caused by the presence of a
large number of small clusters, and the figures for the number of relevant clusters (Rel)
are much closer to the actual number of categories (Cats).
However, it can be seen that the estimation of the total number of clusters by Minor
is more accurate than that by Major in all
but the LAT collection. Major shows a bias
for purity, and shows a slightly displeasing
tendency to disgregation.
Regarding the individual methods,
whereas the estimation by Geo and IT is
fairly accurate; Hi shows a tendency to
underestimation, which explains its high
inverse purity values and low purity values.
The individual methods do not present such
a large number of small clusters, which on
the one hand means there is not such a risk
of disgregation, but on the other one can
mean a more limited capability to detect
outliers.
5.4.4
SWB Collection
The main exception to the general behaviour
seems to be the SWB collection. Almost all
methods experiment a considerable decrease
in purity when applied to this data set. We
believe this comes from the fact that the
size of all categories in SWB is quite similar, whereas for the rest of collections a few
large categories cover most of the documents.
This makes the SWB collection harder than
the rest, and specially sensitive to underestimation of the number of clusters.
The fact that all the considered methods
do underestimate the number of clusters (as
can be seen in the Rel columns of Table 5),
causes low values of purity (in some causes
dramatically low, e.g. Hi), and hence of F1 .
Only Geo and, to a lesser extent, Minor
seem able to find a reasonable (even if still
underestimated) number of relevant clusters
(column Rel) in this collection.
5.4.3 Minor Method
As mentioned before, the performance of Minor method is only significantly better than
that of Hi in terms of purity. Nevertheless,
the results of the combination seem comparable to those of Geo, and better than those
of IT.
Overall, Minor offers a greater stability
97
Edgar Gonzàlez Pellicer, Jordi Turmo Borràs
6
Conclusions
clustering.
Technical report, Department of Computer Science, Trinity College
Dublin.
We have studied the application of a nonparametric ensemble clustering approach to
document collections, and considered two different strategies for the generation of the
clustering ensembles. Lastly, we have carried
a set of experiments with real-world data.
At the light of the results, we can conclude
that non-parametric ensemble methods do
perform competitively for clustering of document collections. Regarding the two considered strategies, whereas the Major approach
gives better figures of purity and F1 score,
the differences with Minor are not statistically significant, its estimation of the number
of clusters is worse, and it has a number of
parameters to be tuned.
In addition, there is clearly further room
for improvement in Minor, for instance
through the incorporation of the individual clustering generation strategies studied
in (Sevillano et al., 2006; Hadjitodorov and
Kuncheva, 2007; Luo, Xie, and Li, 2007) as
components of the ensemble. For this and
the previous reasons, we believe that the results of this heterogeneous approach can be
boosted, and that it remains an attractive
approach for the task.
Hadjitodorov, S. and L. Kuncheva. 2007. Selecting diversifying heuristics for cluster
ensembles. In Proc. of MCS.
Li, T., S. Ma, and M. Ogihara. 2004. Document clustering via adaptive subspace iteration. In Proc. of SIGIR.
Luo, H., X. Xie, and K. Li. 2007. A new
method for constructing clustering ensembles. In Proc. of WAPR.
Milligan, G.W. and M.C. Cooper. 1985. An
examination of procedures for determining the number of clusters in a data set.
Psychometrica, 50.
Nigam, K., A. McCallum, S. Thrun, and
T. Mitchell. 2000. Text classification
from labeled and unlabeled documents using EM. Machine Learning, 39(2/3).
Sevillano, X., G. Cobo, F. Alı́as, and J.C. Socoró. 2006. Robust document clustering
by exploiting feature diversity in cluster
ensembles. Procesamiento del Lenguaje
Natural, 37.
Slonim, N. 2003. The Information Bottleneck: Theory and Applications. Ph.D.
thesis, The Hebrew University.
Acknowledgments
This work has been partially funded by the
European CHIL Project (IP-506909); the
Commissionate for Universities and Research
of the Department of Innovation, Universities
and Enterprises of the Catalan Government;
and the European Social Fund.
Strehl, A. and J. Ghosh. 2002. Cluster ensembles - A knowledge reuse framework
for combining multiple partitions. Journal of Machine Learning Research, 3.
Surdeanu, M., J. Turmo, and A. Ageno.
2005. A hybrid unsupervised approach for
document clustering. In Proc. of KDD.
References
Calinski, T. and J. Harabasz. 1974. A dendrite method for cluster analysis. Communications in Statistics, 3.
Tibshirani, R., G. Walther, and T. Hastie.
2001. Estimating the number of clusters
in a data set via the gap statistic. Journal
of the Royal Statistical Society, Series B,
63(2).
Demsar, J. 2006. Statistical comparisons of
classifiers over multiple data sets. Journal
of Machine Learning Research, 7.
Topchy, A., A.K. Jain, and W. Punch. 2005.
Clustering ensembles: Models of consensus and weak partitions. IEEE Transactions on Pattern Analysis and Machine
Intelligence, 27(12).
Dhillon, I.S. and Y. Guan. 2003. Information theoretic clustering of sparse cooccurrence data. In Proc. of ICDM.
Gionis, A., H. Mannila, and P. Tsaparas.
2005. Clustering aggregation. In Proc. of
ICDE.
Zhao, Y. and G. Karypis. 2004. Empirical and theoretical comparisons of selected
criterion functions for document clustering. Machine Learning, 55(3).
Greene, D. and P. Cunningham. 2006. Efficient ensemble methods for document
98
Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 99-105
recibido 01-02-08, aceptado 03-03-08
An Innovative Two-Stage WSD Unsupervised Method
Un Innovador Método No Supervisado para Desambiguación de Sentidos de
Palabras basado en dos etapas
Javier Tejada Cárcamo
Centro de Investigación en Computación.
Instituto Politécnico Nacional.
Ciudad de México, 07738, México
Sociedad Peruana de Computación, Perú.
Alexander Gelbukh, Hiram Calvo
Centro de Investigación en Computación.
Instituto Politécnico Nacional.
Ciudad de México, 07738, México
[email protected]
[email protected], [email protected]
Abstract. An unsupervised method for word sense disambiguation is proposed. The
sense of the word is chosen to be the most similar to the senses of other words that appear
in the corpus in similar contexts. Training consists of building a weighted list of related
words (quasi-synonyms) for each word; the weights are obtained by measuring similarity
between the word’s contexts. We adapt the algorithm of McCarthy et al. 2004 for finding
the best sense in each occurrence, instead of finding the predominant sense of each word
in the entire corpus. Their maximization algorithm allows then each quasi-synonym to
accumulate a score for each ambiguous word sense; the sense with the highest score is
chosen. We obtain a top precision of 69.86% using the same corpus for training and
disambiguating.
Keywords: Natural Language Processing, Unsupervised Machine Learning, Word Sense
Disambiguation, Semantic Similarity.
Resumen: Se propone un método no supervisado para la desambiguación de sentidos de
palabra. El sentido de un vocablo ambiguo depende de los sentidos de otras palabras que
aparecen en contextos similares en un corpus. El entrenamiento consiste en obtener una
lista ponderada de sinónimos o palabras relacionadas (quasi-sinónimos) para cada
vocablo del corpus tomando en cuenta la similitud de sus contextos. Adaptamos el
algoritmo de McCarthy et al. 2004 para encontrar el mejor sentido de cada ocurrencia, en
lugar de encontrar el sentido predominante de cada palabra en todo el corpus. Su
algoritmo de maximización permite entonces que cada quasi-sinónimo acumule puntaje
para cada sentido del vocablo ambiguo. El sentido con puntaje más alto es el
seleccionado. Se obtuvo una precisión máxima de 69.86% usando el mismo corpus para
entrenamiento y desambiguación.
Palabras clave: Procesamiento de Lenguaje Natural, Aprendizaje no Supervisado,
Desambiguación de Sentidos de palabras, Similitud Semántica.
1
Introduction
Word sense disambiguation (WSD) consists of
determining the sense expressed by an
ambiguous word in a specific context. For
example, for doctor there are three senses listed
in WordNet: (1) a person who practices
medicine, (2) a person who holds a Ph.D.
ISSN 1135-5948
degree from an academic institution; and (3) a
title conferred on 33 saints who distinguished
themselves through the orthodoxy of their
theological teaching. In order to find the right
structure from a text the right sense of a
particular word must be chosen.
There are two different types of methods to
approach this problem: supervised and
unsupervised. Supervised methods consist of
© Sociedad Española para el Procesamiento del Lenguaje Natural
Javier Tejada-Cárcamo, Alexander Gelbukh, Hiram Calvo
classifiers which associate a specific context to
each sense of the ambiguous word using
manually tagged corpora. In this way,
supervised methods determine the sense of
future ambiguous instances of a word. This
process is costly mainly in building a tagged
corpora: a large quantity of annotated text is
needed for a good performance. If there are not
enough ambiguous word instances, the problem
of data sparseness arises. Many unsupervised
methods try to build these classifiers
automatically, obtaining contexts by sense.
Other methods, based on the assumption that
different words have similar meanings if they
are presented in similar contexts, try to get
contexts by word. (Pedersen et al., 2004). These
contexts are used in later stages of clustering
and word sense discrimination techniques.
(Leacock, C. and M. Chodorow. 1998)
In our method, we obtain a list of synonyms
or related words (quasi-synonyms) for each
ambiguous word. That is, other words that are
used in contexts similar to those surrounding
the ambiguous word, within a specific corpus.
These quasi-synonyms will determine the sense
for a word using the maximization algorithm
presented in (McCarthy et al. 2004). This
algorithm allows each quasi-synonym to
accumulate a score for each sense of the
ambiguous word, so that the sense which has
the highest score is chosen.
The main contribution of this work is the
method of obtaining quasi-synonyms. For this
purpose we collect all the contexts in a corpus
where a specific word is present, and then we
use this information to build a semantic
similarity model that measures the semantic
distance between the words of the training
corpus. The quasi-synonyms of an ambiguous
word are those which are the closest by their
contexts.
Quasi-synonyms of any word change
dynamically depending on their local contexts
and the corpus. For example, in The doctor
cured my wounds with a medicine, the quasisynonyms for doctor would be: physician,
medicine, alcohol, lint; however, in The doctor
published his latest research in the conference,
the quasi-synonyms of doctor would be
scientific, academic, university, conference.
Originally, the maximizing algorithm
proposed in (McCarthy et al. 2004) was used to
obtain the predominant sense of a word. In their
work, the context for the ambiguous word is not
considered: Its quasi-synonyms are obtained
from Lin’s Thesaurus (Lin, D. 1998). In The
stars of the sky are brighter in the coastline, the
top 5 quasi-synonyms from the Lin’s thesaurus
for the word star are: fame, glamour, money,
Hollywood, constellation. We can see here that
these quasi-synonyms reflect poorly the sense
of heavenly body.
We will describe further details of our
method in the following sections. Section 2
describes the training stage; Section 3 describes
the disambiguation stage. Section 4 describes
our experiments. Finally, we conclude in
Section 5.
2
Training Stage
Training consists of creating a semantic
similarity model for each corpus to be
disambiguated. The model was built as a Word
Space Model (WSM) (Karlgren, J. and M.
Sahlgren. 2001), which determines the
proximity or semantic distance between the
words of a corpus. First we obtained the
contexts in which each word is presented in a
particular corpus. This information was then
organized in our WSM. (Schütze, H. 1993).
2.1
Obtaining Contexts
The first step in building a semantic similarity
model is to collect all the contexts for each
word in a corpus. Among the definitions of
context, we have chosen syntactic context. We
used MINIPAR syntactic analyzer presented in
(Lin, D. 1998), to obtain dependency
relationships in a corpus. Dependency
relationships
are
binary
asymmetric
relationships between a head word and a
modifier word. These dependency relationships
build a tree that connects all the words in a
sentence (Allen, J. 2000). A head may have
several modifiers, but each modifier has only
one head. (Mel’čuk, Igor A. 1987).
Once we have a tree, we apply further
transformations to filter out less useful
relationships: Ignore prepositions – see Figure 1
and Include sub-modifiers as modifiers of the
head – see Figure 2.
We obtain syntactic modifier dependencies
for each word in the corpus. See formula (1)
L ( word n ) = {( mod 1 , f 1 ),...., ( mod n , f n )} (1)
where wordn is a word in the corpus, modn is
a syntactic modifier of wordn, and fn is the
100
An Innovative Two-Stage WSD Unsupervised Method
frequency of modn and wordn appearing
together.
In our method, the number of dimensions of
the WSM is the same as the number of different
words in the corpus. Each word is represented
by a vector and the word’s modifiers determine
the weight w in each dimension. This value is
calculated as the product of TF and IDF
corresponding to that modifier. The weight
represents the affinity degree between a word
and a modifier when they are represented in the
model. TF reflects the importance of a modifier
with regard to the word that it is modifying. Its
value is greater if the modifier appears more
often with that word. IDF measures the
importance of a modifier with respect to the
remaining words in the same corpus. The
weight of a modifier decreases if it appears
more often with other heads of the corpus, and
it increases when it appears with a smaller
number of words. This is because highly
frequent modifiers have a low factor of
discrimination when words are represented by a
vector (Schütze, H., and J. Pedersen. 1993).
Formulas 2, 3, y 4 show these measures.
winds
winds
of
change
change
Figure 1: Ignoring prepositions
sell
sell
beautiful
beautiful
flowers
flowers
Figure 2: Sub-modifiers as modifiers of a head
2.2
Semantic Similarity Model
Once the syntactic context for each word has
been obtained, we use a Word Space Model
(WSM) to represent the information to be used
for measuring semantic similarity. WSM is a
spatial representation of word meaning. The
main idea behind WSMs is that semantic
similarity can be represented as proximity in an
n-dimensional space, where n can be any
integer ranging from 1 to some very large
number.
This term is due to (Schütze, H. 1993), who
defines it as follows: Vector similarity is the
only information present in Word Space:
semantically related words are close, unrelated
words are distant. WSM is based on the
geometric metaphor of meaning proposed in
(Lakoff, G., and M. Johnson. 1980), (Lakoff,
G., and M. Johnson. 1999) and the
distributional hypothesis. (Schütze, H., and J.
Pedersen. 1993) argue that meanings are
locations in a semantic space, and semantic
similarity is the proximity between those
locations and (Sahlgren, Magnus. 2006) argue
that words with similar distributional properties
have similar meanings.
Implementation of WSM is based on the
model of vector space, also known as the TFIDF scheme (term frequency - inverse document
frequency). This model is usually used for
classification tasks and for measuring document
similarity. Each document is represented by a
vector whose number of dimensions is equal to
the quantity of different words that are in it.
f i, j =
freqi , j
max freql , j
idfi = log
N
ni
wi = fi , j × idf i
(2)
(3)
(4)
Where freqi,j is the frequency of the
modifieri with wordj, max freqi is the highest
frequency of the modifiers of wordj, N is the
number of words in the corpus, ni is the number
of words which modifieri modifies, and wi is the
final weight.
The weights w calculated for all modifiers of
each word are represented as a vector in our
WSM. See formula 5.
V ( word i ) = {( dim 1 , w1 ),...., ( dim n , w n )}
(5)
Where V(wordi) is the vector which
represents word i , n is the number of dimensions
of our WSM, dimn is each dimension of the
WSM (there are as many dimensions as there
are different words in the corpus), and wn is the
weight assigned to dimn. Several dimensions for
a word are weighted as 0 because the modifier
corresponding to that dimension was not found
related to this word.
101
Javier Tejada-Cárcamo, Alexander Gelbukh, Hiram Calvo
3
weighted list of quasi-synonyms represented in
Formula 7.
Disambiguation stage
In this stage we describe how the sense of an
ambiguous word is obtained, considering its
syntactic context, the created word space
model, and the maximization algorithm
proposed in (McCarthy et al. 2004). In that
work, McCarthy et al. propose obtaining the
predominant sense in a word for the overall
corpus, while we adapt their algorithm to a
local context, finding a different sense for each
context.
3.1
QS ( word i ) = {( qs 1 , w 1 ),...., ( qs n , w n )}
Where qs1 is the quasi-synonym that is the
most semantically related to the ambiguous
word wordi and qsn is the quasi-synonym that is
the least related to wordi. wn is the weigth of
qsn.
3.2
Choosing the right sense
Once the quasi-synonym list has been
obtained, we use the maximization algorithm
proposed in (McCarthy et al. 2004) to label
syntactically the ambiguous word. This
algorithm allows each quasi-synonym to
accumulate a score for each sense of the
polysemous word. The sense with the highest
score is selected. Formulas 8, 9 and 10 show
how the quasi-synonym list accumulates a score
for a sense. See also Figure 4.
Obtaining Quasi-Synonyms
One of the premises of the context similarity
concept can be stated as: two different words
are semantically related if they are presented in
similar contexts. Based on this premise, we try
to find terms which are used in contexts similar
to those of the ambiguous word. We call these
terms quasi-synonyms. These terms vary
depending on the syntactic context of the word
and the corpus from which the WSM has been
created, as Figure 3 shows.
Syntactic context of
ambiguous word
Weight ( wsi ) =
PNorm ( wsi ) =
→
→
vj
(6)
→
×
P ( w, qs j ) × PNorm ( wsi ) (8)
pswn( wsi , qs j )
∑
pswn( wsi , qs j )
∈ sentidos ( w )
(9)
In this equation, w is the ambiguous word,
wsi is each one of the senses of w, QSw is the set
of quasi-synonyms of w, and qsj is each quasisynonym. P(w, qsj) represents the semantic
similarity between w and qsj. This value has
been computed in the WSM. PNorm represents
how we normalize the weight of wsi using all
the senses of w and the current qsj.
The function pswn returns the sense of a
word that has the greatest semantic similarity to
a particular sense. For example, pswn (wsi,qsj)
compares all the senses of the quasi-synonym
qsj with wsi and obtains the sense of qs j which
has more semantic similarity with regard to wsi.
We use WordNet::Similarity presented in
(Patwardhan et al., 2003) to measure semantic
similarity between two senses. This is a set of
libraries that implement similarity and semantic
relationship measures in WordNet (Miller, G.,
1990)1. Following (McCarthy et al. 2004), we
used Jiang–Conrath (JCN) measure.
Extraction of Quasi-synonyms consists of the
following steps: First, we extract the syntactic
dependencies for each ambiguous word and
then we create a query vector with the same
number of dimensions as the WSM. This vector
is compared with each of the vectors which
represent the words of the corpus in the WSM.
There are several ways to compute the
similarity between two vectors (Patwardhan et
al., 2003). In our method this is determined by
the cosine value of the angle measured between
such vectors (Formula 6).
Cosine_value =
qs j ∈QS w
pswn ( w si , qs j ) = max s x ∈ senses ( qs j ) ( pswn ( w si , s x ))(10)
Figure 3: Obtaining Quasy-Synonyms
→
∑
wsi
Query Quasi-Synonyms
WSM
vj• q
(7)
q
→
Where v j is the vector that represents each
→
word in the corpus and q j is the query vector
which represents the syntactic context of the
→
1
These measures were proposed in (Resnik, P.
1995), (Lin, D. 1998), (Jiang, J. and D. Conrath.
1997) and (Leacock, C. and M. Chodorow. 1998).
ambiguous word. After comparing q j with
every other word of the WSM, we obtain a
102
An Innovative Two-Stage WSD Unsupervised Method
For evaluating, we considered the number of
quasi-synonyms to choose the right sense. For
most of the comparisons, we conducted
experiments for the first 10, 20, 30, 40, 50, 60,
70, 100 and 1000 words from the weighted list
of quasi-synonyms.
In both experiments, general results for 10%
of the remaining of Semcor corpus were better
than for the Senseval-2 corpus. In the first
experiment, the best result using Semcor
evaluation was 69.86% precision and in the
second one 73.07% precision (See Table 1.
Blank cells correspond to experiments not
conducted.) These particular results are better
than the 64% precision obtained in (McCarthy
et al. 2004). However, there are many
differences, which must be taken into account,
between these and McCarthy's experiments:
McCarthy used Senseval-2 in the evaluation
and the Lin’s thesaurus for creating the
equivalent of our WSM to obtain a weighted
list; also McCarthy’s goal was to find the
predominant sense whereas our goal was to find
the specific sense of an ambiguous word in a
context. The results of the second experiment,
in which we used the Senseval-2 corpus in our
evaluation are better than all the unsupervised
methods presented in Senseval-2 (See Table 2).
Figure 4: Scoring a sense
4
Experiments
In this section we describe our experiments.
We created a WSM using 90% of SemCor
corpus (we did not use tags for training). We
evaluated the model with the remaining 10% of
SemCor and Senseval-2 (all words nouns only).
We chose these corpora to be able to compare
with related works such as McCarthy et al.
We created a WSM using British National
Corpus, and evaluated it with the same data that
was used in the previous experiment.
When using a corpus for creating a WSM,
the semantic tags of word senses are not
considered. These tags refer to specific synsets
in WordNet
In these experiments we disambiguated only
nouns, because JCN measure is based on
WordNet, which does not have populated
hierarchies for adjectives or adverbs. Usually
verbs are not disambiguated, because they are
highly polysemous and the difference between
each of their senses is very fine graded.
Rank
1
2
3
4
5
6
7
8
9
Number of top quasi-synonyms
Trained on: SemCor BNC SemCor BNC
Tested on:
Senseval-2
SemCor
44.22 51.35 64.23 73.07
10
20
44.77 52.88 69.44 60.00
30
45.91 53.33 67.36 65.27
40
45.76 53.33 66.43 65.16
50
45.55 53.33
67.8
63.8
48.12 55.36 68.15 63.41
60
70
49.84 57.22 69.86 63.84
100
48.80 56.02 69.86 62.33
200
49.05 57.57 66.75 61.58
500
49.10 58.79 65.89 61.08
1000
44.55 54.27 65.06 61.08
2000
41.05 51.75
62.76 61.08
10
11
System
Recall
0.69
SMUaw
0.636
CNTS-Antwerp
0.618 Sinequa-LIA-HMM
0.587
Our Method
0.569
UNED - AW-U2
0.55
UNED - AW-U
0.454
UCLA - gchao2
0.453
UCLA - gchao3
0.451
CL Research DIMAP
0.451 0.451
CL Research DIMAP (R)
0.5 0.449
UCLA - gchao
Prec.
0.69
0.636
0.618
0.587
0.575
0.556
0.475
0.474
0.416
Sense
tagged
data?
Y
Y
Y
N
N
N
Y
Y
N
N
Y
Table 2: The Top-10 Systems for Senseval-2
The main goal of this article is to
demonstrate how WSD can be improved if we
train our method with the same corpus that we
use in the evaluation. This hypothesis was
confirmed in the first experiment. However, the
results obtained in the second experiment did
Table 1: Precision, training with SemCor and
BNC / evaluation with SemCor and Senseval-2
103
Javier Tejada-Cárcamo, Alexander Gelbukh, Hiram Calvo
not confirm our hypothesis entirely. We would
expect that training with BNC and evaluating
with a fragment of Senseval-2 corpus would be
better than evaluating with Semcor. The
English Senseval-2 corpus is sampled from
BNC and Penn Treebank (comprising
components from the Wall Street Journal,
Brown, and IBM manuals).
We believe that these surprising results are
due to the affinity between Semcor and
WordNet, which have been reflected in the
measure we have used: JCN. This measure uses
the information content concept obtained from
the SemCor corpus itself in the package
WordNet::Similarity.
The concept of
information content, where a value is assigned
to the specificity of a concept, was introduced
in (Resnik, P. 1995). A concept with a high
information content is closely related to a
particular subject, whereas a concept with a low
information content is associated to more
general subjects. For example, the expression
carving fork has a high information content,
while entity has a very low information content.
terms is not always the same; it depends on the
context of the ambiguous word and the corpus
wherefrom the resource is created.
The main goal of the method presented in
(McCarthy et al. 2004) is to obtain the
predominant sense for a word, and not the sense
expressed in a particular context unless it
coincides with the predominant sense; however,
the results that they obtained are better than
those of any unsupervised method which look
for the sense of a word within a context. By
substituting the Lin’s thesaurus with a syntactic
resource built specifically for the corpus to be
disambiguated our method improves these
results.
Thus, the main difference between the
method proposed in (McCarthy et al. 2004) and
that of ours lies in the list of related terms,
which are used by the maximizing algorithm to
infer the sense of a word. We can conclude then
that the weighted list is an important factor for
the disambiguation process in our method.
Another conclusion is about the optimal
number of quasi-synonyms that we need in
order to disambiguate a word within a specific
context. In the first experiment, the results are
very irregular; in the second one, the best result
was obtained where we used ten quasisynonyms. The quality of quasi-synonyms
seemed to be related with the WSM. In the
second experiment the WSM was built with
BNC (100 million words) and in the first one
with SemCor (1 million word). We believe that
strong quasi-synonyms are enough to
disambiguate a word with the McCarthy et al.
algorithm.
The
computational
cost
of
our
disambiguation algorithm is the same than the
one proposed by McCarthy et al. The
performance of both algorithms depend of
WordNet:Similarity package performance and
obviously WordNet too.
As a future work, we plan to obtain the
information content from BNC and repeat the
second experiment to see the impact of that
concept on the JCN measure and on our
method. Also we plan to do testing with wider
local contexts. This could be done by
considering several levels of the syntactic
dependency tree and wider co-occurrence
windows, or a combination of both strategies.
Finally, we will build a denser WSM using the
Google corpus to obtain the strongest possible
quasi-synonyms
5 Conclusions
The method we presented is useful for
disambiguating a corpus trained with itself (the
first stage consists of training on the corpus
itself, the second stage is disambiguation), as
shown by the results of training with 90% of
SemCor and evaluating with its remaining part.
Note that this is not the usual training and test
as in supervised learning algorithms, since we
are not using sense tags for learning.
Our method obtained better results than all the
unsupervised methods presented in Senseval-2.
This allows to extend the method proposed in
McCarthy et al., which is used for finding the
predominant sense of a word in certain corpus,
to adaptively use context to find the correct
sense of a word using local information.
The method proposed in (McCarthy et al.
2004) is used to find the most predominant
sense of an ambiguous word considering a
weighted list of related terms. In their work,
these terms are from the Lin’s thesaurus (Lin,
D. 1998). This list is always the same for any
ambiguous instance of a word, because it does
not depend on its context. Our method does not
use the Lin’s thesaurus. Instead, a specific
WSM is created for the corpus to be
disambiguated. This way, the list of weighted
104
An Innovative Two-Stage WSD Unsupervised Method
Patwardhan, S., S. Banerjee, and T. Pedersen.
Using measures of semantic relatedness for
word sense disambiguation. 2003. In
Proceedings of the Fourth International
Conference on Intelligent Text Processing
and Computational Linguistics, Mexico
City.
Bibliography
Allen, J., D. Byron, M. Dzikovska, G.
Ferguson, L. Galescu, y A. Stent. 2000. An
Architecture for a Generic Dialogue Shell.
Natural Language Engineering. Volume 6,
Issue 3-4.
Pedersen, T., S. Patwardhan and J. Michelizzi.
2004. WordNet::Similarity - Measuring the
Relatedness of Concepts. Proceedings of the
Nineteenth
National
Conference
on
Artificial Intelligence (AAAI-2004). pp.
1024-1025, 2004. San Jose, CA.
Hays, D. 1964. Dependency theory: a
formalism
and
some
observations.
Language. 40:511-525, 1964.
Jiang, J. and D. Conrath. 1997. Semantic
similarity based on corpus statistics and
lexical
taxonomy.
In
International
Conference on Research in Computational
Linguistics. Taiwan.
Pedersen, T. and A. Kulkarnu. 2007.
Unsupervised Discrimination of Person
Names in Web Contxts. 8th Internacional
Conference, CICLing 2007, México.
Karlgren, J. and M. Sahlgren. 2001. From
Words to Understanding. In: Foundations of
Real-World Intelligence. CSLI Publications,
Stanford, California, pp. 294-308.
Resnik, P. 1995. Using information content to
evaluate semantic similarity in a taxonomy.
In Proceedings of the 14th International
Joint Conference on Artificial Intelligence,
Montreal.
Lakoff, G., and M. Johnson. 1980. Metaphors
we live by. Chicago: University of Chicago
Press.
Lakoff, G., and M. Johnson. 1999. Philosophy
in the esh: The embodied mind and ts
challenge to western thought. New York:
Basic Books.
Schütze, H. 1992. Dimensions of meaning. In
Proceedings of the 1992 ACM/IEEE
Conference
on
Supercomputing,
Supercomputing'92. pp. 787–796. IEEE
Computer Society Press.
Leacock, C. and M. Chodorow. 1998.
Combining local context and WordNet
similarity for word sense identification. In
C. Fellbaum, editor, WordNet: An electronic
lexical database, pages 265–283. MIT Press.
Schütze, H. 1993. Word space. In Proceedings
of the Conference on Advances in Neural
Information Processing Systems. NIPS'93.
pp. 895–902. San Francisco, CA, USA:
Morgan Kaufmann Publishers Inc.
Lin, D. 1998. Automatic retrieval and clustering
of similar words. In Proceedings of
COLING-ACL 98, Montreal, Canada.
Schütze, H., and J. Pedersen. 1993. A vector
model for syntagmatic and paradigmatic
relatedness. In Making sense of words. pp.
104–113. Oxford, England: Ninth Annual
Conference of the UW Centre for the New
OED and Text Research.
Lin, D. 1998. Dependency-based Evaluation of
MINIPAR. In Workshop on the Evaluation
of Parsing Systems, Granada, Spain.
Sahlgren, Magnus. 2006. The Word-Space
Model Using distributional analysis to
represent syntagmatic and paradigmatic
relations between words in high-dimensional
vector spaces. Ph. D. dissertation,
Department of Linguistics, Stockholm
University.
McCarthy, D., R. Koeling, J. Weeds and J.
Carroll. 2004. Finding predominant senses
in untagged text. In Proceedings of the 42nd
Annual Meeting of the Association for
Computational
Linguistics,
Barcelona,
Spain.
Mel’čuk, Igor A. 1987. Dependency syntax;
theory and practice. State University of New
York Press, Albany.
Miller, G., 1990. WordNet: an On-Line Lexical
Database,
International
Journal
of
Lexicography.
105
Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 107-114
recibido 02-02-08, aceptado 03-03-08
Applying a culture dependent emotion triggers database for text
valence and emotion classification
Definición de disparador de emoción asociado a la cultura y aplicación a la
clasificación de la valencia y la emoción en textos
Alexandra Balahur
Universidad de Alicante, DLSI
Apartado de Correos 99
E-03080, Alicante
[email protected]
Andrés Montoyo
Universidad de Alicante, DLSI
Apartado de Correos 99
E-03080, Alicante
[email protected]
Resumen: Este artículo presenta un método de identificación y clasificación de la valencia y las
emociones presentes en un texto. Para ello, se introduce un nuevo concepto denominado
disparador de emoción. Inicialmente, se construye de forma incremental una base de datos
léxica de disparadores de emoción asociados a la cultura con la que se quiere trabajar,
basándose en tres teorías diferentes: la Teoría de la Relevancia de Pragmática, la Teoría de la
Motivación de Maslow de Psicología y la Teoría de Necesidades de Neef de Economía. La base
de datos creada parte de un conjunto inicial de términos y es ampliada con la información de
otros recursos léxicos, como WordNet, NomLex y dominios relevantes. El enlace entre idiomas
se hace por medio de EuroWordNet y se completa y adapta a diversas culturas con bases de
conocimiento específicas para cada lengua. También, se demuestra cómo la base de datos
construida puede ser utilizada para buscar en textos la valencia (polaridad) y el significado
afectivo. Finalmente, se evalúa el método utilizando los datos de prueba de la tarea nº 14 de
Semeval “Texto afectivo” y su traducción al español. Los resultados y las mejoras se presentan
junto con una discusión en la que se tratan los puntos fuertes y débiles del método y las
directrices para el trabajo futuro.
Palabras clave: disparador de emoción, base de datos léxica, teoría de la relevancia,
motivación, modelo cognitivo de construcción e integración
Abstract: This paper presents a method to automatically spot and classify the valence and
emotions present in written text, based on a concept we introduced - of emotion triggers. The
first step consists of incrementally building a culture dependent lexical database of emotion
triggers, emerging from the theory of relevance from pragmatics, Maslow´s theory of human
needs from psychology and Neef´s theory of human needs in economics. We start from a core
of terms and expand them using lexical resources such as WordNet, completed by NomLex,
sense number disambiguated using the Relevant Domains concept. The mapping among
languages is accomplished using EuroWordNet and the completion and projection to different
cultures is done through language-specific commonsense knowledge bases. Subsequently, we
show the manner in which the constructed database can be used to mine texts for valence
(polarity) and affective meaning. An evaluation is performed on the Semeval Task No. 14:
Affective Text test data and their corresponding translation to Spanish. The results and
improvements are presented together with an argument on the strong and weak points of the
method and the directions for future work.
Keywords: emotion trigger, lexical database, theory of relevance, human motivation,
construction and integration cognitive model
ISSN 1135-5948
© Sociedad Española para el Procesamiento del Lenguaje Natural
Alexandra Balahur, Andrés Montoyo
1
¨esteem¨, ¨family¨ and so on. We will use this
defined notion to build a database of such
emotion triggers, classify them and integrate
them in a system which spots and classifies text
valence and emotion.
Introduction
In recent years, there has been growing interest
in studying the methods through which emotion
is expressed in written text. Whether it is
mining for customer opinions, or tracing
attitudes towards different topics of interest,
tools and applications aiming at discovering
sentiment, spotting and, moreover, interpreting
emotion in text is highly applicable to various
natural language processing areas. Some
important examples include word sense
disambiguation (Wiebe and Mihalcea, 2006),
multi-document
summarization,
multiperspective question answering and speech
generation.
Present work in the field focused on
determining methods to capture emotion and
opinion arising from written text, at a word
level – identifying positive or negatve
sentiment of words (Esuli and Sebastiani,
2005), sentence or phrase level (Kim and Hovy,
2006), document level (Hu and Liu, 2004).
Lexical resources born from these endowments
are WordNet Affect (Strapparava and Valitutti,
2004) and SentiWordNet (Esuli and Sebastiani,
2006), both for English. Lexical databases
were in turn completed in several approaches
toward sentiment analysis with lexical and
commonsense knowledge databases such as
ConceptNet (Liu and Singh, 2007), word
similarity measures using WordNet (Fellbaum,
1999), rules for determining text polarity using
word and part-of-speech composition rules (Al
Masum et al, 2007), statistical and machine
learning methods (Wiebe et al., 2005). To our
knowledge, there has been little work done
towards obtaining lexical databases of affective
terms on other languages than English
(Mihalcea et al., 2007) and no work that
included motivational theories to fundament the
emotional effect of text.
The method presented herein was
developed in view of a novel perspective of
emotion detection and interpretation, based on
the defined notions of ¨emotion triggers.
An ¨emotion trigger¨ is a word or concept
expressing an idea, that depending on the
reader´s world of interest, cultural, educational
and social factors, leads to an emotional
interpretation of the text content or not.
Examples of emotion triggers are ¨freedom¨,
¨salary¨,
¨employment¨,
¨sale¨,
¨pride¨,
2
Theories and Resources
The motivation for introducing the concept
of ¨emotion triggers¨ is found in the
assumptions and principles of the relevance
theory from pragmatics. Abraham Maslow´s
theory of human motivation and its
corresponding pyramid offer the method to
classify the emotion triggers and create rules of
emotion trigger interaction. In parallel, we
apply Neef´s matrix of fundamental human
needs to create a need-satisfier system of
emotion triggers.
2.1
Theory of Relevance
¨The Theory of Relevance¨ (Sperber and
Wilson, 2004), from pragmatics, states in the
cognitive principle that ¨human cognition tends
to be geared toward the maximization of
relevance¨, that is, from the multiple stimuli
present in a communication, be it written or
spoken, a person will choose the one with
highest significance to its world of interest,
activating the stimuli whose interpretation
could bring it important information and
inhibiting those it holds as unimportant. These
statements, together with the principles of the
relevance theory, can be seen to explain also the
process of emotionally interpreting a text.
The theory of relevance contains no explicit
mentioning or classification of what could
constitute stimuli to a person. To that respect,
we considered a good classification the one
made by Abraham Maslow, under the form of a
5-level pyramid of human motivations.
2.2
Maslow´s Pyramid of Motivations
Abraham Maslow (Maslow, 1943), classified
the human needs and motivational factors into a
5-level pyramid, from the basic, physiological
ones, to the more education and personal level
of development dependent ones. Needs as food,
shelter, peace are at the bottom of the pyramid,
whereas needs for self achievement, fame, glory
are at the top. The basic needs are the general
human ones; as we move towards the top, we
find the more individual dependent ones.
108
Applying a culture dependent emotion triggers database for text valence and emotion classification
is made up of emotion triggers. It contains the
terms that carry in themselves an emotion or a
conjunct of emotions, each in a certain
percentage. Such a resource has not been built
so far and constructing it is the starting point of
our method. The fourth component is period,
culture and place dependent. It consists of the
concepts that become emotion triggers due to
the degree of importance they are given in the
media, in conjunct with the emotions they are
associated with. Also, important events in the
history or recent past of an individual, as well
as society are considered as being emotion
triggers. Examples of such emotion triggers are
¨9/11¨, ¨Second World War¨ etc. It is important
to make the observation that these four
components are not disjoint sets, neither are
they fixed as components or constant among
individuals. On the contrary, each can evolve in
time, when ordinary words become emotion
triggers and when emotion triggers in the fourth
component lose impact and become ordinary
words. Furthermore, by using the principles of
the theory of relevance, we state that the ¨bag of
knowledge¨ (BK) consists of different levels of
factors, different as importance and by
assigning this importance quotient, a system
analyzing text will be able to tell the difference
between relevant and irrelevant information.
We further consider that the interpretation is
also dependent on the source of the text and the
relation the reader has with it or the a priori
knowledge on the degree of trust, reliability of
the text source or the attitude of agreement or
disagreement of the reader towards the latter.
Figure 2 shows the architecture for the analysis
of
emotion
in
text:
2.3 Neef´s Matrix of Fundamental
Human Needs
Among the critics of the Maslow theory of
human needs is Manfred Max Neef, whose
theory (Max-Neef, 1991) describes the
economical perspective of fundamental human
needs. According to Max-Neef, human needs
are equally important, few, finite and
classifiable.
Max-Neef
classifies
the
fundamental human needs as: subsistence,
protection,
affection,
understanding,
participation, recreation, creation, identity and
freedom. Needs are also defined according to
the existential categories of being, having,
doing and interacting, and from these
dimensions, a 36 cell matrix is developed.
3
Emotion Trigger Method
Our emotion trigger method starts from the idea
that words in text carry no affectivity, but
become emotionally charged depending on the
interpretation they are given by each reader´s
world of interest and the intention and world of
interest of the author. This world of interest is
made up of general, personal needs and
motivation factors, notions satisfying these
needs, knowledge on the historical and social
facts, information vehiculated in the media
(media news) and so on. We call this collection
of factors “bag of knowledge” (figure 1).
Bag of knowledge
General
knowledge
about words
and meanings
of words
General
affectiv
e terms
Emotion
triggers
Media
news
Figure 1. Model for the reader analysis of text
The first component of the bag of knowledge is
made up of general knowledge about words and
meanings of words. It contains what words can
mean, the manner in which they are linked, how
they change their meaning. The second
component is formed of general affective terms,
as ¨kind-hearted¨, ¨furious¨, ¨anxious¨, ¨fear¨
and so on. They express emotion, but do not
necessarily induce emotion. For example, a title
such as ¨Feared opponents, defeated without
problems¨ has no connection to the idea of fear.
Such classification of words can be found in
lexical affective resources such as WordNet
Affect or SentiWordNet. The third component
Figure 2. Architecture for the analysis of emotion in
text
The system implemented by following the
above architecture identifies the corresponding
109
Alexandra Balahur, Andrés Montoyo
¨bag of knowledge¨ of a reader and uses it to
spot and classify text valence and emotion
according to it.
In the following subsections, we start by
presenting the steps we performed in order to
build the lexical databases of emotion triggers
for English and Spanish, the process of
mapping the concepts found in English to their
correspondents in Spanish and the process of
projection to culture dependent knowledge
bases for both languages. Further, we explain
the method used for assigning valence and
classifying emotion induced by emotion
triggers. We then present the words and rules
that influence the basic valence and emotion in
a context and finally the rules of emotional
inference derived from the theories underlying
this method.
sense number that has the same top relevant
domain. If more such senses exist, they are all
added.
On the other hand, the core of English words
is completed with the terms found in Max
Neef´s matrix of fundamental human needs.
This matrix is built according to the four main
characteristics of the individual: being, having,
doing and interacting, for which terms are
assigned in order to nine categories of needs:
identity, subsistence, affection, creation,
protection, freedom, participation, leisure and
understanding.
Building the core of words corresponding to
the taxonomy proposed by Neef is done in the
same manner as presented above.
3.1 Constructing and Expanding the
Core of Emotion Triggers
Using EuroWordNet, we map the words in the
English lexical database of emotion triggers to
their Spanish correspondents, preserving the
meaning through the WordNet sense numbers.
3.2
The core of English emotion triggers is built, at
the first stage, of the approximately 37 terms
found in Maslow´s pyramid of human needs,
structured on 5 levels starting from the terms
corresponding to the deficiency needs, found on
the four bottom levels and having on top the
growth needs terms, of achieving the personal
potential, on level 5.
Since most of the words are general notions
and their number is relatively small (37), we
disambiguate them with the sense numbers they
have in WordNet 2.1, in order to ensure that
further on, the added words will remain with
the intended meaning. For each term, we add all
the senses and all grammatical categories that
are valid in the context of Maslow´s pyramid
levels. We then add to these words the
corresponding synonyms and hyponyms from
WordNet. For the verbs considered, we also add
the entailed actions. We consider as having a
negative value the emotion triggers that are
antonyms of the nouns found. For each of the
nouns and verbs, we further add the
corresponding nouns and verbs, respectively,
using NomLex (Macleod et al, 1998). Since
NomLex does not assign sense numbers to
distinguish between the possible semantics of
the nouns and verbs in the collection, we use
the Relevant domain concept and corresponding
repository (Vázquez et al, 2007) to preserve the
intended meaning, by taking the top relevant
domain of each word sense and assigning the
corresponding verb or noun in NomLex the
Mapping of Concepts
3.3 Adding World Knowledge to the
Lexical Databases
The final step in building the lexical databases
consists of adding real-world situations,
cultural-dependent contexts terms to the two
lexical databases. For English, we use the
ConceptNet to add culture specific actions and
terms related to the considered core of words.
For Spanish, we add the cultural context by
using the Larousse Ideological Dictionary of
the Spanish Language.
3.3.1
ConceptNet
ConceptNet1 is a freely available commonsense
knowledgebase
and
natural-languageprocessing toolkit which supports many
practical textual-reasoning tasks over realworld documents. Commonsense knowledge in
ConceptNet contains relations such as
CapableOf,
ConceptuallyRelatedTo,
IsA,
LocationOf etc. For the purpose of maintaining
the originally intended meaning of the
emotional triggers in the lexical database
constructed so far, we chose to project the
emotion triggers only based on the relations
DefinedAs, LocationOf, CapableOf, PropertyOf
and UsedFor.
1
110
http://web.media.mit.edu/~hugo/conceptnet/
Applying a culture dependent emotion triggers database for text valence and emotion classification
synonyms, hyponyms and entailment
and change their valence from positive
to negative or negative to positive in
the case of antonyms.
5. Value of all emotion triggers is
modified according to the valence
shifters they are determined by.
Further on, we assign an emotion triggers a
value of the 6 categories of emotion proposed
for classification in the SemEval Task No. 14 –
joy, sadness, anger, fear, disgust and surprise,
using the following rules:
1. The emotion triggers found in the
levels of Maslow´s pyramid of needs
and those found in the components of
Neef´s matrix of fundamental human
needs are manually annotated with
scores for each of the 6 categories
2. The primary emotion triggers are
assigned values for each emotion.
3. The terms (also emotion triggers in the
final lexical database) synonym and
hyponym of the primary emotion
triggers, as well as the entailed verbs
are assigned inherited values.
4. The terms opposed and antonym of
those from 1. and 2. are assigned
manually a value for each emotion.
5. Emotion triggers added further on
inherit the valence from the emotion
trigger they are related to.
6. Value of all emotions of an emotion
triggers is modified according to the
valence shifters they are determined
by.
7. If any of the values calculated in 6 is
higher than 100, it is set to 100.
3.3.2 Larousse Dictionary of the Spanish
Language
The Larousse Ideologic Dictionary of the
Spanish Language (LIDSL) is made up of four
parts: a general classification frame, a synoptic
part, an analogic part and an alphabetic index.
The Dictionary offers a two-way view on words
and ideas they express, thus semantically
relating terms pertaining to the same idea and
also, given one idea, gathering in frames all
concepts related to it. In using this resource, we
start from the parallel core of concepts
representing the levels of needs and
motivations, completed as stated before with
the synonyms, hyponyms and antonyms found
in WordNet, and add the Spanish culture
specific terms related to them. For example,
from the general concept of ¨comida¨ (¨food¨),
we find as subordinated concepts ¨carne¨
(¨meat¨),
¨fruit¨
(¨fruta¨),
¨verdura¨
(¨vegetables¨) etc. These concepts are further
refined to specific notions that are types of meat
found in the real world: In the case of ¨carne¨,
some examples are ¨vaca¨, ¨ternera¨, ¨carnero¨,
¨cordero¨, ¨matanza¨, ¨chicha¨.
3.4 Adding Valence and Classifying
Emotion
Having at hand a lexical database of emotion
triggers constitutes the first step towards the
building of a system conforming to the
architecture described in Figure 3., that spots
possible emotional interpretation of texts in a
culturally specific way, parting from the general
motivational traits applicable to the whole
human species.
The next step taken consists in assigning
valence and emotion to the terms in the
database. This is done with the following rules,
both for the terms in Maslow´s pyramid as well
as for those in Neef´s matrix:
1. The primary emotion triggers are
assigned a positive value.
2. The terms (also emotion triggers in the
final lexical database) synonym and
hyponym of the primary emotion
triggers, as well as the entailed verbs
are assigned a positive value
3. The terms opposed and antonym of
those from 1. and 2. are assigned a
negative valence.
4. Emotion triggers added further on
inherit the valence from the emotion
trigger they are related to in case of
3.5
Valence Shifters
In order to be able to recognize the change in
meaning of emotion triggers due to modifiers,
we have defined a set of valence shifters –
words that negate the emotion triggers,
intensify or diminish their sense. The set
contains:
Words that introduce negation (no, never,
not, doesn´t, don´t and negated modal verbs)
A set of adjectives that intensify the
meaning of the nouns they modify – big, more,
better etc.
A set of adjectives that diminish the
meaning of the nouns they modify – small, less,
worse, etc.
111
Alexandra Balahur, Andrés Montoyo
The set of modal verbs and conditional of
modal verbs that introduce uncertainty to the
active verb they determine- can, could, might,
should, would.
The set of modal verbs that stress on the
meaning of the verb they determine – must etc.
A set of adverbs that stress the overall
valence and intensify emotion of the context –
surely, definitely, etc.
A set of adverbs that shift the valence and
diminish emotion of the context – maybe,
possibly, etc.
For each of the valence shifters, we define a
weight of 1.5 for the meaning intensifiers and
0.5 for the meaning diminishers. These
coefficients will be multiplied with the weight
assigned to the emotion trigger level and
emotions- level association ratio corresponding
to the given emotion trigger in the case of
emotion triggers built from Maslow´s pyramid.
In the case of emotion triggers stemming from
Neef`s matrix of fundamental human needs, the
weights of the valence shifters are multiplied
with the emotion-category association ratio,
computed for each emotion trigger and each of
the four existential categories.
3.6
features of words that are appropriate to the
context and inhibit those that are not.
The construction-integration model has been
so far successfully used in the field of Natural
Language Processing for anaphora resolution,
generation of representations of word meanings
from dictionaries (Powell et al, 2000) and
automatic assessment of summarizations
(Lemaire et al., 2005). Also, its author also
proposed a computational method for metaphor
comprehension (Kintsch, 2000) based on this
cognitive model.
4
The final system built to classify text at valence
and emotion level follows a series of steps.
First, the input text is parsed with Minipar (Lin,
1998) and Freeling2 for Spanish to obtain for
each word the grammatical category, the lemma
and its modifiers. Further on, the emotion
triggers in the text are identified, together with
their corresponding modifiers.
We calculate the valence of the text on the
basis of the identified emotion triggers and their
modifiers, using the formulas described in what
follows.
In the case of emotion triggers obtained from
Maslow´s pyramid, we calculate a score called
weighted valence of emotion trigger(wv) using
the following formula:
Emotion Trigger Association Ratio
The association ration score provides a
significance score information of the most
relevant and common domain of a word.
In our approach, besides quantifying the
importance of each emotion trigger in a manner
appropriate to the level and emotion it conveys,
we propose to use a variant of the association
ratio that we call emotional association ratio per
level or category. This score will provide the
significance information of the most relevant
emotion to each level and category. The
corresponding formula is therefore:
AR ( e; L) = Pr( e, L) log 2
•
•
•
3.7
System for valence and emotion
wv ( et ij ) = w( m) * w(l j ) * v ( et i )
, where
• w(m) is the weight of modifier
• w(lj )is the weight of level
• v(eti)is the emotion trigger valence
• i is the index of the emotion trigger
• j is the number of the level
In the case of emotion triggers obtained from
Neef´s matrix, we calculate a score called
weighted valence of emotion trigger(wv) using
the following formula:
wv(eti ) = w(m) * v(eti )
, where
• w(m) is the weight of modifier
• v(eti)is the emotion trigger valence
• i is the index of the level
The total valence of text is equal to the sum
of all weighted valences of all emotion triggers
in the text. For values lower than -50, the final
value assigned is -1, for values between -50 and
50 the final value is set to 0 and for values
higher than 50, the final value will be 1.
Pr( e, L)
Pr( e) Pr( L) , where
Pr(e,L) is the probability of the emotion
in the given level
Pr(e) is the probability of the emotion
Pr(L) is the probability of the level or
category
Construction-Integration Model
The Construction-Integration Model is a
psychological model of text comprehension
(Kintsch, 1999), based on the idea that while
reading a text, a person will activate the
2
112
http://garraf.epsevg.upc.es/freeling/
Applying a culture dependent emotion triggers database for text valence and emotion classification
Further, we calculate the emotions present in
the text, by computing the emotion to level
association ratio for each emotion trigger
stemming from Maslow´s pyramid and the
emotion to category association ratio for each
emotion trigger from Max-Neef´s matrix.
We then apply the Contruction Integration
Model and construct a spreading activation
network. We consider the working memory as
being composed of the set of emotion triggers
and their association ratio value which is
considered as activation value. The semantic
memory is set up of the modifiers and the top 5
synonyms and antonyms of emotion triggers
with their AR value. We set the value of each
emotion trigger to 1. We create a link between
all concepts in the semantic memory with all
the emotion triggers. We consider the strength
of link the higher of the two emotional AR
scores. The text is processed in the order in
which emotion triggers appear and finally we
obtain the activation value for each emotion
trigger. The output values of the emotions in
text is obtained by multiplying the activation
values with 100 and adding the scores obtained
for the same emotion from different emotion
triggers when it is the case. The values of
emotions higher than 50 are mapped to 1 and
the values lower than 50 are mapped to a final
value of 0 for the emotion.
5
Acc
Prec
Rec
F
Eng
95.1
47.2
45.3
46.2
Sp
95.2
46.0
43.8
44.8
Table 2. System results for annotation of ¨fear¨
Although the results show relevant
improvements over the ones obtained by
previously built systems, in using such a
complex system, one could and should use a
more complex set of emotions. The set of
emotions is rather limited and sometimes does
not allow for an accurate assignment of the
appropriate emotion for the emotion triggers,
but a conventional classification.
6
Conclusions and future work
In this paper we presented a method to assign
valence and classify emotion in text starting
with a database of cultural dependent emotion
triggers derived from a theory in pragmatics
and 2 motivational and need-based theories.
The final classification of texts was done using
the cognitive model of construction and
integration, the emotion to level and emotion to
category association ratio and taking into
account valence shifters, outperforming
previously obtained results. In order for the
system to be complete, we should also build the
fourth component of the system, by applying
the system on large corpora of news and of
world and culture specific data. Part of the
future work is also applying a larger set of
emotions for classification.
Experiments and evaluation
The evaluation of the system presented was
done using the test data provided within the
SemEval Task No. 14: Affective Text test set
(Strapparava and Mihalcea, 2007) and its
Spanish translation. In the task proposed in
SemEval, the objective was to assign valence –
positive or negative - and classify emotion of
1000 news headlines provided as test set
according to 6 given emotions: joy, fear,
sadness, anger, surprise and disgust and their
translation to Spanish. The results we obtained
are presented in Table 1 for valence
classification and in Table 2 for one of the 6
emotions- fear:
References
Al Masum Shaikh , M., Prendinger, H.,
Mitsuru, I. 2007. Assessing Sentiment of
Text by Semantic Dependency and
Contextual Valence Analysis. Lecture Notes
in Computer Science. Volume 4738/2007.
pp. 191-202
Atserias, J., B. Casas, E. Comelles, M.
González, L. Padró and M. Padró
FreeLing 1.3: Syntactic and semantic
services in an open-source NLP library
Proceedings of the 5th International
Conference on Language Resources and
Evaluation (LREC'06). Genoa, Italy. 2006.
Acc
Prec
Rec
F
Eng
70.1
75.2
65.0
69.7
Sp
65.0
71.1
66.1
68.5
Table 1. System results for valence annotation
Diccionario Ideológico de la Lengua Española,
Larousse Editorial, RBA Promociones
Editoriales, S.L., ISBN 84-8016-640-1
113
Alexandra Balahur, Andrés Montoyo
Esuli, A., Sebastiani, F. 2006. SentiWordNet: A
Publicly Available Resource for Opinion
Mining. In Proceedings of the 6th
International Conference on Language
Resources and Evaluation, LREC 2006,
Genoa, Italy.
Maslow, A.H. 1943. A Theory of Human
Motivation. Psychological Review 50
(1943):370-96.
Max-Neef, M. A. 1991: Human scale
development: conception, application and
further reflections. The Apex Press. New
York
Esuli, A., Sebastiani, F.2005. Determining the
semantic orientation of terms through gloss
analysis. In Proceedings of CIKM, pp. 617624
Mihalcea, R., Banea, C., Wiebe, J. 2007.
Learning Multilingual Subjective Language
via
Cross-Lingual
Projections.
In
Proceedings of the Association for
Computational Linguistics (ACL 2007),
Prague, Czeck Republic
Fellbaum, C. (ed.). 1999. WordNet: An
Electronic Lexical Database, MIT Press,
Cambridge, Massachusetts
Hu., M. Liu, B.: Mining and summarizing
customer reviews. In Proceedings of KDD
(2004)
Powell, C., Zajicek, M., David, D. (2000): "The
generation of representations of word
meanings from dictionaries", In ICSLP2000, vol.3, 482-485.
Kim, S.M., Hovy, E.H. 2006. Identifying and
Analyzing
Judgement
Opinions.
In
Proceedings of HLT-NAACL 2006, ACL,
pp. 200-207
Sperber, D., Wilson, D.2004.
Relevance
Theory. In G. Ward and L. Horn (eds)
Handbook
of
Pragmatics.
Oxford:
Blackwell, pp. 607-632.
Kintsch, W. 1999. Comprehension: A Paradigm
for Cognition. Cambridge Press, Cambridge,
UK
Strapparava, C. Valitutti, A. 2004. WordNetAffect: an affective extension of WordNet.
In Proceedings ofthe 4th International
Conference on Language Resources and
Evaluation (LREC 2004), Lisbon, Portugal,
pp. 1083-1086.
Kintsch, W. 2000. Metaphor Comprehension: A
computational theory. Psychonomic Bulletin
& Review
Lemaire, B., Mandin, S., Dessus,Ph., Denhière,
G. 2005. Computational cognitive models of
summarization assessment skills. In
Proceedings of the 27th Annual Conference
of the Cognitive Science Society (CogSci'
2005), B. G. Bara, L. Barsalou and M.
Bucciarelli, Ed.Mahwah: Erlbaum, pp.
1266–1271.
Strapparava, C., Mihalcea, R. 2007. SemEval2007 Task 14: Affective Text. In
Proceedings of the th International
Workshop on Semantic Evaluations
(SemEval 2007), Prague, Czeck Republic,
pp. 70-74
Vázquez, S., Montoyo, A., Rigau, G. 2004.
Using relevant domains resource for word
sense disambiguation. In Proceedings of
ICAI 2004, pp. 784-789.
Lin, D. 1998. Dependency-based Evaluation of
MINIPAR. In Proceedings of the Workshop
on the Evaluation of Parsing Systems 1998,
Granada, Spain
Wiebe, J., Wilson, T., Cardie, C. 2005.
Annotating expressions of opinions and
emotions in language. Language Resources
and Evaluation 39(2-3), pp. 165-210
Liu, H., Singh, P. .2004. ConceptNet: A
Practical Commonsense Reasoning Toolkit.
BT Technology Journal, To Appear. Volume
22, forthcoming issue. Kluwer Academic
Publishers.
Macleod,C.,
Grishman,R.,
Meyers,A.,
Barrett,L., Reeves, R. (1998) NOMLEX: A
Lexicon of Nominalizations. Proceedings of
EURALEX'98, Liege, Belgium, August
1998.
114
Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 115-119
recibido 08-02-08, aceptado 03-03-08
Test of Complementarity on Sentence Extraction Methods
Prueba de complementariedad para métodos de extracción de oraciones
Alberto Bañuelos Moro, José de Jesús Lavalle Martı́nez
Héctor Jiménez Salazar
B. Universidad Autónoma de Puebla
Universidad Autónoma Metropolitana
Fac. de Ciencias de la Computación
Dept. de Tecnologı́as de la Información
[email protected], [email protected]
[email protected]
Resumen: Analizamos tres enfoques para la generación del extracto de un texto
con el fin de saber si algún método provee a otro caracterı́sticas complementarias.
Se aplicaron los métodos en forma combinada para analizar sus resultados, en un
marco teórico propuesto. Los tres enfoques tratados fueron los basados: en gráficas,
en términos clave, y en la representatividad de las oraciones. Utilizando la colección
DUC 2002, el método basado en representatividad fue el mejor. Sin embargo, no se
encontraron caracterı́sticas complementarias entre ellos, aunque a partir del análisis
se identificaron algunos rasgos relevantes de los métodos.
Palabras clave: extracto automático, caracterı́sticas complementarias de métodos
Abstract: In this work three approaches to sentence extraction methods are analyzed. We try to find if the used methods show some complementary features.
In order to accomplish this goal, the methods of sentence extraction were applied
and combined, analyzing the results in the theoretical framework that we propose.
We test three approaches: graph-based, keyword-based and representation-based.
The methods were tested using the text collection DUC 2002, obtaining the best
performance for a very simple method based on representation index. Even though
no complementary methods were found, the results allow to identify some relevant
features of the methods.
Keywords: sentence extraction method, complementary features of methods
1
Introduction
The huge volume of available text in the web
contrasts with the quantity of tools to make
the growing information profitable to daily
activities. Given a text, its title and its index, a summary of it could be the key to
decide if the text contains valuable information. There have been many attempts to
build a summary from a given text (Hovy,
2005). One of them considers to get an extract; i.e. a reduced set of sentences from the
text that better represents it. This work considers the problem related to get an extract
from a given text.
Getting the extract from a text has been
focused on by different ways. For example, in order to choose the most representative sentences from a text, a score is assigned to each sentence based on the similarity between such a sentence and all the
terms. This method gets good results and
ISSN 1135-5948
its complexity is in O(n2 ), where n is the
number of text sentences. Another approach
first identifies the “most important” terms
used in the text, then the score of each sentence is computed according to the occurrence of those terms in the sentence. Finally, the score determines the representation
degree of each sentence (Bueno-Tecpanecatl,
Pinto, and Jiménez-Salazar, 2005). Lastly,
we cite the method text-rank, which has
had a high impact in Natural Language Processing (NLP) applications (Mihalcea, Tarau,
and Figa, 2004). The text-rank method (Mihalcea, 2004) is derived from the algorithm
page-rank, which has been used to determine
the importance of a web page as a function of
its relevance in the world wide web; i.e. according to the set of pages refering to, and the
set of pages refered from it (Brin and Page,
1998).
Many NLP tasks have used multiple
© Sociedad Española para el Procesamiento del Lenguaje Natural
Alberto Bañuelos-Moro, Héctor Jiménez-Salazar, José de Jesús Lavalle-Martínez
sources of information and several methods
at the same time, obtaining improvements on
the results. We belive it is possible to take
advantage from the analysis of a set of methods, therefore we propose a methodology in
order to identify strengths of the methods
and the possible success of combining them.
In this work we try to make clear if there are
important differences among some sentence
extraction methods.
In the rest of this work we deal with complementary methods concept, the used sentence extaction methods, a description of the
tests carried out, and finally, a discussion on
the given results.
2
lies on the complementary character of the
results of methods. Therefore, it is worthy to
combine complementary methods.
We considered that two methods are complementary if each of them provides exclusive results to some extent. More formally,
given two methods, M1 and M2 , a dataset,
D, and an evaluation function, E, it is considered that M1 is better than M2 if E(M1 ) >
E(M2 ). The result, M1 (D), provided by
applying M1 to D may be compared, in
a suitable scale, with the result of another
method, M2 (D). Considering a measure, ||,
of the results (score) we can state a combination, M of the methods: M (D) = M1 (D)
if |M1 (D)| > |M2 (D)| or M (D) = M2 (D) if
|M1 (D)| < |M2 (D)|. Note that, in this case,
M is not guarantee on the enhancement of
both methods; nevertheless that |M1 (D)| >
|M2 (D)|, we could obtain E(M1 ) < E(M2 ).
This is possible if M1 has a decision criteria from which false positive cases take advantage. Besides, if congruence is obtained,
|M1 (D)| < |M2 (D)| then E(M1 ) < E(M2 ),
the methods would be complementary and,
we can rise their performance: E(M ) ≥
E(M1 ) and E(M ) ≥ E(M2 ), i.e. a significative improvement, thus M1 and M2 are
considered complementary.
We are interested in knowing if methods
based on different strategies have inherently
different results. This fact may conjecture if
they are complementary, whenever combining their results there exists a significative
improvement. Now, we give an overview of
the applied techniques.
Combination of methods
In this work, we apply three approaches
to sentence extraction and combine some of
them to observe possible relationships among
them. Our goal is to analyse these approaches in order to strengthen a simple algorithm without losing their efficacy.
We stablish three possible levels to combine methods: (1) high level, joining the results of the methods; (2) middle level, combining partial results; and (3) low level, embedding one method in another one. Some
examples of these levels follow. In (1), iterative algorithms which in each step refine
their results may be considered; Brill’s POS
tagger may be seen (Brill, 1994), at least,
as the application of two methods: tag assignment and correction assignment. For (2),
combining of scores to choose a partial result;
voting algorithms used, for instance, in text
categorization (Montejo, Urena, and Steinberg, 2005). And in (3) some approaches
are: merging, a clear example is quick-sort
which can use another sort algorithm to end
the recursive process; resources, each method
works on some kind of data providing a step
within the whole method, word sense disambiguation has some examples of this approach
(Ng and Lee, 1996); fusion, in this class any
improvement of an algorithm may be considered.
In our context, high level combination
could require combining of sentences in a similar way to text generation do for summarization. Low level would imply formulating a new method. As we can see, middle
level is the simplest one, and according to
the results we can investigate other combining strategies. The power of a combination
3
Sentence Extraction Methods
In this section we give some details on
the used methods. Let T be a text and
[o1 , . . . , on ] the sentences that make up T .
3.1
Text-rank
The algorithm page-rank and its derivatives
(Kleinberg, 1999) use a graph. Broadly
speaking, at the beginning of page-rank a
value is assigned to each node. Then, in
an iterative fashion, it updates the values.
After an −convergency to its fixed point is
reached, every node has a score; which means
the importance degree of the node as a function of the role it played in the paths of
the graph. These algorithms belong to the
class of iterative algorithms that look for a fix
point; similar to the Gauss-Seidel algorithm
116
Test of complementarity on sentence extraction methods
to solve simultaneous equations.
The edges arrangement can be done in
one of the following ways: a directed graph
with forward edges (previous sentences pointing to posterior ones); a directed graph with
backward edges (posterior sentences pointing
to previous ones); or an undirected graph.
Let G = (V, E) be the graph that we have
constructed, where V is the set of nodes,
and E ⊂ V × V is the set of edges. For
each vi ∈ V , let In(vi ) be the set of nodes
pointing to vi , and let Out(vi ) be the set of
nodes pointed by vi (in the case of undirected
graphs In(vi ) = Out(vi )).
The weighting of the graph is done from
a text: each sentence labels a node of the
graph, the similarity between two sentences
is the weight of the edge that links the corresponding nodes. The similarity between
sentences is a measure computed in different
ways; for example, by using the following formula:
sim(o1 , o2 ) =
inter(o1 , o2 )
log(|o1 |) + log(|o2 |)
foreach oi ∈ T do
si = sim(oi , kywr)
0
T = project2 (sort([(s1 , o1 ), . . . , (sn , on )]))
end
Now, we will see two methods which obtain an input of the algorithm, namely kywr.
3.2.1
In this case (Kw), an undirected and not
weighed graph is constructed taking lexical
units as nodes. To define the edges between nodes the co-occurrence criteria, of
both terms in a window of N units (Mihalcea
and Tarau, 2004) is used. We select the 10
first terms with highest score.
3.2.2
(1)
where o1 and o2 are the sentences under
consideration, inter(o1 , o2 ) is the number of
words belonging to both o1 and o2 , and |oi |
the number of words of oi .
The text-rank method (TR) is convergent
with margin of error . The score of each
node is computed as follows:
T R(oi ) = (1−d)+d∗
X
wji P
oj ∈In(oi )
T R(oj )
ok ∈Out(oj ) wjk
,
(2)
where, wij is the weight of the vertex joining
oi and oj (sim(oi , oj )), and d is a fix value between 0 and 1. After getting the initial scores,
T R is iterated until a fix point is reached using ; see (Mihalcea, 2004) for more details.
3.2
Text-rank
Extracting keywords
Two methods to get keywords from a text
are presented. They get the sentences score
by computing the similarity between the set
of keywords of the text and the sentence
(formula (1)). The next code may clear the
previous statement:
Transition rank
Another method used in this work takes
terms of mid-frequency as the base to get an
extract. It has been seen (UrbizagásteguiAlvarado, 1999) that such terms have high
semantical contents. We use the transition
point (TP) method to get terms of midfrequency. The TP is a frequency that divides the vocabulary of a text into words
of high and low frequency. In this way,
the terms with a frequency around the TP
are candidates for important terms; therefore, to choose mid-frequencies, a threshold must be given. This method was used
in (Bueno-Tecpanecatl, Pinto, and JiménezSalazar, 2005) to get extracts. Also TP
has been used in text clustering (JiménezSalazar, Pinto, and Rosso, 2005). In the
present work, we use the transition rank
method (see (Pérez et al., 2006)) because it
does not need to define a threshold around
the TP in order to select terms. When
the terms of mid-frequency have been found,
they are used to compute the score of each
sentence accounting the mid-frequency terms
contained in the sentence. An analog procedure may followed taking the keywords
provided by text-rank algorithm (Mihalcea,
2004).
Essentially the procedure (TPR) is to
choose terms with a frequency in a rank from
the lowest not repeated frequencies to the
highest repeated frequencies. The terms with
such frequencies presumably have high semantical contents, and they are taken as the
keywords of the text.
Algorithm: Ordering of sentences;
input T : list of sentences;
kywr : list of words;
output T 0 : list of sentences; // ordered
begin
117
Alberto Bañuelos-Moro, Héctor Jiménez-Salazar, José de Jesús Lavalle-Martínez
3.3
Method
TR
TPR
Kw
RI
Representation index
In (Marcu, 1999) a simple method to generate the extract of a text was proposed.
The key idea of this method is the representativeness index of a sentence, which in
turn, the index is determined in the following way: the importance degree of a sentence
oi is determined inversely to the similarity
between the text T removing oi and T ; since
if oi is important, and removing it from T
make less similar this text to T. Then, the
sentences are ordered according to its index:
o1 , . . . , on , where sim(T − [oi ], T ) ≤ sim(T −
[oi+1 ], T ), 1 ≤ i < n. We made a little variant
to this method using the sentence instead of
text diminished by the sentence: o1 , . . . , on ,
where sim([oi ], T ) ≥ sim([oi+1 ], T ), 1 ≤ i <
n.
This method (RI) directly computes the
score of each sentence oi applying the formula (1) to the sentence and the full text:
sim(oi , T ). RI uses the same code as above
(Odering of sentences) replacing T instead
kywr in the similarity function.
4
4.3
Evaluation
To evaluate the results, the automatic summaries evaluation package, ROUGE was
used, it is based on statistics of N-grams.
ROUGE was used with: ROUGE-L, confidence interval of 95%, without reserved
words, score formula model average, assigning the same importance to precision and recall, and averaging the score of the units.
Table 1 shows the values gotten in evaluating the results by ROUGE. The representation index method had the highest value
(0.6284).
Experiments
Dataset
5
Discussion
Three approaches to sentence extraction
were applied to the collection DUC 2002:
keyword-based (TPR, Kw), representationbased (RI) and, graph-based (TR). The
best method was RI. Combining its results,
through score maximization, the evaluation
revealed they are not complementary; one
of them can not help the other. Since they
share score function and data from the text,
the combination improved only one method:
E(M1 ) < E(M ) < E(M2 ).
In Table 1 we can see higher scores are
shown by methods which use the full sentences in order to determine the score. Those
methods whose parameters were a reduced
set of words, i.e. keyword-based, got the lowest evaluation. And how they calculate the
keywords was not important because the difference between score values was very small.
Applied procedure
The methods described above were applied:
TPR, transition rank; Kw, keywords using
text-rank; RI, representation index; and TR,
text-rank.
In the case of the text-rank algorithm,
having the text already preprocessed, a graph
was constructed applying the formula (2)
with d = 0.85 (Mihalcea, 2004). The initial value assigned to each node was 1, and
the convergency error was = 0.001. It took
1
Document
Understanding
http://duc.nist.gov/.
Score
0.5416
0.5498
0.4813
0.6148
an average of 18 iterations to reach the fixed
point.
To produce the extract from each text the
7 sentences with the highest score were taken,
independently of the method considered.
Some method combinations were made
in order to know the possible relationship between them. The combination consisted of getting the score of each sentence, by computing the maximum between the score of two methods M1 , M2 :
max(score(M1 ), score(M2 )).
The experiments were made on 533 articles,
about news in the English language, from the
DUC 2002 collection1 they have no format at
all.
Each text was converted to lower-case,
spaces were inserted to separate punctuation
symbols. The texts were divided into sentences (taking the period as a separator),
empty lines and stopwords were deleted.
4.2
Method
max(TR,TPR)
max(TR,Kw)
max(Kw,TPR)
max(TR,RI)
Table 1: Evaluation of the methods and some
combinations.
A description of the used data, its preprocessing, and an evaluation of the results is now
given.
4.1
Score
0.5761
0.4711
0.4969
0.6284
Conference,
118
Test of complementarity on sentence extraction methods
This result is explained by the lose of information, since they only worked with isolated
terms.
For high score, the differences among the
methods are mainly given by the parameters
used in the similarity function. RI method
used as a parameter the whole text to calculate the score, while TR method extends
the similarity between sentences to all sentences indirectly through iteration. In spite
of using the whole text, RI could introduce
noise in the computation of similarity, when
it was used the highest performance was obtained. It seems that used information in
graph-based method cannot be incorporated
throughout iteration as it was done in the
representation-based method.
The strength of TR is the iteration2 ,
which refine scores of sentences, whilst the
strength for RI is the use of full text. These
features may help to formulate a better algorithm considering a deeper representation of
the text sentence, for instance using relative
position of terms in the sentence; and a richer
class of nodes in the graph-based method, as
the application of TR to connected components instead of nodes. These issues as well as
test of combination at high or low level, varying the dataset and evaluation system will be
considered as future work.
Jiménez-Salazar, Héctor, David Pinto, and
Paolo Rosso.
2005.
Uso del punto
de transición en la selección de términos
ı́ndice para agrupamiento de textos cortos. Procesamiento del Lenguaje Natural,
35:383–390.
Kleinberg, J.M. 1999. Authoritative sources
in a hyperlinked environment. Journal of
the ACM, 46(5):604–632.
Marcu, Daniel. 1999. The automatic construction of large-scale corpora for summarization research. In Proceedings of the
SIGIR of ACM 99, pages 137–144.
Mihalcea, Rada. 2004. Graph-based ranking algorithms for sentence extraction, applied to text summarization. In The Companion Volume to the Proc. of 42st Annual Meeting of the ACL, pages 170–173,
Barcelona, Spain, July. Association for
Computational Linguistics.
Mihalcea, Rada and Paul Tarau. 2004. Textrank: bringing order into text. In The
Companion Volume to the Proc. of 42st
Annual Meeting of the ACL, pages 190–
193, Barcelona, Spain, July. Association
for Computational Linguistics.
Mihalcea, Rada, Paul Tarau, and Elizabeth
Figa. 2004. PageRank on Semantic Networks, with application to Word Sense
Disambiguation. In Proc. of the 20st International Conference on Computational
Linguistics.
References
Brill, Erick. 1994. Some advances in rulebased part of speech tagging. In AAAI,
editor, Proceedings of the AAAI Conference.
Montejo, Arturo Ráez, Alfonso Urena, and
Ralf Steinberg. 2005. Text categorization using bibliographic records: beyond
document content.
Procesamiento del
Lenguaje Natural, 35:119–126.
Brin, Sergey and Lawrence Page. 1998. The
anatomy of a large-scale hypertextual web
search engine. Computer Networks and
ISDN Systems, 30:1–7.
Ng, Hwee Tou and Hian Beng Lee. 1996. Integrating Multiple Knowledge Sources to
Disambiguate Word Sense: An Exemplar
Based Approach. In Proc. the 34th Annual Meeting of the ACL.
Bueno-Tecpanecatl, Claudia, D. Pinto, and
Héctor Jiménez-Salazar. 2005. El párrafo
virtual en la generación de extractos. Research on Computing Science, 13:85–90.
Pérez, David, José Tepacuacho, Héctor
Jiménez, and Grigori Sidorov. 2006. A
term frequency range for text representation. Research on Computing Science,
20:113–118.
Hovy, Eduard. 2005. Text summarization.
In R. Mitkov, editor, The Oxford Handbook of Computational Linguistics. Oxford
University Press, 1st edition, pages 583–
598.
Urbizagástegui-Alvarado, Rubén. 1999. Las
posibilidades de la ley de Zipf en la indización automática. Technical report,
Universidad de California Riverside, California, USA.
2
Actually TR outperformed (HITS, 0.5023) the
top systems of DUC 2002 (0.5011) (Mihalcea and Tarau, 2004).
119
Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 121-127
recibido 06-02-08, aceptado 03-03-08
Categorización de textos biomédicos usando UMLS∗
Biomedical text categorization using UMLS
José Manuel Perea Ortega
Arturo Montejo Ráez
María Teresa Martín Valdivia
Manuel Carlos Díaz Galiano
Universidad de Jaén, Campus Las Lagunillas
Edicio A3. E-23071
{jmperea,maite,amontejo,mcdiaz}@ujaen.es
Resumen: En este artículo se presenta un sistema automático de categorización
de texto multi-etiqueta que hace uso del metatesauro UMLS (Unied Medical Language System). El sistema ha sido probado sobre un corpus biomédico que incluye
textos muy cortos pertenecientes a expedientes de niños con enfermedades respiratorias. El corpus ha sido enriquecido utilizando las ontologías que incluye UMLS y
los resultados obtenidos demuestran que la expansión de términos realizada mejora
notablemente al sistema de categorización tradicional.
Palabras clave: Categorización de texto, Ontologías, UMLS, Integración de
conocimiento, Expansión de términos
Abstract: In this paper we present an automatic system for multi-label text ca-
tegorization which makes use of UMLS (Unied Medical Language System). Our
approach has been tested on a biomedical corpus which includes very short texts
belonging to expedients of children with respiratory disseases. The corpus has been
enriched by using those ontologies integrated in UMLS and the results obtained show
that the term expansion approach proposed greatly improves the traditional categorization system.
Keywords: Text categorization, Ontology, UMLS, Knowledge integration, Term expansion
1. Introducción
No cabe duda que la información es uno
de los recursos fundamentales en cualquier
ámbito profesional o personal. Sin embargo, en los últimos años, la cantidad de información generada diariamente de manera
electrónica está creciendo de forma exponencial. De hecho, el acceso a dicha información
se está convirtiendo en un gran problema.
Esta saturación de información está provocando que gran parte de la investigación en
nuevas tecnologías esté siendo orientada a
la recuperación y uso eciente de dicha información. Parte de esta investigación hace
uso de técnicas y herramientas propias del
Procesamiento del Lenguaje Natural (PLN).
El PLN es una disciplina que ha demostrado
a lo largo de los años que es imprescindible
∗
Este trabajo ha sido nanciado por el Ministerio de
Ciencia y Tecnología a través del proyecto TIMOM
(TIN2006-15265-C06-03).
ISSN 1135-5948
para mejorar la precisión de los sistemas de
información (Mitkov, 2003) tales como sistemas de categorización de documentos, sistemas de recuperación de información monolingüe y multilingüe, sistemas de extracción
de conocimiento, sistemas de generación automática de resúmenes...
En este trabajo se presenta un sistema de
categorización de textos multi-etiqueta que
ha sido entrenado en un entorno biomédico.
La categorización de textos es una de las tareas fundamentales del PLN y que mas ampliamente han sido estudiadas (Sebastiani, 2002).
La categorización consiste en determinar si un
documento dado pertenece a un conjunto de
categorías predeterminadas.
Por otra parte, una de las técnicas que han
sido utilizadas para aumentar la precisión de
los sistemas consiste en la integración de recursos externos que permitan obtener una información de mayor calidad. Así por ejemplo,
© Sociedad Española para el Procesamiento del Lenguaje Natural
José Manuel Perea Ortega, María Teresa Martín Valdivia, Arturo Montejo Ráez, Manuel Carlos Díaz Galiano
la integración de conocimiento mediante el
uso de ontologías ha conseguido muy buenos
resultados en numerosos sistemas. Por ejemplo, WordNet1 (Miller, G.A. et al., 1993) ha
sido utilizada con éxito en multitud de trabajos relacionados con recuperación de información, desambiguación e incluso categorización
de textos (Martín Valdivia, Ureña López, y
García Vega, 2007).
Por otra parte, en el entorno biomédico se
están desarrollando muchos sistemas de información que hacen uso de recursos externos como ontologías. Los trabajos realizados
demuestran que la integración de conocimiento puede ayudar a mejorar los sistemas. Por
ejemplo, la ontología GO2 (Gene Ontology)
ha constituido una fuente de información incalculable para muchos investigadores que
trabajan con temas relacionados con el genoma humano (Bontempi, 2007). La ontología
MeSH (Medical Subject Headings) ha sido
aplicada con éxito para expandir términos
de las consultas en sistemas de recuperación
de información (Díaz Galiano et al., 2007).
Sin embargo, la mayoría de los trabajos que
integran información a partir de ontologías
han estado orientados a la recuperación y
extracción de información más que a la categorización de texto. En un trabajo anterior (Martín Valdivia et al., 2007) hicimos
uso de la ontología MeSH pero los resultados obtenidos no fueron muy prometedores.
El sistema desarrollado realizaba una expansión de términos que tenía en cuenta la jerarquía de conceptos de MeSH usando los nodos
padres, hijos y/o hermanos. En este artículo se propone usar el metatesauro UMLS que
incluye varias ontologías médicas (entre ellas
la ontología MeSH) para realizar una expansión de términos a la colección de documentos
CCHMC. Con esto, se pretende conseguir una
mejor categorización de textos multi-etiqueta
integrando el conocimiento incluido en UMLS
sobre el corpus CCHMC.
El artículo se organiza de la siguiente manera: en primer lugar, se describe brevemente
la tarea de categorización de textos multietiqueta así como el sistema categorizador
utilizado. A continuación, se presentan el corpus biomédico utilizado (el corpus CCHMC).
El metatesauro UMLS se describe en la siguiente sección junto con la manera de expandir los términos del corpus. En la sección
cinco se muestran los experimentos y resultados obtenidos. Finalmente, se comentan las
conclusiones y trabajos futuros.
2. Categorización de textos
multi-etiqueta
La asignación automática de palabras
clave a los documentos abre nuevas posibilidades en la exploración documental (Montejo Ráez y Steinberger, 2004), y su interés
ha despertado a la comunidad cientíca en
la propuesta de soluciones. La disciplina de
la Recuperación de Información (RI), junto
con las técnicas para el Procesamiento del
Lenguaje Natural (PLN) y los algoritmos de
Aprendizaje Automático (Machine Learning,
ML) son el sustrato de donde emergen las tareas de Categorización Automática de Textos
(Sebastiani, 2002). Los algoritmos de aprendizaje empleados van desde clasicadores lineales, probabilísticos y métodos de regresión (Joachims, 1998), (Friedman, Geiger, y
Goldszmidt, 1997), (Lewis et al., 1996) a redes neuronales (Martín Valdivia, García Vega, y Ureña López, 2003; Li et al., 2002),
pasando por técnicas de voto y boosting (Li
et al., 2002; Bauer y Kohavi, 1999).
En la clasicación de documentos se distinguen tres casos: categorización binaria,
cuando el clasicador debe devolver una de
entre dos posibles categorías, categorización
multi-clase, cuando el clasicador debe proporcionar una categoría de entre varias propuestas. Por último, tenemos el caso más
complejo, la categorización multi-etiqueta,
donde el clasicador debe determinar un
número indenido de clases de entre una amplia variedad de candidatas.
En cualquier caso, los sistemas de categorización automáticos se componen habitualmente de dos módulos principales: un procesador de documentos y un algoritmo de entrenamiento y clasicación. El primero transforma los textos a representaciones manejables
por los segundos, generalmente siguiendo el
modelo de espacio vectorial. El segundo aplica algoritmos de aprendizaje automático para
modelizar los clasicadores.
El dominio biomédico ha sido uno de los
más interesados en el desarrollo y progreso
de este tipos de sistemas, al contar con una
larga tradición en el uso de ontologías y vocabularios controlados para el manejo de documentos, siendo el multi-etiquetado el problema que se plantea en general.
1
http://wordnet.princeton.edu
2
http://www.geneontology.org
122
Categorización de textos biomédicos usando UMLS
BIOSIS categorizaba documentos a partir
de un vocabulario de 15,000 términos biológicos que se podían resumir en 600 conceptos (Vieduts-Stokolo, 1987). Esta clasicación
era jerárquica, y si sólo se consideraba el nivel primario en torno al 75 % de los conceptos
quedaban cubiertos por el sistema. La precisión rozaba el 65 %.
Medical Subject Headings (MeSH) es una
taxonomía de conceptos médicos usados para
la categorización de documentos en la base
de datos MEDLINE. El sistema desarrollado por Bruno Pouliquen (Pouliquen, Delamarre, y Beux, 2002) denominado Nomindex
es una de las primeras propuestas para la
automatización de su etiquetado. Su sistema
aplicaba principalmente medidas estadísticas
típicas dentro del mundo de la Recuperación
de Información dando como resultado un sistema más que aceptable.
Podemos citar también el trabajo de
Wright et al. (Wright et al., 1999) en el desarrollo de una herramienta para el indexado
de documentos en el UMLS (siglas de Unied
Medical Language System en inglés). Este sistema hace también uso intensivo de recursos
lingüísticos como el reconocimiento de componentes nominativos (noun phrases ) o sinónimos. Una combinación de la información en
el título, el resumen y el contenido permite
asignar a cada concepto del tesauro MeSH.
Nuestro enfoque se ha centrado en el uso
de las ontologías médicas como un recurso
para la mejora de los sistemas de categorización mediante la expansión de términos en
la consulta. Con respecto a trabajos anteriores (Martín Valdivia et al., 2007), hemos
modicado el método de expansión, pasando
de usar exclusivamente MeSH y una expansión basada en recorridos sobre la jerarquía
de términos a una expansión sobre UMLS a
través de la interfaz MetaMap Transfer 3 . El
conjunto de datos utilizado no diere, así como el sistema de categorización y evaluación:
hemos aplicado la herramienta TECAT4 sobre el corpus CCHMC (detallado más adelante) mediante una validación cruzada. Si
bien los resultados eran desalentadores, consideramos que el problema debía radicar en la
ontología usada así como en la forma en que
ésta fue aplicada. Es por ello que estudiar un
cambio de enfoque era necesario a la hora de
emitir un juicio acerca de los efectos que la
integración de estos recursos producen en la
categorización de textos biomédicos.
3. La colección CCHMC
Esta colección de 978 documentos ha sido
preparada por The Computational Medicine
Center 5 . Dicho corpus incluye registros
médicos anónimos recopilados en el departamento de radiología del Hospital infantil de
Cincinnati (the Cincinnati Children's Hospital Medical Center's Department of Radiology - CCHMC) (cmc, 2007).
Estos documentos son informes radiológicos que están etiquetados con códigos del
ICD-9-CM (Internacional Classication of
Diseases 9th Revision Clinical Modication).
Se trata de un catálogo de enfermedades codicadas con un número de 3 a 5 dígitos con un
punto decimal después del tercer dígito. Los
códigos ICD-9-CM son un subgrupo de los
códigos ICD-9. Están organizados de manera
jerárquica, agrupándose varios códigos consecutivos en los niveles superiores. Estos códigos están relacionados con enfermedades del
sistema respiratorio únicamente y sus valores
se establecen dentro del rango de números 460
al 5196 .
Cada documento contiene dos campos de
texto a partir del cual se ha construido el
cuerpo a procesar: CLINICAL_HISTORY e
IMPRESSION. Ambos campos son, por lo
general, muy breves, veamos un ejemplo:
CLINICAL_HISTORY:
Eleven year
old with ALL, bone marrow transplant
on Jan. 2, now with three day history
of cough.
IMPRESSION:
1. No focal
pneumonia. Likely chronic changes at
the left lung base. 2. Mild anterior
wedging of the thoracic vertebral
bodies.
La brevedad de contenido nos hace pensar que la expansión de términos debería contribuir a una mejora del sistema de categorización, al aumentar el número de características representativas de cada documento. El
proceso seguido para dicha expansión se describe más adelante.
5
http://www.computationalmedicine.org
6
Se
puede
consultar
dicho
catálogo de códigos ICD-9-CM en la dirección
http://www.cs.umu.se/∼medinfo/ICD9/
icd9cm_group8.html
3
http://mmtx.nlm.nih.gov/index.shtml
4
http://sinai.ujaen.es/wiki/index.php/TeCat
123
José Manuel Perea Ortega, María Teresa Martín Valdivia, Arturo Montejo Ráez, Manuel Carlos Díaz Galiano
4. UMLS
UMLS7 es un repositorio de varias ontologías biomédicas desarrollado por la Biblioteca Nacional de Medicina de Estados
Unidos. UMLS integra más de 2 millones de
nombres para unos 900,000 conceptos procedentes de más de 60 familias de vocabularios biomédicos, así como 12 millones de
relaciones entre esos conceptos (Bodenreider,
2004). UMLS es un sistema que garantiza referencias cruzadas entre más de treinta vocabularios y clasicaciones. La mayoría de estas referencias cruzadas se realizan gracias
al análisis léxico de los términos, de ahí su
inclusión en la categoría de sistemas léxicos de clasicación en el dominio biomédico
(Ceusters et al., 1997). Algunos ejemplos de
ontologías que incorpora UMLS son ICD-9CM, ICD-10, MeSH, SNOMED CT, LOINC,
MEDLINE, WHO Adverse Drug Reaction
Terminology, UK Clinical Terms, RxNORM,
Gene Ontology, and OMIM.
UMLS está formado por tres componentes
principales:
Figura 1: Procesamiento de un texto con
MetaMap
semánticos denidos y 54 relaciones entre ellos.
UMLS tiene varias herramientas software
de soporte como MetaMap . MetaMap es
una herramienta online que se utiliza para encontrar conceptos relevantes del Metatesauro
dado un texto arbitrario. MetaMap Transfer
(MMTx) provee la misma funcionalidad que
MetaMap pero como programa Java. Para los
experimentos de este trabajo hemos utilizado
esta interfaz.
El Metatesauro. Es la base de datos núcleo de UMLS, una colección de conceptos, términos y sus relaciones. El Metatesauro está organizado por conceptos, y
cada concepto tiene atributos especícos
que denen su signicado y lo enlazan a
sus correspondientes nombres de conceptos en las distintas ontologías que conforman UMLS. También se representan numerosas relaciones entre conceptos, tales
como ”es un ”, ”es parte de ”, ”es causado
por ”, etc.
4.1. Expansión de CCHMC
usando UMLS
Para expandir con UMLS cada chero de
texto de la colección CCHMC hemos utilizado
la herramienta MetaMap Transfer (MMTx).
El texto de cada chero se procesa a través de
una serie de módulos. En primer lugar, el texto se divide en componentes como párrafos,
sentencias, frases, elementos léxicos y tokens.
Después, las distintas variantes se generan a
partir de las frases detectadas. Los conceptos
candidatos del Metatesauro UMLS son recuperados y evaluados en relación a estas frases.
Los conceptos candidatos que mayor similitud
tengan con la frase se organizan en un mapping nal que será el que se utilice para la
expansión de términos. Se puede observar el
procesamiento que sigue el texto de un documento con MetaMap en la Figura 1.
El pseudocódigo seguido en los experimentos para realizar la expansión de términos a
El Lexicón Especializado. Es una base
de datos de información lexicográca
para uso en Procesamiento de Lenguaje
Natural. Contiene información sobre vocabulario común, términos biomédicos,
términos encontrados en MEDLINE y
en el propio Metatesauro. Cada entrada contiene información sintáctica, morfológica y ortográca.
La Red Semántica. Es un conjunto
de categorías y relaciones usadas para
clasicar y relacionar las entradas en
el Metatesauro. Cada concepto en el
Metatesauro se asigna al menos a un tipo
semántico o categoría. Existen 135 tipos
7
http://www.nlm.nih.gov/research/umls
124
Categorización de textos biomédicos usando UMLS
un documento de la colección CCHMC se explica a continuación:
1. Para cada sentencia encontrada en el
documento obtenemos las frases detectadas.
2. Para cada frase obtenemos su mapping
nal (mejores conceptos candidatos).
3. Para cada concepto candidato:
Obtenemos su nombre UMLS y lo
añadimos al conjunto de términos
expandidos (si no estuviera ya añadido).
Añadimos también al conjunto de la
expansión el grupo de términos sinónimos que conforman dicho concepto, es decir, aquellos términos que
aparecen en distintas ontologías de
UMLS y que pertenecen al concepto en cuestión, controlando que no
haya términos repetidos.
En la Figura 2 podemos ver varios ejemplos de expansión realizada con la herramienta MetaMap Transfer (MMTx) a un documento de la colección CCHMC, siguiendo las
estrategias que se explican en el apartado 5.
Figura 2: Ejemplos de expansión UMLS de
un documento de la colección CCHMC
descrito en el apartado 4.1. En algunas ocasiones, los términos de expansión obtenidos
de la ontología estaban compuestos por más
de una palabra o token. Esta característica
nos ha permitido utilizar dos estrategias en
el proceso de expansión:
5. Experimentos y resultados
Para este trabajo se han realizado varios
experimentos con distintos tipos de expansión
UMLS y con diferentes algoritmos de aprendizaje automático. Concretamente se ha utilizado el algoritmo SVM (Support Vector Machine) y una red neuronal tipo perceptrón denominada PLAUM. Para estos algoritmos se
han considerado sus conguraciones por defecto, sin variaciones de ningún parámetro.
También se ha utilizado expansión de términos haciendo uso de una ontología médica
como UMLS para incorporar información de
calidad a los documentos de la colección que
ayude a mejorar la categorización de los mismos. Los resultados demuestran que el uso
de SVM es mejor que PLAUM cuando no
se aplica expansión de términos. En cambio,
PLAUM mejora cuando hemos utilizado expansión. Para todos los casos, el uso de la
expansión de términos con UMLS mejora el
caso base.
La expansión de los documentos de la
colección CCHMC se ha realizado utilizando
la ontología médica UMLS. El procedimiento
seguido para realizar dicha expansión se ha
Estrategia joint . Consiste en conside-
rar los términos de expansión de más de
una palabra como un único token. Para
ello, hemos sustituido los espacios entre
las palabras del término por el símbolo
subrayado. De esta forma se consigue introducir más términos diferentes para el
posterior proceso de clasicación.
Estrategia no-joint . Consiste en sepa-
rar los tokens de aquellos términos de expansión formados por más de una palabra y añadirlos por separado a la expansión, comprobando que no haya tokens
repetidos. Con esta estrategia, al contrario de lo que ocurre con la anterior, el
número total de términos añadidos a los
documentos de la colección es bastante
inferior.
En la Figura 2 se puede observar el resulta125
José Manuel Perea Ortega, María Teresa Martín Valdivia, Arturo Montejo Ráez, Manuel Carlos Díaz Galiano
P
R
F1
PLAUM
80.91 %
64.08 %
71.52 %
SVM
P
R
F1
90.48 %
61.79 %
73.43 %
Tabla 1: Micro-averaging sin expansión
P
R
F1
PLAUM
85.17 %
69.49 %
76.53 %
PLAUM
84.97 %
71.13 %
77.44 %
SVM
92.98 %
64.80 %
76.37 %
Tabla 3: Micro-averaging con expansión joint
SVM
las diferencias no son muy importantes (2,33
puntos para la estrategia no-joint y 1,38 puntos para la expansión joint ).
92.04 %
62.92 %
74.74 %
6. Conclusiones y trabajo futuro
Tabla 2: Micro-averaging con expansión nojoint
En este trabajo se ha presentado un estudio sobre la integración de conocimiento
médico en la categorización multi-etiqueta de
documentos biomédicos. Para ello, se ha expandido el corpus utilizado (CCHMC) en el
proceso de categorización multi-etiqueta con
el tesauro médico UMLS. Para realizar el
estudio se han utilizado dos algoritmos de
aprendizaje como SVM y PLAUM. Aunque
las diferencias encontradas entre ambos algoritmos no son determinantes, parece que
PLAUM funciona mejor cuando utilizamos
cualquiera de las dos estrategias de expansión
explicadas. No obstante, no consideramos relevantes las diferencias. Los resultados corroboran la conveniencia de integrar conocimiento externo procedente de una ontología especíca, en este caso UMLS. Estos resultados
ponen de maniesto que, independientemente
del algoritmo utilizado, la expansión de términos usando UMLS mejora considerablemente
los resultados.
En el futuro se intentarán aplicar estas técnicas de expansión con UMLS a otros corpus
biomédicos para comprobar su rendimiento.
Por otro lado, se tiene pensado aplicar las
mismas estrategias seguidas en este trabajo sobre otras tareas de PLN como minería de textos o recuperación de información
biomédica.
do de la aplicación de ambas estrategias de
expansión a un documento de la colección.
Con respecto a la evaluación de los resultados obtenidos, las medidas consideradas son
la precisión (P), la cobertura (R) y la F1, siendo ésta última la que nos da una visión más
completa del comportamiento del sistema.
Estas medidas han sido obtenidas mediante micro-averaging sobre validación cruzada
en 10 particiones (10-fold cross-validation ),
es decir, repitiendo el experimento 10 veces
con distintas colecciones de entrenamiento y
evaluación, y calculando, cada vez, los aciertos y fallos en cada clase de forma acumulativa y calculando los valores nales sobre
dichos valores acumulados. Se pueden observar los resultados obtenidos para los distintos
experimentos en las tablas 1, 2 y 3 para la
medida micro-averaging.
Si analizamos los resultados desde el punto de vista de la expansión de los documentos, se puede armar que la integración de
UMLS mejora notablemente los resultados
sin expansión. En concreto, para el algoritmo
PLAUM, la medida F1 mejora en 6,54 puntos si se utiliza expansión no-joint y en 7,64
puntos con expansión joint. Para el algoritmo
SVM ocurre igual pero con una diferencia más
pequeña que el PLAUM (1,75 puntos con expansión no-joint y 3,84 puntos con expansión
joint ).
En cuanto a los algoritmos de aprendizaje
utilizados, se puede observar que la expansión funciona tanto para PLAUM como para
SVM, pero hay que señalar que SVM funciona
mejor que PLAUM cuando no se aplica expansión de términos (2,6 puntos mejor). En
cambio, con PLAUM se han obtenido mejores
resultados que con SVM cuando hemos utilizado expansión de términos UMLS, aunque
Bibliografía
2007. CMC. The Computational Medicine
Center's 2007 Medical Natural Language
Processing Challenge.
Bauer, Eric y Ron Kohavi. 1999. An Empirical Comparison of Voting Classication
Algorithms: Bagging, Boosting, and Variants. Machine Learning, 36(1-2):10513,
August.
Bodenreider, Olivier. 2004. The Unied
Medical Language System (UMLS): inte126
Categorización de textos biomédicos usando UMLS
grating biomedical terminology. Nucleic
Acids Research, 32.
Martín Valdivia, M.T., A. Montejo Ráez,
M.C. Díaz Galiano, y L.A. Ureña López.
2007. Integración de conocimiento en un
dominio especíco para la categorización
multietiqueta. Procesamiento del Lenguaje Natural, 38.
Bontempi, Gianluca. 2007. A Blocking Strategy to Improve Gene Selection for Classication of Gene Expression Data. IEEEACM Transactions on Computational Biology and Bioinformatics, 4(2):293300.
Martín Valdivia, M.T., L.A. Ureña López, y
M. García Vega. 2007. The learning vector quantization algorithm applied to automatic text classication tasks. Neural
Networks, 20(6):748756.
Ceusters, W., F. Buekens, G. De Moor, y
A. Waagmeister. 1997. The distinction
between linguistic and conceptual semantics in medical terminology and its implications for NLP-based knowledge acquisition. En IMIA Working Group 6, Jacksonville, Florida.
Miller, G.A., Beckwith, R., Fellbaum, C.,
Gross, D., y Miller, K. 1993. Introduction
to WordNet: An On-line Lexical Database.
Díaz Galiano, M.C., M.A. García Cumbreras,
M.T. Martín Valdivia, A. Montejo Ráez,
y L.A. Ureña López. 2007. Using Information Gain to Improve the ImageCLEF
2006 Collection. En CLEF, volumen 4730
de Lecture Notes in Computer Science,
páginas 711714. Springer.
Mitkov, Ruslan, editor. 2003. The Oxford Handbook of Computational Linguistics. Oxford University Press.
Friedman, Nir, Dan Geiger, y Moises
Goldszmidt. 1997. Bayesian Network
Classiers. Mach. Learn., 29(2-3):131
163.
Pouliquen, Bruno, Denis Delamarre, y
Pierre Le Beux. 2002. Indexation de
textes médicaux par extraction de concepts, et ses utilisations. En A. Morin &
P. Sébillot (eds.), editor, 6th International Conference on the Statistical Analysis
of Textual Data, JADT'2002, volumen 2,
páginas 617628, March.
Montejo Ráez, A. y R. Steinberger. 2004.
Why keywording matters. High Energy
Physics Libraries Webzine, (Issue 10), December.
Joachims, T. 1998. Text categorization
with support vector machines: learning
with many relevant features. Proceedings
of ECML-98, 10th European Conference
on Machine Learning. Springer Verlag,
(1398):137142.
Sebastiani, Fabrizio. 2002. Machine learning
in automated text categorization. ACM
Comput. Surv., 34(1):147.
Lewis, David D., Robert E. Schapire,
James P. Callan, y Ron Papka. 1996.
Training algorithms for linear text classiers. En Hans-Peter Frei Donna Harman Peter Schäuble, y Ross Wilkinson,
editores, Proceedings of SIGIR-96, 19th
ACM International Conference on Research and Development in Information
Retrieval, páginas 298306, Zürich, CH.
ACM Press, New York, US.
Vieduts-Stokolo, Natasha.
1987.
Concept recognition in an automatic textprocessing system for the life sciences.
Wright, Lawrence W., Holly K. Grossetta
Nardini, Alan R. Aronson, y Thomas C.
Rindesch. 1999. Hierarchical concept
indexing of full-text documents in the
R InUnied Medical Language System°
formation Sources Map. Journal of the
American Society for Information Science,
50(6):514523.
Li, Y., H. Zaragoza, R. Herbrich, J. ShaweTaylor, y J. Kandola. 2002. The Perceptron Algorithm with Uneven Margins. En
Proceedings of the International Conference of Machine Learning (ICML'2002).
Martín Valdivia, M.T., M. García Vega, y
L.A. Ureña López. 2003. LVQ for Text
Categorization using Multilingual Linguistic Resource. Neurocomputing, 55:665'
679.
127
Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 129-136
recibido 08-02-08, aceptado 03-03-08
Sistemas de Recuperación de Información Geográfica
multilingües en CLEF∗
Multilingual Geographical Information Retrieval systems in CLEF
José Manuel Perea Ortega
Miguel Angel Garcı́a Cumbreras
Manuel Garcı́a Vega
L. Alfonso Ureña López
Universidad de Jaén, Campus Las Lagunillas
Edificio A3. E-23071
{jmperea,magc,mgarcia,laurena}@ujaen.es
Resumen: En este artı́culo se presenta un estudio comparativo de las distintas
estrategias y técnicas de procesamiento del lenguaje natural más utilizadas en la
actualidad para abordar la tarea de la recuperación de información geográfica (Geographical Information Retrieval, GIR). Este trabajo se ha basado fundamentalmente
en el análisis de los mejores sistemas presentados a la tarea de búsqueda del GeoCLEF, un marco de evaluación para recuperación de información geográfica que
pertenece al foro internacional Cross Language Evaluation Forum (CLEF). Las conclusiones obtenidas reflejan que es imprescindible hacer uso de recursos externos
de información geográfica, tales como gazetteers y tesauros o reconocedores de entidades. Ası́ mismo es necesario realizar una indexación por separado de la información
geográfica y de la no geográfica antes del proceso de recuperación.
Palabras clave: Recuperación de Información Geográfica, GeoCLEF, Procesamiento del Lenguaje Natural, Recuperación de Información
Abstract: This paper presents a comparative study of several strategies and techniques of natural language processing most used at present to solve the geographical
retrieval information (GIR) task. This work has been based on the analysis of the
best systems submitted to the search task of GeoCLEF, an evaluation framework
for the geographical information retrieval task which belongs to the international
forum Cross Language Evaluation Forum (CLEF). The main conclusions show that
it is imperative to make use of external geographic information resources such as
gazetteers and thesaurus, named entity recognizers and it is necessary to make an
index for geographic information only and another index for non-geographic information before the retrieval process.
Keywords: Geographical Information Retrieval, GeoCLEF, Natural Language Processing, Information Retrieval
1.
Introducción
La recuperación de información geográfica (GIR a partir de ahora, del inglés Geographical Information Retrieval) pertenece a
una rama especializada de la recuperación de
información (IR, del inglés Information Retrieval ) tradicional. Incluye todas las áreas de
investigación que tradicionalmente forman el
núcleo de la IR, pero además con un énfasis
∗
Este trabajo ha sido financiado por el Ministerio de Ciencia y Tecnologı́a a través del proyecto TIMOM (TIN2006-15265-C06-03) y el proyecto
RFC/PP2006/Id514 financiado por la Universidad de
Jaén.
ISSN 1135-5948
en la información geográfica y espacial. La recuperación de información geográfica se preocupa de la recuperación de información que
involucra algún tipo de percepción espacial.
Muchos documentos contienen algún tipo de
referencia espacial relevante para la búsqueda
(Mandl et al., 2007).
Existen congresos y foros de evaluación como el Text REtrieval Conference1 (TREC)
y el CLEF2 que no evalúan expresamente la
relevancia en la tarea de la recuperación de
información geográfica. El objetivo del Geo1
2
http://trec.nist.gov
http://www.clef-campaign.org
© Sociedad Española para el Procesamiento del Lenguaje Natural
José Manuel Perea Ortega, Miguel Angel García Cumbreras, Manuel García Vega, L. Alfonso Ureña López
CLEF3 es proporcionar el marco de trabajo necesario en el que evaluar estos sistemas
GIR en búsquedas de información, teniendo
en cuenta aspectos geo-referenciales y multilingües. Es una tarea perteneciente al CLEF
que se viene celebrando desde 2005.
La principal contribución de este artı́culo
es ofrecer una visión general de las estrategias y técnicas de procesamiento del lenguaje natural (PLN) más utilizadas en los sistemas presentados a la tarea GeoCLEF durante los últimos tres años, para resolver la
recuperación de información basada en contenido geográfico. El artı́culo se organiza de
la siguiente manera: en primer lugar, se describe brevemente la tarea de la recuperación
de información geográfica. A continuación,
se presentan los recursos utilizados en GeoCLEF. Las principales estrategias usadas en
un sistema de recuperación de información
geográfica se describen en la siguiente sección. En la sección cinco se muestra un análisis de los resultados obtenidos en el marco
del GeoCLEF. Finalmente, se comentan las
conclusiones.
2.
Figura 1: Arquitectura básica del sistema
GIR GeoUJA
La tarea de la recuperación de
información geográfica
Se puede definir la tarea de la recuperación de información geográfica como la
recuperación de documentos relevantes en
respuesta a una consulta con el formato
<tema, localización>, donde la relación espacial puede implicar implı́citamente contenido,
o explı́citamente ser seleccionado de un conjunto de posibles opciones topológicas, direccionales o de proximidad (Bucher et al.,
2005).
La tarea más importante definida en GeoCLEF es la de búsqueda de información geográfica (search task ). Pero GeoCLEF no sólo
evalúa sistemas de búsqueda de información
geográfica, sino que también está proponiendo nuevas subtareas que se enmarcan dentro
de esta rama, como la de análisis de consultas (query parsing), cuyo objetivo es identificar aspectos geográficos en una consulta, o
las subtareas piloto que han propuesto para
este año 2008 relacionadas con Wikipedia4 y
la búsqueda geográfica de imágenes. Para la
tarea principal de búsqueda, GeoCLEF organiza a su vez dos subtareas: la monolingüe,
3
4
en la que hay que utilizar el mismo idioma
tanto para las consultas como para las colecciones (inglés, alemán o portugués en 2007),
y la bilingüe, que implica traducción, ya que
el idioma de la consulta tiene que ser distinto
al de la colección utilizada.
Existen una amplia variedad de enfoques
para resolver la tarea GIR, que van desde
aproximaciones simples de recuperación de
información sin indexación de términos geográficos a arquitecturas que hacen uso de
técnicas de procesamiento del lenguaje natural para extraer localizaciones e información topológica de los documentos y las consultas. Algunas de las técnicas usadas en
la actualidad incluyen extracción de entidades geográficas, análisis semántico, bases
de conocimiento geográfico (como ontologı́as,
tesauros o gazetteers), técnicas de expansión
de consultas y desambiguación geográfica.
En la Figura 1 se puede observar la arquitectura básica empleada en el sistema GIR
GeoUJA (Perea Ortega et al., 2007). Este sistema ha sido desarrollado por nuestro grupo
de investigación SINAI5 para resolver la tarea
http://ir.shef.ac.uk/geoclef
http://www.wikipedia.org
5
130
http://sinai.ujaen.es
Sistemas de Recuperación de Información Geográfica multilingües en CLEF
de la recuperación de información geográfica, presentando distintas versiones del mismo en las competiciones de GeoCLEF 2006
(Garcı́a Vega et al., 2007) y 2007.
3.
Granularidad en las referencias a paı́ses.
Por ejemplo, “al norte de Italia”.
El formato utilizado para las consultas en los
años 2006 y 2007 difiere ligeramente del empleado en 2005, ya que no proporciona las
entidades geográficas ya etiquetadas.
Como se puede observar en la Figura 2,
una consulta consta de tres etiquetas: tı́tulo (<title>), descripción (<desc>) y narrativa (<narr>). Normalmente para los experimentos se suele utilizar el texto de las etiquetas tı́tulo y descripción, aunque para algunas
consultas es interesante usar el texto de la
etiqueta narrativa, ya que contiene descripciones geográficas detalladas que ayudan al
motor de búsqueda a definir con más exactitud su criterio de relevancia e incluso, a veces,
contiene listados de localizaciones o regiones
relevantes para la búsqueda.
Recursos
Las colecciones de documentos utilizadas
en GeoCLEF constan de relatos periodı́sticos ocurridos en los años 1994 y 1995. La
colección de inglés contiene historias, noticias
y eventos de cobertura nacional e internacional que representan una amplia variedad
de regiones geográficas y localizaciones. Esta colección consta de un total de 169.477
documentos y fue compuesta con noticias del
periódico inglés The Glasgow Herald (1995)
y del periódico americano Los Angeles Times
(1994). Además de la colección en inglés,
GeoCLEF 2007 proporcionó colecciones en
idioma alemán y portugués. En GeoCLEF
2006 se llegó a facilitar incluso una colección de documentos en español. Todas estas
colecciones tienen una estructura común: información especı́fica de periódico como fecha,
página, tema, tı́tulo, autor y el texto de la
noticia. Las colecciones no han sido etiquetadas geográficamente y no contienen información semántica especı́fica sobre localizaciones (Mandl et al., 2007).
Un total de 25 consultas fueron generadas para GeoCLEF 2007. Estas consultas
han intentado reflejar un punto de vista de
usuario razonable, bien preguntando por lugares turı́sticos (por ejemplo la catedral de
St. Paul ), definiendo zonas especı́ficas (“al
norte de Italia”), o bien desde un punto de
vista periodı́stico (“violación de derechos humanos en Myanmar ” o “muertes en el Himalaya”). También se han tratado de reflejar
distintas dificultades relacionadas con tareas
que aborda el procesamiento del lenguaje natural:
Figura 2: Formato de una consulta del GeoCLEF 2007
4.
Principales técnicas de PLN
aplicadas en un sistema GIR
En el estudio de las principales técnicas
PLN aplicadas en una arquitectura GIR nos
hemos basado en los sistemas presentados en
GeoCLEF 2005, 2006 y 2007 para la tarea
monolingüe en inglés.
En general, todas las arquitecturas presentadas realizan un preprocesamiento tanto
a las colecciones de documentos como a las
consultas formuladas. Este análisis lingüı́stico consiste en aplicar un extractor de raı́ces
(stemmer ), una lista de palabras sin contenido semántico (stop-words), para eliminar las palabras vacı́as, y un Reconocedor de
Entidades (Named Entity Recognizer, NER)
para detectar y reconocer posibles entidades
en cualquier texto.
Según el estudio realizado, el stemmer más
utilizado es el Porter Stemmer 6 . También
Ambigüedad geográfica. Por ejemplo,
existe una catedral de St. Paul en Londres y otra en Sao Paulo.
Regiones geográficas mal definidas (“cerca del este”).
Relaciones geográficas complejas como
“cerca de ciudades rusas” o “a lo largo
de la costa mediterránea”.
Aspectos multilingües. “Greater Lisbon”
en inglés es lo mismo que “grande Lisboa” en portugués o que “großraum Lissabon” en alemán.
6
131
http://tartarus.org/martin/PorterStemmer
José Manuel Perea Ortega, Miguel Angel García Cumbreras, Manuel García Vega, L. Alfonso Ureña López
se usa en varios sistemas, pero con menos frecuencia que el anterior, el Snowball Tartarus 7 . Con respecto a la lista de stopwords para el inglés, la más utilizada ha sido
la creada por Salton y Buckley8 , que consta
de 571 palabras. En relación a los reconocedores de entidades más empleados, hay sistemas que han optado por implementar sus
propios reconocedores haciendo uso de distintas bases de conocimiento geográficas y
tesauros (Ferrés y Rodrı́guez, 2007), (Larson, 2007), pero la mayorı́a han empleado
Lingpipe 9 como herramienta NER. En nuestro sistema GIR presentado a las dos últimas
ediciones del GeoCLEF hemos hecho uso del
módulo NER que incorpora la herramienta
GATE (General Architecture for Text Engineering)10 , obteniendo buenos resultados.
Según el análisis de los distintos sistemas,
es poco habitual utilizar herramientas de etiquetado POS (Part Of Speech), aunque algunos sistemas como (Ferrés y Rodrı́guez,
2007) hacen uso de un etiquetador POS estadı́stico llamado TnT.
Por último, otra herramienta importante
en el ámbito del PLN son los traductores o
sistemas de traducción automática (Machine
Translation, MT). Para la tarea GIR es necesario utilizarlos cuando la consulta planteada
y la colección a indexar están en idiomas distintos (tarea multilingüe). En (Larson, 2007)
se hace uso del traductor LEC Power Translator. En nuestro sistema GIR GeoUJA utilizamos un sistema propio de traducción automática llamado SINTRAM (SINai TRAnslation Module) (Garcı́a Cumbreras et al.,
2007).
5.
mentar su propio motor de búsqueda, como
en (Toral et al., 2006), con el sistema IR-n,
basado en pasajes, obteniendo buenos resultados en la competición GeoCLEF 2006.
Según el estudio, los esquemas de pesado más utilizados en los sistemas IR han sido: TF·IDF, Okapi (Robertson y Walker,
1999), DFR (Divergence From Randomness)
(Ounis et al., 2006), BRF (Blind Relevance Feedback ) (Chen, 2003), PRF (Pseudo
Relevant Feedback ) (Buckley et al., 1995) y
LR (Logistic Regression) o modelo de Regresión Logı́stica (Cooper, Gey, y Dabney,
1992). Existen otros esquemas menos usuales
como el de frecuencia inversa de documento
con normalización 2 de Laplace o InL2, utilizado en (Guillén, 2007).
5.1.
GeoCLEF 2005
En la primera edición del GeoCLEF, a
diferencia de las dos posteriores, los organizadores añadieron en las consultas información sobre el concepto principal, las localizaciones y las relaciones espaciales de las mismas. Toda esta información fue extraı́da de
forma manual y colocada en etiquetas justo
después de las principales de cada topic.
Por este motivo, hubo algunas aproximaciones basadas únicamente en recuperación
de información clásica, sin ningún tratamiento geográfico. De hecho, de los cuatro sistemas con mayor puntuación en esta edición,
tres de ellos se basaron únicamente en un sistema de IR sin tratamiento de la información geográfica. La arquitectura que obtuvo
mejores resultados en la tarea monolingüe de
inglés fue la presentada por la Universidad de
Berkeley (Gey y Petras, 2005), que utilizó un
sistema clásico de recuperación de información con un algoritmo de ranking de documentos basado en regresión logı́stica.
La mayorı́a de sistemas apostaron por
utilizar reconocedores de entidades especializados en el dominio geográfico como
una aproximación inicial para resolver esta
tarea (Cardoso et al., 2005). Otras arquitecturas también emplearon recursos externos
de conocimiento geográfico tales como ontologı́as y gazetteers, ası́ como estadı́sticas
sociales y caracterı́sticas fı́sicas de los mismos. En concreto, hicieron uso de gazetteers
como GNIS14 (Geographic Names Information System) y GNS15 (Geonet Names Ser-
Aproximaciones más utilizadas
para resolver la tarea GIR
En general, la arquitectura de cualquier
sistema GIR parte de un modelo básico de recuperación de información. Por tanto, un elemento esencial en todos los sistemas presentados es la herramienta utilizada como motor de búsqueda. Entre los más usados están
Lucene11 , Terrier12 y algo menos Lemur13 .
Algunos participantes han optado por imple7
http://snowball.tartarus.org
ftp://ftp.cs.cornell.edu/pub/smart/english.stop
9
http://www.alias-i.com/lingpipe
10
http://gate.ac.uk
11
http://lucene.apache.org
12
http://ir.dcs.gla.ac.uk/terrier
13
http://www.lemurproject.org
8
14
15
132
http://www.usgs.gov
http://www.nga.mil
Sistemas de Recuperación de Información Geográfica multilingües en CLEF
ver). El grupo XLDB de la Universidad de
Lisboa construyó su propia ontologı́a geográfica basándose en recursos externos como
Wikipedia y World Gazetteer16 (Cardoso
et al., 2005).
Por otro lado, hubo varios sistemas que
utilizaron expansión de consulta (Buscaldi,
Rosso, y Sanchis Arnal, 2005). La arquitectura presentada por la Universidad Politécnica de Valencia hizo uso de la ontologı́a no
geográfica WordNet17 para realizar dicha expansión, basándose en las relaciones de sinonimia y meronimia.
5.2.
su sistema es que hicieron uso de desambiguación de referencias geográficas (topónimos) y de similitud geográfica entre ámbitos.
Nuestro grupo de investigación SINAI,
en su primera participación en GeoCLEF
(Garcı́a Vega et al., 2007), optó por el enfoque de expandir las consultas utilizando información geográfica procedente de un NER,
de un gazetteer como Geonames18 y de un
tesauro generado a partir de las propias colecciones del GeoCLEF. Esta aproximación no
ofreció mejores resultados que el caso base
(sin expansión de consultas) por lo que concluimos que la expansión no se estaba haciendo correctamente. Esto mismo le ocurrió a la
Universidad de Alicante, que quedó en segunda posición en la tarea monolingüe en inglés.
El enfoque básico que utilizó este grupo fue el
que siguieron la mayorı́a de sistemas presentados en esta segunda edición del GeoCLEF
(Toral et al., 2006).
GeoCLEF 2006
En GeoCLEF 2006 la variación de arquitecturas presentadas en los distintos sistemas aumentó considerablemente con respecto a la primera edición. Estas aproximaciones variaban desde enfoques básicos de IR
sin indexación geográfica a profundos procesamientos del lenguaje natural para extraer
lugares y términos topológicos tanto de las
colecciones como de las consultas. Algunas
de las técnicas especı́ficas usadas fueron:
5.3.
GeoCLEF 2007 se presentaba con la
novedad de una nueva tarea: clasificación de
consultas. Su objetivo era identificar componentes geográficos en las mismas. La tarea
principal mantuvo las subtareas monolingüe
y bilingüe. Los organizadores continuaron
con su esfuerzo de proponer un conjunto de
consultas difı́ciles desde el punto de vista geográfico (ver apartado 3).
El mejor sistema en la tarea de búsqueda
monolingüe en inglés fue el presentado por la
Universidad Politécnica de Cataluña (Ferrés
y Rodrı́guez, 2007). En este enfoque, a partir
del texto de las colecciones, se construyen dos
ı́ndices:
Técnicas ad-hoc (BRF, descomposición
de palabras, expansión manual de consultas).
Construcción propia de recursos de
conocimiento geográfico a partir de recursos externos (gazetteers como GNIS
o World Gazetteer).
Expansión de consultas basada en
gazetteer y WordNet.
Módulos de pregunta-respuesta utilizando recuperación de pasajes.
Extracción de entidades geográficas.
Índice geográfico. Contiene toda la información geográfica extraı́da del texto
de las colecciones (entidades, variaciones
de nombres de entidades para resolver
posibles ambigüedades, coordenadas geográficas, etc.).
Resolución de la ambigüedad geográfica.
El sistema presentado por el grupo XLDB
de la Universidad de Lisboa (Martins et al.,
2006) fue el que obtuvo mejores resultados
en la tarea monolingüe en inglés. Volvieron
a hacer uso de la ontologı́a geográfica que
crearon en la edición anterior y la utilizaron
para expandir las consultas. Esta ontologı́a se
organiza en conceptos que ellos hacen corresponder con ámbitos geográficos (geographic
scopes). De este modo, también utilizaron expansión de consultas basadas en ámbitos geográficos. Otra caracterı́stica interesante de
16
17
GeoCLEF 2007
Índice textual. Almacena los lemas de
las palabras con contenido semántico de
la colección, sin incluir ninguna información geográfica.
Para extraer la información geográfica
tanto de las colecciones como de las consultas, hacen uso de una base de conocimien-
http://world-gazetteer.com
http://wordnet.princeton.edu
18
133
http://www.geonames.org
José Manuel Perea Ortega, Miguel Angel García Cumbreras, Manuel García Vega, L. Alfonso Ureña López
to geográfico generada por ellos mismos y
que consta de tres componentes:
Un tesauro geográfico. Este componente fue construido a su vez uniendo cuatro gazetteers: GNS, GNIS, GeoWorldMap 19 y World Gazetteer. Como
cada gazetteer tiene distintas clases y
conceptos, ellos mapearon estas clases al
conjunto de caracterı́sticas proporcionado por el tesauro ADL Feature Type
Thesaurus20 (ADLFTT).
Un tesauro de tipos de caracterı́sticas.
Utilizaron el tesauro ADL Feature Type
Thesaurus.
Una base de datos que contiene conjuntos de regiones no coincidentes (representadas por polı́gonos) para cada paı́s
(Pouliquen et al., 2004). Esta base de
datos resuelve tareas como la obtención
de los lı́mites de cualquier paı́s, la detección de si unas coordenadas dadas
pertenecen a una determinada área, etc.
Antes del proceso de recuperación, una
fase importante en este sistema es el análisis
de la consulta. Este procesamiento se divide
en un análisis lingüı́stico de los topics (etiquetado POS, extracción de lemas y de entidades) y en un análisis geográfico, aplicado
sobre las localizaciones y organizaciones detectadas durante el análisis lingüı́stico, y que
hace uso de la base de conocimiento geográfica explicada anteriormente.
Con todos estos ingredientes lanzan la
recuperación de documentos teniendo como
consulta los lemas (sin información geográfica) del topic en cuestión. Para ello, utilizan
Terrier como motor de búsqueda con varios
esquemas de pesado (TF·IDF, Okapi y DFR).
Por otro lado, obtienen otra lista de documentos recuperados utilizando la información
geográfica extraı́da del topic y el ı́ndice geográfico creado con anterioridad. Como motor de búsqueda en este ı́ndice hacen uso de
un sistema IR basado en pregunta-respuesta
(Question-Answering based IR system).
La última fase de la arquitectura consta de
un proceso de filtrado con los documentos recuperados por el sistema IR y los recuperados
usando la base de conocimiento geográfico y
el ı́ndice geográfico. En el ranking final de
documentos se colocan primero aquellos que
19
20
Figura 3: Arquitectura básica del sistema TALP presentado por la Universidad
Politécnica de Cataluña en GeoCLEF 2007
aparezcan en las dos listas. Se puede ver un
esquema del enfoque seguido por la Universidad Politécnica de Cataluña en la Figura
3.
El resto de sistemas presentados optaron básicamente por la misma filosofı́a de
usar recursos geográficos externos, gazetteers,
tesauros, ontologı́as como WordNet e incluso
Wikipedia. Mencionar la propuesta de la Universidad Politécnica de Valencia (Buscaldi y
Rosso, 2007) que utilizó expansión de consultas con WordNet haciendo uso de tres ı́ndices:
uno para términos geográficos (topónimos);
otro para términos no geográficos y el último
para términos extraı́dos de WordNet holónimos y sinónimos de los topónimos encontrados en el primer ı́ndice.
6.
Análisis de resultados
En esta sección vamos a analizar los resultados obtenidos por los distintos participantes de las tres últimas ediciones del GeoCLEF para la tarea monolingüe en inglés (ver
http://www.geobytes.com
http://www.alexandria.ucsb.edu/gazetteer
134
Sistemas de Recuperación de Información Geográfica multilingües en CLEF
Año
2005
2005
2005
2006
2006
2006
2007
2007
2007
Universidad
Berkeley2
San Marcos
Alicante
Lisboa
Alicante
San Marcos
Politécnica Cataluña
Berkeley1
Politécnica Valencia
MAP
0.3936
0.3613
0.3495
0.3034
0.2723
0.2637
0.2850
0.2642
0.2636
información geográfica (entidades, georeferencias, relaciones espaciales, etc.).
Técnicas PLN básicas aplicadas tanto
a las colecciones como a las consultas: detector y reconocedor de entidades
(NER), lematizador, lista de palabras
vacı́as y etiquetador POS.
Serı́a interesante contar también con un
desambigüador de topónimos para resolver ambigüedades geográficas.
Tabla 1: Principales resultados del GeoCLEF
en la tarea monolingüe inglés
En cuanto a la expansión de consultas
no queda claro si es recomendable utilizarla. Hay sistemas que han empeorado sus resultados usando esta técnica como (Garcı́a Vega et al., 2007) o (Toral et
al., 2006) y otros que los han mejorado
(Buscaldi y Rosso, 2007) o (Ferrés y Rodrı́guez, 2007).
Tabla 1).
En general, se observa una decadencia de
resultados en términos de precisión media
(Mean Average Precision, MAP) desde 2005
a 2007. Esto es debido fundamentalmente a
la mayor innovación y diversidad introducida
a la hora de generar las consultas tanto del
2006 como del 2007. Por ejemplo, para los
topics del GeoCLEF 2007 se introdujeron dificultades añadidas como relaciones geográficas complejas (“la costa mediterránea”), regiones polı́ticas (“Bosphorus”) o lugares geográficos delicados como lagos, aeropuertos,
circuitos de fórmula uno o catedrales. Todo
esto ha hecho que la dificultad en resolver la
tarea aumente y la precisión obtenida por los
sistemas empeore.
7.
El uso de otros recursos como WordNet
o Wikipedia también pueden ser interesantes.
Bibliografı́a
Bucher, B., P. Clough, H. Joho, R. Purves,
y A. K. Syed. 2005. Geographic IR
Systems: Requirements and Evaluation.
En Proceedings of the 22nd International
Cartographic Conference.
Buckley, C., G. Salton, J. Allan, y A. Singhal.
1995. Automatic query expansion using
smart: Trec 3. Proceedings of TREC3.
NIST, Gaithesburg, MD, páginas 69–80.
Conclusiones
En este trabajo se ha presentado un estudio sobre las distintas estrategias empleadas
para resolver la tarea de la recuperación de
información geográfica (GIR), ası́ como las
técnicas de PLN más utilizadas. Dicho estudio se ha centrado en los sistemas presentados
en GeoCLEF, un marco de evaluación GIR
que organiza el CLEF desde el año 2005. Las
conclusiones que se derivan de este estudio se
resumen a continuación:
Buscaldi, D. y P. Rosso. 2007. The UPV at
GeoCLEF 2007. En Working Notes of the
Cross Language Evaluation Forum (CLEF
2007).
Buscaldi, D., P. Rosso, y E. Sanchis Arnal.
2005. A WordNet-based Query Expansion method for Geographical Information Retrieval. En Working Notes of the
Cross Language Evaluation Forum (CLEF
2005).
Es imprescindible hacer uso de recursos externos de información geográfica,
tales como gazetteers y tesauros. Algunos de los más utilizados son: GNIS,
GNS, Geonames, World Gazetteer o
GeoWorldMap.
Cardoso, N., B. Martins, M. Silveira Chaves,
L. Andrade, y M.J. Silva. 2005. The
XLDB Group at GeoCLEF 2005. En
Working Notes of the Cross Language
Evaluation Forum (CLEF 2005).
Es recomendable la creación de al
menos dos ı́ndices para el proceso de
recuperación de información: uno que
contenga la información no geográfica (ı́ndice textual) y otro sólo con la
Chen, Aitao. 2003. Cross-Language Retrieval Experiments at CLEF 2002, volumen 2785 of LNCS Series. SpringerVerlag.
135
José Manuel Perea Ortega, Miguel Angel García Cumbreras, Manuel García Vega, L. Alfonso Ureña López
Cooper, W.S., F.C. Gey, y D.P. Dabney.
1992. Probabilistic retrieval based on
staged logistic regression. En 15th Annual
International ACM SIGIR Conference on
Research and Development in Information
Retrieval.
Ounis, I., G. Amati, V. Plachouras, B. He,
C. Macdonald, y C. Lioma. 2006. Terrier: A High Performance and Scalable
Information Retrieval Platform. En Proceedings of ACM SIGIR’06 Workshop on
Open Source Information Retrieval (OSIR
2006). Seattle, Washington, USA.
Ferrés, D. y H. Rodrı́guez. 2007. TALP at
GeoCLEF 2007: Using Terrier with Geographical Knowledge Filtering. En Working Notes of the Cross Language Evaluation Forum (CLEF 2007).
Perea Ortega, J.M., M.A. Garcı́a Cumbreras, M. Garcı́a Vega, y A. Montejo Ráez.
2007. GEOUJA System. University of
Jaén at GEOCLEF 2007. En Working
Notes of the Cross Language Evaluation
Forum (CLEF 2007), página 52.
Garcı́a Cumbreras, M.A., L.A. Ureña-López,
F. Martı́nez Santiago, y J.M. Perea Ortega. 2007. BRUJA System. The University
of Jaén at the Spanish task of QA@CLEF
2006. LNCS of Springer-Verlag.
Pouliquen, B., R. Steinberger, C. Ignat, y
T. De Groeve. 2004. Geographical information recognition and visualization in
texts written in various languages. En
Proceedings of the 2004 ACM symposium
on Applied computing, páginas 1051–1058.
Garcı́a Vega, M., M.A. Garcı́a Cumbreras,
L.A. Ureña López, y J.M. Perea Ortega.
2007. GEOUJA System. The first participation of the University of Jaén at GEOCLEF 2006, volumen 4730 of LNCS Series. Springer-Verlag.
Robertson, S.E. y S. Walker. 1999. OkapiKeenbow at TREC-8. En Proceedings of
the 8th Text Retrieval Conference TREC8, NIST Special Publication 500-246, páginas 151–162.
Gey, F. y V. Petras. 2005. Berkeley2 at GeoCLEF: Cross-Language Geographic Information Retrieval of German and English
Documents. En Working Notes of the
Cross Language Evaluation Forum (CLEF
2005).
Toral, A., O. Ferrández, Noguera, E.,
Z. Kozareva, A. Montoyo, y R. Muñoz.
2006. Geographic IR Helped by Structured Geospatial Knowledge Resources.
En Working Notes of the Cross Language
Evaluation Forum (CLEF 2006).
Guillén, R.
2007.
GeoCLEF2007 Experiments in Query Parsing and Crosslanguage GIR. En Working Notes of the
Cross Language Evaluation Forum (CLEF
2007).
Larson, R.R. 2007. Cheshire at GeoCLEF
2007: Retesting Text Retrieval Baselines.
En Working Notes of the Cross Language
Evaluation Forum (CLEF 2007).
Mandl, T., F. Gey, Di Nunzio, G., N. Ferro, R. Larson, M. Sanderson, D. Santos, C. Womser-Hacker, y Xing Xie.
2007. Geoclef 2007: the clef 2007 crosslanguage geographic information retrieval
track overview. En Proceedings of the
Cross Language Evaluation Forum (CLEF
2007).
Martins, B., N. Cardoso, M. Silveira Chaves,
L. Andrade, y M.J. Silva. 2006. The
University of Lisbon at GeoCLEF 2006.
En Working Notes of the Cross Language
Evaluation Forum (CLEF 2006).
136
Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 137-143
recibido 12-02-08, aceptado 03-03-08
PPIEs: Protein-Protein Interaction
Information Extraction system∗
PPIEs: Sistema de Extracción de Información sobre
interacciones entre proteı́nas
Roxana Danger
Paolo Rosso Ferran Pla Antonio Molina
Technical University of Valencia
Cam. Vera, s/n 46022 (Spain)
(rdanger; prosso; fpla; amolina)@dsic.upv.es
Abstract: More than three millions research articles have been written about proteins and Protein-Protein Interactions (PPI). The present work describes a plausible
architecture and some preliminary experiments of our Protein-Protein Interaction
Information Extraction system, PPIEs. The promising results obtained suggest that
the approach deserves further efforts. Some important aspects that need to be improved in the future have been identified: entity recognition; lexical data storage and
searching (in particular, controlled vocabularies); knowledge discovery for ontology
enrichment.
Keywords: Information Extraction, Protein-Protein Interaction.
Resumen: En la literatura aparecen más de tres millones de artı́culos acerca de
las proteı́nas y sus interacciones (PPI). En este trabajo se expone una arquitectura
plausible y algunos experimentos preliminares de nuestro sistema de extracción de
información sobre interacciones entre proteı́nas, PPIEs. Los resultados obtenidos
son muy prometedores, por lo que el trabajo merece ulteriores desarrollos. Este
estudio ha permitido, además, identificar algunos aspectos a mejorar en el futuro:
el reconocimiento de entidades y el almacenaje y búsqueda de datos léxicos (en
particular, los vocabularios controlados) y el descubrimiento de conocimiento para
el enriquecimiento de ontologı́as.
Palabras clave: Extracción de información, Interacción entre proteı́nas.
1
Introduction
The goal of Information Extraction Systems
(IES) is the enrichment of knowledge bases
with information from texts. None of the different methodologies used to solve this problem has clearly demonstrated its superiority
(Reeve and Han, 2005). On the one hand,
many of them are based on learning processes. In such cases, the quality of Information Extraction (IE) depends on the representativity of the training data, and the ability for generalization of the systems. On the
other hand, the majority of IES uses a complete syntactic and semantic analysis. The
quality here is affected by possible errors during Natural Language Processing (NLP).
Background knowledge is an essential element for IES. If the interesting concepts for
the task are known, as well as others semanThis work has been funded by the projects
TIN2006-15265-C06-04 and “Juan de la Cierva” of
the Ministry of Education and Science of Spain.
∗
ISSN 1135-5948
tically related concepts (such as their synonyms, antonyms, meronyms, etc.,), its identification could be used for an effective IE.
The methods for instance extraction should
be based on the own nature of the data to be
extracted.
This kind of IES guided by knowledge or, more formally, by ontology- has demonstrated to be effective when the domain
knowledge is enclosed and specific enough.
For example, in (Danger, 2007) is described
IES to populate an archeology ontology from
text collection of archeology site memories.
The system has considered both the ontological entities and the complex instances related
them, and obtained a 92% of precision and
84% of recall for the archeology ontology with
more than 500 concepts and relations.
Our goal is to propose a general architecture for IES guided by ontologies, which allows to enrich both the domain knowledge of
ontologies and their instances. This study
© Sociedad Española para el Procesamiento del Lenguaje Natural
Roxana Danger, Paolo Rosso, Ferran Pla, Antonio Molina
8
7
6
5
4
3
2
1
0
1950
1955
1960
1965
1970
1975
% of papers about "protein"
1980
1985
1990
1995
2000
% of papers about "protein protein interaction"
Figure 1: Increasing interest of the biomedical community in PPI research.
http://dan.corlan.net/medline-trend.html.
is part of a research project for the specific biomedical domain1 . The availability of
huge data in text format, the growing interest in the fascinating world of proteins as well
as the necessity for biochemistry researchers
to arrange all discovered protein features in
databases made us decide to carry out some
experiments in the Protein-Protein Interaction (PPI) domain. The present work summarizes the available resources which make
plausible our proposal and shows some preliminary results of the simplest IES guided
by ontology we conceive for the PPI domain.
Section 2 introduces the role of proteins
for life, and the importance of PPI. In Section
3 the available resources as well as our first
PPIEs (Protein-Protein Interaction Information Extraction system) are described.The results of some preliminary experiments carried
out using our PPIEs, are discussed in Section
5. Finally, conclusions and future works are
drawn in Section 6.
2
2005
Data source:
A very short and shallow summary of genetic
discoveries is given below.
Each cell (the human body has about 100
billion of cells) contains DNA (Deoxyribonucleic acid) molecules, which are sequences of
nucleotides that “describe” hereditary information, contained in a set of chromosomes
(23 pairs for humans). DNA fragments containing this hereditary information are genes;
other fragments are involved in the structural
definition or in the regulation processes of the
cells. At the beginning of a gene there is a
promoter which controls its activity, and the
coding and non-coding of a sequence. Noncoding sequences regulate the conditions necessary for gene expression (the process of
converting a gene into a useful form for the
cell). The products of gene expression, determined by the coding sequences, are in the
majority proteins.
Proteins are linear polymers built from 20
aminoacids. The majority of chemical reactions occurring inside the cell are produced
thanks to the protein capability of binding
other molecules. Bindings between the same
molecule form fibers (structural function). If
a protein is associated with other ones, an
interaction between proteins is observed.
Protein-protein interactions allow catalyzing chemical reactions (enzymatic function),
controlling the cell cycle (control function)
and assembling protein complexes (complex
functions) which, in turn, are involved in cell
signing or in signal transduction functions.
The importance of PPI in living bodies
Proteins and Protein-Protein
Interaction
Heredity and variation in living organisms
are the subject study of Genetics. The discoveries obtained from the pioneer studies of
Mendel in 1880 up to have made possible to
understand a little but exciting part of the
biochemical mechanisms of the living bodies.
1
MIDES: Métodos de aprendizaje para la minerı́a
de textos en dominios especı́ficos.
http://gplsi.dlsi.ua.es/text-mess/index.php
138
PPIEs: Protein-Protein Interaction Information Extraction system
Biomedical Ontologies 2 ) complying with various requirements, including a minimal level
of agreement between experts in each domain
area. A controlled and consensual vocabulary
useful in many tasks may thus be assumed.
The most relevant ontologies (structures of
databases, in some cases) associated with
proteins and their interaction concepts are:
intAct (Interaction Database), interPro, PO,
Uniprot/Swiss-Prot, MI, MGED and Tambis.
All above ontologies share a set of 4 essential concepts, which have been described
in (Orchard and et. al., 2007) as the minimal
interesting information for PPI:
has motivated an increasing interest in their
study. Figure 1 shows the proportional increasing of the published papers about proteins and PPI since the middle of the last
century until nowadays. Up to 2005, more
than 3 millions papers about proteins have
been published, and at least 5% of them were
related specifically to PPI. In the figure, it
may be noticed the growing interest of the
biomedical community in protein research,
and it is clear the faster behaviour of the published papers regarding to PPI.
Different point of views are emphasized in
the studies about proteins: their structural
utility, biochemical signals and/or biochemical reactions. All viewpoints have to be combined in order to obtain a general idea of the
influence of a determined gene or protein in
the organism. Moreover, PPI are important
because they may help to discover the functions of other proteins making them interact
and observing the successive behaviour. Considering all the above, the current challenge
of bioinformatics is to populate biomedical
databases with the essential information in
order to allow some basic processing, such
as searching or general comparison between
proteins or their interactions.
Currently, manual and semi-automatic
processing are carried out in order to make
the recent discoveries available to all biochemical community. The present work aspires to contribute to this process of information diffusion and interchange.
3
• Publications: a subject research together with its authors, institutions,
journal of publication, etc. and the experiments which have been carried out;
• Experiments: a description of the experiments which justify the research;
• Interactions: a list of interactions occurring in the experiments;
• Interactors: a list of interacting molecular elements.
An ontology-driven IES for PPI should
consider, in an initial stage, at least the above
concepts. In successive stages, other related
concepts could be incrementally added.
3.2
PPI resources
The PPI resources which make possible to define an IES are enumerated in the three successive sections. As we explained above, the
definition of an ontology to guide the process is essential. In the literature we have
found different ontologies regarding PPI.
Their study have allowed us to discover the
indispensable information needed to be extracted. On the other hand, some biomedical NLP tools have been defined; the understanding of the used methods together with
how to improve them is an important issues.
Finally, we describe the available data as well
as the textual medical databases over which
we work.
3.1
Biomedical NLP tools
Recognizing bio-entities (proteins, genes, biological functions, diseases, treatments and
others biomedical concepts) is the task in
which current developments are focusing on.
Given the huge amount of concepts available
in the controlled vocabularies which could appear in biomedical texts, some of these recognizers merge Information Retrieval (IR) and
IE techniques in order to speed up the recognition process.
Table 1 gives an idea of the quality of protein entity recognizers. Four of the available
systems were (trained if necessary and) used
to extract proteins from the evaluation sentences provided by BIOCREATIVE’06 challenge3 . As may be noticed, more than 44%
of the proteins remained undetected.
Most of the biomedical recognizers use:
rules or dictionary searcher strategies, like
in (Hanisch et al., 2005) and (Kou, Cohen, and Murphy, 2005); or machine learning
PPI ontologies
The biomedical community has been developing a set of ontologies (the OBO, Open
2
3
139
http://obo.sourceforge.net
http://biocreative.sourceforge.net/biocreative 2.html
Roxana Danger, Paolo Rosso, Ferran Pla, Antonio Molina
Figure 2: General architecture for a simple IES.
System
ABNER
GAPSCORE (Score ≤ 0.3)
NLPROT
WHATIZIT
Pr
0.57
0.67
0.57
0.82
R
0.44
0.52
0.56
0.54
teins or a set of grammatical rules manually
computed. The systems which detected interactions from raw text obtained a F-score
of 30, whereas those that used manually interactor annotations reached as much an Fscore of 48.
F1
0.50
0.56
0.56
0.65
Table 1: Comparison of protein recognizers.
Pr=Precision, R=Recall.
3.3
Public PPI data
The biomedical community publishes various
databases in which PPI are described and are
constantly updated and supervised by biologists. The most relevant are: HPRD (Human
Protein Reference Database), IntAct (Interaction Database) and DIP (Database of Interacting Proteins). Each of them provides
sophisticated searching capabilities in order
to allow users to review, compare and search
for particular protein features.
A big amount of researches are public
available in various format (pdf, xml, etc.).
Pubmed database 4 provides access to citations from biomedical literature of many
journals and conferences. Moreover, the data
available in databases are referred to Pubmed
paper identifiers. Therefore, combining both
sources of information, sets of texts for training and evaluation purposes may be easily
defined.
approaches based on Hidden Markov Models or Conditional Random Fields, like in
(Okanohara et al., 2006) and (Sun et al.,
2007).
Such bad results are due to the terminology problems observed in bio-entities. Although some molecular names provide useful
cues (as the molecular weight, function or the
discoverer name), many interactors are described by long, compound, ambiguous, common and jargon English words.
However, in BIOCREATIVE’06 challenge
(Wilbur, Smith, and Tanabe, 2007) new proteins recognizers (not freely available) which
obtain better results with a highest F1-score
of 87.21, have been described. Moreover,
combining the results a significant improvement of a 90.66 of F1-score is achieved. This
fact reveals us that new bio-entities recognizers, in particular proteins, would be able to
reach high quality values by combining different techniques. A similar conclusion was
obtained in recent comparison studies (Ponomareva et al., 2007), (Sun et al., 2007).
A representative set of IES for PPI has
been met in BIOCREATIVE’06 challenge
(Krallinger, Leitner, and Valencia, 2007).
The competition was concentrated in detecting pairs of proteins and the kind of interaction between them. The common framework of the systems is to use a complete
syntactic and semantic analysis to extract
clearly defined interactions. Interactions are
extracted considering verb joining two pro-
4
Defining our first PPIEs
The simplest approximation we may conceive
for an IES guided by ontologies is represented
in Figure 2. It is composed basically by a
process which converts a raw text in a list of
words (by using a text segmentation, which
includes the recognition of simple datatypes
such as those that use regular expressions,
and a signs remover). Then, the words are
stemmed and used by ontology entity recognizers.
Ontology entities to be recognized are defined in form of concepts and relations of a
4
140
http://www.ncbi.nlm.nih.gov/PubMed/
PPIEs: Protein-Protein Interaction Information Extraction system
Type of entity
Biological role
Cell type
Detection method
Identification method
Interaction type
Interactor type
Tissue type
Protein name
Vocabulary Resource
psi-mi.obo#biological role
cell.obo#cell
psi-mi.obo#interaction detection method
psi-mi.obo#participant identification method
psi-mi.obo#interaction type
psi-mi.obo#interactor type
http://www.expasy.org/cgi-bin/lists?tisslist.txt
Uniprot/Swiss-Prot database5
Table 2: PPI controlled vocabulary. Notation: Ontology name#concept base in the Ontology.
PPI ontology. We assume that the lexical information to extract them from text is also
specified in the ontology. Therefore, a reasoner should be used to: 1) interpret the ontology, that is, the concepts and their relations; and 2) make available lexical information needed for the IE task.
The instance generator makes use of the
algorithm proposed in (Danger, 2007). This
algorithm defines a set of rules for the complex instance generation which use the ontology interpretation to properly link a list of
ontological entities.
The above architecture is useful for a
study of the complexity of the problem we are
facing. In the following sections we describe,
our PPI including how the lexical information
has been linked to the appropriated ontological elements and the inference process used
to generate the complex instances.
4.1
Entity recognizers are simply dictionary
searchers. In Table 2 the resources from
which the dictionaries have been created are
described. Almost all of them are ontologies
from the Open Biomedical Ontologies 6 .
4.2
Ontology Reasoner and
instance generation
The Pellet reasoner7 , the most popular reasoner for OWL, has been used to recover,
from PPIO, the instances models (general
descriptions of the concepts and their relations) and the lexical information which will
be used to generate complex instances describing protein-protein interactions.
For simplicity, the reader should assume
that we obtain, for each concept, the other
concepts and relations associated with it, its
position in the hierarchy with respect to the
others concepts, and how to recognize it in
a text. Therefore, using all this information,
the ontology entities in texts may be discovered. It is easy to infer the compositions of
relations linking two concepts and the semantic distances between them. The two aspects
above allow, by using the algorithm introduced in (Danger, 2007), to infer the complex
ontological instances described in texts.
PPI ontology
We have defined an ontology in OWL (Ontology Web Language) for PPI, based on the
recommendations about the minimal interesting information for PPI (Orchard and et.
al., 2007). We include other important and
well classified concepts related to this domain
knowledge such as: interaction and interactor
types, biological role of a host in the experiments, cell type on which the experiment was
carried out or applied, detection interaction
and identification of the interactors methods.
The ontology we defined, PPIO, contains
19 concepts and 21 relations. Moreover, it
has been enriched with lexical information
in two annotation properties, lex and lexValue. Through them the lexical methods
for identifying ontological elements (concepts
and properties) and properties values are described. In the current implementation lex
and lexValue are limited to list entity examples.
5
Preliminary experiments
Experiments have been carried out on two resources developed and maintained by EBI8 .
The first resource is IntAct, the previously
mentioned database, and the second one is a
set of 3422 paragraphs extracted from PPI research papers along with the interaction identification number (Accession number, AC ) in
IntAct database which represents the interaction described in the paragraph. Each paragraph represents a complex interaction in6
http://obo.sourceforge.net
http://www.mindswap.org/2003/pellet/
8
http://www.ebi.ac.uk/
7
141
Roxana Danger, Paolo Rosso, Ferran Pla, Antonio Molina
Type of entity
Biological role
Cell type
Detection method
Identification method
Interaction type
Interactor type
Tissue type
Protein name
%of Parag.
100
32
100
100
100
100
9
100
Precision
90
92
70
98
99
100
58
95
Recall
46
69
23
85
83
78
35
78
Table 3: Entities in text paragraphs.
stance: there are 3422 interaction instances
which include a total of 87186 relations.
For example, given a typical paragraph
such as:
“Co-immunoprecipitation from T-cells of
theta PKC and p59fyn.”,
ontological entities are recognized using dictionary searchers, as in the example:
High recall values were obtained for proteins, but these results are due to the completeness of the protein dictionary, which also
includes protein synonyms. In the future, we
should use a molecular (protein) recognizer
based on morpho-syntactic features of protein names, and protein synonyms should be
discovered and matched to the corresponding
most common protein names. We limit the
analysis to protein interactor types: therefore, the precision is of 100% and the recall
coincides with the recall of protein name.
Other entities have different behaviours.
The interaction type, identification method
and cell type concepts are well recognized due
to the stability of their vocabulary, whereas
a low proportion of detection method, and
tissue type are recognized. We plan to perform a thorough study of the dynamism of
biomedical terminology in order to recognize
new terms, as well as to improve the entity
disambiguation mechanism. Also, a process
for identifying typing errors will be included,
because we notice a high frequency of such
mistakes in the processed text.
With respect to the instance generation
process, a precision of 72% and a recall
of 67% were obtained considering all paragraphs. We consider that an instance is well
recognized if it is referred to the correct concept and all its relations are well formed.
In spite of the rather simple linguistics
processing, the precision and recall values obtained by the system are satisfactory. We will
try to maintain linguistic processing complexity as low as possible in future developments. Moreover, we plan to improve the
entity recognition process to make it less
dictionary-dependent.Other two issues will
be considered in the future. These are the
learning of new terms, synonyms, acronyms
and metonyms to enrich the controlled vocabulary, and the efficient recognition of such
<detect method >Co-immunoprecipitation
</detect method > from <tissue type> Tcells </tissue type> of <protein> theta PKC
</protein> and <protein> p59fyn </protein>.
Finally, the corresponding instance is reconstructed using the instance generator as
follows. The indentation is used to identify
relations with previously defined instances.
As it may be noticed, the complex instance
is created using the list of recognized entities. The appropriate relations are selected
and used to link the corresponding instances.
Some instances (such as experiment) and
data (such as interaction type) are inferred
using the ontology information.
interaction
has been produced by :: experiment
f ound in source :: ncbiTaxId=9606
has tissue type :: Peripheral blood T-lym.
detect method :: anti bait coimmunoprecipit.
has participant :: Concrete interactor
name :: Proto-oncog. tyros.-protein kin. Fyn
interactorT ype :: protein
has participant :: Concrete interactor
name :: Protein kinase C theta type
interactorT ype :: protein
has interaction type :: physical interaction
Table 3 shows for each type of entity mentioned in the paragraphs, the percentage of
paragraphs in which it has been found and
the precision and recall obtained by the particular ontology entity recognizer.
142
PPIEs: Protein-Protein Interaction Information Extraction system
terms in texts. The latter aspect includes the
use of efficient indexing strategies for searching terms appearing in texts.
6
the second biocreative ppi task: Automatic extraction of protein-protein interactions. In Proceedings of the Second
BioCreative Challenge Evaluation Workshop, pages 41–54.
Conclusions and further work
In this paper we have introduced an architecture for an information extraction system
about protein protein interactions, PPIEs.
The most important resources available regarding PPI have been summarized. Such
resources have been used in order to perform information extraction in relevant papers. A domain ontology on PPI has been
defined which includes lexical information regarding ontological entities. Preliminary experimental results are encouraging. They indicate that the proposed set of tools is suitable for PPI identification, although a more
sophisticated mechanism for entity identification should be used in the future. Furthermore, we plan to study the dynamism of the
biomedical vocabulary (including the recognition and evolution of new terms, synonyms,
acronyms and metonyms), the disambiguation process and the extension of the PPIO
ontology.
Okanohara, Aisuke, Yusuke Miyao, Yoshimasa Tsuruoka, and Junichi Tsujii. 2006.
Improving the scalability of semi-markov
conditional random fields for named entity
recognition. Proceedings of the 21st International Conference on Computational
Linguistics and the 44th annual meeting
of the ACL, pages 465–472.
Orchard, Sandra and et. al. 2007. The
minimum information required for reporting a molecular interaction experiment (mimix).
Nature Biotechnology,
25(8):894–898.
Ponomareva, Natalia, Paolo Rosso, Ferrán
Pla, and Antonio Molina. 2007. Conditional random fields vs. hidden markov
models in a biomedical named entity
recognition task. In Proc. of Int. Conf.
Recent Advances in Natural Language
Processing, RANLP, pages 479–483.
References
Reeve, Lawrence and Hyoil Han. 2005. Survey of semantic annotation platforms. In
SAC, pages 1634–1638.
Danger, Roxana. 2007. Extraction and
analysis of information from the Semantic
Web perspective (in Spanish: Extracción y
análisis de información desde la perspectiva de la Web Semántica). Ph.D. thesis.
Sun, Chengjie, Yi Guan, Xiaolong Wang, and
Lei Lin. 2007. Rich features based conditional random fields for biological named
entities recognition. Computers in Biology
and Medicine, 37(9):1327–1333.
Hanisch, Fundel, Mevissen, Zimmer, and
Fluck. 2005. Prominer: rule-based protein and gene entity recognition. BMC
Bioinformatics, 6 Suppl 1.
Wilbur, Johm, Larry Smith, and Lorrie Tanabe. 2007. Biocreative 2. gene mention task. In Proceedings of the Second
BioCreative Challenge Evaluation Workshop, pages 7–16.
Kou, Zhenzhen, William Cohen, and Robert
Murphy. 2005. High-recall protein entity
recognition using a dictionary. Bioinformatics, 21(1):266–273.
Krallinger, Martin, Florian Leitner, and Alfonso Valencia. 2007. Assessment of
143
Tesis
Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 147-148
recibido 06-11-07, aceptado 03-03-08
Computing Meaning in Interaction
Computación del Significado en Diálogos
Roser Morante Vallejo
Tilburg University
Postbus 90153, 5000 LE Tilburg, The Netherlands
[email protected]
Resumen: Tesis doctoral realizada en la Universidad de Tilburg por Roser Morante Vallejo
bajo la dirección de Harry Bunt (Tilburg Univ.). La defensa de la tesis tuvo lugar el 3
de diciembre de 2007 ante el tribunal formado por los doctores David Traum (Univ. of
Southern California), Michael McTear (Univ. of Ulster), Reinhard Muskens (Tilburg Univ.),
Emiel Krahmer (Tilburg Univ.) y Robbert-Jan Beun (Utrecht Univ.).
Palabras clave: Actos de habla, simulación del diálogo, actualización del contexto, DIT,
grounding.
Abstract: PhD Thesis written by Roser Morante Vallejo at Tilburg University under the supervision of Harry Bunt (Tilburg Univ.). The thesis defence (viva voce) took place before the
committee formed by doctors David Traum (Univ. of Southern California), Michael McTear
(Univ. of Ulster), Reinhard Muskens (Tilburg Univ.), Emiel Krahmer (Tilburg Univ.) and
Robbert-Jan Beun (Utrecht Univ.) on the 3rd of December 2007.
Keywords: Dialogue acts, dialogue simulation, context update, DIT, grounding.
1.
Introduction
The general purpose of our research is to
define a model of dialogue context update in
the framework of Dynamic Interpretation Theory
(DIT) (Bunt, 2000).
According to the theory, communicative
agents can be modelled as structures of goals, beliefs, preferences, expectations, and other types
of information, plus memory and processing capabilities. Part of these structures is dynamic in
the sense of changing during a dialogue, as a result of the agents perceiving and understanding
each other’s communicative behavior, of reasoning with the outcomes of these processes, and of
planning communicative and other acts. A dialogue participant’s beliefs about the domain and
about the dialogue partner form a crucial part of
his information state, which in DIT is called his
context. Dialogue acts are functional units used
by the speaker to change the context. Formally, a
dialogue act in DIT consists of a semantic content
and a communicative function, the latter specifying how the information state of the addressee is
to be updated with the former upon understanding the corresponding utterance. Context includes
the participant’s state of beliefs and goals, including beliefs about each other’s processing of previous utterances.
2.
Contributions
Our main contributions are: (i) applying the
theory to the analysis of dialogue, using the DIT
taxonomy of dialogue acts to model dialogues; in
ISSN 1135-5948
particular we are concerned with modeling the
effects of three groups of dialogue acts in the dialogue context: Information Transfer, Action Discussion, and Dialogue Control Feedback; (ii) assigning the model of beliefs and goals to dialogue
acts; (iii) analysing fragments of dialogues by applying this model; (iv) defining a model of context
update by defining certain principles and rules.
On the basis of a detailed analysis of the flow of
beliefs in a number of simple dialogue fragments,
we propose certain mechanisms for modeling the
transfer of information: adoption, strengthening,
and cancellation of beliefs.
This has allowed us to explain in the form of
an algorithm how information may be updated
in a dialogue (Morante, Keizer, y Bunt, 2007), in
particular how information may be grounded. We
have proposed that grounding is the side–effect
of general communication principles, and mostly
the result of addressees giving feedback, implicit
or explicit, to speakers (Bunt y Morante, 2007).
The context update model has been converted into an algorithm and implemented in a dialogue
simulator (Keizer y Morante, 2007).
In sum, our investigation has yielded theoretical and practical results. On the theoretical side,
the analysis of dialogues has led to a better understanding of how the dialogue participant’s context
is updated as an effect of the utterances being
produced. On the practical side, the context update model has been converted into an algorithm
and implemented in a dialogue simulator.
© Sociedad Española para el Procesamiento del Lenguaje Natural
Roser Morante
3.
Contents
lator and context update system synthesizes
the belief update process as understood in DIT
in the form of a general algorithm that is implemented in a tool. The algorithm concentrates the
findings of our research and it reflects what we understand to be an aspect of computing meaning in
interaction, namely updating the beliefs and goals
in the participant’s context model. The chapter
presents the tool in which the algorithm is implemented, DISCUS, a Dialogue Simulation and
Context Update System.
Finally, Chapter 10: Conclusions and Future Research puts forward some conclusions
and suggestions for future research.
Chapter 1: Introduction introduces the
topic of research, goals, scope, and background.
Chapter 2: Dialogue Modelling presents a
general view of the main approaches to dialogue
modeling, a review of foundational literature on
belief modeling, and the information state approach to dialogue management, where DIT can
be placed.
In Chapter 3: Grounding we review various
approaches to grounding, which is a dialogue phenomenon for which our model of dialogue analysis can give an account. We start by defining
some concepts related to grounding, we introduce
the foundational Contribution Model by (Clark
y Schaefer, 1989) and two related proposals: the
extension of the Contribution Model to HC interaction by Brennan and collaborators (Brennan,
1998; Cahn y Brennan, 1999), and the formal theory of grounding by (Paek y Horvitz, 2000); the
computational theory of grounding by (Traum,
1994), and the treatment of grounding from the
information state update perspective.
Chapter 4: Dynamic Interpretation
Theory is devoted to introducing the theoretical framework of our research. The concepts of
dialogue act and context are explained, the DIT
dialogue act taxonomy is presented, and the DIT
approach to dialogue management is sketched.
Chapter 5: Dialogue Analysis Methodology presents the methodology that will be applied to the analysis of dialogues. It consists of
defining the effects that an utterance has in the
context model, and making explicit general rules
and principles that govern the context update:
creation, adoption, and cancellation of beliefs.
In Chapter 6: Analysis of Dialogue Patterns (I), General Purpose Communicative Functions we analyse how the context is
updated with the General Purpose Communicative Functions of Information Transfer and Action
Discussion.
In Chapter 7: Analysis of Dialogue Patterns (II), Dialogue Control Communicative Functions we focus our attention on a
group of Dialogue Control Functions: Auto–
Feedback Functions. Feedback Functions are used
by dialogue participants to provide information
about their processing of the partner’s previous
utterances. Feedback can be positive or negative,
and can refer to different levels of processing. The
goal of this chapter is to provide an analysis for all
levels and types of Autofeedback communicative
functions, as defined in DIT.
In Chapter 8: Context Update in Dialogues: a DIT approach we analyse long dialogues, and we show that the DIT mechanisms for
context update can explain how dialogue participants reach a subjective state of grounding, without the need of specific grounding mechanisms.
Chapter 9: DISCUS: A dialogue simu-
Bibliografı́a
Brennan, S. E. 1998. The grounding problem
in conversations with and through computers.
En S.R. Fussell y R.J. Kreuz, editores, Social and cognitive psychological approaches to
interpersonal communication. Lawrence Erlbaum, Hillsdale, NJ, páginas 201–225.
Bunt, H. 2000. Dialogue pragmatics and context specification. En H. Bunt y W. Black,
editores, Abduction, Belief and Context in Dialogue. Studies in Computational Pragmatics.
John Benjamins, Amsterdam, páginas 81–150.
Bunt, H. y R. Morante. 2007. The weakest
link. En Text, Speech and Dialogue, 10th International Conference, TSD 2007, Proceedings. Lecture Notes in Computer Science 4629,
páginas 591–598, Plzen, Czech Republic.
Cahn, J. E. y S. E. Brennan. 1999. A psychological model of grounding and repair in dialog. En Proceedings AAAI FAll Symposium
on Psychological Models of Communication in
Collaborative Systems, páginas 25–33, North
Falmouth, MA. American Association for Artificial Intelligence, AAAI.
Clark, H.H. y E.F. Schaefer. 1989. Contributing
to discourse. Cognitive Science, 13:259–294.
Keizer, S. y R. Morante. 2007. Dialogue simulation and context dynamics for dialogue management. En Proceedings of the NODALIDA
conference, páginas 310–317, Tartu, Estonia.
Morante, R., S. Keizer, y H. Bunt. 2007. A
dialogue act based model for context updating. En Proceedings of the 11th Workshop
on the Semantics and Pragmatics of Dialogue
(DECALOG), páginas 9–16, Rovereto, Italy.
Paek, T. y Eric Horvitz. 2000. Grounding
criterion: toward a formal theory of grounding. Technical report MSR–TR–2000–40, Microsoft Research, Redmond, WA.
Traum, D.R. 1994. A Computational Theory
of Grounding in Natural Language Conversation. PhD Thesis. Department of Computer
Science, University of Rochester, Rochester.
148
Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 149-150
recibido 29-01-08, aceptado 03-03-08
Recuperación de Pasajes Multilingüe
para la Búsqueda de Respuestas∗
Multilingue Passage Retrieval for Question Answering
José M. Gómez
Departamento de Sistemas Informáticos y Computación
Universidad Politécnica de Valencia
Camino Vera s/n - 4022 Valencia
[email protected]
Resumen: Tesis doctoral en Informática realizada en la Universidad Politécnica de
Valencia (UPV) por José Manuel Gómez Soriano bajo la dirección del Dr. Emilio
Sanchis Arnal (UPV). La defensa de tesis tuvo lugar ante el tribunal formado por
los doctores Manuel Palomar Sanz y Fernando Llopis Pascual (Univ. Alicante), L.
Alfonso Ureña López (Univ. Jaén), y Lidia A. Moreno Boronat y Paolo Rosso (UPV)
el 28 de noviembre de 2007. La calificación obtenida fue Sobresaliente Cum Laude
por unanimidad.
Palabras clave: JIRS, recuperación de información, recuperación de pasajes,
búsqueda de respuestas
Abstract: PhD Thesis in Computer Science written by José Manuel Gómez Soriano
under the supervision of Dr. Emilio Sanchis Arnal from Polithecnic Univ. of Valencia
(PUV). The author was examined in Nov 28, 2007 by the commitee formed by the
doctors Manuel Palomar Sanz and Fernando Llopis Pascual (Univ. Alicante), L.
Alfonso Ureña López (Univ. Jaén), and Lidia A. Moreno Boronat and Paolo Rosso
(PUV). The greade obtained was Sobresaliente Cum Laude.
Keywords: JIRS, information retrieval, passage retrieval, question answering
1.
Introducción
Los sistemas de Búsqueda de Respuestas (BR) son sistemas que dan una respuesta concreta a una pregunta realizada por el
usuario. Esta pregunta, en vez de ser un conjunto de términos como en las tareas de Recuperación de Información (RI) ad hoc, se
realiza en lenguaje natural y, generalmente, está escrita correctamente tanto sintáctica
como semánticamente. Una de las dificultades a las que se enfrentan los sistemas de BR
es que éstos devuelven mucha menos información que los sistemas de RI clásicos. Los
primeros únicamente devuelven una respuesta formada por unos pocos términos y los segundos una lista de documentos relevantes.
Es usual que los sistemas de BR hagan uso
de sistemas de RI como primera etapa para
reducir la cantidad de información que deben
procesar. Por lo general, los sistemas tradicionales de RI, basados en palabras claves, fallan
a la hora de entregar pedazos de texto (pa∗
Este artı́culo ha sido parcialmente financiado bajo
el proyecto TEX-MESS número TIN2006-15265-C0601.
ISSN 1135-5948
sajes) con la respuesta cuando la pregunta se
realiza en lenguaje natural.
JAVA Information Retrieval System
(JIRS) es un sistema de RI que fue inicialmente ideado y especializado para tareas
de BR. El objetivo de JIRS, al contrario
que los sistemas tradicionales de RI, es
encontrar pasajes con mayor probabilidad
de contener la respuesta en vez de obtener
documentos relevantes. Es más, está enfocado para recuperar pasajes directamente
en vez de documentos. JIRS es un sistema
independiente del idioma, de hecho ha sido
usado en idiomas tan dispares como español,
inglés, francés, italiano, árabe, urdu y oromo
y, en general, puede ser utilizado, sin apenas
cambios, en cualquier idioma no aglutinativo.
Recientemente también ha sido adaptado
al euskera, que es un idioma aglutinativo,
añadiendo un pequeño módulo de separación
de términos para el euskera.
La hipótesis en la que se basa JIRS es que,
en una colección de documentos suficientemente grande, siempre habrá una expresión
muy similar a la pregunta que contenga la
respuesta. JIRS busca estas semejanzas y de© Sociedad Española para el Procesamiento del Lenguaje Natural
José M. Gómez
vuelve las más parecidas al principio de la lista de resultados. Por ejemplo, si la pregunta
es “What is the capital of Croatia? ”, JIRS intentará encontrar la estructura Zagreb is the
capital of Croatia, o alguna muy similar. JIRS
busca n-gramas formados por términos de la
pregunta en una colección de documentos y
aquellos pasajes con estructuras de mayor peso y más aglutinadas serán los que obtendrán
mayor valor de similitud.
2.
delo de Distancias valora mejor aquellos pasajes que estén formados por estructuras con
los términos de la pregunta de mayor peso y
que, además, estén más aglutinadas.
4.
JAVA Information Retrieval System es un
sistema de RP especialmente orientado a BR
puesto que fue diseñado especı́ficamente para dicha tarea. Este sistema no busca los documentos o pasajes relevantes a una consulta sino los pasajes con mayor probabilidad
de contener la respuesta. Para ello utiliza un
sistema que busca estructuras formadas por
los términos de la pregunta y las valora dependiendo del peso de dichos términos y la
distancia con respecto a las estructuras de
mayor peso. Los resultados presentados en la
tesis demuestran que JIRS mejora la precisión, cobertura y MRR de los pasajes devolviendo un mayor número de pasajes que contiene la respuesta que los tradicionales sistemas de RI. Los sistemas de BR que utilizaron algún modelo de n-gramas de JIRS en
la edición del CLEF 2005, se situaron entre
las mejores posiciones y, en el CLEF 2006, se
demostró que el mismo sistema de BR mejoraba considerablemente si se utilizaba JIRS
en vez de Lucene como sistema de RP. Usando JIRS se podrı́a mejorar los resultados de la
mayorı́a de los participantes del CLEF puesto
que éstos utilizan el Lucene en sus respectivos
sistemas de BR. La única condición que se debe cumplir para que los sistemas de n-gramas
mejoren los resultados es que el corpus tenga
la suficiente redundancia. De no ser ası́, JIRS
se comporta como un sistema tradicional de
RI.
JIRS es una aplicación modular y escalable, que permite una alta adaptabilidad a
nuevos proyectos sin tener que conocer el
código desarrollado por otros. En estos momentos está siendo utilizada por diversos grupos nacionales e internaciones de investigación para desarrollar nuevas herramientas de
Procesamiento del Lenguaje Natural debido
a su cualiades y su potencia.
JIRS es una aplicación libre con licencia
GPL que puede ser descargada gratuitamente
de http://jirs.dsic.upv.es/.
Descripción de JIRS
JIRS es un sistema de RI y Recuperación de Pasajes (RP) de alta modularidad,
escalabilidad y configuración. A parte de realizar búsquedas por los tradicionales métodos basados en palabras claves, permite hacer búsquedas basadas en n-gramas. Esto lo
hace especialmente apropiado para sistemas
de BR multilingüe.
JIRS se compone de un núcleo llamado Java Process Manager (JPM), unos archivos de
configuración. y un conjunto de bibliotecas
de clases. JPM es un gestor de procesos que
permite añadir o modificar la operatividad
del sistema ası́ como los parámetros de ejecución de una forma sencilla sin recompilar
toda la aplicación, únicamente modificando
los archivos de configuración. Dichos archivos
tienen una estructura jerárquica basada en
documentos XML que permite estructurar la
información de una forma lógica. Los archivos
de configuración no se componen únicamente
de parámetros de la forma nombre-valor que
determinan la configuración de las diferentes
acciones, sino que determinan qué acciones y
cuál será el orden de ejecución de dichas acciones. De esta forma se puede modificar totalmente el comportamiento del sistema cambiando únicamente el archivo de configuración.
3.
Conclusiones
El modelo de Densidad de
Distancias de N -gramas
JIRS incorpora tres modelos de n-gramas
para realizar las búsquedas. De los cuales,
el modelo de Densidad de Distancias de N gramas (en adelante el modelo de Distancias)
es el que mejor resultados aporta. Este modelo busca, en los pasajes, estructuras que
estén formadas por términos de la pregunta.
Después valora estas estructuras dependiendo del peso de los términos que contienen y
el número de términos que las separa del ngrama de mayor peso. De esta forma, el mo150
Procesamiento del Lenguaje Natural, Revista nº 40, marzo de 2008, pp. 151-152
recibido 30-01-08, aceptado 03-03-08
Desarrollo y evaluación de diferentes metodologı́as para la
gestión automática del diálogo ∗
Development and evaluation of different methodologies for automatic
dialog management
David Griol Barres
Departament de Sistemes Informàtics i Computació
Universitat Politècnica de València. E-46022 València, Spain
[email protected]
Resumen: Tesis doctoral en Informática realizada por David Griol Barres bajo la
dirección de los doctores Lluı́s Hurtado Oliver y Encarna Segarra Soriano (Univ.
Politècnica de València). El acto de defensa de la tesis tuvo lugar el 12 de Diciembre
de 2007 ante el tribunal formado por los doctores Eduardo Lleida Solano (Univ.
de Zaragoza), Javier Macı́as Guarasa (Univ. de Alcalá de Henares), Marı́a Inés
Torres Barañano (Univ. del Paı́s Vasco), Emilio Sanchis Arnal (Univ. Politècnica de
València) y Fernando Garcı́a Granada (Univ. Politècnica de València). La calificación
obtenida fue de Sobresaliente Cum Laude por unanimidad.
Palabras clave: Gestión de Diálogo, Modelos Estadı́sticos, Simulación de usuarios,
Adaptación, Sistemas de Diálogo
Abstract: PhD Thesis in Computer Science written by David Griol Barres under
the supervision of Dr. Lluı́s Hurtado Oliver and Dr. Encarna Segarra Soriano (Univ.
Politècnica of València). The author was examined on December 12th 2007 by the
committee formed by Eduardo Lleida Solano (Univ. de Zaragoza), Javier Macı́as
Guarasa (Univ. de Alcalá de Henares), Marı́a Inés Torres Barañano (Univ. del Paı́s
Vasco), Emilio Sanchis Arnal (Univ. Politècnica de València) y Fernando Garcı́a
Granada (Univ. Politècnica de València). The grade obtained was Sobresaliente Cum
Laude.
Keywords: Dialog Management, Statistical Models, User Simulation, Adaptation,
Dialog Systems
1.
Introducción
Un interés histórico dentro del campo de
las Tecnologı́as del Habla ha sido utilizar estas tecnologı́as en aplicaciones reales, especialmente en aplicaciones que permitan a una
persona utilizar su voz para obtener información mediante la interacción directa con
una máquina o para controlar un determinado sistema. Un sistema de diálogo puede, de
esta forma, entenderse como un sistema automático capaz de emular a un ser humano
en un diálogo con otra persona, con el objetivo de que el sistema cumpla con una cierta tarea (normalmente suministrar una cierta
información o llevar a cabo una determinada
tarea).
El gestor del diálogo es un elemento central dentro de la arquitectura de un sistema
de diálogo, dado el número de módulos con
∗
Trabajo parcialmente financiado por los proyectos
TIN2005-08660-C04-02 y TIC2002-04103-C03-03.
ISSN 1135-5948
los que interacciona y las tareas que debe llevar a cabo para decidir las acciones que dan
respuesta a la intervención del usuario.
El objetivo principal de la tesis es el estudio y desarrollo de diferentes metodologı́as
para la gestión del diálogo en sistemas de
diálogo hablado. El principal reto planteado
reside en el desarrollo de metodologı́as puramente estadı́sticas para la gestión del diálogo, basadas en el aprendizaje de un modelo a
partir de un corpus de diálogos etiquetados.
En este campo, se presentan diferentes aproximaciones para realizar la gestión, la mejora
del modelo estadı́stico y la evaluación del sistema del diálogo.
Para la implementación práctica de estas
metodologı́as, en el ámbito de una tarea especı́fica, ha sido necesaria la adquisición y etiquetado de un corpus de diálogos. El hecho
de disponer de un gran corpus de diálogos ha
facilitado el aprendizaje y evaluación del mo© Sociedad Española para el Procesamiento del Lenguaje Natural
David Griol Barres
delo de gestión desarrollado. Ası́ mismo, se
ha implementado un sistema de diálogo completo, que permite evaluar el funcionamiento práctico de las metodologı́as de gestión en
condiciones reales de uso.
Para evaluar las técnicas de gestión del
diálogo se proponen diferentes aproximaciones: la evaluación mediante usuarios reales; la
evaluación con el corpus adquirido, en el cual
se han definido unas particiones de entrenamiento y prueba; y la utilización de técnicas de simulación de usuarios. El simulador
de usuario desarrollado permite modelizar
de forma estadı́stica el proceso completo del
diálogo. En la aproximación que se presenta,
tanto la obtención de la respuesta del sistema como la generación del turno de usuario
se modelizan como un problema de clasificación, para el que se codifica como entrada un
conjunto de variables que representan el estado actual del diálogo y como resultado de
la clasificación se obtienen las probabilidades
de seleccionar cada una de las respuestas (secuencia de actos de diálogo) definidas respectivamente para el usuario y el sistema.
A partir de los diálogos generados mediante el uso de este módulo de simulación se
ha ampliado y mejorado el corpus adquirido inicialmente. Además se presentan diferentes técnicas para la generación automática de diálogos, que facilitan la obtención automática de un corpus etiquetado de diálogos y el posterior aprendizaje de un gestor
de diálogo.
Los trabajos desarrollados se engloban en
el marco del proyecto DIHANA, cuyo principal objetivo fue el desarrollo de un sistema de
diálogo para el acceso a un sistema de diálogo
mediante el habla espontánea. La tarea definida para el proyecto fue el acceso vocal a
un sistema que proporciona información sobre trayectos en tren de recorrido nacional.
En último lugar, las metodologı́as propuestas en DIHANA para la gestión del diálogo se han adaptado para desarrollar un gestor de diálogo en el ámbito del proyecto
EDECÁN. Se describe la adaptación realizada y la evaluación de un gestor desarrollado
para un sistema de diálogo que facilita la reserva de instalaciones deportivas.
Adicionalmente, se presentan diferentes
metodologı́as basadas en reglas para la gestión del diálogo, ası́ como distintas aproximaciones para el desarrollo de generadores de
respuestas en lenguaje natural.
De este modo, las lı́neas de investigación
principales que se definieron para la tesis doctoral se materializaron en los siguientes objetivos:
1. Estudio y desarrollo de diferentes metodologı́as estadı́sticas para el desarrollo de
gestores de diálogo.
2. Estudio e implementación de diferentes
metodologı́as para la evaluación de sistemas de diálogo.
3. Estudio y desarrollo de diferentes modelos para la simulación de usuarios.
4. Definición de metodologı́as que permitan la estandarización de los sistemas de
diálogo y su adaptación a diferentes tareas.
2.
Estructura de la tesis
En cuanto a la estructura del documento, la tesis está comprendida por un total de
diez capı́tulos. El capı́tulo primero presenta
los objetivos y el contexto en el que se enmarca la tesis. El capı́tulo segundo aborda
de manera más detallada el estado de arte relativo a los sistemas de diálogo hablado. Los
capı́tulos tercero y cuarto se dedican a la descripción de la tarea DIHANA y de las caracterı́sticas principales del sistema de diálogo
implementado para este proyecto. El capı́tulo
quinto presenta dos aproximaciones basadas
en reglas para la gestión de diálogo.
El capı́tulo sexto describe el núcleo central del trabajo desarrollado en el marco de
la tesis: el desarrollo de modelos estadı́sticos
para la gestión del diálogo. El capı́tulo séptimo describe diferentes técnicas y medidas para la evaluación de sistemas de diálogo, mostrándose los resultados obtenidos en la evaluación de los gestores de diálogo desarrollados. El capı́tulo octavo presenta el simulador
de usuario desarrollado para evaluar y mejorar el comportamiento del gestor estadı́stico.
El capı́tulo noveno se dedica al estudio de
la adaptación de las metodologı́as de gestión
propuestas para afrontar nuevas tareas. Completan la tesis, las conclusiones del trabajo y
una serie de anexos en los que se amplı́a con
mayor detalle la información presentada en
los diferentes capı́tulos.
La tesis puede consultarse en el apartado
de Investigación del website del Departamento de Sistemas Informáticos y Computación
de la UPV (www.dsic.upv.es).
152
Información General
SEPLN'2008
XXIV CONGRESO DE LA SOCIEDAD ESPAÑOLA PARA EL
PROCESAMIENTO DEL LENGUAJE NATURAL
Escuela Politécnica Superior de la Universidad Carlos III de Madrid (España)
10-12 de septiembre 2008
http://basesdatos.uc3m.es/sepln2008/web/
1
Presentación
La XXIV edición del congreso anual de la
Sociedad Española para el Procesamiento del
Lenguaje Natural se celebrará en Madrid
(España) del día 10 al 13 de septiembre de
2008, organizado por la Sociedad Española para
el Procesamiento del Lenguaje Natural junto
con la Universidad Carlos III de Madrid. Como
en ediciones anteriores, con este evento la
SEPLN pretende promover la difusión de las
actividades de investigación, desarrollo e
innovación que realizan en cualquiera de los
ámbitos del procesamiento del lenguaje natural
los diversos grupos e investigadores españoles
y extranjeros. El congreso aspira a ofrecer un
foro de discusión y comunicación en el que se
favorezca el intercambio de la información y
materiales científicos necesarios para promover
la publicación de trabajos y la colaboración con
instituciones nacionales e internacionales que
actúen en el ámbito de interés del congreso.
2
Objetivos
El objetivo principal de este congreso es el de
ofrecer a la comunidad científica y empresarial
del sector el foro idóneo para la presentación de
las últimas investigaciones y desarrollos del
ámbito de trabajo en PLN, así como mostrar las
posibilidades reales de aplicación y conocer
nuevos proyectos. De esta manera, el XX
Congreso de la SEPLN pretende ser un lugar de
encuentro para la comunicación de resultados e
intercambio de opiniones sobre el desarrollo de
esta área en la actualidad.
Además, se desea conseguir el objetivo de
anteriores ediciones de este congreso
identificando las futuras directrices de la
investigación básica y de las aplicaciones
previstas por los profesionales, con el fin de
ISSN 1135-5948
contrastarlas con las necesidades reales del
mercado. Igualmente el congreso pretende ser
un marco propicio para introducir a otras
personas interesadas en esta área de
conocimiento.
3
Areas Temáticas
Se anima a grupos e investigadores a enviar
comunicaciones, resúmenes de proyectos o
demostraciones en alguna de las áreas temáticas
siguientes:
• Modelos lingüísticos, matemáticos y
psicolingüísticos del lenguaje
• Lingüística de corpus
• Extracción y recuperación de información
monolingüe y multilingüe
• Gramáticas y formalismos para el análisis
morfológico y sintáctico
• Lexicografía computacional
• Generación
textual
monolingüe
y
multilingüe
• Traducción automática
• Reconocimiento y síntesis de voz
• Semántica, pragmática y discurso
• Resolución de la ambigüedad léxica
• Aplicaciones industriales del PLN
• Análisis automático del contenido textual
4
Formato del Congreso
La duración prevista del congreso será de tres
día, con ponencias invitadas y sesiones
dedicadas a la presentación de comunicaciones
y de proyectos o demostraciones.
5
Comité de programa
Miembros:
• Prof. José Gabriel Amores Carredano
(Universidad de Sevilla)
 Sociedad Española para el Procesamiento del Lenguaje Natural
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Prof. Toni Badia i Cardús (Universitat
Pompeu Fabra)
Prof. Manuel de Buenaga Rodríguez
(Universidad Europea de Madrid)
Prof. Fco. Javier Calle Gómez
(Universidad Carlos III de Madrid)
Prof.ª Irene Castellón Masalles
(Universitat de Barcelona)
Prof.ª Arantza Díaz de Ilarraza (Euskal
Herriko Unibertsitatea)
Prof. Antonio Ferrández Rodríguez
(Universitat d'Alacant)
Prof. Mikel Forcada Zubizarreta
(Universitat d'Alacant)
Prof.ª Ana María García Serrano
(Universidad Politécnica de Madrid)
Prof. Koldo Gojenola Galletebeitia
(Euskal Herriko Unibertsitatea)
Prof. Xavier Gómez Guinovart
(Universidade de Vigo)
Prof.
Julio
Gonzalo
Arroyo
(Universidad Nacional de Educación a
Distancia)
Prof. José Miguel Goñi Menoyo
(Universidad Politécnica de Madrid)
José B. Mariño Acebal(Universitat
Politécnica de Catalunya)
Prof.ª M. Antonia Martí Antonín
(Universitat de Barcelona)
Prof.ª Mª Teresa Martín Valdivia
(Universidad de Jaén)
Prof.
Patricio
Martínez
Barco
(Universitat d'Alacant)
Prof. Paloma Martínez Fernández
(Universidad Carlos III de Madrid)
Profª. Raquel Martínez Unanue
(Universidad Nacional de Educación a
Distancia)
Prof.ª Lidia Ana Moreno Boronat
(Universitat Politécnica de Valencia)
Prof.
Lluis
Padró
(Universitat
Politécnica de Catalunya)
Prof.
Manuel
Palomar
Sanz
(Universitat d'Alacant)
Prof.
Ferrán
Pla
(Universitat
Politécnica de Valencia)
Prof. Germán Rigau (Euskal Herriko
Unibertsitatea)
Prof. Horacio Rodríguez Hontoria
(Universitat Politécnica de Catalunya)
Prof. Kepa Sarasola Gabiola (Euskal
Herriko Unibertsitatea)
•
•
•
•
6
Prof. Emilio Sanchís (Universitat
Politécnica de Valencia)
Prof. L. Alfonso Ureña López
(Universidad de Jaén)
Prof.ª Mª Felisa Verdejo Maillo
(Universidad Nacional de Educación a
Distancia)
Prof.
Manuel
Vilares
Ferro
(Universidade de Vigo)
Fechas importantes
Fechas para la presentación y aceptación de
comunicaciones:
• Fecha límite para la entrega de
comunicaciones: 28 de abril de 2008
• Notificación de aceptación: 13 de junio
de 2008
• Fecha límite para entrega de la versión
definitiva: 27 de junio de 2008
• Fecha límite para entrega de proyectos
y demostraciones: 6 de junio de 2008
Hoja de Inscripción para Socios
Datos Personales
Apellidos
Nombre
DNI
Teléfono
Domicilio
Municipio
Provincia
: .................................................................................................................................................
: .................................................................................................................................................
: ............................................................ Fecha de Nacimiento : ...........................................
: ............................................................
E-mail : ...........................................
: .................................................................................................................................................
: ................................................................................................. Código Postal : .................
: .................................................................................................................................................
Datos Profesionales
Centro de trabajo : .....................................................................................................................................
Domicilio
: .....................................................................................................................................
Código Postal
: .................... Municipio
: .....................................................................................
Provincia
: ...........................................
Teléfono
: ................................. Fax : ............................. E-mail : .....................................
Áreas de investigación o interés: ...................................................................................................................
........................................................................................................................................................................
Preferencia para envío de correo:
[ ] Dirección personal
[ ] Dirección Profesional
Datos Bancarios:
Nombre de la Entidad
Domicilio
Cód. Postal y Municipio
Provincia
: ............................................................................................................................
: ............................................................................................................................
: ............................................................................................................................
: ............................................................................................................................
Cód. Banco (4 dig.)
Cód. Suc. (4 dig.)
Dig. Control (2 Dig.)
Núm.cuenta (10 dig.)
........................................ ........................................ ........................................ ........................................
En.....................a....................................de..............................................de...........................
(firma)
------------------------------------------------------------------------------------------------------------------------------------------------------
Sociedad Española para el Procesamiento del Lenguaje Natural. SEPLN
Sr. Director de:
Entidad
Núm. Sucursal
Domicilio
Municipio
Provincia
Tipo cuenta
(corriente/caja de ahorro)
: .........................................................................................................
: .........................................................................................................
: .........................................................................................................
: ............................................................... Cód. Postal : ..............
: .........................................................................................................
: .........................................................................................................
Ruego a Vds. que a partir de la fecha y hasta nueva orden se sirvan de abonar a la
Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN) los recibos
anuales correspondientes a las cuotas vigentes de dicha asociación.
Les saluda atentamente
Fdo: ...........................................................................
(nombre y apellidos del firmante)
............................de ..................................de.................
-----------------------------------------------------------------------------------------------------------------------------------------------------Cuotas de los socios: 18 € (residentes en España) o 24 € (socios residentes en el extranjero).
Nota: La parte inferior debe enviarse al banco o caja de ahorros del socio
Hoja de Inscripción para Instituciones
Datos Entidad/Empresa
Nombre
: .................................................................................................................................................
NIF
: ............................................................ Teléfono : ............................................................
E-mail
: ............................................................
Fax : ............................................................
Domicilio : .................................................................................................................................................
Municipio : ................................................... Código Postal : ............ Provincia : ..........................
Áreas de investigación o interés: ...................................................................................................................
........................................................................................................................................................................
Datos de envío
Dirección
Municipio
Teléfono
: .............................................................................................. Código Postal : .................
: .......................................................................... Provincia : ..............................................
: ........................................... Fax : ................................ E-mail : ...............................
Datos Bancarios:
Nombre de la Entidad
Domicilio
Cód. Postal y Municipio
Provincia
: ............................................................................................................................
: ............................................................................................................................
: ............................................................................................................................
: ............................................................................................................................
Cód. Banco (4 dig.)
Cód. Suc. (4 dig.)
Dig. Control (2 Dig.)
Núm.cuenta (10 dig.)
........................................ ........................................ ........................................ ........................................
--------------------------------------------------------------------------------------------------------------------------------------------------
Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN).
Sr. Director de:
Entidad
Núm. Sucursal
Domicilio
Municipio
Provincia
Tipo cuenta
(corriente/caja de ahorro)
Núm Cuenta
: ..........................................................................................................................
: ..........................................................................................................................
: ..........................................................................................................................
: ............................................................................. Cód. Postal : .................
: ..........................................................................................................................
: ..........................................................................................................................
: ..........................................................................................................................
Ruego a Vds. que a partir de la fecha y hasta nueva orden se sirvan de abonar a la
Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN) los recibos
anuales correspondientes a las cuotas vigentes de dicha asociación.
Les saluda atentamente
Fdo: ...........................................................................
(nombre y apellidos del firmante)
............................de ..................................de.................
-------------------------------------------------------------------------------------------------------------------------------------------------..........................................................................................................................................................................
Cuotas de los socios institucionales: 300 €.
Nota: La parte inferior debe enviarse al banco o caja de ahorros del socio
Información para los Autores
Formato de los Trabajos
• La longitud máxima admitida para las contribuciones será de 8 páginas DIN A4 (210 x 297
mm.), incluidas referencias y figuras.
• Los artículos pueden estar escritos en inglés o español. El título, resumen y palabras clave
deben escribirse en ambas lenguas.
• El formato será en Word ó LaTeX
Envío de los Trabajos
• El envío de los trabajos se realizará electrónicamente a través de la página web de la Sociedad
Española para el Procesamiento del Lenguaje Natural (http://www.sepln.org)
• Para los trabajos con formato LaTeX se mandará el archivo PDF junto a todos los fuentes
necesarios para compilación LaTex
• Para los trabajos con formato Word se mandará el archivo PDF junto al DOC o RTF
Descargar