Resumen - Microsoft Research

Anuncio
Reconocimiento y generación de entidades semánticas
Marisa Jiménez
Microsoft Research
One Microsoft Way
Redmond, WA 98052
USA
[email protected]
Resumen
En este trabajo describimos un sistema
diseñado para la generación de entidades
semánticas, tales como nombres de lugar y
fechas. En primer lugar presentamos
brevemente nuestra técnica para identificar
estas entidades, y, a continuación,
describimos nuestro módulo de generación,
el cual utiliza representaciones lingüísticas
abstractas
para
generar
entidades
semánticas. Finalmente incluimos los
detalles de un estudio llevado a cabo para
ayudarnos a tomar decisiones lingüísticas
apropiadas en la generación de nombres de
lugar en español.
1.
Introducción1
La mayoría de los sistemas de
procesamiento del lenguaje natural (PLN)
existentes hoy en día requieren la adecuada
identificación de entidades semánticas cuyos
referentes son nombres propios, fechas y
nombres de compañías, entre otros. La
identificación de estas entidades resulta
particularmente útil en aplicaciones de PLN
tales como la extracción de información y la
traducción automática (Mani et al, 1993; Cowie
and Lehnert, 1996; Paik et al, 1993, Wacholder
et al, 1997, entre otros).
En este trabajo describimos el sistema
desarrollado por el Natural Language
Processing Group en Microsoft Research para
la identificación y generación de entidades
semánticas, prestando particular atención al
español. La generación de estas entidades
semánticas se lleva a cabo utilizando una
representación lingüística abstracta, conocida
con el nombre de logical form (LF) en nuestro
sistema. El módulo de generación se encuentra
1
El contenido de este trabajo es una adaptación de
una comunicación que será presentada y publicada
en el MT Summit VIII.
en fase de implementación; en este momento
contamos con reglas que generan fechas,
unidades métricas, números y lugares.
2. La identificación de entidades
semánticas
Nuestro sistema de PLN utiliza reglas para
identificar entidades semánticas que no se
encuentran en nuestros diccionarios. El nombre
que utilizamos para denominar a estas entidades
es factoids. Las reglas que empleamos para
identificar estos factoids se asemejan a reglas
de gramática pero son más simples. Las reglas
de factoids se aplican antes de la reglas de la
gramática y son recursivas.
Las reglas de factoids se desarrollaron con la
intención de ayudar al componente de análisis
de nuestro sistema a lidiar con este tipo de
entidades. En la actualidad contamos con reglas
que identifican fechas, nombres propios,
nombres de lugar, números, unidades y
medidas, etc.
Estas reglas utilizan diferentes técnicas a la
hora de identificar entidades semánticas. Entre
estas técnicas se encuentra el uso extensivo de
rasgos léxicos codificados en nuestros
diccionarios, así como diversos algoritmos para
identificar fechas, nombres propios, números de
teléfono, etc.
En la figura 1 mostramos un ejemplo de una
fecha en español reconocida por nuestras reglas
de factoids:
Figura 1: ejemplo de una fecha identificada
mediante reglas de factoids
Las reglas de factoids identifican los distintos
componentes de una entidad semántica y los
combinan en una sola unidad léxica o factoid.
Los componentes internos de este factoid
reciben un nombre específico que es
compartido por todas las lenguas de nuestro
sistema (en la actualidad, inglés, español,
francés, alemán, chino, japonés y coreano). En
la estructura interna de un factoid se especifica
su clase semántica, la cual se utiliza para
identificar el mismo tipo de factoid en todas
nuestras lenguas. Persona, dirección, teléfono,
fecha y hora son ejemplos de estas clases
semánticas. Éstas juegan un papel importante
en la generación de factoids.
En la figura 2 mostramos la estructura
interna de un factoid de fecha, donde se
especifica su lema, los distintos componentes,
sus rasgos lingüísticos, así como la clase
semántica a la que pertenece y cierta
información sintáctica pertinente.
como base para generar un árbol sintáctico (ver
detalles en (Aikawa et al., 2001)). La LF
utilizada para generar un árbol sintáctico se
obtiene mediante un proceso de transferencia
que utiliza correspondencias entre LFs de dos
lenguas distintas; estas transferencias se
aprenden automáticamente a partir de textos
bilingües (ver (Menezes and Richardson, 2001)
para más detalles).
Las reglas de generación de factoids aplican
antes que las reglas de generación sintáctica.
Estas primeras utilizan como base una
representación abstracta o LF de un factoid
creado durante el análisis. El componente
tránsfer de nuestro sistema no modifica la LF
de un factoid, pero traduce cada uno de sus
componentes con la ayuda de nuestros
diccionarios bilingües. El módulo de
generación de factoids utiliza esta LF producida
por el componente tránsfer como base para
generar una entidad semántica que corresponda
al factoid de la lengua fuente. La utilización de
una representación abstracta resulta ventajosa
ya que permite a todas las lenguas de nuestro
sistema compartir las mismas reglas de
generación de factoids, siendo necesarias sólo
pequeñas modificaciones específicas para cada
lengua.
En la figura 3 mostramos la LF de un factoid
de fecha. Esta representación abstracta contiene
información sobre las distintas partes del
factoid, es decir, si es una fecha, un mes o un
año, así como la clase semántica a la que
pertenece.
Figure 2: estructura interna de un factoid de
fecha
3.
La generación de factoids2
La generación de factoids ha cobrado
relevancia durante el desarrollo de nuestro
sistema de traducción automática. Por ejemplo,
a la hora de traducir del inglés al español una
oración que contenga una fecha, no sólo es
importante identificar la fecha en inglés, sino
también generarla correctamente en español.
Nuestro sistema de generación sintáctica,
que se encuentra actualmente en proceso de
desarrollo, utiliza una representación lingüística
abstracta, conocida como logical form (LF),
2
Queremos expresar nuestro agradecimiento a
Joseph Pentheroudakis por su ayuda en el desarrollo
de esta sección.
Figure 3: LF de un factoid de fecha
No todos los factoids identificados por
nuestro sistema son traducidos. Entidades
semánticas tales como fechas y nombres de
lugar (Ej. : March 23, 1976 y Mount Rainier) se
traducen, contrariamente a nombres propios de
persona tales como John Little que no se
traducen. Para poder distinguir los factoids que
deben traducirse de los que no, nuestro sistema
utiliza un rasgo que impide que el componente
tránsfer traduzca estos últimos.
Todas las lenguas que forman parte de
nuestro sistema de LPN comparten las mismas
reglas de generación de factoids. Una regla
típica tiene una parte general compartida, en la
cual se generan los distintos componentes del
factoid sin un orden de palabras específico, y
una parte donde se introducen modificaciones
específicas para cada lengua.
Las peculiaridades del español son tenidas
en cuenta en las reglas que generan factoids. Si
tomamos como ejemplo las fechas, el orden de
las palabras, la capitalización, la inserción de
preposiciones y la numeración juegan un papel
importante en la generación de éstas. En
español, contrariamente a lenguas como el
inglés, los meses siempre van detrás de la
fecha, y los nombres de los meses no aparecen
en mayúscula. Otras características del español
no compartidas por otras lenguas son la
inserción de la preposición de entre los días y
los meses y entre los meses y los años. Por
ejemplo, 4 de abril de 1995 se traduce al inglés
como April 4th, 1995. Por último, el español
utiliza números romanos en las centurias, y la
palabra siglo siempre precede al numeral. Por
ejemplo, siglo XX1 sería el equivalente al inglés
21st century.
4. La generación de los nombres de lugar
4.1. Los nombres de lugar en español
Un típico nombre de lugar consta de una
clase de lugar, tal como lago o mar, y el
nombre del lugar per se, como por ejemplo
Ontario y Bering. Tres son las características
más destacadas de los nombres de lugar en
español. En primer lugar, éstos no requieren
una capitalización rigurosa, contrariamente a
otras lenguas como el inglés donde los nombres
de lugar siempre deben capitalizarse.
La segunda característica es que las clases de
lugar siempre preceden al nombre de lugar (por
ejemplo, mar de Bering). Por el contrario, en
lenguas como el inglés, la clase de lugar puede
preceder o seguir al nombre de lugar (Bering
Sea, Lake Washington).
La tercera característica es la frecuente
inserción de la preposición de entre el nombre
de lugar y la clase de lugar. Ciertas clases de
lugar como ciudad y municipio normalmente
van seguidas de la preposición de. Por el
contrario, de no suele emplearse detrás de otras
clases, como por ejemplo edificio y lago. Por
último, algunas clases de lugar pueden ir o no
seguidas de de.
La inserción o no inserción de la preposición
de puede resultar complicada a la hora de
generar nombres de lugar en español a partir de
una representación abstracta o LF. Esta LF no
contiene ningún tipo de información sobre si de
debe insertarse o no, ya que se trata de una
característica específica del español. Además,
como acabamos de ver, no es siempre claro en
qué casos se debe insertar de después de una
clase de lugar, y en qué casos no debe
insertarse. Dadas estas dificultades, decidimos
estudiar la frecuencia de inserción de de en
texto real antes de implementar una regla para
generar nombres de lugar.
4.2. Estudio de frecuencia de uso de la
preposición de en la enciclopedia Encarta
Para poder determinar la frecuencia de uso de la
preposición de en los nombres de lugar,
realizamos un estudio utilizando la versión en
español de la enciclopedia Encarta. Nuestra
intención era utilizar los datos del estudio en el
desarrollo de una regla de factoids que genera
nombres de lugar. Nuestra decisión de utilizar
Encarta estuvo basada en la alta incidencia de
nombres de lugar en esta enciclopedia.
Mediante la utilización de herramientas
desarrolladas en nuestro grupo, extrajimos
todas las secuencias léxicas de clase de lugar
seguidas de nombre de lugar. También
consideramos la posibilidad de que la
preposición de apareciera entre estos dos
elementos. Utilizamos nuestro diccionario
monolingüe español para identificar los
nombres de clases de lugar, y la capitalización
para identificar posibles nombres de lugar.
En las figuras 4 y 5 aparecen dos gráficos con
los resultados de nuestro estudio. En el primer
gráfico medimos la frecuencia de uso de de
según la clase de lugar, y en el segundo
medimos la ausencia de de. Las medidas de
frecuencia se expresan en porcentajes (columna
de la derecha) y en número total de ocurrencia
(columna de la izquierda).
Figura 4: Frecuencia de uso de de delante de nombres de lugar en Encarta
Figure 5: Frecuencia del no uso de de delante de nombres de lugar en Encarta
Según nuestro estudio, las clases de lugar
que más frecuentemente van seguidas por la
preposición de son ciudad (99%), provincia
(97%), isla (85%), puerto (96%), condado
(96%), bahía (84%), y golfo (92%). Ría,
alcaldía, y peñón siempre aparecen seguidas de
de en nuestro estudio. Desafortunadamente,
estas palabras no aparecen con mucha
frecuencia en Encarta, por lo cual sentimos que
son necesarios más datos para llegar a una
conclusión. Isla e islas son un par interesante ya
que muestran un comportamiento contrario. En
singular, isla aparece seguida de de en un 85%
de los casos, mientras que su plural nunca
aparece seguido de de. En cuanto a las clases de
lugar que suelen no ir seguidas de de, río se
pone a la cabeza de la lista con un 100% de
porcentaje. Le siguen monte y lago con un 97%
y un 85%, respectivamente. Otros nombres de
lugar como islas, montes, y edificio mostraron
preferencia por no ir seguidos de de, pero, al no
aparecer en Encarta con demasiada frecuencia,
consideramos que los números no son
demasiado significativos.
4.3 La generación de nombres de lugar
en español
Los resultados de nuestro estudio fueron
utilizados en la implementación de una regla de
factoids que genera nombres de lugar. Esta
regla se emplea en el proceso de traducción
inglés-español de los nombres de lugar que
aparecen en la figura 6, Sussex County y
Manasus River.
La traducción al español de Sussex County
es Condado de Sussex. Para poder generar esta
traducción, es necesario asignar el nombre de
palabras adecuado a la LF del factoid Sussex
County e insertar de después de condado.
También insertamos el artículo determinado el
delante de condado, ya que, contrariamente al
inglés, el español requiere el uso de este
artículo. Para poder asignar el género y número
adecuado
al
artículo,
extraemos
esa
información de nuestro diccionario bilingüe.
Como condado es un sustantivo masculino
singular, el artículo insertado es él.
En el segundo ejemplo ilustramos el proceso
de traducción al español del nombre de lugar
inglés Manasus River. La LF de este factoid
identifica a Manasus como un nombre de lugar,
a pesar de que este nombre no se encuentra en
nuestros diccionarios. La traducción de
Manasus River es río Manasus. Contrariamente
al primer ejemplo, no insertamos de después de
río, ya que, según nuestro estudio de Encarta,
río no requiere el uso de esta preposición.
Figure 6: Generación de dos nombres de lugar
5. Conclusión
En este trabajo hemos descrito nuestro
sistema para identificar y generar entidades
semánticas cuyos referentes son fechas,
nombres de lugar y de persona, entre otros. La
identificación y generación de estas entidades
se realiza a través de reglas de factoids. Las
reglas
que
generan
factoids
utilizan
representaciones abstractas, conocidas con el
nombre de logical forms o LFs. Por último
hemos presentado los resultados de un estudio
llevado a cabo para ayudarnos a tomar
decisiones lingüísticas adecuadas en la
generación de nombres de lugar en español.
Referencias
Aikawa, T. et al (2001). Multilingual
Natural Language Generation. Paper submitted
for review at MT Summit VIII, Santiago de
Compostela, Spain.
Cowie, J. and Lehnert, W. (1996).
Information Extraction. In Communications of
the ACM, Vol.39, pp 83-92.
Mani, I. T.R. Macmillan, S. Luperfoy, E.P.
Lusher, and S.J. Laskowski (1993). Identifying
unknown proper names in newswire text. In B.
Boguraev and J. Pustejovsky, eds, Corpus
Processing for Lexical Acquisition, pp.41-54,
MIT Press, Cambridge, Mass.
Menezes A. and Richardson S. (2001). A
best-first alignment algorithm for automatic
extraction of transfer mappings from bilingual
corpora. Paper submitted for review at ACL
2001, Toulouse, France.
Paik, W., E.D. Liddy, E. Yu, and M.
McKenna
(1993).
Categorizing
and
standardizing proper nouns for efficient
information retrieval, In B. Boguraev and J.
Pustejovsky, eds, Corpus Processing for Lexical
Acquisition, pp.44-54, MIT Press, Cambridge,
Mass.
Wacholder, N., Y. Ravin and R.J. Byrd
(1994). Retrieving information from full text
using linguistic knowledge, In Proceedings of
the Fifteenth National Online Meeting, pp.441447, New York, May.
Descargar