Reconocimiento y generación de entidades semánticas Marisa Jiménez Microsoft Research One Microsoft Way Redmond, WA 98052 USA [email protected] Resumen En este trabajo describimos un sistema diseñado para la generación de entidades semánticas, tales como nombres de lugar y fechas. En primer lugar presentamos brevemente nuestra técnica para identificar estas entidades, y, a continuación, describimos nuestro módulo de generación, el cual utiliza representaciones lingüísticas abstractas para generar entidades semánticas. Finalmente incluimos los detalles de un estudio llevado a cabo para ayudarnos a tomar decisiones lingüísticas apropiadas en la generación de nombres de lugar en español. 1. Introducción1 La mayoría de los sistemas de procesamiento del lenguaje natural (PLN) existentes hoy en día requieren la adecuada identificación de entidades semánticas cuyos referentes son nombres propios, fechas y nombres de compañías, entre otros. La identificación de estas entidades resulta particularmente útil en aplicaciones de PLN tales como la extracción de información y la traducción automática (Mani et al, 1993; Cowie and Lehnert, 1996; Paik et al, 1993, Wacholder et al, 1997, entre otros). En este trabajo describimos el sistema desarrollado por el Natural Language Processing Group en Microsoft Research para la identificación y generación de entidades semánticas, prestando particular atención al español. La generación de estas entidades semánticas se lleva a cabo utilizando una representación lingüística abstracta, conocida con el nombre de logical form (LF) en nuestro sistema. El módulo de generación se encuentra 1 El contenido de este trabajo es una adaptación de una comunicación que será presentada y publicada en el MT Summit VIII. en fase de implementación; en este momento contamos con reglas que generan fechas, unidades métricas, números y lugares. 2. La identificación de entidades semánticas Nuestro sistema de PLN utiliza reglas para identificar entidades semánticas que no se encuentran en nuestros diccionarios. El nombre que utilizamos para denominar a estas entidades es factoids. Las reglas que empleamos para identificar estos factoids se asemejan a reglas de gramática pero son más simples. Las reglas de factoids se aplican antes de la reglas de la gramática y son recursivas. Las reglas de factoids se desarrollaron con la intención de ayudar al componente de análisis de nuestro sistema a lidiar con este tipo de entidades. En la actualidad contamos con reglas que identifican fechas, nombres propios, nombres de lugar, números, unidades y medidas, etc. Estas reglas utilizan diferentes técnicas a la hora de identificar entidades semánticas. Entre estas técnicas se encuentra el uso extensivo de rasgos léxicos codificados en nuestros diccionarios, así como diversos algoritmos para identificar fechas, nombres propios, números de teléfono, etc. En la figura 1 mostramos un ejemplo de una fecha en español reconocida por nuestras reglas de factoids: Figura 1: ejemplo de una fecha identificada mediante reglas de factoids Las reglas de factoids identifican los distintos componentes de una entidad semántica y los combinan en una sola unidad léxica o factoid. Los componentes internos de este factoid reciben un nombre específico que es compartido por todas las lenguas de nuestro sistema (en la actualidad, inglés, español, francés, alemán, chino, japonés y coreano). En la estructura interna de un factoid se especifica su clase semántica, la cual se utiliza para identificar el mismo tipo de factoid en todas nuestras lenguas. Persona, dirección, teléfono, fecha y hora son ejemplos de estas clases semánticas. Éstas juegan un papel importante en la generación de factoids. En la figura 2 mostramos la estructura interna de un factoid de fecha, donde se especifica su lema, los distintos componentes, sus rasgos lingüísticos, así como la clase semántica a la que pertenece y cierta información sintáctica pertinente. como base para generar un árbol sintáctico (ver detalles en (Aikawa et al., 2001)). La LF utilizada para generar un árbol sintáctico se obtiene mediante un proceso de transferencia que utiliza correspondencias entre LFs de dos lenguas distintas; estas transferencias se aprenden automáticamente a partir de textos bilingües (ver (Menezes and Richardson, 2001) para más detalles). Las reglas de generación de factoids aplican antes que las reglas de generación sintáctica. Estas primeras utilizan como base una representación abstracta o LF de un factoid creado durante el análisis. El componente tránsfer de nuestro sistema no modifica la LF de un factoid, pero traduce cada uno de sus componentes con la ayuda de nuestros diccionarios bilingües. El módulo de generación de factoids utiliza esta LF producida por el componente tránsfer como base para generar una entidad semántica que corresponda al factoid de la lengua fuente. La utilización de una representación abstracta resulta ventajosa ya que permite a todas las lenguas de nuestro sistema compartir las mismas reglas de generación de factoids, siendo necesarias sólo pequeñas modificaciones específicas para cada lengua. En la figura 3 mostramos la LF de un factoid de fecha. Esta representación abstracta contiene información sobre las distintas partes del factoid, es decir, si es una fecha, un mes o un año, así como la clase semántica a la que pertenece. Figure 2: estructura interna de un factoid de fecha 3. La generación de factoids2 La generación de factoids ha cobrado relevancia durante el desarrollo de nuestro sistema de traducción automática. Por ejemplo, a la hora de traducir del inglés al español una oración que contenga una fecha, no sólo es importante identificar la fecha en inglés, sino también generarla correctamente en español. Nuestro sistema de generación sintáctica, que se encuentra actualmente en proceso de desarrollo, utiliza una representación lingüística abstracta, conocida como logical form (LF), 2 Queremos expresar nuestro agradecimiento a Joseph Pentheroudakis por su ayuda en el desarrollo de esta sección. Figure 3: LF de un factoid de fecha No todos los factoids identificados por nuestro sistema son traducidos. Entidades semánticas tales como fechas y nombres de lugar (Ej. : March 23, 1976 y Mount Rainier) se traducen, contrariamente a nombres propios de persona tales como John Little que no se traducen. Para poder distinguir los factoids que deben traducirse de los que no, nuestro sistema utiliza un rasgo que impide que el componente tránsfer traduzca estos últimos. Todas las lenguas que forman parte de nuestro sistema de LPN comparten las mismas reglas de generación de factoids. Una regla típica tiene una parte general compartida, en la cual se generan los distintos componentes del factoid sin un orden de palabras específico, y una parte donde se introducen modificaciones específicas para cada lengua. Las peculiaridades del español son tenidas en cuenta en las reglas que generan factoids. Si tomamos como ejemplo las fechas, el orden de las palabras, la capitalización, la inserción de preposiciones y la numeración juegan un papel importante en la generación de éstas. En español, contrariamente a lenguas como el inglés, los meses siempre van detrás de la fecha, y los nombres de los meses no aparecen en mayúscula. Otras características del español no compartidas por otras lenguas son la inserción de la preposición de entre los días y los meses y entre los meses y los años. Por ejemplo, 4 de abril de 1995 se traduce al inglés como April 4th, 1995. Por último, el español utiliza números romanos en las centurias, y la palabra siglo siempre precede al numeral. Por ejemplo, siglo XX1 sería el equivalente al inglés 21st century. 4. La generación de los nombres de lugar 4.1. Los nombres de lugar en español Un típico nombre de lugar consta de una clase de lugar, tal como lago o mar, y el nombre del lugar per se, como por ejemplo Ontario y Bering. Tres son las características más destacadas de los nombres de lugar en español. En primer lugar, éstos no requieren una capitalización rigurosa, contrariamente a otras lenguas como el inglés donde los nombres de lugar siempre deben capitalizarse. La segunda característica es que las clases de lugar siempre preceden al nombre de lugar (por ejemplo, mar de Bering). Por el contrario, en lenguas como el inglés, la clase de lugar puede preceder o seguir al nombre de lugar (Bering Sea, Lake Washington). La tercera característica es la frecuente inserción de la preposición de entre el nombre de lugar y la clase de lugar. Ciertas clases de lugar como ciudad y municipio normalmente van seguidas de la preposición de. Por el contrario, de no suele emplearse detrás de otras clases, como por ejemplo edificio y lago. Por último, algunas clases de lugar pueden ir o no seguidas de de. La inserción o no inserción de la preposición de puede resultar complicada a la hora de generar nombres de lugar en español a partir de una representación abstracta o LF. Esta LF no contiene ningún tipo de información sobre si de debe insertarse o no, ya que se trata de una característica específica del español. Además, como acabamos de ver, no es siempre claro en qué casos se debe insertar de después de una clase de lugar, y en qué casos no debe insertarse. Dadas estas dificultades, decidimos estudiar la frecuencia de inserción de de en texto real antes de implementar una regla para generar nombres de lugar. 4.2. Estudio de frecuencia de uso de la preposición de en la enciclopedia Encarta Para poder determinar la frecuencia de uso de la preposición de en los nombres de lugar, realizamos un estudio utilizando la versión en español de la enciclopedia Encarta. Nuestra intención era utilizar los datos del estudio en el desarrollo de una regla de factoids que genera nombres de lugar. Nuestra decisión de utilizar Encarta estuvo basada en la alta incidencia de nombres de lugar en esta enciclopedia. Mediante la utilización de herramientas desarrolladas en nuestro grupo, extrajimos todas las secuencias léxicas de clase de lugar seguidas de nombre de lugar. También consideramos la posibilidad de que la preposición de apareciera entre estos dos elementos. Utilizamos nuestro diccionario monolingüe español para identificar los nombres de clases de lugar, y la capitalización para identificar posibles nombres de lugar. En las figuras 4 y 5 aparecen dos gráficos con los resultados de nuestro estudio. En el primer gráfico medimos la frecuencia de uso de de según la clase de lugar, y en el segundo medimos la ausencia de de. Las medidas de frecuencia se expresan en porcentajes (columna de la derecha) y en número total de ocurrencia (columna de la izquierda). Figura 4: Frecuencia de uso de de delante de nombres de lugar en Encarta Figure 5: Frecuencia del no uso de de delante de nombres de lugar en Encarta Según nuestro estudio, las clases de lugar que más frecuentemente van seguidas por la preposición de son ciudad (99%), provincia (97%), isla (85%), puerto (96%), condado (96%), bahía (84%), y golfo (92%). Ría, alcaldía, y peñón siempre aparecen seguidas de de en nuestro estudio. Desafortunadamente, estas palabras no aparecen con mucha frecuencia en Encarta, por lo cual sentimos que son necesarios más datos para llegar a una conclusión. Isla e islas son un par interesante ya que muestran un comportamiento contrario. En singular, isla aparece seguida de de en un 85% de los casos, mientras que su plural nunca aparece seguido de de. En cuanto a las clases de lugar que suelen no ir seguidas de de, río se pone a la cabeza de la lista con un 100% de porcentaje. Le siguen monte y lago con un 97% y un 85%, respectivamente. Otros nombres de lugar como islas, montes, y edificio mostraron preferencia por no ir seguidos de de, pero, al no aparecer en Encarta con demasiada frecuencia, consideramos que los números no son demasiado significativos. 4.3 La generación de nombres de lugar en español Los resultados de nuestro estudio fueron utilizados en la implementación de una regla de factoids que genera nombres de lugar. Esta regla se emplea en el proceso de traducción inglés-español de los nombres de lugar que aparecen en la figura 6, Sussex County y Manasus River. La traducción al español de Sussex County es Condado de Sussex. Para poder generar esta traducción, es necesario asignar el nombre de palabras adecuado a la LF del factoid Sussex County e insertar de después de condado. También insertamos el artículo determinado el delante de condado, ya que, contrariamente al inglés, el español requiere el uso de este artículo. Para poder asignar el género y número adecuado al artículo, extraemos esa información de nuestro diccionario bilingüe. Como condado es un sustantivo masculino singular, el artículo insertado es él. En el segundo ejemplo ilustramos el proceso de traducción al español del nombre de lugar inglés Manasus River. La LF de este factoid identifica a Manasus como un nombre de lugar, a pesar de que este nombre no se encuentra en nuestros diccionarios. La traducción de Manasus River es río Manasus. Contrariamente al primer ejemplo, no insertamos de después de río, ya que, según nuestro estudio de Encarta, río no requiere el uso de esta preposición. Figure 6: Generación de dos nombres de lugar 5. Conclusión En este trabajo hemos descrito nuestro sistema para identificar y generar entidades semánticas cuyos referentes son fechas, nombres de lugar y de persona, entre otros. La identificación y generación de estas entidades se realiza a través de reglas de factoids. Las reglas que generan factoids utilizan representaciones abstractas, conocidas con el nombre de logical forms o LFs. Por último hemos presentado los resultados de un estudio llevado a cabo para ayudarnos a tomar decisiones lingüísticas adecuadas en la generación de nombres de lugar en español. Referencias Aikawa, T. et al (2001). Multilingual Natural Language Generation. Paper submitted for review at MT Summit VIII, Santiago de Compostela, Spain. Cowie, J. and Lehnert, W. (1996). Information Extraction. In Communications of the ACM, Vol.39, pp 83-92. Mani, I. T.R. Macmillan, S. Luperfoy, E.P. Lusher, and S.J. Laskowski (1993). Identifying unknown proper names in newswire text. In B. Boguraev and J. Pustejovsky, eds, Corpus Processing for Lexical Acquisition, pp.41-54, MIT Press, Cambridge, Mass. Menezes A. and Richardson S. (2001). A best-first alignment algorithm for automatic extraction of transfer mappings from bilingual corpora. Paper submitted for review at ACL 2001, Toulouse, France. Paik, W., E.D. Liddy, E. Yu, and M. McKenna (1993). Categorizing and standardizing proper nouns for efficient information retrieval, In B. Boguraev and J. Pustejovsky, eds, Corpus Processing for Lexical Acquisition, pp.44-54, MIT Press, Cambridge, Mass. Wacholder, N., Y. Ravin and R.J. Byrd (1994). Retrieving information from full text using linguistic knowledge, In Proceedings of the Fifteenth National Online Meeting, pp.441447, New York, May.