MICE, un recurso para la resolución de la anáfora Montserrat Arévalo CLiC [email protected] La resolución de la anáfora es uno de los problemas más importantes en PLN. Entre los distintos tipos de expresiones anafóricas existentes, nosotros nos centraremos en los sintagmas nominales definidos. Presentaremos el MICE, Módulo de Identificación y Clasificación de Entidades, una gramática implementada en TACAT, compuesta por una serie de reglas sintácticas que reconocen sintagmas definidos referidos a entidades con nombre (EN). Expondremos el formalismo utilizado para la construcción de la gramática, explicando la metodología llevada a cabo para su creación de las reglas; las líneas de trabajo futuras y las contribuciones que un módulo como éste puede aportar a la resolución de la anáfora. MICE forma parte del sistema de tratamiento de información textual de CLiC-TALP1. Actúa con posterioridad al análisis morfológico y resuelve, de cara al análisis sintáctico superficial, el tratamiento de sintagmas nominales definidos que hacen referencia a EN. La gramática identifica y recategoriza EN que han sido detectadas sólo parcialmente en los procesos anteriores, ampliando el marco de análisis al sintagma nominal completo que hace referencia a una EN2. En nuestro sistema tenemos en cuenta información morfológica y semántica. Los sintagmas que se van a reconocer con MICE se caracterizan por contener un nombre propio, ya detectado en procesos anteriores, o una palabra disparadora. Las palabras disparadoras son aquellas que suelen aparecer en el contexto de las entidades con nombre y que indican que a continuación, probablemente, haya un candidato a EN Hemos asociado estas palabras a una clasificación tipológica de entidades, organizada de forma jerárquica, por lo que a la vez que facilitan la detección de EN, también permiten asignarles un tipo semántico. A partir de esta clasificación de entidades, estamos llevando a cabo un estudio de las descripciones definidas según la clase a la que pertenecen y sobre los corpus de los que dispone CLiC3. Básicamente esta tarea consiste en extraer y observar los patrones sintácticos en los que suelen aparecer las palabras disparadoras. De esta forma detectamos cual es el patrón más frecuente e inferimos las reglas gramaticales de MICE. 1 El Centre de Llenguatge i Computació (CLiC) colabora con el grupo TALP, grupo de Llenguatges i Sistemes de la Universitat Politècnica de Catalunya, en distintos proyectos y en el desarrollo de dicho sistema. 2 En el caso de "el presidente de la Cámara de Comercio", un sistema de Extracción de Información típico extraería el nombre propio "Cámara de Comercio" como nombre de organización, cuando en realidad la entidad implicada en la acción es una persona. Con MICE reconoceríamos todo el sintagma "el presidente de la Cámara de Comercio" y habríamos detectado el género, el número y la clase semántica de la entidad. 3 Más concretamente estamos trabajando sobre el corpus de la Agencia EFE, corpus cedido para ser utilizado para la investigación, que ha sido etiquetado morfológicamente y en el que se han revisado y etiquetado las entidades con nombre según las etiquetas del MUC. El formalismo utilizado para la gramática ha sido TACAT (Atserias et al. 1998), una gramática independiente del contexto, elegida por tratarse de un formalismo ya utilizado en el sistema CLIC-TALP para el análisis sintáctico superficial. Esta elección ha implicado tratar las palabras disparadoras como literales. Las reglas son una combinación de las etiquetas morfosintácticas (EAGLES) que utiliza el analizador morfológico, de las palabras disparadoras y de las etiquetas de las EN. De cara a mejorar el sistema, estamos siguiendo diversas líneas de trabajo: ampliar la cobertura de la gramática (que actualmente reconoce entidades que hacen referencia a personas y organizaciones), con la incorporación de nuevas clases; mejorar la clasificación de aquellos sintagmas en los aparecen palabras disparadoras ambiguas; trabajar en la mejora del análisis morfológico de ciertos elementos como son las abreviaturas que acompañan a organizaciones (S.A., S.L., Hnos, Inc. etc.) ; favorecer la transportabilidad a otras lenguas (por ejemplo, catalán e inglés). Esta tarea será relativamente sencilla puesto que CLiC está adaptando los tres analizadores para que tengan las mismas etiquetas morfosintácticas. Para llevarlo a cabo, hemos asociado las palabras disparadoras del castellano a WordNet de forma que ya tenemos las palabras disparadoras para los otros dos idiomas con los que trabaja CLiC4. Uno de los mecanismos anafóricos más frecuentes es la utilización de expresiones sinónimas (por ejemplo, presidente, director o responsable). Es aquí donde incidiría la aportación básica de MICE: la detección y clasificación semántica de posibles expresiones correferentes. Esta es otra de las razones por las que hemos asociado las palabras disparadoras con WordNet, ya que nos permitirá encontrar sinónimos/hiperónimos correferentes de una misma palabra. El siguiente paso será crear un sistema que aprovechara el conocimiento lingüístico aportado por MICE, por ejemplo, mediante la creación de restricciones o preferencias5. 4 De hecho ya se ha hecho una primera prueba traduciendo al catalán tan sólo un par de palabras disparadoras (sin modificar ninguna regla) y los resultados parecen demostrar que la transportabilidad es del todo viable. La estructura sintáctica de los sintagmas nominales definidos en catalán es casi idéntica al castellano. 5 Un ejemplo de preferencia sería tener en cuenta que si en un mismo documento coinciden varios elementos que podrían ser correferentes puesto que pertenecen al mismo tipo semántico, dar prioridad a aquellos elementos que también coincidan en género y número.