Centro Nacional de Investigación y Desarrollo Tecnológico Departamento de Ciencias Computacionales TESIS DE MAESTRÍA EN CIENCIAS Poblado Automático de Ontologías Espaciales a Partir de Texto no Estructurado Presentada por Juan Diego Gómez Fierros Ing. en Sistemas Computacionales por el I.T. de Zacatepec Como requisito para la obtención del grado de: Maestría en Ciencias en Ciencias de la Computación Directora de tesis: Dra. Azucena Montes Rendón Co-Director de tesis: Dr. David Eduardo Pinto Avendaño Jurado: Dr. Juan Gabriel González Serna – Presidente M.C. Javier Ortiz Hernández – Secretario M.C. José Alejandro Reyes Ortiz – Vocal Dra. Azucena Montes Rendón – Vocal Suplente Cuernavaca, Morelos, México. 30 de noviembre de 2012 Dedicatorias Quiero dedicar este trabajo de tesis a mi madre la cual me ha apoyado siempre brindándome su amor desde el primer día que me cargo en sus brazos y me ha enseñado el valor de la vida y el conocimiento de las cosas más importantes que se puedan aprender, el respeto, amor y los valores inculcados por su constante dedicación. Este trabajo es tuyo al igual que yo. A mi padre que siempre supo brindar su constante ayuda económica para que nada faltara en el hogar y me mostró el camino que debe seguir un verdadero hombre siempre al lado de su familia, ayudando, respetando, amando. Te dedico este trabajo. A mis hermanos que siempre me mostraron su incondicional apoyo para salir adelante sé que para cualquier cosa que necesite puedo contar con ellos y con su particular forma de ser lo cual los hace únicos y valiosos. Gracias por todo Cada quien en su forma de pensar y en su educación puede creer en lo que considera mejor y desde la más tierna infancia me fue inculcado el amor a Dios, por eso sé que gracias a él puedo estar ahora en el lugar en el que estoy, y ya lo menciono Blaise Pascal “En el corazón de todo hombre existe un vacío que tiene la forma de Dios. Este vacío no puede ser llenado por ninguna cosa creada. Él puede ser llenado únicamente por Dios, hecho conocido mediante Cristo Jesús.” I Agradecimientos Quiero expresar mi más profundo agradecimiento a la directora de esta tesis: la Dra. Azucena Montes Rendón su dedicación al conocimiento científico y su espíritu enérgico y afectivo son un ejemplo a seguir y han incitado mi ilusión por el estudio gracias por depositar su confianza en mí. Puedo asegurar que he tenido el privilegio de poder trabajar, no bajo su dirección, sino con su ayuda y su colaboración. A mis revisores de tesis: M.C. José Alejandro Reyes Ortiz, Dr. Juan Gabriel González Serna y el Dr. Javier Ortiz Hernández, los cuales dedicaron parte de su tiempo a realizar las revisiones necesarias para poder realizar un trabajo digno de una investigación de maestría. Gracias por su ayuda apoyo y consejos. De mi familia poco hace falta decir. Mis padres y hermanos siempre han estado ahí a mi lado incondicionalmente, siempre brindándome su ayuda, comprensión apoyo pero sobre todo su amor, quiero agradecerles porque gracias a ellos me encuentro en donde estoy ahora. A mis compañeros que los considero como una auténtica fortuna repartida en varios sitios distintos. Muchas gracias a todos mis amigos, a los de siempre que han sobrellevado con gran paciencia las innumerables horas de mi ausencia y a los de ahora, que espero conservar por mucho tiempo, ambos grupos forman parte inseparable en esta etapa de mi vida. Al centro nacional de investigación y desarrollo tecnológico cenidet por aceptarme como alumno, que gracias a sus profesores tengo las herramientas necesaria para poder ser un investigador de éxito y gracias al apoyo económico brindado por el CONACYT pude dedicarme íntegramente al estudio de mi carrera. II Abstract The process for creation automatic of ontologies also called ontology learning involves several activities, which can be simplified into: a) find the relevant terms of the domain (Classes) and taxonomic relationships between them; b) establish no taxonomic relationships between classes; c) find instances of classes and relationships. This process has been an area of study for several investigations that attempt to ontologies from text. There are several proposals to automate the process of building of ontologies, which have some common characteristics differences by distinguishing factors very precise, some of these proposals use statistical approaches (Sánchez & Moreno, 2004), other natural language processing (NLP) (Sabou, Wroe, Goble, & Mishne, 2005) and finally there are some that combine both techniques (Cimiano & Vaolker, 2005). The type of data they handle the tools vary in format, can make populated ontological for structured data, semi-structured data or even plain text which implies a high degree of analysis and using NLP techniques. Currently, in the CENIDET in the group of Web Technologies, is developing a project in which the main objective is extraction and information retrieval from ontologies. An important part of this project is the transformation of the information contained in a text to ontology and using the latter for the extraction and recovery of information. In this work thesis is instantiated ontology with spatial information which complements the ontology “OntoEvento (Reyes, 2011)” in their part of spatiality indicating the place of occurrence of an event, to do this using various techniques for recognizing spatial entities and for populating semi-automatic of ontologies, as the use of patterns lexical - syntactic. Keywords: ontology population, PLN, Ontologies, lexical patterns . III Resumen El proceso de creación semiautomático de ontologías también llamado aprendizaje ontológico involucra varias actividades, las cuales se pueden simplificar en: a) encontrar los términos relevantes del dominio (clases) y las relaciones taxonómicas entre ellas; b) establecer las relaciones no taxonómicas entre las clases; c) encontrar las instancias de las clases y las relaciones. Este proceso ha sido un campo de estudio para varias investigaciones que intentan obtener ontologías a partir de texto. Existen varias propuestas para automatizar el proceso de construcción de ontologías en la parte de poblado ontológico, las cuales tienen algunas características en común diferenciándose entre ellas por factores distintivos muy precisos, algunas de estas propuestas utilizan enfoques estadísticos (Sánchez & Moreno, 2004), otras procesamiento de lenguaje natural (Sabou, Wroe, Goble, & Mishne, 2005) y finalmente existen algunos que mezclan ambas técnicas (Cimiano & Vaolker, 2005). El tipo de datos que manejan las herramientas mostradas en el párrafo anterior, varía en su formato, pudiendo realizar el poblado ontológico de datos estructurados, semiestructurados o incluso de textos sin formato (texto plano) lo cual implica un alto grado de análisis y el uso de técnicas del PLN (Procesamiento de Lenguaje Natural). Actualmente, en el cenidet, en el grupo de Tecnologías Web se está desarrollando un proyecto donde el objetivo principal es la extracción y recuperación de información a partir de ontologías. Una parte importante de este proyecto es la transformación de la información contenida en un texto a una ontología y utilizar esta última para la extracción y recuperación de información. En los siguientes capítulos que integran este trabajo de tesis se explica cómo se realiza la instanciación de una ontología con información espacial, la cual complementa la ontología OntoEvento (Reyes, 2011) en su parte de espacialidad, indicando el lugar de ocurrencia de un acontecimiento, para realizar esto se utilizan diversas técnicas para el reconocimiento de entidades espaciales y para el poblado semiautomático de ontologías, como el uso de patrones léxicos - sintácticos. Palabras clave: Poblado Ontológico, PLN, Ontologías, Patrones léxicos. IV Contenido Capítulo 1. Introducción ....................................................................................................................1 1.1 Motivación .........................................................................................................................2 1.2 Planteamiento del problema ..............................................................................................2 1.3 Objetivos ............................................................................................................................3 1.3.1 Objetivo principal .......................................................................................................3 1.3.2 Objetivos particulares .................................................................................................3 1.4 Alcances y limitaciones .......................................................................................................3 1.4.1 Alcances ......................................................................................................................3 1.4.2 Limitaciones ................................................................................................................4 1.5 Organización de la tesis ......................................................................................................4 Capítulo 2. Fundamento teórico........................................................................................................5 2.1 Ontologías ..........................................................................................................................6 2.2.1 Principales componentes del modelado de ontologías ..................................................6 2.2.2 Aprendizaje de ontologías ..............................................................................................8 2.3 Procesamiento del lenguaje natural (PLN) .......................................................................10 2.3.1 Clasificación del PLN en función de los niveles de análisis lingüístico ..........................13 2.4 Extracción de información ................................................................................................14 2.5 Patrones lingüísticos .........................................................................................................17 2.6 Espacialidad y eventos ......................................................................................................18 2.6.1 Espacialidad ..................................................................................................................18 2.6.1.1 Espacialidad en textos ...............................................................................................19 2.6.2 Eventos .........................................................................................................................19 2.6.2.1 Características de los eventos ...................................................................................20 Capítulo 3. Estado del arte ..............................................................................................................22 3.1 Introducción .....................................................................................................................23 3.2 Enfoques para aprendizaje ontológico .............................................................................24 3.2.1 Enfoque estadístico ......................................................................................................25 3.2.2 Enfoque lingüístico .......................................................................................................26 3.2.3 Enfoques híbridos .........................................................................................................28 3.2.4 Enfoque basado en patrones lingüísticos .....................................................................29 3.2.4.1 Patrones construidos manualmente .........................................................................30 3.2.4.2 Patrones construidos automáticamente ...................................................................31 V 3.3 Herramientas ....................................................................................................................34 3.3.1 OpenCalais ....................................................................................................................34 3.3.2 AlchemyAPI ..................................................................................................................35 3.3.3 Extractiv ........................................................................................................................36 3.3.4 STILUS NER ...................................................................................................................38 3.3.5 ZEMANTA .....................................................................................................................39 3.3.6 Comparativa entre herramientas .................................................................................40 Capítulo 4. Metodología de solución ...............................................................................................42 4.1 Identificación de patrones ................................................................................................43 4.1.1 Características del método ...........................................................................................44 4.1.2 Metodología para extracción de patrones ...................................................................45 4.1.3 Extracción de patrones léxicos .....................................................................................46 4.2 Selección de patrones relevantes .....................................................................................48 4.3 Aplicación de los patrones ................................................................................................51 4.4 Instanciación de OntoEspacio en espacialidad .................................................................52 4.5 Prototipo ..........................................................................................................................53 Capítulo 5. Pruebas y resultados .....................................................................................................57 5.1 Introducción .....................................................................................................................58 5.2 Métricas de evaluación.....................................................................................................58 5.2.1 Precisión .......................................................................................................................58 5.2.2 Recuerdo ......................................................................................................................59 5.2.3 Medida F .......................................................................................................................59 5.3 Plan de pruebas ................................................................................................................60 5.3.1 Elementos de prueba ...................................................................................................60 5.3.1.1 Características probadas ...........................................................................................60 5.3.1.2 Características excluidas ...........................................................................................61 5.3.1.3 Enfoque ....................................................................................................................62 5.3.1.4 Criterio éxito/fracaso de los casos de prueba ..........................................................62 5.3.1.5 Criterios de suspensión y requerimientos de reanudación .......................................62 5.3.1.6 Documentos entregables de las pruebas ..................................................................63 5.3.1.7 Tareas de pruebas .....................................................................................................63 5.3.1.8 Requerimientos necesarios para realizar las pruebas ...............................................64 5.3.1.9 Responsabilidades .....................................................................................................64 VI 5.3.1.10 Riesgos y contingencias ............................................................................................64 5.3.2 Aprobación ...................................................................................................................64 5.3.3 Casos de prueba ...........................................................................................................65 5.3.4 Especificación del procedimiento de prueba ................................................................65 5.4 Pruebas.............................................................................................................................68 5.4.1 Reconocimiento de entidades espaciales .....................................................................68 5.4.2 Identificación de conceptos relacionados a eventos ....................................................70 5.4.3 Solución a anáfora lingüística .......................................................................................70 5.4.4 Poblado ontológico.......................................................................................................72 Capítulo 6. Conclusiones y trabajos futuros ....................................................................................75 6.1 6.1.1 Conclusiones.....................................................................................................................76 Contribuciones .............................................................................................................77 6.2 Publicaciones ....................................................................................................................77 6.3 Trabajos futuros ...............................................................................................................78 Anexos .............................................................................................................................................84 Herramientas utilizadas................................................................................................................85 PETRA Tag ....................................................................................................................................85 OpenCalais ...................................................................................................................................87 VII Figuras Figura 1. Ejemplo de una ontología........................................................................................ 8 Figura 2. Capas del aprendizaje ontológico (Cimiano, 2006) .............................................. 10 Figura 3. Niveles del Procesamiento de Lenguaje Natural (Castellanos, Fernández, & Valencia, 2008)..................................................................................................................... 13 Figura 4. Ejemplo de anuncio de un seminario “Ontologies and Information Extraction” .. 16 Figura 5. Entramado de conceptos formales para el ejemplo, el turismo (Cimiano, Hotho, & Staab, 2005) .......................................................................................................................... 28 Figura 6. Jerarquía de conceptos ontológicos para el ejemplo, el turismo (Cimiano, Hotho, & Staab, 2005) ...................................................................................................................... 28 Figura 7. Clasificación de entidades en Open Calais ........................................................... 35 Figura 8. Extracción de entidades en AlchemyAPI .............................................................. 36 Figura 9. Extracción de entidades en Extractiv .................................................................... 38 Figura 10. Etiquetado de entidades en STILUS NER .......................................................... 39 Figura 11. Extracción de entidades en ZEMANTA ............................................................. 40 Figura 12. Gráfica comparativa de las herramientas ............................................................ 41 Figura 13 Arquitectura general del método propuesto para la extracción de patrones ........ 46 Figura 14. Entidades espaciales ............................................................................................ 47 Figura 15. Estructura de entidades espaciales ...................................................................... 48 Figura 16. Modelo general de solución ................................................................................ 51 Figura 17. Interfaz del prototipo ........................................................................................... 53 Figura 18. Explorador de archivos ....................................................................................... 53 Figura 19. Texto de noticia procesado.................................................................................. 54 Figura 20. Extracción de argumentos y RA ......................................................................... 55 Figura 21. Extracción de candidatos espaciales ................................................................... 55 Figura 22. OntoEspacio instanciada ..................................................................................... 56 Figura 23. Ecuación de la precisión (Salton & McGill, 1983) ............................................. 58 Figura 24. Ecuación del recuerdo (Salton & McGill, 1983) ................................................ 59 Figura 25. Grafica de precisión y recuerdo en el reconocimiento de entidades mediante patrones................................................................................................................................. 69 Figura 26. OntoEspacio ........................................................................................................ 73 Figura 27. Gráfica de precisión y recuerdo para el poblado ontológico............................... 74 Figura 28. Precisión de las herramientas .............................................................................. 88 Figura 29. Exhaustividad de las herramientas ...................................................................... 88 Figura 30. Precisión y Exahustividad interpoladas .............................................................. 88 VIII Tablas Tabla 1 Ccomparativa entre enfoques .................................................................................. 33 Tabla 2. Comparativa entre herramientas ............................................................................. 40 Tabla 3. Formato de las entidades espaciales en textos de noticias ..................................... 43 Tabla 4. Actividades planeadas en el plan de pruebas ......................................................... 63 Tabla 5. Resultados en el reconocimiento de entidades espaciales ...................................... 69 Tabla 6. Pruebas de anáfora lingüística ................................................................................ 70 Tabla 7. Resultados en el poblado ontológico ...................................................................... 73 Tabla 8. Comparativa entre herramienta para la extracción de entidades ............................ 87 IX Capítulo 1. Introducción En este capítulo se presentan los principales temas que llevaron a la realización de esta tesis, tales como, los objetivos, limitaciones y la metodología de solución propuesta para realizar el poblado de la ontología espacial. Capítulo 1.- Introducción 1.1 Motivación El uso de ontologías en diferentes tareas ha tenido un crecimiento acelerado, es por ello que se necesita crear ontologías de forma rápida y precisa. El desarrollo de esta tarea de manera manual implica altos costos y consume bastante tiempo al desarrollador de éstas o al experto del dominio. Por lo tanto, surge la idea del aprendizaje semiautomático y automático de elementos ontológicos, esta idea se propone como solución a los problemas que origina la creación manual de ontologías. El proceso de creación semiautomático de ontologías también llamado aprendizaje ontológico involucra varias actividades, las cuales se pueden simplificar en: a) encontrar los términos relevantes del dominio (clases) y las relaciones taxonómicas entre ellas; b) establecer las relaciones no taxonómicas entre las clases; c) encontrar las instancias de las clases y las relaciones. Este proceso ha sido un campo de estudio para varias investigaciones que intentan obtener ontologías a partir de texto. En el cenidet, en el grupo de Tecnologías Web se está desarrollando un proyecto donde el objetivo principal es la extracción y recuperación de información a partir de ontologías. Una parte importante de este proyecto es la transformación de la información contenida en un texto a una ontología y utilizar esta última para la extracción y recuperación de información. 1.2 Planteamiento del problema En (Reyes, 2011) el objetivo principal es diseñar una metodología para la creación de ontologías de dominio a partir de texto no estructurado mediante el Procesamiento automático del lenguaje natural, con un enfoque lingüístico. En este trabajo se ha desarrollado una ontología llamada “OntoEvento” que representa la conceptualización de un evento para abordar esta problemática. La conceptualización de un evento está fundada prácticamente en tres aspectos: Espacio: todo evento sucede en algún lugar, (Miller, 1999) Tiempo: todo evento transcurre en un intervalo de tiempo (Desclés, 2010) Agentividad: la mayoría de los eventos son realizados por algún ente animado o inanimado. (Tesnière, 1976) y (Halliday, 1994) Por lo tanto, en este trabajo de tesis se pretende abordar los problemas relacionados al reconocimiento de entidades espaciales, para instanciar la ontología OntoEvento en su parte de espacialidad. Juan Diego Gómez Fierros 2|Página Capítulo 1.- Introducción Utilizando técnicas de Procesamiento de Lenguaje Natural (PLN) y un análisis lingüístico profundo de los textos para la extracción de los elementos espaciales relevantes. 1.3 Objetivos En esta sección se presenta el objetivo principal y los objetivos particulares de esta tesis. 1.3.1 Objetivo principal El objetivo principal de este trabajo de tesis consiste en: “Desarrollar una metodología que permita identificar información espacial de un texto no estructurado para instanciar la ontología OntoEvento” 1.3.2 Objetivos particulares 1.4 Identificar y extraer conceptos relacionados a eventos. Identificar y extraer conceptos relacionados al lugar donde sucede un evento. Implementar los métodos propuestos en (Reyes, 2011a) para tratamiento de elipsis y anáfora. Desarrollar una herramienta que implemente la metodología creada. Evaluar los resultados de la extracción de la información. Alcances y limitaciones 1.4.1 Alcances La metodología sólo identifica lugares y eventos. Se identifican eventos de tipo verbo y eventos nominalizados. Se consideran los fenómenos de elipsis y anáfora. Se desarrolló una herramienta que implementa la metodología. Se instancia OntoEvento en la clase de espacio y evento. Se evaluaron los resultados con la intervención de un experto. Juan Diego Gómez Fierros 3|Página Capítulo 1.- Introducción 1.4.2 Limitaciones 1.5 Los textos de los que se extrae la información para tomar los conceptos espaciales son de tipo periodístico, no se toman en cuenta otros dominios. Los textos se encuentran en formato de texto plano. La ontología resultante sólo contiene información relacionada con lugares y eventos Sólo se obtiene la ontología espacial de documentos en idioma español. No se considera la información temporal ni causal Organización de la tesis En el capítulo uno se muestra la principal motivación, planteamiento del problema, objetivos, metodología de solución, alcances y limitaciones a los que se acotó la tesis, mostrando las principales ideas y la solución para poblar una ontología. En el capítulo dos se muestra el marco teórico en el cual se explica el fundamento teórico necesario para el desarrollo de esta tesis como las ontologías, extracción de información, técnica de PLN (Procesamiento de Lenguaje Natural) y los patrones lingüísticos. En el capítulo tres se observa el estado del arte, que es una recopilación de diferentes trabajos los cuales fueron analizados para conocer las técnicas utilizadas por otros investigadores en la solución de una problemática similar a la presentada en esta tesis. En el capítulo cuatro se describe el trabajo principal de esta tesis, se desglosa la metodología desarrollada explicando cada una de las partes que la componen y como se llegó a la conclusión de utilizar las diferentes herramientas y módulos que la conforman, también se muestran imágenes del prototipo desarrollado explicando cada una de sus funcionalidades, insumos y salidas. En el capítulo cinco se muestran las pruebas planteadas primeramente en un plan de pruebas, en el que se describen los pasos a seguir para la realización de cada una de estas, posteriormente se muestran los resultados obtenidos al aplicar cada una de las pruebas definidas. En el capítulo seis se resumen todas las conclusiones obtenidas durante la realización de este trabajo de tesis y se explican los trabajos futuros pendientes planteados durante la realización de la misma. Juan Diego Gómez Fierros 4|Página Capítulo 2. Fundamento teórico En este capítulo se presentan las diversas y principales definiciones, técnicas y conceptos abordados como, técnicas de PLN (Procesamiento de Lenguaje Natural), Extracción de información, aprendizaje ontológico y patrones lingüísticos, todo esto necesario para el desarrollo de los métodos que componen la metodología de solución. Capítulo 2.- Fundamento teórico 2.1 Ontologías Después del nacimiento de la Web Semántica, la cual se convirtió en un gran avance, las ontologías se convirtieron en sinónimo para la solución a muchos problemas sobre el hecho de que las computadoras no entienden el lenguaje humano: si hubiera una ontología en la que todos los documentos fueran marcados con ella y además cuente con agentes capaces de entender el marcado, los equipos finalmente serían capaces de procesar nuestras consultas de una manera más eficiente. El éxito de Google nos muestra que la misión no se ha hecho realidad, se ve obstaculizada por la increíble cantidad de trabajo extra que se requiere para la codificación semántica intelectual del marcado (en comparación con simplemente cargar una página HTML). Para disminuir este cuello de botella, el ámbito para el aprendizaje de ontologías ha surgido como un importante sub-campo de la ingeniería de la ontológica. Es ampliamente aceptado que las ontologías pueden facilitar la comprensión de texto y Procesamiento automatizado de los recursos textuales. Pasar de las palabras a los conceptos no sólo mitiga los problemas de escasez de datos, pero también promete atractivas soluciones a la polisemia y la homonimia, encontrando conceptos no ambiguos que pueden mapearse para diversos usos, en lugar del uso de palabras posiblemente ambiguas. El término ontología puede entenderse de diferentes formas y se ha utilizado en la filosofía por muchos siglos. Por el contrario, la noción de la ontología en el ámbito de la informática es más reciente, pero ha sido utilizado de manera distinta a la expresada en lo referente a los detalles de la definición (Biemann, 2005). 2.2.1 Principales componentes del modelado de ontologías Las ontologías tienen los siguientes componentes que sirven para representar el conocimiento de algún dominio (Corcho, Fernández, Gómez, & López, 2003): Los conceptos son objetos o entidades, considerados desde un punto de vista amplio. Por ejemplo, en el dominio legal los siguientes términos son utilizados como conceptos: persona física, tribunal, menor de edad, etc. Los conceptos de una ontología están normalmente organizados en taxonomías en las cuales se pueden aplicar mecanismos de herencia. Por ejemplo, se puede representar una taxonomía de entidades legales, donde una persona jurídica es subclase de persona, una compañía es subclase de persona jurídica, una compañía privada es subclase de compañía, etc. Juan Diego Gómez Fierros 6|Página Capítulo 2.- Fundamento teórico Las relaciones representan un tipo de asociación entre conceptos del dominio. Si la relación une dos conceptos –por ejemplo, la relación se celebra en que une un juzgado y un juicio– se denomina relación binaria. Una relación binaria relevante es Subclase-de, ya que se utiliza para construir taxonomías de clase. Las instancias se utilizan para representar individuos en la ontología. Ejemplos de instancias del concepto tribunal son la Audiencia Estatal de México o el Tribunal Constitucional. Las relaciones también se pueden instanciar. Por ejemplo, se podría expresar que en la Audiencia estatal de México se celebra el juicio 127/2004. Las constantes son valores numéricos que no cambian en un largo período de tiempo. Por ejemplo, en España la edad de mayoría de edad es de 18 años. Los atributos describen propiedades. Se pueden distinguir dos tipos de atributos: de instancia y de clase. Los atributos de instancia describen propiedades de las instancias de los conceptos, en las cuales toman su(s) valor(es). Estos atributos se definen en un concepto y se heredan a sus subconceptos e instancias. Por ejemplo, el nombre de una persona física es propio de cada instancia. Los atributos de clase describen conceptos y toman su(s) valor(es) en el concepto en el cual se definen. Estos atributos no se heredan ni a los subconceptos ni a las instancias. Un ejemplo es el atributo tipo de control del concepto compañía, que puede ser utilizado para determinar el tipo de control de una compañía privada, de una compañía pública y de una compañía de control privado y público. Los axiomas formales son expresiones lógicas siempre verdaderas que suelen utilizarse para definir restricciones en la ontología. Un ejemplo de axioma es que una persona no puede ser el demandado y el demandante en el mismo juicio. Las reglas se utilizan normalmente para inferir conocimientos en la ontología, tales como valores de atributos, instancias de relaciones, etc. Un ejemplo de una regla es la siguiente: un juicio donde el acusado es un menor de edad que tiene más de 14 años se celebra en un tribunal de menores. Para ejemplificar los elementos de una ontología se muestra la figura 1 que presenta una ontología en el dominio de instrumentos musicales. De esta ontología se puede identificar los siguientes elementos: la clase instrumentos musicales, la cual tiene dos subclases instrumentos de viento e instrumentos de cuerda; la relación taxonómica subclase_de entre instrumentos de viento e instrumentos musicales y la relación es_un que conecta los conceptos instrumentos de viento e instrumentos de metal; y por ultimo una instancia de la clase instrumentos con traste que es La guitarra de Paul. Juan Diego Gómez Fierros 7|Página Capítulo 2.- Fundamento teórico Figura 1. Ejemplo de una ontología Existen tres tipos fundamentales de ontologías según (Steve, Gangemi, & Pisanelli., 1998): Ontologías de un dominio, en las que se representa el conocimiento especializado pertinente de un dominio o subdominio, como la medicina, las aplicaciones militares, la cardiología. Ontologías genéricas, en las que se representan conceptos generales y fundacionales del conocimiento como las estructuras parte/todo, la cuantificación, los procesos o los tipos de objetos. Ontologías representacionales, en las que se especifican las conceptualizaciones que subyacen a los formalismos de representación del conocimiento, por lo que también se denominan meta-ontologías (meta-level o top-level ontologies). A estos tres tipos se añade las ontologías que han sido creadas para una actividad o tarea específica (denominadas task ontologies), como por ejemplo la venta de productos o el diagnóstico de una enfermedad y las ontologías creadas para una aplicación específica. 2.2.2 Aprendizaje de ontologías Una ontología proporciona una estructura y un vocabulario común para la organización del conocimiento de un dominio específico, en la cual se encuentran todos los conceptos interconectados a través de relaciones. Juan Diego Gómez Fierros 8|Página Capítulo 2.- Fundamento teórico Por tanto el uso de las ontologías en el PLN nos permite representar la estructura conceptual del lenguaje, proporcionando una riqueza semántica mayor que un lexicón computacional o que un tesauro. La relación que se establece entre las ontologías y las técnicas de PLN es bidireccional: por un lado son herramientas para la representación de redes semánticas y por otro el PLN es una técnica importante en la construcción automática de ontologías (ontology learning) Las ontologías se utilizan como redes semánticas que representan los conceptos del mundo extralingüístico. De este modo, a través de las relaciones entre los conceptos, permiten identificar el contexto de un término. La identificación del contexto es esencial para saber cuál es el sentido de ese término en el discurso. Una de las aproximaciones del uso de PLN y las ontologías se centra en la construcción automática de ontologías y en la detección de los elementos ontológicos (conceptos, clases, relaciones y atributos) a partir de texto en lenguaje natural. La construcción automática de ontologías (ontology learning en inglés) se ha convertido en uno de los principales focos de investigación dentro del ámbito de la Web Semántica. Las ontologías en la Web Semántica se utilizan como estructura compleja para la representación del conocimiento, generalmente de un dominio. Dicho conocimiento está contenido en muchas ocasiones en textos escritos en lenguaje natural. La construcción de ontologías es un proceso lento y costoso que ralentiza el avance de la Web Semántica, por esto es necesario desarrollar métodos eficaces para la generación automática de ontologías a partir de lenguaje natural. El aprendizaje de ontologías tiene diferentes capas o sub-tareas (Cimiano, 2006), las cuales se describen a continuación y se muestran en la figura 2. Adquisición de terminología relevante Identificación de sinónimos (posiblemente a través de lenguajes) Formación de conceptos Organización jerárquica de los elementos Aprendizaje de relaciones, propiedades, atributos, junto con su respectivo rango y dominio Organización jerárquica de las relaciones Instanciación de los axiomas del esquema Definición de los axiomas arbitrarios Juan Diego Gómez Fierros 9|Página Capítulo 2.- Fundamento teórico Axiomas generales Axiomas del esquema toda ciudad tiene una única capital Disjunta (rio, montaña) capital_de ≤R localizado_en Jerarquía de relaciones fluye_a_través_de (dom: rio, rango: ciudad) capital ≤c ciudad C:= país Relaciones Jerarquía de conceptos Conceptos [país, nación] río, ciudad, país, capital Sinónimos Términos Figura 2. Capas del aprendizaje ontológico (Cimiano, 2006) Para los propósitos de la figura 2 se incluyen algunos ejemplos concretos para el dominio de la geografía, dentro del paso de adquisición de terminología se extraen los términos como, ríos, ciudades, naciones, capitales, país. En el paso de descubrimiento de sinónimos se agrupan los términos nación y país que en un cierto contexto son sinónimos. En la fase de descubrimiento de conceptos se hace una separación entre las instancias y los conceptos o clases, para los cuales se crea una jerarquía de conceptos, por ejemplo en el dominio geográfico se descubre que capital ≤C ciudad. También se ejemplifica el aprendizaje de relaciones junto con su dominio y su rango con la relación fluye_a_través_de entre un rio y ciudad. La siguiente capa es el ordenamiento jerárquico de las relaciones que se ejemplifica con que capital_de es una especialización de localizado_en. En el nivel de la instanciación de axiomas del esquema se deriva que la clase rio y montaña son conceptos disjuntos, es decir que ninguna instancia que aparezca en la clase rio puede aparecer en la clase montaña. Finalmente, también se pueden derivar relaciones complejas entre los conceptos y las relaciones en forma de axiomas, un ejemplo de esto es que cada instancia de la clase ciudad sólo puede tener asociada una única capital. 2.3 Procesamiento del lenguaje natural (PLN) El Procesamiento del Lenguaje Natural (PLN) es una sub-disciplina de la Inteligencia Artificial y de la lingüística computacional. El PLN se ocupa de la formulación e investigación de mecanismos eficaces computacionalmente para la comunicación entre personas o entre personas y máquinas por medio del lenguaje natural. Juan Diego Gómez Fierros 10 | P á g i n a Capítulo 2.- Fundamento teórico El PLN trata de diseñar mecanismos para comunicarse que sean eficaces computacionalmente. Los modelos aplicados se enfocan no sólo a la comprensión del lenguaje de por sí, sino a aspectos generales cognitivos humanos y a la organización de la memoria. El lenguaje natural sirve sólo de medio para estudiar estos fenómenos. El Procesamiento del Lenguaje Natural (PLN) puede ser visto como un intento de simular el comportamiento lingüístico humano, de manera que, el sistema de signos que constituye la lengua, sea adquirido y procesado por el computador, siendo éste capaz de reconocer, comprender, interpretar y generar lenguaje humano, ya sea escrito o hablado. Desde los años 50, dentro del marco de la Inteligencia Artificial, se han llevado a cabo numerosas investigaciones con el objetivo establecer mecanismos computacionales que permitieran la comunicación eficaz hombre-máquina en lenguaje natural. Las primeras décadas (50’s - 70’s) se caracterizaron por un optimismo inicial en el que se pretendía dotar a la máquina de competencia lingüística plena, pero los resultados obtenidos no fueron los esperados. Por este motivo, en las décadas siguientes, hasta la actualidad, los esfuerzos se han centrado en el desarrollo de aplicaciones específicas, tales como, el reconocimiento del habla, el procesamiento del texto a nivel morfosintáctico, el desarrollo de herramientas para la adquisición de conocimiento semántico, etc. En el intento por la automatización de los procesos lingüísticos han confluido distintas disciplinas, tanto informáticas como lingüísticas, dando lugar a denominaciones que sintetizan esa “hibricidad”. Éste es el caso de la lingüística computacional, que puede ser vista como un conjunto heterogéneo de teorías, métodos, herramientas, aplicaciones y productos que tienen en común la consideración de la lengua como un objeto susceptible de ser tratado mediante procedimientos informáticos (Llisterri, 2003). En sus inicios el PLN se centró principalmente en tres áreas: la traducción automática, el reconocimiento del habla y el acceso a bases de datos (Jackson & Schilder, 2006). Aunque estos tres elementos siguen siendo objeto de las investigaciones en PLN, a lo largo de las décadas y con el desarrollo de nuevas tecnologías como Internet, se han incorporado nuevos usos, entre ellos la recuperación de información, los sistemas de diálogo, la búsqueda de respuestas (question answering), extracción de información o el resumen automático. Pero, a pesar de los avances continúa sin resolver uno de los problemas nucleares en IA, esto es, cómo dotar a las máquinas de conocimiento suficiente del mundo extralingüístico, de forma que sean capaces de producir oraciones con sentido pleno e inferir conocimiento de ellas. Juan Diego Gómez Fierros 11 | P á g i n a Capítulo 2.- Fundamento teórico Lo que se pretende con el desarrollo de las distintas técnicas de procesamiento de lenguaje natural, es el acercamiento a los mecanismos de funcionamiento de la lengua, al conjunto de operaciones y de reglas que relacionan todos y cada uno de los elementos del sistema de signos que es la lengua (Marín, 2000). No hay que olvidar a respecto a esto, los estudios pragmáticos y socio-culturales que permiten enmarcar una determinada producción textual en su contexto discursivo. Estos aspectos han sido estudiados por las distintas áreas de la lingüística: fonética, morfología, sintaxis, semántica y pragmática, por tanto, los diferentes niveles o fases de las técnicas empleadas para el procesamiento del lenguaje natural se corresponden, a grosso modo, con las áreas más arriba mencionadas. Además, puede haber tareas previas de procesamiento formal del texto, tales como la identificación y segmentación de las unidades a analizar. Las disciplinas relacionadas con el PLN son: Lingüística: Ofrece una descripción y modelización del lenguaje humano y de las lenguas naturales. Proporciona teorías, herramientas y técnicas para el Procesamiento automático de la lengua. Informática Proporciona teorías, herramientas y técnicas para el Procesamiento automático de la lengua. Inteligencia artificial Desarrollo de sistemas informáticos que simulan el comportamiento humano. Adquisición de conocimientos. Razonamiento a partir de los conocimientos adquiridos. Representación de los conocimientos adquiridos. Ingeniería de telecomunicación Centrada en la transmisión y el Procesamiento de la señal del habla. Psicología Proporciona una descripción y modelización de la interacción y del comportamiento lingüístico humano. Juan Diego Gómez Fierros 12 | P á g i n a Capítulo 2.- Fundamento teórico 2.3.1 Clasificación del PLN en función de los niveles de análisis lingüístico Las fases o niveles de procesamiento no son independientes unas de otras, sino que están interrelacionadas. A medida que se va avanzando en el análisis, será necesario recurrir al conocimiento extraído en niveles anteriores, e incluso posteriores. Por ejemplo, para la desambiguación de las categorías morfológicas es necesario recurrir a la sintaxis para determinar la función de un término en la oración. Por otro lado aunque el procesamiento en los niveles inferiores como el análisis morfológico y la desambiguación han alcanzado cotas aceptables de eficacia, no se puede decir lo mismo de niveles superiores como la semántica y la pragmática debido a su complejidad. Las fases o niveles del procesamiento del lenguaje natural son los siguientes (Figura 3): Figura 3. Niveles del Procesamiento de Lenguaje Natural (Castellanos, Fernández, & Valencia, 2008) Juan Diego Gómez Fierros 13 | P á g i n a Capítulo 2.- Fundamento teórico • Pre-procesamiento textual: Consiste en identificar las partes que lo forman y dividirlas adecuadamente para el análisis. Las principales partes del texto que se suelen identificar son: las palabras, las oraciones y los párrafos. Se pueden distinguir también elementos como encabezados, notas al pie, hipervínculos, etc. Si se trata de un texto escrito, ésta es la primera parte del análisis, si por el contrario se trata de discurso oral, será necesario utilizar en primer lugar el procesamiento fonético. • Procesamiento fonético: la fonética se encarga de la descripción de las dimensiones físico-acústicas, articulatorias y auditivas de los sonidos del lenguaje. Esta parte es necesaria para el desarrollo de tecnologías del habla. • Procesamiento léxico-morfológico: La morfología estudia la estructura de la forma de las palabras, básicamente a través del uso de morfemas (flexivos y derivativos). Basándose en esos morfemas y en la posición que ocupan con respecto al lexema, se pueden determinar aspectos como el tiempo, el género, el número, el grado etc. Por otro lado, el procesamiento morfológico clasifica las unidades lingüísticas en las distintas categorías gramaticales: sustantivo, verbo, adjetivo, adverbio, etc. • Procesamiento sintáctico: La sintaxis estudia las relaciones que se establecen entre las palabras dentro de la oración y las reglas que rigen estas relaciones. Para el procesamiento sintáctico es necesario contar con los patrones sintácticos más frecuentes en una lengua determinada. Se suele recurrir a un corpus anotado sintácticamente en donde los patrones han sido representados en forma de arborescencia. • Procesamiento semántico: La semántica es el estudio del significado del lenguaje, por lo que con el procesamiento semántico se intenta establecer la relación que existe entre las formas lingüísticas analizadas y el sentido con el que están utilizadas en una secuencia textual determinada. • Procesamiento pragmático: La pragmática estudia las estrategias comunicativas enmarcándolas en un contexto socio-cultural. Uno de los principales problemas con los que se enfrenta el procesamiento pragmático es la anáfora. 2.4 Extracción de información El considerable desarrollo de la comunicación multimedia va de la mano con un aumento exponencial del volumen de la información textual. Juan Diego Gómez Fierros 14 | P á g i n a Capítulo 2.- Fundamento teórico Hoy en día, las tecnologías de recuperación de información (RI) no son capaces de satisfacer las necesidades de información específica, ya que proporcionan información a nivel de colección de documentos. El desarrollo de herramientas inteligentes y métodos, que dan acceso al contenido del documento y extraer la información pertinente, es más que nunca una cuestión clave para el conocimiento y la gestión de la información. La Extracción de información es una de las principales líneas de investigación que tratan de satisfacer esta necesidad. El campo de la Extracción de información se inició por el DARPA’s MUC program (Grishman & Sundheim, 1996). MUC definió originalmente la extracción de información y la tarea de extracción de los tipos específicos y bien definidos de información del texto en los conjuntos homogéneos de documentos con dominios restringidos y espacios predefinidos a rellenar o plantillas de formularios con la información extraída. MUC también ha dado lugar a una nueva evaluación del paradigma: comparar la información extraída de forma automática con los resultados producidos por el hombre. MUC ha inspirado una gran cantidad de trabajos en Extracción de información y se ha convertido en una referencia importante en el campo de la minería de textos. Incluso, sigue siendo una tarea difícil construir un sistema eficiente de Extracción de información con buenos rangos de memoria (cobertura) y de precisión (exactitud) (Aone & Ramos, 2000) y (Aussenac, Biébow, & Szulman, 2000). Una típica tarea de Extracción de información se ilustra en la Figura 3 de un corpus de un anuncio para un seminario CMU “Freire 1998”. EI proceso reconoce un nombre (John Skvoretz) y lo clasifica como un nombre de persona. También se reconoce un evento de seminario y se crea un formulario de eventos seminario (John Skvoretz es el ponente de seminarios cuya presentación se titula "Compromiso Embebido" (“Embedded commitment”). Incluso en un ejemplo tan sencillo, no debe considerarse como un simple método de filtrado de palabras claves. Llenar un formulario con palabras extraídas y fragmentos de texto implica un proceso de interpretación. Cualquier fragmento debe interpretarse con respecto a su "contexto" (es decir, el conocimiento del dominio o de otras piezas de información extraída del mismo documento) y de acuerdo a su "tipo" (es decir, la información es el valor de un atributo / función / rol representado por un valor del formulario). En el documento de la Figura 4, "4-5:30" se entiende como un intervalo de tiempo y es necesario interpretar el "4" como "4 pm" y como el tiempo de inicio del seminario. Juan Diego Gómez Fierros 15 | P á g i n a Capítulo 2.- Fundamento teórico Formulario para rellenar (parcial) lugar: ? hora de inicio:? título: ? ponente: ? Documento: El profesor John Skvoretz, U. de Carolina del Sur, Columbia, presentará un seminario titulado "Compromiso embebido", el jueves, 4 de mayo de 4-5:30 en el PH 223D. Llenado de formulario (parcial) lugar: PH 223D hora de inicio: 4 pm Título: compromiso embebido ponente: El profesor John [...]un seminario “Ontologies and Information Extraction” Figura 4. Ejemplo deSkvoretz anuncio de En un típico sistema de Extracción de información, se pueden identificar tres pasos del proceso (Hobbs, y otros, 1997) y (Cowie & Wilks, 2000): Pre-procesamiento de texto, cuyo nivel varía de segmentación del texto sólo en frases y oraciones mediante tokens, a un análisis lingüístico completo. Selección de reglas: las reglas de extracción están asociadas con disparadores (por ejemplo palabras clave), el texto se analiza para identificar los puntos de disparo y las normas correspondientes se seleccionan. Aplicación de las reglas, se comprueban las condiciones de la regla seleccionada y se rellenan los formularios de acuerdo a las conclusiones de las normas de coincidencia de datos. Extraer información de los textos requiere conocimientos léxicos, gramáticas que describen la sintaxis específica de los textos a analizar, así como conocimientos semánticos y ontológicos. En este punto, no se tomará parte en el debate sobre el límite entre el léxico y la ontología como un modelo conceptual. Más bien se centra en el papel que las ontologías juegan para considerarse como bases de conocimiento semántico en la Extracción de información y el uso de ontologías para la Extracción de información, las cuales están enriquecidas por el conocimiento conceptual, esto se refiere a su elaboración lingüísticas (por ejemplo, un concepto debe estar asociado a los términos que lo expresan con su valor de tiempo en varios idiomas) (Nédellec & Nazarenko, 2005). Juan Diego Gómez Fierros 16 | P á g i n a Capítulo 2.- Fundamento teórico 2.5 Patrones lingüísticos Al expresarnos utilizamos una serie de estructuras lingüísticas con las que organizamos nuestro discurso y que ayudan al receptor a asimilar la información conceptual que emitimos. Por lo tanto, si encontramos estas estructuras, que llamaremos patrones, y las introducimos en un programa de extracción de información como WordSmith (Scott, 2011), nos aportarán la información requerida. El uso de patrones lingüísticos para la extracción de relaciones conceptuales es bastante reciente en terminología por lo que todavía no posee una denominación establecida. Por eso, cabe destacar las diferentes maneras con las que los diversos autores han designado lo que nosotros llamamos en este trabajo patrones lingüísticos, como por ejemplo la denominación patterns que utiliza el grupo cogniterm dirigido por (Meyer, 2001). El siguiente listado de términos ha sido tomado de (Marshman, Morgan, & Meyer, 2002): formulae (Lyons, 1977), diagnostic frames o test frames (Cruse, 1986), frames (Winston et al, 1987), knowledge probes (Ahmad & Fulford, 1992), definitional metalanguage y defining expositives (Pearson, 1998). En español, se destaca a (Bach, 2005) que utiliza la denominación de marcadores de reformulación (MR) y (Faber, Rodríguez, & Sánchez, 2001) que utiliza el término patrones. A pesar de las diferentes denominaciones, todos los autores se refieren al mismo concepto que (Condamines, 2002) llama marqueurs en francés o patterns en inglés y la define como: Una estructura discursiva utiliza como un indicador de la posible transición del discurso a un modelo, lo que permite la construcción semi-directa de un modelo en forma de una relación semántica dependiendo de su relación con el contexto. De una manera más sencilla, (Marshman, Morgan, & Meyer, 2002) los definen como “Palabras, combinaciones de palabras o elementos paralingüísticos de los textos que a menudo indican relaciones conceptuales”. A partir de esta definición, estas autoras señalan en ese mismo artículo que existen tres tipos de patrones lingüísticos para la detección de contextos ricos en conocimientos: 1) Patrones léxicos. Son los más visibles y consisten en palabras o grupos de palabras que indican las relaciones conceptuales. 2) Patrones gramaticales. Implican combinaciones de estructuras gramaticales que ofrecen relaciones semánticas entre conceptos aunque de un modo más limitado que los patrones léxicos. 3) Patrones paralingüísticos. Se trata de los elementos textuales como por ejemplo comas, paréntesis, puntos, etc. Así como marcas tipográficas. Juan Diego Gómez Fierros 17 | P á g i n a Capítulo 2.- Fundamento teórico En resumen, gracias a estos patrones de conocimiento, el terminólogo es capaz de detectar, de una manera rápida y eficaz, las relaciones semánticas y las estructuras lingüísticas que ayudaron en este trabajo de tesis. 2.6 Espacialidad y eventos 2.6.1 Espacialidad A lo largo de la historia del pensamiento humano, hubo numerosos intentos de describir el concepto de espacio. Se enmarcaban en diversas ramas de las ciencias empezando por filosofía, lógica, física, matemática, astronomía, geometría, etc. Posteriormente este interés se extendió a otras materias científicas como: psicología, antropología, arte o literatura. Empezando por la filosofía que, al parecer, fue una de las primeras ramas científicas que abordó el tema desde el punto de vista científico, ya con Aristóteles (384-322 a.C.) encontramos las primeras menciones sobre el espacio definido junto con el tiempo como un conjunto interdefinible. Este gran filósofo sostenía que no se puede medir el tiempo sin el movimiento, ni el movimiento sin el espacio (Barbosa, 1807) y (Ferrater M, 1974). La imagen del espacio y movimiento que planteó Aristóteles tuvo su continuación en la física del siglo XIV. Posteriormente, con la crítica de sus teorías, se propusieron también otras ideas de filósofos griegos (Pitágoras, Arquímedes, etc.) que dieron lugar a unas nuevas metodologías científicas que fueron mucho más prácticas y aplicables: Copérnico (1473 – 1642), Galileo (1564 – 1642), Kepler (1575 – 1630), etc. Dentro de las tendencias actuales podemos observar que se presta cada vez más atención al fenómeno relacionado con varias categorías espaciales que constituyen las bases para la descripción de la realidad que nos rodea. Sin embargo, estos conceptos no son nada nuevos. Ya hace bastante tiempo, Genette reflexionaba sobre la espacialidad de la lengua, de las ideas o del arte, llegando a la conclusión que la gente “prefiere” conceptualizar más el espacio que el tiempo. La fascinación por la noción del espacio, llevó a muchos lingüistas a explicar conceptos gramaticales básicos (tales como p. ej. los casos) como consecuencia de la visión del mundo a través del aspecto espacial. La geometría y la lógica son impotentes para describir a fondo los locativos espaciales. Aunque un día se pueda demostrar la existencia de algún tipo de inteligencia específica del lenguaje, será irrefutable que la inteligencia general juega un papel importante en la elaboración de los mecanismos del lenguaje. De ahí el paralelo establecido entre la manera en que concebimos y percibimos el espacio y la manera en que lo describimos lingüísticamente. (Vandeloise, 1986: 23-30) hace un intento de describir los locativos en relación con los conceptos funcionales ligados al conocimiento extralingüístico del espacio que comparten los hablantes de una misma lengua. Juan Diego Gómez Fierros 18 | P á g i n a Capítulo 2.- Fundamento teórico 2.6.1.1 Espacialidad en textos El rasgo principal de la estructura semántica de la localización espacial constituye el mecanismo lingüístico usado para indicar el lugar que no puede venir identificado por sí mismo, sino que tiene que ser siempre identificado en relación a un objeto. Ocurre que para localizar en el espacio necesitamos un objeto localizante, un objeto localizado y un elemento relacionante. Ese elemento relacionante (locativo espacial), ha acogido tradicionalmente a categorías tan diversas como adverbios, preposiciones, locuciones prepositivas y prefijos, recibiendo últimamente un nuevo tratamiento gracias a la aplicación de una perspectiva deíctica y/o intrínseca. El mecanismo de la localización supone que el objeto y el lugar donde está son conocidos. Los locativos también pueden ser usados para identificar el objeto en relación con el cual viene después identificado un lugar. El significado de un locativo es la relación específica entre el lugar y el objeto. Esta relación sólo puede ser descrita tomando en consideración la estructura semántica del objeto. Este tipo de taxonomía relacional ha sido defendida por varios lingüistas: Hjemslev (1935), Tesnière (1959), Fillmore (1968), Dowty (1979), Karolak (2001), etc. De acuerdo con los supuestos presentados por estos lingüistas, el lenguaje está concebido a través de los papeles relacionantes, es decir, casos semánticos que desempeñan sus funciones dentro de la estructura sintagmática en la identificación del valor de los actantes del predicado. Entre los casos enumerados por FILLMORE, figura también uno que corresponde a la descripción de relaciones espaciales (locativo). La semántica espacial ha sido abordada posteriormente por muchos semanticistas y causó varias polémicas, puesto que la determinación de un conjunto homogéneo de los papeles temáticos siempre llevaba a la elaboración de teorías difícilmente conciliables. Además, el intento de selección de los criterios uniformes lleva a la conclusión de que existe un número limitado de los papeles temáticos y que las funciones semánticas son universales puesto que su valor está definido en función de acciones, eventos psicológicos, acontecimientos sometidos a algún tipo de modificación o movimiento, así como de situaciones que se localizan en un determinado espacio o tiempo. 2.6.2 Eventos Los documentos de noticias contienen información valiosa representada en lenguaje natural, tal como eventos, sucesos y hechos, así como información contextual del evento (información temporal, espacial y causal) que describe las características y comportamiento de la acción en el mundo real. Juan Diego Gómez Fierros 19 | P á g i n a Capítulo 2.- Fundamento teórico En el trabajo de (Reyes, 2011) se realiza una caracterización de los eventos que describen las noticias escritas con el objetivo de capturar la semántica de las oraciones de los textos periodísticos. 2.6.2.1 Características de los eventos Un evento puede estar descrito por un predicado (verbo) de una oración o por una nominalización, como se puede ver en el siguiente ejemplo. Los bomberos encontraron a una señora en la provincia de Fukushima. (Verbo) La erupción de volcán en Hawái. (Nominalización) Los eventos se clasificarán en dos tipos, eventos expresados por verbos y eventos expresados por nominalización, los cuales se caracterizan de manera independiente. Eventos expresados por verbos Estos eventos se expresan por los verbos principales, conjugados en algún tiempo (pasado, presente y futuro), en una oración. Existen teorías de lingüistas como L. Tesnière y M.A.K. Halliday que se exponen en (Frías, 2001), y donde se afirma que el verbo es el núcleo sobre el que giran todos los elementos de la oración, tomando en cuenta este supuesto, los verbos se convierten en el núcleo de los eventos y con esto surge la necesidad de utilizar un mecanismo que considere las valencias de los verbos para encontrar sus argumentos. La caracterización de este tipo de eventos se centrará en la gramática de valencias de Tesnière que se expone en (Frías, 2001) y que se define como una teoría en donde el verbo es el elemento fundamental en una oración y que sirve de columna vertebral al resto de ésta. Los principios de la teoría de las valencias, son: a) Principio actancial. El elemento más importante de una oración es la acción (verbo) que es considerado el centro de la oración y es el que dirige a los actores (actantes). Según este principio, los verbos se distinguen según el tipo y número de valencias que necesitan. Por tanto, los actantes del verbo (sus valencias necesarias) varían entre verbos según su significado. Juan Diego Gómez Fierros 20 | P á g i n a Capítulo 2.- Fundamento teórico b) Valores actanciales de los verbos. Los verbos en español tiene asignado un número de valencia. Por lo tanto tenemos: verbos avalentes (sin actantes), como llover, nevar, tronar (verbos de tiempo atmosférico), ser (en expresiones como ser tarde, ser necesario, ser lícito, etc.), haber (con valor impersonal); verbos monovalentes (requieren un actante), como ir, venir, llegar, salir; verbos bivalentes que requieren necesariamente dos actantes, es decir, si eliminamos el segundo, el verbo se queda mutilado en cuanto a su significado, como romper, comer ; verbos trivalentes que requieren tres actantes, como poner, dar. c) Elementos de los actantes. Los actantes que participan en una oración pueden clasificarse según L. Tasnière, en: a) actor: se identifica con el elemento del que arranca el proceso; responde al rasgo [+animado][+/-humano]. Suele corresponderse con el sujeto; b) agente: responde al mismo fenómeno que el actor, pero con el sema [-animado]; c) objeto: se identifica con el elemento que complementa el significado del proceso y su sema principal es [-animado]; d) paciente: se identifica en todo con el objeto, con la diferencia de que responde al sema [+animado]; e) beneficiario: se identifica con aquel que recibe los beneficios o perjuicios de la acción, tiene el sema [+animado]. Eventos expresados por nominalización Los eventos por nominalización se encuentran expresados por un verbo nominalizado también conocido como sustantivación. La nominalización, consistente en la creación de derivados nominales por sufijación, puede ser denominal, deadjetival y deverbal. Este trabajo tiene un especial interés en la nominalización deverbal, la cual se forma con un verbo más un sufijo. Este interés se debe a la posibilidad de que un evento se encuentre expresado por una nominalización que a su vez proviene de un verbo. Según (Hernando, 1998) define la formación de la nominalización deverbal y la nominalización deverbal regresiva, como: La nominalización deverbal (N -»V + Afn) la efectúan los sufijos -ada (helada), -ado (lavado), -aje (viraje), -(a, e)ncia (vagancia, asistencia), -(a, ie)nte (delineante, escribiente), -anza (cobranza), -(a, i)ción (recaudación, fundición), -(ad, id)era (regadera, escupidera), -(ed)eras (entendederas), -(ad, ed, id, and)ero (embarcadero, tendedero, hervidero, curandero), -(ad, ed, id)or (encuadernador, recogedor, surtidor), -(ad)ora (lavadora), -(ad, ed, id)ura (atadura, torcedura, añadidura), -(at)oria (eliminatoria), -ida (salida), -ido (ladrido), -(a, i)m(i)ento (juramento, acercamiento, atrevimiento), -imenta (impedimenta), -ón (tirón), -sión (comprensión), -ura (rotura). Juan Diego Gómez Fierros 21 | P á g i n a Capítulo 3. Estado del arte En este capítulo se presentan diversos trabajos relacionados con el aprendizaje ontológico, la recuperación y la extracción de información, los patrones lingüísticos y finalmente se muestran las diferentes herramientas existentes actualmente para la identificación de entidades espaciales en textos. Capítulo 3.- Estado del arte 3.1 Introducción Para los usuarios de la web en todo el mundo la recuperación de información se ha convertido en una actividad cotidiana. Sin embargo, los usuarios no siempre reciben la información esperada al momento de realizar una búsqueda en la Web. Una razón de esto es que los recursos web existentes son pocas veces complementados con la anotación semántica que describen su contenido, lo que haría más fácil el acceso a los servicios de búsqueda automatizada (Gaihua, Jones C, & Abdelmoty, 2005). La Extracción de Información (en inglés Information Extraction) es el campo del Procesamiento del Lenguaje Natural cuyo objetivo es extraer de forma automática de conocimiento estructurado, habitualmente dependiente del contexto, a partir de información existente en texto no estructurado en lenguaje natural, con el fin de mejorar su explotación y reutilización. Normalmente, como primer paso del proceso de extracción está el reconocimiento de entidades con nombre (en inglés Named Entity Recognition, NER), también conocido como identificación de entidades o extracción de entidades, que consiste, como su propio nombre indica, en la detección y clasificación de los elementos del texto en categorías predefinidas, como nombres de personas, organizaciones, lugares, expresiones numéricas, de tiempo, etc., que aparecen mencionadas en un texto escrito en un determinado idioma. Esta actividad también se suele denominar: etiquetado semántico. La dificultad de la detección estriba en que dichas entidades pueden aparecer en diferentes formas: por ejemplo, "Antonio Banderas" => "Banderas", "A. Banderas", "José Antonio Domínguez Banderas", etc.; "Banco Santander Central Hispano" => "Banco Santander", "Santander", "Grupo Santander", etc. Además, una vez detectadas, surge el problema de la ambigüedad para su clasificación, ya sea entre diferentes categorías o dentro de una misma categoría: por ejemplo, "Sevilla" puede ser la ciudad, el equipo de fútbol, etc. La aproximación ampliamente adoptada está basada en conocimiento, es decir, utiliza diccionarios y conjuntos de reglas, normalmente desarrollados de forma manual, para realizar la detección y la clasificación. Básicamente, las reglas aplican patrones de expresiones regulares a las entidades del diccionario para generar las diferentes variantes posibles en que puede aparecer una entidad, como por ejemplo: (N)ombre (A)pellido => Nombre / Apellido / N. Apellido / Nombre A. / N. A. Fernando Alonso => Fernando / Alonso / F. Alonso / Fernando A. / F. A. (A)aaa (de|del|la|los|las)? (B)bbb (de|del|la|los|las)? (C)cc (de|del|la|los|las)? (D)ddd => ABCD Organización de Países Exportadores de Petróleo => OPEP Juan Diego Gómez Fierros 23 | P á g i n a Capítulo 3.- Estado del arte Existen varias propuestas para automatizar el proceso de construcción de ontologías, las cuales tienen algunas características en común diferenciándose entre ellas por factores distintivos muy precisos. Esta sección presenta el estado del arte sobre métodos, técnicas, sistemas y herramientas que han sido desarrolladas en el área de aprendizaje de ontologías, de las cuales se analizan sus características. 3.2 Enfoques para aprendizaje ontológico Los enfoques de aprendizaje ontológico se pueden clasificar de acuerdo a los tipos de datos utilizados para el aprendizaje (Gomez & Manzano, 2003) y (Shamsfard & Barforoush, 2003). Estos tipos de datos son: no estructurados, semi-estructurados y estructurados. Los datos no estructurados son los textos en lenguaje natural, como libros, revistas, etc. Datos Semi-estructurados son textos como HTML, archivos XML. Mientras que los datos estructurados son las bases de datos y diccionarios. Nos vamos a concentrar en el aprendizaje ontológico en datos de tipos no estructurado y semi-estructurado. Los datos no estructurados son el tipo de datos más difícil para el aprendizaje ontológico. Se necesita más capacidad de procesamiento que en los datos semiestructurados. Los sistemas que se han propuesto para el aprendizaje a partir de texto no estructurado, a menudo dependen de procesadores de lenguaje natural. Algunos sistemas utilizan el procesamiento de textos poco profundos, con el análisis estadístico, como (Sánchez & Moreno, 2004) y otros utilizan un analizador basado en reglas, para identificar relaciones de dependencia entre las palabras, en lenguaje natural (Sabou, Wroe, Goble, & Mishne, 2005). El trabajo de (Cimiano, Hotho, & Staab, 2005) hace uso del etiquetador (part of speech tagger) del TreeTagger (Schmid, 1994) y del analizador LoPar2 (Schmid, 2000). En (Cimiano & Vaolker, 2005) se extraen ontologías a partir de texto en lenguaje natural utilizando un enfoque estadístico, el enfoque de patrones y un enfoque de aprendizaje automático mediante procesamiento lingüístico básico proporcionado por Text2onto. El PLN (Procesamiento de Lenguaje Natural) es común en todas las técnicas, por lo tanto, se clasificarán los diferentes enfoques en base a la técnica utilizada, además del PLN. Juan Diego Gómez Fierros 24 | P á g i n a Capítulo 3.- Estado del arte Primero se describen los sistemas que integran PNL, con el enfoque estadístico, los cuales, utilizan el recuento de la frecuencia de los sintagmas nominales y el nombre en los documentos recuperados de la web para descubrir los conceptos y las relaciones taxonómicas, mientras que por otra parte, utilizando el analizador superficial extraen frases nominales. La segunda sección describe los sistemas “puros” de PLN, que utiliza la gramática de dependencias y programas de análisis para descubrir la relación entre las entidades sintácticas. La tercera sección describe enfoques que incluye métodos de distintas disciplinas: recuperación de información, base de datos léxica (WordNet), aprendizaje máquina, además de la lingüística computacional. 3.2.1 Enfoque estadístico Sánchez y Moreno (Sánchez & Moreno, 2004) comienzan la construcción de la ontología usando palabras clave que están cerca a los conceptos de la ontología y estrechamente relacionados. Envían la palabra clave a los motores de búsqueda para recuperar las páginas relacionadas, a continuación, se realiza el análisis de estos sitios web para encontrar los conceptos candidato para un dominio. Esta palabra clave se utiliza para el aprendizaje de conceptos de las páginas devueltas por la recuperación de los bigramas que contienen la palabra clave en el segundo término. Por ejemplo, si la palabra clave es óptico y la palabra anterior inmediata es biosensor (biosensor óptico, por ejemplo), entonces biosensor óptico es un concepto candidato para óptico si tienen un tamaño mínimo y no es una “Stop Word” (palabra utilizada como indicativo para termino de búsqueda). La selección de los conceptos representativos dentro de los conceptos candidatos se toma de acuerdo a los siguientes atributos: Número total de apariciones (al analizar todos los sitios web) Número de sitios web diferentes que contienen el concepto Estimación del número de resultados devueltos por el motor de búsqueda al seleccionar solo la palabra anterior (por ejemplo, biosensor) Estimación del número de resultados devueltos por el motor de búsqueda al unirse al concepto seleccionado con la palabra clave inicial. Relación entre las dos últimas medidas. Solo los conceptos candidatos cuyos atributos se ajustan a un conjunto de restricciones especificadas (que es un rango de valores para cada parámetro) son seleccionados. Juan Diego Gómez Fierros 25 | P á g i n a Capítulo 3.- Estado del arte Este sistema utiliza términos contando el número de ocurrencia de las condiciones, para mejorar su rendimiento en el descubrimiento de conceptos, se consideran estos conceptos descubiertos, como nuevas palabras clave y se vuelve a ejecutar el proceso para descubrir sus conceptos hijos. Este proceso se repite de forma recursiva, hasta un nivel de profundidad seleccionado, el resultado obtenido es una jerarquía que se almacena en la ontología. 3.2.2 Enfoque lingüístico En (Sabou, Wroe, Goble, & Mishne, 2005) utilizan un conjunto de patrones sintácticos para descubrir las relaciones de dependencia entre las palabras. Su método de extracción explota las regularidades sintácticas inherentes a la naturaleza del sub-lenguaje de documentación de servicios web, el cual, es una forma especializada de lenguaje natural. Sus etapas de extracción en la ontología son: el análisis de la dependencia, patrones sintácticos, la construcción de la ontología y la poda de la misma. Usan un análisis de dependencia para identificar relaciones de dependencia entre las palabras en lenguaje natural. Una relación de dependencia es una relación binaria asimétrica entre una palabra llamada cabeza y una palabra llamada modificador. Por ejemplo, en la frase "Buscar sitios antigénicos de las proteínas", el "antigénico" es un adjetivo que modifica al sustantivo "sitios", y "sitios" es el objeto del verbo "buscar", a continuación, un conjunto de patrones sintácticos se utiliza para identificar y extraer información importante desde el corpus anotado, para la construcción de la ontología. Se definen tres grandes grupos / categorías de patrones que se utilizan para obtener diferentes tipos de información. El primer grupo se utiliza para identificar los conceptos de dominio. En este caso, los patrones de sintagma nominal y el sustantivo ("NN" y "NMod") se utilizan para descubrir los conceptos y las relaciones de dependencia entre ellos (como, <sitio antigénico> y <sitio>). El segundo grupo, se utiliza para la identificación de las funcionalidades que se ofrece con frecuencia en ese dominio, utilizando verbos para identificar la funcionalidad, llevada a cabo por un método y nombres estrechamente relacionados con estos verbos (como, <buscar> <sitio antigénico). Los últimos grupos se utilizan para la identificación de las relaciones con las frases preposicionales (PP) para identificar una relación de meronimia para los términos que se relacionan entre sí (como, “encontrar sitios antigénicos de las proteínas”, donde proteínas es la PP <sitios antigénicos> son parte de <proteínas>). Juan Diego Gómez Fierros 26 | P á g i n a Capítulo 3.- Estado del arte En (Cimiano, Hotho, & Staab, 2005) presentan un método automático para la adquisición de las taxonomías o jerarquías de conceptos a partir de un corpus textual. Su enfoque se basa en el análisis de conceptos formales que descubren las relaciones inherentes, entre los objetos que se describen a través de un conjunto de atributos y los atributos de ellos mismos (Ganter & Wille, 1999). En primer lugar, se analiza el corpus etiquetando las palabras por relaciones parte-de y generación de árboles de análisis para cada oración. El verbo/sujeto, verbo/objeto y verbo/preposición se extraen y se analizan las dependencias preposicionales de los árboles de análisis sintáctico, entonces, el verbo y las cabeceras se lematizan. Como la asunción de la totalidad de la información nunca se cumple, la colección de pares se afina. La afinación se lleva a cabo, mediante la agrupación de todos los términos que son mutuamente similares, con respecto a la medida de similitud en cuestión. Contando con más pares de atributos/objetos que se encuentran realmente en el texto, dará lugar a la obtención de frecuencias de cero para algunos pares de atributos/objeto que no aparecen literalmente en el corpus. El resultado global es una "afinación" del paisaje, mediante la asignación de frecuencia relativa de algunas frecuencias de valor cero, a las combinaciones de los verbos y los objetos que no se encuentra realmente en el corpus, por ejemplo, coches y bicicletas son mutuamente similares y por lo tanto las parejas que tengan cualquiera de ellos como atributos del verbo, se agrupan. Los pares objeto/atributo se ponderan con probabilidad condicional, punto de información mutua y la entropía relativa de las distribuciones anteriores y posteriores de un conjunto de pares para determinar "la fuerza selectivas" del verbo en una posición de argumento dado. Algunos pares durante un determinado umbral se transforman en un contexto formal al que se aplica el análisis de concepto formal para producir una ontología en forma de celosía (Figura 5). El análisis del concepto formal es un método basado en la teoría de la orden y se utiliza para el análisis de los datos, en particular, para descubrir las relaciones inherentes entre los objetos que se describen a través de un conjunto de atributos por un lado y los mismos atributos en el otro, el resultado se transforma de forma reticular a una forma de orden parcial que se acerca más a una jerarquía de conceptos (Figura 6). Juan Diego Gómez Fierros 27 | P á g i n a Capítulo 3.- Estado del arte Figura 5. Entramado de conceptos formales para el ejemplo, el turismo (Cimiano, Hotho, & Staab, 2005) Reservable Unibles Hotel Viaje Excursión Rentable Paseable Manejable Paseable Carro Bicicleta Figura 6. Jerarquía de conceptos ontológicos para el ejemplo, el turismo (Cimiano, Hotho, & Staab, 2005) 3.2.3 Enfoques híbridos Text2Onto (Cimiano & Vaolker, 2005) ayuda a los usuarios en la selección de un algoritmo de aprendizaje adecuado, para el tipo de ontología que quiere aprender. Juan Diego Gómez Fierros 28 | P á g i n a Capítulo 3.- Estado del arte Primero, el corpus se analiza para anotación “part-of-speech” y sus palabras derivadas, Text2Onto posee una librería de algoritmos para el aprendizaje de diferentes elementos de la ontología, estos elementos pueden ser, conceptos, herencia de conceptos, instancias, relaciones generales, relaciones de metrología (parte de, “Part of”) y equivalencia. Los algoritmos de aprendizaje de conceptos pueden variar si el enfoque se basa en el supuesto, de que la frecuencia de un término en un conjunto de textos de dominio específico indica ocurrencia de un concepto relevante. Así, se aprenden conceptos en base a las técnicas de Frecuencia de los Términos Relativos (RTF), TF/IDF (Frecuencia del Termino/Frecuencia Inversa del Documento), la entropía y el método C-value/NC-value (Frantzi, Ananiadou, & Tsuji, 1998). Para extraer el concepto de relaciones de herencia text2onto han puesto en marcha varios algoritmos en función de la explotación de la estructura de hiperónimos de WordNet, igualando los patrones de (Hearst, 1992) y la aplicación de las reglas heurísticas lingüística. Con el fin de aprender las relaciones en general, Text2Onto emplea una estrategia de análisis superficial para extraer sub marcos de categorización enriquecida con información sobre la frecuencia de los términos que aparecen como argumentos. El aprendizaje de relaciones de instancias de conceptos, se basa en un enfoque tomado de la similitud de extraer vectores de contexto para las instancias y los conceptos de la colección de textos y la asignación de instancias con el concepto correspondiente al vector con la mayor similitud, además, usa un patrón de coincidencia para el aprendizaje de instancias de conceptos. Las relaciones de equivalencia son aprendidas mediante la hipótesis de que los conceptos, son equivalentes en la medida en que comparten similares contextos sintácticos. Después de que el proceso de extracción de la ontología es terminado, la ontología se presenta al usuario para refinarla, finalmente, el usuario puede seleccionar entre los diferentes escritores de la ontología, que se ofrecen para la traducción de la ontología aprendidas en diferentes lenguajes de representación de ontologías. 3.2.4 Enfoque basado en patrones lingüísticos El estudio de la búsqueda de los mencionados patrones es todavía una vía de investigación muy reciente y por eso, el número de trabajos que se han llevado a cabo sobre este tema es muy reducido. Además de esta escasa cantidad de estudios, también es importante subrayar que el número de lenguas de reconocimiento internacional con las que se ha trabajado aún es menor, reduciéndose únicamente al inglés, al francés y al español. Juan Diego Gómez Fierros 29 | P á g i n a Capítulo 3.- Estado del arte Los estudios de (Ahmad & Fulford, 1992), (Pearson, 1998) y (Meyer, 2001), que aparecen citados en la obra de (Marshman, Morgan, & Meyer, 2002), son algunas de las investigaciones más desarrolladas sobre patrones en inglés de las que se tiene constancia. Junto a estos estudios en inglés, también podemos destacar los realizados para el francés por el grupo de trabajo cogniterm de la Universidad de Ottawa, en la que se enmarcan los trabajos de investigación de (Davidson, 1998) y (Morgan, 2000). Además del anterior grupo, igualmente cabe prestar atención a las investigaciones de (Condamines & Rebeyrolle, 2001) en la búsqueda de patrones lingüísticos que detecten relaciones semánticas. En España, el grupo oncoterm: Sistema bilingüe de información y recursos oncológicos, con miembros de varias universidades españolas, trabaja asimismo en esta línea de investigación aunque su finalidad es la de crear una ontología de dominio en el área de la oncología. En (Faber & Jiménez, 2002), este grupo hace un repaso a los objetivos principales del proyecto y a los logros conseguidos. En al área de los trabajos que utilizan patrones lingüísticos existen dos grandes enfoques los cuales se describen en los puntos siguientes. 3.2.4.1 Patrones construidos manualmente El uso de patrones para la extracción de relaciones semánticas fue propuesto por (Hearst, 1992). En ese trabajo se presenta un método que utiliza, inicialmente, tres patrones lexico-sintacticos construidos manualmente para extraer hipónimos. Los tres patrones utilizados son mostrados en la siguiente lista: ▪ NP0 such as {NP1, NP2 …, (and | or )} NPn ▪ such NP as {NP,}*{(or |and)} NP ▪ NP {,NP}* {,} or other NP En estos patrones, cuando una relación de hiponimia es descubierta entre dos frases nominales, se realiza un proceso de lematización para relacionar únicamente las formas bases de las palabras. En (Hearst, 1992) se plantea, por primera vez, un interesante mecanismo para descubrir semiautomáticamente nuevos patrones. Es decir, a partir de los patrones mencionados anteriormente se realiza un proceso, que aunque manual, permite extraer nuevos patrones. A través de este mecanismo (Hearst, 1992) descubre tres patrones más: Juan Diego Gómez Fierros 30 | P á g i n a Capítulo 3.- Estado del arte ▪ NP{, NP}*{,} and other NP ▪ NP{,} including {NP , }*{or | and} NP ▪ NP{,} especially {NP ,}*{or | and} NP De acuerdo con (Hearst, 1992), los patrones que descubrió satisfacían los siguientes requisitos: ▪ Ocurrir frecuentemente y en una gran variedad de géneros de texto. ▪ Indicar la relación de interés. ▪ Ser reconocidos sin o con poco conocimiento pre-codificado. Generalmente, los patrones creados de forma manual son muy precisos. No obstante, el lenguaje es tan variado y existen numerosas formas de introducir dos palabras que mantienen una relación. Después de la propuesta de Hearst, han surgido varios trabajos de investigación que aprovechan patrones creados manualmente para extraer hipónimos. Por ejemplo: (Mann, 2002) aprovechó el uso de patrones léxicos-POS creados por observación para obtener instancias de la relación de hiponimia entre nombres propios. En (Fleischman, Hovy, & Echihabi, 2003) se propone un esquema similar al de (Mann, 2002). Pero se extiende el número de patrones utilizados en relación al trabajo de Mann. Además, también se integran técnicas de aprendizaje automático para filtrar las instancias extraídas. Se requeriría mucho esfuerzo si se intentara construir manualmente los patrones suficientes para describir las entidades espaciales. Este inconveniente ha motivado el desarrollo de investigaciones enfocadas a descubrir patrones de manera semi-automática. 3.2.4.2 Patrones construidos automáticamente A partir de las ideas de (Hearst, 1992) otros trabajos exploraron métodos automáticos para el descubrimiento de patrones. Básicamente, estos métodos parten de un conjunto de parejas de palabras que mantienen la relación deseada, conocidas comúnmente como semillas. Enseguida, se identifican los fragmentos de texto en donde aparecen dichas semillas y, finalmente, se generalizan dichos fragmentos para obtener los patrones de extracción. Juan Diego Gómez Fierros 31 | P á g i n a Capítulo 3.- Estado del arte En los siguientes párrafos se mencionan algunos ejemplos de trabajos que utilizan métodos de este tipo. Inicialmente, (Pasca, 2004) parte de patrones elegidos manualmente, los cuales resume en el siguiente patrón: < [StartOfSent] X [such as|including] N [and | , | .]> Con este patrón se extrae un conjunto de instancias de la relación de hiponimia. Enseguida, utiliza un mecanismo que permite descubrir nuevos patrones. De esta manera, los patrones nuevos aumentan el número de las instancias extraídas. En (Pantel, Ravichandran, & Hovy, 2004) se presenta un algoritmo para aprender automáticamente y a gran escala, patrones lexico-sintacticos en múltiples niveles (nivel léxico y nivel POS). En ese trabajo se menciona la importancia de delimitar los patrones léxicos a través de etiquetas de partes de la oración. En (Pantel & Pennacchiotti, 2006) se presenta un algoritmo para extraer relaciones semánticas. Este algoritmo toma como entrada un conjunto de semillas de una relación semántica en particular, para extraer instancias pertenecientes a esa relación. El mecanismo iterativo que se maneja en ese trabajo, permite aprender patrones lexicosintacticos en cada iteración. En consecuencia, se aumenta el conjunto de instancias a la salida. Por último, en ese trabajo evalúan la confianza de las instancias y de los patrones con base en la información mutua que existe entre patrones e instancias de la relación. Ahora bien, la ventaja de los métodos que se basan en patrones es que son muy confiables. Por ejemplo, en (Pantel & Pennacchiotti, 2006) se reporta una precisión de 85% sobre una muestra aleatoria de 20 instancias de un total de 200 instancias. Sin embargo, la desventaja principal de estos métodos es que necesitan un corpus muy grande para encontrar suficientes patrones de todas las formas posibles. En particular, la presente tesis se ubica dentro de este grupo de trabajos. Específicamente, se propuso un método que se basa en el uso de patrones descubiertos de manera semiautomática. Así pues, el método propuesto está orientado a extraer entidades espaciales y/o tomar otras entidades de una BD definida previamente. El método inicia con un conjunto de “semillas” (oraciones con entidades espaciales) que permiten descubrir un conjunto de patrones léxicos de extracción. Enseguida, los patrones se aplican sobre noticias extraídas de la Web. Finalmente, se estima la confianza de los patrones observando los resultados obtenidos y mediante medidas comunes de evaluación como precisión y recuerdo. Juan Diego Gómez Fierros 32 | P á g i n a Capítulo 3.- Estado del arte Tabla 1 Ccomparativa entre enfoques Tipo de enfoque Autores más representativos Forma de trabajo Efectividad / Técnicas empleadas Estadístico (Sánchez & Moreno, 2004) Usando palabras clave que están cerca a los conceptos de la ontología y estrechamente relacionados. Envían la palabra clave a los motores de búsqueda para recuperar las páginas relacionadas, a continuación, se realiza el análisis de estos sitios web para encontrar los conceptos candidato para un dominio. Esta palabra clave se utiliza para el aprendizaje de conceptos de las páginas devueltas por la recuperación de los bigramas que contienen la palabra clave en el segundo término Depende directamente con el número de palabas clave, la representación de estas de acuerdo al dominio y los documentos recuperados de la web Lingüístico (Sabou, Wroe, Goble, & Mishne, 2005), (Cimiano, Hotho, & Staab, Learning Concept Hierarchies from Text Corpora using Formal Concept Analysis., 2005) y (Ganter & Wille, 1999) Conjunto de patrones sintácticos para descubrir las relaciones de dependencia entre palabras. Basada en la efectividad de los patrones. Extraen automáticamente las taxonomías o jerarquías de conceptos a partir de un corpus textual. Análisis de conceptos formales que descubren relaciones y conjunto de atributos representativos del texto (Cimiano & Vaolker, 2005) Mediante la herramienta Text2Onto la cual ayuda a los usuarios en la selección de un algoritmo de aprendizaje adecuado para el tipo de ontología que quiere aprender. Algoritmos de aprendizaje de conceptos basados en las técnicas de Frecuencia Relativa de los términos (RTF) y TF/IDF. Hibrido Explotación de la estructura de hiperónimos de WordNet, igualando los patrones de Hearst y la aplicación de reglas heurísticas lingüísticas. Basado en patrones extraídos manualmente (Hearst, 1992) Uso de patrones para la extracción de relaciones semánticas, específicamente para extraer hipónimos. Se realiza un proceso de lematización para relacionar únicamente las formas bases de las palabras. Basado en patrones extraídos automáticamente (Pantel, Ravichandran, & Hovy, 2004), (Pantel & Pennacchiotti, 2006) Se presentan 2 algoritmos, el primero aprender automáticamente y a gran escala, patrones léxico-sintácticos, el segundo extrae relaciones semánticas. Se toma como entrada un conjunto semilla de una relación semántica en particular, para extraer instancias pertenecientes a esa relación. Trabajo de Tesis No Aplica Uso de patrones, herramientas (Calais) y recursos(BD) para la extracción de entidades espaciales (instancias) Reconocimiento de entidades por parte de la herramienta Calais, la BD y los patrones lingüísticos. Juan Diego Gómez Fierros 33 | P á g i n a Capítulo 3.- Estado del arte 3.3 Herramientas En este apartado se mencionarán las principales herramientas existentes para la categorización de entidades, se tomaron en cuenta solo las herramientas que identifican entidades geográficas, ya que estas entidades fueron de importancia para el desarrollo de esta tesis. 3.3.1 OpenCalais Open Calais es un servicio web de Thomson Reuters que permite la extracción de entidades, hechos y eventos de texto libre en inglés, francés y español. Su versión en inglés es la que presenta una mayor funcionalidad, si bien en español permite: reconocimiento y categorización de entidades usando 15 clases de entidades evaluación de la relevancia de entidades desambiguación y enlazado con Linked Open Data para algunos tipos como Company Open Calais ofrece un API sencillo que puede ser usado mediante SOAP, REST vía HTTP POST, o HTTP POST. Como entrada permite documentos de distintos formatos (HTML, HTMLRAW, XML y texto). Además de la etiquetación semántica el servicio incluye la eliminación de cabeceras y otros elementos en HTML así como la detección de idioma. Como salida ofrece la elección de varios formatos XML/RDF, texto, texto con micro formatos o JSON. Los formatos XML/RDF y JSON incluyen URIs derreferenciables que pueden enlazar con una tercera fuente de conocimiento, típicamente Linked Data. Para la definición de todas las clases utilizadas en Open Calais existe tanto un esquema RDFS como una ontología OWL. Juan Diego Gómez Fierros 34 | P á g i n a Capítulo 3.- Estado del arte Figura 7. Clasificación de entidades en Open Calais 3.3.2 AlchemyAPI AlchemyAPI utiliza la tecnología de procesamiento de lenguaje natural y algoritmos de aprendizaje automático para analizar el contenido de un texto, extracción semántica de metadatos: información sobre personas, lugares, empresas, temas, idiomas y mucho más. Para la extracción de nombres de entidades entre las cuales se identifican a las personas, empresas, organizaciones, ciudades, lugares geográficos y otras entidades contenidas dentro de una página HTML o en un documento de texto. Esta herramienta cuenta con un reconocimiento avanzado de nombres de entidades (NER), la capacidad de funcionar en varios idiomas y ofrece capacidades completas de desambiguación. El etiquetado de conceptos se realiza de manera automática de forma similar a como lo realizamos los seres humanos, posee una capacidad avanzada para el marcado de concepto, el cual, es capaz de hacer abstracciones ("Hillary Clinton + Barbara Bush + Laura Bush == Primeras Damas de los Estados Unidos"), la anotación en los documentos cuenta con altos índices de exactitud. AlchemyAPI, extrae los términos más importantes y las palabras clave "tema" de las páginas HTML y documentos de texto. Utiliza algoritmos avanzados estadísticos y lingüística para analizar el contenido, "marcando" las palabras y las frases más importantes. Identifica los sentimientos positivos, negativos y neutrales dentro de las páginas HTML y documentos de texto, brindando apoyo para la extracción de documentos a nivel de sentimiento, a nivel de entidad y a nivel de palabra clave. Identificar los hechos y las relaciones sujeto-objeto-acción dentro de las páginas HTML y documentos de texto. Presta apoyo para la extracción de sentimiento, sujeto y objeto. Automáticamente clasifica los temas de las páginas web y documentos de texto. Juan Diego Gómez Fierros 35 | P á g i n a Capítulo 3.- Estado del arte Posee la capacidad de clasificación de documentos proporcionando una rápida clasificación de la taxonomía para su contenido no estructurado. Se puede determinar el idioma del texto original en AlchemyAPI, ya que tiene la capacidad de identificación del lenguaje, identifica 97 idiomas diferentes de forma automática, filtra y organiza la información por el idioma. AlchemyAPI es capaz de extraer datos estructurados (precios, descripciones de productos, etc.) de cualquier página web. El empleo de avanzadas restricciones visuales, permiten a AlchemyAPI extraer datos estructurados en función de las características visuales y estructurales, tales como etiquetas de texto, la posición, etc. Identificar los "microformatos" de datos estructurados dentro de cualquier página web. Analizar y extraer información de sus coordenadas en formato hCard, información de contacto, Geo-formato latitud / longitud. Figura 8. Extracción de entidades en AlchemyAPI 3.3.3 Extractiv Extractiv ofrece dos servicios principales: Rastreo de la Semántica en páginas Web y Semántica “On-Demand”. Ambos servicios ofrecen la conversión automática de los contenidos en la estructura semántica de datos, pero se diferencian en los tipos de documentos y tareas para las que son las más adecuadas. El servicio de Rastreo de la Semántica en páginas Web, permite rastrear millones de páginas web y convertir cualquier contenido estructurado encontrado en las páginas, en los datos semánticos. Cuando se ejecuta un rastreo de Semántica en páginas Web, se establecen los siguientes parámetros: Juan Diego Gómez Fierros 36 | P á g i n a Capítulo 3.- Estado del arte ¿Qué Direcciones URL se extraerán? ¿Qué entidades se extraerán al analizar las páginas web? ¿Qué relaciones entre las entidades se desea extraer? Los filtros para especificar los tipos de páginas web que desea analizar. ¿Qué formato se desea para mostrar los resultados (JSON, en línea)? El extractor Extractiv está construido en base a una potente plataforma de distribución, que permite el proceso Extractiv más de 100.000 documentos por hora. El procesamiento del lenguaje natural (PLN) que se ejecuta con este rastreo, proporciona la extracción de información de forma precisa. En la parte de semántica “On-Demand”, se ofrece la conversión semántica automática para el procesamiento de documentos específicos, pudiendo ser aquellos documentos contenidos en la propia computadora. Utilizando el API REST On-Demand, se pueden cargar y procesar tantos documentos como se desee. Cuando se ejecuta la semántica “On-Demand”, se proporciona: Un solo documento o URL que se desea procesar. Resultados en el formato que desee (JSON, RDF, en línea). Un Extractiv API Token Se puede utilizar la API REST con el navegador web, a través del propio código o a través de la línea de comandos. Extractiv genera anotaciones semánticas para los documentos con la mínima intervención del usuario. Extractiv proporciona datos y semántica de manera eficiente. Al evaluar diferentes servicios semánticos, se puede considere lo siguiente: Extractiv ofrece 150 tipos de entidades La página web puede procesar miles de documentos cada minuto Cuenta con una avanzada tecnología de PLN para extraer las entidades con mayor precisión El servicio está disponible por un acceso mensual bajo o por pago según su uso Juan Diego Gómez Fierros 37 | P á g i n a Capítulo 3.- Estado del arte Figura 9. Extracción de entidades en Extractiv 3.3.4 STILUS NER La tecnología presente en esta herramienta, permite el reconocimiento avanzado de entidades desconocidas que podrían ser entidades con nombre, que el sistema propone como sugerencias de posibles entidades: por ejemplo, "D. Aaaaa Bbbbb de Ccccc" puede ser un nombre de persona, "Banco Ddddd" una organización, "paseo de Eeeee" un lugar, etc. La principal desventaja de este enfoque es el gran costo de desarrollo y mantenimiento de los recursos necesarios y el hecho de que estos recursos son altamente dependientes del dominio y del idioma. Por lo tanto, han surgido diversas aproximaciones basadas en aprendizaje automático, que hacen uso de colecciones de texto etiquetado manualmente como entrenamiento para generar automáticamente estos recursos y construir modelos de detección y clasificación. Existe una versión de demostración (Figura 10) la cual está basada en STILUS NER, componente de la familia STILUS de productos de tecnología lingüística, que ofrece funcionalidad para el etiquetado semántico de textos a partir de diccionarios de entidades con nombre. El proceso es el siguiente: 1. Se realiza la segmentación del texto en unidades (palabras o entidades multipalabra). Juan Diego Gómez Fierros 38 | P á g i n a Capítulo 3.- Estado del arte 2. Se marcan como entidades candidatas aquellas unidades que aparezcan en alguno de los diccionarios de entidades del sistema, tal cual aparece en el texto o como una variante. Si para una forma se tiene más de una entidad candidata, se realiza una desambiguación basada en heurísticas, como la frecuencia de aparición de la entidad en el texto (Castro se marcará como Fidel Castro si en el texto aparece este nombre y no Raúl Castro. La presencia de marcadores discursivos (por ejemplo, a+LOCATION y artículo+ORGANIZATION, a Madrid se desambigua como la ciudad y el Madrid como el equipo de fútbol), desambiguación geográfica por contexto (según las referencias geográficas que aparezcan), etc. Como resultado del proceso se tienen las entidades que aparecen en la noticia así como su tipo y posición en el texto. Figura 10. Etiquetado de entidades en STILUS NER 3.3.5 ZEMANTA Zemanta es una herramienta que nos permite, al momento de generar contenido para blogs, complementar entradas con etiquetas, enlaces y fotos sugeridas, esto gracias a su base de datos interna ya que realiza una búsqueda en el texto de la entrada que se crea. Podemos utilizar esta herramienta en todos los blogs de WordPress, Blogger, Drupal, Joomla y más. Una vez que se configura de manera adecuada, aparecerá un nuevo widget en la página de creación de nuevas entradas, desde ahí se podrá ir complementando el contenido creando. Esta extensión para múltiples navegadores, como Firefox, Chrome, IE, Safari, permite enriquecer los post con imágenes relevantes o enlaces que va encontrando a media que se escribe la entrada. Juan Diego Gómez Fierros 39 | P á g i n a Capítulo 3.- Estado del arte Figura 11. Extracción de entidades en ZEMANTA 3.3.6 Comparativa entre herramientas Se realizó una comparativa entre las diferentes herramientas ya que se planeaba utilizar la que presente mejores resultados, la cual trabajare en conjunto con los demás métodos del prototipo final. En la tabla 2 se observan las diferentes características que presentan las herramientas existentes en el mercado, solo se analizaron las que podrían ser candidatas a formar parte del prototipo de la metodología: Tabla 2. Comparativa entre herramientas Herramienta STILUS Ner Precisión 0.931 Exhaustividad 0.675 Medida F 0.7825 Libre Si pero restringido Comercial SI Calais Extractiv 0.928 0.65 0.779 0.884 0.575 0.6967 SI Si pero restringido SI SI Alchemy 0.909 0.5 0.645 Si SI API´s On-line .NET Java Ruby PHP On-line Android Java Perl Ruby Python PHP c/c++/c# Se puede observar que la herramienta STILUS Nerv es la que muestra el mayor nivel de Precisión y Exhaustividad, pero no cuenta con un una versión libre que nos ofrezca toda su funcionalidad, por lo tanto, se eligió la herramienta Calais la cual presenta unos valores aceptables de Precisión y Exhaustividad (Recuerdo) y cuenta con una API libre que Juan Diego Gómez Fierros 40 | P á g i n a Capítulo 3.- Estado del arte proporciona la toda su funcionalidad solo restringiéndose el número de consultas por día de su versión de pago. Una gráfica representativa de los datos mostrados en la tabla anterior, se puede observar en la figura 12, en la cual se pueden comprobar los niveles de las diferentes medidas estadísticas, las cuales nos indican cual herramienta presenta un mayor nivel de confianza. La precisión nos indica cuantas entidades espaciales son reconocidas del total de entidades espaciales presentes en el texto, la exhaustividad (recuerdo) indica el número de entidades espaciales relevantes del total de entidades espaciales y finalmente la medida F indica el valor promedio entre Precisión y Recuerdo. 1 0.95 0.9 0.85 0.8 0.75 0.7 0.65 0.6 0.55 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 CALAIS Alchemy Extractiv Stilus NER Precisión Exhaustividad Medida F Figura 12. Gráfica comparativa de las herramientas Juan Diego Gómez Fierros 41 | P á g i n a Capítulo 4. Metodología de solución En este capítulo, se presenta la metodología empleada la cual está compuesta por tres etapas principales. En la primera etapa se introduce un texto plano con etiquetas de eventos; posteriormente en la etapa 2, se aplican al texto diferentes métodos para el reconocimiento de entidades espaciales (Calais, BD y Patrones); finalmente en la etapa 3 se instancia la ontología OntoEspacio con las entidades espaciales reconocidas y OntoEvento con las tripletas <evento>tiene_espacio<espacio>. Capítulo 4.- Metodología de solución 4.1 Identificación de patrones La búsqueda y extracción de información en Internet juega un papel relevante para la lexicografía y la terminología actual, lo que ha llevado a implementar nuevos métodos y técnicas para acceder a esta información (Llisterri, 2003), (Águila, 2006), (Rojo, 2008). Muchos de estos métodos y técnicas son híbridos, pues emplean el conocimiento aportado por la lingüística, la estadística y las ciencias computacionales para resolver tareas como la construcción de diccionarios electrónicos (Wilks, Slator, & Guthrie, 1996), terminologías (Cabré, Estopà, & Vivaldi, 2001) o redes léxicas (Fellbaum, 1998), por mencionar algunos recursos relevantes. La presente tesis se posiciona en el área de la extracción de información y su objetivo principal consiste en delimitar un método de extracción de entidades espaciales usando un conjunto de patrones lingüísticos propios del español. Básicamente, el método propuesto en esta investigación aplica dichos patrones a noticias recopiladas de Internet (textos no estructurados) y se detecta automáticamente un conjunto de entidades espaciales. Las entidades espaciales que se localizan en los textos noticiarios, pueden aparecer en alguno de los formatos definidos en la siguiente tabla: Tabla 3. Formato de las entidades espaciales en textos de noticias Forma de la entidad espacial Geográfico Urbano México, Asia, África (calais, Calle mayor, Puerta del sol, (patrones con Nombre propio BD) artículos) Bosque, rio, desierto (Bolsa Plaza, parque, mercado, cárcel. (Bolsa de Nombre común de palabras acotada) palabras acotada) Centro américa, suroeste de Centro de la ciudad, al norte del estado, a Regiones España, en los límites con espaldas de la colonia Lomas, las Toluca, en la región del inmediaciones del estadio Morelos, el World Usumacinta (patrones con Trade Center, en el sur de la ciudad de artículos) México. (patrones con artículos) N/A Latitud, longitud, etc. Interior Internado Palmira S/N, Col. Palmira Dirección (Patrones) Cuernavaca, Morelos. (Patrones) a lo largo de las costas del el tramo del aeropuerto al Periférico No delimitadas Pacífico Mexicano… (Marcadores lingüísticos, sinónimos de “el (Marcadores, lingüísticos tramo”) sinónimos de “a lo largo”) En la tabla 3 se observan las diferentes formas de las entidades espaciales y algunos ejemplos geográficos y urbanos, después de los ejemplos, se coloca el método, herramienta o recurso utilizado para resolver ese tipo de problema, el cual aparece entre paréntesis. Uno de los trabajos más conocidos dentro de los enfoques basados en patrones es el realizado por (Hearst, 1992), quien fue precursora en el uso de patrones para extraer instancias de relaciones semánticas. Juan Diego Gómez Fierros 43 | P á g i n a Capítulo 4.- Metodología de solución En su trabajo se propone un esquema basado en el uso de patrones lexico-sintacticos. Desde entonces, ese trabajo ha sido la base de varias investigaciones relacionadas con la extracción automática de hipónimos. De ahí que la información sintáctica sea ampliamente utilizada. Sin embargo, los métodos que usan información sintáctica dependen de herramientas lingüísticas como: etiquetadores de partes de la oración, analizadores morfológicos y sintácticos, etc. Dichas herramientas están limitadas a tratar idiomas específicos. Por tanto, la adaptación de estos métodos a otros idiomas, no es una tarea fácil. Siguiendo el enfoque planteado por (Hearst, 1992), consideramos el uso de patrones léxico-sintácticos para llevar a cabo el proceso de extracción. Este enfoque parte de la idea de que en una lengua existe esta clase de patrones, los cuales permiten expresar entidades espaciales dentro de un texto. A continuación se presenta una descripción general del método propuesto para extraer automáticamente entidades espaciales en texto no estructurado. Primero, se presentan las características que distinguen al método propuesto de otros que han abordado este problema. Posteriormente, se presenta la arquitectura general del método. Dicha arquitectura se compone de dos etapas. La primera etapa está enfocada a recuperar un conjunto de oraciones de noticias con acciones ocurridas en alguna entidad espacial. Por otra parte, la segunda etapa está orientada a definir esquemas que permitan estimar la confianza de los patrones definidos. 4.1.1 Características del método Generalmente, los trabajos basados en el uso de patrones para extraer hipónimos automáticamente se han enfocado al descubrimiento de entidades léxico-sintácticas. Este tipo de patrones tienen un alto nivel de generalización. Es decir, con un único patrón se pueden capturar muchas de las formas posibles que expresan una relación de hiponimia. Por ejemplo, el siguiente patrón léxico sintáctico: NP {NP,} * {,} y otros NP Encierra en la etiqueta NP un abundante conjunto de las maneras posibles de crear una frase nominal, y también se tiene la posibilidad de lematizar las frases para trabajar sólo con las formas base de las palabras. De ahí que los patrones léxico-sintácticos tengan un nivel de generalización muy grande. Juan Diego Gómez Fierros 44 | P á g i n a Capítulo 4.- Metodología de solución Así mismo, los patrones léxico-sintácticos tienden a ser precisos. Es decir, tienen una alta capacidad de extraer correctamente un par de palabras que mantengan la relación deseada. Sin embargo, no están exentos de extraer información incorrecta. Por ello, algunos métodos automáticos que trabajan con patrones léxico-sintácticos (por ejemplo: (Pantel & Pennacchiotti, 2006) y (Ravichandran & Hovi, 2002) evalúan la confiabilidad de sus patrones y únicamente usan aquellos más confiables. Además, la construcción de estos patrones no es sencilla, pues se depende de herramientas lingüísticas (por ejemplo, analizadores sintácticos, etiquetadores de partes de la oración, etc.). Por lo tanto, el método que se propone en este trabajo de investigación trata también con patrones expresados en un nivel léxico-sintáctico. Como ya se observó en el capítulo 3 sección 3.2.4, para construir este tipo de patrones se depende de herramientas como etiquetadores o analizadores sintácticos, ya que incluyen información morfológica y sintáctica. Básicamente, estos patrones surgen de relacionar palabras (unidades léxicas) con su información sintáctica, logrando de esta manera patrones que tienen un alto nivel de generalización. 4.1.2 Metodología para extracción de patrones En la figura 13 se ilustra la arquitectura general del método propuesto para la identificación y posterior extracción de patrones. Se observa que el método consta de dos etapas. La etapa 1 utiliza una herramienta de análisis textual de nombre AntConc (Laurence, 2011), la cual nos muestra la estructura que compone ciertas oraciones, permitiendo de este modo diseñar patrones acordes a los textos con un alto nivel de generalización. En la etapa 2 se analizan las estructuras extraídas de la etapa anterior, para definir patrones relevantes, de los cuales se realizaran unas pruebas de confiabilidad en estos para finalmente solo contar con los patrones que nos permitan extraer la mayor cantidad de entidades espaciales. Juan Diego Gómez Fierros 45 | P á g i n a Capítulo 4.- Metodología de solución Figura 13 Arquitectura general del método propuesto para la extracción de patrones A partir de la arquitectura mostrada, se observa que el método parte de un conjunto de corpus, el cual representa diversas formas de aparición de entidades espaciales (ver tabla 3). Este corpus se introduce a la herramienta AntConc (Laurence, 2011), la cual extrae las estructuras de las diferentes oraciones presentes en el corpus. Posteriormente, se analizan estas estructuras para definir patrones y se evalúan estos patrones, para, finalmente seleccionar sólo los patrones, más representativos y con mayor cantidad de éxito en la extracción de las entidades espaciales. 4.1.3 Extracción de patrones léxicos En esta sección, se muestra la implementación de los pasos descritos en el método para la extracción de patrones léxicos, mostrado en el punto anterior: 1.- El corpus utilizado contiene párrafos tomados de textos de noticias extraídas de la web, en los cuales se etiquetaron las entidades espaciales, por ejemplo: En <espacial>el municipio de Tlaxcoapan</espacial> fueron atendidas dos personas… Mediante una herramienta desarrollada en (Reyes, 2011) se extrajeron los verbos principales para catalogarlos como verbos espaciales y también se extrajo una lista con todas las entidades espaciales etiquetadas. Juan Diego Gómez Fierros 46 | P á g i n a Capítulo 4.- Metodología de solución 2.-Con la ayuda de la herramienta AntConc se puede observar en la Figura 14 la estructura de composición de las entidades espaciales: Figura 14. Entidades espaciales Como se observa, una entidad espacial está compuesta de diferentes formas no siendo homogénea y variando en sus componentes léxicos. Otras de las opciones disponibles en la herramienta (AntConc), muestra el número de frecuencia de aparición de determinado patrón en las entidades espaciales: Juan Diego Gómez Fierros 47 | P á g i n a Capítulo 4.- Metodología de solución Figura 15. Estructura de entidades espaciales Se puede observar en la figura 15, la estructura que compone a las entidades espaciales que comienzan con “<espacial>el” es muy variada pudiendo llevar antes una preposición (en, a, por) un verbo espacial (visitó, recorrió), siendo obligatorio un análisis de estas estructuras para poder definir un patrón adecuado en el que se engloben la mayoría de las entidades espaciales. 4.2 Selección de patrones relevantes Mediante un análisis exhaustivo sobre la composición de las entidades espaciales se definió el siguiente patrón para definir la estructura de una entidad espacial: Juan Diego Gómez Fierros 48 | P á g i n a Capítulo 4.- Metodología de solución Dónde: FNP: Entidad espacial en su forma normal DT: Determinante, particularmente los artículos (el, la) N: Nombre Propio (NP) o Nombre común (NC) Prep: Preposición Adj: Adjetivo ?: 0 ó 1 Ocurrencia +: 1 ó varias ocurrencias *: 0 ó varias ocurrencias A continuación se muestran ejemplos de entidades espaciales extraídos con el patrón definido anteriormente: Palabras en el texto Lema Categoría La Calle el calle DA0FS0 NCFS000 Palabras en el texto Lema Categoría Palabras en el texto Lema Categoría Palabras en el texto Lema Categoría Palabras en el texto Lema Categoría Palabras en el texto Lema Categoría El Melchor_Ocampo melchor_ocampo NP00000 Valencia Valencia NP00000 Una laguna Uno laguna DI0FS0 NCFS000 El estado de Chihuahua el estado de DA0MS0 NCMS000 SPS00 el municipio de el municipio de DA0MS0 NCMS000 SPS00 estado sureño El estado sureño DA0MS0 NCMS000 AQ0MS0 chihuahua NP00000 Cuernavaca cuernavaca NP00000 de Guerrero de SPS00 guerrero NP00000 Aunque el patrón cumple la mayoría de las entidades espaciales, existen otras que no son tomadas en cuenta, tales como: Unos 320 kilómetros al sureste de la Ciudad de México Juan Diego Gómez Fierros 49 | P á g i n a Capítulo 4.- Metodología de solución La ciudad fronteriza de Tijuana, Baja California Calles del municipio de Montemorelos Un conocido rodeo de Tlalnepantla, Estado de México Una céntrica plaza de la ciudad de Cali El oriental estado mexicano de Veracruz Algunas de estas entidades espaciales podrán ser descubiertas mediante el uso de otros patrones, ya que el patrón que se especificó anteriormente es utilizado para reconocer el “núcleo” de una entidad espacial y solamente es aplicado cuando la entidad espacial no sea reconocida por otros métodos disponibles. A continuación se muestran los patrones definidos, los cuales reconocen la mayoría de entidades espaciales, ya sean urbanas (calles, edificios, parques, etc.) o naturales (bosques, lagos, mares, etc.): Patrón 1: ? ? Clases urbanas de la Ontología con sinónimos En el patrón1 se observa un componente denominado MarcLing1, el cual define las entidades urbanas que corresponden con las clases de la ontología espacial y sus sinónimos. Algunos ejemplos obtenidos con este patrón son: Fueron encontrados los restos de siete personas en la calle Himno Nacional en el municipio de Ecatepec… Fueron baleados en un taller mecánico ubicado en la calle Capulín de Ciudad Juárez… Patron2: Clases Naturales de la Ontología con sinónimos En el patrón2 al igual que el patron1, utiliza un componente de nombre MarcLing2, el cual define las entidades naturales que corresponden con las clases de la ontología y sus sinónimos. Algunos ejemplos de extracción con este patrón son: Juan Diego Gómez Fierros 50 | P á g i n a Capítulo 4.- Metodología de solución Se registra nuevo incendio en el Bosque de La Primavera… Fue en el lago de Valle de Bravo, en el Estado de México, donde tuvo su primer acercamiento con esta práctica deportiva. Es los dos patrones siguientes se definen las coordenadas geográficas las cuales al ser identificadas en una noticia, serán tomadas en cuenta como el lugar de ocurrencia de un evento. Ejemplos: 25°43′00″ latitud Norte, 115°29′00″ longitud Este, 23 00 N, 102 00 O, 3 14’26’’ W 4.3 Aplicación de los patrones Como ya se ha visto, la implementación de patrones dentro de la metodología de solución es un hecho, por lo tanto, el modelo general de solución propuesto incluye el uso de estos como se observa en la figura 16: Figura 16. Modelo general de solución Juan Diego Gómez Fierros 51 | P á g i n a Capítulo 4.- Metodología de solución En una noticia obtenida de la web en texto plano se etiquetan los eventos con la herramienta de (Reyes, 2011), posteriormente en el texto se extraen la entidades espaciales reconocidas mediante la herramienta Calais y una base de datos espacial que contiene países y ciudades del mundo, si alguna entidad espacial no es reconocida por Calais o por la BD se procede al siguiente paso, el cual mediante el uso de patrones obtiene entidades espaciales y además se define el par Evento – Espacio para finalmente obtener las tripletas que son necesarias para poblar la ontología espacial. Fracción de texto de Noticia En el estado de Coahuila, seis personas fueron asesinadas… 4.4 Texto etiquetado Reconocimiento de entidades espaciales En <espacial>el La entidad estado de espacial Coahuila</espacial>, etiquetada cumple seis personas fueron con el patrón que asesinadas… define la estructura de una entidad espacial Extracción de tripletas La tripleta se extrae utilizando el patrón 1 mediente el reconocimiento del verbo Fueron asesinadas por lo tanto, la tripleta queda: Fueron asesinadas tiene_espacio el estado de Coahuila Instanciación de OntoEspacio en espacialidad La parte principal de este trabajo de tesis es la que trata sobre el poblado o instanciación de la ontología espacial OntoEspacio, esta tarea se realiza utilizando la API de JENA dentro del prototipo, por lo tanto cada que se extraen las entidades espaciales de una noticia estas son analizadas y validadas para comprobar si cumplen con los parámetros establecidos y pueda ser considerada como entidad espacial relevante. Una entidad espacial relevante se introduce a la ontología espacial en la clase correspondiente, la cual se determina haciendo uso de una bolsa de palabras representativa para cada una de las clases existentes en la ontología. La instanciación se realiza en la ontología OntoEspacio como se observa en la siguiente fracción de código OWL: <rdf:Description rdf:about="http://www.cenidet.edu.mx/ontologias/OntoEspacio.owl#el _estado_de_Coahuila_5"> Juan Diego Gómez Fierros 52 | P á g i n a Capítulo 4.- Metodología de solución 4.5 Prototipo En la figura 17, se observa la interfaz del prototipo desarrollado en java utilizando la IDE NetBeans, posteriormente se explican cada una de las funciones marcadas con círculos y finalmente se muestra un ejemplo de la ontología resultante. 1 2 6 7 8 4 9 5 3 Figura 17. Interfaz del prototipo El funcionamiento de cada uno de los botones y funcionalidades que conforman al prototipo, se describen a continuación: 1.- Abrir archivo etiquetado: al presionar este botón se muestra una ventana de explorador de archivos (figura 18) en la cual se tiene que elegir un archivo de texto plano (.txt), el cual anteriormente tuvo que ser etiquetado. Figura 18. Explorador de archivos Juan Diego Gómez Fierros 53 | P á g i n a Capítulo 4.- Metodología de solución 2.- Procesar archivo: Este botón es presionado después de elegir un archivo etiquetado con el botón Abrir archivo etiquetado, el cual muestra el texto que contiene el archivo (figura 19) Figura 19. Texto de noticia procesado 3.- Ruta: muestra la ruta del archivo abierto, como se observa en la figura 19. 4.- Área de texto procesado: en esta área aparece el texto del archivo procesado sin etiquetas, como se observa en la figura 19. 5.- Etiquetado: en esta parte del prototipo se tienen 4 columnas en las cuales se colocan todas las palabras que contiene el texto de la noticia introducida, las leyendas en la parte superior indican el contenido de cada columna, Palabra: contiene la palabra tal cual aparece en la noticia, Lema: Muestra el lema de la noticia, es decir su forma neutra sin conjugación, categoría: en esta columna, se muestra la categoría gramatical que el etiquetador le otorgó a esa palabra siguiendo el estándar de etiquetado propuesto por el grupo EAGLES, se puede observar un ejemplo en la figura 19. 6.- Extraer argumentos y RA (Referencia anafórica): con este botón se extraen todos los argumentos que contiene una noticia, los cuales se utilizan para dar solución a los problemas de la elipsis y la anáfora, su funcionamiento se observa en la figura 20. Juan Diego Gómez Fierros 54 | P á g i n a Capítulo 4.- Metodología de solución Figura 20. Extracción de argumentos y RA 7.- Extraer candidatos y características: este botón extrae 6 candidatos (3 a la derecha y 3 a la izquierda de una referencia anafórica) a las cuales se les aplican una serie de validaciones y se concluye cual es el mejor candidato a sustituir por la palabra que hace referencia anafórica. Cabe señalar que sólo se implementaron los métodos para funcionar con entidades espaciales. 8.- Espacialidad: al presionar este botón se extraen todos los posibles candidatos a entidades espaciales. Un ejemplo de lo que ocurre al presionar este botón se observa en la figura 21. Figura 21. Extracción de candidatos espaciales Juan Diego Gómez Fierros 55 | P á g i n a Capítulo 4.- Metodología de solución 9.- Tripletas: este botón extrae las tripletas “evento tiene_espacio espacio” e introduce los candidatos espaciales que si representan espacialidad a la ontología OntoEspacio. Un ejemplo de la ontología OntoEspacio instanciada se observa en la figura 22. Figura 22. OntoEspacio instanciada Juan Diego Gómez Fierros 56 | P á g i n a Capítulo 5. Pruebas y resultados En este capítulo se presentan las pruebas y resultados obtenidos, primero se muestran las medidas estadísticas utilizadas, posteriormente se observa el plan de pruebas y finalmente se muestran los resultados de la aplicación de cada una de las pruebas, mostrando la efectividad de la herramienta y su desempeño en cada una de las etapas principales que se observan en el capítulo 4. Capítulo 5.- Pruebas y resultados 5.1 Introducción El presente plan de pruebas se encuentra basado en el estándar IEEE 829-1998 (IEEE, 1998), con el cual se verificó la metodología planteada en la propuesta de tesis. Cabe mencionar que la metodología que se evaluó es apoyada por una herramienta. El plan de pruebas se compone de las siguientes secciones: elementos de prueba, características a probar, características excluidas, enfoque, criterio éxito/fracaso de casos de prueba, criterios de suspensión y requerimientos de reanudación, documentos entregables de las pruebas, tareas de pruebas, requerimientos para realizar las pruebas, responsabilidades, riesgos y contingencias, aprobación, casos de prueba y especificación de procedimiento de pruebas. 5.2 Métricas de evaluación En esta sección se describen las métricas de evaluación que se usaron para determinar la efectividad de la metodología propuesta, mostrando el funcionamiento y la descripción de cada una de ellas. 5.2.1 Precisión Este concepto fue definido por Kent (Kent, 1955), como factor de pertinencia. Existen otros autores que se refieren a la precisión, como tasa de aceptación. Para Salton (Salton & McGill, 1983), la precisión es la proporción de términos recuperados realmente relevantes, del total de los términos recuperados. A la definición anterior, Frakes (Frakes & Baeza, 1992) añade que el resultado de esta operación está entre 0 y 1. Por lo tanto, la recuperación perfecta es en la que únicamente se recuperan los términos relevantes y por lo tanto tiene un valor de 1. En la figura 23 se observa la ecuación utilizada para obtener la Precisión: Figura 23. Ecuación de la precisión (Salton & McGill, 1983) Juan Diego Gómez Fierros 58 | P á g i n a Capítulo 5.- Pruebas y resultados 5.2.2 Recuerdo El recuerdo, aunque en menor medida que la precisión, es otro concepto utilizado en la evaluación de los sistemas de recuperación. Muchos autores, por influencia del término inglés la denominan " recall" o "rellamada". Es la proporción de términos relevantes recuperado, del total de los términos que son relevantes en la base de datos, independientemente de que éstos, se recuperen o no. Esta medida es inversamente proporcional a la precisión. Fue formulada, al igual que la de precisión por (Kent, 1955) con el nombre de factor de exhaustividad. Años más tarde (Swets, 1963) la llamó probabilidad condicional de un item y (Goffman & Newill, 1964) la denominaron sensibilidad (sensibility). La ecuación propuesta por (Salton & McGill, 1983) se observa en la figura 24: Figura 24. Ecuación del recuerdo (Salton & McGill, 1983) 5.2.3 Medida F La Medida F es la combinación de la precisión y recuerdo con una medida armónica de precisión y exactitud. Está también se conoce como la medida F1, porque el recuerdo y la precisión son uniformemente ponderados. Juan Diego Gómez Fierros 59 | P á g i n a Capítulo 5.- Pruebas y resultados 5.3 Plan de pruebas 5.3.1 Elementos de prueba Los elementos de prueba están formados por los diferentes textos periodísticos de los cuales se extrajeron entidades espaciales, estos textos periodísticos se dividen en las siguientes categorías: Desastres Ciencia y tecnología Medicina Policiacas Política Nacionales o estados Internacionales Salud Finanzas, negocios o economía 5.3.1.1 Características probadas A continuación se describen las características probadas utilizando la metodología implementada en la herramienta: Identificación de entidades espaciales: se verifica la eficacia del uso de patrones lingüísticos para la identificación de las diferentes entidades espaciales contenidas en un texto de noticias. Identificación de conceptos relacionados a eventos: con la implementación de patrones lingüísticos, se valida la obtención del par (evento, espacio). Juan Diego Gómez Fierros 60 | P á g i n a Capítulo 5.- Pruebas y resultados Solución a anáfora lingüística: se evalúa la metodología propuesta por (Reyes, 2011) para la solución del fenómeno de anáfora lingüística. Esta tarea involucra el reconocimiento de la palabra que funge como referencia anafórica, posteriormente la extracción de 6 candidatos 3 a la derecha y 3 a la izquierda de la referencia anafórica, estos candidatos serán entidades espaciales y finalmente con los diversos pasos que conforman la metodología de (Reyes, 2011) se dedujo cuál de los 6 candidatos fue el más apropiado para ser sustituido por la referencia anafórica. Poblado ontológico: se realiza una evaluación de la eficiencia de la metodología en su etapa final, la cual involucró entre otras cosas el poblado de la ontología espacial pasando las entidades espaciales a sus correspondientes clases y se pobló la ontología OntoEvento mediante la extracción de tripletas con la forma: “Evento tiene_espacio Espacio”. 5.3.1.2 Características excluidas Las características que se presentaron en la metodología o alguno de sus insumos, pero no fueron consideradas para su evaluación o implementación son: No se consideró para su evaluación los resultados obtenidos al introducir un texto que no sea de dominio periodístico No se consideraron textos que no se encuentre en formato de texto plano No se consideraron textos que se encuentre en algún idioma distinto al español. Las palabras con errores ortográficos no fueron corregidas y por lo tanto no fueron consideradas para su evaluación. Los errores en el reconocimiento de palabras por parte del etiquetador no se corrigieron, dejando estas palabras fuera de cualquier análisis. Juan Diego Gómez Fierros 61 | P á g i n a Capítulo 5.- Pruebas y resultados 5.3.1.3 Enfoque Las pruebas permitieron comprobar que la metodología de solución propuesta, es capaz de solucionar el problema del poblado semiautomático de una ontología, identificando entidades espaciales mediante patrones. 5.3.1.4 Criterio éxito/fracaso de los casos de prueba Se considera como éxito si la prueba cumplía con los siguientes puntos: Identificación de las palabras con referencia anafórica (ahí, aquí, allí, allá, acá, adonde y donde) Identificación de los 6 candidatos espaciales y la posterior validación del mejor candidato para ser sustitución por la referencia anafórica Identificación de las entidades espaciales presentes en el texto noticiario Identificación de los eventos que corresponden a una entidad espacial para obtener el par Evento, Espacio Poblado de la ontología “OntoEspacio” con las entidades espaciales Poblado de la ontología “OntoEvento” con la tripleta Evento tiene_espacio Espacio Se considera fracaso cuando se presente alguno de los siguientes puntos: 5.3.1.5 En más del 50% de las pruebas para obtener el mejor candidato en la solución de la anáfora, éste no es el indicado La identificación de entidades espaciales muestra un valor muy bajo al realizar pruebas estadísticas de desempeño (precisión, recuerdo y medida F) Errores en la instanciación de alguna de las ontologías Criterios de suspensión y requerimientos de reanudación Algunos criterios para suspender una prueba o interrumpir su ejecución fueron: Al introducir el texto noticiario a la herramienta, este tarda más de 1 minuto para aparecer en pantalla. Para poder reanudar este caso, es necesario comprobar el tamaño del texto introducido, si es demasiado grande dividirlo en partes más pequeñas Juan Diego Gómez Fierros 62 | P á g i n a Capítulo 5.- Pruebas y resultados Existen caracteres extraños en el texto noticiario al pasarlo a la herramienta. Para poder realizar correctamente las pruebas es necesario que el texto noticiario a introducir se encuentre codificado como UTF-8 ya que este estándar es el utilizado por la herramienta El reconocimiento de entidades espaciales y candidatos en la referencia anafórica tarda más de 2 minutos. El proceso de etiquetado de estas entidades varía dependiendo del tamaño del texto, como se realiza una representación gráfica (colores y etiquetas) el proceso generalmente sobrepasa los 10 segundos, si el tiempo es realmente excesivo se deberá dividir el texto para que su procesamiento sea más rápido 5.3.1.6 Documentos entregables de las pruebas Se generaron los siguientes documentos para su aceptación y análisis a la Dra. Azucena Montes Rendón. 5.3.1.7 Plan de pruebas (documento presente) Reporte de pruebas Tareas de pruebas Las tareas identificadas para realizar las pruebas de la metodología propuesta se presentan en la siguiente tabla: Tabla 4. Actividades planeadas en el plan de pruebas Tarea Tarea predecesora 1.- Elaboración del plan de pruebas 2.- Ejecución del plan de pruebas 3.Evaluación de resultados - 4.- Elaboración del reporte de resultados Juan Diego Gómez Fierros Habilidades especiales Análisis del estándar IEEE 829 Responsable Fecha entrega de Tesista 10/06/2012 Tarea 1 - Tesista 30/06/2012 Tarea 2 Conocimiento sobre poblado ontológico, ontología OntoEvento y ontoEspacio y medidas de evaluación estadística (precisión, recuerdo y medida F) - Tesista 15/07/2012 Tesista 30/07/2012 Tarea3 63 | P á g i n a Capítulo 5.- Pruebas y resultados 5.3.1.8 Requerimientos necesarios para realizar las pruebas Los requisitos para llevar a cabo las pruebas presentadas en este plan se dividieron en 2 categorías, Requisitos de hardware y Requisitos de Software, los cuales se detallan a continuación: Requisitos de hardware: Procesador 1Ghz o superior Memoria RAM 512 MB o superior Al menos 10 MB de espacio en disco duro Requisitos de software: 5.3.1.9 Sistema Operativo Windows 7 Java JRE 6 o superior API de JENA en su versión 2.6.4 Responsabilidades El tesista Juan Diego Gómez Fierros fue el principal responsable de llevar a cabo todas y cada una de las tareas especificadas en este documento, además, también fue responsable de realiza las posibles correcciones que sean necesaria en el caso de ocurrir un fracaso, durante la ejecución de las pruebas. 5.3.1.10 Riesgos y contingencias En caso de presentarse algún problema de ejecución de la herramienta se deberá utilizar otro equipo de cómputo que cumpla con los requisitos para realizar las pruebas. 5.3.2 Aprobación La aprobación del plan de pruebas quedó a cargo de la Dra. Azucena Montes Rendón. Juan Diego Gómez Fierros 64 | P á g i n a Capítulo 5.- Pruebas y resultados 5.3.3 Casos de prueba En este punto se detalla cada paso de la metodología de solución y la prueba necesaria para considerarlo caso de éxito o fracaso: Reconocimiento de entidades espaciales: Esta prueba consiste en validar la eficiencia de los patrones lingüísticos, la herramienta Calais y la Base de Datos para el reconocimiento de entidades espaciales. Se comprobó el número de entidades reconocidas y mediante pruebas de precisión y recuerdo, también se midió la eficacia de las herramientas implementadas. Identificación correcta del par Evento, Espacio: En esta prueba se verifica la correcta relación de la entidad espacial reconocida, con el evento que le corresponde para formar el par Evento, Espacio el cual es la base fundamental para la formación de tripletas y su consecuente traslado a la ontología OntoEvento. Poblado Ontológico: Con esta prueba se comprueba la eficacia de la metodología al momento de realizar el poblado de las ontologías, por un lado tenemos la ontología OntoEspacio en la cual se colocaran las entidades espaciales reconocidas en el texto, por otra parte, tenemos la segunda ontología OntoEvento la cual fue poblada con la tripleta Evento tiene_espacio Espacio, en ambos casos se comprueba la correcta instanciación en las clases de ambas ontologías. Solución al problema de la Anáfora: Esta prueba nos permite verificar la eficiencia del método propuesto por (Reyes, 2011). Se comprueba el correcto reconocimiento de las palabras que funcionan como referencia anafórica, posteriormente se extraen los candidatos espaciales para finalmente elegir el mejor. 5.3.4 Especificación del procedimiento de prueba Los pasos para la realización de las pruebas especificadas en el punto 5.3.3 de este plan, son los siguientes: 1. Reconocimiento de entidades espaciales a) Propósito Realizar el reconocimiento de todas las entidades espaciales presentes en un texto de noticias, para su posterior uso. Juan Diego Gómez Fierros 65 | P á g i n a Capítulo 5.- Pruebas y resultados b) Entorno de prueba Se utiliza como entorno de prueba la herramienta desarrollada, ejecutada en la IDE NetBeans. c) Proceso 1. Abrir un documento de texto válido para la herramienta 2. Seleccionar el botón marcado como espacialidad en la parte superior del prototipo 3. Esperar a que termine el proceso de identificación de entidades espaciales y verificar resultados. Nota: El tiempo varía dependiendo del tamaño del texto introducido. d) Resultado esperado Las entidades espaciales son reconocidas primeramente por los patrones, seguido de la base de datos y finalmente por la herramienta Calais, estas son marcadas con las etiquetas <candespacial> </candespacial> indicando que la o las palabras identificadas por el momento son candidatos espaciales, de estos candidatos espaciales se eligen solo los relevantes. 2. Identificación correcta del par Evento, Espacio a) Propósito Agregar un evento (verbo) a un candidato espacial para convertirlo en candidato relevante. b) Entorno de prueba Se utiliza como entorno de prueba la herramienta desarrollada, ejecutada en la IDE NetBeans. c) Proceso 1. Seguir los 3 pasos indicados en la tarea 1 Reconocimiento de entidades espaciales 2. Seleccionar el botón marcado como Tripletas en la parte superior de la herramienta 3. Observar los resultados obtenidos en la consola de NetBeans Juan Diego Gómez Fierros 66 | P á g i n a Capítulo 5.- Pruebas y resultados d) Resultado esperado En la consola de NetBeans se observan los diferentes eventos, pero solo son relevantes aquellos que cumplan ciertos patrones, en los cuales se especifican ciertas reglas para relacionar un evento con un lugar específico de los identificados en la tarea anterior, formando de esta manera la tripleta Evento tiene_espacio Espacio 3. Poblado Ontológico a) Propósito Poblar la ontología OntoEspacio con las entidades espaciales relevantes y OntoEvento con el par Evento, Espacio unidos con la relación no taxonómica tiene_espacio b) Entorno de prueba Se maneja como entorno de prueba la herramienta desarrollada, ejecutada en la IDE NetBeans. c) Proceso 1. Seguir los 3 pasos indicados en la tarea 1 Reconocimiento de entidades espaciales 2. Seleccionar el botón marcado como Tripletas en la parte superior del prototipo 3. Observar los resultados obtenidos en la consola de NetBeans d) Resultado esperado Además de mostrar la tripleta Evento tiene_espacio Espacio siguiendo estos pasos, también se mandan las entidades espaciales relevantes a la ontología pertinente en la clase indicada. 4. Solución al problema de la Anáfora a) Propósito Resolver el problema que representa en este tipo de actividad la anáfora ya que sustituye entidades espaciales relevantes por adverbios de lugar (ahí, aquí, allí, allá, acá, adonde y donde). b) Entorno de prueba Se usa como entorno de prueba la herramienta desarrollada, ejecutada en la IDE NetBeans. Juan Diego Gómez Fierros 67 | P á g i n a Capítulo 5.- Pruebas y resultados c) Proceso 1. Abrir un documento de texto válido para la herramienta 2. Seleccionar el botón marcado como “extraer argumentos y RA” de la parte superior del prototipo 3. Una vez que termine la herramienta con la identificación del paso anterior, seleccionar el botón marcado como “Extraer Candidatos y Caracter” 4. Observar los resultados en la consola de NetBeans d) Resultado esperado Con el primer botón (“extraer argumentos y RA”) se identifican los adverbios de lugar que hacen referencia a una entidad espacial, son marcados con las etiquetas <ra> </ra> que significa Referencia Anafórica y aparece la palabra de color Azul, sucediendo lo mismo con los candidatos a ser sustituidos por la referencia anafórica, solo que estos sonn marcados con las etiquetas <argumento> </Argumento> y aparecen de color rojo. Con el segundo botón (“Extraer Candidatos y Caracter”) se realiza una serie de pasos definidos por la metodología de solución a la anáfora en (Reyes, 2011a), en la cual se contemplan la extracción de candidatos posibles y finalmente la elección del mejor candidato, para ser sustituidos por la referencia anafórica. 5.4 Pruebas En las siguientes secciones, se observan los resultados obtenidos siguiendo el plan de pruebas definido en el apartado anterior. 5.4.1 Reconocimiento de entidades espaciales En la tabla 5, se observa un acumulado de los resultados obtenidos al aplicar la prueba sobre reconocimiento de entidades espaciales en 100 noticias: Juan Diego Gómez Fierros 68 | P á g i n a Capítulo 5.- Pruebas y resultados Noticia 1 10 20 30 40 50 60 70 80 90 100 Tabla 5. Resultados en el reconocimiento de entidades espaciales Acumulado de Acumulado de Acumulado de entidades extraídas entidades reconocidas gold estándar 14 14 10 133 125 122 225 211 212 332 316 319 401 380 391 523 498 529 625 594 645 722 684 725 820 778 816 910 866 916 1044 985 1032 En la figura 25, se muestra una gráfica de la precisión y el recuerdo interpolados utilizando los valores acumulados: 1 Valor porcentual 0.95 0.9 0.85 Precisión patrón 0.8 Recuerdo patrón 0.75 0.7 1 2 3 4 5 6 7 8 9 10 11 Acumulado de noticias Figura 25. Grafica de precisión y recuerdo en el reconocimiento de entidades mediante patrones Los resultados mostrados anteriormente involucran el uso de los patrones definidos para identificar entidades espaciales, como se puede observar la precisión y el recuerdo son muy altos con un valor promedio del 0.9489, esto significa que la metodología reconoce satisfactoriamente la mayoría de las entidades espaciales contenidas en una noticia. Juan Diego Gómez Fierros 69 | P á g i n a Capítulo 5.- Pruebas y resultados 5.4.2 Identificación de conceptos relacionados a eventos En el caso de la identificación de los eventos (Verbos) sólo se consideraron los que nos permitieron formar el par evento, espacio. Para lograr lo planteado en el párrafo anterior se extrae el evento más cercano a una entidad espacial relevante, independientemente que se encuentre a su derecha o a su izquierda; en el caso extraordinario de que ningún verbo fuera localizado se desecha la entidad espacial, esto podría suceder por 2 razones: 1. Que la entidad espacial sea la que marca el lugar de la noticia, muy común en la estructura general de un texto noticiario, ejemplo: MADRID, España. (EFE). - La compañía… 2. Que el etiquetador no reconozca el verbo en la oración donde aparece la entidad espacial, ejemplo: López Obrador se ubicó en la ciudad de México… el verbo ubicar fue reconocido como aq0msp (adjetivo calificativo) y no como Verbo. Si alguna entidad espacial se ubicaba en alguno de los dos puntos mencionados, no se consideró para su posterior análisis y se desecha de cualquier prueba siguiente, por lo tanto, todas las entidades espaciales reconocidas por los patrones contienen el par evento, espacio. 5.4.3 Solución a anáfora lingüística En (Ferrández, Palomar, & Moreno, 1995) se define la anáfora como el mecanismo para hacer en el discurso una referencia abreviada de una o varias entidades, con la esperanza de que el receptor del discurso sea capaz de determinar la identidad de referencia. La solución al problema de la anáfora lingüística se realizó mediante la implementación de un algoritmo desarrollado por (Reyes, 2011a), utilizado para comprobar su eficiencia se realizaron las pruebas mostradas en la tabla 6: Tabla 6. Pruebas de anáfora lingüística Prueba Texto 1 No pues como unos 30 minutos, 40 minutos, pues vengo de acá de Zapopan y vengo de acá de Lerdo de Tejada, hasta acá ya llevo como 20, 25 minutos no más que está bien pesada la pinche manifestación. " "Buscaba un país con similitudes a Europa y encontré a Buenos Aires, por eso estoy acá ", dice a BBC Mundo. 2 Juan Diego Gómez Fierros Mejores candidatos Zapopan, Lerdo de Tejada y Lerdo de Tejada Prueba superada Si, si y si Europa No 70 | P á g i n a Capítulo 5.- Pruebas y resultados 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 El actor estadounidense encontró su copia fiel en París, adonde viajó especialmente para el encuentro. La presidente Cristina de Kirchner permaneció durante la jornada en Santa Cruz, adonde había viajado junto sus hijos para pasar el fin de semana, y tiene previsto regresar este martes a Buenos Aires para retomar su agenda oficial. El vuelo es de Laredo a Ciudad Victoria y de ahí a la Ciudad de México, domingo a viernes con salida a la 3:10 de la tarde, con llegada a la capital del estado a las 4:25 PM. Xalapa, Veracruz. - Usuarios del transporte público exigieron la intervención inmediata de la Dirección de Tránsito en la calle José Mata, esquina con Xalapeños Ilustres. Ahí existe un paradero de autobuses de unos 50 metros de largo aproximadamente, pero éste es ocupado como estacionamiento. Dijo: 'Justamente una ficción, pero con muchos sucesos auténticos, los últimos meses que yo pasé en Aguascalientes, la película termina el día que yo salí de allá, para venir a la Ciudad de México'. Esa información la ratifico el presidente de ese partido en el Estado Carlos López, quien dijo que Ana irá como la primera en la formula y por ello, es casi un hecho que tiene ya su lugar asegurado en la cámara de senadores allá en la Ciudad de México. Joan y Elizeth viajaban desde Lima a Madrid con Air. El problema venía para viajar desde allí a Barcelona, ya operaba Spanair. "Nos enteramos de la noticia en Lima. El tenista español Rafael clasificó a su segunda final del Abierto de Australia tras imponerse al suizo Roger quien pese tomar ventaja fue superado y vio frustrado su sueño de alcanzar su quinto título aquí. Dentro de la comunidad homosexual del DF existe el temor de que la 34 Marcha del Orgullo Lésbico-Gay, que año con año se celebra aquí durante julio, sea acaparada por algún partido político toda vez que coincide con las votaciones federales. Empezó la carrera de Química en Álava y los dos últimos años de la licenciatura los hizo en Madrid, donde también preparó su doctorado. Según el programa anunciado por la Santa Sede, el Pontífice partirá el viernes 23 de marzo desde el aeropuerto internacional Leonardo da Vinci de Roma hasta el aeropuerto internacional de Guanajuato (México), donde aterrizará a las 16,30 horas (hora local). Al centro de la Península de Yucatán se encuentra Izamal, una bella ciudad en la cual conviven la cultura prehispánica con la colonial y contemporánea, pues al lado de un majestuoso convento franciscano. El Parlamento iraní debatirá el domingo un proyecto que obligaría al Gobierno a detener las exportaciones de petróleo antes del 1 de julio, la fecha que fijó la UE para aliviar el impacto del embargo a las debilitadas economías de Grecia, Italia y otros países para los cuales Irán es un importante proveedor. Este problema no solo se presentaría con Brasil, sino también con Paraguay y Argentina, naciones desde las cuales despegan avionetas con dirección al oriente boliviano, alterando o sin declarar sus salidas. Finalmente, la actriz Litzy Domínguez puntualizó que el trabajo Juan Diego Gómez Fierros París Si Santa Cruz Si La Ciudad de México No La calle Si* La Ciudad de México No La Ciudad de México Si Madrid Si Australia Si Las votaciones No Álava No El aeropuerto internacional de Guanajuato Si Centro de la península de Yucatán No Italia No* Dirección No Estados Unidos Si 71 | P á g i n a Capítulo 5.- Pruebas y resultados 18 19 20 21 22 24 25 en las telenovelas de Estados Unidos es el mismo que en México, " nos están cuidando muchísimo, esta novela está funcionando muy bien acá en Estados Unidos". "Nada garantizar que el nubarrón no llegue, pero soplamos para que se quede acá, en Europa, esperemos que se disuelva pronto", ha dicho el presidente ante el auditorio de la CEOE, la Confederación Española de Organizaciones Empresariales, un equivalente a nuestra Confiep. La EBY nos tiró acá en San Isidro, nos sacó de nuestras casas que estaban cerca del río, del centro. “Antes del 2003 cerraban los proyectos locales, se desintegraban las empresas, porque no había un proyecto de país y eso es lo que ha venido a hacer este espacio político, es la piedra fundamental que puso Nestor Kirchner y que tuvo un hito determinante acá en Mar del Plata, en la Cumbre de las Américas cuando se le dijo no al ALCA y no a la entrega de la producción nacional. Porque yo nací acá. San Lorenzo es mi casa, me dio muchísimo. Después viajará a Valle de Allende, Chihuahua, donde dará el banderazo de salida a camiones de las secretarías de la Defensa Nacional y de Desarrollo Social, cuyo destino son los albergues de la Comisión para el Desarrollo Indígena, en la Sierra Tarahumara. El lunes 26, Benedicto XVI tomará de nuevo el avión en Guanajuato donde enviará un mensaje de despedida, para dirigirse a Santiago de Cuba, donde aterrizará sobre las 14,00 horas (hora local). Por la tarde, celebrará unas vísperas con los obispos mexicanos y una delegación de prelados de América Latina en la Catedral de la Madre Santísima de la Luz, en la ciudad de León, donde también pronunciará un discurso. El auditorio de la CEOE No San Isidro Si La Cumbre de las Américas Si* Mi casa Valle de Allende y la Sierra Tarahumara No Si y no Guanajuato Santiago Cuba Si y si y de La Catedral de la Madre Santísima de la Luz Si* De la taba anterior en la columna “Prueba Superada” se muestra cuantas de las entidades presentes en el texto fueron reconocidas de manera satisfactoria concluyendo: 17 entidades Correctas y 11 incorrectas en promedio el 61% de las entidades son reconocidas de manera satisfactoria. 5.4.4 Poblado ontológico Se realizó una evaluación de la eficiencia de la metodología en su etapa final, la cual involucró entre otras cosas el poblado de la ontología espacial introduciendo las entidades espaciales a sus correspondientes clases. La ontología a poblar OntoEspacio (Figura 26), contiene las clases necesarias que abarcan cualquier entidad espacial que pueda encontrarse en un texto de noticias. Juan Diego Gómez Fierros 72 | P á g i n a Capítulo 5.- Pruebas y resultados Figura 26. OntoEspacio Las pruebas con los resultados acumulados correspondientes se muestran en la tabla 7: Noticia 1 10 20 30 40 50 60 70 80 90 100 Tabla 7. Resultados en el poblado ontológico Acumulado de entidades Acumulado de entidades introducidas a la Ontología correctas en la Ontología 14 7 125 92 211 159 316 236 380 285 498 391 594 471 684 533 778 606 866 682 985 771 Acumulado de gold estándar 10 122 212 319 391 529 645 725 816 916 1032 Los valores de precisión y recuerdo se encontraron un poco bajos, pero si los comparamos con los obtenidos al solamente utilizar 20 noticias estos aumentaron, de un promedio de 0.71 en precisión y recuerdo a 0.76. Lo anterior nos llevó a deducir que el aumento en el número de noticias es directamente proporcional, al aumento del valor porcentual de ambas métricas de evaluación. En la figura 27, se observa una gráfica del comportamiento de la precisión y el recuerdo interpolados con los valores acumulados especificados en la tabla anterior: Juan Diego Gómez Fierros 73 | P á g i n a Capítulo 5.- Pruebas y resultados 0.8 Valor porcentual 0.75 0.7 0.65 Precisión onto 0.6 Recuerdo onto 0.55 0.5 1 2 3 4 5 6 7 8 9 10 11 Acumulado de noticias Figura 27. Gráfica de precisión y recuerdo para el poblado ontológico Como resultado del poblado ontológico se obtiene la ontología espacial OntoEspacio poblada en sus diferentes clases. Juan Diego Gómez Fierros 74 | P á g i n a Capítulo 6. Conclusiones y trabajos futuros En este capítulo se presentan las conclusiones generales y los trabajos futuros de este trabajo de tesis, el cual fue desarrollado e implementado para lograr el poblado ontológico de la ontología OntoEspacio. Se presentan las conclusiones obtenidas sobre cada uno de los capítulos presentes en esta tesis y finalmente se muestran los trabajos futuros propuestos. Capítulo 6.- Conclusiones y trabajos futuros 6.1 Conclusiones Durante la realización de esta tesis se realizaron diversas actividades para poder lograr el objetivo principal que consistía en la realización de una metodología que permitiera el poblado de una ontología con información espacial extraída de textos noticiarios. Para poder identificar entidades espaciales se recurrió a técnicas de PLN particularmente al uso de patrones lingüísticos los cuales fueron generados de manera semiautomática con la ayuda de una herramienta de nombre AntConc, esta herramienta analiza la estructura de diversas oraciones con espacialidad y nos regresa cuales palabras tienen un mayor número de ocurrencia antes y después de donde se localizan las entidades espaciales en la oración, con este método fue posible deducir patrones confiables para identificar entidades espaciales en texto. Otro recurso utilizado para identificar entidades espaciales fue una herramienta de análisis lingüístico llamada Calais, la cual identifica diversas entidades nombradas en textos entre ellas las entidades espaciales (ciudades, países, zonas, etc.), esta herramienta sirve como apoyo junto con una Base de datos que contiene los nombres de todos los países del mundo y sus ciudades principales, para la identificación de entidades espaciales. Otra actividad que fue resuelta involucra el tratamiento de los fenómenos lingüísticos de elipsis y anáfora, estos fenómenos omiten o cambian algún elemento del discurso, en el caso de la elipsis el elemento se omite ya que se sobreentiende en una oración y en el caso de la anáfora se cambia por otra palabra la cual se conoce como referencia anafórica. Las pruebas obtuvieron diferentes resultados en todos los casos la precisión fue mayor al recuerdo lo cual indica que se localizan más entidades de las que deben ser reconocidas, en las pruebas de los patrones lingüísticos para el reconocimiento de entidades espaciales, mostró mejores resultados el patrón para extraer entidades espáciales sobre el patrón para el poblado ontológico. Para la identificación de conceptos relacionados a eventos, sólo se consideraron los eventos que acompañaban a las entidades espaciales que fueron reconocidas anteriormente por alguno de los patrones, esto es muy importante para la introducción del par Evento, Espacio en la forma de tripleta Evento tiene_espacio Espacio, en la ontología OntoEvento (Reyes, 2011). En el caso de la solución al problema de la Anáfora lingüística, las pruebas demostraron la eficacia del algoritmo de (Reyes, 2011a) para la aparición de este fenómeno lingüístico en textos noticiarios. Juan Diego Gómez Fierros 76 | P á g i n a Capítulo 6.- Conclusiones y trabajos futuros Finalmente las prueba para el poblado ontológico de la ontología OntoEvento (Reyes, 2011) mostraron diferentes resultados según el patrón aplicado quedando el patrón que reconoce entidades espaciales con un índice de Precisión y recuerdo por arriba del 0.94, en cambio la parte del patrón que realiza el poblado ontológico presento unas medidas de precisión y recuerdo por debajo del 0.8. Las actividades realizadas permitieron resolver, con un alto índice de confianza el problema del poblado ontológico de una ontología espacial. Esta ontología nos permite complementar una parte importante de un proyecto desarrollado en el grupo de Tecnologías Web del cenidet del cual su principal objetivo es la extracción y recuperación de información a partir de ontologías. 6.1.1 Contribuciones A continuación se presenta la lista de contribuciones realizadas en esta tesis: 6.2 Conjunto de patrones léxicos que permiten la identificación de entidades espaciales, entidades espaciales con su verbos para formar tripletas y finalmente patrones para identificar coordenadas geográficas. Una herramienta prototipo en la que se realiza todos los pasos descritos en la metodología. Implementación del algoritmo de (Reyes, 2011a) para solucionar el fenómeno lingüístico de Anáfora. Publicaciones Durante la realización de esta tesis, concretamente en el trabajo de investigación que involucra la evaluación de las diversas herramientas existentes para extracción de entidades con nombre, se generó una publicación: Gómez, J., & Montes A., (México): ''Comparativa entre Herramientas para la Extracción de Entidades Espaciales Geográficas''. Undécima Conferencia Iberoamericana en Sistemas, Cibernética e Informática: CISCI 2012, International Institute of Informatics and Systemic, p. 103-108. Orlando, Florida (Presentación Virtual). Juan Diego Gómez Fierros 77 | P á g i n a Capítulo 6.- Conclusiones y trabajos futuros 6.3 Trabajos futuros En esta sección se abordan los trabajos futuros que fueron considerados durante el desarrollo de esta tesis. La mayoría de estos trabajos pueden ser desarrollados para aumentar el desempeño y algunos otros pueden incluso ser un nuevo trabajo de tesis. Aumentar en el número de patrones definidos: los patrones expuestos no son los únicos que pueden ser implementados en la metodología, existen un gran número de estos pudiendo definir nuevos patrones para encontrar entidades espaciales muy específicas o incluso encontrar nuevas entidades no contempladas en el terreno de la espacialidad. Ampliar la implementación de la solución a la Elipsis y la Anáfora propuesta por (Reyes, 2011a): los métodos de resolución para la elipsis y anáfora propuestos por (Reyes, 2011a), fueron acotados a solucionar estos fenómenos lingüísticos sólo para la parte de espacialidad, cuando en realidad estos métodos pueden funcionar para cualquier dominio, con el aumento de esta implementación se espera un aumento la precisión de los métodos. Implementar la metodología de esta tesis para la tesis de doctorado de (Reyes, 2011): Aunque la metodología ya fue probada mediante la extracción de tripletas para la parte espacial de la ontología OntoEvento, se requiere una integración con la tesis doctoral desarrollada por (Reyes, 2011). Extender la herramienta para el uso de nuevos idiomas: Ya que todo el trabajo planteado se limitó a trabajar sólo para el idioma Español, la posibilidad de aumentar el número de idiomas que soporte la metodología queda como trabajo futuro. Extender la metodología para que acepte otros dominios: El dominio periodístico abarca un gran conjunto de posibilidades según el tipo de noticia, pero un texto periodístico maneja un formato específico, queda como trabajo futuro poder aumentar la metodología para el reconocimiento de entidades espaciales en textos de dominio, como medicina, geografía, etc. Juan Diego Gómez Fierros 78 | P á g i n a Referencias Águila, G. (2006). Las nuevas tecnologías al servicio de la lexicografía: Los diccionarios electrónicos. León: M. Villayandre (Ed.), Actas del XXXV Simposio Internacional de la Sociedad Española de Lingüística (pp. 1-23). Aone, C., & Ramos, M. (2000). REES: A Large–Scale Relation and Event Extraction System Proc. Seattle: ANLP’2000. Aussenac, N., Biébow, B., & Szulman, S. (2000). Revisiting Ontology Design: a methodology based on corpus analysis. In R Dieng, O Corby (eds.) Engineering and Knowledge Management: Methods, Models, and Tools. Proceedings of EKAW’2000, LNAI 1937, Springer-Verlag, pp. 172-188. Bach, C. (2005). “Los marcadores de reformulación como localizadores de zonas discursivas relevantes en el discurso especializado”. Debate Terminológico, n. 1. Biemann. (2005). Ontology Learning from Text: A Survey of Methods. LDV-Forum 2005 – Band 20. Cabré, T., Estopà, R., & Vivaldi, J. (2001). Automatic term detection. Amsterdam: D. Bourigault, C. Jaquemin & M. C. L’Homme (Eds.), Recent Advances in Computational Terminology (pp. 53-87). Carreras, X., Márquez, L., & Padró, L. (2002). Named Entity Extraction using AdaBoost. Taipei, Taiwan.: Proceedings de CoNLL-2002 (pp. 167-170). Castellanos, D., Fernández, J. T., & Valencia, R. (2008). Construcción de ontologías ligeras a partir de consultas en lenguaje natural. Murcia, España.: Universidad de Murcia. Cimiano. (2006). Ontology Learning and Population from Text: Algorithms, Evaluation and Applications. Alemania: Springer Science and Business Media, ISBN-10: 0-387-30632-3, pp. 19-54. Cimiano, P., & Vaolker, J. (2005). Text2Onto – A Framework for Ontology Learning and Data-driven Change Discovery. Alicante, Spain: In: Montoyo, A., Munoz, R., Metais, E. Proceedings of the 10th International Conference on Applications of Natural Language to Information System (NLDB), Lecture Notes in Computer Science. Cimiano, P., Hotho, A., & Staab, S. (2005). Learning Concept Hierarchies from Text Corpora using Formal Concept Analysis. JAIR - Journal of AI Research, Vol. 24, pp. 305-339. Condamines, A. (2002). “Corpus analysis and conceptual relation patterns”. Terminology, 8/1, 141162. Condamines, A., & Rebeyrolle, J. (2001). "Searching for and identifying conceptual relationships via corpus-based approach to a Terminological Knowledge Base (CTKB). Methods and results”. Referencias Amstermdam: Didier Borigault, Christian Jacquemin y Marie-Claude L´Homme (eds.) (2001): Recent advances in computational terminology. Corcho, O., Fernández, M., Gómez, A., & López, A. (2003). Construcción de ontologías legales con la metodología METHONTOLOGY y la herramienta WebODE. Facultad de Informática. Madrid. España: Universidad Politécnica de Madrid Campus de Montegancedo, s/n. 28660 Boadilla del Monte. Cowie, J., & Wilks, Y. (2000). Information Extraction. New York.: In R Dale, H Moisl and H Somers (eds.) Handbook of Natural Language Processing. New York: Marcel Dekker. Davidson, L. (1998). Knowledge Extraction Technology for Terminology. Ottawa.: Ottawa: University of Ottawa. Desclés. (2010). “Reasoning in Natural Language in Using Combinatory Logic and Topology An Example with Aspect and Temporal Relations”. University of Paris-Sorbonne: LaLIC. Faber, P., & Jiménez, C. (2002). Investigar en terminología, Granada: Comares. Granada. Faber, P., Rodríguez, C. I., & Sánchez, M. I. (2001). “Utilización de técnicas de corpus en la representación del conocimiento médico” . Terminology, 7/2, 167-198. Fellbaum, C. (1998). WordNet: An electronic lexical database. Cambridge: Cambridge: MIT Press. Ferrández, A., Palomar, M., & Moreno, L. (1995). El problema del núcleo del sintagma nominal: ¿elipsis o anafora? España: Procesamiento del Lenguaje Natural, no. 20, pp. 13-26. Ferrández, O., Toral, A., & Muñoz, R. (2006). Fine Tuning Features and Post-processing Rules to Improve Named Entity Recognition. NLDB 2006 (pp. 176–185). Fleischman, M., Hovy, E., & Echihabi, A. (2003). Offline strategies for online question answering: answering questions before they are asked. Sapporo, Japan. 1-7: Proceedings of the 41st Annual Meeting on Association For Computational Linguistics. Florian, R. (2002). Named Entity Recognition as a House of Cards: Classifier Stacking. Taipei, Taiwan: Proceedings of CoNLL-2002 (pp. 175-178). Frakes, W. B., & Baeza, Y. R. (1992). Information Retrieval: data structures and Algorithms. México: México: Prentice-Hall. Frantzi, K., Ananiadou, S., & Tsuji, J. (1998). The cvalue/nc-value method of automatic recognition for multiword terms. In Proceedings of the ECDL .pp 585-604. Frías, X. (2001). Introducción a la semántica de la oración del español. España: Ianua, Revista Philologica Romanica, suplemento 03. Juan Diego Gómez Fierros 80 | P á g i n a Referencias Gaihua, F., Jones C, B., & Abdelmoty, A. I. (2005). Building a Geographical Ontology for Intelligent Spatial Search on the Web School of Computer Science. Cardiff, UK: Cardiff University. Ganter, B., & Wille, R. (1999). Formal Concept Analysis - Mathematical Foundations. Berlin: Berlin:Springer-Verlag. Goffman, & Newill. (1964). Methodology for test and evaluation of information retrieval systems. Information Storage and Retrieval (1964) 3 p. 19-25. Gomez, A., & Manzano, D. (2003). OntoWeb Deliverable 1.5: A Survey of Ontology Learning Methods and Techniques. Madrid: Universidad Politécnica de Madrid. Grishman, & Sundheim. (1996). DARPA’s MUC program. Message Understanding Conference in 1987 MUC Proceedings. Halliday. (1994). Introducción a la semántica de la oración del español. España.: Ianua, Revista Philologica Romanica, suplemento 03. Hearst, M. (1992). Automatic acquisition of hyponyms from large text corpora. Berkeley, California: En Proceedings of Conference COLING. Nantes: Association for Computational Linguistics. Hobbs, J., Appelt, D., Bear, J., Isrrael, D., Kameyama, M., Stickel, M., y otros. (1997). FASTUS: A Cascaded Finite-State Transducer for Extraction Information from Natural Language Text'. E Roche and Y Schabes (eds.), Finite-State Language Processing, chapter 13, pp 383-406. MIT Press. IEEE. (1998). IEEE Standard for Software Test Documentation. Software Engineering Technical Committee of the IEEE Computer Society. Jackson, P., & Schilder, F. (2006). "Natural Language Processing: Overview" in Encyclopedia of Language & Linguistics. ed. Keith Brown, Elsevier, Oxford. Karoui, L., Aufaure, M., & Bennacer, N. (2004). Ontology Discovery from Web Pages: Application to Tourism. In ECML/PKDD 2004: Knowledge Discovery and Ontologies KDO-2004. Kent, A. (1955). Machine literature searching. VIII. Operational Criteria for Designing Information Retrieval Systems American Documentation April 1955 6 (2) p. 93-101. Laurence, A. (2011). AntConc. Tokio: Faculty of Science and Engineering Waseda University, Japan. Llisterri. (2003). Lingüística y tecnologías del lenguaje, Lynx. Panorámica de Estudios Lingüísticos, vol. 2, pp. 9-71. Maedche, A., & Staab, S. (2001). Ontology Learning for the Semantic Web. IEEE Intelligent Systems, Special Issue on the Semantic Web, 16(2). Juan Diego Gómez Fierros 81 | P á g i n a Referencias Mann, G. S. (2002). Fine-grained proper noun ontologies for question answering. Taipei, Taiwan. 17: International Conference On Computational Linguistics On SemaNet: Building and Using Semantic Networks. Marín, M. (2000). "Introducción a la gramática" en Introducción a la lingüística española. Barcelona.: ed. Ariel M. Marshman, E., Morgan, T., & Meyer, I. (2002). French patterns for expressing concept relations. Terminology, 8/1, 1-29. Meyer, I. (2001). “Extracting knowledge-rich contexts for terminography. A conceptual and methodological framework” . Amsterdam: Borigault, Didier, Christian Jacquemin y MarieClaude L´Homme (eds.). Recent advances in computational terminology . Miller. (1999). The Lexical Component of Natural Language Processing Cognitive. Princeton University: Science Laboratory. Morgan, T. (2000). A Comparative Study of Hypernymic Patterns for Knowledge Extraction. Ottawa: University of Ottawa. Nédellec, C., & Nazarenko, A. (2005). Ontologies and Information Extraction. av. J.B Clément, F93430 Villetaneuse.: Laboratoire Mathématique, Informatique et Génome (MIG), INRA, Domaine de Vilvert, 78352 F-Jouy-en-Josas cedex and Laboratoire d’Informatique de ParisNord (LIPN), Université Paris-Nord & CNRS. Pantel, P., & Pennacchiotti, M. (2006). Espresso: Leveraging generic patterns for automatically harvesting semantic relations. Sydney, Australia.: Proceedings of Conference on Computational Linguistics / Association for Computational Linguistics (COLING/ACL). Pantel, P., Ravichandran, D., & Hovy, E. (2004). Towards terascale knowledge acquisition. Geneva, Switzerland. 771–777.: Proceedings of the International Conference on Computational Linguistics. Pasca, M. (2004). Acquisition of categorized named entities for Web search. Washington, D.C, USA. 137- 145.: Proceedings of the 13th ACM international conference on Information and knowledge management. Pearson, J. (1998). Terms in Context. Amsterdam: Amsterdam: John Benjamins. Reyes. (2011). Creación automática de ontologías a partir de textos con un enfoque lingüístico. Cuernavaca, Morelos, México: CENIDET. Reyes. (2011a). Creación automática de ontologías a partir de textos con un enfoque lingüístico Reporte cuatrimestral. Cuernavaca, Morelos, México: CENIDET. Juan Diego Gómez Fierros 82 | P á g i n a Referencias Rojo, G. (2008). Lingüística de corpus y lingüística del Español. Montevideo, Uruguay: Conferencia Magistral presentada en el XV Congreso Internacional ALFAL. Sabou, M., Wroe, C., Goble, C., & Mishne, G. (2005). Learning Domain Ontologies for Web Service Descriptions: an Experiment in Bioinformatics. Chiba, Japan.: Proceedings of the 14th International World Wide Web Conference (WWW2005). Salton, G., & McGill, M. J. (1983). Introduction to Modern Information Retrieval. New York: New York: McGraw Hill. Sánchez, D., & Moreno, A. (2004). Creating ontologies from Web documents. In Recent Advances in Artificial Intelligence Research and Development. IOS Press, Vol. 113, pp.11-18. Sang, E. T. (2002). Introduction to the CoNLL-2002 Shared Task: Language-Independent Named Entity Recognition. Taipei, Taiwan: Proceedings of CoNLL-2002 (pp. 155-158). Schmid, H. (1994). Probabilistic part-of-speech tagging using decision trees. Proceedings of the International Conference on New Methods in Language Processing. Schmid, H. (2000). Lopar: Design and implementation. In Arbeitspapiere des Sonder for schungsbereiches, No. 149. Scott, M. (1 de Abril de 2011). Wordsmith. Recuperado el 1 de Abril de 2012, de http://www.lexically.net/wordsmith/index.html Shamsfard, M., & Barforoush, A. A. (2003). The state of the art in ontology learning: A framework for comparison. The Knowledge Engineering Review, Vol. 18 No.4 pp. 293-316. Steve, A., Gangemi, D., & Pisanelli. (1998). Ontology Integration: Experiences with Medical Ontologies. N. Guarino (ed.), pp. 163-178. Swets, J. A. (1963). Information retrieval Systems. Science, 141 (3577): July 1963 p. 245-250. Tesnière. (1976). Éléments de syntaxe structurelle. Paris: Klincksieck. Wilks, Y., Slator, B., & Guthrie, L. (1996). Electric words. Cambridge: Cambridge: MIT Press. Juan Diego Gómez Fierros 83 | P á g i n a Anexos Anexos Herramientas utilizadas PETRA Tag Desarrollador: José Ignacio Perea Sardón. Descripción: Petra POS Tagger es un etiquetador para el español escrito en C + + que asigna una etiqueta POS (part-of-speech) en cada token de una oración dada. Este etiquetador tiene la característica especial de que está preparado para etiquetar textos bilingües, mejorando la precisión del proceso de etiqueta. Características relevantes Tokenización de textos Separación de sentencias Análisis morfológico Etiquetado POS Búsqueda de secuencias Búsqueda de errores Revisión de estilos Estudio de rasgos gramaticales Comprobación de concordancias Referencia: http://cogtrans.academia.edu/Jos%C3%A9IgnacioPereaSard%C3%B3n/Paper s/761141/Etiquetado_de_textos_y_su_aplicacion_a_la_traduccion Otros etiquetadores similares son: Sistema Plataforma Normalización de etiquetas Sistema de resolución de ambigüedades Velocidad Equipo desarrollador Juan Diego Gómez Fierros SMORPH C sobre UNIX en estación SPARC 2 Inexistente Inexistente 1000 palabras/segundo Salah Aït-Mokhtar José Lázaro Rodrigo Mateos(Groupe de Rechereche dans les Industriesde la Langue) 85 | P á g i n a Anexos Sistema Plataforma Normalización de etiquetas Sistema de resolución de ambigüedades Velocidad Equipo desarrollador SPOST Quintus Prolog en estación de trabajo SUN Inexistente Reglas establecidas por lingüistas Desconocida David Farwell Stephen Helmreich Mark Casper(Computing Research Laboratory) Sistema Plataforma Normalización de etiquetas Etiquetador de Xerox Common Lisp en SunOS 4.x y 5.x, Macintosh Tiene en cuenta recomendaciones de EAGLES y directrices de TEI Mixto: estadístico y normas establecidas por lingüistas Desconocida Fernando Sánchez León(Adaptación al español)Universidad Autónoma de Madrid Proyecto CRATER(Corpus Resources And Terminology ExtRaction) Sistema de resolución de ambigüedades Velocidad Equipo desarrollador Sistema Plataforma Normalización de etiquetas Sistema de resolución de ambigüedades Velocidad Equipo desarrollador TreeTagger + Relax Desconocida Desconocida Mixto: árboles de decisión estadísticos, con la posibilidad de utilizar información de n-gramas, restricciones de contexto aprendidas automáticamente, restricciones lingüísticas confeccionadas por especialistas, etc. Desconocido Lluís Márquez, Lluís Padró y Horacio Rodríguez Departamento de Lenguajes y Sistemas Informáticos(Universidad Politécnica de Cataluña) Sistema Plataforma Normalización de etiquetas Sistema de resolución de ambigüedades Velocidad Equipo desarrollador SVMTool Perl Desconocido Aprendizaje automático 1500 palabras/segundo Jesús Giménez y Lluís MàrquezCentro de investigación TALP(Universidad Politécnica de Cataluña) Todos tienen soporte para el idioma Español. Juan Diego Gómez Fierros 86 | P á g i n a Anexos OpenCalais Desarrollador: Thomson Reuters Descripción: Open Calais es un servicio web de Thomson Reuters que permite la extracción de entidades, hechos y eventos de texto libre en inglés, francés y español. Su versión en inglés es la que presenta una mayor funcionalidad, si bien en español. Open Calais ofrece un API sencillo que puede ser usado mediante SOAP, REST vía HTTP POST, o HTTP POST. Como entrada permite documentos de distintos formatos (HTML, HTMLRAW, XML y texto). Características relevantes reconocimiento y categorización de entidades usando 15 clases de entidades evaluación de la relevancia de entidades desambiguación y enlazado con Linked Open Data para algunos tipos como Company Referencia: http://www.opencalais.com/ Comparativa con otras herramientas similares: Tabla 8. Comparativa entre herramienta para la extracción de entidades Número de entidades Reconocidas Noticia Manual calais AlchemyAPI Extractiv Ner 3 1 1 (Tag) 1 1 1 2 1 0 2 2 2 4 0 1 2 2 3 2 2 0 3 2 4 8 5 6 3 6 5 10 7 5 8 9 6 2 2 1 0 1 7 4 4 3 4 4 8 3 4 4 2 4 9 2 2 1 1 0 10 40 28 22 26 31 Total Juan Diego Gómez Fierros 87 | P á g i n a Anexos Las medidas de Precisión y Exhaustividad para cada una de las herramientas se muestran en las figuras 28 y 29. Figura 28. Precisión de las herramientas Figura 29. Exhaustividad de las herramientas Una gráfica de la Precisión y Exhaustividad interpoladas se observa en la figura 30 1.05 1 Precisión Alchemy 0.95 Extractiv 0.9 CALAIS 0.85 STILUS NER 0.8 0 Juan Diego Gómez Fierros 0.1 0.2 0.3 0.4 0.5 0.6 0.7 Exhaustividad Figura 30. Precisión y Exahustividad interpoladas 0.8 88 | P á g i n a