356 IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 1, JAN. 2016 Learning Discourse Relations from News Reports: An Event-driven Approach J. A. Reyes and A. Montes 1 Abstract— Nowadays, technologies allows us to store large volumes of information in different formats. It represents a challenge due to the lack of semantic in retrieval and extraction process of information efficiently. A possible strategy is to transform unstructured information into structured data. In recent years, ontologies have been widely used as an alternative to represent structured data from texts. This paper presents a new approach based on linguistic markers for ontology learning and population by considering cognitive aspects in order identify discourse relations between events from news reports. The main idea is to find concepts (event type), discourse relations (ontological relations) between events and class instances (real events). Our approach shows promising results for learning discourse relations in terms of F-measure. Keywords— discourse relations, ontology learning, eventdriven learning, linguistics markers. E I. INTRODUCCIÓN N los últimos años, la tecnología ha permitido almacenar grandes volúmenes de información estructurada y no estructurada. Actualmente, las herramientas para buscar y acceder a la información utilizan métodos de Inteligencia Artificial. Para la información no estructurada, como el texto, las áreas de Procesamiento de Lenguaje Natural, Extracción y Recuperación de Información tienen el reto de considerar aspectos semánticos para ofrecer información más pertinente. Algunos métodos recurren a modelos de representación de conocimiento para convertir información no estructurada en datos estructurados, como las ontologías. Según [1], las ontologías poseen características significativas que las posicionan en una de las formas de representación más utilizada primero en la Web, ahora en cualquier medio electrónico. Sus componentes básicos son: conceptos, relaciones, funciones, instancias y axiomas. El objetivo principal del aprendizaje automático de ontologías a partir de texto es encontrar, de manera automática o semiautomática, dichos componentes [2]. Los enfoques más utilizados en el aprendizaje de ontologías a partir de texto se basan en: patrones ([3], [4] y [5]), métodos estadísticos ([6] y [7]), heurísticas o reglas ([8] y [9]) o una combinación de varios enfoques ([10] y [11]). El presente trabajo está enmarcado en un enfoque basado en patrones lingüísticos y además, considera un aspecto cognitivo 1 J. A. Reyes, Departamento de Sistemas de la División de Ciencias Básicas e Ingeniería, Universidad Autónoma Metropolitana Azcapotzalco (UAM), Distrito Federal, México, [email protected] A. Montes, Grupo de Ingeniería Lingüística, Instituto de Ingeniería de la Universidad Nacional Autónoma de México (UNAM), Distrito Federal, México, [email protected] para modelar el concepto de evento. Este modelado considera sus características principales para garantizar un aprendizaje ontológico de conceptos y relaciones en el dominio de noticias [12]. El análisis automático de textos de noticias exige, más allá de la descripción de eventos, encontrar relaciones entre ellos. Las relaciones discursivas [13] ayudan a enlazar segmentos de texto y mantener la coherencia en el discurso, además, otorgan semántica y un orden lógico entre las oraciones de un texto. El presente trabajo considera las relaciones discursivas como las relaciones que asocian eventos. La identificación automática de las relaciones discursivas se ha abordado desde un enfoque de aprendizaje automático, como en [14] y [15] o utilizando marcadores epistémicos ([16]) para el inglés. En textos en español, esta identificación ha sido una tarea poco estudiada, sin embargo, ya se ha considerado la segmentación de relaciones retóricas en el marco de la RST en el trabajo presentado en [17]. Por lo tanto, en este artículo nos centramos en doce relaciones discursivas, con la finalidad de identificarlas, de manera automática, a partir de reportes de noticias en español, utilizando marcadores lingüísticos. El descubrimiento de estas relaciones conecta el discurso de los eventos, otorgando semántica y orden lógico, el cual queda representado en un modelo ontológico dirigido por eventos. A este proceso completo se le denomina aprendizaje de relaciones discursivas. El resto del artículo se organiza de la siguiente manera. En la Sección II, se presenta la cognición de eventos, la descripción de las relaciones discursivas y ejemplos de estas relaciones presentes en noticias en español. La Sección III describe un estado del arte con los trabajos relacionados a los temas de marcadores lingüísticos, descubrimiento de relaciones discursivas y la representación de conocimiento. La Sección IV describe el proceso de descubrimiento de las relaciones discursivas entre eventos en reportes de noticias en español mediante sus marcadores lingüísticos asociados. En la Sección V, se expone la representación del conocimiento extraído sobre las relaciones discursivas entre eventos con el apoyo de un modelo ontológico. La experimentación y los resultados de la identificación de relaciones discursivas entre eventos en términos de precisión y exhaustividad se exponen en la Sección VI. Finalmente, se pueden encontrar las conclusiones y el trabajo futuro en la Sección VII. II. EVENTOS Y RELACIONES DISCURSIVAS Un evento se define como un suceso que involucra un cambio de estado donde intervienen aspectos locativos, temporales y causales [18]. En [19] se expone que el mundo REYES AND MONTES : LEARNING DISCOURSE RELATIONS FROM NEWS contiene eventos que son el camino por el cual, los agentes clasifican ciertos patrones de cambio que tienen propiedades esenciales como el tiempo, los efectos y las causas. En [20], los autores afirman que todos los eventos están dados de acuerdo a intervalos e instantes de tiempo y que involucran una causalidad. Por su parte, en [21] el autor afirma que un evento es una entidad que puede involucrarse en la causalidad y que puede ser identificado por su ubicación en una región espacio-temporal. Este artículo considera el concepto de evento como un suceso, hecho o acción que se caracteriza por el espacio, el tiempo y los actores que intervienen en él. En los textos en español, según [22] y [23], los eventos están representados por una frase verbal (EV) o por una nominalización (EN). En el ejemplo (1) el evento encontraron está descrito por un verbo conjugado (EV), mientras que en el ejemplo (2) el sustantivo erupción describe un evento mediante la nominalización (EN). (1) Los bomberos encontraron a una señora en la provincia de Fukushima (Excélsior, 15/03/2011). (2) La erupción del volcán en Hawái (Milenio, 15/03/2011). Los eventos nominalizados son representados por sustantivos derivados de verbos; también conocidos como nombres de acción [24]. La nominalización consiste en la creación de derivados nominales por sufijación, puede ser denominal, deadjetival y deverbal [25]. Este trabajo considera dos tipos de eventos, a saber: el núcleo verbal o la nominalización deverbal. La relaciones entre segmentos de discurso que mantienen una coherencia textual, ampliamente aceptada como relaciones discursivas [26] o relaciones de coherencia, están presentes en el campo de los eventos como una conexión semántica entre ellos, las cuales son conocidas como relaciones gramaticalizadas entre eventos [27]. En la Rhetorical Structure Theory (RST) de Mann y Thompson [13] se expone un conjunto de relaciones que ayudan a mantener la coherencia del discurso. Esta coherencia crea una jerarquía estructural en la que todas las partes de un texto desempeñan y cumplen una función con respecto a otras partes del texto. El conjunto de relaciones que organizan un discurso no es definitivo o exclusivo, sin embargo, las relaciones expuestas en [13] han sido ampliamente aceptadas y estudiadas por la comunidad científica. Este trabajo toma el conjunto de doce relaciones discursivas y temporales debido a su presencia en la descripción y coherencia entre los eventos. Los eventos relacionados se consideran como evento núcleo (principal) y evento satélite (dependiente). A continuación se presentan estas doce relaciones discursivas. En la relación Causa el evento satélite representa el motivo que existe detrás del evento núcleo. El ejemplo (3) es un extracto de una noticia que expresa esta relación, el evento satélite es intentan recuperarse y expresa la razón por la cual se ha llevado a cabo el evento núcleo: podría interrumpir. (3) La empresa automotriz Honda Motor podría interrumpir su producción en sus plantas de Norteamérica después del 1 de abril, debido a que los proveedores japoneses intentan recuperarse de los daños por el sismo (Excélsior, 2011). La relación de Resultado expresa los efectos producidos por el evento núcleo. En el ejemplo (4) se muestra que el evento incrementará es la consecuencia de que se lleve a cabo el evento ha experimentado. (4) El Cometa Holmes ha experimentado una expansión de gas y polvo. Esto provocó que el cometa incrementara su brillo 500 mil veces […] (El Universal, 2011). La relación de Propósito representa la intención que existe al realizarse el evento núcleo. En el ejemplo (5) se presenta la relación discursiva Propósito entre el evento núcleo han desarrollado y el evento satélite explicar, el cual indica la intención del núcleo. (5) También se han desarrollado modelos teóricos muy avanzados para explicar el comportamiento de nuestra estrella (Revista Digital Universitaria, 2009). La relación Condición constituye la acción necesaria (evento satélite) para que el evento núcleo pueda ocurrir. El ejemplo (6) es un extracto de una notica médica, la cual presenta la relación discursiva de Condición entre el evento satélite parecían que expresa la acción necesaria para que ocurra el evento núcleo iniciaron. (6) […] iniciaron terapia para salvar vidas si los pacientes parecían inestables (IntraMed, 2011). La relación discursiva Concesión organiza los eventos con base en una acción de inconsistencia (evento satélite) con respecto a evento núcleo. (7) La empresa Essa no ha frenado su producción ni ha despedido a ninguno de los mil trabajadores, a pesar de que las exportaciones de sal a Japón están paradas temporalmente […] (La jornada, 2011). El ejemplo (7) muestra una relación de Concesión, en la cual el evento están paradas representa una acción de inconsistencia para los eventos no ha frenado y no ha despedido. La relación discursiva Reformulación expresa que un evento núcleo puede ser expresado en una acción diferente (evento satélite), con otras palabras o de una manera diferente sin perder el significado. En el ejemplo (8) se muestra una relación de Reformulación, en la cual el evento evitar en un futuro expresa la misma idea que el evento núcleo evitar ser irresponsables. 357 358 (8) […] evitar en un futuro posibles crisis por el abastecimiento de agua en el estado de Jalisco; es decir, evitar ser irresponsables con las futuras generaciones (El Occidental, 2011). IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 1, JAN. 2016 (13) Los insurgentes afganos luchan contra el gobierno de Kabul desde que una coalición internacional expulsó del poder a los talibanes (La Jornada, 2011). La relación discursiva Antítesis manifiesta un evento satélite con significado contrastante del evento núcleo. En el ejemplo (9) se muestra un significado de contraste del evento ha recorrido, el cual está dado por el evento no ha encontrado. La relación discursiva temporal Finalización representa una organiza temporal de los eventos desde el punto de vista que el evento núcleo es truncado por la ocurrencia del evento satélite. En el ejemplo (14) se muestra un extracto de una noticia, en la cual el evento declararon ha sido finalizado por la ocurrencia del evento aceptó. (9) Un estudiante ha recorrido toda la ciudad de Hangzhou en busca de sal, pero no ha encontrado en ninguna tienda (Milenio, 2011). (14) Los sindicatos bolivianos declararon una huelga general hasta que el Gobierno aceptó conceder un aumento salarial (El occidental, 2011). La relación discursiva temporal llamada Simultaneidad expresa que dos eventos (núcleo y satélite) ocurren al mismo tiempo. Esta relación se muestra en el ejemplo (10) donde el evento atacaron y apuntaban acaecen en el mismo lapso de tiempo. Estas doce relaciones discursivas se encuentran expresadas en los textos con el apoyo de unidades lingüísticas que guían el discurso, otorgan coherencia a los reportes de noticias en español y relacionan eventos. III. TRABAJOS RELACIONADOS (10) Cohetes palestinos atacaron blancos en el centro de Israel este jueves, mientras que aviones israelíes apuntaban a objetivos en Gaza (La jornada, 2011). La relación discursiva temporal llamada Posterioridad organiza los eventos (núcleo y satélite) con orden temporal secuencial, es decir que el evento núcleo sucede después del evento satélite. Esta relación se muestra en el ejemplo (11) donde el evento quedaron expuestas ocurre después del evento perdió. (11) Las barras de combustible en otro reactor en la planta quedaron expuestas después de que la unidad perdió su capacidad de enfriamiento (El Occidental, 2011). La relación discursiva temporal Anterioridad organiza los eventos (núcleo y satélite) con orden temporal secuencial inversa, es decir que el evento núcleo sucede antes del evento satélite. Esta relación se muestra en el ejemplo (12) donde el evento analizará ocurre antes del evento apruebe. (12) Nicolás Sarkozy analizará la situación de los mercados de deuda soberana y las reformas comprometidas antes de que el Gobierno apruebe el anteproyecto de ley de reforma de las pensiones (El Universal, 2011). La relación discursiva temporal Iniciación representa una organización temporal de los eventos (núcleo y satélite), donde se indica que el evento núcleo es iniciado a partir del evento satélite. En el ejemplo (13) se muestra un extracto de una noticia de un periódico mexicano, en la cual el evento luchan se ha iniciado a partir de la ocurrencia del evento expulsó. Los marcadores son unidades lingüísticas invariables y no ejercen una función sintáctica en el marco de la predicación oracional. Estos tienen dos cometidos: guiar el discurso de acuerdo con sus distintas propiedades morfosintácticas, semánticas y pragmáticas; y realizar las inferencias en la comunicación [28]. Estos marcadores son conjunciones, adverbios, sustantivos o preposiciones que conectan dos sentencias o cláusulas [29]. Los marcadores no sólo unen sentencias contiguas, también vinculan las sentencias actuales con oraciones de su contexto inmediato [30]. En [31] se considera a los conectores como mecanismos de cohesión que hacen referencia a relaciones de coherencia a nivel local o global en la conversación o discurso. El estudio de marcadores lingüísticos constituye un área de interés creciente en la lingüística computacional debido a su vínculo con las relaciones discursivas. Este vínculo ha sido analizado en diversos trabajos [32], [33] y [34], en los cuales se presenta una gran variedad de relaciones discursivas y sus marcadores lingüísticos para textos en inglés. Los marcadores también han sido considerados para el diseño de sistemas de generación automática de textos [35], [36] y [16]. Estos enfoques proponen el uso de marcadores lingüísticos para la generación automática de textos en diferentes lenguas. Una aportación en la investigación sobre análisis discursivo automático en español se muestra en el trabajo presentado en [17], donde se describe un segmentador automático para las relaciones del marco de la Rhetorical Structure Theory. Además, [26] ha presentado un conjunto de variables de conectividad que describen las relaciones discursivas del marco teórico de la RST. Los verbos, como marcadores, juegan un papel importante en la anotación de relaciones y propiedades de los eventos con intervalos de tiempo, como en el trabajo expuesto en [37] que presenta el vínculo de los verbos con las propiedades de los eventos en términos de intervalos de tiempo. REYES AND MONTES : LEARNING DISCOURSE RELATIONS FROM NEWS La representación del conocimiento extraído de manera automática a partir de textos, se ha planteado como la tarea por medio de la cual el conocimiento queda almacenado para su gestión en un futuro. El trabajo que se presenta en [38] utiliza una base de conocimiento sobre objetos adaptativos, con la finalidad de apoyar el aprendizaje a través de la televisión digital, considerando las características de los usuarios. Por otro lado, en [39] se presentan técnicas de minería de datos, como algoritmos de clasificación, para construir una base de conocimiento capaz de apoyar en el diagnóstico de enfermedades causadas por el virus linfotrópico. A pesar de estos esfuerzos de representación del conocimiento, existe una necesidad de gestionar, eficientemente, el conocimiento mediante un modelo ontológico para mejorar la descripción de la información y resolver el problema de carencia de semántica que afecta la recuperación e inferencia de la información. En este aspecto, [40] presenta un conocimiento médico extraído de los registros electrónicos de salud personal, representado en ontologías, para el monitoreo y cuidados de pacientes crónicos; [41] presenta la captura de conocimiento en un modelo ontológico de procesos general capaz de representar cualquier sistema de proceso de software tanto de la organización como de modelos o estándares de calidad; adicionalmente, en [42] se construye una ontología de dominio para la norma ISO/IEC 24744 mediante la definición de conceptos relacionados a la norma y usando el proceso de la Arquitectura Dirigía por Modelos (MDA) y en [43] se aplica una técnica de aprendizaje de ontologías con la finalidad de procesar y representar datos, semánticamente, a partir de los conceptos de una consulta sobre documentos no estructurados en la Web. Por último, en [44] se realiza la instanciación de una ontología espacial a partir de descripciones textuales de imágenes utilizando aprendizaje automático con características lingüísticas, tales como etiquetado morfológico de las oraciones, roles semánticos y relaciones de dependencias. El reconocimiento y extracción de relaciones discursivas de la RST, se ha abordado con enfoques para el idioma inglés. Bajo este contexto, los trabajos presentados en [45], [46] y [47] han propuesto enfoques automáticos y semi-automáticos, donde utilizan diversas características sintácticas y lingüísticas, como n-gramas de palabras, palabras contextuales y los arboles sintácticos de las oraciones, con el propósito de reconocer, extraer e identificar relaciones discursivas en los textos. Estos trabajos son utilizados para comparar nuestro enfoque debido a la utilización de las métricas de precisión, exhaustividad y medida F en la etapa de evaluación de la tareas de extracción de relaciones discursivas. En este artículo, confiamos en las ontologías como medio de representación debido a su capacidad para agregar semántica a la información. Por ello, se identifican los marcadores lingüísticos que caracterizan las doce relaciones discursivas con la finalidad de descubrir los eventos conectados en el discurso de un reporte periodístico en 359 español y representar dichas relaciones en un modelo ontológico general de eventos. IV. DESCUBRIMIENTO DE RELACIONES DISCURSIVAS Los eventos, con sus propiedades (tiempo, espacio y actores) presentes en los textos de reportes de noticias en español, fueron anotados mediante un método de aprendizaje automático, utilizando características sintácticas, semánticas y contextuales, el cual se describe en [12]. A partir de estos eventos, se lleva a cabo el descubrimiento de relaciones discursivas entre ellos. Para ello, se identifican los marcadores lingüísticos que caracterizan las doce relaciones discursivas. La caracterización de las relaciones ha sido realizada sobre el conjunto de sus marcadores lingüísticos mediante un aprendizaje supervisado a partir de dos corpus para el español. El primer corpus, llamado RST Spanish Treebank [48], consta de 351 documentos especializados en español, el cual está anotado por expertos con relaciones discursivas entre eventos. El segundo corpus es una colección de textos de reportes periodísticos, los cuales provienen de cinco periódicos mexicanos electrónicos: El universal, Excélsior, La jornada, Milenio, El occidental e IntraMed. Este corpus consta de 1580 reportes de noticias acaecidas entre el 01 de marzo de 2011 y el 15 de noviembre de 2011, el cual fue anotado con relaciones discursivas entre los eventos. A partir de estos conjuntos de documentos, un total de 1151 son utilizadas para la etapa de aprendizaje de los marcadores lingüísticos en cada relación discursiva. El resto de los textos junto con sus 573 relaciones discursivas son utilizados para la evaluación. Diversos conjuntos de marcadores lingüísticos fueron identificados para cada relación discursiva: para la relación causa se encontraron 18 marcadores lingüísticos; 22 marcadores lingüísticos para la relación resultado; 14 marcadores lingüísticos para la relación propósito; un total de 12 marcadores para la relación concesión; 10 marcadores para la relación condicional; 12 marcadores lingüísticos para la relación reformulación; un total de 13 marcadores para la relación antítesis; 17 marcadores lingüísticos para la relación simultaneidad; 22 marcadores lingüísticos fueron identificados para la relación posterioridad; y para las relaciones de anterioridad, iniciación y finalización fueron identificados 15, 16 y 7 marcadores respectivamente. En la Tabla I se muestran los tres marcadores lingüísticos más frecuentes para cada relación discursiva. Los marcadores lingüísticos más frecuentes se consideran como las características relevantes para cada relación. Sin embargo, no se puede descartar el resto de marcadores sin afectar la precisión y exhaustividad de la tarea de aprendizaje (extracción y representación) de relaciones discursivas entre eventos. Los marcadores lingüísticos señalan la presencia de una relación discursiva entre dos eventos, sin embargo, existen problemas del lenguaje como la polisemia que afecta esta señalización y por consecuencia la tarea de descubrimiento de relaciones. El efecto de este fenómeno se observa en los 360 IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 1, JAN. 2016 resultados de la evaluación, específicamente en las relaciones Causa y Resultado. TABLA I. LOS MARCADORES LINGÜÍSTICOS MÁS FRECUENTES PARA LAS RELACIONES DISCURSIVAS. RELACIÓN MARCADORES LINGÜÍSTICOS DISCURSIVA CAUSA (EV|EN)(debido a | porque | causado por)(EV|EN) RESULTADO (EV|EN)(lo que | causar | provocar)(EV|EN) PROPÓSITO (EV|EN) (para + verbo infinitivo, con la finalidad de, con el fin de)(EV|EN) CONCESIÓN (EV|EN) (si bien | a pesar de | aun cuando)(EV|EN) CONDICIONAL (EV|EN) (si | siempre que | una vez que)(EV|EN) REFORMULACIÓN (EV|EN) (esto es | es decir | en el sentido de)(EV|EN) ANTÍTESIS (EV|EN)( pero | sin embargo | mientras que)(EV|EN) SIMULTANEIDAD (EV|EN)(cuando | durante | mientras que ) (EV|EN) POSTERIORIDAD (EV|EN)(después de que | luego de que | posteriormente)(EV|EN) ANTERIORIDAD (EV|EN)(antes de que | anterior a | anteriormente)(EV|EN) INICIACIÓN (EV|EN)(a partir de que | en cuanto | desde que ) (EV|EN) FINALIZACIÓN (EV|EN)( hasta | hasta que | hasta que se ) (EV|EN) El conocimiento extraído sobre las relaciones discursivas entre eventos se representa en el modelo ontológico que se describe en la Sección V. V. REPRESENTACIÓN DE RELACIONES DISCURSIVAS El modelo ontológico general fue diseñado para representar los eventos con sus características de espacio, tiempo y actores [12]. Este modelo está constituido por las siguientes clases: Evento, la cual representa la descripción de un evento, acción o suceso; Existen dos tipos de eventos que se expresan con las subclases EventoNominalizado y EventoVerbalizado, las cuales establecen una relación es_un con la clase Evento; la clase UnidadTemporal está relacionada con la clase Evento, mediante la relación semántica sucede, y específica el tiempo de ocurrencia del evento; la clase Espacio se relaciona con la clase Evento, mediante la relación sucede_en, con la finalidad de asignarle el lugar físico de ocurrencia al evento; la clase Agente indica el actor que ejecuta o realiza el evento y se encuentra dependiente de la clase Evento mediante la relación semántica realizado_por; la clase Objeto complementa el significado de la clase Evento, mediante la relación semántica tiene_objeto, e indica el actor u objeto que recibe directamente la acción del evento; y la clase Beneficiario específica el actor u objeto que recibe la acción del evento de manera indirecta y su relación con la clase Evento se llama beneficia_a. Este modelo general se presenta en la Fig. 1. Figura 1. Modelo ontológico general para la representación de eventos. El modelo general se utiliza para la representación de las doce relaciones discursivas identificadas, con las cuales se enriquece el significado de los eventos. Cada relación discursiva es representada mediante una relación ontológica en el modelo genérico con la finalidad de dejar evidencia del conocimiento descubierto. Estas relaciones ontológicas toman como dominio y rango a la clase Evento, de esta manera tenemos que la relación discursiva Causa es representada mediante la relación ontológica llamada causado_por, Resultado por provoca, Propósito mediante la relación ontológica con_propósito_de, Condicional mediante condicionado_por, Concesión se expresa con la relación ontológica llamada a_pesar_de, la Reformulación se transforma en la relación ontológica llamada es_reformulado_como, la Antítesis de los eventos se representa con la relación llamada contrastado_por, las relaciones discursivas de Simultaneidad, Posterioridad Anterioridad, Iniciación y Finalización se expresan mediante las relaciones ontológicas llamadas sucede_simultaneo_a, sucede_después_de, sucede_antes_de, es_iniciado_por y es_finalizado_por respectivamente. Un conjunto de estas relaciones discursivas transformadas en relaciones ontológicas se muestran en la Fig. 2, donde se aprecia que las relaciones tiene como dominio y rango a la clase Evento. Figura 2. Conjunto de relaciones ontológicas sobre la clase Evento. VI. EXPERIMENTACIÓN Y RESULTADOS La evaluación del aprendizaje de relaciones discursivas a partir de textos, transformadas en relaciones ontológicas entre REYES AND MONTES : LEARNING DISCOURSE RELATIONS FROM NEWS eventos, se realiza mediante el enfoque basado en un gold standard, el cual consiste en comparar el conocimiento extraído de manera automática con el conocimiento identificado y validado por expertos. El conocimiento extraído, de manera automática, se representa en el modelo ontológico de eventos con la instanciación de relaciones discursivas entre individuos de la clase Evento. La Fig. 3 muestra como el evento nominalizado HUELGA_DE_HAMBRE, el cual tiene una relación semántica realizado_por con el agente CÉSAR_BARCO y se realiza con_propósito_de el evento verbalizado EXIGIR que tiene_objeto a UN_CONVENIO. La comparación consiste en medir la eficiencia de los marcadores lingüísticos para la tarea de extracción automática de relaciones discursivas y su representación en el modelo ontológico general. Figura 3. Relación semántica con_propósito_de entre dos eventos. Los conjuntos de prueba corresponden al corpus RST Spanish Treebank y los reportes periodísticos descritos en la Sección IV. La experimentación fue realizada con el 33 % de relaciones discursivas entre eventos que no fueron utilizada para el aprendizaje de los marcadores. Un total de 573 relaciones discursivas entre eventos fueron identificadas y representadas por expertos lingüistas a partir del conjunto de textos de prueba. Estas relaciones se consideran nuestro conjunto gold standard para la evaluación de la tarea de descubrimiento y representación de relaciones discursivas. La evaluación se presenta en términos de las métricas de precisión, exhaustividad y la medida F, con la finalidad de cuantificar las relaciones identificadas correctamente por los marcadores contra las relaciones identificadas por los expertos. Se utilizan las medidas que, según [49] ha definido para la evaluación de la tarea de recuperación de información, las cuales nosotros adaptamos en el contexto del descubrimiento (recuperación) de relaciones discursivas entre eventos. La precisión (P), mostrada en la ecuación (1), es el coeficiente entre el número de relaciones discursivas extraídas y representadas en el modelo general que son relevantes (contenidas en el conjunto gold standard), y el total de relaciones discursivas extraídas. = | ∩ | í í | | (1) La exhaustividad (E) es el coeficiente entre el número de relaciones discursivas relevantes (contenidas en el conjunto gold standard) extraídas y representadas en el modelo general y el número de relaciones discursivas relevantes (que deben ser extraídas), ver ecuación (2). 361 = | ∩ í | | (2) | La media armónica que combina los valores de precisión y exhaustividad de la ecuación (3) es llamada medida F (F1). 1= ∗ ∗ (3) La Tabla II muestra los resultados de precisión, exhaustividad y medida F de la tarea de descubrimiento y representación de las 573 relaciones discursivas. Los resultados de la evaluación muestran que los marcadores lingüísticos para las relaciones ontológicas de finalizado_por y con_propósito_de se consideran eficientes en un 91.7% y 90.4% respectivamente. Mientras que las relaciones ontológicas llamadas causado_por y provoca logran apenas un 75.3% y un 70.5% en la medida F respectivamente. Es importante hacer notar que las relaciones discursivas llamadas Causa y Resultado tienen una alta presencia del fenómeno de polisemia en los verbos causar y provocar, los cuales forman parte de los marcadores lingüísticos de estas relaciones. En el caso de la relación Causa se elimina la polisemia debido al uso de la preposición por, es por ello que esta relación ontológica incrementa su valor de la medida F en un 4.83 % con respecto a la relación de Resultado. TABLA II. RESULTADOS DE LA TAREA DE DESCUBRIMIENTO Y REPRESENTACIÓN DE RELACIONES. RELACIÓN DISCURSIVA P E F1 CAUSA RESULTADO PROPÓSITO CONDICIONAL CONCESIÓN REFORMULACIÓN ANTÍTESIS SIMULTANEIDAD POSTERIORIDAD ANTERIORIDAD INICIACIÓN FINALIZACIÓN Promedio 0.817 0.744 0.936 0.911 0.951 0.944 0.912 0.889 0.966 0.930 0.805 0.941 0.895 0.699 0.670 0.875 0.832 0.791 0.672 0.860 0.779 0.820 0.818 0.794 0.895 0.792 0.753 0.705 0.904 0.869 0.863 0.785 0.885 0.830 0.887 0.870 0.799 0.917 0.838 Los resultados mostrados en la Tabla II hacen notar que se obtiene un desempeño promedio de las doce relaciones discursivas, en términos de medida F, de 0.838. Esto significa que nuestra propuesta está cerca del 84 % de porcentaje de extracción de relaciones discursivas correctas. El conjunto de relaciones discursivas de la RST, utilizadas en nuestra experimentación, son un punto de referencia para diversos trabajos que proponen el reconocimiento, extracción o identificación de estas relaciones. Por lo tanto, se toma como referencia este conjunto de relaciones para presentar un análisis comparativo entre los enfoques presentados por Balint and Trausan-Matu [45], Maziero et al. [46], Zhao et al. [47] y nuestro enfoque para la tarea de descubrimiento de relaciones 362 IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 1, JAN. 2016 discursivas. En la tabla III se presenta el desempeño promedio de los enfoques en términos de la medida F (F1). TABLA III. DESCUBRIMIENTO DE RELACIONES DISCURSIVAS USANDO LA COLECCIÓN DE RELACIONES DE LA RST. ENFOQUE Balint and Trausan-Matu Maziero et al. Zhao et al. Nuestra propuesta F1 0.521 0.790 0.812 0.838 Los resultados de la experimentación demuestran la efectividad de nuestro enfoque para el descubrimiento y representación de relaciones discursivas a partir de textos. A pesar de que los resultados no son alentadores para la relación discursiva “RESULTADO”, el promedio global supera el 0.83 de medida F. Por lo tanto, el enfoque puede ayudar a los expertos de dominios en el descubrimiento y representación de conocimiento sobre eventos y relaciones entre ellos a partir de textos. Además, los resultados de descubrimiento de relaciones discursivas mostrados en la tabla III son prometedores y mejores que otros enfoques que utilizan el mismo conjunto de relaciones discursivas. VII. CONCLUSIONES En este artículo se ha presentado el aprendizaje automático de doce relaciones discursivas entre eventos y su representación en un modelo ontológico a partir de textos de reportes periodísticos en español. El descubrimiento de relaciones discursivas está basado en marcadores lingüísticos, los cuales determinan el discurso, otorgan semántica y asocian los eventos. El conocimiento descubierto se representa en un modelo ontológico dirigido por eventos con su información complementaria sobre agentes, objetos, beneficiario, espacio y tiempo. Este artículo aporta un total de 178 marcadores para las doce relaciones discursivas. Además, se ha presentado un análisis de señalización de los tres marcadores lingüísticos relevantes para cada relación discursiva, con la finalidad de obtener la carga de la señalización de cada marcador, esto no significa que se puede prescindir del resto sin afectar la precisión de la tarea de descubrimiento y representación de relaciones discursivas. El descubrimiento y representación de relaciones discursivas basada en marcadores lingüísticos ha sido evaluada en dos corpus, uno de textos especializados en español y otro de reportes periodísticos de noticias mexicanas. Esta evaluación se basa en determinar si un conjunto de marcadores lingüísticos está realmente caracterizando una relación discursiva. Por lo tanto, para medir la eficiencia de la identificación, hemos utilizado un conjunto gold standard de 573 relaciones discursivas entre eventos, en términos de precisión, exhaustividad y medida F. Los resultados expresan una medida F promedio de 0.838. Es importante resaltar que los fenómenos lingüísticos, como la polisemia, afectan la tarea de descubrimiento correcto de relaciones discursivas, como el caso de la relación de Causa y Resultado. Esto debido a la presencia de verbos altamente polisémicos en los marcadores. Es importante hacer notar que nuestro enfoque obtiene resultados prometedores en la tarea de extracción y representación de relaciones discursivas entre eventos. Además de obtener mejores resultados que otros enfoques que utilizan en mismo conjunto de relaciones discursivas. Este artículo ha significado una aportación en el campo de la lingüística computacional, área que apoya la ingeniería ontológica, debido a la reducción de tiempo y costo en la tarea de creación de ontologías a partir de textos. Además, el conjunto de relaciones discursivas que forman parte de nuestro gold standard significa una contribución en el campo del análisis del discurso, el cual puede ser utilizado para trabajos futuros en esta línea de investigación. Adicionalmente, como trabajo futuro, los marcadores lingüísticos se deben complementar con métodos para la desambiguación de sentidos de las palabras, es decir, la habilidad para identificar el significado adecuado en un contexto. Este tratamiento resulta adecuado en los casos de las relaciones ontológicas causado_por y provoca. Además, resulta interesante trasladar estos marcadores a otros dominios, como la medicina, para evaluar su comportamiento en el descubrimiento y representación de relaciones discursivas entre eventos. REFERENCIAS [1] T. Gruber, “Toward Principles for the Design of Ontologies Used for Knowledge Sharing”, International journal of human-computer studies, vol. 43, no. 5, pp. 907-928, 1995. [2] P. Cimiano, "Ontology Learning and Population from Text: Algorithms, Evaluation and Applications", Springer-Verlag, New York, 2006. [3] A. Kawtrakul, M. Suktarachan and A. Imsombut, “Automatic Thai Ontology Construction and Maintenance System”, en Proceedings of OntoLex Workshop on LREC, Lisbon, Portugal, pp. 68-74, 2004. [4] A. Almuhareb and M. Poesio, “Finding Attributes in the Web Using a Parser”, en Proceedings of Corpus Linguistics, Birmingham, United Kingdom, 2005. [5] F. Ren, “Learning time-sensitive domain ontology from scientific papers with a hybrid learning method”, Journal of Information Science, vol. 40, no. 3, pp. 329-345, 2014. [6] N. J. Koenderink, M. van Assem, J. L. Hulzebos, J. Broekstra and J. L. Top, “ROC: a method for proto-ontology construction by domain experts”, The Semantic Web, Springer Berlin, Heidelberg, pp. 152-166, 2008. [7] P. Buitelaar and T. Eigner, “Topic extraction from scientific literature for competency management”, en The 7th International Semantic Web Conference, Karlsruhe, Germany, 2008. [8] R. Mulkar-Mehta, J. R. Hobbs, C. C. Liu and X. J. Zhou, “Discovering Causal and Temporal Relations in Biomedical Texts” en AAAI Spring Symposium: Learning by Reading and Learning to Read, California, USA, pp. 74-80, 2009. [9] R. Morante, V. Van-Asch and W. Daelemans, “A memory-based learning approach to event extraction in biomedical texts”, en Proceedings of the BioNLP 2009 Workshop Companion Volume for Shared Task, Colorado, USA, pp. 59-67, 2009. [10] F. Cerbah, “Mining the content of relational databases to learn ontologies with deeper taxonomies”, en Web Intelligence and Intelligent Agent Technology, Sydney, Australia, pp. 553-557, 2008. [11] S. Bethard and J. H. Martin, “Learning semantic links from a corpus of parallel temporal and causal relations”, en Proceedings of the 46th Annual Meeting of the Association for Computational Linguistics on Human Language Technologies, Ohio, USA, pp. 177-180, 2008 [12] J. A. Reyes, A. Montes, J. G. González and D. E. Pinto, “Clasificación de roles semánticos usando características sintácticas, semánticas y contextuales”, Computación y sistemas, vol. 17, no. 2, pp. 263-272, 2013. REYES AND MONTES : LEARNING DISCOURSE RELATIONS FROM NEWS [13] W. C. Mann and S. A. Thompson, “Rhetorical Structure Theory: toward a functional theory of text organization”, Text, vol. 8, no. 3, pp. 243– 281, 1988. [14] C. Sporleder and A. Lascarides, “Exploiting Linguistic Cues to Classify Rhetorical Relations”, en Proceedings of Recent Advances in Natural Language Processing, Borovets, Bulgaria, pp. 532-539, 2005. [15] C. Sporleder and A. Lascarides, “Using Automatically Labelled Examples to Classify Rhetorical Relations: An Assessment”, Natural Language Engineering, vol. 14, no. 3, pp. 369-416, 2008. [16] T. Groza, S. Handschuh and G. Bordea, “Towards automatic extraction of epistemic items from scientific publications”, en Proceedings of the 25th ACM Symposium on Applied Computing, Sierre, Switzerland, pp. 1341-1348, 2010. [17] I. da Cunha, E. San Juan, J. Torres, M. Lloberes and I. Castellón, “DiSeg: Un segmentador discursivo automático para el español”, Procesamiento del Lenguaje Natural, vol. 45, pp. 145-152, 2010. [18] G. Miller and P. Johnson-Laird, “Language and Perception”, Ed. Belknap Press, Cambridge, 1976. [19] J. Allen and G. Ferguson, “Actions and Events in Interval Temporal Logic”, Journal of Logic and Computation, vol. 4, no. 5, pp. 531-579, 1994. [20] A. Galton and J. C. Augusto, “Two approaches to event definition”, en Proceedings of 13th International Conference on Database and Expert Systems Applications, Aix-en-Provence, France, pp. 547-556, 2002. [21] J. F. Sowa, “Knowledge representation: logical, philosophical, and computational foundations”, Ed. Brooks Cole Publishing, California, 1999. [22] L. Tesnière, “Éléments de syntaxe structurelle”, Ed. Klincksieck, Paris, 1976. [23] M. A. K. Halliday, “An Introduction to Functional Grammar”, Ed. Edward Arnold, London, 1994. [24] B. Comrie, “The syntax of action nominals: a cross-language study”, Lingua, vol. 40, pp. 177-201, 1976. [25] L. Hernando, “Sobre la formación de palabras en español”, en Acta del VII Congreso Internacional de ASELE, Santiago de Compostela, Spain, pp. 257-264, 1998. [26] J. Renkema, “Relaciones discursivas y variables de conectividad”, Revista Signos, vol. 41, no. 66, pp. 65-80, 2008. [27] L. París, “Relaciones gramaticalizadas entre eventos: MedioE”, Revista Signos, vol. 39, no. 61, pp. 259-283, 2006. [28] J. Portolés, “Marcadores del Discurso”, Ed. Ariel, Barcelona, 2001. [29] B. Fraser, “What are discourse markers?”, Journal of Pragmatics, vol. 31, pp. 931-952, 1999. [30] G. Redeker, “Review article: linguistic markers of linguistic structure”, Linguistics, vol. 29, no. 6, pp. 1139-1172, 1991. [31] M. M. Louwerse and H. H. Mitchell, “Toward a taxonomy of a set of discourse markers in dialogue: a theoretical and computational linguistic account”, Discourse Processes, vol. 35, no. 3, pp. 243-281, 2003. [32] A. Knott and R. Dale, “Using linguistic phenomena to motivate a set of coherence relations”, Discourse Processes, vol. 18, no.1, pp. 35-62, 1994. [33] M. Pit, “How to Express Yourself with a Causal Connective: Subjectivity and Causal Connectives in Dutch, German and French”, Ed. Rodopi, Amsterdam, 2003. [34] T. Sanders, W. Spooren and L. Noordman, “Coherence Relations in a Cognitive Theory of Discourse Representation”, Cognitive Linguistics, vol. 4, no. 2, pp. 93–133, 1993. [35] B. Grote, N. Lenke and M. Stede, “Ma(r)king concessions in English and German, Discourse Processes, vol. 24, pp. 87-117, 1997. [36] L. Alonso, “Representing discourse for automatic text summarization via shallow NLP techniques”, PhD thesis, Universitat de Barcelona, España, 2005. [37] L. París, “Eventos e intervalos en la semántica del pretérito, del imperfecto y del progresivo”, Revista Signos, vol. 40, no. 65, pp. 609632, 2008. [38] M. Rey-López, R. P. Díaz-Redondo, A. Fernández-Vilas, J. J. PazosArias and M. López-Nores, “Objetos adaptativos de aprendizaje para tlearning”, IEEE Latin America Transactions, vol. 5, no. 6, pp. 401-408, 2007. [39] F. de Souza Farias, L. Vilar de Souza, R. C. Medeiros Sousa, C. A. Muñiz Caldas, L. Figueiredo Gomes and J. C. Weyl Albuquerque Costa, “Data Mining Applied to Diagnose Diseases Caused by Lymphotropic Virus: a Performance Analysis”, IEEE Latin America Transactions, vol. 10, no. 1, pp. 1319-1323, 2012. [40] R. Perez Carreiro, J. Javier Samper Zapater, R. P. Chagas do Nascimento and F. Milton Mendes Neto, “Personal Health Records, Agents Technology and Ontologies for Homecare Monitoring of Chronic Patients” IEEE Latin America Transactions, vol. 12, no. 8, pp. 1581-1589, 2014. [41] E. Muñoz Mata, M. Muñoz Mata, E. Capon and J. Mejia Miranda, “Knowledge Management in Process Improvement and Best Practices Sharing”, IEEE Latin America Transactions, vol. 12, no. 3, pp. 469-474, 2014. [42] M. M. Hamri, and S. M. Benslimane, “Building an Ontology for the Metamodel ISO/IEC24744 using MDA Process” International Journal of Modern Education and Computer Science, vol. 7, no. 8, pp. 48-70, 2015. [43] E. Amer, “Enhancing Efficiency of Web Search Engines through Ontology Learning from Unstructured Information Sources” en IEEE International Conference on Information Reuse and Integration, California, USA, pp. 542-549, 2015. [44] P. Kordjamshidi, and M. F. Moens, “Global machine learning for spatial ontology population” Web Semantics: Science, Services and Agents on the World Wide Web, vol. 30, pp. 3-21, 2015. [45] M. Balint, and S. Trausan-Matu, “A Model for the Recognition of Discourse Relations”, en IEEE 20th International Conference on Control Systems and Computer Science, Bucharest, Rumania, pp. 365-369, 2015. [46] E. Maziero, G. Hirst, and T. Pardo, “Semi-supervised never-ending learning in rhetorical relation identification” en Proceeding of Recent Advances in Natural Language Processing, Hissar, Bulgaria, pp. 436– 442, 2015. [47] S. Zhao, T. Liu, S. Zhao, Y. Chen and J. Y. Nie, “Event causality extraction based on connectives analysis”, Neurocomputing, vol. 173, no. 3, pp. 1943-1950, 2015. [48] I. da Cunha, J. M. Torres and G. Sierra G, “On the Development of the RST Spanish Treebank” en Proceedings of the 5th Linguistic Annotation Workshop, 49th Annual Meeting of the Association for Computational Linguistics, Oregon, USA, pp. 1-10, 2011. [49] R. Baeza-Yates and B. Ribeiro-Neto, “Modern information retrieval”, Ed. ACM press, New York, 1999. José Alejandro Reyes recibió el grado de Maestro en Ciencias de la Computación en 2008 por el Centro Nacional de Investigación y Desarrollo Tecnológico, Morelos, México, y el grado de Doctor en Ciencias de la Computación por el Centro Nacional de Investigación y Desarrollo Tecnológico, Morelos, México, en 2013. Actualmente, trabaja como Profesor-Investigador de tiempo completo en la Universidad Autónoma Metropolitana, Azcapotzalco, México y sus áreas de investigación actuales incluyen la lingüística computacional, la extracción de información y la creación automática de ontologías a partir de textos. Azucena Montes recibió el grado de Doctor en Ciencias por la Université Paris Sorbonne, Francia en 2002. Trabajó como Profesora-Investigadora de tiempo completo en el Centro Nacional Investigación y Desarrollo Tecnológico de 2002 a 2012. Actualmente, se encuentra en la Universidad Nacional Autónoma de México en el grupo de Ingeniería Lingüística como investigadora de tiempo completo y sus áreas de interés en la investigación incluyen la semántica cognitiva, representación del conocimiento, lingüística computacional, extracción de información y procesamiento de lenguaje natural. 363