tesis de maestría en ciencias

Anuncio
Centro Nacional de Investigación y Desarrollo Tecnológico
Departamento de Ciencias Computacionales
TESIS DE MAESTRÍA EN CIENCIAS
Poblado Automático de Ontologías Espaciales a Partir de Texto no
Estructurado
Presentada por
Juan Diego Gómez Fierros
Ing. en Sistemas Computacionales por el I.T. de Zacatepec
Como requisito para la obtención del grado de:
Maestría en Ciencias en Ciencias de la Computación
Directora de tesis:
Dra. Azucena Montes Rendón
Co-Director de tesis:
Dr. David Eduardo Pinto Avendaño
Jurado:
Dr. Juan Gabriel González Serna – Presidente
M.C. Javier Ortiz Hernández – Secretario
M.C. José Alejandro Reyes Ortiz – Vocal
Dra. Azucena Montes Rendón – Vocal Suplente
Cuernavaca, Morelos, México.
30 de noviembre de 2012
Dedicatorias
Quiero dedicar este trabajo de tesis a mi madre la cual me ha apoyado siempre
brindándome su amor desde el primer día que me cargo en sus brazos y me ha enseñado el
valor de la vida y el conocimiento de las cosas más importantes que se puedan aprender, el
respeto, amor y los valores inculcados por su constante dedicación. Este trabajo es tuyo al
igual que yo.
A mi padre que siempre supo brindar su constante ayuda económica para que nada faltara
en el hogar y me mostró el camino que debe seguir un verdadero hombre siempre al lado de
su familia, ayudando, respetando, amando. Te dedico este trabajo.
A mis hermanos que siempre me mostraron su incondicional apoyo para salir adelante sé
que para cualquier cosa que necesite puedo contar con ellos y con su particular forma de ser
lo cual los hace únicos y valiosos. Gracias por todo
Cada quien en su forma de pensar y en su educación puede creer en lo que considera mejor
y desde la más tierna infancia me fue inculcado el amor a Dios, por eso sé que gracias a él
puedo estar ahora en el lugar en el que estoy, y ya lo menciono Blaise Pascal “En el
corazón de todo hombre existe un vacío que tiene la forma de Dios. Este vacío no puede ser
llenado por ninguna cosa creada. Él puede ser llenado únicamente por Dios, hecho
conocido mediante Cristo Jesús.”
I
Agradecimientos
Quiero expresar mi más profundo agradecimiento a la directora de esta tesis: la Dra.
Azucena Montes Rendón su dedicación al conocimiento científico y su espíritu enérgico y
afectivo son un ejemplo a seguir y han incitado mi ilusión por el estudio gracias por
depositar su confianza en mí. Puedo asegurar que he tenido el privilegio de poder trabajar,
no bajo su dirección, sino con su ayuda y su colaboración.
A mis revisores de tesis: M.C. José Alejandro Reyes Ortiz, Dr. Juan Gabriel González
Serna y el Dr. Javier Ortiz Hernández, los cuales dedicaron parte de su tiempo a realizar las
revisiones necesarias para poder realizar un trabajo digno de una investigación de maestría.
Gracias por su ayuda apoyo y consejos.
De mi familia poco hace falta decir. Mis padres y hermanos siempre han estado ahí a mi
lado incondicionalmente, siempre brindándome su ayuda, comprensión apoyo pero sobre
todo su amor, quiero agradecerles porque gracias a ellos me encuentro en donde estoy
ahora.
A mis compañeros que los considero como una auténtica fortuna repartida en varios sitios
distintos. Muchas gracias a todos mis amigos, a los de siempre que han sobrellevado con
gran paciencia las innumerables horas de mi ausencia y a los de ahora, que espero
conservar por mucho tiempo, ambos grupos forman parte inseparable en esta etapa de mi
vida.
Al centro nacional de investigación y desarrollo tecnológico cenidet por aceptarme como
alumno, que gracias a sus profesores tengo las herramientas necesaria para poder ser un
investigador de éxito y gracias al apoyo económico brindado por el CONACYT pude
dedicarme íntegramente al estudio de mi carrera.
II
Abstract
The process for creation automatic of ontologies also called ontology learning involves
several activities, which can be simplified into: a) find the relevant terms of the domain
(Classes) and taxonomic relationships between them; b) establish no taxonomic
relationships between classes; c) find instances of classes and relationships. This process
has been an area of study for several investigations that attempt to ontologies from text.
There are several proposals to automate the process of building of ontologies, which
have some common characteristics differences by distinguishing factors very precise, some
of these proposals use statistical approaches (Sánchez & Moreno, 2004), other natural
language processing (NLP) (Sabou, Wroe, Goble, & Mishne, 2005) and finally there are
some that combine both techniques (Cimiano & Vaolker, 2005).
The type of data they handle the tools vary in format, can make populated ontological
for structured data, semi-structured data or even plain text which implies a high degree of
analysis and using NLP techniques.
Currently, in the CENIDET in the group of Web Technologies, is developing a project
in which the main objective is extraction and information retrieval from ontologies. An
important part of this project is the transformation of the information contained in a text to
ontology and using the latter for the extraction and recovery of information.
In this work thesis is instantiated ontology with spatial information which complements
the ontology “OntoEvento (Reyes, 2011)” in their part of spatiality indicating the place of
occurrence of an event, to do this using various techniques for recognizing spatial entities
and for populating semi-automatic of ontologies, as the use of patterns lexical - syntactic.
Keywords: ontology population, PLN, Ontologies, lexical patterns
.
III
Resumen
El proceso de creación semiautomático de ontologías también llamado aprendizaje
ontológico involucra varias actividades, las cuales se pueden simplificar en: a) encontrar los
términos relevantes del dominio (clases) y las relaciones taxonómicas entre ellas; b)
establecer las relaciones no taxonómicas entre las clases; c) encontrar las instancias de las
clases y las relaciones. Este proceso ha sido un campo de estudio para varias
investigaciones que intentan obtener ontologías a partir de texto.
Existen varias propuestas para automatizar el proceso de construcción de ontologías en
la parte de poblado ontológico, las cuales tienen algunas características en común
diferenciándose entre ellas por factores distintivos muy precisos, algunas de estas
propuestas utilizan enfoques estadísticos (Sánchez & Moreno, 2004), otras procesamiento
de lenguaje natural (Sabou, Wroe, Goble, & Mishne, 2005) y finalmente existen algunos
que mezclan ambas técnicas (Cimiano & Vaolker, 2005).
El tipo de datos que manejan las herramientas mostradas en el párrafo anterior, varía en
su formato, pudiendo realizar el poblado ontológico de datos estructurados, semiestructurados o incluso de textos sin formato (texto plano) lo cual implica un alto grado de
análisis y el uso de técnicas del PLN (Procesamiento de Lenguaje Natural).
Actualmente, en el cenidet, en el grupo de Tecnologías Web se está desarrollando un
proyecto donde el objetivo principal es la extracción y recuperación de información a partir
de ontologías. Una parte importante de este proyecto es la transformación de la información
contenida en un texto a una ontología y utilizar esta última para la extracción y
recuperación de información.
En los siguientes capítulos que integran este trabajo de tesis se explica cómo se realiza
la instanciación de una ontología con información espacial, la cual complementa la
ontología OntoEvento (Reyes, 2011) en su parte de espacialidad, indicando el lugar de
ocurrencia de un acontecimiento, para realizar esto se utilizan diversas técnicas para el
reconocimiento de entidades espaciales y para el poblado semiautomático de ontologías,
como el uso de patrones léxicos - sintácticos.
Palabras clave: Poblado Ontológico, PLN, Ontologías, Patrones léxicos.
IV
Contenido
Capítulo 1. Introducción ....................................................................................................................1
1.1
Motivación .........................................................................................................................2
1.2
Planteamiento del problema ..............................................................................................2
1.3
Objetivos ............................................................................................................................3
1.3.1
Objetivo principal .......................................................................................................3
1.3.2
Objetivos particulares .................................................................................................3
1.4
Alcances y limitaciones .......................................................................................................3
1.4.1
Alcances ......................................................................................................................3
1.4.2
Limitaciones ................................................................................................................4
1.5
Organización de la tesis ......................................................................................................4
Capítulo 2. Fundamento teórico........................................................................................................5
2.1
Ontologías ..........................................................................................................................6
2.2.1
Principales componentes del modelado de ontologías ..................................................6
2.2.2
Aprendizaje de ontologías ..............................................................................................8
2.3
Procesamiento del lenguaje natural (PLN) .......................................................................10
2.3.1
Clasificación del PLN en función de los niveles de análisis lingüístico ..........................13
2.4
Extracción de información ................................................................................................14
2.5
Patrones lingüísticos .........................................................................................................17
2.6
Espacialidad y eventos ......................................................................................................18
2.6.1
Espacialidad ..................................................................................................................18
2.6.1.1 Espacialidad en textos ...............................................................................................19
2.6.2
Eventos .........................................................................................................................19
2.6.2.1 Características de los eventos ...................................................................................20
Capítulo 3. Estado del arte ..............................................................................................................22
3.1
Introducción .....................................................................................................................23
3.2
Enfoques para aprendizaje ontológico .............................................................................24
3.2.1
Enfoque estadístico ......................................................................................................25
3.2.2
Enfoque lingüístico .......................................................................................................26
3.2.3
Enfoques híbridos .........................................................................................................28
3.2.4
Enfoque basado en patrones lingüísticos .....................................................................29
3.2.4.1 Patrones construidos manualmente .........................................................................30
3.2.4.2 Patrones construidos automáticamente ...................................................................31
V
3.3
Herramientas ....................................................................................................................34
3.3.1
OpenCalais ....................................................................................................................34
3.3.2
AlchemyAPI ..................................................................................................................35
3.3.3
Extractiv ........................................................................................................................36
3.3.4
STILUS NER ...................................................................................................................38
3.3.5
ZEMANTA .....................................................................................................................39
3.3.6
Comparativa entre herramientas .................................................................................40
Capítulo 4. Metodología de solución ...............................................................................................42
4.1
Identificación de patrones ................................................................................................43
4.1.1
Características del método ...........................................................................................44
4.1.2
Metodología para extracción de patrones ...................................................................45
4.1.3
Extracción de patrones léxicos .....................................................................................46
4.2
Selección de patrones relevantes .....................................................................................48
4.3
Aplicación de los patrones ................................................................................................51
4.4
Instanciación de OntoEspacio en espacialidad .................................................................52
4.5
Prototipo ..........................................................................................................................53
Capítulo 5. Pruebas y resultados .....................................................................................................57
5.1
Introducción .....................................................................................................................58
5.2
Métricas de evaluación.....................................................................................................58
5.2.1
Precisión .......................................................................................................................58
5.2.2
Recuerdo ......................................................................................................................59
5.2.3
Medida F .......................................................................................................................59
5.3
Plan de pruebas ................................................................................................................60
5.3.1
Elementos de prueba ...................................................................................................60
5.3.1.1 Características probadas ...........................................................................................60
5.3.1.2 Características excluidas ...........................................................................................61
5.3.1.3 Enfoque ....................................................................................................................62
5.3.1.4 Criterio éxito/fracaso de los casos de prueba ..........................................................62
5.3.1.5 Criterios de suspensión y requerimientos de reanudación .......................................62
5.3.1.6 Documentos entregables de las pruebas ..................................................................63
5.3.1.7 Tareas de pruebas .....................................................................................................63
5.3.1.8 Requerimientos necesarios para realizar las pruebas ...............................................64
5.3.1.9 Responsabilidades .....................................................................................................64
VI
5.3.1.10 Riesgos y contingencias ............................................................................................64
5.3.2
Aprobación ...................................................................................................................64
5.3.3
Casos de prueba ...........................................................................................................65
5.3.4
Especificación del procedimiento de prueba ................................................................65
5.4
Pruebas.............................................................................................................................68
5.4.1
Reconocimiento de entidades espaciales .....................................................................68
5.4.2
Identificación de conceptos relacionados a eventos ....................................................70
5.4.3
Solución a anáfora lingüística .......................................................................................70
5.4.4
Poblado ontológico.......................................................................................................72
Capítulo 6. Conclusiones y trabajos futuros ....................................................................................75
6.1
6.1.1
Conclusiones.....................................................................................................................76
Contribuciones .............................................................................................................77
6.2
Publicaciones ....................................................................................................................77
6.3
Trabajos futuros ...............................................................................................................78
Anexos .............................................................................................................................................84
Herramientas utilizadas................................................................................................................85
PETRA Tag ....................................................................................................................................85
OpenCalais ...................................................................................................................................87
VII
Figuras
Figura 1. Ejemplo de una ontología........................................................................................ 8
Figura 2. Capas del aprendizaje ontológico (Cimiano, 2006) .............................................. 10
Figura 3. Niveles del Procesamiento de Lenguaje Natural (Castellanos, Fernández, &
Valencia, 2008)..................................................................................................................... 13
Figura 4. Ejemplo de anuncio de un seminario “Ontologies and Information Extraction” .. 16
Figura 5. Entramado de conceptos formales para el ejemplo, el turismo (Cimiano, Hotho, &
Staab, 2005) .......................................................................................................................... 28
Figura 6. Jerarquía de conceptos ontológicos para el ejemplo, el turismo (Cimiano, Hotho,
& Staab, 2005) ...................................................................................................................... 28
Figura 7. Clasificación de entidades en Open Calais ........................................................... 35
Figura 8. Extracción de entidades en AlchemyAPI .............................................................. 36
Figura 9. Extracción de entidades en Extractiv .................................................................... 38
Figura 10. Etiquetado de entidades en STILUS NER .......................................................... 39
Figura 11. Extracción de entidades en ZEMANTA ............................................................. 40
Figura 12. Gráfica comparativa de las herramientas ............................................................ 41
Figura 13 Arquitectura general del método propuesto para la extracción de patrones ........ 46
Figura 14. Entidades espaciales ............................................................................................ 47
Figura 15. Estructura de entidades espaciales ...................................................................... 48
Figura 16. Modelo general de solución ................................................................................ 51
Figura 17. Interfaz del prototipo ........................................................................................... 53
Figura 18. Explorador de archivos ....................................................................................... 53
Figura 19. Texto de noticia procesado.................................................................................. 54
Figura 20. Extracción de argumentos y RA ......................................................................... 55
Figura 21. Extracción de candidatos espaciales ................................................................... 55
Figura 22. OntoEspacio instanciada ..................................................................................... 56
Figura 23. Ecuación de la precisión (Salton & McGill, 1983) ............................................. 58
Figura 24. Ecuación del recuerdo (Salton & McGill, 1983) ................................................ 59
Figura 25. Grafica de precisión y recuerdo en el reconocimiento de entidades mediante
patrones................................................................................................................................. 69
Figura 26. OntoEspacio ........................................................................................................ 73
Figura 27. Gráfica de precisión y recuerdo para el poblado ontológico............................... 74
Figura 28. Precisión de las herramientas .............................................................................. 88
Figura 29. Exhaustividad de las herramientas ...................................................................... 88
Figura 30. Precisión y Exahustividad interpoladas .............................................................. 88
VIII
Tablas
Tabla 1 Ccomparativa entre enfoques .................................................................................. 33
Tabla 2. Comparativa entre herramientas ............................................................................. 40
Tabla 3. Formato de las entidades espaciales en textos de noticias ..................................... 43
Tabla 4. Actividades planeadas en el plan de pruebas ......................................................... 63
Tabla 5. Resultados en el reconocimiento de entidades espaciales ...................................... 69
Tabla 6. Pruebas de anáfora lingüística ................................................................................ 70
Tabla 7. Resultados en el poblado ontológico ...................................................................... 73
Tabla 8. Comparativa entre herramienta para la extracción de entidades ............................ 87
IX
Capítulo 1. Introducción
En este capítulo se presentan los principales temas que llevaron a la realización de esta
tesis, tales como, los objetivos, limitaciones y la metodología de solución propuesta para
realizar el poblado de la ontología espacial.
Capítulo 1.- Introducción
1.1
Motivación
El uso de ontologías en diferentes tareas ha tenido un crecimiento acelerado, es por ello
que se necesita crear ontologías de forma rápida y precisa. El desarrollo de esta tarea de
manera manual implica altos costos y consume bastante tiempo al desarrollador de éstas o
al experto del dominio. Por lo tanto, surge la idea del aprendizaje semiautomático y
automático de elementos ontológicos, esta idea se propone como solución a los problemas
que origina la creación manual de ontologías.
El proceso de creación semiautomático de ontologías también llamado aprendizaje
ontológico involucra varias actividades, las cuales se pueden simplificar en: a) encontrar los
términos relevantes del dominio (clases) y las relaciones taxonómicas entre ellas; b)
establecer las relaciones no taxonómicas entre las clases; c) encontrar las instancias de las
clases y las relaciones. Este proceso ha sido un campo de estudio para varias
investigaciones que intentan obtener ontologías a partir de texto.
En el cenidet, en el grupo de Tecnologías Web se está desarrollando un proyecto donde
el objetivo principal es la extracción y recuperación de información a partir de ontologías.
Una parte importante de este proyecto es la transformación de la información contenida en
un texto a una ontología y utilizar esta última para la extracción y recuperación de
información.
1.2
Planteamiento del problema
En (Reyes, 2011) el objetivo principal es diseñar una metodología para la creación de
ontologías de dominio a partir de texto no estructurado mediante el Procesamiento
automático del lenguaje natural, con un enfoque lingüístico. En este trabajo se ha
desarrollado una ontología llamada “OntoEvento” que representa la conceptualización de
un evento para abordar esta problemática.
La conceptualización de un evento está fundada prácticamente en tres aspectos:



Espacio: todo evento sucede en algún lugar, (Miller, 1999)
Tiempo: todo evento transcurre en un intervalo de tiempo (Desclés, 2010)
Agentividad: la mayoría de los eventos son realizados por algún ente animado o
inanimado. (Tesnière, 1976) y (Halliday, 1994)
Por lo tanto, en este trabajo de tesis se pretende abordar los problemas relacionados al
reconocimiento de entidades espaciales, para instanciar la ontología OntoEvento en su parte
de espacialidad.
Juan Diego Gómez Fierros
2|Página
Capítulo 1.- Introducción
Utilizando técnicas de Procesamiento de Lenguaje Natural (PLN) y un análisis
lingüístico profundo de los textos para la extracción de los elementos espaciales relevantes.
1.3
Objetivos
En esta sección se presenta el objetivo principal y los objetivos particulares de esta
tesis.
1.3.1 Objetivo principal
El objetivo principal de este trabajo de tesis consiste en:
“Desarrollar una metodología que permita identificar información espacial de un texto no
estructurado para instanciar la ontología OntoEvento”
1.3.2 Objetivos particulares





1.4
Identificar y extraer conceptos relacionados a eventos.
Identificar y extraer conceptos relacionados al lugar donde sucede un evento.
Implementar los métodos propuestos en (Reyes, 2011a) para tratamiento de
elipsis y anáfora.
Desarrollar una herramienta que implemente la metodología creada.
Evaluar los resultados de la extracción de la información.
Alcances y limitaciones
1.4.1 Alcances






La metodología sólo identifica lugares y eventos.
Se identifican eventos de tipo verbo y eventos nominalizados.
Se consideran los fenómenos de elipsis y anáfora.
Se desarrolló una herramienta que implementa la metodología.
Se instancia OntoEvento en la clase de espacio y evento.
Se evaluaron los resultados con la intervención de un experto.
Juan Diego Gómez Fierros
3|Página
Capítulo 1.- Introducción
1.4.2 Limitaciones





1.5
Los textos de los que se extrae la información para tomar los conceptos
espaciales son de tipo periodístico, no se toman en cuenta otros dominios.
Los textos se encuentran en formato de texto plano.
La ontología resultante sólo contiene información relacionada con lugares y
eventos
Sólo se obtiene la ontología espacial de documentos en idioma español.
No se considera la información temporal ni causal
Organización de la tesis
En el capítulo uno se muestra la principal motivación, planteamiento del problema,
objetivos, metodología de solución, alcances y limitaciones a los que se acotó la tesis,
mostrando las principales ideas y la solución para poblar una ontología.
En el capítulo dos se muestra el marco teórico en el cual se explica el fundamento
teórico necesario para el desarrollo de esta tesis como las ontologías, extracción de
información, técnica de PLN (Procesamiento de Lenguaje Natural) y los patrones
lingüísticos.
En el capítulo tres se observa el estado del arte, que es una recopilación de diferentes
trabajos los cuales fueron analizados para conocer las técnicas utilizadas por otros
investigadores en la solución de una problemática similar a la presentada en esta tesis.
En el capítulo cuatro se describe el trabajo principal de esta tesis, se desglosa la
metodología desarrollada explicando cada una de las partes que la componen y como se
llegó a la conclusión de utilizar las diferentes herramientas y módulos que la conforman,
también se muestran imágenes del prototipo desarrollado explicando cada una de sus
funcionalidades, insumos y salidas.
En el capítulo cinco se muestran las pruebas planteadas primeramente en un plan de
pruebas, en el que se describen los pasos a seguir para la realización de cada una de estas,
posteriormente se muestran los resultados obtenidos al aplicar cada una de las pruebas
definidas.
En el capítulo seis se resumen todas las conclusiones obtenidas durante la realización de
este trabajo de tesis y se explican los trabajos futuros pendientes planteados durante la
realización de la misma.
Juan Diego Gómez Fierros
4|Página
Capítulo 2. Fundamento teórico
En este capítulo se presentan las diversas y principales definiciones, técnicas y conceptos
abordados como, técnicas de PLN (Procesamiento de Lenguaje Natural), Extracción de
información, aprendizaje ontológico y patrones lingüísticos, todo esto necesario para el
desarrollo de los métodos que componen la metodología de solución.
Capítulo 2.- Fundamento teórico
2.1
Ontologías
Después del nacimiento de la Web Semántica, la cual se convirtió en un gran avance,
las ontologías se convirtieron en sinónimo para la solución a muchos problemas sobre el
hecho de que las computadoras no entienden el lenguaje humano: si hubiera una ontología
en la que todos los documentos fueran marcados con ella y además cuente con agentes
capaces de entender el marcado, los equipos finalmente serían capaces de procesar nuestras
consultas de una manera más eficiente. El éxito de Google nos muestra que la misión no se
ha hecho realidad, se ve obstaculizada por la increíble cantidad de trabajo extra que se
requiere para la codificación semántica intelectual del marcado (en comparación con
simplemente cargar una página HTML). Para disminuir este cuello de botella, el ámbito
para el aprendizaje de ontologías ha surgido como un importante sub-campo de la
ingeniería de la ontológica.
Es ampliamente aceptado que las ontologías pueden facilitar la comprensión de texto y
Procesamiento automatizado de los recursos textuales. Pasar de las palabras a los conceptos
no sólo mitiga los problemas de escasez de datos, pero también promete atractivas
soluciones a la polisemia y la homonimia, encontrando conceptos no ambiguos que pueden
mapearse para diversos usos, en lugar del uso de palabras posiblemente ambiguas.
El término ontología puede entenderse de diferentes formas y se ha utilizado en la
filosofía por muchos siglos. Por el contrario, la noción de la ontología en el ámbito de la
informática es más reciente, pero ha sido utilizado de manera distinta a la expresada en lo
referente a los detalles de la definición (Biemann, 2005).
2.2.1 Principales componentes del modelado de ontologías
Las ontologías tienen los siguientes componentes que sirven para representar el
conocimiento de algún dominio (Corcho, Fernández, Gómez, & López, 2003):
Los conceptos son objetos o entidades, considerados desde un punto de vista amplio.
Por ejemplo, en el dominio legal los siguientes términos son utilizados como conceptos:
persona física, tribunal, menor de edad, etc.
Los conceptos de una ontología están normalmente organizados en taxonomías en las
cuales se pueden aplicar mecanismos de herencia. Por ejemplo, se puede representar una
taxonomía de entidades legales, donde una persona jurídica es subclase de persona, una
compañía es subclase de persona jurídica, una compañía privada es subclase de compañía,
etc.
Juan Diego Gómez Fierros
6|Página
Capítulo 2.- Fundamento teórico
Las relaciones representan un tipo de asociación entre conceptos del dominio. Si la
relación une dos conceptos –por ejemplo, la relación se celebra en que une un juzgado y un
juicio– se denomina relación binaria. Una relación binaria relevante es Subclase-de, ya que
se utiliza para construir taxonomías de clase.
Las instancias se utilizan para representar individuos en la ontología. Ejemplos de
instancias del concepto tribunal son la Audiencia Estatal de México o el Tribunal
Constitucional. Las relaciones también se pueden instanciar. Por ejemplo, se podría
expresar que en la Audiencia estatal de México se celebra el juicio 127/2004.
Las constantes son valores numéricos que no cambian en un largo período de tiempo.
Por ejemplo, en España la edad de mayoría de edad es de 18 años.
Los atributos describen propiedades. Se pueden distinguir dos tipos de atributos: de
instancia y de clase. Los atributos de instancia describen propiedades de las instancias de
los conceptos, en las cuales toman su(s) valor(es). Estos atributos se definen en un concepto
y se heredan a sus subconceptos e instancias. Por ejemplo, el nombre de una persona física
es propio de cada instancia.
Los atributos de clase describen conceptos y toman su(s) valor(es) en el concepto en el
cual se definen. Estos atributos no se heredan ni a los subconceptos ni a las instancias. Un
ejemplo es el atributo tipo de control del concepto compañía, que puede ser utilizado para
determinar el tipo de control de una compañía privada, de una compañía pública y de una
compañía de control privado y público.
Los axiomas formales son expresiones lógicas siempre verdaderas que suelen utilizarse
para definir restricciones en la ontología. Un ejemplo de axioma es que una persona no
puede ser el demandado y el demandante en el mismo juicio.
Las reglas se utilizan normalmente para inferir conocimientos en la ontología, tales
como valores de atributos, instancias de relaciones, etc. Un ejemplo de una regla es la
siguiente: un juicio donde el acusado es un menor de edad que tiene más de 14 años se
celebra en un tribunal de menores.
Para ejemplificar los elementos de una ontología se muestra la figura 1 que presenta una
ontología en el dominio de instrumentos musicales.
De esta ontología se puede identificar los siguientes elementos: la clase instrumentos
musicales, la cual tiene dos subclases instrumentos de viento e instrumentos de cuerda; la
relación taxonómica subclase_de entre instrumentos de viento e instrumentos musicales y
la relación es_un que conecta los conceptos instrumentos de viento e instrumentos de metal;
y por ultimo una instancia de la clase instrumentos con traste que es La guitarra de Paul.
Juan Diego Gómez Fierros
7|Página
Capítulo 2.- Fundamento teórico
Figura 1. Ejemplo de una ontología
Existen tres tipos fundamentales de ontologías según (Steve, Gangemi, & Pisanelli.,
1998):

Ontologías de un dominio, en las que se representa el conocimiento especializado
pertinente de un dominio o subdominio, como la medicina, las aplicaciones militares, la
cardiología.

Ontologías genéricas, en las que se representan conceptos generales y fundacionales
del conocimiento como las estructuras parte/todo, la cuantificación, los procesos o los
tipos de objetos.

Ontologías representacionales, en las que se especifican las conceptualizaciones que
subyacen a los formalismos de representación del conocimiento, por lo que también se
denominan meta-ontologías (meta-level o top-level ontologies).
A estos tres tipos se añade las ontologías que han sido creadas para una actividad o
tarea específica (denominadas task ontologies), como por ejemplo la venta de productos o
el diagnóstico de una enfermedad y las ontologías creadas para una aplicación específica.
2.2.2 Aprendizaje de ontologías
Una ontología proporciona una estructura y un vocabulario común para la organización
del conocimiento de un dominio específico, en la cual se encuentran todos los conceptos
interconectados a través de relaciones.
Juan Diego Gómez Fierros
8|Página
Capítulo 2.- Fundamento teórico
Por tanto el uso de las ontologías en el PLN nos permite representar la estructura
conceptual del lenguaje, proporcionando una riqueza semántica mayor que un lexicón
computacional o que un tesauro. La relación que se establece entre las ontologías y las
técnicas de PLN es bidireccional: por un lado son herramientas para la representación de
redes semánticas y por otro el PLN es una técnica importante en la construcción automática
de ontologías (ontology learning)
Las ontologías se utilizan como redes semánticas que representan los conceptos del
mundo extralingüístico. De este modo, a través de las relaciones entre los conceptos,
permiten identificar el contexto de un término. La identificación del contexto es esencial
para saber cuál es el sentido de ese término en el discurso. Una de las aproximaciones del
uso de PLN y las ontologías se centra en la construcción automática de ontologías y en la
detección de los elementos ontológicos (conceptos, clases, relaciones y atributos) a partir de
texto en lenguaje natural.
La construcción automática de ontologías (ontology learning en inglés) se ha
convertido en uno de los principales focos de investigación dentro del ámbito de la Web
Semántica. Las ontologías en la Web Semántica se utilizan como estructura compleja para
la representación del conocimiento, generalmente de un dominio. Dicho conocimiento está
contenido en muchas ocasiones en textos escritos en lenguaje natural. La construcción de
ontologías es un proceso lento y costoso que ralentiza el avance de la Web Semántica, por
esto es necesario desarrollar métodos eficaces para la generación automática de ontologías
a partir de lenguaje natural. El aprendizaje de ontologías tiene diferentes capas o sub-tareas
(Cimiano, 2006), las cuales se describen a continuación y se muestran en la figura 2.








Adquisición de terminología relevante
Identificación de sinónimos (posiblemente a través de lenguajes)
Formación de conceptos
Organización jerárquica de los elementos
Aprendizaje de relaciones, propiedades, atributos, junto con su respectivo rango
y dominio
Organización jerárquica de las relaciones
Instanciación de los axiomas del esquema
Definición de los axiomas arbitrarios
Juan Diego Gómez Fierros
9|Página
Capítulo 2.- Fundamento teórico
Axiomas
generales
Axiomas
del esquema
toda ciudad tiene una única capital
Disjunta (rio, montaña)
capital_de ≤R localizado_en
Jerarquía de relaciones
fluye_a_través_de (dom: rio, rango: ciudad)
capital ≤c ciudad
C:= país
Relaciones
Jerarquía de conceptos
Conceptos
[país, nación]
río, ciudad, país, capital
Sinónimos
Términos
Figura 2. Capas del aprendizaje ontológico (Cimiano, 2006)
Para los propósitos de la figura 2 se incluyen algunos ejemplos concretos para el
dominio de la geografía, dentro del paso de adquisición de terminología se extraen los
términos como, ríos, ciudades, naciones, capitales, país. En el paso de descubrimiento de
sinónimos se agrupan los términos nación y país que en un cierto contexto son sinónimos.
En la fase de descubrimiento de conceptos se hace una separación entre las instancias y los
conceptos o clases, para los cuales se crea una jerarquía de conceptos, por ejemplo en el
dominio geográfico se descubre que capital ≤C ciudad.
También se ejemplifica el aprendizaje de relaciones junto con su dominio y su rango
con la relación fluye_a_través_de entre un rio y ciudad. La siguiente capa es el
ordenamiento jerárquico de las relaciones que se ejemplifica con que capital_de es una
especialización de localizado_en. En el nivel de la instanciación de axiomas del esquema se
deriva que la clase rio y montaña son conceptos disjuntos, es decir que ninguna instancia
que aparezca en la clase rio puede aparecer en la clase montaña. Finalmente, también se
pueden derivar relaciones complejas entre los conceptos y las relaciones en forma de
axiomas, un ejemplo de esto es que cada instancia de la clase ciudad sólo puede tener
asociada una única capital.
2.3
Procesamiento del lenguaje natural (PLN)
El Procesamiento del Lenguaje Natural (PLN) es una sub-disciplina de la Inteligencia
Artificial y de la lingüística computacional. El PLN se ocupa de la formulación e
investigación de mecanismos eficaces computacionalmente para la comunicación entre
personas o entre personas y máquinas por medio del lenguaje natural.
Juan Diego Gómez Fierros
10 | P á g i n a
Capítulo 2.- Fundamento teórico
El PLN trata de diseñar mecanismos para comunicarse que sean eficaces
computacionalmente. Los modelos aplicados se enfocan no sólo a la comprensión del
lenguaje de por sí, sino a aspectos generales cognitivos humanos y a la organización de la
memoria. El lenguaje natural sirve sólo de medio para estudiar estos fenómenos.
El Procesamiento del Lenguaje Natural (PLN) puede ser visto como un intento de
simular el comportamiento lingüístico humano, de manera que, el sistema de signos que
constituye la lengua, sea adquirido y procesado por el computador, siendo éste capaz de
reconocer, comprender, interpretar y generar lenguaje humano, ya sea escrito o hablado.
Desde los años 50, dentro del marco de la Inteligencia Artificial, se han llevado a cabo
numerosas investigaciones con el objetivo establecer mecanismos computacionales que
permitieran la comunicación eficaz hombre-máquina en lenguaje natural.
Las primeras décadas (50’s - 70’s) se caracterizaron por un optimismo inicial en el que
se pretendía dotar a la máquina de competencia lingüística plena, pero los resultados
obtenidos no fueron los esperados. Por este motivo, en las décadas siguientes, hasta la
actualidad, los esfuerzos se han centrado en el desarrollo de aplicaciones específicas, tales
como, el reconocimiento del habla, el procesamiento del texto a nivel morfosintáctico, el
desarrollo de herramientas para la adquisición de conocimiento semántico, etc.
En el intento por la automatización de los procesos lingüísticos han confluido distintas
disciplinas, tanto informáticas como lingüísticas, dando lugar a denominaciones que
sintetizan esa “hibricidad”.
Éste es el caso de la lingüística computacional, que puede ser vista como un conjunto
heterogéneo de teorías, métodos, herramientas, aplicaciones y productos que tienen en
común la consideración de la lengua como un objeto susceptible de ser tratado mediante
procedimientos informáticos (Llisterri, 2003).
En sus inicios el PLN se centró principalmente en tres áreas: la traducción automática,
el reconocimiento del habla y el acceso a bases de datos (Jackson & Schilder, 2006).
Aunque estos tres elementos siguen siendo objeto de las investigaciones en PLN, a lo largo
de las décadas y con el desarrollo de nuevas tecnologías como Internet, se han incorporado
nuevos usos, entre ellos la recuperación de información, los sistemas de diálogo, la
búsqueda de respuestas (question answering), extracción de información o el resumen
automático.
Pero, a pesar de los avances continúa sin resolver uno de los problemas nucleares en IA,
esto es, cómo dotar a las máquinas de conocimiento suficiente del mundo extralingüístico,
de forma que sean capaces de producir oraciones con sentido pleno e inferir conocimiento
de ellas.
Juan Diego Gómez Fierros
11 | P á g i n a
Capítulo 2.- Fundamento teórico
Lo que se pretende con el desarrollo de las distintas técnicas de procesamiento de
lenguaje natural, es el acercamiento a los mecanismos de funcionamiento de la lengua, al
conjunto de operaciones y de reglas que relacionan todos y cada uno de los elementos del
sistema de signos que es la lengua (Marín, 2000). No hay que olvidar a respecto a esto, los
estudios pragmáticos y socio-culturales que permiten enmarcar una determinada
producción textual en su contexto discursivo.
Estos aspectos han sido estudiados por las distintas áreas de la lingüística: fonética,
morfología, sintaxis, semántica y pragmática, por tanto, los diferentes niveles o fases de las
técnicas empleadas para el procesamiento del lenguaje natural se corresponden, a grosso
modo, con las áreas más arriba mencionadas. Además, puede haber tareas previas de
procesamiento formal del texto, tales como la identificación y segmentación de las
unidades a analizar.
Las disciplinas relacionadas con el PLN son:
Lingüística:

Ofrece una descripción y modelización del lenguaje humano y de las lenguas
naturales.

Proporciona teorías, herramientas y técnicas para el Procesamiento automático de la
lengua.
Informática

Proporciona teorías, herramientas y técnicas para el Procesamiento automático de la
lengua.
Inteligencia artificial

Desarrollo de sistemas informáticos que simulan el comportamiento humano.

Adquisición de conocimientos.

Razonamiento a partir de los conocimientos adquiridos.

Representación de los conocimientos adquiridos.
Ingeniería de telecomunicación

Centrada en la transmisión y el Procesamiento de la señal del habla.
Psicología

Proporciona una descripción y modelización de la interacción y del comportamiento
lingüístico humano.
Juan Diego Gómez Fierros
12 | P á g i n a
Capítulo 2.- Fundamento teórico
2.3.1 Clasificación del PLN en función de los niveles de análisis lingüístico
Las fases o niveles de procesamiento no son independientes unas de otras, sino que
están interrelacionadas. A medida que se va avanzando en el análisis, será necesario
recurrir al conocimiento extraído en niveles anteriores, e incluso posteriores.
Por ejemplo, para la desambiguación de las categorías morfológicas es necesario
recurrir a la sintaxis para determinar la función de un término en la oración. Por otro lado
aunque el procesamiento en los niveles inferiores como el análisis morfológico y la
desambiguación han alcanzado cotas aceptables de eficacia, no se puede decir lo mismo de
niveles superiores como la semántica y la pragmática debido a su complejidad.
Las fases o niveles del procesamiento del lenguaje natural son los siguientes (Figura 3):
Figura 3. Niveles del Procesamiento de Lenguaje Natural (Castellanos, Fernández, & Valencia, 2008)
Juan Diego Gómez Fierros
13 | P á g i n a
Capítulo 2.- Fundamento teórico
• Pre-procesamiento textual: Consiste en identificar las partes que lo forman y
dividirlas adecuadamente para el análisis. Las principales partes del texto que se suelen
identificar son: las palabras, las oraciones y los párrafos. Se pueden distinguir también
elementos como encabezados, notas al pie, hipervínculos, etc.
Si se trata de un texto escrito, ésta es la primera parte del análisis, si por el contrario se
trata de discurso oral, será necesario utilizar en primer lugar el procesamiento fonético.
• Procesamiento fonético: la fonética se encarga de la descripción de las dimensiones
físico-acústicas, articulatorias y auditivas de los sonidos del lenguaje. Esta parte es
necesaria para el desarrollo de tecnologías del habla.
• Procesamiento léxico-morfológico: La morfología estudia la estructura de la forma
de las palabras, básicamente a través del uso de morfemas (flexivos y derivativos).
Basándose en esos morfemas y en la posición que ocupan con respecto al lexema, se
pueden determinar aspectos como el tiempo, el género, el número, el grado etc. Por otro
lado, el procesamiento morfológico clasifica las unidades lingüísticas en las distintas
categorías gramaticales: sustantivo, verbo, adjetivo, adverbio, etc.
• Procesamiento sintáctico: La sintaxis estudia las relaciones que se establecen entre
las palabras dentro de la oración y las reglas que rigen estas relaciones. Para el
procesamiento sintáctico es necesario contar con los patrones sintácticos más frecuentes en
una lengua determinada.
Se suele recurrir a un corpus anotado sintácticamente en donde los patrones han sido
representados en forma de arborescencia.
• Procesamiento semántico: La semántica es el estudio del significado del lenguaje,
por lo que con el procesamiento semántico se intenta establecer la relación que existe entre
las formas lingüísticas analizadas y el sentido con el que están utilizadas en una secuencia
textual determinada.
• Procesamiento pragmático: La pragmática estudia las estrategias comunicativas
enmarcándolas en un contexto socio-cultural. Uno de los principales problemas con los que
se enfrenta el procesamiento pragmático es la anáfora.
2.4
Extracción de información
El considerable desarrollo de la comunicación multimedia va de la mano con un
aumento exponencial del volumen de la información textual.
Juan Diego Gómez Fierros
14 | P á g i n a
Capítulo 2.- Fundamento teórico
Hoy en día, las tecnologías de recuperación de información (RI) no son capaces de
satisfacer las necesidades de información específica, ya que proporcionan información a
nivel de colección de documentos. El desarrollo de herramientas inteligentes y métodos,
que dan acceso al contenido del documento y extraer la información pertinente, es más que
nunca una cuestión clave para el conocimiento y la gestión de la información. La
Extracción de información es una de las principales líneas de investigación que tratan de
satisfacer esta necesidad.
El campo de la Extracción de información se inició por el DARPA’s MUC program
(Grishman & Sundheim, 1996). MUC definió originalmente la extracción de información y
la tarea de extracción de los tipos específicos y bien definidos de información del texto en
los conjuntos homogéneos de documentos con dominios restringidos y espacios
predefinidos a rellenar o plantillas de formularios con la información extraída.
MUC también ha dado lugar a una nueva evaluación del paradigma: comparar la
información extraída de forma automática con los resultados producidos por el hombre.
MUC ha inspirado una gran cantidad de trabajos en Extracción de información y se ha
convertido en una referencia importante en el campo de la minería de textos. Incluso, sigue
siendo una tarea difícil construir un sistema eficiente de Extracción de información con
buenos rangos de memoria (cobertura) y de precisión (exactitud) (Aone & Ramos, 2000) y
(Aussenac, Biébow, & Szulman, 2000).
Una típica tarea de Extracción de información se ilustra en la Figura 3 de un corpus de
un anuncio para un seminario CMU “Freire 1998”. EI proceso reconoce un nombre (John
Skvoretz) y lo clasifica como un nombre de persona.
También se reconoce un evento de seminario y se crea un formulario de eventos
seminario (John Skvoretz es el ponente de seminarios cuya presentación se titula
"Compromiso Embebido" (“Embedded commitment”). Incluso en un ejemplo tan sencillo,
no debe considerarse como un simple método de filtrado de palabras claves. Llenar un
formulario con palabras extraídas y fragmentos de texto implica un proceso de
interpretación.
Cualquier fragmento debe interpretarse con respecto a su "contexto" (es decir, el
conocimiento del dominio o de otras piezas de información extraída del mismo documento)
y de acuerdo a su "tipo" (es decir, la información es el valor de un atributo / función / rol
representado por un valor del formulario). En el documento de la Figura 4, "4-5:30" se
entiende como un intervalo de tiempo y es necesario interpretar el "4" como "4 pm" y como
el tiempo de inicio del seminario.
Juan Diego Gómez Fierros
15 | P á g i n a
Capítulo 2.- Fundamento teórico
Formulario para rellenar (parcial)
lugar: ?
hora de inicio:?
título: ?
ponente: ?
Documento: El profesor John Skvoretz, U. de Carolina del Sur, Columbia, presentará un seminario
titulado "Compromiso embebido", el jueves, 4 de mayo de 4-5:30 en el PH 223D.
Llenado de formulario (parcial)
lugar: PH 223D
hora de inicio: 4 pm
Título: compromiso embebido
ponente:
El profesor
John
[...]un seminario “Ontologies and Information Extraction”
Figura
4. Ejemplo
deSkvoretz
anuncio de
En un típico sistema de Extracción de información, se pueden identificar tres pasos del
proceso (Hobbs, y otros, 1997) y (Cowie & Wilks, 2000):



Pre-procesamiento de texto, cuyo nivel varía de segmentación del texto sólo en
frases y oraciones mediante tokens, a un análisis lingüístico completo.
Selección de reglas: las reglas de extracción están asociadas con disparadores
(por ejemplo palabras clave), el texto se analiza para identificar los puntos de
disparo y las normas correspondientes se seleccionan.
Aplicación de las reglas, se comprueban las condiciones de la regla
seleccionada y se rellenan los formularios de acuerdo a las conclusiones de las
normas de coincidencia de datos.
Extraer información de los textos requiere conocimientos léxicos, gramáticas que
describen la sintaxis específica de los textos a analizar, así como conocimientos semánticos
y ontológicos. En este punto, no se tomará parte en el debate sobre el límite entre el léxico
y la ontología como un modelo conceptual.
Más bien se centra en el papel que las ontologías juegan para considerarse como bases
de conocimiento semántico en la Extracción de información y el uso de ontologías para la
Extracción de información, las cuales están enriquecidas por el conocimiento conceptual,
esto se refiere a su elaboración lingüísticas (por ejemplo, un concepto debe estar asociado a
los términos que lo expresan con su valor de tiempo en varios idiomas) (Nédellec &
Nazarenko, 2005).
Juan Diego Gómez Fierros
16 | P á g i n a
Capítulo 2.- Fundamento teórico
2.5
Patrones lingüísticos
Al expresarnos utilizamos una serie de estructuras lingüísticas con las que organizamos
nuestro discurso y que ayudan al receptor a asimilar la información conceptual que
emitimos. Por lo tanto, si encontramos estas estructuras, que llamaremos patrones, y las
introducimos en un programa de extracción de información como WordSmith (Scott, 2011),
nos aportarán la información requerida.
El uso de patrones lingüísticos para la extracción de relaciones conceptuales es bastante
reciente en terminología por lo que todavía no posee una denominación establecida. Por
eso, cabe destacar las diferentes maneras con las que los diversos autores han designado lo
que nosotros llamamos en este trabajo patrones lingüísticos, como por ejemplo la
denominación patterns que utiliza el grupo cogniterm dirigido por (Meyer, 2001).
El siguiente listado de términos ha sido tomado de (Marshman, Morgan, & Meyer,
2002): formulae (Lyons, 1977), diagnostic frames o test frames (Cruse, 1986), frames
(Winston et al, 1987), knowledge probes (Ahmad & Fulford, 1992), definitional
metalanguage y defining expositives (Pearson, 1998). En español, se destaca a (Bach, 2005)
que utiliza la denominación de marcadores de reformulación (MR) y (Faber, Rodríguez, &
Sánchez, 2001) que utiliza el término patrones. A pesar de las diferentes denominaciones,
todos los autores se refieren al mismo concepto que (Condamines, 2002) llama marqueurs
en francés o patterns en inglés y la define como:
Una estructura discursiva utiliza como un indicador de la posible transición del discurso
a un modelo, lo que permite la construcción semi-directa de un modelo en forma de una
relación semántica dependiendo de su relación con el contexto.
De una manera más sencilla, (Marshman, Morgan, & Meyer, 2002) los definen como
“Palabras, combinaciones de palabras o elementos paralingüísticos de los textos que a
menudo indican relaciones conceptuales”. A partir de esta definición, estas autoras señalan
en ese mismo artículo que existen tres tipos de patrones lingüísticos para la detección de
contextos ricos en conocimientos:
1) Patrones léxicos. Son los más visibles y consisten en palabras o grupos de palabras
que indican las relaciones conceptuales.
2) Patrones gramaticales. Implican combinaciones de estructuras gramaticales que
ofrecen relaciones semánticas entre conceptos aunque de un modo más limitado que los
patrones léxicos.
3) Patrones paralingüísticos. Se trata de los elementos textuales como por ejemplo
comas, paréntesis, puntos, etc. Así como marcas tipográficas.
Juan Diego Gómez Fierros
17 | P á g i n a
Capítulo 2.- Fundamento teórico
En resumen, gracias a estos patrones de conocimiento, el terminólogo es capaz de
detectar, de una manera rápida y eficaz, las relaciones semánticas y las estructuras
lingüísticas que ayudaron en este trabajo de tesis.
2.6
Espacialidad y eventos
2.6.1 Espacialidad
A lo largo de la historia del pensamiento humano, hubo numerosos intentos de describir
el concepto de espacio. Se enmarcaban en diversas ramas de las ciencias empezando por
filosofía, lógica, física, matemática, astronomía, geometría, etc. Posteriormente este interés
se extendió a otras materias científicas como: psicología, antropología, arte o literatura.
Empezando por la filosofía que, al parecer, fue una de las primeras ramas científicas que
abordó el tema desde el punto de vista científico, ya con Aristóteles (384-322 a.C.)
encontramos las primeras menciones sobre el espacio definido junto con el tiempo como un
conjunto interdefinible. Este gran filósofo sostenía que no se puede medir el tiempo sin el
movimiento, ni el movimiento sin el espacio (Barbosa, 1807) y (Ferrater M, 1974). La
imagen del espacio y movimiento que planteó Aristóteles tuvo su continuación en la física
del siglo XIV. Posteriormente, con la crítica de sus teorías, se propusieron también otras
ideas de filósofos griegos (Pitágoras, Arquímedes, etc.) que dieron lugar a unas nuevas
metodologías científicas que fueron mucho más prácticas y aplicables: Copérnico (1473 –
1642), Galileo (1564 – 1642), Kepler (1575 – 1630), etc.
Dentro de las tendencias actuales podemos observar que se presta cada vez más
atención al fenómeno relacionado con varias categorías espaciales que constituyen las bases
para la descripción de la realidad que nos rodea. Sin embargo, estos conceptos no son nada
nuevos. Ya hace bastante tiempo, Genette reflexionaba sobre la espacialidad de la lengua,
de las ideas o del arte, llegando a la conclusión que la gente “prefiere” conceptualizar más
el espacio que el tiempo. La fascinación por la noción del espacio, llevó a muchos
lingüistas a explicar conceptos gramaticales básicos (tales como p. ej. los casos) como
consecuencia de la visión del mundo a través del aspecto espacial.
La geometría y la lógica son impotentes para describir a fondo los locativos espaciales.
Aunque un día se pueda demostrar la existencia de algún tipo de inteligencia específica del
lenguaje, será irrefutable que la inteligencia general juega un papel importante en la
elaboración de los mecanismos del lenguaje. De ahí el paralelo establecido entre la manera
en que concebimos y percibimos el espacio y la manera en que lo describimos
lingüísticamente. (Vandeloise, 1986: 23-30) hace un intento de describir los locativos en
relación con los conceptos funcionales ligados al conocimiento extralingüístico del espacio
que comparten los hablantes de una misma lengua.
Juan Diego Gómez Fierros
18 | P á g i n a
Capítulo 2.- Fundamento teórico
2.6.1.1
Espacialidad en textos
El rasgo principal de la estructura semántica de la localización espacial constituye el
mecanismo lingüístico usado para indicar el lugar que no puede venir identificado por sí
mismo, sino que tiene que ser siempre identificado en relación a un objeto. Ocurre que para
localizar en el espacio necesitamos un objeto localizante, un objeto localizado y un
elemento relacionante. Ese elemento relacionante (locativo espacial), ha acogido
tradicionalmente a categorías tan diversas como adverbios, preposiciones, locuciones
prepositivas y prefijos, recibiendo últimamente un nuevo tratamiento gracias a la aplicación
de una perspectiva deíctica y/o intrínseca. El mecanismo de la localización supone que el
objeto y el lugar donde está son conocidos. Los locativos también pueden ser usados para
identificar el objeto en relación con el cual viene después identificado un lugar. El
significado de un locativo es la relación específica entre el lugar y el objeto. Esta relación
sólo puede ser descrita tomando en consideración la estructura semántica del objeto.
Este tipo de taxonomía relacional ha sido defendida por varios lingüistas: Hjemslev
(1935), Tesnière (1959), Fillmore (1968), Dowty (1979), Karolak (2001), etc. De acuerdo
con los supuestos presentados por estos lingüistas, el lenguaje está concebido a través de
los papeles relacionantes, es decir, casos semánticos que desempeñan sus funciones dentro
de la estructura sintagmática en la identificación del valor de los actantes del predicado.
Entre los casos enumerados por FILLMORE, figura también uno que corresponde a la
descripción de relaciones espaciales (locativo). La semántica espacial ha sido abordada
posteriormente por muchos semanticistas y causó varias polémicas, puesto que la
determinación de un conjunto homogéneo de los papeles temáticos siempre llevaba a la
elaboración de teorías difícilmente conciliables. Además, el intento de selección de los
criterios uniformes lleva a la conclusión de que existe un número limitado de los papeles
temáticos y que las funciones semánticas son universales puesto que su valor está definido
en función de acciones, eventos psicológicos, acontecimientos sometidos a algún tipo de
modificación o movimiento, así como de situaciones que se localizan en un determinado
espacio o tiempo.
2.6.2 Eventos
Los documentos de noticias contienen información valiosa representada en lenguaje
natural, tal como eventos, sucesos y hechos, así como información contextual del evento
(información temporal, espacial y causal) que describe las características y comportamiento
de la acción en el mundo real.
Juan Diego Gómez Fierros
19 | P á g i n a
Capítulo 2.- Fundamento teórico
En el trabajo de (Reyes, 2011) se realiza una caracterización de los eventos que
describen las noticias escritas con el objetivo de capturar la semántica de las oraciones de
los textos periodísticos.
2.6.2.1
Características de los eventos
Un evento puede estar descrito por un predicado (verbo) de una oración o por una
nominalización, como se puede ver en el siguiente ejemplo.
Los bomberos encontraron a una señora en la provincia de Fukushima.
(Verbo)
La erupción de volcán en Hawái.
(Nominalización)
Los eventos se clasificarán en dos tipos, eventos expresados por verbos y eventos
expresados por nominalización, los cuales se caracterizan de manera independiente.
Eventos expresados por verbos
Estos eventos se expresan por los verbos principales, conjugados en algún tiempo
(pasado, presente y futuro), en una oración. Existen teorías de lingüistas como L. Tesnière y
M.A.K. Halliday que se exponen en (Frías, 2001), y donde se afirma que el verbo es el
núcleo sobre el que giran todos los elementos de la oración, tomando en cuenta este
supuesto, los verbos se convierten en el núcleo de los eventos y con esto surge la necesidad
de utilizar un mecanismo que considere las valencias de los verbos para encontrar sus
argumentos.
La caracterización de este tipo de eventos se centrará en la gramática de valencias de
Tesnière que se expone en (Frías, 2001) y que se define como una teoría en donde el verbo
es el elemento fundamental en una oración y que sirve de columna vertebral al resto de
ésta.
Los principios de la teoría de las valencias, son:
a) Principio actancial. El elemento más importante de una oración es la acción
(verbo) que es considerado el centro de la oración y es el que dirige a los
actores (actantes). Según este principio, los verbos se distinguen según el tipo y
número de valencias que necesitan. Por tanto, los actantes del verbo (sus
valencias necesarias) varían entre verbos según su significado.
Juan Diego Gómez Fierros
20 | P á g i n a
Capítulo 2.- Fundamento teórico
b) Valores actanciales de los verbos. Los verbos en español tiene asignado un
número de valencia. Por lo tanto tenemos: verbos avalentes (sin actantes),
como llover, nevar, tronar (verbos de tiempo atmosférico), ser (en expresiones
como ser tarde, ser necesario, ser lícito, etc.), haber (con valor impersonal);
verbos monovalentes (requieren un actante), como ir, venir, llegar, salir;
verbos bivalentes que requieren necesariamente dos actantes, es decir, si
eliminamos el segundo, el verbo se queda mutilado en cuanto a su significado,
como romper, comer ; verbos trivalentes que requieren tres actantes, como
poner, dar.
c) Elementos de los actantes. Los actantes que participan en una oración pueden
clasificarse según L. Tasnière, en: a) actor: se identifica con el elemento del
que arranca el proceso; responde al rasgo [+animado][+/-humano]. Suele
corresponderse con el sujeto; b) agente: responde al mismo fenómeno que el
actor, pero con el sema [-animado]; c) objeto: se identifica con el elemento que
complementa el significado del proceso y su sema principal es [-animado]; d)
paciente: se identifica en todo con el objeto, con la diferencia de que responde
al sema [+animado]; e) beneficiario: se identifica con aquel que recibe los
beneficios o perjuicios de la acción, tiene el sema [+animado].
Eventos expresados por nominalización
Los eventos por nominalización se encuentran expresados por un verbo nominalizado
también conocido como sustantivación.
La nominalización, consistente en la creación de derivados nominales por sufijación,
puede ser denominal, deadjetival y deverbal. Este trabajo tiene un especial interés en la
nominalización deverbal, la cual se forma con un verbo más un sufijo. Este interés se debe
a la posibilidad de que un evento se encuentre expresado por una nominalización que a su
vez proviene de un verbo.
Según (Hernando, 1998) define la formación de la nominalización deverbal y la
nominalización deverbal regresiva, como:
La nominalización deverbal (N -»V + Afn) la efectúan los sufijos -ada (helada), -ado
(lavado), -aje (viraje), -(a, e)ncia (vagancia, asistencia), -(a, ie)nte (delineante,
escribiente), -anza (cobranza), -(a, i)ción (recaudación, fundición), -(ad, id)era (regadera,
escupidera), -(ed)eras (entendederas), -(ad, ed, id, and)ero (embarcadero, tendedero,
hervidero, curandero), -(ad, ed, id)or (encuadernador, recogedor, surtidor), -(ad)ora
(lavadora), -(ad, ed, id)ura (atadura, torcedura, añadidura), -(at)oria (eliminatoria), -ida
(salida), -ido (ladrido), -(a, i)m(i)ento (juramento, acercamiento, atrevimiento), -imenta
(impedimenta), -ón (tirón), -sión (comprensión), -ura (rotura).
Juan Diego Gómez Fierros
21 | P á g i n a
Capítulo 3. Estado del arte
En este capítulo se presentan diversos trabajos relacionados con el aprendizaje ontológico,
la recuperación y la extracción de información, los patrones lingüísticos y finalmente se
muestran las diferentes herramientas existentes actualmente para la identificación de
entidades espaciales en textos.
Capítulo 3.- Estado del arte
3.1
Introducción
Para los usuarios de la web en todo el mundo la recuperación de información se ha
convertido en una actividad cotidiana. Sin embargo, los usuarios no siempre reciben la
información esperada al momento de realizar una búsqueda en la Web. Una razón de esto
es que los recursos web existentes son pocas veces complementados con la anotación
semántica que describen su contenido, lo que haría más fácil el acceso a los servicios de
búsqueda automatizada (Gaihua, Jones C, & Abdelmoty, 2005).
La Extracción de Información (en inglés Information Extraction) es el campo del
Procesamiento del Lenguaje Natural cuyo objetivo es extraer de forma automática de
conocimiento estructurado, habitualmente dependiente del contexto, a partir de información
existente en texto no estructurado en lenguaje natural, con el fin de mejorar su explotación
y reutilización. Normalmente, como primer paso del proceso de extracción está el
reconocimiento de entidades con nombre (en inglés Named Entity Recognition, NER),
también conocido como identificación de entidades o extracción de entidades, que consiste,
como su propio nombre indica, en la detección y clasificación de los elementos del texto en
categorías predefinidas, como nombres de personas, organizaciones, lugares, expresiones
numéricas, de tiempo, etc., que aparecen mencionadas en un texto escrito en un
determinado idioma. Esta actividad también se suele denominar: etiquetado semántico.
La dificultad de la detección estriba en que dichas entidades pueden aparecer en
diferentes formas: por ejemplo, "Antonio Banderas" => "Banderas", "A. Banderas", "José
Antonio Domínguez Banderas", etc.; "Banco Santander Central Hispano" => "Banco
Santander", "Santander", "Grupo Santander", etc.
Además, una vez detectadas, surge el problema de la ambigüedad para su clasificación,
ya sea entre diferentes categorías o dentro de una misma categoría: por ejemplo, "Sevilla"
puede ser la ciudad, el equipo de fútbol, etc.
La aproximación ampliamente adoptada está basada en conocimiento, es decir, utiliza
diccionarios y conjuntos de reglas, normalmente desarrollados de forma manual, para
realizar la detección y la clasificación. Básicamente, las reglas aplican patrones de
expresiones regulares a las entidades del diccionario para generar las diferentes variantes
posibles en que puede aparecer una entidad, como por ejemplo:

(N)ombre (A)pellido => Nombre / Apellido / N. Apellido / Nombre A. / N. A.
Fernando Alonso => Fernando / Alonso / F. Alonso / Fernando A. / F. A.

(A)aaa (de|del|la|los|las)? (B)bbb (de|del|la|los|las)? (C)cc (de|del|la|los|las)? (D)ddd
=> ABCD
Organización de Países Exportadores de Petróleo => OPEP
Juan Diego Gómez Fierros
23 | P á g i n a
Capítulo 3.- Estado del arte
Existen varias propuestas para automatizar el proceso de construcción de ontologías, las
cuales tienen algunas características en común diferenciándose entre ellas por factores
distintivos muy precisos. Esta sección presenta el estado del arte sobre métodos, técnicas,
sistemas y herramientas que han sido desarrolladas en el área de aprendizaje de ontologías,
de las cuales se analizan sus características.
3.2
Enfoques para aprendizaje ontológico
Los enfoques de aprendizaje ontológico se pueden clasificar de acuerdo a los tipos de
datos utilizados para el aprendizaje (Gomez & Manzano, 2003) y (Shamsfard &
Barforoush, 2003). Estos tipos de datos son: no estructurados, semi-estructurados y
estructurados. Los datos no estructurados son los textos en lenguaje natural, como libros,
revistas, etc.
Datos Semi-estructurados son textos como HTML, archivos XML. Mientras que los
datos estructurados son las bases de datos y diccionarios. Nos vamos a concentrar en el
aprendizaje ontológico en datos de tipos no estructurado y semi-estructurado.
Los datos no estructurados son el tipo de datos más difícil para el aprendizaje
ontológico. Se necesita más capacidad de procesamiento que en los datos semiestructurados.
Los sistemas que se han propuesto para el aprendizaje a partir de texto no estructurado,
a menudo dependen de procesadores de lenguaje natural.
Algunos sistemas utilizan el procesamiento de textos poco profundos, con el análisis
estadístico, como (Sánchez & Moreno, 2004) y otros utilizan un analizador basado en
reglas, para identificar relaciones de dependencia entre las palabras, en lenguaje natural
(Sabou, Wroe, Goble, & Mishne, 2005).
El trabajo de (Cimiano, Hotho, & Staab, 2005) hace uso del etiquetador (part of speech
tagger) del TreeTagger (Schmid, 1994) y del analizador LoPar2 (Schmid, 2000). En
(Cimiano & Vaolker, 2005) se extraen ontologías a partir de texto en lenguaje natural
utilizando un enfoque estadístico, el enfoque de patrones y un enfoque de aprendizaje
automático mediante procesamiento lingüístico básico proporcionado por Text2onto.
El PLN (Procesamiento de Lenguaje Natural) es común en todas las técnicas, por lo
tanto, se clasificarán los diferentes enfoques en base a la técnica utilizada, además del PLN.
Juan Diego Gómez Fierros
24 | P á g i n a
Capítulo 3.- Estado del arte
Primero se describen los sistemas que integran PNL, con el enfoque estadístico, los
cuales, utilizan el recuento de la frecuencia de los sintagmas nominales y el nombre en los
documentos recuperados de la web para descubrir los conceptos y las relaciones
taxonómicas, mientras que por otra parte, utilizando el analizador superficial extraen frases
nominales.
La segunda sección describe los sistemas “puros” de PLN, que utiliza la gramática de
dependencias y programas de análisis para descubrir la relación entre las entidades
sintácticas. La tercera sección describe enfoques que incluye métodos de distintas
disciplinas: recuperación de información, base de datos léxica (WordNet), aprendizaje
máquina, además de la lingüística computacional.
3.2.1 Enfoque estadístico
Sánchez y Moreno (Sánchez & Moreno, 2004) comienzan la construcción de la
ontología usando palabras clave que están cerca a los conceptos de la ontología y
estrechamente relacionados. Envían la palabra clave a los motores de búsqueda para
recuperar las páginas relacionadas, a continuación, se realiza el análisis de estos sitios web
para encontrar los conceptos candidato para un dominio. Esta palabra clave se utiliza para
el aprendizaje de conceptos de las páginas devueltas por la recuperación de los bigramas
que contienen la palabra clave en el segundo término.
Por ejemplo, si la palabra clave es óptico y la palabra anterior inmediata es biosensor
(biosensor óptico, por ejemplo), entonces biosensor óptico es un concepto candidato para
óptico si tienen un tamaño mínimo y no es una “Stop Word” (palabra utilizada como
indicativo para termino de búsqueda).
La selección de los conceptos representativos dentro de los conceptos candidatos se
toma de acuerdo a los siguientes atributos:





Número total de apariciones (al analizar todos los sitios web)
Número de sitios web diferentes que contienen el concepto
Estimación del número de resultados devueltos por el motor de búsqueda al
seleccionar solo la palabra anterior (por ejemplo, biosensor)
Estimación del número de resultados devueltos por el motor de búsqueda al
unirse al concepto seleccionado con la palabra clave inicial.
Relación entre las dos últimas medidas.
Solo los conceptos candidatos cuyos atributos se ajustan a un conjunto de restricciones
especificadas (que es un rango de valores para cada parámetro) son seleccionados.
Juan Diego Gómez Fierros
25 | P á g i n a
Capítulo 3.- Estado del arte
Este sistema utiliza términos contando el número de ocurrencia de las condiciones, para
mejorar su rendimiento en el descubrimiento de conceptos, se consideran estos conceptos
descubiertos, como nuevas palabras clave y se vuelve a ejecutar el proceso para descubrir
sus conceptos hijos. Este proceso se repite de forma recursiva, hasta un nivel de
profundidad seleccionado, el resultado obtenido es una jerarquía que se almacena en la
ontología.
3.2.2 Enfoque lingüístico
En (Sabou, Wroe, Goble, & Mishne, 2005) utilizan un conjunto de patrones sintácticos
para descubrir las relaciones de dependencia entre las palabras. Su método de extracción
explota las regularidades sintácticas inherentes a la naturaleza del sub-lenguaje de
documentación de servicios web, el cual, es una forma especializada de lenguaje natural.
Sus etapas de extracción en la ontología son: el análisis de la dependencia, patrones
sintácticos, la construcción de la ontología y la poda de la misma. Usan un análisis de
dependencia para identificar relaciones de dependencia entre las palabras en lenguaje
natural. Una relación de dependencia es una relación binaria asimétrica entre una palabra
llamada cabeza y una palabra llamada modificador. Por ejemplo, en la frase "Buscar sitios
antigénicos de las proteínas", el "antigénico" es un adjetivo que modifica al sustantivo
"sitios", y "sitios" es el objeto del verbo "buscar", a continuación, un conjunto de patrones
sintácticos se utiliza para identificar y extraer información importante desde el corpus
anotado, para la construcción de la ontología.
Se definen tres grandes grupos / categorías de patrones que se utilizan para obtener
diferentes tipos de información. El primer grupo se utiliza para identificar los conceptos de
dominio.
En este caso, los patrones de sintagma nominal y el sustantivo ("NN" y "NMod") se
utilizan para descubrir los conceptos y las relaciones de dependencia entre ellos (como,
<sitio antigénico> y <sitio>).
El segundo grupo, se utiliza para la identificación de las funcionalidades que se ofrece
con frecuencia en ese dominio, utilizando verbos para identificar la funcionalidad, llevada a
cabo por un método y nombres estrechamente relacionados con estos verbos (como,
<buscar> <sitio antigénico).
Los últimos grupos se utilizan para la identificación de las relaciones con las frases
preposicionales (PP) para identificar una relación de meronimia para los términos que se
relacionan entre sí (como, “encontrar sitios antigénicos de las proteínas”, donde proteínas
es la PP <sitios antigénicos> son parte de <proteínas>).
Juan Diego Gómez Fierros
26 | P á g i n a
Capítulo 3.- Estado del arte
En (Cimiano, Hotho, & Staab, 2005) presentan un método automático para la
adquisición de las taxonomías o jerarquías de conceptos a partir de un corpus textual. Su
enfoque se basa en el análisis de conceptos formales que descubren las relaciones
inherentes, entre los objetos que se describen a través de un conjunto de atributos y los
atributos de ellos mismos (Ganter & Wille, 1999).
En primer lugar, se analiza el corpus etiquetando las palabras por relaciones parte-de y
generación de árboles de análisis para cada oración. El verbo/sujeto, verbo/objeto y
verbo/preposición se extraen y se analizan las dependencias preposicionales de los árboles
de análisis sintáctico, entonces, el verbo y las cabeceras se lematizan. Como la asunción de
la totalidad de la información nunca se cumple, la colección de pares se afina. La afinación
se lleva a cabo, mediante la agrupación de todos los términos que son mutuamente
similares, con respecto a la medida de similitud en cuestión.
Contando con más pares de atributos/objetos que se encuentran realmente en el texto,
dará lugar a la obtención de frecuencias de cero para algunos pares de atributos/objeto que
no aparecen literalmente en el corpus. El resultado global es una "afinación" del paisaje,
mediante la asignación de frecuencia relativa de algunas frecuencias de valor cero, a las
combinaciones de los verbos y los objetos que no se encuentra realmente en el corpus, por
ejemplo, coches y bicicletas son mutuamente similares y por lo tanto las parejas que tengan
cualquiera de ellos como atributos del verbo, se agrupan.
Los pares objeto/atributo se ponderan con probabilidad condicional, punto de
información mutua y la entropía relativa de las distribuciones anteriores y posteriores de un
conjunto de pares para determinar "la fuerza selectivas" del verbo en una posición de
argumento dado. Algunos pares durante un determinado umbral se transforman en un
contexto formal al que se aplica el análisis de concepto formal para producir una ontología
en forma de celosía (Figura 5).
El análisis del concepto formal es un método basado en la teoría de la orden y se utiliza
para el análisis de los datos, en particular, para descubrir las relaciones inherentes entre los
objetos que se describen a través de un conjunto de atributos por un lado y los mismos
atributos en el otro, el resultado se transforma de forma reticular a una forma de orden
parcial que se acerca más a una jerarquía de conceptos (Figura 6).
Juan Diego Gómez Fierros
27 | P á g i n a
Capítulo 3.- Estado del arte
Figura 5. Entramado de conceptos formales para el ejemplo, el turismo (Cimiano, Hotho, & Staab, 2005)
Reservable
Unibles
Hotel
Viaje
Excursión
Rentable
Paseable
Manejable
Paseable
Carro
Bicicleta
Figura 6. Jerarquía de conceptos ontológicos para el ejemplo, el turismo (Cimiano, Hotho, & Staab, 2005)
3.2.3 Enfoques híbridos
Text2Onto (Cimiano & Vaolker, 2005) ayuda a los usuarios en la selección de un
algoritmo de aprendizaje adecuado, para el tipo de ontología que quiere aprender.
Juan Diego Gómez Fierros
28 | P á g i n a
Capítulo 3.- Estado del arte
Primero, el corpus se analiza para anotación “part-of-speech” y sus palabras derivadas,
Text2Onto posee una librería de algoritmos para el aprendizaje de diferentes elementos de
la ontología, estos elementos pueden ser, conceptos, herencia de conceptos, instancias,
relaciones generales, relaciones de metrología (parte de, “Part of”) y equivalencia.
Los algoritmos de aprendizaje de conceptos pueden variar si el enfoque se basa en el
supuesto, de que la frecuencia de un término en un conjunto de textos de dominio
específico indica ocurrencia de un concepto relevante. Así, se aprenden conceptos en base a
las técnicas de Frecuencia de los Términos Relativos (RTF), TF/IDF (Frecuencia del
Termino/Frecuencia Inversa del Documento), la entropía y el método C-value/NC-value
(Frantzi, Ananiadou, & Tsuji, 1998).
Para extraer el concepto de relaciones de herencia text2onto han puesto en marcha
varios algoritmos en función de la explotación de la estructura de hiperónimos de WordNet,
igualando los patrones de (Hearst, 1992) y la aplicación de las reglas heurísticas lingüística.
Con el fin de aprender las relaciones en general, Text2Onto emplea una estrategia de
análisis superficial para extraer sub marcos de categorización enriquecida con información
sobre la frecuencia de los términos que aparecen como argumentos. El aprendizaje de
relaciones de instancias de conceptos, se basa en un enfoque tomado de la similitud de
extraer vectores de contexto para las instancias y los conceptos de la colección de textos y
la asignación de instancias con el concepto correspondiente al vector con la mayor
similitud, además, usa un patrón de coincidencia para el aprendizaje de instancias de
conceptos.
Las relaciones de equivalencia son aprendidas mediante la hipótesis de que los
conceptos, son equivalentes en la medida en que comparten similares contextos sintácticos.
Después de que el proceso de extracción de la ontología es terminado, la ontología se
presenta al usuario para refinarla, finalmente, el usuario puede seleccionar entre los
diferentes escritores de la ontología, que se ofrecen para la traducción de la ontología
aprendidas en diferentes lenguajes de representación de ontologías.
3.2.4 Enfoque basado en patrones lingüísticos
El estudio de la búsqueda de los mencionados patrones es todavía una vía de
investigación muy reciente y por eso, el número de trabajos que se han llevado a cabo sobre
este tema es muy reducido.
Además de esta escasa cantidad de estudios, también es importante subrayar que el
número de lenguas de reconocimiento internacional con las que se ha trabajado aún es
menor, reduciéndose únicamente al inglés, al francés y al español.
Juan Diego Gómez Fierros
29 | P á g i n a
Capítulo 3.- Estado del arte
Los estudios de (Ahmad & Fulford, 1992), (Pearson, 1998) y (Meyer, 2001), que
aparecen citados en la obra de (Marshman, Morgan, & Meyer, 2002), son algunas de las
investigaciones más desarrolladas sobre patrones en inglés de las que se tiene constancia.
Junto a estos estudios en inglés, también podemos destacar los realizados para el francés
por el grupo de trabajo cogniterm de la Universidad de Ottawa, en la que se enmarcan los
trabajos de investigación de (Davidson, 1998) y (Morgan, 2000).
Además del anterior grupo, igualmente cabe prestar atención a las investigaciones de
(Condamines & Rebeyrolle, 2001) en la búsqueda de patrones lingüísticos que detecten
relaciones semánticas.
En España, el grupo oncoterm: Sistema bilingüe de información y recursos
oncológicos, con miembros de varias universidades españolas, trabaja asimismo en esta
línea de investigación aunque su finalidad es la de crear una ontología de dominio en el
área de la oncología. En (Faber & Jiménez, 2002), este grupo hace un repaso a los objetivos
principales del proyecto y a los logros conseguidos.
En al área de los trabajos que utilizan patrones lingüísticos existen dos grandes
enfoques los cuales se describen en los puntos siguientes.
3.2.4.1
Patrones construidos manualmente
El uso de patrones para la extracción de relaciones semánticas fue propuesto por
(Hearst, 1992). En ese trabajo se presenta un método que utiliza, inicialmente, tres patrones
lexico-sintacticos construidos manualmente para extraer hipónimos. Los tres patrones
utilizados son mostrados en la siguiente lista:
▪ NP0 such as {NP1, NP2 …, (and | or )} NPn
▪ such NP as {NP,}*{(or |and)} NP
▪ NP {,NP}* {,} or other NP
En estos patrones, cuando una relación de hiponimia es descubierta entre dos frases
nominales, se realiza un proceso de lematización para relacionar únicamente las formas
bases de las palabras.
En (Hearst, 1992) se plantea, por primera vez, un interesante mecanismo para descubrir
semiautomáticamente nuevos patrones. Es decir, a partir de los patrones mencionados
anteriormente se realiza un proceso, que aunque manual, permite extraer nuevos patrones.
A través de este mecanismo (Hearst, 1992) descubre tres patrones más:
Juan Diego Gómez Fierros
30 | P á g i n a
Capítulo 3.- Estado del arte
▪ NP{, NP}*{,} and other NP
▪ NP{,} including {NP , }*{or | and} NP
▪ NP{,} especially {NP ,}*{or | and} NP
De acuerdo con (Hearst, 1992), los patrones que descubrió satisfacían los siguientes
requisitos:
▪ Ocurrir frecuentemente y en una gran variedad de géneros de texto.
▪ Indicar la relación de interés.
▪ Ser reconocidos sin o con poco conocimiento pre-codificado.
Generalmente, los patrones creados de forma manual son muy precisos. No obstante, el
lenguaje es tan variado y existen numerosas formas de introducir dos palabras que
mantienen una relación.
Después de la propuesta de Hearst, han surgido varios trabajos de investigación que
aprovechan patrones creados manualmente para extraer hipónimos. Por ejemplo:
(Mann, 2002) aprovechó el uso de patrones léxicos-POS creados por observación para
obtener instancias de la relación de hiponimia entre nombres propios.
En (Fleischman, Hovy, & Echihabi, 2003) se propone un esquema similar al de (Mann,
2002). Pero se extiende el número de patrones utilizados en relación al trabajo de Mann.
Además, también se integran técnicas de aprendizaje automático para filtrar las instancias
extraídas.
Se requeriría mucho esfuerzo si se intentara construir manualmente los patrones
suficientes para describir las entidades espaciales. Este inconveniente ha motivado el
desarrollo de investigaciones enfocadas a descubrir patrones de manera semi-automática.
3.2.4.2
Patrones construidos automáticamente
A partir de las ideas de (Hearst, 1992) otros trabajos exploraron métodos automáticos
para el descubrimiento de patrones. Básicamente, estos métodos parten de un conjunto de
parejas de palabras que mantienen la relación deseada, conocidas comúnmente como
semillas.
Enseguida, se identifican los fragmentos de texto en donde aparecen dichas semillas y,
finalmente, se generalizan dichos fragmentos para obtener los patrones de extracción.
Juan Diego Gómez Fierros
31 | P á g i n a
Capítulo 3.- Estado del arte
En los siguientes párrafos se mencionan algunos ejemplos de trabajos que utilizan
métodos de este tipo.
Inicialmente, (Pasca, 2004) parte de patrones elegidos manualmente, los cuales resume
en el siguiente patrón:
< [StartOfSent] X [such as|including] N [and | , | .]>
Con este patrón se extrae un conjunto de instancias de la relación de hiponimia.
Enseguida, utiliza un mecanismo que permite descubrir nuevos patrones. De esta manera,
los patrones nuevos aumentan el número de las instancias extraídas.
En (Pantel, Ravichandran, & Hovy, 2004) se presenta un algoritmo para aprender
automáticamente y a gran escala, patrones lexico-sintacticos en múltiples niveles (nivel
léxico y nivel POS). En ese trabajo se menciona la importancia de delimitar los patrones
léxicos a través de etiquetas de partes de la oración.
En (Pantel & Pennacchiotti, 2006) se presenta un algoritmo para extraer relaciones
semánticas. Este algoritmo toma como entrada un conjunto de semillas de una relación
semántica en particular, para extraer instancias pertenecientes a esa relación.
El mecanismo iterativo que se maneja en ese trabajo, permite aprender patrones lexicosintacticos en cada iteración. En consecuencia, se aumenta el conjunto de instancias a la
salida. Por último, en ese trabajo evalúan la confianza de las instancias y de los patrones
con base en la información mutua que existe entre patrones e instancias de la relación.
Ahora bien, la ventaja de los métodos que se basan en patrones es que son muy
confiables. Por ejemplo, en (Pantel & Pennacchiotti, 2006) se reporta una precisión de 85%
sobre una muestra aleatoria de 20 instancias de un total de 200 instancias. Sin embargo, la
desventaja principal de estos métodos es que necesitan un corpus muy grande para
encontrar suficientes patrones de todas las formas posibles.
En particular, la presente tesis se ubica dentro de este grupo de trabajos.
Específicamente, se propuso un método que se basa en el uso de patrones descubiertos de
manera semiautomática.
Así pues, el método propuesto está orientado a extraer entidades espaciales y/o tomar
otras entidades de una BD definida previamente. El método inicia con un conjunto de
“semillas” (oraciones con entidades espaciales) que permiten descubrir un conjunto de
patrones léxicos de extracción. Enseguida, los patrones se aplican sobre noticias extraídas
de la Web. Finalmente, se estima la confianza de los patrones observando los resultados
obtenidos y mediante medidas comunes de evaluación como precisión y recuerdo.
Juan Diego Gómez Fierros
32 | P á g i n a
Capítulo 3.- Estado del arte
Tabla 1 Ccomparativa entre enfoques
Tipo de enfoque
Autores más
representativos
Forma de trabajo
Efectividad / Técnicas
empleadas
Estadístico
(Sánchez & Moreno,
2004)
Usando palabras clave que están cerca a
los conceptos de la ontología y
estrechamente relacionados. Envían la
palabra clave a los motores de búsqueda
para recuperar las páginas relacionadas, a
continuación, se realiza el análisis de
estos sitios web para encontrar los
conceptos candidato para un dominio.
Esta palabra clave se utiliza para el
aprendizaje de conceptos de las páginas
devueltas por la recuperación de los
bigramas que contienen la palabra clave
en el segundo término
Depende directamente con el
número de palabas clave, la
representación de estas de
acuerdo al dominio y los
documentos recuperados de la
web
Lingüístico
(Sabou, Wroe, Goble,
& Mishne, 2005),
(Cimiano, Hotho, &
Staab,
Learning
Concept Hierarchies
from Text Corpora
using
Formal
Concept
Analysis.,
2005) y (Ganter &
Wille, 1999)
Conjunto de patrones sintácticos para
descubrir las relaciones de dependencia
entre palabras.
Basada en la efectividad de los
patrones.
Extraen automáticamente las taxonomías
o jerarquías de conceptos a partir de un
corpus textual.
Análisis
de
conceptos
formales
que
descubren
relaciones y conjunto de
atributos representativos del
texto
(Cimiano & Vaolker,
2005)
Mediante la herramienta Text2Onto la
cual ayuda a los usuarios en la selección
de un algoritmo de aprendizaje adecuado
para el tipo de ontología que quiere
aprender.
Algoritmos de aprendizaje de
conceptos basados en las
técnicas
de
Frecuencia
Relativa de los términos
(RTF) y TF/IDF.
Hibrido
Explotación de la estructura de
hiperónimos de WordNet,
igualando los patrones de
Hearst y la aplicación de
reglas heurísticas lingüísticas.
Basado en
patrones
extraídos
manualmente
(Hearst, 1992)
Uso de patrones para la extracción de
relaciones semánticas, específicamente
para extraer hipónimos.
Se realiza un proceso de
lematización para relacionar
únicamente las formas bases
de las palabras.
Basado en
patrones
extraídos
automáticamente
(Pantel,
Ravichandran,
&
Hovy, 2004), (Pantel
&
Pennacchiotti,
2006)
Se presentan 2 algoritmos, el primero
aprender automáticamente y a gran
escala, patrones léxico-sintácticos, el
segundo extrae relaciones semánticas.
Se toma como entrada un
conjunto semilla de una
relación
semántica
en
particular,
para
extraer
instancias pertenecientes a esa
relación.
Trabajo de Tesis
No Aplica
Uso de patrones, herramientas (Calais) y
recursos(BD) para la extracción de
entidades espaciales (instancias)
Reconocimiento de entidades
por parte de la herramienta
Calais, la BD y los patrones
lingüísticos.
Juan Diego Gómez Fierros
33 | P á g i n a
Capítulo 3.- Estado del arte
3.3
Herramientas
En este apartado se mencionarán las principales herramientas existentes para la
categorización de entidades, se tomaron en cuenta solo las herramientas que identifican
entidades geográficas, ya que estas entidades fueron de importancia para el desarrollo de
esta tesis.
3.3.1 OpenCalais
Open Calais es un servicio web de Thomson Reuters que permite la extracción de
entidades, hechos y eventos de texto libre en inglés, francés y español. Su versión en inglés
es la que presenta una mayor funcionalidad, si bien en español permite:



reconocimiento y categorización de entidades usando 15 clases de entidades
evaluación de la relevancia de entidades
desambiguación y enlazado con Linked Open Data para algunos tipos como
Company
Open Calais ofrece un API sencillo que puede ser usado mediante SOAP, REST vía
HTTP POST, o HTTP POST. Como entrada permite documentos de distintos formatos
(HTML, HTMLRAW, XML y texto).
Además de la etiquetación semántica el servicio incluye la eliminación de cabeceras y
otros elementos en HTML así como la detección de idioma. Como salida ofrece la elección
de varios formatos XML/RDF, texto, texto con micro formatos o JSON.
Los formatos XML/RDF y JSON incluyen URIs derreferenciables que pueden enlazar
con una tercera fuente de conocimiento, típicamente Linked Data. Para la definición de
todas las clases utilizadas en Open Calais existe tanto un esquema RDFS como una
ontología OWL.
Juan Diego Gómez Fierros
34 | P á g i n a
Capítulo 3.- Estado del arte
Figura 7. Clasificación de entidades en Open Calais
3.3.2 AlchemyAPI
AlchemyAPI utiliza la tecnología de procesamiento de lenguaje natural y algoritmos de
aprendizaje automático para analizar el contenido de un texto, extracción semántica de
metadatos: información sobre personas, lugares, empresas, temas, idiomas y mucho más.
Para la extracción de nombres de entidades entre las cuales se identifican a las personas,
empresas, organizaciones, ciudades, lugares geográficos y otras entidades contenidas dentro
de una página HTML o en un documento de texto. Esta herramienta cuenta con un
reconocimiento avanzado de nombres de entidades (NER), la capacidad de funcionar en
varios idiomas y ofrece capacidades completas de desambiguación.
El etiquetado de conceptos se realiza de manera automática de forma similar a como lo
realizamos los seres humanos, posee una capacidad avanzada para el marcado de concepto,
el cual, es capaz de hacer abstracciones ("Hillary Clinton + Barbara Bush + Laura Bush ==
Primeras Damas de los Estados Unidos"), la anotación en los documentos cuenta con altos
índices de exactitud.
AlchemyAPI, extrae los términos más importantes y las palabras clave "tema" de las
páginas HTML y documentos de texto. Utiliza algoritmos avanzados estadísticos y
lingüística para analizar el contenido, "marcando" las palabras y las frases más importantes.
Identifica los sentimientos positivos, negativos y neutrales dentro de las páginas HTML
y documentos de texto, brindando apoyo para la extracción de documentos a nivel de
sentimiento, a nivel de entidad y a nivel de palabra clave.
Identificar los hechos y las relaciones sujeto-objeto-acción dentro de las páginas HTML
y documentos de texto. Presta apoyo para la extracción de sentimiento, sujeto y objeto.
Automáticamente clasifica los temas de las páginas web y documentos de texto.
Juan Diego Gómez Fierros
35 | P á g i n a
Capítulo 3.- Estado del arte
Posee la capacidad de clasificación de documentos proporcionando una rápida
clasificación de la taxonomía para su contenido no estructurado.
Se puede determinar el idioma del texto original en AlchemyAPI, ya que tiene la
capacidad de identificación del lenguaje, identifica 97 idiomas diferentes de forma
automática, filtra y organiza la información por el idioma.
AlchemyAPI es capaz de extraer datos estructurados (precios, descripciones de
productos, etc.) de cualquier página web. El empleo de avanzadas restricciones visuales,
permiten a AlchemyAPI extraer datos estructurados en función de las características
visuales y estructurales, tales como etiquetas de texto, la posición, etc.
Identificar los "microformatos" de datos estructurados dentro de cualquier página web.
Analizar y extraer información de sus coordenadas en formato hCard, información de
contacto, Geo-formato latitud / longitud.
Figura 8. Extracción de entidades en AlchemyAPI
3.3.3 Extractiv
Extractiv ofrece dos servicios principales: Rastreo de la Semántica en páginas Web y
Semántica “On-Demand”. Ambos servicios ofrecen la conversión automática de los
contenidos en la estructura semántica de datos, pero se diferencian en los tipos de
documentos y tareas para las que son las más adecuadas.
El servicio de Rastreo de la Semántica en páginas Web, permite rastrear millones de
páginas web y convertir cualquier contenido estructurado encontrado en las páginas, en los
datos semánticos. Cuando se ejecuta un rastreo de Semántica en páginas Web, se establecen
los siguientes parámetros:
Juan Diego Gómez Fierros
36 | P á g i n a
Capítulo 3.- Estado del arte





¿Qué Direcciones URL se extraerán?
¿Qué entidades se extraerán al analizar las páginas web?
¿Qué relaciones entre las entidades se desea extraer?
Los filtros para especificar los tipos de páginas web que desea analizar.
¿Qué formato se desea para mostrar los resultados (JSON, en línea)?
El extractor Extractiv está construido en base a una potente plataforma de distribución,
que permite el proceso Extractiv más de 100.000 documentos por hora. El procesamiento
del lenguaje natural (PLN) que se ejecuta con este rastreo, proporciona la extracción de
información de forma precisa.
En la parte de semántica “On-Demand”, se ofrece la conversión semántica automática
para el procesamiento de documentos específicos, pudiendo ser aquellos documentos
contenidos en la propia computadora. Utilizando el API REST On-Demand, se pueden
cargar y procesar tantos documentos como se desee.
Cuando se ejecuta la semántica “On-Demand”, se proporciona:



Un solo documento o URL que se desea procesar.
Resultados en el formato que desee (JSON, RDF, en línea).
Un Extractiv API Token
Se puede utilizar la API REST con el navegador web, a través del propio código o a
través de la línea de comandos. Extractiv genera anotaciones semánticas para los
documentos con la mínima intervención del usuario.
Extractiv proporciona datos y semántica de manera eficiente. Al evaluar diferentes
servicios semánticos, se puede considere lo siguiente:




Extractiv ofrece 150 tipos de entidades
La página web puede procesar miles de documentos cada minuto
Cuenta con una avanzada tecnología de PLN para extraer las entidades con mayor
precisión
El servicio está disponible por un acceso mensual bajo o por pago según su uso
Juan Diego Gómez Fierros
37 | P á g i n a
Capítulo 3.- Estado del arte
Figura 9. Extracción de entidades en Extractiv
3.3.4 STILUS NER
La tecnología presente en esta herramienta, permite el reconocimiento avanzado de
entidades desconocidas que podrían ser entidades con nombre, que el sistema propone
como sugerencias de posibles entidades: por ejemplo, "D. Aaaaa Bbbbb de Ccccc" puede
ser un nombre de persona, "Banco Ddddd" una organización, "paseo de Eeeee" un lugar,
etc.
La principal desventaja de este enfoque es el gran costo de desarrollo y mantenimiento
de los recursos necesarios y el hecho de que estos recursos son altamente dependientes del
dominio y del idioma. Por lo tanto, han surgido diversas aproximaciones basadas en
aprendizaje automático, que hacen uso de colecciones de texto etiquetado manualmente
como entrenamiento para generar automáticamente estos recursos y construir modelos de
detección y clasificación.
Existe una versión de demostración (Figura 10) la cual está basada en STILUS NER,
componente de la familia STILUS de productos de tecnología lingüística, que ofrece
funcionalidad para el etiquetado semántico de textos a partir de diccionarios de entidades
con nombre. El proceso es el siguiente:
1. Se realiza la segmentación del texto en unidades (palabras o entidades
multipalabra).
Juan Diego Gómez Fierros
38 | P á g i n a
Capítulo 3.- Estado del arte
2. Se marcan como entidades candidatas aquellas unidades que aparezcan en alguno
de los diccionarios de entidades del sistema, tal cual aparece en el texto o como una
variante.
Si para una forma se tiene más de una entidad candidata, se realiza una
desambiguación basada en heurísticas, como la frecuencia de aparición de la entidad en
el texto (Castro se marcará como Fidel Castro si en el texto aparece este nombre y no Raúl
Castro.
La presencia de marcadores discursivos (por ejemplo, a+LOCATION y
artículo+ORGANIZATION, a Madrid se desambigua como la ciudad y el Madrid como el
equipo de fútbol), desambiguación geográfica por contexto (según las referencias
geográficas que aparezcan), etc. Como resultado del proceso se tienen las entidades que
aparecen en la noticia así como su tipo y posición en el texto.
Figura 10. Etiquetado de entidades en STILUS NER
3.3.5 ZEMANTA
Zemanta es una herramienta que nos permite, al momento de generar contenido para
blogs, complementar entradas con etiquetas, enlaces y fotos sugeridas, esto gracias a su
base de datos interna ya que realiza una búsqueda en el texto de la entrada que se crea.
Podemos utilizar esta herramienta en todos los blogs de WordPress, Blogger, Drupal,
Joomla y más. Una vez que se configura de manera adecuada, aparecerá un nuevo widget
en la página de creación de nuevas entradas, desde ahí se podrá ir complementando el
contenido creando.
Esta extensión para múltiples navegadores, como Firefox, Chrome, IE, Safari, permite
enriquecer los post con imágenes relevantes o enlaces que va encontrando a media que se
escribe la entrada.
Juan Diego Gómez Fierros
39 | P á g i n a
Capítulo 3.- Estado del arte
Figura 11. Extracción de entidades en ZEMANTA
3.3.6 Comparativa entre herramientas
Se realizó una comparativa entre las diferentes herramientas ya que se planeaba utilizar
la que presente mejores resultados, la cual trabajare en conjunto con los demás métodos del
prototipo final.
En la tabla 2 se observan las diferentes características que presentan las herramientas
existentes en el mercado, solo se analizaron las que podrían ser candidatas a formar parte
del prototipo de la metodología:
Tabla 2. Comparativa entre herramientas
Herramienta
STILUS Ner
Precisión
0.931
Exhaustividad
0.675
Medida F
0.7825
Libre
Si pero
restringido
Comercial
SI
Calais
Extractiv
0.928
0.65
0.779
0.884
0.575
0.6967
SI
Si pero
restringido
SI
SI
Alchemy
0.909
0.5
0.645
Si
SI
API´s
On-line
.NET
Java
Ruby
PHP
On-line
Android
Java
Perl
Ruby
Python
PHP
c/c++/c#
Se puede observar que la herramienta STILUS Nerv es la que muestra el mayor nivel de
Precisión y Exhaustividad, pero no cuenta con un una versión libre que nos ofrezca toda su
funcionalidad, por lo tanto, se eligió la herramienta Calais la cual presenta unos valores
aceptables de Precisión y Exhaustividad (Recuerdo) y cuenta con una API libre que
Juan Diego Gómez Fierros
40 | P á g i n a
Capítulo 3.- Estado del arte
proporciona la toda su funcionalidad solo restringiéndose el número de consultas por día de
su versión de pago.
Una gráfica representativa de los datos mostrados en la tabla anterior, se puede observar
en la figura 12, en la cual se pueden comprobar los niveles de las diferentes medidas
estadísticas, las cuales nos indican cual herramienta presenta un mayor nivel de confianza.
La precisión nos indica cuantas entidades espaciales son reconocidas del total de
entidades espaciales presentes en el texto, la exhaustividad (recuerdo) indica el número de
entidades espaciales relevantes del total de entidades espaciales y finalmente la medida F
indica el valor promedio entre Precisión y Recuerdo.
1
0.95
0.9
0.85
0.8
0.75
0.7
0.65
0.6
0.55
0.5
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
CALAIS
Alchemy
Extractiv
Stilus NER
Precisión
Exhaustividad
Medida F
Figura 12. Gráfica comparativa de las herramientas
Juan Diego Gómez Fierros
41 | P á g i n a
Capítulo 4. Metodología de solución
En este capítulo, se presenta la metodología empleada la cual está compuesta por tres
etapas principales. En la primera etapa se introduce un texto plano con etiquetas de eventos;
posteriormente en la etapa 2, se aplican al texto diferentes métodos para el reconocimiento
de entidades espaciales (Calais, BD y Patrones); finalmente en la etapa 3 se instancia la
ontología OntoEspacio con las entidades espaciales reconocidas y OntoEvento con las
tripletas <evento>tiene_espacio<espacio>.
Capítulo 4.- Metodología de solución
4.1
Identificación de patrones
La búsqueda y extracción de información en Internet juega un papel relevante para la
lexicografía y la terminología actual, lo que ha llevado a implementar nuevos métodos y
técnicas para acceder a esta información (Llisterri, 2003), (Águila, 2006), (Rojo, 2008).
Muchos de estos métodos y técnicas son híbridos, pues emplean el conocimiento aportado
por la lingüística, la estadística y las ciencias computacionales para resolver tareas como la
construcción de diccionarios electrónicos (Wilks, Slator, & Guthrie, 1996), terminologías
(Cabré, Estopà, & Vivaldi, 2001) o redes léxicas (Fellbaum, 1998), por mencionar algunos
recursos relevantes.
La presente tesis se posiciona en el área de la extracción de información y su objetivo
principal consiste en delimitar un método de extracción de entidades espaciales usando un
conjunto de patrones lingüísticos propios del español. Básicamente, el método propuesto en
esta investigación aplica dichos patrones a noticias recopiladas de Internet (textos no
estructurados) y se detecta automáticamente un conjunto de entidades espaciales.
Las entidades espaciales que se localizan en los textos noticiarios, pueden aparecer en
alguno de los formatos definidos en la siguiente tabla:
Tabla 3. Formato de las entidades espaciales en textos de noticias
Forma de la entidad espacial Geográfico
Urbano
México, Asia, África (calais, Calle mayor, Puerta del sol, (patrones con
Nombre propio
BD)
artículos)
Bosque, rio, desierto (Bolsa Plaza, parque, mercado, cárcel. (Bolsa de
Nombre común
de palabras acotada)
palabras acotada)
Centro américa, suroeste de Centro de la ciudad, al norte del estado, a
Regiones
España, en los límites con espaldas de la colonia Lomas, las
Toluca, en la región del inmediaciones del estadio Morelos, el World
Usumacinta (patrones con Trade Center, en el sur de la ciudad de
artículos)
México. (patrones con artículos)
N/A Latitud, longitud, etc. Interior Internado Palmira S/N, Col. Palmira
Dirección
(Patrones)
Cuernavaca, Morelos. (Patrones)
a lo largo de las costas del el tramo del aeropuerto al Periférico
No delimitadas
Pacífico
Mexicano… (Marcadores lingüísticos, sinónimos de “el
(Marcadores,
lingüísticos tramo”)
sinónimos de “a lo largo”)
En la tabla 3 se observan las diferentes formas de las entidades espaciales y algunos
ejemplos geográficos y urbanos, después de los ejemplos, se coloca el método, herramienta
o recurso utilizado para resolver ese tipo de problema, el cual aparece entre paréntesis.
Uno de los trabajos más conocidos dentro de los enfoques basados en patrones es el
realizado por (Hearst, 1992), quien fue precursora en el uso de patrones para extraer
instancias de relaciones semánticas.
Juan Diego Gómez Fierros
43 | P á g i n a
Capítulo 4.- Metodología de solución
En su trabajo se propone un esquema basado en el uso de patrones lexico-sintacticos.
Desde entonces, ese trabajo ha sido la base de varias investigaciones relacionadas con la
extracción automática de hipónimos. De ahí que la información sintáctica sea ampliamente
utilizada.
Sin embargo, los métodos que usan información sintáctica dependen de herramientas
lingüísticas como: etiquetadores de partes de la oración, analizadores morfológicos y
sintácticos, etc.
Dichas herramientas están limitadas a tratar idiomas específicos. Por tanto, la
adaptación de estos métodos a otros idiomas, no es una tarea fácil.
Siguiendo el enfoque planteado por (Hearst, 1992), consideramos el uso de patrones
léxico-sintácticos para llevar a cabo el proceso de extracción. Este enfoque parte de la idea
de que en una lengua existe esta clase de patrones, los cuales permiten expresar entidades
espaciales dentro de un texto.
A continuación se presenta una descripción general del método propuesto para extraer
automáticamente entidades espaciales en texto no estructurado. Primero, se presentan las
características que distinguen al método propuesto de otros que han abordado este
problema. Posteriormente, se presenta la arquitectura general del método. Dicha
arquitectura se compone de dos etapas. La primera etapa está enfocada a recuperar un
conjunto de oraciones de noticias con acciones ocurridas en alguna entidad espacial. Por
otra parte, la segunda etapa está orientada a definir esquemas que permitan estimar la
confianza de los patrones definidos.
4.1.1 Características del método
Generalmente, los trabajos basados en el uso de patrones para extraer hipónimos
automáticamente se han enfocado al descubrimiento de entidades léxico-sintácticas. Este
tipo de patrones tienen un alto nivel de generalización. Es decir, con un único patrón se
pueden capturar muchas de las formas posibles que expresan una relación de hiponimia.
Por ejemplo, el siguiente patrón léxico sintáctico:
NP {NP,} * {,} y otros NP
Encierra en la etiqueta NP un abundante conjunto de las maneras posibles de crear una
frase nominal, y también se tiene la posibilidad de lematizar las frases para trabajar sólo
con las formas base de las palabras. De ahí que los patrones léxico-sintácticos tengan un
nivel de generalización muy grande.
Juan Diego Gómez Fierros
44 | P á g i n a
Capítulo 4.- Metodología de solución
Así mismo, los patrones léxico-sintácticos tienden a ser precisos. Es decir, tienen una
alta capacidad de extraer correctamente un par de palabras que mantengan la relación
deseada. Sin embargo, no están exentos de extraer información incorrecta. Por ello, algunos
métodos automáticos que trabajan con patrones léxico-sintácticos (por ejemplo: (Pantel &
Pennacchiotti, 2006) y (Ravichandran & Hovi, 2002) evalúan la confiabilidad de sus
patrones y únicamente usan aquellos más confiables.
Además, la construcción de estos patrones no es sencilla, pues se depende de
herramientas lingüísticas (por ejemplo, analizadores sintácticos, etiquetadores de partes de
la oración, etc.).
Por lo tanto, el método que se propone en este trabajo de investigación trata también
con patrones expresados en un nivel léxico-sintáctico. Como ya se observó en el capítulo 3
sección 3.2.4, para construir este tipo de patrones se depende de herramientas como
etiquetadores o analizadores sintácticos, ya que incluyen información morfológica y
sintáctica. Básicamente, estos patrones surgen de relacionar palabras (unidades léxicas) con
su información sintáctica, logrando de esta manera patrones que tienen un alto nivel de
generalización.
4.1.2 Metodología para extracción de patrones
En la figura 13 se ilustra la arquitectura general del método propuesto para la
identificación y posterior extracción de patrones. Se observa que el método consta de dos
etapas. La etapa 1 utiliza una herramienta de análisis textual de nombre AntConc
(Laurence, 2011), la cual nos muestra la estructura que compone ciertas oraciones,
permitiendo de este modo diseñar patrones acordes a los textos con un alto nivel de
generalización.
En la etapa 2 se analizan las estructuras extraídas de la etapa anterior, para definir
patrones relevantes, de los cuales se realizaran unas pruebas de confiabilidad en estos para
finalmente solo contar con los patrones que nos permitan extraer la mayor cantidad de
entidades espaciales.
Juan Diego Gómez Fierros
45 | P á g i n a
Capítulo 4.- Metodología de solución
Figura 13 Arquitectura general del método propuesto para la extracción de patrones
A partir de la arquitectura mostrada, se observa que el método parte de un conjunto de
corpus, el cual representa diversas formas de aparición de entidades espaciales (ver tabla 3).
Este corpus se introduce a la herramienta AntConc (Laurence, 2011), la cual extrae las
estructuras de las diferentes oraciones presentes en el corpus. Posteriormente, se analizan
estas estructuras para definir patrones y se evalúan estos patrones, para, finalmente
seleccionar sólo los patrones, más representativos y con mayor cantidad de éxito en la
extracción de las entidades espaciales.
4.1.3 Extracción de patrones léxicos
En esta sección, se muestra la implementación de los pasos descritos en el método para
la extracción de patrones léxicos, mostrado en el punto anterior:
1.- El corpus utilizado contiene párrafos tomados de textos de noticias extraídas de la
web, en los cuales se etiquetaron las entidades espaciales, por ejemplo:
En <espacial>el municipio de Tlaxcoapan</espacial> fueron atendidas dos
personas…
Mediante una herramienta desarrollada en (Reyes, 2011) se extrajeron los verbos
principales para catalogarlos como verbos espaciales y también se extrajo una lista con
todas las entidades espaciales etiquetadas.
Juan Diego Gómez Fierros
46 | P á g i n a
Capítulo 4.- Metodología de solución
2.-Con la ayuda de la herramienta AntConc se puede observar en la Figura 14 la
estructura de composición de las entidades espaciales:
Figura 14. Entidades espaciales
Como se observa, una entidad espacial está compuesta de diferentes formas no siendo
homogénea y variando en sus componentes léxicos.
Otras de las opciones disponibles en la herramienta (AntConc), muestra el número de
frecuencia de aparición de determinado patrón en las entidades espaciales:
Juan Diego Gómez Fierros
47 | P á g i n a
Capítulo 4.- Metodología de solución
Figura 15. Estructura de entidades espaciales
Se puede observar en la figura 15, la estructura que compone a las entidades espaciales
que comienzan con “<espacial>el” es muy variada pudiendo llevar antes una preposición
(en, a, por) un verbo espacial (visitó, recorrió), siendo obligatorio un análisis de estas
estructuras para poder definir un patrón adecuado en el que se engloben la mayoría de las
entidades espaciales.
4.2
Selección de patrones relevantes
Mediante un análisis exhaustivo sobre la composición de las entidades espaciales se
definió el siguiente patrón para definir la estructura de una entidad espacial:
Juan Diego Gómez Fierros
48 | P á g i n a
Capítulo 4.- Metodología de solución
Dónde:
FNP: Entidad espacial en su forma normal
DT: Determinante, particularmente los artículos (el, la)
N: Nombre Propio (NP) o Nombre común (NC)
Prep: Preposición
Adj: Adjetivo
?: 0 ó 1 Ocurrencia +: 1 ó varias ocurrencias *: 0 ó varias ocurrencias
A continuación se muestran ejemplos de entidades espaciales extraídos con el patrón
definido anteriormente:
Palabras en el
texto
Lema
Categoría
La
Calle
el
calle
DA0FS0 NCFS000
Palabras en el
texto
Lema
Categoría
Palabras en el
texto
Lema
Categoría
Palabras en el
texto
Lema
Categoría
Palabras en el
texto
Lema
Categoría
Palabras en el
texto
Lema
Categoría
El
Melchor_Ocampo
melchor_ocampo
NP00000
Valencia
Valencia
NP00000
Una
laguna
Uno
laguna
DI0FS0 NCFS000
El
estado
de
Chihuahua
el
estado
de
DA0MS0 NCMS000 SPS00
el
municipio
de
el
municipio
de
DA0MS0 NCMS000 SPS00
estado
sureño
El
estado
sureño
DA0MS0 NCMS000 AQ0MS0
chihuahua
NP00000
Cuernavaca
cuernavaca
NP00000
de
Guerrero
de
SPS00
guerrero
NP00000
Aunque el patrón cumple la mayoría de las entidades espaciales, existen otras que no
son tomadas en cuenta, tales como:
Unos 320 kilómetros al sureste de la Ciudad de México
Juan Diego Gómez Fierros
49 | P á g i n a
Capítulo 4.- Metodología de solución
La ciudad fronteriza de Tijuana, Baja California
Calles del municipio de Montemorelos
Un conocido rodeo de Tlalnepantla, Estado de México
Una céntrica plaza de la ciudad de Cali
El oriental estado mexicano de Veracruz
Algunas de estas entidades espaciales podrán ser descubiertas mediante el uso de otros
patrones, ya que el patrón que se especificó anteriormente es utilizado para reconocer el
“núcleo” de una entidad espacial y solamente es aplicado cuando la entidad espacial no sea
reconocida por otros métodos disponibles.
A continuación se muestran los patrones definidos, los cuales reconocen la mayoría de
entidades espaciales, ya sean urbanas (calles, edificios, parques, etc.) o naturales (bosques,
lagos, mares, etc.):
Patrón 1:
?
?
Clases urbanas de la Ontología con
sinónimos
En el patrón1 se observa un componente denominado MarcLing1, el cual define las
entidades urbanas que corresponden con las clases de la ontología espacial y sus sinónimos.
Algunos ejemplos obtenidos con este patrón son:

Fueron encontrados los restos de siete personas en la calle Himno Nacional en
el municipio de Ecatepec…
 Fueron baleados en un taller mecánico ubicado en la calle Capulín de
Ciudad Juárez…
Patron2:
Clases Naturales de la Ontología con
sinónimos
En el patrón2 al igual que el patron1, utiliza un componente de nombre MarcLing2, el
cual define las entidades naturales que corresponden con las clases de la ontología y sus
sinónimos. Algunos ejemplos de extracción con este patrón son:
Juan Diego Gómez Fierros
50 | P á g i n a
Capítulo 4.- Metodología de solución

 Se registra nuevo incendio en el Bosque de La Primavera…
Fue en el lago de Valle de Bravo, en el Estado de México, donde tuvo su
primer acercamiento con esta práctica deportiva.
Es los dos patrones siguientes se definen las coordenadas geográficas las cuales al ser
identificadas en una noticia, serán tomadas en cuenta como el lugar de ocurrencia de un
evento.
Ejemplos: 25°43′00″ latitud Norte, 115°29′00″ longitud Este, 23 00 N, 102 00 O, 3 14’26’’ W
4.3
Aplicación de los patrones
Como ya se ha visto, la implementación de patrones dentro de la metodología de
solución es un hecho, por lo tanto, el modelo general de solución propuesto incluye el uso
de estos como se observa en la figura 16:
Figura 16. Modelo general de solución
Juan Diego Gómez Fierros
51 | P á g i n a
Capítulo 4.- Metodología de solución
En una noticia obtenida de la web en texto plano se etiquetan los eventos con la
herramienta de (Reyes, 2011), posteriormente en el texto se extraen la entidades espaciales
reconocidas mediante la herramienta Calais y una base de datos espacial que contiene
países y ciudades del mundo, si alguna entidad espacial no es reconocida por Calais o por la
BD se procede al siguiente paso, el cual mediante el uso de patrones obtiene entidades
espaciales y además se define el par Evento – Espacio para finalmente obtener las tripletas
que son necesarias para poblar la ontología espacial.
Fracción de
texto
de
Noticia
En el estado
de Coahuila,
seis personas
fueron
asesinadas…
4.4
Texto etiquetado
Reconocimiento
de
entidades
espaciales
En
<espacial>el La
entidad
estado
de espacial
Coahuila</espacial>,
etiquetada cumple
seis personas fueron con el patrón que
asesinadas…
define
la
estructura de una
entidad espacial
Extracción de tripletas
La tripleta se extrae
utilizando el patrón 1
mediente el reconocimiento
del
verbo
Fueron
asesinadas por lo tanto, la
tripleta queda: Fueron
asesinadas tiene_espacio el
estado de Coahuila
Instanciación de OntoEspacio en espacialidad
La parte principal de este trabajo de tesis es la que trata sobre el poblado o instanciación
de la ontología espacial OntoEspacio, esta tarea se realiza utilizando la API de JENA
dentro del prototipo, por lo tanto cada que se extraen las entidades espaciales de una noticia
estas son analizadas y validadas para comprobar si cumplen con los parámetros
establecidos y pueda ser considerada como entidad espacial relevante. Una entidad espacial
relevante se introduce a la ontología espacial en la clase correspondiente, la cual se
determina haciendo uso de una bolsa de palabras representativa para cada una de las clases
existentes en la ontología.
La instanciación se realiza en la ontología OntoEspacio como se observa en la siguiente
fracción de código OWL:
<rdf:Description
rdf:about="http://www.cenidet.edu.mx/ontologias/OntoEspacio.owl#el
_estado_de_Coahuila_5">
Juan Diego Gómez Fierros
52 | P á g i n a
Capítulo 4.- Metodología de solución
4.5
Prototipo
En la figura 17, se observa la interfaz del prototipo desarrollado en java utilizando la
IDE NetBeans, posteriormente se explican cada una de las funciones marcadas con
círculos y finalmente se muestra un ejemplo de la ontología resultante.
1
2
6
7
8
4
9
5
3
Figura 17. Interfaz del prototipo
El funcionamiento de cada uno de los botones y funcionalidades que conforman al
prototipo, se describen a continuación:
1.- Abrir archivo etiquetado: al presionar este botón se muestra una ventana de
explorador de archivos (figura 18) en la cual se tiene que elegir un archivo de texto plano
(.txt), el cual anteriormente tuvo que ser etiquetado.
Figura 18. Explorador de archivos
Juan Diego Gómez Fierros
53 | P á g i n a
Capítulo 4.- Metodología de solución
2.- Procesar archivo: Este botón es presionado después de elegir un archivo etiquetado
con el botón Abrir archivo etiquetado, el cual muestra el texto que contiene el archivo
(figura 19)
Figura 19. Texto de noticia procesado
3.- Ruta: muestra la ruta del archivo abierto, como se observa en la figura 19.
4.- Área de texto procesado: en esta área aparece el texto del archivo procesado sin
etiquetas, como se observa en la figura 19.
5.- Etiquetado: en esta parte del prototipo se tienen 4 columnas en las cuales se colocan
todas las palabras que contiene el texto de la noticia introducida, las leyendas en la parte
superior indican el contenido de cada columna, Palabra: contiene la palabra tal cual
aparece en la noticia, Lema: Muestra el lema de la noticia, es decir su forma neutra sin
conjugación, categoría: en esta columna, se muestra la categoría gramatical que el
etiquetador le otorgó a esa palabra siguiendo el estándar de etiquetado propuesto por el
grupo EAGLES, se puede observar un ejemplo en la figura 19.
6.- Extraer argumentos y RA (Referencia anafórica): con este botón se extraen todos
los argumentos que contiene una noticia, los cuales se utilizan para dar solución a los
problemas de la elipsis y la anáfora, su funcionamiento se observa en la figura 20.
Juan Diego Gómez Fierros
54 | P á g i n a
Capítulo 4.- Metodología de solución
Figura 20. Extracción de argumentos y RA
7.- Extraer candidatos y características: este botón extrae 6 candidatos (3 a la
derecha y 3 a la izquierda de una referencia anafórica) a las cuales se les aplican una serie
de validaciones y se concluye cual es el mejor candidato a sustituir por la palabra que hace
referencia anafórica. Cabe señalar que sólo se implementaron los métodos para funcionar
con entidades espaciales.
8.- Espacialidad: al presionar este botón se extraen todos los posibles candidatos a
entidades espaciales. Un ejemplo de lo que ocurre al presionar este botón se observa en la
figura 21.
Figura 21. Extracción de candidatos espaciales
Juan Diego Gómez Fierros
55 | P á g i n a
Capítulo 4.- Metodología de solución
9.- Tripletas: este botón extrae las tripletas “evento tiene_espacio espacio” e introduce
los candidatos espaciales que si representan espacialidad a la ontología OntoEspacio.
Un ejemplo de la ontología OntoEspacio instanciada se observa en la figura 22.
Figura 22. OntoEspacio instanciada
Juan Diego Gómez Fierros
56 | P á g i n a
Capítulo 5. Pruebas y resultados
En este capítulo se presentan las pruebas y resultados obtenidos, primero se muestran las
medidas estadísticas utilizadas, posteriormente se observa el plan de pruebas y finalmente
se muestran los resultados de la aplicación de cada una de las pruebas, mostrando la
efectividad de la herramienta y su desempeño en cada una de las etapas principales que se
observan en el capítulo 4.
Capítulo 5.- Pruebas y resultados
5.1
Introducción
El presente plan de pruebas se encuentra basado en el estándar IEEE 829-1998 (IEEE,
1998), con el cual se verificó la metodología planteada en la propuesta de tesis. Cabe
mencionar que la metodología que se evaluó es apoyada por una herramienta.
El plan de pruebas se compone de las siguientes secciones: elementos de prueba,
características a probar, características excluidas, enfoque, criterio éxito/fracaso de casos de
prueba, criterios de suspensión y requerimientos de reanudación, documentos entregables
de las pruebas, tareas de pruebas, requerimientos para realizar las pruebas,
responsabilidades, riesgos y contingencias, aprobación, casos de prueba y especificación de
procedimiento de pruebas.
5.2
Métricas de evaluación
En esta sección se describen las métricas de evaluación que se usaron para determinar la
efectividad de la metodología propuesta, mostrando el funcionamiento y la descripción de
cada una de ellas.
5.2.1 Precisión
Este concepto fue definido por Kent (Kent, 1955), como factor de pertinencia. Existen
otros autores que se refieren a la precisión, como tasa de aceptación. Para Salton (Salton &
McGill, 1983), la precisión es la proporción de términos recuperados realmente
relevantes, del total de los términos recuperados.
A la definición anterior, Frakes (Frakes & Baeza, 1992) añade que el resultado de esta
operación está entre 0 y 1. Por lo tanto, la recuperación perfecta es en la que únicamente se
recuperan los términos relevantes y por lo tanto tiene un valor de 1.
En la figura 23 se observa la ecuación utilizada para obtener la Precisión:
Figura 23. Ecuación de la precisión (Salton & McGill, 1983)
Juan Diego Gómez Fierros
58 | P á g i n a
Capítulo 5.- Pruebas y resultados
5.2.2 Recuerdo
El recuerdo, aunque en menor medida que la precisión, es otro concepto utilizado en
la evaluación de los sistemas de recuperación.
Muchos autores, por influencia del término inglés la denominan " recall" o
"rellamada". Es la proporción de términos relevantes recuperado, del total de los
términos que son relevantes en la base de datos, independientemente de que éstos, se
recuperen o no.
Esta medida es inversamente proporcional a la precisión. Fue formulada, al igual
que la de precisión por (Kent, 1955) con el nombre de factor de exhaustividad. Años más
tarde (Swets, 1963) la llamó probabilidad condicional de un item y (Goffman & Newill,
1964) la denominaron sensibilidad (sensibility).
La ecuación propuesta por (Salton & McGill, 1983) se observa en la figura 24:
Figura 24. Ecuación del recuerdo (Salton & McGill, 1983)
5.2.3 Medida F
La Medida F es la combinación de la precisión y recuerdo con una medida armónica de
precisión y exactitud.
Está también se conoce como la medida F1, porque el recuerdo y la precisión son
uniformemente ponderados.
Juan Diego Gómez Fierros
59 | P á g i n a
Capítulo 5.- Pruebas y resultados
5.3
Plan de pruebas
5.3.1 Elementos de prueba
Los elementos de prueba están formados por los diferentes textos periodísticos de los
cuales se extrajeron entidades espaciales, estos textos periodísticos se dividen en las
siguientes categorías:

Desastres

Ciencia y tecnología

Medicina

Policiacas

Política

Nacionales o estados

Internacionales

Salud

Finanzas, negocios o economía
5.3.1.1
Características probadas
A continuación se describen las características probadas utilizando la metodología
implementada en la herramienta:

Identificación de entidades espaciales: se verifica la eficacia del uso de
patrones lingüísticos para la identificación de las diferentes entidades espaciales
contenidas en un texto de noticias.

Identificación de conceptos relacionados a eventos: con la implementación de
patrones lingüísticos, se valida la obtención del par (evento, espacio).
Juan Diego Gómez Fierros
60 | P á g i n a
Capítulo 5.- Pruebas y resultados

Solución a anáfora lingüística: se evalúa la metodología propuesta por (Reyes,
2011) para la solución del fenómeno de anáfora lingüística. Esta tarea involucra
el reconocimiento de la palabra que funge como referencia anafórica,
posteriormente la extracción de 6 candidatos 3 a la derecha y 3 a la izquierda de
la referencia anafórica, estos candidatos serán entidades espaciales y finalmente
con los diversos pasos que conforman la metodología de (Reyes, 2011) se
dedujo cuál de los 6 candidatos fue el más apropiado para ser sustituido por la
referencia anafórica.

Poblado ontológico: se realiza una evaluación de la eficiencia de la
metodología en su etapa final, la cual involucró entre otras cosas el poblado de
la ontología espacial pasando las entidades espaciales a sus correspondientes
clases y se pobló la ontología OntoEvento mediante la extracción de tripletas
con la forma: “Evento tiene_espacio Espacio”.
5.3.1.2
Características excluidas
Las características que se presentaron en la metodología o alguno de sus insumos, pero
no fueron consideradas para su evaluación o implementación son:

No se consideró para su evaluación los resultados obtenidos al introducir un
texto que no sea de dominio periodístico

No se consideraron textos que no se encuentre en formato de texto plano

No se consideraron textos que se encuentre en algún idioma distinto al español.

Las palabras con errores ortográficos no fueron corregidas y por lo tanto no
fueron consideradas para su evaluación.

Los errores en el reconocimiento de palabras por parte del etiquetador no se
corrigieron, dejando estas palabras fuera de cualquier análisis.
Juan Diego Gómez Fierros
61 | P á g i n a
Capítulo 5.- Pruebas y resultados
5.3.1.3
Enfoque
Las pruebas permitieron comprobar que la metodología de solución propuesta, es capaz
de solucionar el problema del poblado semiautomático de una ontología, identificando
entidades espaciales mediante patrones.
5.3.1.4
Criterio éxito/fracaso de los casos de prueba
Se considera como éxito si la prueba cumplía con los siguientes puntos:






Identificación de las palabras con referencia anafórica (ahí, aquí, allí, allá, acá,
adonde y donde)
Identificación de los 6 candidatos espaciales y la posterior validación del mejor
candidato para ser sustitución por la referencia anafórica
Identificación de las entidades espaciales presentes en el texto noticiario
Identificación de los eventos que corresponden a una entidad espacial para
obtener el par Evento, Espacio
Poblado de la ontología “OntoEspacio” con las entidades espaciales
Poblado de la ontología “OntoEvento” con la tripleta Evento tiene_espacio
Espacio
Se considera fracaso cuando se presente alguno de los siguientes puntos:



5.3.1.5
En más del 50% de las pruebas para obtener el mejor candidato en la solución de
la anáfora, éste no es el indicado
La identificación de entidades espaciales muestra un valor muy bajo al realizar
pruebas estadísticas de desempeño (precisión, recuerdo y medida F)
Errores en la instanciación de alguna de las ontologías
Criterios de suspensión y requerimientos de reanudación
Algunos criterios para suspender una prueba o interrumpir su ejecución fueron:

Al introducir el texto noticiario a la herramienta, este tarda más de 1 minuto
para aparecer en pantalla. Para poder reanudar este caso, es necesario comprobar
el tamaño del texto introducido, si es demasiado grande dividirlo en partes más
pequeñas
Juan Diego Gómez Fierros
62 | P á g i n a
Capítulo 5.- Pruebas y resultados

Existen caracteres extraños en el texto noticiario al pasarlo a la herramienta.
Para poder realizar correctamente las pruebas es necesario que el texto noticiario
a introducir se encuentre codificado como UTF-8 ya que este estándar es el
utilizado por la herramienta

El reconocimiento de entidades espaciales y candidatos en la referencia
anafórica tarda más de 2 minutos. El proceso de etiquetado de estas entidades
varía dependiendo del tamaño del texto, como se realiza una representación
gráfica (colores y etiquetas) el proceso generalmente sobrepasa los 10 segundos,
si el tiempo es realmente excesivo se deberá dividir el texto para que su
procesamiento sea más rápido
5.3.1.6
Documentos entregables de las pruebas
Se generaron los siguientes documentos para su aceptación y análisis a la Dra. Azucena
Montes Rendón.


5.3.1.7
Plan de pruebas (documento presente)
Reporte de pruebas
Tareas de pruebas
Las tareas identificadas para realizar las pruebas de la metodología propuesta se
presentan en la siguiente tabla:
Tabla 4. Actividades planeadas en el plan de pruebas
Tarea
Tarea
predecesora
1.- Elaboración del
plan de pruebas
2.- Ejecución del plan
de pruebas
3.Evaluación
de
resultados
-
4.- Elaboración del
reporte de resultados
Juan Diego Gómez Fierros
Habilidades especiales
Análisis del estándar IEEE 829
Responsable
Fecha
entrega
de
Tesista
10/06/2012
Tarea 1
-
Tesista
30/06/2012
Tarea 2
Conocimiento sobre poblado ontológico,
ontología OntoEvento y ontoEspacio y
medidas de evaluación estadística
(precisión, recuerdo y medida F)
-
Tesista
15/07/2012
Tesista
30/07/2012
Tarea3
63 | P á g i n a
Capítulo 5.- Pruebas y resultados
5.3.1.8
Requerimientos necesarios para realizar las pruebas
Los requisitos para llevar a cabo las pruebas presentadas en este plan se dividieron en 2
categorías, Requisitos de hardware y Requisitos de Software, los cuales se detallan a
continuación:
Requisitos de hardware:



Procesador 1Ghz o superior
Memoria RAM 512 MB o superior
Al menos 10 MB de espacio en disco duro
Requisitos de software:



5.3.1.9
Sistema Operativo Windows 7
Java JRE 6 o superior
API de JENA en su versión 2.6.4
Responsabilidades
El tesista Juan Diego Gómez Fierros fue el principal responsable de llevar a cabo todas
y cada una de las tareas especificadas en este documento, además, también fue responsable
de realiza las posibles correcciones que sean necesaria en el caso de ocurrir un fracaso,
durante la ejecución de las pruebas.
5.3.1.10 Riesgos y contingencias
En caso de presentarse algún problema de ejecución de la herramienta se deberá utilizar
otro equipo de cómputo que cumpla con los requisitos para realizar las pruebas.
5.3.2
Aprobación
La aprobación del plan de pruebas quedó a cargo de la Dra. Azucena Montes Rendón.
Juan Diego Gómez Fierros
64 | P á g i n a
Capítulo 5.- Pruebas y resultados
5.3.3 Casos de prueba
En este punto se detalla cada paso de la metodología de solución y la prueba necesaria
para considerarlo caso de éxito o fracaso:
Reconocimiento de entidades espaciales: Esta prueba consiste en validar la eficiencia
de los patrones lingüísticos, la herramienta Calais y la Base de Datos para el
reconocimiento de entidades espaciales.
Se comprobó el número de entidades reconocidas y mediante pruebas de precisión y
recuerdo, también se midió la eficacia de las herramientas implementadas.
Identificación correcta del par Evento, Espacio: En esta prueba se verifica la
correcta relación de la entidad espacial reconocida, con el evento que le corresponde para
formar el par Evento, Espacio el cual es la base fundamental para la formación de tripletas
y su consecuente traslado a la ontología OntoEvento.
Poblado Ontológico: Con esta prueba se comprueba la eficacia de la metodología al
momento de realizar el poblado de las ontologías, por un lado tenemos la ontología
OntoEspacio en la cual se colocaran las entidades espaciales reconocidas en el texto, por
otra parte, tenemos la segunda ontología OntoEvento la cual fue poblada con la tripleta
Evento tiene_espacio Espacio, en ambos casos se comprueba la correcta instanciación en
las clases de ambas ontologías.
Solución al problema de la Anáfora: Esta prueba nos permite verificar la eficiencia
del método propuesto por (Reyes, 2011). Se comprueba el correcto reconocimiento de las
palabras que funcionan como referencia anafórica, posteriormente se extraen los candidatos
espaciales para finalmente elegir el mejor.
5.3.4 Especificación del procedimiento de prueba
Los pasos para la realización de las pruebas especificadas en el punto 5.3.3 de este plan,
son los siguientes:
1. Reconocimiento de entidades espaciales
a) Propósito
Realizar el reconocimiento de todas las entidades espaciales presentes en un
texto de noticias, para su posterior uso.
Juan Diego Gómez Fierros
65 | P á g i n a
Capítulo 5.- Pruebas y resultados
b) Entorno de prueba
Se utiliza como entorno de prueba la herramienta desarrollada, ejecutada en la
IDE NetBeans.
c) Proceso
1. Abrir un documento de texto válido para la herramienta
2. Seleccionar el botón marcado como espacialidad en la parte superior del
prototipo
3. Esperar a que termine el proceso de identificación de entidades espaciales y
verificar resultados. Nota: El tiempo varía dependiendo del tamaño del texto
introducido.
d) Resultado esperado
Las entidades espaciales son reconocidas primeramente por los patrones,
seguido de la base de datos y finalmente por la herramienta Calais, estas son
marcadas con las etiquetas <candespacial> </candespacial> indicando que la o
las palabras identificadas por el momento son candidatos espaciales, de estos
candidatos espaciales se eligen solo los relevantes.
2. Identificación correcta del par Evento, Espacio
a) Propósito
Agregar un evento (verbo) a un candidato espacial para convertirlo en candidato
relevante.
b) Entorno de prueba
Se utiliza como entorno de prueba la herramienta desarrollada, ejecutada en la
IDE NetBeans.
c) Proceso
1. Seguir los 3 pasos indicados en la tarea 1 Reconocimiento de entidades
espaciales
2. Seleccionar el botón marcado como Tripletas en la parte superior de la
herramienta
3. Observar los resultados obtenidos en la consola de NetBeans
Juan Diego Gómez Fierros
66 | P á g i n a
Capítulo 5.- Pruebas y resultados
d) Resultado esperado
En la consola de NetBeans se observan los diferentes eventos, pero solo son
relevantes aquellos que cumplan ciertos patrones, en los cuales se especifican
ciertas reglas para relacionar un evento con un lugar específico de los
identificados en la tarea anterior, formando de esta manera la tripleta Evento
tiene_espacio Espacio
3. Poblado Ontológico
a) Propósito
Poblar la ontología OntoEspacio con las entidades espaciales relevantes y
OntoEvento con el par Evento, Espacio unidos con la relación no taxonómica
tiene_espacio
b) Entorno de prueba
Se maneja como entorno de prueba la herramienta desarrollada, ejecutada en la
IDE NetBeans.
c) Proceso
1. Seguir los 3 pasos indicados en la tarea 1 Reconocimiento de entidades
espaciales
2. Seleccionar el botón marcado como Tripletas en la parte superior del
prototipo
3. Observar los resultados obtenidos en la consola de NetBeans
d) Resultado esperado
Además de mostrar la tripleta Evento tiene_espacio Espacio siguiendo estos
pasos, también se mandan las entidades espaciales relevantes a la ontología
pertinente en la clase indicada.
4. Solución al problema de la Anáfora
a) Propósito
Resolver el problema que representa en este tipo de actividad la anáfora ya que
sustituye entidades espaciales relevantes por adverbios de lugar (ahí, aquí, allí,
allá, acá, adonde y donde).
b) Entorno de prueba
Se usa como entorno de prueba la herramienta desarrollada, ejecutada en la IDE
NetBeans.
Juan Diego Gómez Fierros
67 | P á g i n a
Capítulo 5.- Pruebas y resultados
c) Proceso
1. Abrir un documento de texto válido para la herramienta
2. Seleccionar el botón marcado como “extraer argumentos y RA” de la parte
superior del prototipo
3. Una vez que termine la herramienta con la identificación del paso anterior,
seleccionar el botón marcado como “Extraer Candidatos y Caracter”
4. Observar los resultados en la consola de NetBeans
d) Resultado esperado
Con el primer botón (“extraer argumentos y RA”) se identifican los adverbios
de lugar que hacen referencia a una entidad espacial, son marcados con las
etiquetas <ra> </ra> que significa Referencia Anafórica y aparece la palabra de
color Azul, sucediendo lo mismo con los candidatos a ser sustituidos por la
referencia anafórica, solo que estos sonn marcados con las etiquetas
<argumento> </Argumento> y aparecen de color rojo.
Con el segundo botón (“Extraer Candidatos y Caracter”) se realiza una serie de
pasos definidos por la metodología de solución a la anáfora en (Reyes, 2011a),
en la cual se contemplan la extracción de candidatos posibles y finalmente la
elección del mejor candidato, para ser sustituidos por la referencia anafórica.
5.4
Pruebas
En las siguientes secciones, se observan los resultados obtenidos siguiendo el plan de
pruebas definido en el apartado anterior.
5.4.1 Reconocimiento de entidades espaciales
En la tabla 5, se observa un acumulado de los resultados obtenidos al aplicar la
prueba sobre reconocimiento de entidades espaciales en 100 noticias:
Juan Diego Gómez Fierros
68 | P á g i n a
Capítulo 5.- Pruebas y resultados
Noticia
1
10
20
30
40
50
60
70
80
90
100
Tabla 5. Resultados en el reconocimiento de entidades espaciales
Acumulado de
Acumulado de
Acumulado de
entidades extraídas
entidades reconocidas
gold estándar
14
14
10
133
125
122
225
211
212
332
316
319
401
380
391
523
498
529
625
594
645
722
684
725
820
778
816
910
866
916
1044
985
1032
En la figura 25, se muestra una gráfica de la precisión y el recuerdo interpolados utilizando
los valores acumulados:
1
Valor porcentual
0.95
0.9
0.85
Precisión
patrón
0.8
Recuerdo
patrón
0.75
0.7
1
2
3
4
5
6
7
8
9
10
11
Acumulado de noticias
Figura 25. Grafica de precisión y recuerdo en el reconocimiento de entidades mediante patrones
Los resultados mostrados anteriormente involucran el uso de los patrones definidos
para identificar entidades espaciales, como se puede observar la precisión y el recuerdo son
muy altos con un valor promedio del 0.9489, esto significa que la metodología reconoce
satisfactoriamente la mayoría de las entidades espaciales contenidas en una noticia.
Juan Diego Gómez Fierros
69 | P á g i n a
Capítulo 5.- Pruebas y resultados
5.4.2 Identificación de conceptos relacionados a eventos
En el caso de la identificación de los eventos (Verbos) sólo se consideraron los que
nos permitieron formar el par evento, espacio.
Para lograr lo planteado en el párrafo anterior se extrae el evento más cercano a una
entidad espacial relevante, independientemente que se encuentre a su derecha o a su
izquierda; en el caso extraordinario de que ningún verbo fuera localizado se desecha la
entidad espacial, esto podría suceder por 2 razones:
1. Que la entidad espacial sea la que marca el lugar de la noticia, muy común en la
estructura general de un texto noticiario, ejemplo: MADRID, España. (EFE). - La
compañía…
2. Que el etiquetador no reconozca el verbo en la oración donde aparece la entidad
espacial, ejemplo: López Obrador se ubicó en la ciudad de México… el verbo
ubicar fue reconocido como aq0msp (adjetivo calificativo) y no como Verbo.
Si alguna entidad espacial se ubicaba en alguno de los dos puntos mencionados, no se
consideró para su posterior análisis y se desecha de cualquier prueba siguiente, por lo tanto,
todas las entidades espaciales reconocidas por los patrones contienen el par evento, espacio.
5.4.3 Solución a anáfora lingüística
En (Ferrández, Palomar, & Moreno, 1995) se define la anáfora como el mecanismo
para hacer en el discurso una referencia abreviada de una o varias entidades, con la
esperanza de que el receptor del discurso sea capaz de determinar la identidad de
referencia.
La solución al problema de la anáfora lingüística se realizó mediante la
implementación de un algoritmo desarrollado por (Reyes, 2011a), utilizado para comprobar
su eficiencia se realizaron las pruebas mostradas en la tabla 6:
Tabla 6. Pruebas de anáfora lingüística
Prueba
Texto
1
No pues como unos 30 minutos, 40 minutos, pues vengo de acá
de Zapopan y vengo de acá de Lerdo de Tejada, hasta acá ya llevo
como 20, 25 minutos no más que está bien pesada la pinche
manifestación. "
"Buscaba un país con similitudes a Europa y encontré a Buenos
Aires, por eso estoy acá ", dice a BBC Mundo.
2
Juan Diego Gómez Fierros
Mejores
candidatos
Zapopan, Lerdo
de Tejada y
Lerdo de Tejada
Prueba
superada
Si, si y si
Europa
No
70 | P á g i n a
Capítulo 5.- Pruebas y resultados
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
El actor estadounidense encontró su copia fiel en París, adonde
viajó especialmente para el encuentro.
La presidente Cristina de Kirchner permaneció durante la jornada
en Santa Cruz, adonde había viajado junto sus hijos para pasar el
fin de semana, y tiene previsto regresar este martes a Buenos
Aires para retomar su agenda oficial.
El vuelo es de Laredo a Ciudad Victoria y de ahí a la Ciudad de
México, domingo a viernes con salida a la 3:10 de la tarde, con
llegada a la capital del estado a las 4:25 PM.
Xalapa, Veracruz. - Usuarios del transporte público exigieron la
intervención inmediata de la Dirección de Tránsito en la calle
José Mata, esquina con Xalapeños Ilustres. Ahí existe un paradero
de autobuses de unos 50 metros de largo aproximadamente, pero
éste es ocupado como estacionamiento.
Dijo: 'Justamente una ficción, pero con muchos sucesos
auténticos, los últimos meses que yo pasé en Aguascalientes, la
película termina el día que yo salí de allá, para venir a la Ciudad
de México'.
Esa información la ratifico el presidente de ese partido en el
Estado Carlos López, quien dijo que Ana irá como la primera en
la formula y por ello, es casi un hecho que tiene ya su lugar
asegurado en la cámara de senadores allá en la Ciudad de México.
Joan y Elizeth viajaban desde Lima a Madrid con Air. El
problema venía para viajar desde allí a Barcelona, ya operaba
Spanair. "Nos enteramos de la noticia en Lima.
El tenista español Rafael clasificó a su segunda final del Abierto
de Australia tras imponerse al suizo Roger quien pese tomar
ventaja fue superado y vio frustrado su sueño de alcanzar su
quinto título aquí.
Dentro de la comunidad homosexual del DF existe el temor de
que la 34 Marcha del Orgullo Lésbico-Gay, que año con año se
celebra aquí durante julio, sea acaparada por algún partido
político toda vez que coincide con las votaciones federales.
Empezó la carrera de Química en Álava y los dos últimos años de
la licenciatura los hizo en Madrid, donde también preparó su
doctorado.
Según el programa anunciado por la Santa Sede, el Pontífice
partirá el viernes 23 de marzo desde el aeropuerto internacional
Leonardo da Vinci de Roma hasta el aeropuerto internacional de
Guanajuato (México), donde aterrizará a las 16,30 horas (hora
local).
Al centro de la Península de Yucatán se encuentra Izamal, una
bella ciudad en la cual conviven la cultura prehispánica con la
colonial y contemporánea, pues al lado de un majestuoso
convento franciscano.
El Parlamento iraní debatirá el domingo un proyecto que obligaría
al Gobierno a detener las exportaciones de petróleo antes del 1 de
julio, la fecha que fijó la UE para aliviar el impacto del embargo a
las debilitadas economías de Grecia, Italia y otros países para los
cuales Irán es un importante proveedor.
Este problema no solo se presentaría con Brasil, sino también con
Paraguay y Argentina, naciones desde las cuales despegan
avionetas con dirección al oriente boliviano, alterando o sin
declarar sus salidas.
Finalmente, la actriz Litzy Domínguez puntualizó que el trabajo
Juan Diego Gómez Fierros
París
Si
Santa Cruz
Si
La Ciudad de
México
No
La calle
Si*
La Ciudad de
México
No
La Ciudad de
México
Si
Madrid
Si
Australia
Si
Las votaciones
No
Álava
No
El
aeropuerto
internacional de
Guanajuato
Si
Centro de la
península
de
Yucatán
No
Italia
No*
Dirección
No
Estados Unidos
Si
71 | P á g i n a
Capítulo 5.- Pruebas y resultados
18
19
20
21
22
24
25
en las telenovelas de Estados Unidos es el mismo que en México,
" nos están cuidando muchísimo, esta novela está funcionando
muy bien acá en Estados Unidos".
"Nada garantizar que el nubarrón no llegue, pero soplamos para
que se quede acá, en Europa, esperemos que se disuelva pronto",
ha dicho el presidente ante el auditorio de la CEOE, la
Confederación Española de Organizaciones Empresariales, un
equivalente a nuestra Confiep.
La EBY nos tiró acá en San Isidro, nos sacó de nuestras casas que
estaban cerca del río, del centro.
“Antes del 2003 cerraban los proyectos locales, se desintegraban
las empresas, porque no había un proyecto de país y eso es lo que
ha venido a hacer este espacio político, es la piedra fundamental
que puso Nestor Kirchner y que tuvo un hito determinante acá en
Mar del Plata, en la Cumbre de las Américas cuando se le dijo no
al ALCA y no a la entrega de la producción nacional.
Porque yo nací acá. San Lorenzo es mi casa, me dio muchísimo.
Después viajará a Valle de Allende, Chihuahua, donde dará el
banderazo de salida a camiones de las secretarías de la Defensa
Nacional y de Desarrollo Social, cuyo destino son los albergues
de la Comisión para el Desarrollo Indígena, en la Sierra
Tarahumara.
El lunes 26, Benedicto XVI tomará de nuevo el avión en
Guanajuato donde enviará un mensaje de despedida, para dirigirse
a Santiago de Cuba, donde aterrizará sobre las 14,00 horas (hora
local).
Por la tarde, celebrará unas vísperas con los obispos mexicanos y
una delegación de prelados de América Latina en la Catedral de la
Madre Santísima de la Luz, en la ciudad de León, donde también
pronunciará un discurso.
El auditorio de
la CEOE
No
San Isidro
Si
La Cumbre de
las Américas
Si*
Mi casa
Valle
de
Allende y la
Sierra
Tarahumara
No
Si y no
Guanajuato
Santiago
Cuba
Si y si
y
de
La Catedral de
la
Madre
Santísima de la
Luz
Si*
De la taba anterior en la columna “Prueba Superada” se muestra cuantas de las
entidades presentes en el texto fueron reconocidas de manera satisfactoria concluyendo:
17 entidades Correctas y 11 incorrectas en promedio el 61% de las entidades son
reconocidas de manera satisfactoria.
5.4.4 Poblado ontológico
Se realizó una evaluación de la eficiencia de la metodología en su etapa final, la cual
involucró entre otras cosas el poblado de la ontología espacial introduciendo las entidades
espaciales a sus correspondientes clases.
La ontología a poblar OntoEspacio (Figura 26), contiene las clases necesarias que
abarcan cualquier entidad espacial que pueda encontrarse en un texto de noticias.
Juan Diego Gómez Fierros
72 | P á g i n a
Capítulo 5.- Pruebas y resultados
Figura 26. OntoEspacio
Las pruebas con los resultados acumulados correspondientes se muestran en la tabla 7:
Noticia
1
10
20
30
40
50
60
70
80
90
100
Tabla 7. Resultados en el poblado ontológico
Acumulado de entidades
Acumulado de entidades
introducidas a la Ontología
correctas en la Ontología
14
7
125
92
211
159
316
236
380
285
498
391
594
471
684
533
778
606
866
682
985
771
Acumulado de
gold estándar
10
122
212
319
391
529
645
725
816
916
1032
Los valores de precisión y recuerdo se encontraron un poco bajos, pero si los
comparamos con los obtenidos al solamente utilizar 20 noticias estos aumentaron, de un
promedio de 0.71 en precisión y recuerdo a 0.76. Lo anterior nos llevó a deducir que el
aumento en el número de noticias es directamente proporcional, al aumento del valor
porcentual de ambas métricas de evaluación.
En la figura 27, se observa una gráfica del comportamiento de la precisión y el
recuerdo interpolados con los valores acumulados especificados en la tabla anterior:
Juan Diego Gómez Fierros
73 | P á g i n a
Capítulo 5.- Pruebas y resultados
0.8
Valor porcentual
0.75
0.7
0.65
Precisión onto
0.6
Recuerdo onto
0.55
0.5
1
2
3
4
5
6
7
8
9
10
11
Acumulado de noticias
Figura 27. Gráfica de precisión y recuerdo para el poblado ontológico
Como resultado del poblado ontológico se obtiene la ontología espacial OntoEspacio
poblada en sus diferentes clases.
Juan Diego Gómez Fierros
74 | P á g i n a
Capítulo 6. Conclusiones y trabajos futuros
En este capítulo se presentan las conclusiones generales y los trabajos futuros de este
trabajo de tesis, el cual fue desarrollado e implementado para lograr el poblado ontológico
de la ontología OntoEspacio. Se presentan las conclusiones obtenidas sobre cada uno de los
capítulos presentes en esta tesis y finalmente se muestran los trabajos futuros propuestos.
Capítulo 6.- Conclusiones y trabajos futuros
6.1
Conclusiones
Durante la realización de esta tesis se realizaron diversas actividades para poder lograr
el objetivo principal que consistía en la realización de una metodología que permitiera el
poblado de una ontología con información espacial extraída de textos noticiarios.
Para poder identificar entidades espaciales se recurrió a técnicas de PLN
particularmente al uso de patrones lingüísticos los cuales fueron generados de manera
semiautomática con la ayuda de una herramienta de nombre AntConc, esta herramienta
analiza la estructura de diversas oraciones con espacialidad y nos regresa cuales palabras
tienen un mayor número de ocurrencia antes y después de donde se localizan las entidades
espaciales en la oración, con este método fue posible deducir patrones confiables para
identificar entidades espaciales en texto.
Otro recurso utilizado para identificar entidades espaciales fue una herramienta de
análisis lingüístico llamada Calais, la cual identifica diversas entidades nombradas en textos
entre ellas las entidades espaciales (ciudades, países, zonas, etc.), esta herramienta sirve
como apoyo junto con una Base de datos que contiene los nombres de todos los países del
mundo y sus ciudades principales, para la identificación de entidades espaciales.
Otra actividad que fue resuelta involucra el tratamiento de los fenómenos lingüísticos
de elipsis y anáfora, estos fenómenos omiten o cambian algún elemento del discurso, en el
caso de la elipsis el elemento se omite ya que se sobreentiende en una oración y en el caso
de la anáfora se cambia por otra palabra la cual se conoce como referencia anafórica.
Las pruebas obtuvieron diferentes resultados en todos los casos la precisión fue mayor
al recuerdo lo cual indica que se localizan más entidades de las que deben ser reconocidas,
en las pruebas de los patrones lingüísticos para el reconocimiento de entidades espaciales,
mostró mejores resultados el patrón para extraer entidades espáciales sobre el patrón para el
poblado ontológico.
Para la identificación de conceptos relacionados a eventos, sólo se consideraron los
eventos que acompañaban a las entidades espaciales que fueron reconocidas anteriormente
por alguno de los patrones, esto es muy importante para la introducción del par Evento,
Espacio en la forma de tripleta Evento tiene_espacio Espacio, en la ontología OntoEvento
(Reyes, 2011).
En el caso de la solución al problema de la Anáfora lingüística, las pruebas demostraron
la eficacia del algoritmo de (Reyes, 2011a) para la aparición de este fenómeno lingüístico
en textos noticiarios.
Juan Diego Gómez Fierros
76 | P á g i n a
Capítulo 6.- Conclusiones y trabajos futuros
Finalmente las prueba para el poblado ontológico de la ontología OntoEvento (Reyes,
2011) mostraron diferentes resultados según el patrón aplicado quedando el patrón que
reconoce entidades espaciales con un índice de Precisión y recuerdo por arriba del 0.94, en
cambio la parte del patrón que realiza el poblado ontológico presento unas medidas de
precisión y recuerdo por debajo del 0.8.
Las actividades realizadas permitieron resolver, con un alto índice de confianza el
problema del poblado ontológico de una ontología espacial. Esta ontología nos permite
complementar una parte importante de un proyecto desarrollado en el grupo de Tecnologías
Web del cenidet del cual su principal objetivo es la extracción y recuperación de
información a partir de ontologías.
6.1.1 Contribuciones
A continuación se presenta la lista de contribuciones realizadas en esta tesis:



6.2
Conjunto de patrones léxicos que permiten la identificación de entidades
espaciales, entidades espaciales con su verbos para formar tripletas y finalmente
patrones para identificar coordenadas geográficas.
Una herramienta prototipo en la que se realiza todos los pasos descritos en la
metodología.
Implementación del algoritmo de (Reyes, 2011a) para solucionar el fenómeno
lingüístico de Anáfora.
Publicaciones
Durante la realización de esta tesis, concretamente en el trabajo de investigación que
involucra la evaluación de las diversas herramientas existentes para extracción de entidades
con nombre, se generó una publicación:

Gómez, J., & Montes A., (México): ''Comparativa entre Herramientas para la
Extracción de Entidades Espaciales Geográficas''. Undécima Conferencia
Iberoamericana en Sistemas, Cibernética e Informática: CISCI 2012,
International Institute of Informatics and Systemic, p. 103-108. Orlando, Florida
(Presentación Virtual).
Juan Diego Gómez Fierros
77 | P á g i n a
Capítulo 6.- Conclusiones y trabajos futuros
6.3
Trabajos futuros
En esta sección se abordan los trabajos futuros que fueron considerados durante el
desarrollo de esta tesis. La mayoría de estos trabajos pueden ser desarrollados para
aumentar el desempeño y algunos otros pueden incluso ser un nuevo trabajo de tesis.





Aumentar en el número de patrones definidos: los patrones expuestos no son los
únicos que pueden ser implementados en la metodología, existen un gran
número de estos pudiendo definir nuevos patrones para encontrar entidades
espaciales muy específicas o incluso encontrar nuevas entidades no
contempladas en el terreno de la espacialidad.
Ampliar la implementación de la solución a la Elipsis y la Anáfora propuesta
por (Reyes, 2011a): los métodos de resolución para la elipsis y anáfora
propuestos por (Reyes, 2011a), fueron acotados a solucionar estos fenómenos
lingüísticos sólo para la parte de espacialidad, cuando en realidad estos métodos
pueden funcionar para cualquier dominio, con el aumento de esta
implementación se espera un aumento la precisión de los métodos.
Implementar la metodología de esta tesis para la tesis de doctorado de (Reyes,
2011): Aunque la metodología ya fue probada mediante la extracción de
tripletas para la parte espacial de la ontología OntoEvento, se requiere una
integración con la tesis doctoral desarrollada por (Reyes, 2011).
Extender la herramienta para el uso de nuevos idiomas: Ya que todo el trabajo
planteado se limitó a trabajar sólo para el idioma Español, la posibilidad de
aumentar el número de idiomas que soporte la metodología queda como trabajo
futuro.
Extender la metodología para que acepte otros dominios: El dominio
periodístico abarca un gran conjunto de posibilidades según el tipo de noticia,
pero un texto periodístico maneja un formato específico, queda como trabajo
futuro poder aumentar la metodología para el reconocimiento de entidades
espaciales en textos de dominio, como medicina, geografía, etc.
Juan Diego Gómez Fierros
78 | P á g i n a
Referencias
Águila, G. (2006). Las nuevas tecnologías al servicio de la lexicografía: Los diccionarios electrónicos.
León: M. Villayandre (Ed.), Actas del XXXV Simposio Internacional de la Sociedad Española
de Lingüística (pp. 1-23).
Aone, C., & Ramos, M. (2000). REES: A Large–Scale Relation and Event Extraction System Proc.
Seattle: ANLP’2000.
Aussenac, N., Biébow, B., & Szulman, S. (2000). Revisiting Ontology Design: a methodology based
on corpus analysis. In R Dieng, O Corby (eds.) Engineering and Knowledge Management:
Methods, Models, and Tools. Proceedings of EKAW’2000, LNAI 1937, Springer-Verlag, pp.
172-188.
Bach, C. (2005). “Los marcadores de reformulación como localizadores de zonas discursivas
relevantes en el discurso especializado”. Debate Terminológico, n. 1.
Biemann. (2005). Ontology Learning from Text: A Survey of Methods. LDV-Forum 2005 – Band 20.
Cabré, T., Estopà, R., & Vivaldi, J. (2001). Automatic term detection. Amsterdam: D. Bourigault, C.
Jaquemin & M. C. L’Homme (Eds.), Recent Advances in Computational Terminology (pp.
53-87).
Carreras, X., Márquez, L., & Padró, L. (2002). Named Entity Extraction using AdaBoost. Taipei,
Taiwan.: Proceedings de CoNLL-2002 (pp. 167-170).
Castellanos, D., Fernández, J. T., & Valencia, R. (2008). Construcción de ontologías ligeras a partir
de consultas en lenguaje natural. Murcia, España.: Universidad de Murcia.
Cimiano. (2006). Ontology Learning and Population from Text: Algorithms, Evaluation and
Applications. Alemania: Springer Science and Business Media, ISBN-10: 0-387-30632-3, pp.
19-54.
Cimiano, P., & Vaolker, J. (2005). Text2Onto – A Framework for Ontology Learning and Data-driven
Change Discovery. Alicante, Spain: In: Montoyo, A., Munoz, R., Metais, E. Proceedings of
the 10th International Conference on Applications of Natural Language to Information
System (NLDB), Lecture Notes in Computer Science.
Cimiano, P., Hotho, A., & Staab, S. (2005). Learning Concept Hierarchies from Text Corpora using
Formal Concept Analysis. JAIR - Journal of AI Research, Vol. 24, pp. 305-339.
Condamines, A. (2002). “Corpus analysis and conceptual relation patterns”. Terminology, 8/1, 141162.
Condamines, A., & Rebeyrolle, J. (2001). "Searching for and identifying conceptual relationships via
corpus-based approach to a Terminological Knowledge Base (CTKB). Methods and results”.
Referencias
Amstermdam: Didier Borigault, Christian Jacquemin y Marie-Claude L´Homme (eds.)
(2001): Recent advances in computational terminology.
Corcho, O., Fernández, M., Gómez, A., & López, A. (2003). Construcción de ontologías legales con
la metodología METHONTOLOGY y la herramienta WebODE. Facultad de Informática.
Madrid. España: Universidad Politécnica de Madrid Campus de Montegancedo, s/n. 28660
Boadilla del Monte.
Cowie, J., & Wilks, Y. (2000). Information Extraction. New York.: In R Dale, H Moisl and H Somers
(eds.) Handbook of Natural Language Processing. New York: Marcel Dekker.
Davidson, L. (1998). Knowledge Extraction Technology for Terminology. Ottawa.: Ottawa:
University of Ottawa.
Desclés. (2010). “Reasoning in Natural Language in Using Combinatory Logic and Topology An
Example with Aspect and Temporal Relations”. University of Paris-Sorbonne: LaLIC.
Faber, P., & Jiménez, C. (2002). Investigar en terminología, Granada: Comares. Granada.
Faber, P., Rodríguez, C. I., & Sánchez, M. I. (2001). “Utilización de técnicas de corpus en la
representación del conocimiento médico” . Terminology, 7/2, 167-198.
Fellbaum, C. (1998). WordNet: An electronic lexical database. Cambridge: Cambridge: MIT Press.
Ferrández, A., Palomar, M., & Moreno, L. (1995). El problema del núcleo del sintagma nominal:
¿elipsis o anafora? España: Procesamiento del Lenguaje Natural, no. 20, pp. 13-26.
Ferrández, O., Toral, A., & Muñoz, R. (2006). Fine Tuning Features and Post-processing Rules to
Improve Named Entity Recognition. NLDB 2006 (pp. 176–185).
Fleischman, M., Hovy, E., & Echihabi, A. (2003). Offline strategies for online question answering:
answering questions before they are asked. Sapporo, Japan. 1-7: Proceedings of the 41st
Annual Meeting on Association For Computational Linguistics.
Florian, R. (2002). Named Entity Recognition as a House of Cards: Classifier Stacking. Taipei,
Taiwan: Proceedings of CoNLL-2002 (pp. 175-178).
Frakes, W. B., & Baeza, Y. R. (1992). Information Retrieval: data structures and Algorithms. México:
México: Prentice-Hall.
Frantzi, K., Ananiadou, S., & Tsuji, J. (1998). The cvalue/nc-value method of automatic recognition
for multiword terms. In Proceedings of the ECDL .pp 585-604.
Frías, X. (2001). Introducción a la semántica de la oración del español. España: Ianua, Revista
Philologica Romanica, suplemento 03.
Juan Diego Gómez Fierros
80 | P á g i n a
Referencias
Gaihua, F., Jones C, B., & Abdelmoty, A. I. (2005). Building a Geographical Ontology for Intelligent
Spatial Search on the Web School of Computer Science. Cardiff, UK: Cardiff University.
Ganter, B., & Wille, R. (1999). Formal Concept Analysis - Mathematical Foundations. Berlin:
Berlin:Springer-Verlag.
Goffman, & Newill. (1964). Methodology for test and evaluation of information retrieval systems.
Information Storage and Retrieval (1964) 3 p. 19-25.
Gomez, A., & Manzano, D. (2003). OntoWeb Deliverable 1.5: A Survey of Ontology Learning
Methods and Techniques. Madrid: Universidad Politécnica de Madrid.
Grishman, & Sundheim. (1996). DARPA’s MUC program. Message Understanding Conference in
1987 MUC Proceedings.
Halliday. (1994). Introducción a la semántica de la oración del español. España.: Ianua, Revista
Philologica Romanica, suplemento 03.
Hearst, M. (1992). Automatic acquisition of hyponyms from large text corpora. Berkeley, California:
En Proceedings of Conference COLING. Nantes: Association for Computational Linguistics.
Hobbs, J., Appelt, D., Bear, J., Isrrael, D., Kameyama, M., Stickel, M., y otros. (1997). FASTUS: A
Cascaded Finite-State Transducer for Extraction Information from Natural Language Text'.
E Roche and Y Schabes (eds.), Finite-State Language Processing, chapter 13, pp 383-406.
MIT Press.
IEEE. (1998). IEEE Standard for Software Test Documentation. Software Engineering Technical
Committee of the IEEE Computer Society.
Jackson, P., & Schilder, F. (2006). "Natural Language Processing: Overview" in Encyclopedia of
Language & Linguistics. ed. Keith Brown, Elsevier, Oxford.
Karoui, L., Aufaure, M., & Bennacer, N. (2004). Ontology Discovery from Web Pages: Application to
Tourism. In ECML/PKDD 2004: Knowledge Discovery and Ontologies KDO-2004.
Kent, A. (1955). Machine literature searching. VIII. Operational Criteria for Designing Information
Retrieval Systems American Documentation April 1955 6 (2) p. 93-101.
Laurence, A. (2011). AntConc. Tokio: Faculty of Science and Engineering Waseda University, Japan.
Llisterri. (2003). Lingüística y tecnologías del lenguaje, Lynx. Panorámica de Estudios Lingüísticos,
vol. 2, pp. 9-71.
Maedche, A., & Staab, S. (2001). Ontology Learning for the Semantic Web. IEEE Intelligent Systems,
Special Issue on the Semantic Web, 16(2).
Juan Diego Gómez Fierros
81 | P á g i n a
Referencias
Mann, G. S. (2002). Fine-grained proper noun ontologies for question answering. Taipei, Taiwan. 17: International Conference On Computational Linguistics On SemaNet: Building and Using
Semantic Networks.
Marín, M. (2000). "Introducción a la gramática" en Introducción a la lingüística española.
Barcelona.: ed. Ariel M.
Marshman, E., Morgan, T., & Meyer, I. (2002). French patterns for expressing concept relations.
Terminology, 8/1, 1-29.
Meyer, I. (2001). “Extracting knowledge-rich contexts for terminography. A conceptual and
methodological framework” . Amsterdam: Borigault, Didier, Christian Jacquemin y MarieClaude L´Homme (eds.). Recent advances in computational terminology .
Miller. (1999). The Lexical Component of Natural Language Processing Cognitive. Princeton
University: Science Laboratory.
Morgan, T. (2000). A Comparative Study of Hypernymic Patterns for Knowledge Extraction. Ottawa:
University of Ottawa.
Nédellec, C., & Nazarenko, A. (2005). Ontologies and Information Extraction. av. J.B Clément, F93430 Villetaneuse.: Laboratoire Mathématique, Informatique et Génome (MIG), INRA,
Domaine de Vilvert, 78352 F-Jouy-en-Josas cedex and Laboratoire d’Informatique de ParisNord (LIPN), Université Paris-Nord & CNRS.
Pantel, P., & Pennacchiotti, M. (2006). Espresso: Leveraging generic patterns for automatically
harvesting semantic relations. Sydney, Australia.: Proceedings of Conference on
Computational Linguistics / Association for Computational Linguistics (COLING/ACL).
Pantel, P., Ravichandran, D., & Hovy, E. (2004). Towards terascale knowledge acquisition. Geneva,
Switzerland. 771–777.: Proceedings of the International Conference on Computational
Linguistics.
Pasca, M. (2004). Acquisition of categorized named entities for Web search. Washington, D.C, USA.
137- 145.: Proceedings of the 13th ACM international conference on Information and
knowledge management.
Pearson, J. (1998). Terms in Context. Amsterdam: Amsterdam: John Benjamins.
Reyes. (2011). Creación automática de ontologías a partir de textos con un enfoque lingüístico.
Cuernavaca, Morelos, México: CENIDET.
Reyes. (2011a). Creación automática de ontologías a partir de textos con un enfoque lingüístico
Reporte cuatrimestral. Cuernavaca, Morelos, México: CENIDET.
Juan Diego Gómez Fierros
82 | P á g i n a
Referencias
Rojo, G. (2008). Lingüística de corpus y lingüística del Español. Montevideo, Uruguay: Conferencia
Magistral presentada en el XV Congreso Internacional ALFAL.
Sabou, M., Wroe, C., Goble, C., & Mishne, G. (2005). Learning Domain Ontologies for Web Service
Descriptions: an Experiment in Bioinformatics. Chiba, Japan.: Proceedings of the 14th
International World Wide Web Conference (WWW2005).
Salton, G., & McGill, M. J. (1983). Introduction to Modern Information Retrieval. New York: New
York: McGraw Hill.
Sánchez, D., & Moreno, A. (2004). Creating ontologies from Web documents. In Recent Advances in
Artificial Intelligence Research and Development. IOS Press, Vol. 113, pp.11-18.
Sang, E. T. (2002). Introduction to the CoNLL-2002 Shared Task: Language-Independent Named
Entity Recognition. Taipei, Taiwan: Proceedings of CoNLL-2002 (pp. 155-158).
Schmid, H. (1994). Probabilistic part-of-speech tagging using decision trees. Proceedings of the
International Conference on New Methods in Language Processing.
Schmid, H. (2000). Lopar: Design and implementation. In Arbeitspapiere des Sonder for
schungsbereiches, No. 149.
Scott, M. (1 de Abril de 2011). Wordsmith. Recuperado el 1 de Abril de 2012, de
http://www.lexically.net/wordsmith/index.html
Shamsfard, M., & Barforoush, A. A. (2003). The state of the art in ontology learning: A framework
for comparison. The Knowledge Engineering Review, Vol. 18 No.4 pp. 293-316.
Steve, A., Gangemi, D., & Pisanelli. (1998). Ontology Integration: Experiences with Medical
Ontologies. N. Guarino (ed.), pp. 163-178.
Swets, J. A. (1963). Information retrieval Systems. Science, 141 (3577): July 1963 p. 245-250.
Tesnière. (1976). Éléments de syntaxe structurelle. Paris: Klincksieck.
Wilks, Y., Slator, B., & Guthrie, L. (1996). Electric words. Cambridge: Cambridge: MIT Press.
Juan Diego Gómez Fierros
83 | P á g i n a
Anexos
Anexos
Herramientas utilizadas
PETRA Tag
Desarrollador:
José Ignacio Perea Sardón.
Descripción:
Petra POS Tagger es un etiquetador para el español escrito en C + + que asigna una
etiqueta POS (part-of-speech) en cada token de una oración dada. Este etiquetador tiene la
característica especial de que está preparado para etiquetar textos bilingües, mejorando la
precisión del proceso de etiqueta.
Características relevantes









Tokenización de textos
Separación de sentencias
Análisis morfológico
Etiquetado POS
Búsqueda de secuencias
Búsqueda de errores
Revisión de estilos
Estudio de rasgos gramaticales
Comprobación de concordancias
Referencia:
http://cogtrans.academia.edu/Jos%C3%A9IgnacioPereaSard%C3%B3n/Paper
s/761141/Etiquetado_de_textos_y_su_aplicacion_a_la_traduccion
Otros etiquetadores similares son:
Sistema
Plataforma
Normalización de etiquetas
Sistema de resolución de ambigüedades
Velocidad
Equipo desarrollador
Juan Diego Gómez Fierros
SMORPH
C sobre UNIX en estación SPARC 2
Inexistente
Inexistente
1000 palabras/segundo
Salah Aït-Mokhtar José Lázaro Rodrigo Mateos(Groupe de
Rechereche dans les Industriesde la Langue)
85 | P á g i n a
Anexos
Sistema
Plataforma
Normalización de etiquetas
Sistema de resolución de ambigüedades
Velocidad
Equipo desarrollador
SPOST
Quintus Prolog en estación de trabajo SUN
Inexistente
Reglas establecidas por lingüistas
Desconocida
David Farwell Stephen Helmreich Mark Casper(Computing
Research Laboratory)
Sistema
Plataforma
Normalización de etiquetas
Etiquetador de Xerox
Common Lisp en SunOS 4.x y 5.x, Macintosh
Tiene en cuenta recomendaciones de EAGLES y directrices de
TEI
Mixto: estadístico y normas establecidas por lingüistas
Desconocida
Fernando Sánchez León(Adaptación al español)Universidad
Autónoma de Madrid Proyecto CRATER(Corpus Resources And
Terminology ExtRaction)
Sistema de resolución de ambigüedades
Velocidad
Equipo desarrollador
Sistema
Plataforma
Normalización de etiquetas
Sistema de resolución de ambigüedades
Velocidad
Equipo desarrollador
TreeTagger + Relax
Desconocida
Desconocida
Mixto: árboles de decisión estadísticos, con la posibilidad de
utilizar información de n-gramas, restricciones de contexto
aprendidas automáticamente, restricciones lingüísticas
confeccionadas por especialistas, etc.
Desconocido
Lluís Márquez, Lluís Padró y Horacio Rodríguez Departamento
de Lenguajes y Sistemas Informáticos(Universidad Politécnica de
Cataluña)
Sistema
Plataforma
Normalización de etiquetas
Sistema de resolución de ambigüedades
Velocidad
Equipo desarrollador
SVMTool
Perl
Desconocido
Aprendizaje automático
1500 palabras/segundo
Jesús Giménez y Lluís MàrquezCentro de investigación
TALP(Universidad Politécnica de Cataluña)
Todos tienen soporte para el idioma Español.
Juan Diego Gómez Fierros
86 | P á g i n a
Anexos
OpenCalais
Desarrollador:
Thomson Reuters
Descripción:
Open Calais es un servicio web de Thomson Reuters que permite la extracción de
entidades, hechos y eventos de texto libre en inglés, francés y español. Su versión en inglés
es la que presenta una mayor funcionalidad, si bien en español.
Open Calais ofrece un API sencillo que puede ser usado mediante SOAP, REST vía
HTTP POST, o HTTP POST. Como entrada permite documentos de distintos formatos
(HTML, HTMLRAW, XML y texto).
Características relevantes



reconocimiento y categorización de entidades usando 15 clases de entidades
evaluación de la relevancia de entidades
desambiguación y enlazado con Linked Open Data para algunos tipos como
Company
Referencia:
http://www.opencalais.com/
Comparativa con otras herramientas similares:
Tabla 8. Comparativa entre herramienta para la extracción de entidades
Número de entidades Reconocidas
Noticia
Manual
calais
AlchemyAPI
Extractiv
Ner
3
1
1 (Tag)
1
1
1
2
1
0
2
2
2
4
0
1
2
2
3
2
2
0
3
2
4
8
5
6
3
6
5
10
7
5
8
9
6
2
2
1
0
1
7
4
4
3
4
4
8
3
4
4
2
4
9
2
2
1
1
0
10
40
28
22
26
31
Total
Juan Diego Gómez Fierros
87 | P á g i n a
Anexos
Las medidas de Precisión y Exhaustividad para cada una de las herramientas se muestran
en las figuras 28 y 29.
Figura 28. Precisión de las herramientas
Figura 29. Exhaustividad de las herramientas
Una gráfica de la Precisión y Exhaustividad interpoladas se observa en la figura 30
1.05
1
Precisión
Alchemy
0.95
Extractiv
0.9
CALAIS
0.85
STILUS NER
0.8
0
Juan Diego Gómez Fierros
0.1
0.2
0.3
0.4
0.5
0.6
0.7
Exhaustividad
Figura 30. Precisión y Exahustividad interpoladas
0.8
88 | P á g i n a
Descargar