The Acquisition of Axioms for Ontology Learning Using Named Entities

Anuncio
2498
IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 5, MAY 2016
The Acquisition of Axioms for Ontology
Learning Using Named Entities
A. B. Rios, I. Lopez and E. Tello
Abstract— Domain ontologies facilitate the organization,
sharing, and reuse of domain knowledge. The construction of
ontologies from text deals with the extraction of concepts and
relations from text collection. A huge challenge is the learning of
more expressive ontologies which includes relations such as
disjointness or equivalence between classes. In our work, we
exploit a text collection written in English with occurrence of
named entities giving information about individuals in an specific
domain knowledge for generating axioms. The co-ocurrence in
texts of named entities is exploited to establish axiomatic relations
between classes such as subClassOf, disjointWith, and
equivalentClass; as well as between individuals as
sameIndividualAs by using the instanceOf relation. For this
purpose, a Named Entity Recognition tool was used for the
identification of instanceOf relation, the linguistic context where
the classes co-occur was extracted for the identification of
axioms. The experiments were made on a text collection about
the tourist domain. The results show that named entities provide
good evidence for the identification of axiomatic relations.
Keywords— Ontology learning, axioms, named entities.
E
I. INTRODUCCIÓN
N la última década la Web se ha convertido en un
repositorio de información muy importante con una gran
cantidad de recursos de distintas fuentes. En particular, la Web
contiene información con esquemas de datos estructurados,
semi-estructurados y no estructurados. Los recursos de
información no-estructurada (es decir, sin metadatos
asociados) representan una de las fuentes de conocimiento
más prominente generada por humanos en la Web. Esto quiere
decir que la escritura de blogs, correos electrónicos, notas,
reportes, artículos, entre otros, es la primera fuente de
conocimiento creada por humanos mediante texto escrito en
lenguaje natural. En las organizaciones, por ejemplo,
compañías y universidades, la escritura de tales recursos de
información representa una fuente de conocimiento esencial
para su crecimiento y desarrollo. Además, con el
advenimiento de la Web semántica estos recursos requieren
ser entendibles y tener un significado bien definido para un
acceso y reutilización eficiente por aplicaciones de cómputo.
Por lo que se hace necesario contar con un mecanismo que
represente su conocimiento a través de una estructura
conceptual que permita su gestión. Las ontologías son el
medio idóneo para hacerlo y son un elemento clave para el
A. B. Rios, Universidad Autónoma de Tamaulipas, Cd. Victoria,
Tamaulipas, México, [email protected]
I. Lopez, CINVESTAV-LTI, Cd. Victoria, Tamaulipas, México,
[email protected]
E. Tello, Universidad Autónoma de Tamaulipas, Cd. Victoria,
Tamaulipas, México, [email protected]
éxito de la Web semántica. Una ontología es un sistema de
representación del conocimiento difundido en los últimos años
y que ha potenciado el desarrollo y uso de aplicaciones
semánticas. También se pueden ver como una herramienta de
apoyo para coordinar y optimizar el intercambio de
información [1]. Esencialmente una ontología está compuesta
por una taxonomía de conceptos, relaciones bien definidas y
un conjunto de axiomas. Una ontología puede ser construida
de forma manual por expertos en el dominio del conocimiento
que esta representa, pero el proceso de desarrollo se vuelve
largo y tedioso [2]. Este proceso es complicado debido a la
cantidad de palabras que deben procesarse para seleccionar
aquellas que sean útiles y plasmarlas en las ontologías. Un
enfoque para no tomar en cuenta todas las palabras es utilizar
las entidades nombradas. Una entidad nombrada puede
definirse como una unidad de información, tal que expresa el
nombre de una persona, de una organización, de un lugar, de
una compañía, de un producto o una expresión numérica (por
ejemplo, tiempo, fecha, cantidad monetaria, porcentaje, entre
otras). Algunos trabajos [3, 4] han tomado ventaja de las
entidades nombradas que ocurren en el texto para el proceso
de poblado de una ontología, por lo que podría decirse que las
entidades nombradas son una evidencia de individuos
extraídos a partir de texto.
En los últimos años un campo importante del área de
Computación y Lingüística Computacional se ha dedicado a la
generación de ontologías de manera automática y/o
semiautomática a partir de documentos textuales. La
construcción de una ontología a partir de texto, el cual es un
proceso también llamado aprendizaje de ontologías, se
concentra principalmente en obtener conceptos y las
relaciones entre ellos con base en las palabras y frases que
aparecen en él [5]. Un gran número de herramientas para el
aprendizaje de ontologías han sido desarrolladas en los
últimos años. Sin embargo, algunas propuestas están sólo
relacionadas con la extracción de relaciones taxonómicas [6,
7, 8] o no-taxonómicas [9, 10] lo que limita la expresividad de
las ontologías construidas. Entre los elementos que
proporcionan mayor expresividad a una ontología se
encuentran los axiomas. Un axioma puede ser visto como una
premisa calificada como verdadera. Los axiomas extraídos a
partir de la información contenida en una colección de
documentos ayudan a entender y a usar mejor los elementos
de la ontología que modela el conocimiento en esa colección.
Los axiomas se extienden de primitivas para expresar la lógica
de primer orden. Las primitivas como existencia, coreferencia, relación, conjunción (P and Q) y negación (not P)
pueden ser también expresadas en lenguaje natural. Por
ejemplo, el enunciado “there is a cat” implica la existencia de
RIOS ALVARADO et al.: THE ACQUISITION OF AXIOMS
un gato. Estas primitivas también suelen llamarse primitivas
semántica, debido a que expresan relaciones semánticas entre
sus elementos [11]. Por lo tanto, puede decirse que un axioma
define relaciones formales entre los componentes de una
ontología.
Los axiomas pueden ser clasificados en tres tipos: axiomas
de términos, hechos y anotaciones. Los axiomas de términos
se refieren a las relaciones entre los elementos de la ontología
y a su vez pueden ser de dos tipos: axiomas de clases o
axiomas de propiedades. Los axiomas de clases pueden
expresar las relaciones de subsunción, equivalencia o
disyunción. Una relación de subsunción, expresada como
subClassOf(C,D), indica que C es la subclase o concepto más
específico y D es la superclase o concepto más general. Este
tipo de axioma indica que cada individuo incluido en C
también está dentro de la extensión de D, es decir, que los
individuos en C son también individuos descritos por D. Este
tipo de relaciones constituyen la parte vertebral de una
jerarquía de clases (taxonomía). Un axioma de clases
equivalentes es usado para indicar que dos clases tienen
precisamente el mismo conjunto de instancias, esta relación es
expresada de la forma equivalentClass(M,N), donde M y N
son dos clases con nombre distinto, pero que tienen el mismo
conjunto de instancias. Un axioma de disyunción expresado
como disjointClass(M,N) indica que un individuo, como
miembro de una clase, no puede ser de manera simultánea una
instancia de otra clase. Los axiomas de propiedades permiten
establecer relaciones entre dos instancias de una clase o entre
una instancia y un dato específico.
Un hecho o axioma de individuo es una aserción sobre los
individuos. Uno de los más importantes axiomas de individuos
es la relación de instanciación. La relación de instanciación
tiene la forma instanceOf (a,C), donde C es una clase y a es
un individuo que pertenece a la clase C, también a es llamada
instancia de C. Las instancias se refieren a entidades del
mundo real, semánticamente quiere decir que un individuo
con el nombre a es una extensión del conjunto de individuos
descritos por la clase C. Una relación de equivalencia entre
individuos es un axioma que indica que dos nombres
corresponden al mismo individuo. Por el contrario, la
disyunción entre dos individuos ocurre cuando se hace
explícita la relación entre dos nombres de individuos que son
distintos. Estos dos axiomas sobre individuos pueden ser
expresados como sameIndivualAs(a,b), donde a y b son
diferentes nombres para el mismo individuo; y como
differentFrom(a,c) donde a y c son nombres de dos individuos
distintos, respectivamente.
Por otro lado, las anotaciones se refieren a descripciones
semánticas que proveen información adicional sobre un
recurso.
Este artículo presenta un método para la identificación de
axiomas de clases y de individuos con base en la
identificación de entidades nombradas a partir de texto escrito
en el idioma Inglés. El enfoque presentado comprende la
detección de entidades nombradas y la identificación de un
conjunto de instancias por cada clase. De forma
complementaria, son analizados los enunciados, donde las
2499
instancias y su clase correspondiente aparecen. El contexto de
la relación, así como las relaciones de instanciación basadas
en el proceso de extracción de entidades nombradas
determinan alguno de los siguientes axiomas de clases:
subClassOf, disjointWith y equivalentClass; así como también
axiomas para los individuos como son: instanceOf y
sameIndividualAs.
El resto del documento está organizado de la siguiente
forma. En la Sección 2 se presenta una breve descripción del
trabajo relacionado con el tema de extracción de axiomas. En
la Sección 3 se describe el enfoque propuesto para identificar
axiomas. En la Sección 4 se presenta la experimentación.
Finalmente en la Sección 5 se dan las conclusiones.
II. TRABAJO RELACIONADO
Con el fin de obtener un mayor nivel de expresividad en las
ontologías generadas de forma semiautomática o automática
se han propuesto algunos métodos para extender el proceso de
construir ontologías. En general, propuestas como LExO [12],
LeDA [13] y ReLExO [14] usan una secuencia de tareas de
procesamiento de lenguaje natural. El método de LexO [12]
comienza con el análisis de la estructura sintáctica de las
oraciones. El árbol de dependencia obtenido es transformado a
un conjunto de axiomas OWL (inclusión de conceptos,
transitividad, inclusión de roles, aserciones, aserciones sobre
conceptos e individuos) a través de un conjunto de reglas de
transformación construidas manualmente. LeDA [13] permite
la generación de axiomas para elementos disjuntos basados en
algoritmos de clasificación usando aprendizaje automático. El
clasificador determina si existe una relación disjunta entre un
par de clases dado. El clasificador es entrenado a partir de un
conjunto de axiomas creado manualmente. ReLExO[14] surge
como un apoyo para la adquisición y refinamiento de
descripciones de clases complejas con el objetivo de
identificar partes de texto que indican la validez de cierto
conocimiento. Un texto determinado puede contener
inconsistencias entre las relaciones de los elementos
contenidos en dicho texto.
En otras propuestas [15, 16], los métodos son
completamente automáticos. En [15] se presenta un algoritmo
automático de aprendizaje de axiomas que funciona a partir de
los elementos que cumplen una relación no taxonómica. El
algoritmo se concentra en el aprendizaje de axiomas
relacionados con las propiedades de los objetos (simetría,
asimetría, reflexividad, transitividad y funcionalidad). Se
identifican relaciones no taxonómicas del tipo R(x; y) donde x
y y representan conceptos y/o individuos y R la relación o
propiedad identificada. Entonces, la Web se utiliza como
corpus, además de técnicas lingüísticas basadas en patrones de
texto y análisis estadístico de la distribución de la información
para establecer si la relación identificada corresponde a un
axioma. En [16], correspondiente al proyecto YAGO, los
axiomas son extraídos desde el sistema de categorías y cajas
de información de Wikipedia, los cuales son combinados con
relaciones taxonómicas recuperadas desde WordNet. Por otro
lado, en [17] se describe una propuesta para el aprendizaje de
axiomas de inclusión. Los autores usaron un método basado
2500
IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 5, MAY 2016
en Programación Lógica Inductiva para el aprendizaje de un
conjunto de reglas, el cual genera una lista de axiomas de
inclusión representados en Lógica Difusa.
III. MÉTODO PROPUESTO
El método propuesto en este trabajo permite identificar
axiomas como instanceOf, sameIndividualAs, subClassOf,
disjointWith y equivalentClass representados como
expresiones de clases, considerando el reconocimiento de
entidades nombradas a partir de texto no estructurado. El
método inicia con la identificación de instancias (entidades
nombradas), para posteriormente asociar a cada clase su
conjunto de instancias. Además se usa el contexto lingüístico
donde las instancias y sus clases ocurren para establecer una
relación axiomática a las clases asociadas. La Fig. 1 muestra
una vista general del método propuesto para esta fase.
Figura 1. Método para la extracción de axiomas.
Considérense las siguientes definiciones:
• Definición 1. Una clase (class) o concepto delimita a
un conjunto de individuos que comparten
características o propiedades similares. Una clase se
denota por X.
• Definición 2. Una instancia denotada por x es un
objeto determinado de una clase X, lo que a su vez es
un individuo.
• Definición 3. Una relación instanceOf se define como
la relación de pertenencia que existe entre un individuo
x y solo una clase X, la cual se denota por
instanceOf(x,X).
• Definición 4. Sean X y Y dos clases, se establece una
relación de subclase entre X y Y si la clase Y tiene un
significado más amplio que la clase X. Se denota por
subClassOf(X,Y).
• Definición 5. Sean X y Y dos clases, se establece una
relación de disyunción entre dos clases X y Y si
ninguna de las instancias de la clase X pertenece a la
clase Y. Se denota por disjointWith(X,Y).
• Definición 6. Sean X y Y dos clases, se establece una
relación de equivalencia entre dos clases X y Y si
tienen exactamente las mismas instancias. Se denota
por equivalentClass(X,Y).
El método va de lo particular a lo general, toma como
premisa que ya existe una jerarquía de clases de la ontología a
enriquecer; las instancias se asocian a las clases de la
jerarquía. A continuación se describen las etapas generales.
a. Identificación de instancias
Con el fin de que el método sea no supervisado, una
herramienta para el reconocimiento de entidades nombradas
obtiene las entidades nombradas a partir del texto.
Las relaciones del tipo instanceOf(entidad nombrada,
clase) entre una entidad nombrada y una clase particular se
obtienen mediante la relación type (tipo de entidad nombrada)
dado por la herramienta reconocedora de entidades nombradas
y el análisis del contexto lingüístico donde co-ocurren la
entidad nombrada y su respectiva clase.
b. Análisis del contexto
Las oraciones donde un conjunto de instancias y su
correspondiente clase co-ocurren se agrupan, así el contexto
permite determinar si existe una relación entre individuos,
entre individuos y clases, así como entre dos clases dado su
contexto. La Tabla I muestra el conjunto de patrones léxicos
que permite identificar la relación instanceOf con base en su
contexto, donde NE es una entidad nombrada y NP es una
frase nominal. Una vez identificada la relación instanceOf es
posible establecer las siguientes relaciones axiomáticas:
• sameIndividualAs: Para esta relación se considera el
conjunto de patrones léxicos mostrado en la Tabla II,
donde NE corresponde a una entidad nombrada. La
relación se establece cuando aparecen dos entidades
nombradas distintas en el mismo contexto, esto es en la
misma oración.
• subClassOf: Al nivel de clases la relación subClassOf es
uno de los axiomas más importantes. Este axioma
estructura el conjunto de clases dentro de una taxonomía
donde la clase superior es más general que la clase
inferior. Por ejemplo, la clase nature determina un
significado más amplio que la clase river; por
consiguiente, se puede establecer la relación
subClassOf(river,nature).
• disjointWith: Una relación de clases disjuntas
(disjointWith) entre dos clases indica que una clase no
tiene instancias en común con la otra clase. Para
determinar si dos clases son disjuntas se considera la
definición de clases disjuntas y las entidades nombradas
identificadas en el texto, así como las relaciones
instanceOf entre ellas y su clase particular.
• equivalentClass: La relación clases equivalentes
(equivalentClass) entre dos clases se establece cuando las
extensiones (descripciones) de esa clase incluyen el
mismo conjunto de individuos. Es importante mencionar
que la equivalencia entre clases significa que las clases
tienen el mismo significado intencional, esto es que las
clases denotan el mismo concepto. De acuerdo a la
definición la relación equivalentClass(class1, class2) se
establece si el conjunto de individuos entre las dos clases
es el mismo, para lo cual el conjunto de instancias de cada
RIOS ALVARADO et al.: THE ACQUISITION OF AXIOMS
clase se compara para así determinar si las clases class1 y
class2 son equivalentes.
TABLA I
PATRONES LÉXICOS PARA LA IDENTIFICACIÓN DE LA
RELACIÓN instanceOf
NE is a NP
NP, NE
NE: NP
NP like NE, NE, and NE
TABLA II
PATRONES LÉXICOS PARA LA IDENTIFICACIÓN DE LA
RELACIÓN sameIndividualAs
NE (NE)
NE known as NE
NE (also known as NE)
NE called NE
NE also called NE
IV. EXPERIMENTACIÓN
Se desarrolló una aplicación en lenguaje de programación
Java y se usaron las herramientas basadas en Linked Data
[17], AlchemyAPI [18] y OpenCalais [19], las cuales asocian
cada entidad nombrada a una clase dentro de una ontología.
Para ilustrar cómo funciona el método considérense las
siguientes oraciones:
1) In Wexford the November Opera Festival is an
international event.
2) The Elephanta Festival is a classical dance and music
event on Elephanta Island usually held in February.
3) The Grenada National Museum in the center of town
incorporates and old French barracks dating from 1704.
Estas oraciones proporcionan evidencia para las siguientes
relaciones: instanceOf(November Opera Festival, festival),
instanceOf(Elephanta Festival, festival), subClassOf(festival,
event), disjointWith(festival, museum).
Es importante notar que el análisis del contexto permite
lidiar con el problema de entidades nombradas ambiguas. Por
ejemplo, en la oración “A highly developed country, Australia
is the world's 13th-largest economy” co-ocurren la clase
country y el individuo Australia, entonces se podría establecer
la relación instanceOf(Australia, country). Por el contrario, si
se tiene la oración “Australia is the smallest continent and it is
also an island” entonces co-ocurren la clase continent y el
individuo
Australia,
por
lo
tanto
la
relación
instanceOf(Australia, continent) puede ser establecida.
A continuación se muestran detalles de las etapas
propuestas y una evaluación manual usando una colección de
textos del dominio de Turismo pertenecientes al corpus
Lonely Planet [20].
Etapa 1. Identificación de instancias
Usando la herramienta desarrollada se identificaron las
entidades nombradas y sus tipos, donde cada entidad
nombrada identificada corresponde a un individuo y cada tipo
corresponde a una clase, por consiguiente, puede establecerse
la relación instanceOf(entidad nombrada, tipo). Por ejemplo,
los individuos France, Ireland y Brazil delimitan la clase
2501
country y los individuos Brussels, Iraklio y Belfast a la clase
city (ver Fig. 1), entonces se pueden establecer las relaciones
instanceOf(France, country), instanceOf(Ireland, country),
instanceOf(Brazil, country), instanceOf(Brussels, city),
instanceOf(Iraklio, city) y instanceOf(Belfast, city).
A continuación, para corroborar los resultados de esta etapa
se presentan un conjunto de oraciones detectadas por la
herramienta, además se hizo el análisis del contexto para
identificar la co-ocurrencia de patrones léxicos mostrados en
la Tabla I, las entidades nombradas y su clase correspondiente.
1) The Donia is a traditional music festival, it is held on
Nosy Be in May-June.
2) Crete is Greece's most southerly point, with its largest
city, Iraklio, situated in the middle of the north side of the
island.
3) South Africa: the country offers everything from
ostrich riding to the world's highest bungee jump!
4) The usual Christian holidays like Easter and Christmas
are celebrated...
En el ejemplo 1 la entidad nombrada es The Donia, la clase
identificada es festival y el patron identificado en la oración es
<NE> is a <NP>. En la segunda oración la entidad nombrada
es Iraklio y la clase identificada es city, entonces el patron
asociado es <NP>, <NE>. En el ejemplo 3, el patrón es
<NE>:<NP>, donde la entidad nombrada corresponde a
South Africa y la clase country. Finalmente, en el ejemplo 4
las entidades nombradas son Easter y Christmas asociadas a la
clase holidays usando el patron <NP> like <NE> and <NE>.
Etapa 2. Identificación de relaciones entre individuos
En el nivel de instancias se presenta el caso de que dos (o
algunas veces más de dos) entidades nombradas diferentes
identifican el mismo individuo. Tales entidades nombradas
pueden ser asignadas a la relación sameIndividualAs. Dada la
Definición 2 que define una instancia y los patrones léxicos
mostrados en la Tabla II, a continuación se presentan algunas
oraciones identificadas donde co-ocurren las entidades
nombradas asociadas a la relación sameIndividualAs, estas
oraciones fueron identificadas por la herramienta
implementada:
1) Beit al-Sahel (Palace Museum) served as the Sultan's
residence until 1964 when the dynasty was overthrown.
2) North-eastern Libya, the Jebel Akhddar area (also
known as the Green Mountains), is the most verdant and
arguably the most beautiful part of the country.
3) Dominica's national bird, the Sisserou, also called
Imperial Parrot, is about 20in (50cm) long when full grown,
the largest of all Amazon parrots.
En el ejemplo 1 la entidad nombrada Beit al-Sahel es
también identificada como Palace Museum y el patrón
identificado en la oración es <NE> (<NE>). En el ejemplo 2
las entidades nombradas Jebel Akhddar area y Green
Mountains se refieren al mismo individuo y el patrón asociado
es <NE> (also known as <NE>). En el ejemplo 3 se tienen las
entidades nombradas Sisserou e Imperial Parrot que se
refieren al mismo individuo y el patrón identificado es <NE>
also called <NE>.
Etapa 3. Identificación de relaciones entre clases
Una vez que se han identificado los individuos y sus
relaciones del tipo instanceOf se deben identificar las
relaciones entre clases.
2502
1. Relación subClassOf
La herramienta utilizada para el reconocimiento de
entidades nombradas provee una estructura taxonómica útil
para establecer las relaciones de tipo/subtipo asociados a las
entidades nombradas identificadas; se propone usar la relación
type/subtype. Por ejemplo, se identificó que la clase
GeographicFeature tiene los subtipos Location, CityTown,
River,
BodyOfWater,
AdministrativeDivision,
TouristAttraction, Island, Mountain y Lake con lo que pueden
establecerse las siguientes relaciones:
subClassOf(Location,GeographicFeature),
subClassOf(CityTown,GeographicFeature),
subClassOf(River,GeographicFeature),
subClassOf(BodyOfWater,GeographicFeature),
subClassOf(AdministrativeDivision,GeographicFeature),
subClassOf(TouristAttraction,GeographicFeature),
subClassOf(Island,GeographicFeature),
subClassOf(Mountain,GeographicFeature),
subClassOf(Lake,GeographicFeature).
Para ilustrar lo anterior, considerando el uso del contexto y
del patrón léxico is-a, a continuación se muestran algunos
ejemplos de oraciones detectadas por la herramienta donde se
encuentra la relación subClassOf:
1) In northern County Clare, the Burren region is an
extraordinary place.
2) The National Folklore Festival of Marakesh is a 10-day
tourist event well worth attending for the dancers...
3) The Brisbane Forest Park is a 285 sq km reserve of
natural bushland in the D'Aguilar Range.
4) Grand Turk's Carnival is a week-long festival in August
with reggae and (of course) dancing.
En el ejemplo 1 la entidad nombrada Burren es una
instancia de la clase region y la clase region es una subclase
de place. En el ejemplo 2 el individuo National Folklore
Festival of Marakesh es una instancia de la clase festival y
ésta a su vez es una subclase de event. Para el ejemplo 3 se
tiene el individuo Brisbane Forest Park como instancia de la
clase park y ésta como subclase de reserve. Finalmente, en el
ejemplo 4 se cumple la relación instanceOf(Grand Turk's
Carnival, carnival) con lo cual se deriva que la clase carnival
es subclase de festival.
2. Relación disjointWith (Clases disjuntas)
Considerando la Definición 5, para cada dupla (class1,
class2) su lista de instancias se compara y si no hay individuos
comunes entre las dos clases entonces se establece la relación
disjointWith(class1, class2). Por ejemplo, en la Fig. 1 los
individuos France, Ireland y Brazil pertencen a la clase
country y por otro lado los individuos Brussels, Iraklio y
Belfast son de la clase city, entonces se puede establecer que
las clases country y city cumplen una relación de disyunción,
es decir, se puede establecer la relación disjointWith(country,
city).
Considerando la colección de documentos de prueba
(Lonely Planet) se seleccionó una muestra de 450 documentos
y se analizaron las entidades nombradas y sus clases
asociadas. Sobre la muestra se obtuvieron 5 clases de
instancias sin traslape de los elementos de su lista de entidades
nombradas entre cada una de las clases. La herramienta
identificó un total de 105 duplas (class1, class2), las cuales
fueron analizadas para identificar cuáles duplas cumplían la
IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 5, MAY 2016
relación de clases disjuntas. De acuerdo a la evaluación de un
experto humano, la Fig. 2 muestra el total de duplas obtenidas
y cuáles de estas cumplen con una relación de clases (class1,
class2) disjuntas. De esta evaluación, se puede ver que de las
duplas identificadas 88 corresponden correctamente a clases
disjuntas (disjointWith(class1, class2)) y el resto (17 duplas)
tienen alguna otra relación como subClassOf o partOf.
Figura 2. Ejemplo de clases disjuntas identificadas en la colección Lonely
Planet.
3. Relación equivalentClass (Clases equivalente)
Si se tienen dos o más ontologías pertenecientes a un
mismo dominio y los individuos de cada una de las clases (con
la misma etiqueta) son iguales, se puede establecer una
relación de equivalencia. Por ejemplo, en la Fig. 3 se muestra
que las clases Alchemy:Country, OpenCalais:Country y
dbpedia-owl:country son equivalentes. En otro caso, si una de
las ontologías tiene la clase HealthCondition con los
siguientes individuos asociados Fever, Hepatitis, Malaria y
dehydration y la otra ontología tiene la clase
MedicalCondition con los individuos asociados Fever,
Hepatitis y Malaria, se puede identificar que las clases
HealthCondition y MedicalCondition cumplen de igual forma
una relación de equivalencia (ver Fig. 4).
Figura 3. Ejemplo de clases equivalentes.
Figura 4. Ejemplo de clases equivalentes con nombres de clase distintos.
Para ejemplificar el aprendizaje de la relación equivalentClass
se consideraron dos ontologías distintas. En este caso se
usaron las ontologías de AlchemyAPI y OpenCalais sobre la
RIOS ALVARADO et al.: THE ACQUISITION OF AXIOMS
misma muestra de 450 archivos de Lonely Planet corpus.
AlchemyAPI identificó 15 clases y OpenCalais identificó 17
clases sobre el mismo conjunto de textos. De un total de 255
duplas del tipo (AlchemyAPI:Class, OpenCalais:Class)
únicamente 16 duplas tuvieron un traslape entre los conjuntos
de instancias. De acuerdo a la evaluación de un experto
humano, 11 de esas duplas cumplieron con una relación de
equivalencia, el resto cumplió con otra o ninguna relación.
Todos los axiomas que se identificaron a través del método
propuesto son vistos como el esquema general sobre el cual
está organizado el conocimiento que se representa a través de
la ontología, en este caso en el dominio de Turismo. Los
axiomas se integrarán a la ontología original a través de
Protégé [21]. Con esto la ontología de Turismo fue
enriquecida con instancias y dotada de un mayor nivel de
expresividad para llevar a cabo tareas de inferencia.
V. CONCLUSIONES
En este trabajo se presentó un método para la extracción de
axiomas, el cual considera la identificación de entidades
nombradas que describen de manera extensional a las clases y
permite la obtención de las relaciones axiomáticas
(instanceOf,
sameIndividualAs,
disjointWith
y
equivalentClass). En el caso de las relaciones instanceOf y
sameIndividualAs se considera primero identificar las
entidades nombradas y posteriormente aplicar un conjunto de
patrones léxicos para la identificación de las entidades
relacionadas.
Para
las
relaciones
disjointWith
y
equivalentClass, se considera la identificación de las entidades
nombradas y la relación instanceOf con su respectiva clase.
Posteriormente, una vez que se tienen las instancias por cada
clase entonces se aplican los algoritmos que permiten obtener
las relaciones subClassOf, disjointWith y equivalentClass. Las
actuales herramientas reconocedoras de entidades nombradas
se vuelven cruciales para que este proceso sea automático y su
nivel de precisión determina en gran parte el éxito de los
axiomas (subClassOf, disjointWith y equivalentClass)
asociados a las clases de la ontología. Sin embargo, el análisis
del contexto, donde aparecen las clases y sus entidades,
provee un sustento textual a la identificación de axiomas lo
que permite que el método propuesto sea robusto. El método
propuesto puede ser aplicado a un conjunto de textos en otro
dominio, incluso en otro idioma, pero al ser automático se
deberá considerar una herramienta de reconocimiento de
entidades nombradas apropiada al dominio e idioma. También
se deberá considerar la naturaleza del dominio a tratar, ya sea
general (con un alto contenido de instancias) o especializado.
AGRADECIMIENTOS
Los autores agradecen al apoyo otorgado al proyecto NPTC
Convenio DSA/103.5/15/7318 PROMEP-SEP, México.
REFERENCIAS
[1]
[2]
[3]
E. Muñoz, M. Muñoz, E.C. García, and J. Mejia, “Knowledge
Management in Process Improvement and Best Practices Sharing” Latin
America Transactions, IEEE (Revista IEEE America Latina), vol.12,
no.3, pp.469-474, 2014
A. Meadche and S. Staab. “Ontology learning for the semantic web”,
IEEE, Intelligent Systems, vol. 16, no. 2, pp. 72-79, 2001
C. Giuliano and A. Gliozzo. “Instance-based ontology population
exploiting named entitiy substitution”, en Proc. 22th International
2503
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
[15]
[16]
[17]
[18]
[19]
[20]
[21]
Conference on Computational Linguistics, COLING’08, vol. 1, pp.265272, 2008.
J. M. Ruiz-Martínez, J. A. Miñarro-Giménez, L. Guillén-Cárceles, D.
Castellanos-Nieves, R. Valencia-García, F. García-Sánchez, J. T.
Fernández-Breis, and R. Martínez-Béjar. “Populating ontologies in the
etourism domain”, Proc. 2008 IEEE/WIC/ACM International
Conference on Web Intelligence and Intelligent Agent Technology, WIIAT-08, vol. 3, pp. 316-319, 2008
P. Cimiano “Ontology Learning and Population from Text: Algorithms,
Evaluation and Applications”, Springer, NJ, USA, 2006
R. Snow and D. Jurafsky, and A. Ng. “Learning syntactic patterns for
automatic hypernym discovery”. Advances in Neural Information
Processing Systems, vol. 17 pp. 1297-1304, 2005
H. Hjelm and P. Buitelaar “Multilingual evidence improves clusteringbased taxonomy extraction ”, Proc. ECAI 2008: 18th European
Conference on Artificial Intelligence, pp. 288-292, 2008
A. Ritter, S. Soderland, and O. Etzioni. “What is this, anyway:
Automatic hypernym discovery”, Proc. AAAI-09 Spring Symposium on
Learning by Reading and Learned to Read, pp. 88-93, 2009
A. Schutz and P. Buitelaar. “Relext: A tool for relation extraction from
text in ontology extension”, Proc. International Semantic Web
Conference, pp. 593-606, 2005
D. Sánchez. “Domain ontology learning from the web”. The Knowledge
Engineering Review, vol. 24, no.04, pp. 413-413, 2009
J. F. Sowa. Ontologías. http://www.jfsowa.com/ontology/ontometa.htm.
2011
J. Volker, P. Hitzler, and P. Cimiano. “Acquisition of owl dl axioms
from lexical resources”, The Semantic Web: Research and Applications,
vol. 4519, pp. 670-685, 2007
J. Volker, D. Vrandecic, Y. Sure, and A. Hotho. “Learning disjointness”,
The Semantic Web: Research and Applications, vol. 4519, pp 175-189,
2007.
J. Volker and S. Rudolph. “Lexico-logical adquisition of OWL DL
axioms", Proc. 6th international conference on Formal concept
analysis, ICFCA 2008, vol. 4933, pp. 62-77, 2008
L. Del-Vasto-Terrientes, A. Moreno, and D. Sánchez. “Discovery of
relation axioms from the web”, Knowledge Science, Engineering and
Management, pp.222-233, 2010
F. Suchanek, G. Kasneci, and G. Weikum, “YAGO: A large ontology
from Wikipedia and WordNet” Web Semantics: Science, Services and
Agents on the World Wide Web vol. 6 no. 3, pp. 203-217, 2008.
F. A. Lisi and U. Straccia, “An Inductive Logic Programming Approach
to Learning Inclusion Axioms in Fuzzy Description Logics”. Proc. 26th
Italian Conference on Computational Logic, pp. 57-71, 2011.
Linked Data, http://linkeddata.org/, 2015
AlchemyAPI,
http://www.alchemyapi.com/products/demo/alchemylanguage. 2015
OpenCalais, http://new.opencalais.com/opencalais-demo/. 2015
Lonely Planet http://www.lonelyplanet.com/. 2015
Protégé http://protege.stanford.edu. 2015
Ana B. Rios Alvarado, obtuvo el grado de Doctora en
Ciencias de la Computación por el Cinvestav-Tamaulipas.
Actualmente, es profesora de tiempo completo en la
Universidad Autónoma de Tamaulipas, México. Sus intereses
de investigación son la web semántica, las ontologías y la
minería de texto.
Ivan Lopez Arevalo, es profesor asociado en el Laboratorio
de Tecnologías de Información del Cinvestav-Tamaulipas.
Obtuvo el grado de Doctor en Computación en la
Universidad Politécnica de Cataluña, Barcelona. Sus temas
de interés cubren temas de análisis de datos en bases datos, la
WWW y redes sociales, tales como minería de datos, minería
de texto y representación de conocimiento.
Edgar Tello Leal, recibió el grado de Doctor en Ingeniería
en Sistemas de Información por la Universidad Tecnológica
Nacional de la República Argentina. Actualmente trabaja
como profesor de tiempo completo e investigador en la
Universidad Autónoma de Tamaulipas, México. Las líneas de
investigación actuales son gestión de procesos de negocio,
minería de procesos y representación del conocimiento.
Descargar