2498 IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 5, MAY 2016 The Acquisition of Axioms for Ontology Learning Using Named Entities A. B. Rios, I. Lopez and E. Tello Abstract— Domain ontologies facilitate the organization, sharing, and reuse of domain knowledge. The construction of ontologies from text deals with the extraction of concepts and relations from text collection. A huge challenge is the learning of more expressive ontologies which includes relations such as disjointness or equivalence between classes. In our work, we exploit a text collection written in English with occurrence of named entities giving information about individuals in an specific domain knowledge for generating axioms. The co-ocurrence in texts of named entities is exploited to establish axiomatic relations between classes such as subClassOf, disjointWith, and equivalentClass; as well as between individuals as sameIndividualAs by using the instanceOf relation. For this purpose, a Named Entity Recognition tool was used for the identification of instanceOf relation, the linguistic context where the classes co-occur was extracted for the identification of axioms. The experiments were made on a text collection about the tourist domain. The results show that named entities provide good evidence for the identification of axiomatic relations. Keywords— Ontology learning, axioms, named entities. E I. INTRODUCCIÓN N la última década la Web se ha convertido en un repositorio de información muy importante con una gran cantidad de recursos de distintas fuentes. En particular, la Web contiene información con esquemas de datos estructurados, semi-estructurados y no estructurados. Los recursos de información no-estructurada (es decir, sin metadatos asociados) representan una de las fuentes de conocimiento más prominente generada por humanos en la Web. Esto quiere decir que la escritura de blogs, correos electrónicos, notas, reportes, artículos, entre otros, es la primera fuente de conocimiento creada por humanos mediante texto escrito en lenguaje natural. En las organizaciones, por ejemplo, compañías y universidades, la escritura de tales recursos de información representa una fuente de conocimiento esencial para su crecimiento y desarrollo. Además, con el advenimiento de la Web semántica estos recursos requieren ser entendibles y tener un significado bien definido para un acceso y reutilización eficiente por aplicaciones de cómputo. Por lo que se hace necesario contar con un mecanismo que represente su conocimiento a través de una estructura conceptual que permita su gestión. Las ontologías son el medio idóneo para hacerlo y son un elemento clave para el A. B. Rios, Universidad Autónoma de Tamaulipas, Cd. Victoria, Tamaulipas, México, [email protected] I. Lopez, CINVESTAV-LTI, Cd. Victoria, Tamaulipas, México, [email protected] E. Tello, Universidad Autónoma de Tamaulipas, Cd. Victoria, Tamaulipas, México, [email protected] éxito de la Web semántica. Una ontología es un sistema de representación del conocimiento difundido en los últimos años y que ha potenciado el desarrollo y uso de aplicaciones semánticas. También se pueden ver como una herramienta de apoyo para coordinar y optimizar el intercambio de información [1]. Esencialmente una ontología está compuesta por una taxonomía de conceptos, relaciones bien definidas y un conjunto de axiomas. Una ontología puede ser construida de forma manual por expertos en el dominio del conocimiento que esta representa, pero el proceso de desarrollo se vuelve largo y tedioso [2]. Este proceso es complicado debido a la cantidad de palabras que deben procesarse para seleccionar aquellas que sean útiles y plasmarlas en las ontologías. Un enfoque para no tomar en cuenta todas las palabras es utilizar las entidades nombradas. Una entidad nombrada puede definirse como una unidad de información, tal que expresa el nombre de una persona, de una organización, de un lugar, de una compañía, de un producto o una expresión numérica (por ejemplo, tiempo, fecha, cantidad monetaria, porcentaje, entre otras). Algunos trabajos [3, 4] han tomado ventaja de las entidades nombradas que ocurren en el texto para el proceso de poblado de una ontología, por lo que podría decirse que las entidades nombradas son una evidencia de individuos extraídos a partir de texto. En los últimos años un campo importante del área de Computación y Lingüística Computacional se ha dedicado a la generación de ontologías de manera automática y/o semiautomática a partir de documentos textuales. La construcción de una ontología a partir de texto, el cual es un proceso también llamado aprendizaje de ontologías, se concentra principalmente en obtener conceptos y las relaciones entre ellos con base en las palabras y frases que aparecen en él [5]. Un gran número de herramientas para el aprendizaje de ontologías han sido desarrolladas en los últimos años. Sin embargo, algunas propuestas están sólo relacionadas con la extracción de relaciones taxonómicas [6, 7, 8] o no-taxonómicas [9, 10] lo que limita la expresividad de las ontologías construidas. Entre los elementos que proporcionan mayor expresividad a una ontología se encuentran los axiomas. Un axioma puede ser visto como una premisa calificada como verdadera. Los axiomas extraídos a partir de la información contenida en una colección de documentos ayudan a entender y a usar mejor los elementos de la ontología que modela el conocimiento en esa colección. Los axiomas se extienden de primitivas para expresar la lógica de primer orden. Las primitivas como existencia, coreferencia, relación, conjunción (P and Q) y negación (not P) pueden ser también expresadas en lenguaje natural. Por ejemplo, el enunciado “there is a cat” implica la existencia de RIOS ALVARADO et al.: THE ACQUISITION OF AXIOMS un gato. Estas primitivas también suelen llamarse primitivas semántica, debido a que expresan relaciones semánticas entre sus elementos [11]. Por lo tanto, puede decirse que un axioma define relaciones formales entre los componentes de una ontología. Los axiomas pueden ser clasificados en tres tipos: axiomas de términos, hechos y anotaciones. Los axiomas de términos se refieren a las relaciones entre los elementos de la ontología y a su vez pueden ser de dos tipos: axiomas de clases o axiomas de propiedades. Los axiomas de clases pueden expresar las relaciones de subsunción, equivalencia o disyunción. Una relación de subsunción, expresada como subClassOf(C,D), indica que C es la subclase o concepto más específico y D es la superclase o concepto más general. Este tipo de axioma indica que cada individuo incluido en C también está dentro de la extensión de D, es decir, que los individuos en C son también individuos descritos por D. Este tipo de relaciones constituyen la parte vertebral de una jerarquía de clases (taxonomía). Un axioma de clases equivalentes es usado para indicar que dos clases tienen precisamente el mismo conjunto de instancias, esta relación es expresada de la forma equivalentClass(M,N), donde M y N son dos clases con nombre distinto, pero que tienen el mismo conjunto de instancias. Un axioma de disyunción expresado como disjointClass(M,N) indica que un individuo, como miembro de una clase, no puede ser de manera simultánea una instancia de otra clase. Los axiomas de propiedades permiten establecer relaciones entre dos instancias de una clase o entre una instancia y un dato específico. Un hecho o axioma de individuo es una aserción sobre los individuos. Uno de los más importantes axiomas de individuos es la relación de instanciación. La relación de instanciación tiene la forma instanceOf (a,C), donde C es una clase y a es un individuo que pertenece a la clase C, también a es llamada instancia de C. Las instancias se refieren a entidades del mundo real, semánticamente quiere decir que un individuo con el nombre a es una extensión del conjunto de individuos descritos por la clase C. Una relación de equivalencia entre individuos es un axioma que indica que dos nombres corresponden al mismo individuo. Por el contrario, la disyunción entre dos individuos ocurre cuando se hace explícita la relación entre dos nombres de individuos que son distintos. Estos dos axiomas sobre individuos pueden ser expresados como sameIndivualAs(a,b), donde a y b son diferentes nombres para el mismo individuo; y como differentFrom(a,c) donde a y c son nombres de dos individuos distintos, respectivamente. Por otro lado, las anotaciones se refieren a descripciones semánticas que proveen información adicional sobre un recurso. Este artículo presenta un método para la identificación de axiomas de clases y de individuos con base en la identificación de entidades nombradas a partir de texto escrito en el idioma Inglés. El enfoque presentado comprende la detección de entidades nombradas y la identificación de un conjunto de instancias por cada clase. De forma complementaria, son analizados los enunciados, donde las 2499 instancias y su clase correspondiente aparecen. El contexto de la relación, así como las relaciones de instanciación basadas en el proceso de extracción de entidades nombradas determinan alguno de los siguientes axiomas de clases: subClassOf, disjointWith y equivalentClass; así como también axiomas para los individuos como son: instanceOf y sameIndividualAs. El resto del documento está organizado de la siguiente forma. En la Sección 2 se presenta una breve descripción del trabajo relacionado con el tema de extracción de axiomas. En la Sección 3 se describe el enfoque propuesto para identificar axiomas. En la Sección 4 se presenta la experimentación. Finalmente en la Sección 5 se dan las conclusiones. II. TRABAJO RELACIONADO Con el fin de obtener un mayor nivel de expresividad en las ontologías generadas de forma semiautomática o automática se han propuesto algunos métodos para extender el proceso de construir ontologías. En general, propuestas como LExO [12], LeDA [13] y ReLExO [14] usan una secuencia de tareas de procesamiento de lenguaje natural. El método de LexO [12] comienza con el análisis de la estructura sintáctica de las oraciones. El árbol de dependencia obtenido es transformado a un conjunto de axiomas OWL (inclusión de conceptos, transitividad, inclusión de roles, aserciones, aserciones sobre conceptos e individuos) a través de un conjunto de reglas de transformación construidas manualmente. LeDA [13] permite la generación de axiomas para elementos disjuntos basados en algoritmos de clasificación usando aprendizaje automático. El clasificador determina si existe una relación disjunta entre un par de clases dado. El clasificador es entrenado a partir de un conjunto de axiomas creado manualmente. ReLExO[14] surge como un apoyo para la adquisición y refinamiento de descripciones de clases complejas con el objetivo de identificar partes de texto que indican la validez de cierto conocimiento. Un texto determinado puede contener inconsistencias entre las relaciones de los elementos contenidos en dicho texto. En otras propuestas [15, 16], los métodos son completamente automáticos. En [15] se presenta un algoritmo automático de aprendizaje de axiomas que funciona a partir de los elementos que cumplen una relación no taxonómica. El algoritmo se concentra en el aprendizaje de axiomas relacionados con las propiedades de los objetos (simetría, asimetría, reflexividad, transitividad y funcionalidad). Se identifican relaciones no taxonómicas del tipo R(x; y) donde x y y representan conceptos y/o individuos y R la relación o propiedad identificada. Entonces, la Web se utiliza como corpus, además de técnicas lingüísticas basadas en patrones de texto y análisis estadístico de la distribución de la información para establecer si la relación identificada corresponde a un axioma. En [16], correspondiente al proyecto YAGO, los axiomas son extraídos desde el sistema de categorías y cajas de información de Wikipedia, los cuales son combinados con relaciones taxonómicas recuperadas desde WordNet. Por otro lado, en [17] se describe una propuesta para el aprendizaje de axiomas de inclusión. Los autores usaron un método basado 2500 IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 5, MAY 2016 en Programación Lógica Inductiva para el aprendizaje de un conjunto de reglas, el cual genera una lista de axiomas de inclusión representados en Lógica Difusa. III. MÉTODO PROPUESTO El método propuesto en este trabajo permite identificar axiomas como instanceOf, sameIndividualAs, subClassOf, disjointWith y equivalentClass representados como expresiones de clases, considerando el reconocimiento de entidades nombradas a partir de texto no estructurado. El método inicia con la identificación de instancias (entidades nombradas), para posteriormente asociar a cada clase su conjunto de instancias. Además se usa el contexto lingüístico donde las instancias y sus clases ocurren para establecer una relación axiomática a las clases asociadas. La Fig. 1 muestra una vista general del método propuesto para esta fase. Figura 1. Método para la extracción de axiomas. Considérense las siguientes definiciones: • Definición 1. Una clase (class) o concepto delimita a un conjunto de individuos que comparten características o propiedades similares. Una clase se denota por X. • Definición 2. Una instancia denotada por x es un objeto determinado de una clase X, lo que a su vez es un individuo. • Definición 3. Una relación instanceOf se define como la relación de pertenencia que existe entre un individuo x y solo una clase X, la cual se denota por instanceOf(x,X). • Definición 4. Sean X y Y dos clases, se establece una relación de subclase entre X y Y si la clase Y tiene un significado más amplio que la clase X. Se denota por subClassOf(X,Y). • Definición 5. Sean X y Y dos clases, se establece una relación de disyunción entre dos clases X y Y si ninguna de las instancias de la clase X pertenece a la clase Y. Se denota por disjointWith(X,Y). • Definición 6. Sean X y Y dos clases, se establece una relación de equivalencia entre dos clases X y Y si tienen exactamente las mismas instancias. Se denota por equivalentClass(X,Y). El método va de lo particular a lo general, toma como premisa que ya existe una jerarquía de clases de la ontología a enriquecer; las instancias se asocian a las clases de la jerarquía. A continuación se describen las etapas generales. a. Identificación de instancias Con el fin de que el método sea no supervisado, una herramienta para el reconocimiento de entidades nombradas obtiene las entidades nombradas a partir del texto. Las relaciones del tipo instanceOf(entidad nombrada, clase) entre una entidad nombrada y una clase particular se obtienen mediante la relación type (tipo de entidad nombrada) dado por la herramienta reconocedora de entidades nombradas y el análisis del contexto lingüístico donde co-ocurren la entidad nombrada y su respectiva clase. b. Análisis del contexto Las oraciones donde un conjunto de instancias y su correspondiente clase co-ocurren se agrupan, así el contexto permite determinar si existe una relación entre individuos, entre individuos y clases, así como entre dos clases dado su contexto. La Tabla I muestra el conjunto de patrones léxicos que permite identificar la relación instanceOf con base en su contexto, donde NE es una entidad nombrada y NP es una frase nominal. Una vez identificada la relación instanceOf es posible establecer las siguientes relaciones axiomáticas: • sameIndividualAs: Para esta relación se considera el conjunto de patrones léxicos mostrado en la Tabla II, donde NE corresponde a una entidad nombrada. La relación se establece cuando aparecen dos entidades nombradas distintas en el mismo contexto, esto es en la misma oración. • subClassOf: Al nivel de clases la relación subClassOf es uno de los axiomas más importantes. Este axioma estructura el conjunto de clases dentro de una taxonomía donde la clase superior es más general que la clase inferior. Por ejemplo, la clase nature determina un significado más amplio que la clase river; por consiguiente, se puede establecer la relación subClassOf(river,nature). • disjointWith: Una relación de clases disjuntas (disjointWith) entre dos clases indica que una clase no tiene instancias en común con la otra clase. Para determinar si dos clases son disjuntas se considera la definición de clases disjuntas y las entidades nombradas identificadas en el texto, así como las relaciones instanceOf entre ellas y su clase particular. • equivalentClass: La relación clases equivalentes (equivalentClass) entre dos clases se establece cuando las extensiones (descripciones) de esa clase incluyen el mismo conjunto de individuos. Es importante mencionar que la equivalencia entre clases significa que las clases tienen el mismo significado intencional, esto es que las clases denotan el mismo concepto. De acuerdo a la definición la relación equivalentClass(class1, class2) se establece si el conjunto de individuos entre las dos clases es el mismo, para lo cual el conjunto de instancias de cada RIOS ALVARADO et al.: THE ACQUISITION OF AXIOMS clase se compara para así determinar si las clases class1 y class2 son equivalentes. TABLA I PATRONES LÉXICOS PARA LA IDENTIFICACIÓN DE LA RELACIÓN instanceOf NE is a NP NP, NE NE: NP NP like NE, NE, and NE TABLA II PATRONES LÉXICOS PARA LA IDENTIFICACIÓN DE LA RELACIÓN sameIndividualAs NE (NE) NE known as NE NE (also known as NE) NE called NE NE also called NE IV. EXPERIMENTACIÓN Se desarrolló una aplicación en lenguaje de programación Java y se usaron las herramientas basadas en Linked Data [17], AlchemyAPI [18] y OpenCalais [19], las cuales asocian cada entidad nombrada a una clase dentro de una ontología. Para ilustrar cómo funciona el método considérense las siguientes oraciones: 1) In Wexford the November Opera Festival is an international event. 2) The Elephanta Festival is a classical dance and music event on Elephanta Island usually held in February. 3) The Grenada National Museum in the center of town incorporates and old French barracks dating from 1704. Estas oraciones proporcionan evidencia para las siguientes relaciones: instanceOf(November Opera Festival, festival), instanceOf(Elephanta Festival, festival), subClassOf(festival, event), disjointWith(festival, museum). Es importante notar que el análisis del contexto permite lidiar con el problema de entidades nombradas ambiguas. Por ejemplo, en la oración “A highly developed country, Australia is the world's 13th-largest economy” co-ocurren la clase country y el individuo Australia, entonces se podría establecer la relación instanceOf(Australia, country). Por el contrario, si se tiene la oración “Australia is the smallest continent and it is also an island” entonces co-ocurren la clase continent y el individuo Australia, por lo tanto la relación instanceOf(Australia, continent) puede ser establecida. A continuación se muestran detalles de las etapas propuestas y una evaluación manual usando una colección de textos del dominio de Turismo pertenecientes al corpus Lonely Planet [20]. Etapa 1. Identificación de instancias Usando la herramienta desarrollada se identificaron las entidades nombradas y sus tipos, donde cada entidad nombrada identificada corresponde a un individuo y cada tipo corresponde a una clase, por consiguiente, puede establecerse la relación instanceOf(entidad nombrada, tipo). Por ejemplo, los individuos France, Ireland y Brazil delimitan la clase 2501 country y los individuos Brussels, Iraklio y Belfast a la clase city (ver Fig. 1), entonces se pueden establecer las relaciones instanceOf(France, country), instanceOf(Ireland, country), instanceOf(Brazil, country), instanceOf(Brussels, city), instanceOf(Iraklio, city) y instanceOf(Belfast, city). A continuación, para corroborar los resultados de esta etapa se presentan un conjunto de oraciones detectadas por la herramienta, además se hizo el análisis del contexto para identificar la co-ocurrencia de patrones léxicos mostrados en la Tabla I, las entidades nombradas y su clase correspondiente. 1) The Donia is a traditional music festival, it is held on Nosy Be in May-June. 2) Crete is Greece's most southerly point, with its largest city, Iraklio, situated in the middle of the north side of the island. 3) South Africa: the country offers everything from ostrich riding to the world's highest bungee jump! 4) The usual Christian holidays like Easter and Christmas are celebrated... En el ejemplo 1 la entidad nombrada es The Donia, la clase identificada es festival y el patron identificado en la oración es <NE> is a <NP>. En la segunda oración la entidad nombrada es Iraklio y la clase identificada es city, entonces el patron asociado es <NP>, <NE>. En el ejemplo 3, el patrón es <NE>:<NP>, donde la entidad nombrada corresponde a South Africa y la clase country. Finalmente, en el ejemplo 4 las entidades nombradas son Easter y Christmas asociadas a la clase holidays usando el patron <NP> like <NE> and <NE>. Etapa 2. Identificación de relaciones entre individuos En el nivel de instancias se presenta el caso de que dos (o algunas veces más de dos) entidades nombradas diferentes identifican el mismo individuo. Tales entidades nombradas pueden ser asignadas a la relación sameIndividualAs. Dada la Definición 2 que define una instancia y los patrones léxicos mostrados en la Tabla II, a continuación se presentan algunas oraciones identificadas donde co-ocurren las entidades nombradas asociadas a la relación sameIndividualAs, estas oraciones fueron identificadas por la herramienta implementada: 1) Beit al-Sahel (Palace Museum) served as the Sultan's residence until 1964 when the dynasty was overthrown. 2) North-eastern Libya, the Jebel Akhddar area (also known as the Green Mountains), is the most verdant and arguably the most beautiful part of the country. 3) Dominica's national bird, the Sisserou, also called Imperial Parrot, is about 20in (50cm) long when full grown, the largest of all Amazon parrots. En el ejemplo 1 la entidad nombrada Beit al-Sahel es también identificada como Palace Museum y el patrón identificado en la oración es <NE> (<NE>). En el ejemplo 2 las entidades nombradas Jebel Akhddar area y Green Mountains se refieren al mismo individuo y el patrón asociado es <NE> (also known as <NE>). En el ejemplo 3 se tienen las entidades nombradas Sisserou e Imperial Parrot que se refieren al mismo individuo y el patrón identificado es <NE> also called <NE>. Etapa 3. Identificación de relaciones entre clases Una vez que se han identificado los individuos y sus relaciones del tipo instanceOf se deben identificar las relaciones entre clases. 2502 1. Relación subClassOf La herramienta utilizada para el reconocimiento de entidades nombradas provee una estructura taxonómica útil para establecer las relaciones de tipo/subtipo asociados a las entidades nombradas identificadas; se propone usar la relación type/subtype. Por ejemplo, se identificó que la clase GeographicFeature tiene los subtipos Location, CityTown, River, BodyOfWater, AdministrativeDivision, TouristAttraction, Island, Mountain y Lake con lo que pueden establecerse las siguientes relaciones: subClassOf(Location,GeographicFeature), subClassOf(CityTown,GeographicFeature), subClassOf(River,GeographicFeature), subClassOf(BodyOfWater,GeographicFeature), subClassOf(AdministrativeDivision,GeographicFeature), subClassOf(TouristAttraction,GeographicFeature), subClassOf(Island,GeographicFeature), subClassOf(Mountain,GeographicFeature), subClassOf(Lake,GeographicFeature). Para ilustrar lo anterior, considerando el uso del contexto y del patrón léxico is-a, a continuación se muestran algunos ejemplos de oraciones detectadas por la herramienta donde se encuentra la relación subClassOf: 1) In northern County Clare, the Burren region is an extraordinary place. 2) The National Folklore Festival of Marakesh is a 10-day tourist event well worth attending for the dancers... 3) The Brisbane Forest Park is a 285 sq km reserve of natural bushland in the D'Aguilar Range. 4) Grand Turk's Carnival is a week-long festival in August with reggae and (of course) dancing. En el ejemplo 1 la entidad nombrada Burren es una instancia de la clase region y la clase region es una subclase de place. En el ejemplo 2 el individuo National Folklore Festival of Marakesh es una instancia de la clase festival y ésta a su vez es una subclase de event. Para el ejemplo 3 se tiene el individuo Brisbane Forest Park como instancia de la clase park y ésta como subclase de reserve. Finalmente, en el ejemplo 4 se cumple la relación instanceOf(Grand Turk's Carnival, carnival) con lo cual se deriva que la clase carnival es subclase de festival. 2. Relación disjointWith (Clases disjuntas) Considerando la Definición 5, para cada dupla (class1, class2) su lista de instancias se compara y si no hay individuos comunes entre las dos clases entonces se establece la relación disjointWith(class1, class2). Por ejemplo, en la Fig. 1 los individuos France, Ireland y Brazil pertencen a la clase country y por otro lado los individuos Brussels, Iraklio y Belfast son de la clase city, entonces se puede establecer que las clases country y city cumplen una relación de disyunción, es decir, se puede establecer la relación disjointWith(country, city). Considerando la colección de documentos de prueba (Lonely Planet) se seleccionó una muestra de 450 documentos y se analizaron las entidades nombradas y sus clases asociadas. Sobre la muestra se obtuvieron 5 clases de instancias sin traslape de los elementos de su lista de entidades nombradas entre cada una de las clases. La herramienta identificó un total de 105 duplas (class1, class2), las cuales fueron analizadas para identificar cuáles duplas cumplían la IEEE LATIN AMERICA TRANSACTIONS, VOL. 14, NO. 5, MAY 2016 relación de clases disjuntas. De acuerdo a la evaluación de un experto humano, la Fig. 2 muestra el total de duplas obtenidas y cuáles de estas cumplen con una relación de clases (class1, class2) disjuntas. De esta evaluación, se puede ver que de las duplas identificadas 88 corresponden correctamente a clases disjuntas (disjointWith(class1, class2)) y el resto (17 duplas) tienen alguna otra relación como subClassOf o partOf. Figura 2. Ejemplo de clases disjuntas identificadas en la colección Lonely Planet. 3. Relación equivalentClass (Clases equivalente) Si se tienen dos o más ontologías pertenecientes a un mismo dominio y los individuos de cada una de las clases (con la misma etiqueta) son iguales, se puede establecer una relación de equivalencia. Por ejemplo, en la Fig. 3 se muestra que las clases Alchemy:Country, OpenCalais:Country y dbpedia-owl:country son equivalentes. En otro caso, si una de las ontologías tiene la clase HealthCondition con los siguientes individuos asociados Fever, Hepatitis, Malaria y dehydration y la otra ontología tiene la clase MedicalCondition con los individuos asociados Fever, Hepatitis y Malaria, se puede identificar que las clases HealthCondition y MedicalCondition cumplen de igual forma una relación de equivalencia (ver Fig. 4). Figura 3. Ejemplo de clases equivalentes. Figura 4. Ejemplo de clases equivalentes con nombres de clase distintos. Para ejemplificar el aprendizaje de la relación equivalentClass se consideraron dos ontologías distintas. En este caso se usaron las ontologías de AlchemyAPI y OpenCalais sobre la RIOS ALVARADO et al.: THE ACQUISITION OF AXIOMS misma muestra de 450 archivos de Lonely Planet corpus. AlchemyAPI identificó 15 clases y OpenCalais identificó 17 clases sobre el mismo conjunto de textos. De un total de 255 duplas del tipo (AlchemyAPI:Class, OpenCalais:Class) únicamente 16 duplas tuvieron un traslape entre los conjuntos de instancias. De acuerdo a la evaluación de un experto humano, 11 de esas duplas cumplieron con una relación de equivalencia, el resto cumplió con otra o ninguna relación. Todos los axiomas que se identificaron a través del método propuesto son vistos como el esquema general sobre el cual está organizado el conocimiento que se representa a través de la ontología, en este caso en el dominio de Turismo. Los axiomas se integrarán a la ontología original a través de Protégé [21]. Con esto la ontología de Turismo fue enriquecida con instancias y dotada de un mayor nivel de expresividad para llevar a cabo tareas de inferencia. V. CONCLUSIONES En este trabajo se presentó un método para la extracción de axiomas, el cual considera la identificación de entidades nombradas que describen de manera extensional a las clases y permite la obtención de las relaciones axiomáticas (instanceOf, sameIndividualAs, disjointWith y equivalentClass). En el caso de las relaciones instanceOf y sameIndividualAs se considera primero identificar las entidades nombradas y posteriormente aplicar un conjunto de patrones léxicos para la identificación de las entidades relacionadas. Para las relaciones disjointWith y equivalentClass, se considera la identificación de las entidades nombradas y la relación instanceOf con su respectiva clase. Posteriormente, una vez que se tienen las instancias por cada clase entonces se aplican los algoritmos que permiten obtener las relaciones subClassOf, disjointWith y equivalentClass. Las actuales herramientas reconocedoras de entidades nombradas se vuelven cruciales para que este proceso sea automático y su nivel de precisión determina en gran parte el éxito de los axiomas (subClassOf, disjointWith y equivalentClass) asociados a las clases de la ontología. Sin embargo, el análisis del contexto, donde aparecen las clases y sus entidades, provee un sustento textual a la identificación de axiomas lo que permite que el método propuesto sea robusto. El método propuesto puede ser aplicado a un conjunto de textos en otro dominio, incluso en otro idioma, pero al ser automático se deberá considerar una herramienta de reconocimiento de entidades nombradas apropiada al dominio e idioma. También se deberá considerar la naturaleza del dominio a tratar, ya sea general (con un alto contenido de instancias) o especializado. AGRADECIMIENTOS Los autores agradecen al apoyo otorgado al proyecto NPTC Convenio DSA/103.5/15/7318 PROMEP-SEP, México. REFERENCIAS [1] [2] [3] E. Muñoz, M. Muñoz, E.C. García, and J. Mejia, “Knowledge Management in Process Improvement and Best Practices Sharing” Latin America Transactions, IEEE (Revista IEEE America Latina), vol.12, no.3, pp.469-474, 2014 A. Meadche and S. Staab. “Ontology learning for the semantic web”, IEEE, Intelligent Systems, vol. 16, no. 2, pp. 72-79, 2001 C. Giuliano and A. Gliozzo. “Instance-based ontology population exploiting named entitiy substitution”, en Proc. 22th International 2503 [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] Conference on Computational Linguistics, COLING’08, vol. 1, pp.265272, 2008. J. M. Ruiz-Martínez, J. A. Miñarro-Giménez, L. Guillén-Cárceles, D. Castellanos-Nieves, R. Valencia-García, F. García-Sánchez, J. T. Fernández-Breis, and R. Martínez-Béjar. “Populating ontologies in the etourism domain”, Proc. 2008 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology, WIIAT-08, vol. 3, pp. 316-319, 2008 P. Cimiano “Ontology Learning and Population from Text: Algorithms, Evaluation and Applications”, Springer, NJ, USA, 2006 R. Snow and D. Jurafsky, and A. Ng. “Learning syntactic patterns for automatic hypernym discovery”. Advances in Neural Information Processing Systems, vol. 17 pp. 1297-1304, 2005 H. Hjelm and P. Buitelaar “Multilingual evidence improves clusteringbased taxonomy extraction ”, Proc. ECAI 2008: 18th European Conference on Artificial Intelligence, pp. 288-292, 2008 A. Ritter, S. Soderland, and O. Etzioni. “What is this, anyway: Automatic hypernym discovery”, Proc. AAAI-09 Spring Symposium on Learning by Reading and Learned to Read, pp. 88-93, 2009 A. Schutz and P. Buitelaar. “Relext: A tool for relation extraction from text in ontology extension”, Proc. International Semantic Web Conference, pp. 593-606, 2005 D. Sánchez. “Domain ontology learning from the web”. The Knowledge Engineering Review, vol. 24, no.04, pp. 413-413, 2009 J. F. Sowa. Ontologías. http://www.jfsowa.com/ontology/ontometa.htm. 2011 J. Volker, P. Hitzler, and P. Cimiano. “Acquisition of owl dl axioms from lexical resources”, The Semantic Web: Research and Applications, vol. 4519, pp. 670-685, 2007 J. Volker, D. Vrandecic, Y. Sure, and A. Hotho. “Learning disjointness”, The Semantic Web: Research and Applications, vol. 4519, pp 175-189, 2007. J. Volker and S. Rudolph. “Lexico-logical adquisition of OWL DL axioms", Proc. 6th international conference on Formal concept analysis, ICFCA 2008, vol. 4933, pp. 62-77, 2008 L. Del-Vasto-Terrientes, A. Moreno, and D. Sánchez. “Discovery of relation axioms from the web”, Knowledge Science, Engineering and Management, pp.222-233, 2010 F. Suchanek, G. Kasneci, and G. Weikum, “YAGO: A large ontology from Wikipedia and WordNet” Web Semantics: Science, Services and Agents on the World Wide Web vol. 6 no. 3, pp. 203-217, 2008. F. A. Lisi and U. Straccia, “An Inductive Logic Programming Approach to Learning Inclusion Axioms in Fuzzy Description Logics”. Proc. 26th Italian Conference on Computational Logic, pp. 57-71, 2011. Linked Data, http://linkeddata.org/, 2015 AlchemyAPI, http://www.alchemyapi.com/products/demo/alchemylanguage. 2015 OpenCalais, http://new.opencalais.com/opencalais-demo/. 2015 Lonely Planet http://www.lonelyplanet.com/. 2015 Protégé http://protege.stanford.edu. 2015 Ana B. Rios Alvarado, obtuvo el grado de Doctora en Ciencias de la Computación por el Cinvestav-Tamaulipas. Actualmente, es profesora de tiempo completo en la Universidad Autónoma de Tamaulipas, México. Sus intereses de investigación son la web semántica, las ontologías y la minería de texto. Ivan Lopez Arevalo, es profesor asociado en el Laboratorio de Tecnologías de Información del Cinvestav-Tamaulipas. Obtuvo el grado de Doctor en Computación en la Universidad Politécnica de Cataluña, Barcelona. Sus temas de interés cubren temas de análisis de datos en bases datos, la WWW y redes sociales, tales como minería de datos, minería de texto y representación de conocimiento. Edgar Tello Leal, recibió el grado de Doctor en Ingeniería en Sistemas de Información por la Universidad Tecnológica Nacional de la República Argentina. Actualmente trabaja como profesor de tiempo completo e investigador en la Universidad Autónoma de Tamaulipas, México. Las líneas de investigación actuales son gestión de procesos de negocio, minería de procesos y representación del conocimiento.