Introducción a a Web Semántica y Ontologías Transparencias Ian Horrocks and Alan Rector Historia de la Web Semántica • • Web fue “inventada” por Tim Berners-Lee (entre otros), un físico que trabaja en CERN La visión original de la Web era mucho más ambiciosa que la Web (sintáctica) actual: “... a goal of the Web was that, if the interaction between person and hypertext could be so intuitive that the machine-readable information space gave an accurate representation of the state of people's thoughts, interactions, and work patterns, then machine analysis could become a very powerful management tool, seeing patterns in our work and facilitating our working together through the typical problems which beset the management of large organizations.” • TBL (y otros) han estado trabajando para lograr esta visión llamada Web Semántics – E.g., artículo del Scientific American 2001… Realidad • Más realista pensar que: – “semántica + web + AI = web más útil” – Lograr la visión completa es muy difícil – El comienzo es añadir anotaciones semánticas a recursos en la web Images from Christine Thompson and David Booth Donde estamos hoy: la Web Sintáctica [Hendler & Miller 02] La Web Sintáctica es… • Un hypermedia, una bilioteca digital – Una bilioteca de documentos llamados páginas web interconectados por un hypermedia de enlaces • Una base de datos, una plataforma de aplicaciones – Un portal común de aplicaciones accedidas a partir de páginas web, que presentan sus resultados como páginas web • Una plataforma multimedia – Radio, Cortos de Películas, etc. Un lugar en donde la computadora hace la presentación (fácil) y las personas hacen los enlaces y la interpretación (difícil) Cómo lograr que las computadoras hagan más trabajo difícil? [Goble 03] Trabajo difícil utilizando la Web Sintáctica… Encontrar imágenes de Peter Patel-Schneider, Frank van Harmelen y Alan Rector… Rev. Alan M. Gates, Associate Rector of the Church of the Holy Spirit, Lake Forest, Illinois Imposible (?) usando la Web Sintáctica… • Consultas complejas que involucran conocimiento previo – Encontrar información sobre “animales que usan sonar pero no son delfines” • Localizar información en repositorios de datos – Consultas para viajeros – Precios de productos y servicios – Resultados de experimentos sobre el genoma humano • Encontrar y utilizar “web services” – Visualizar la interacción entre dos proteinas • Delegar tareas complejas a “agentes” Web – Reserva para el próximo fin de semana en una playa, no muy lejos y que hablen inglés Cuál es el problema? • Una página Web típica: • Anotación consiste de: – Despliegue de información (e.g., tamaño font y color) – Hiper-enlaces al contenido relacionado • El contenido semántico es accesible a humanos pero no (fácilmente) a computadoras… Cuál es la información que vemos nosotros… WWW2002 The eleventh international world wide web conference Sheraton waikiki hotel Honolulu, hawaii, USA 7-11 may 2002 1 location 5 days learn interact Registered participants coming from australia, canada, chile denmark, france, germany, ghana, hong kong, india, ireland, italy, japan, malta, new zealand, the netherlands, norway, singapore, switzerland, the united kingdom, the united states, vietnam, zaire Register now On the 7th May Honolulu will provide the backdrop of the eleventh international world wide web conference. This prestigious event … Speakers confirmed Tim berners-lee Tim is the well known inventor of the Web, … Ian Foster Ian is the pioneer of the Grid, the next generation internet … Cuál es la información que ve la computadora… … … … Solución: Anotación XML con tags “significativos”? <name> </name> <location> </location> <date> </date> <slogan> </slogan> <participants> </participants> <introduction> … </introduction> <speaker> </speaker> <bio> </bio>… O ésto… <conf> </conf> <place> </place> <date> </date> <slogan> </slogan> <participants> </participants> <introduction> … </introduction> <speaker> </speaker> <bio> … La computadora ve… <> </> <> </> <> </> <> </> <> </> <> … </> <> </> <> </> <> </> <> </> Necesario añadir “Semántica” • Acuerdo externo sobre significado de anotaciones – E.g., Dublin Core • Acuerdo sobre el significado de un conjunto de “tags” – Problemas con este enfoque • Inflexible • Número limitado de conceptos pueden ser expresados • Usar Ontologías para especificar el significado de anotaciones – Ontologías proveen un vocabulario de términos – Nuevos términos pueden ser formados combinando los existentes – El significado (la semántica) de los términos se especifica formalmente – Se pueden especificar relaciones entre términos en múltiples ontologías Características de la Web • Billones de fuentes de datos y más de 200 millones de usuarios. • Dado un dominio del saber, existen cientos o miles de fuentes de datos que mantienen datos relacionados con el mismo, algunos con billones de instancias. • Cada nodo de la Web es autónomo e independiente. No existe un control central. • Cada comunidad usa su propio vocabulario. • No toda la información es correcta y consistente o completa. • Contenido de las páginas cambia constantemente y nuevas páginas se añaden constantemente. • La Web es un mundo abierto Características de la Web • Fuentes de Datos con Capacidades Limitadas de Procesamiento. • No existe una Interfaz de Programación para interactuar con ellas. • La respuesta se presenta en documentos no estructurados en formato HTML o semi-estructurados en XML. • La interfaz es a través de una planilla que limita el tipo de consultas que se pueden efectuar y los atributos que deben ser instanciados. Problemas de interacción con la Web • Buscar información – Buscadores son imprecisos. • Presentar información – Es difícil presentar la información de forma consistente e integrada. • Buscar los próximos. – Es difícil determinar que enlaces se deben seguir. • Comercio electrónico – Agentes usan wrappers para extraer información sobre los productos a vender. – Es difíci determinar los servicios ofrecidos por una determinada fuentes. Ejemplo • Consulta: Chequear si hay tickets disponibles para ver una película que haya sido producida por algún director español, que haya ganado algún premio este año y que su evaluación sea buena. Fuentes de datos que publican películas, sus actores, directores, etc. evaluaciones. premios durante un año particular. los teatros o en canales que presentan películas. venden los tickets para ver las películas. Pre-condiciones Web Semántica • Datos puedan intercambiarse. – XML, XML Schema • Semántica de los datos sea explícita – RDF, Ontologías • Propiedades de los datos y de los metadatos pueden ser inferidas. – Lógica-debe ser suficientemente poderosa para describir propiedades complejas de los objetos pero no lo suficientemente compleja que se vuelva no decidible! Ontología: Origen e Historia Ontología en Filosofía una disciplina de la filosofía - una rama de la filosofía que tiene que ver con la naturaleza y organización del conocimiento • Science of Being (Aristotle, Metaphysics, IV, 1) • Trata de contestar la pregunta: Qué caracteriza al ente? Eventualmente, qué es el ente? Ontología en Linguística Concepto Se relaciona a activa Forma “Tanque“ [Ogden, Richards, 1923] En lugar de Referente ? Ontología en Ciencias de la Computación • • Una ontología es un artefacto de ingeniería que: – Está constituido por un vocabulario específico para describir cierta realidad, y además.. – Un conjunto de suposiciones explícitas en relación al significado del vocabulario Luego, una ontología describe una especificación formal de cierto dominio: – Comprensión compartida de un dominio de interés – Modelo formal y manipulable por una computadora de un dominio de interés “Una especificación explícita de una conceptualización” [Gruber93] Estructura de una ontología En general, tienen 2 componentes: • Nombres para los conceptos importantes del dominio – Elefante es un concepto cuyos miembros son un tipo de animal – Herbivoro es un concepto cuyos miembros son exactamente aquellos que comen plantas o partes de plantas – Elefante_adulto es un concepto cuyos miembros son exactamente aquellos elefantes que tienen más de 20 años • Concimiento previo/restricciones sobre el dominio – Elefante_adultos pesan al menos 2,000 kg – Todos los Elefantes son o Elefantes_Africanos o Elefantes_Indioss – Ningún individuo puede ser ambos, Herbívoro y Carnívoro La Web Semántica — Primeros Pasos Hacer que los recursos Web sean más accesibles a procesos automatizados • Extender marcado para “despliegue” con marcado semántico – Anotaciones de metadatos que describen el contenido/función de recursos accesibles por la Web • Usar ontologías para proveer vocabulario para anotaciones – “La especificación formal” es accesible a las computadoras • Un requisito es Lenguaje de Ontologías Web estándar – Se debe acordar una sintaxis común antes de que se pueda compartir la ontología – La Web Sintáctica está basada en estándares tales como HTTP y HTML Diseño de Ontologías y Puesta en “Producción” • Esencial proveer herramientas y servicios para ayudar a los usuarios a: – Diseñar y mantener ontologías de “alta calidad”, e.g.: • Significativas — Todas las clases nombradas pueden tener instancias • Correcta — captura la intuición de expertos del dominio • Mínimamente redundante — no hay sinónimos “no deseados” • Axiomatización detallada — (suficientes) descripciones detalladas – Almacenar (gran cantidad) de instancias de las clases de la ontología, e.g.: • Instancias: Anotaciones de páginas Web – Contestar consultas clases e instancias de la ontoloía, e.g.: • Encontrar clases más generales/específicas • Recuperar páginas/anotaciones que coinciden con una descripción – Integrar y alinear múltiples ontologías Ejemplo Ontología