Máster en Ciencias y Tecnologías de la Información Escuela Universitaria de Informática Universidad Politécnica de Madrid Asignatura: Gestión de Datos, Información y Servicios en Innovación Tema 1: Estructura y Extracción de Información Pedro P. Alarcón Cavero [email protected] Curso 2014/15 Contenido Introducción 2. Datos Estructurados, Semi-Estructurados 3. Datos No Estructurados 4. Información/Documentación Científica 1. 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 2 1 1.1. Introducción: A. Datos e Información B. Sistemas de Información C. Representación del Conocimiento 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 3 A. Datos e Información Planteamiento Inicial Sabiduría Toma de decisiones CONOCIMIENTO INFORMACIÓN DATOS 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 4 2 Datos Datos ◦ Corresponden a hechos o realidades del mundo real (observables/entendibles por el ser humano) ◦ A partir de ellos, intentamos reconstruir la información del mundo real ◦ Son “almacenados” usando un método de comunicación (por ejemplo: figuras, signos o lenguajes) en un medio semipermanente de “registrarlos” (por ejemplo: piedras, papel, soporte magnético) 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 5 Gestión de Datos, Información y Servicios en Innovación 6 Datos Base de datos 2014 © Pedro P. Alarcón 3 Datos Generalmente, el dato y su interpretación son recogidos juntos, en los lenguajes naturales. Por ejemplo: “Su altura es 175 cm.” “La altura de Pepe es 175 cm.” dato: “175” significado: altura en centímetros (no conocemos el sujeto) datos: “175”, “Pepe” significado: altura en centímetros de Pepe (suponemos que Pepe es una persona pero podría no serlo) Problema: Ambigüedades al utilizar el lenguaje natural Necesario conocer el contexto de los datos/información 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 7 Datos A veces, los datos son separados de su interpretación ◦ Por ejemplo: ◦ hora en un reloj temperatura en un termómetro Necesario el Conocimiento de la persona e incluso información extra para analizar los datos y extraer/ interpretar la información correspondiente 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 8 4 Datos ¿Reloj, huevo frito, arte? Si reloj: requiere conocimiento en lectura de la hora y tener visión espacial 2014 © Pedro P. Alarcón Reloj: ¿7.30 am o 7.30 pm? Sin precisión: minuto exacto, segundos ¿qué día, mes y año? Requiere conocer como leer la hora en un reloj analógico Reloj con tiempo exacto Precisión: minuto exacto, segundos ¿qué año? Requiere conocer cómo interpretar la hora en el reloj Gestión de Datos, Información y Servicios en Innovación 9 Datos Los ordenadores han incrementado más aún la separación entre datos y su significado: No se prestan para manipular un lenguaje natural ◦ El coste de almacenamiento puede ser elevado ◦ El coste de computación es elevado ◦ dato: valores almacenados en el “ordenador” información: significado de los datos La interpretación de los datos es inherente a los programas/personas que los utilizan 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 10 5 Datos Matrícula: 0000BBB Matrícula: 0000AY Atención al significado semántico de los datos 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 11 Datos El siguiente dato Total 150 ◦ No nos aporta ninguna información por sí mismo ◦ Si conocemos la consulta asociada: SELECT SUM(cantidad) total FROM Pedidos WHERE nombre=“mesa” AND fecha > #22/09/11# ¿Podemos afirmar que un total de 150 mesas se han pedido o vendido en una fecha determinada? Necesitamos información del contexto, en este caso del esquema de los datos y del dominio de aplicación en los que se basa la consulta 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 12 6 Datos e Información Los ordenadores han incrementado la separación entre datos y su significado: ◦ ◦ No se prestan para manipular un lenguaje natural El coste de almacenamiento es muy elevado Datos: ◦ Representación formal de hechos, conceptos o instrucciones, adecuada para su comunicación, interpretación y procesamiento por seres humanos o medios automáticos Información: ◦ Significado que los seres humanos damos a los datos 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 13 Datos e Información Si se almacena o comparte los datos ya elaborados como información, se proporciona un conjunto limitado de usos Si se almacena o comparte como raw data y se proporcionan los metadatos para interpretar y darles sentido, entonces se permite ◦ Utilizar los datos en múltiples formas, generando información útil en diferentes configuraciones ◦ Las personas pueden realizar su propio análisis de los datos, más allá de confiar en una única interpretación Ejemplo 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 14 7 Datos e Información Recepción no uniforme del mensaje ◦ Por ejemplo, una frase en lenguaje natural puede dar lugar a diferentes interpretaciones (información) dependiendo: Ambigüedad de la frase o palabras Ruido/interferencias Capacidad cultural/intelectual del emisor para expresar adecuadamente el mensaje y del receptor para entenderlo (p.e. conocimiento del idioma o código del mensaje) Estado emocional del emisor y/o el receptor del mensaje Conocimientos sobre el tema o temas (contexto) de la frase Situación similar al crear programas que generan información. Además, puede haber errores lógicos de programación a la hora de recuperar y construir la información. 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 15 Datos, Información y Conocimiento sabiduría Planteamiento Inicial CONOCIMIENTO INFORMACIÓN DATOS Publicaciones relacionadas ◦ ◦ ◦ ◦ ◦ ◦ Bernstein (2009). The Data-Information-Knowledge-Wisdom Hierarchy and its Antithesis. Zins (2007). Conceptual Approaches for Defining Data, Information, and Knowledge. Ahsan (2006). Data, Information, Knowledge, Wisdom: A Doubly Linked Chain? Boisot (2004). Data Information and Knowledge Have We Got It Rigth? Bellinger (2004). Data, Information, Knowledge and Wisdom Parsons (1996). Current Approaches to Handing Imperfect Information in Data and Knowledge Bases. ◦ Aamodt (1995). Different roles and mutual dependencies of data, information, and knowledgeAn Artificial Intelligence perspective on their integration. ◦ Ackoff (1989). From data to wisdom. 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 16 8 Datos, Información y Conocimiento Definición 2014 © Pedro P. Alarcón de Dato según la RAE Gestión de Datos, Información y Servicios en Innovación 17 Datos, Información y Conocimiento Definición 2014 © Pedro P. Alarcón de Información según la RAE Gestión de Datos, Información y Servicios en Innovación 18 9 Datos, Información y Conocimiento Definición 2014 © Pedro P. Alarcón de Conocimiento según la RAE Gestión de Datos, Información y Servicios en Innovación 19 Datos, Información y Conocimiento Definición 2014 © Pedro P. Alarcón de Conocer según la RAE Gestión de Datos, Información y Servicios en Innovación 20 10 Datos, Información y Conocimiento Definición 2014 © Pedro P. Alarcón de Sabiduría según la RAE Gestión de Datos, Información y Servicios en Innovación 21 Datos, Información y Conocimiento Definiciones Grado más alto del conocimiento Conocimiento profundo en ciencias, letras o artes RAE Sabiduría Conocimiento Información Saber o sabiduría Entendimiento, inteligencia, razón natural Comunicación o adquisición de conocimientos … Información sobre algo concreto … Datos 2014 © Pedro P. Alarcón Información dispuesta de manera adecuada para su tratamiento por ordenador Gestión de Datos, Información y Servicios en Innovación 22 11 Datos, Información y Conocimiento Datos, Información y Conocimiento ◦ Conceptos claramente interrelacionados ◦ Su significado y la naturaleza de sus interrelaciones son objeto de discusión y debate Ejemplos de definiciones en “Conceptual Approaches for Defining Data, Information, and Knowledge” de Chaim Zins, 2007 (ver siguiente diapositiva) Cuestiones: 2 + 2 = 4 ¿es información o conocimiento? ¿o datos? El hombre llegó a la Luna en 1969 ¿es información o conocimiento? ¿o datos? 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 23 Datos, Información y Conocimiento Elsa Barber ◦ Datum: representación de conceptos u otras entidades registradas en algún medio de una forma adecuada para la comunicación, interpretación o procesamiento por seres humanos o por sistemas automatizados (Wellisch, 1996) ◦ Información: mensaje utilizado por un emisor para representar uno o más conceptos dentro de un proceso de comunicación, con la intención de aumentar el conocimiento de los destinatarios. mensaje contenido en el texto de un documento ◦ Conocimiento: es el saber, adquirido por la experiencia Shifra Baruchson–Arbib ◦ Datos: estímulos sensoriales que son percibidos a través de los sentidos. ◦ Información: datos que han sido procesados de una forma entendible por el receptor (Davis & Olson, 1985). ◦ Conocimiento: lo que evalúa y comprende el knower 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 24 12 Datos, Información y Conocimiento De los datos obtenemos información Con la información generamos conocimiento Datos + información à ◦ Aumenta el conocimiento Datos + conocimiento à ◦ Se genera información Información + conocimiento à ◦ Incrementa la sabiduría ◦ Ayuda a la toma de decisiones 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 25 Datos, Información y Conocimiento Ejercicio ◦ Dar una definición propia, o basada en otras pero comentándola, sobre: Dato Datos Información Mensaje Conocimiento Conocimientos Sabiduría 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 26 13 Datos - Formato Formato de los datos manipulables por ordenador ◦ Texto (diferentes tipos de datos: string, entero, fecha, etc.) ◦ Imagen ◦ Sonido ◦ Vídeo Los tres últimos tipos dificultan aún más la interpretación de los datos que llevan implícitos por parte de los ordenadores 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 27 Datos - Formato Contenedores de datos ◦ Ficheros (texto, sonido, imagen, video, etc.) ◦ Base de datos (BD) Relacional, jerárquica, objeto-relacional, objetos, NoSql ◦ BD distribuidas ◦ BD federadas (utilización de mediadores) ◦ Páginas web ◦ Web de Datos ◦ Datos Entrelazados ◦ BD Global/Universal 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 28 14 Datos - Tipos Datos estructurados Los datos se estructuran por medio de tablas, objetos o ficheros de registros Cada tupla/registro/objeto es conforme con un esquema El esquema facilita el acceso a los datos El esquema incorpora “cierto” significado semántico para las personas o programas que utilizan los datos Independencia de los datos? Qué sucede si perdemos el esquema? Los datos de una BD no son independientes (ejemplo) Dependencia de un software concreto Modelos: relacional, jerárquico, objeto-relacional, OO 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 29 Datos - Tipos Datos semi-estructurados ◦ Algunos datos tienen cierta estructura: Texto; frases, párrafos, secciones, capítulos, etc. (ejemplo: LaTeX) Páginas Web: html ◦ Fuerzan a que los ficheros estén bien formados (cierta estructura) ◦ Permiten el acceso y manipulación de los datos ◦ Pueden forzar a que los ficheros sean válidos (conformes a un esquema determinado) ◦ Facilitan la interpretación de los datos, incluyendo etiquetas ◦ Altamente portables, aunque incluyen redundancia (por ejemplo, un documento xml) (Ejemplo xml) ◦ Se pueden incorporar en bases de datos ◦ Independencia de un software concreto 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 30 15 Datos – Tipos Datos No Estructurados ◦ No tienen un modelo bien definido para extraer/ acceder a la información que contienen ◦ Consisten en texto, audio, imagen, etc. ◦ Ejemplos: documento msword, email, foto, canción, etc. ◦ Aportan un valor importante al “negocio” ◦ Las empresas disponen de grandes cantidades de datos no estructurados (volumen creciente) ◦ 80-90% de la información en la red y redes corporativas es no estructurada (Goldman Sachs) ◦ Dificultad para extraer información de ellos ◦ Fundamental disponer de herramientas para extraer la información que contienen 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 31 B. Sistema de Información Los edificios se caracterizan por sus partes y sus métodos de conexión y tienen una estructura bien definida Imagen tomada de “Component Based Software Engineering” Masato Suzuki 2014 ©Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 32 16 Sistema de Información De igual forma los sistemas SW se construyen mediante componentes y conectores, que determinan su estructura (arquitectura) El sistema de información va más allá del sistema SW, porque incluye personas, protocolos de actuación, etc. IGU: Interfaz Gráfico de Usuario MS: Módulo Supervisor MC: Módulo Central IGU MS MC BD BD: Base de Datos MS BD Componentes IGU MC Arquitectura del sistema Conectores 2014 ©Pedro P. Alarcón El componente BD de un SI suele contener datos estructurados, permitiendo su almacenamiento y acceso Gestión de Datos, Información y Servicios en Innovación 33 Sistema de Información Sistema de Información (SI) ◦ Conjunto de procedimientos y datos, herramientas y equipos, construidos, operados y mantenidos para recoger, registrar, procesar, almacenar y recuperar información ◦ Sistema, automatizado o manual, que engloba a personas, máquinas y/o métodos organizados para recopilar, procesar, transmitir datos que representan información ◦ Conjunto de componentes que interaccionan entre sí para lograr un objetivo común: satisfacer las necesidades de información de una empresa (Ed. UPC 2006) 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 34 17 Sistema de Información Generación de Información Dato Proceso mental Información, idea Fuente: MIS 715 Eaton Fall 2001 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 35 Sistema de Información Características de la información útil Fuente: MIS 715 Eaton Fall 2001 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 36 18 Sistema de Información Componentes de un Sistema de Información Datos Entradas que el sistema toma para producir información Hardware El ordenador, sus dispositivos periféricos de entrada, salida y almacenamiento., y equipamientos de comunicación. Software Conjunto de instrucciones que dicen al ordenador como tomar los datos de entrada, cómo procesarlos, cómo generar y mostrar la información, y cómo almacenar datos e información Telecomunicaciones Hardware y Software que facilita la transmisión de texto, imágenes, sonido y video en forma de datos electrónicos Personas Programadores de aplicaciones, administrados de BDs y usuarios, que se encargan de crear, administrar y gestionar/utilizar el sistema de información Procedimientos Políticas y reglas de funcionamiento de las personas y los programas para conseguir un procesamiento óptimo y seguro de los datos. Fuente: MIS 715 Eaton Fall 2001 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 37 Sistema de Información Sistema de Bases de Datos (SBD) ◦ Sistema cuyo propósito general es registrar y mantener información coherente ◦ Componentes: datos, hardware, software, usuarios Base de Datos ◦ Conjunto de datos homogéneo o no, útil para una organización o persona, almacenado en ordenador/web, y accesible en tiempo útil, permitiendo realizar consultas y actualizaciones Base de Información ◦ ERP (Enterprise Resource Planning) ◦ Bussines Intelligence 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 38 19 Sistema de Información Modelos de Bases de Datos ◦ Relacional ◦ Jerárquico ◦ Objeto-Relacional ◦ Orientado a Objetos ◦ NoSql Tipos de Sistema de Información ◦ De Ayuda a la Toma de Decisiones ◦ Sistemas de Información Gerencial ◦ Sistemas operacionales ◦ Sistemas de Información Geográfica 2014© Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 39 Procesos de carga de datos ETL: Extract, Transform and Load Datos/información origen Extracción de datos manual / automática Carga de datos Base de datos .. . 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 40 20 Procesos de carga de datos Datos/información origen ETL: Extract, Transform and Load Extracción de datos manual / automática Carga de datos Transformación de datos BD / DW Base de datos .. . 2013 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 41 Big Data De moda Desconocimiento, confusión No hay consenso en la definición “Volumen masivo de datos, tanto estructurados como no-estructurados, los cuales son demasiado grandes y difíciles de procesar con las bases de datos y el software tradicionales" (ONU, 2012) 2013 ©Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 42 21 Big Data Advanced Performance Institute 2014 ©Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 43 Big Data Advanced Performance Institute 2014 ©Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 44 22 Big Data Today’s Challenge New Data What’s Possible Healthcare Expensive office visits Remote patient monitoring Preventive care, reduced hospitalization, epidemiological studies Manufacturing In-person support Product sensors Automated & Predictive diagnosis, support Location-Based Services Based on home zip code Real time location data Geo-advertising, personalized notifications and search Retail One-size-fits-all marketing Social media Sentiment analysis segmentation Utilities Complex distribution grid Detailed consumption statistics Increased availability, reduces cost, tiered metering plans Being a Data Scientist with Oracle Big Data. Tang Tao, Oracle University 2013 2014 ©Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 45 C. Representación del Conocimiento Objetivo ◦ Facilitar la inferencia (deducir conclusiones) a partir del conocimiento representado en forma de datos, metadatos y reglas Nos centraremos en ◦ Ontologías ◦ Web semántica (Linked Data) ◦ Lenguajes RDF (Resource Description Framework) RDF Schema OWL (Web Ontology Language) 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 46 23 Ontologías Una ontología es una especificación formal y explícita de una conceptualización compartida o consensuada [Studer 98] ◦ formal: entendible por la máquina ◦ especificación explícita: se definen explícitamente los conceptos, propiedades, relaciones, funciones, restricciones y axiomas ◦ conceptualización: modelo abstracto de algo Útiles cuando la información de los documentos requiere ser procesada por aplicaciones, no solo para ser presentada en la web 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 47 Ontologías Estructura ◦ Clases/conceptos ◦ Instancias/Individuos ◦ Atributos/slots ◦ Relaciones entre los diferentes componentes de la ontología ◦ Restricciones sobre los atributos como tipo y cardinalidad ◦ Axiomas: aserciones o reglas 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 48 24 Web Semántica Web dotada de mayor significado Infraestructura basada en metadatos (ontologías) ◦ Aporta un camino para razonar en la Web Información mejor definida ◦ Mayor simplicidad y rapidez en encontrar las respuestas a las preguntas de los usuarios Origen de Linked Data Se apoya en lenguajes definidos por el w3c ◦ RDF Resource Description Framework Información descriptiva (metadatos) sobre los recursos en web ◦ OWL Ontology Web Language Lenguaje para definir ontologías estructuradas ◦ SPARQL Lenguaje de consulta sobre RDF y OWL 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 49 Lenguajes ◦ Provee de más vocabulario para describir propiedades y clases, como: relaciones entre clases, cardinalidad, equivalencia, y características de las propiedades OWL SPARQL RDF Schema RDF Schema ◦ Vocabulario para describir propiedades y clases de recursos RDF ◦ Semántica para la generalización de jerarquías de las propiedades de clases RDF XML Schema XML RDF ◦ Modelo de datos para objetos (recursos) y relaciones entre ellos ◦ Capacidad de expresar cierta semántica XML-Schema ◦ Aporta estructura a XML ◦ Proporciona tipos de datos XQuery 2014 © Pedro P. Alarcón OWL XML ◦ Datos semi-estructurados ◦ Sin información semántica Gestión de Datos, Información y Servicios en Innovación 50 25 XML XML: eXtensible Markup Language ◦ Recomendación del w3c ◦ Estándar de facto para definir, crear, validar, compartir y publicar documentos con información, mediante marcas o etiquetas con significado ◦ Estructura de árbol <?xml version="1.0" encoding="UTF-8"?> <libreta> <!-- Primera persona de la libreta --> <contacto> <nombre>Pedro</nombre> <tfno>913333333</tfno> <tfno>915555555</tfno> </contacto> <!– Segunda persona de la libreta --> <contacto> <nombre>Angel</nombre> <tfno>913333355</tfno> </contacto> </libreta> 2014 © Pedro P. Alarcón libreta contacto contacto nombre tfno tfno nombre Pedro 913333333 915555555 Angel tfno 913333355 Gestión de Datos, Información y Servicios en Innovación 51 XML Schema Lenguaje XML para definir y restringir el contenido de documentos XML libreta.xsd <?xml version="1.0" encoding="UTF-8"?> <xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema"> <xs:element name="libreta"> <xs:complexType> <xs:sequence maxOccurs="unbounded"> <xs:element ref="contacto"/> </xs:sequence> </xs:complexType> </xs:element> <xs:element name="contacto"> <xs:complexType> <xs:sequence> <xs:element ref="nombre"/> <xs:element ref="tfno" maxOccurs="unbounded"/> </xs:sequence> </xs:complexType> </xs:element> <xs:element name="nombre" type="xs:string"/> <xs:element name="tfno" type="xs:string"/> </xs:schema> 2014 © Pedro P. Alarcón <?xml version="1.0" encoding="UTF-8"?> <libreta xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:noNamespaceSchemaLocation="libreta.xsd"> <!-- Primera persona de la libreta --> <contacto> <nombre>Pedro</nombre> <tfno>913333333</tfno> <tfno>915555555</tfno> </contacto> <!– Segunda persona de la libreta --> <contacto> <nombre>Angel</nombre> <tfno>913333355</tfno> </contacto> </libreta> Gestión de Datos, Información y Servicios en Innovación 52 26 RDF Resource Description Framework Basado en XML Define ontologías Información descriptiva (metadatos) sobre los recursos en web Tripletas: sujeto, predicado, valor Documento RDF como grafo Nodos: recursos o valores Arcos: propiedades 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 53 RDF Ejemplo ◦ Afirmaciones (combinación de sujeto, predicado, objeto) El profesor del recurso www.eui.upm.es/MI/profes/1 tiene por nombre Pedro, email [email protected] y tiene el título de Doctor El profesor del recurso www.eui.upm.es/MI/profes/2 tiene por nombre Angel, email [email protected] y tiene el título de Doctor <?xml version="1.0"?> <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:profesor="http://eui.upm.es/masterinvestigacion/gdisi/profes/"> <rdf:Description rdf:about="www.eui.upm.es/MI/profes/1"> <profesor:nombre>Pedro</profesor:nombre> <profesoremail rdf:resource="mailto:[email protected]"/> <profesor:titulo>Dr.</profesor:titulo> </rdf:Description> <rdf:Description rdf:about="www.eui.upm.es/MI/profes/2"> <profesor:nombre>Angel</profesor:nombre> <profesor:email rdf:resource="mailto:[email protected]"/> <profesor:titulo>Dr.</profesor:titulo> </rdf:Description> </rdf:RDF> 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 54 27 RDF Sujeto Recurso Recurso Predicado Objeto propiedad Valor propiedad Recurso Grafo obtenido con el validador de RDF: http://www.w3.org/RDF/Validator/direct 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 55 RDF Schema Lenguaje de definición de vocabularios RDF Extensión semántica de RDF rdf:subClassOf Pueden definirse ◦ Clases y propiedades ◦ Jerarquías y herencia entre clases ◦ Jerarquías de propiedades Asignatura rdf:subClassOf GradoIS MasterCTC rdf:type rdf:type gdisi 6 agi http://www.asignaturaseui.es/tieneAlumnos <rdf:RDF xmlns:rdf= “http://www.w3.org/1999/02/22-rdf-syntax-ns#” xmlns:s="http://www.asignaturaseui.es/"> <rdf:Description rdf:ID=“gdisi"> <s:tieneAlumnos>6</s:tieneAlumnos> <rdf:type resource="#MasterCTC " /> </rdf:Description> <rdf:Description rdf:ID=“agi"><rdf:type rdf:resource="#GradoIS" /></rdf:Description> <rdf:Description rdf:ID=“MasterCTC"> <rdf:subClassOf rdf:resource="#Asignatura"/></rdf:Description> <rdf:Description rdf:ID=“GradoIS"><rdf:subClassOf rdf:resource="# Asignatura" /></rdf:Description> <rdf:Description rdf:ID=“Asignatura" /> </rdf:RDF> 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 56 28 OWL Ontology Web Language Lenguaje para publicar y compartir datos usando ontologías en la Web Extiende RDF ◦ Incluye propiedades que permiten restringir las instancias de una clase ◦ Permite restringir los valores de una clase ◦ Facilita expresar ciertas propiedades de las clases ◦ Se puede especificar el número de elementos que participan en una relación 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 57 OWL Ejemplo <rdf:RDF xmlns:rdf=“http://www.w3.org/1999/02/22-rdf-syntax-ns#” xmlns:rdfs=“http://www.w3.org/2000/01/rdf-schema#” xmlns:owl=“http://www.w3.org/2002/07/owl#” xmlns:dc="http://purl.org/dc/elements/1.1/"> <!-- OWL Header Example --> <owl:Ontology rdf:about="http://www.linkeddatatools.com/plants"> <dc:title>The LinkedDataTools.com Example Plant Ontology</dc:title> <dc:description>An example ontology</dc:description> </owl:Ontology> <!-- OWL Class Definition Example --> <owl:Class rdf:about="http://www.linkeddatatools.com/plants#planttype"> <rdfs:label>The plant type</rdfs:label> <rdfs:comment>The class of plant types.</rdfs:comment> </owl:Class> </rdf:RDF> 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 58 29 XQuery Lenguaje de consulta para contenidos XML Mantiene cierta analogía con SQL Ejemplo <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE libros SYSTEM "libros.dtd"> <libros> <libro id="1"> <titulo>El Secreto</titulo> <autor>Rhonda Byrne</autor> <año>2007</año> <precio>22.50</precio> </libro> <libro id="2"> <titulo>Indignaos</titulo> <autor>Stephane Hessel</autor> <autor>Jose Luis Sampedro</autor> <año>2011</año> <precio>15</precio> </libro> </libros> 2014 © Pedro P. Alarcón Consulta Xquery: for $x in /libros/libro let $tit :=$x/titulo where $x/precio>20 order by $x/autor Return <tituloLibro>{$tit}</tituloLibro> Resultado: <tituloLibro> <titulo>El Secreto</titulo> </ tituloLibro > Gestión de Datos, Información y Servicios en Innovación 59 SPARQL Lenguaje de consulta de contenidos RDF Sintaxis con cierto parecido a SQL Ejemplo ◦ SELECT ?nom ?ape WHERE { ?x :nombre ?nom. ?x :apellido ?ape. ?x rdf:type :Empleado. ?x :año_nac ?y. FILTER (?y >= “1980").} 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 60 30 Linked Data Web de documentos enlazados ◦ Enlaza documentos ◦ Diseñado para humanos Fuente: Tom Heath, Talis, 2009 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 61 Linked Data Silos de datos en la Web ◦ Generan documentos independientes Fuente: Tom Heath, Talis, 2009 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 62 31 Linked Data Web de datos enlazados ◦ Enlaza “cosas” (o descripciones de cosas), no documentos ◦ Orientado a las máquinas, no a las personas Fuente: Tom Heath, Talis, 2009 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 63 Linked Data Base de datos “global” Datos en la Web Expuestos como RDF Enlazados con otros datos 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 64 32 Linked Data Tipo de información emergente Open Linking Data. Data Sets 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 65 Linked Data Open Linking Data. Data Sets 2014 © Pedro P. Alarcón Gestión de Datos, Información y Servicios en Innovación 66 33