RDF - RISC

Anuncio
México DF , 26 Noviembre 2013
Fundamentos de la Web Semántica y
su aplicabilidad para descubrir
conocimiento en fuentes de datos
biológicas
Luis Fernando Castillo Ossa
Twitter: @luisfercastillo
[email protected]
www.luisfercastillo.com
Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ]
Agenda
Introducción
XML - RDF
Web Semántica
Agentes para la Web Semantica
Ejemplos Aplicaciones (Coffee Transcriptome)
Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ]
Introducción
Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ]
Introducción
• Web 3.0 podría ser la realización y extensión del
concepto de la “Web semántica”?. Las
investigaciones académicas están dirigidas a
desarrollar programas que puedan razonar, basados
en descripciones lógicas y agentes “inteligentes".
• La nueva tendencia es LOD (Linked Open Data) Datos
abiertos enlazados, permitirá tener acceso a
múltiples fuentes de información para identificar
relaciones entre los datos
Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ]
Modelo de datos de XML a RDF
(Concepts and Abstract Syntax
W3C Recommendation 10 February 2004)
Resource Description Framework (RDF)
La información es un grafo dirigido etiquetado que
modela las relaciones entre objetos
– Nodos: recursos
– Arcos: propiedades
Las oraciones tienen de la forma:
sujeto
predicado
objeto
Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ]
5
Web de datos vs. información
Tomado de: Claudio Gutierrez / Carlos Hurtado (U. Chile)
Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ]
6
Pagina web Casa Blanca (USA)
Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ]
RDF
RDF (Modelo Datos para
la Web Semántica )
Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ]
RDF (Representaciones)
RDF/XML
<?xml version="1.0"?>
<rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:u="http://bio2rdf.org/uniprot:"
<rdf:Description rdf:about=“&u;Q16665">
<rdf:type rdf:resource=“&u;Protein"/>
</rdf:Description>
</rdf:RDF>
RDF/N3
PREFIX u: <http://bio2rdf.org/uniprot:>
<u:Q16665> a <u:Protein> .
EBI : 14-01-10
Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ]
9
Reglas para Compartir Datos en la WEB
(Tim Bernes Lee - 2006) fundamentos LOD
1. Usar URIs para nombrar las cosas.
2. Usar HTTP URIs para que la gente
puede buscar los nombres
3. Cuando alguien busca información de
una URI, proveer información util
usando los standard (RDF, SPARQL)
4. Incluir enlaces a otras URIs, para que
se puedan descubrir nuevas cosas
Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ]
Linking Open (LOD) Data Project (Marzo 2008)
Acceso Abierto a los Datos Enlazados
Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ]
Linking Open (LOD) Data Project (Sept 2008)
Acceso Abierto a los Datos Enlazados
Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ]
Linking Open (LOD) Data Project (Julio 2009)
Acceso Abierto a los Datos Enlazados
Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ]
Linking Open (LOD) Data Project (Sept 2011)
Acceso Abierto a los Datos Enlazados
Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ]
Linking Open (LOD) Data Project (Sept 2011)
Acceso Abierto a los Datos Enlazados
Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ]
Proyecto Europeo 2010 - 2014
http://www.w3.org/2011/gld/wiki/GLD_Life_cycle
Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ]
Linking Open (LOD) Data Project
• Los datos están libres para su uso
• Son “entendibles” por las máquinas formatos
(OWL-RDF)
• Pueden ser visualizados utilizando protocolos
web
• Los datos tienen relaciones entre ellos, lo cual
“amplia”su significado.
Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ]
http://www.w3.org/blog/hcls/
• HCLS
• Neurocommons
–
http://sciencecommons.org/projects/healthcommons/
• Bio2RDF
EB : 14-01-10
Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ]
18
Bio2RDF
The Bio2RDF project uses open-source Semantic Web technologies to
provide interlinked life science data to support biological knowledge
discovery (Modificado el 17 de Abril de 2012)
Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ]
Bio2RDF
• 40 Bases de Datos (Datos Biológicos)
• Más de 30.000 millones de tripletas (RDF)
• Tiene Servidores Espejo en:
– Quebec (Canadá)
– Ottawa
– Brisbane (Australia)
Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ]
Bio2RDF tiene
mucha información datos biológicos
EBI : [14-01-10
Luis Fernando Castillo Ossa
@luisfercastillo , http://www.luisfercastillo.com ]
21
Bio2RDF describe utiliza SPARQL
http://bio2rdf.org/ns:id
CONSTRUCT {
?s ?p ?o .
}
WHERE {
?s ?p ?o .
FILTER(?s = <http://bio2rdf.org/ns:id>).
}
Sent to http://ns.bio2rdf.org/sparql?query=...
EBI : [14-01-10
Luis Fernando Castillo Ossa
@luisfercastillo , http://www.luisfercastillo.com ]
22
Razonadores e inferencia tomando
como base el significado “Semantica"
fact
uniprot:P0506
7
is a
Uniprot:Protein
is a
is a
chebi:Polyatomi
c
ontology
Entity
Knowledge base
Author: Michel Dumontier
EBI : [14-01-10
Luis Fernando Castillo Ossa
@luisfercastillo , http://www.luisfercastillo.com ]
23
Inferencias para Generar Conocimiento
Amyloid
precursor
protein
Alzheimer
Disease
label
label
is involved in
uniprot:P0506
7
is a
omim:10430
0
is a
Protein
Disease
Knowledge base
Author: Michel Dumontier
EBI : [14-01-10
Luis Fernando Castillo Ossa
@luisfercastillo , http://www.luisfercastillo.com ]
24
Quien utilizará la Web Semántica
El papel de los Agentes.
La
Web
semántica
esta
enfocada a los usuarios
¿quiénes son los usuarios de una
Web semántica? Sin duda alguna,
los agentes "inteligentes"
Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ]
Secuenciación Masiva ADN
Las técnicas de alto rendimiento permiten secuenciar
-obtener o leer la secuencia del ADN- masivamente
Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ]
Café
Café y la riqueza de la
Biodiversidad
Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ]
Roya del Cafeto
• El conocimiento de la variabilidad genética del organismo causante
de la roya, el hongo Hemileia vastatrix, es crucial para desarrollar
estrategias de manejo de la enfermedad. Sin embargo, el ciclo de
vida del hongo, y su dependencia de la planta de café hacen muy
difícil su estudio a nivel de laboratorio
Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ]
Café
Canephora Coffee
(Robusta Coffee)
Arabica Coffee
(Mild Coffee)
kapakata Coffee
Liberica Coffee
Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ]
Reification Cenicafé Datasets(II)
Cenicafé
IPR:
Interpro
Interpro
contig
GO
etc
go:
others
RDF
Protein Sequence results
>sequence 1 consisting of 1000 residues.
GVAVWYGGFMFDWLCDESLEVWEGQKFQTDWLRPFFPYVKVKDTW
KKIGQNAGLSCGWKKTETKQAYVHQYAELDSAYIIKTNKSKCYNQ
FPYGFSWCFMHIPGTLMGKKHLMHDAMEEDGMENCSWPIMPSQMG
VFIIRGMHVSGHSLCRNGCCDGPMVWQRTRQPVTFHSLFEWGAQY
CAPGGDRDKAEVMCDCICFANVYEMMDYDWHIRYLTPDLAAGMFS
MVRVDGSWVLEIYVYTPVYTFHWCDSMNKPPHMNRHNMHWFYSPM
NFTVFWYNRDFRPYTWTTTAVPLIRIEMLGTDTPPWNVKYLVMNK
VQPDHFFVRVYPMETHEEHRTNSKCDDHSESFENCNYQQIAGCQY
AVDSAKGMIVMGCHAFGRSMMVPHDDEIWIECVGLMWMVKVEDNK
TCMPNLKREDADIEG
Gene
Ontolgy
Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ]
Procedimiento encontrar relaciones (I)
Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ]
Resultados(I)
Results of the functional relationships associated PDB
Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ]
Resultados (II)
Results of the functional relationships associated Kinase term
Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ]
Resultados (III)
Results of the functional relationships associated Kinase term
Search made
ith sesame
CEN
relations,
visualization
in sgvizler
Luis ​w
Fernando
Castillo
Ossa
[ @luisfercastillo
, http://www.luisfercastillo.com
]
Preguntas
[email protected]
Luis Fernando Castillo Ossa [ @luisfercastillo , http://www.luisfercastillo.com ]
Descargar