Bioinformática y Biología Computacional

Anuncio
Bioinformática y Biología
Computacional
Ignacio Rojas, Héctor Pomares,
Julio Ortega, Francisco Ortuño
Departamento de Arquitectura y Tecnología de Computadores
Universidad de Granada. Julio 2013 ([email protected])
o Introducción de biología
Contenidos
o Introducción de bioinformática
o Principales retos en bioinformática. Big Data.
o Aplicaciones
o Análisis de microarrays
o Análisis de datos de secuenciación masiva (NGS)
o Alineamientos de secuencia
o Otras aplicaciones. Human Genome Project.
o Clustering en Bioinformática (si hay tiempo?)
Una brevísima lección de Biología.
• Células
• Genes
• Del gen a la expresión génica
• Proteínas
• Complejos macromoleculares
• Interacciones macromoleculares
• Rutas metabólicas
Los seres vivos están hechos de células.
Citoplasma
ADN
Membrana
Citoplasmática
Orgánulos
Núcleo
Membrana
nuclear
El material genético se encuentra en el núcleo.
Cromosomas
Cromosoma
(Visibles durante
la reproducción celular)
Estructura del núcleo
Los cromosomas estan formados por ADN.
Doble Hélice de
ADN
Cromosoma Detalle de la hebra
Desenrollado
de DNA
Los cromosomas estan formados por ADN.
·Fragmento de una secuencia
de DNA de "dinosaurio"
(Parque Jurásico)
Expresión génica: El Dogma Central de la Biología.
El concepto es simple ...
... y el proceso complicado
Ya podemos definir qué es un gen...
Un gen es la región
del ADN que codifica
una proteína
... Aunque no todo es tan fácil:
• Una secuencia de ADN puede
codificar varias proteínas, pues
presenta tres patrones de
lectura.
• Una secuencia de ADN puede
codificar varias proteínas por
splicing-alternativo.
Aminoácidos y proteinas
El término proteína fue propuesto en 1838 por el sueco J. J.
Berzelius para resaltar la importancia estas moléculas, y proviene
del griego proteios, que significa "primero o principal". Las
proteínas son las moléculas orgánicas más abundantes en las
células, constituyendo el 5O % o más de su peso seco. Se
encuentran distribuidas por toda la célula, y son fundamentales
tanto estructural como funcionalmente.
Se calcula que una célula de mamífero puede contener
hasta 10 000 proteínas diferentes; sin embargo, en las
plantas debido al elevado contenido en celulosa, la
presencia de proteínas es mucho menor. Aunque
químicamente están formadas por carbono, hidrógeno,
oxígeno, nitrógeno y a veces azufre, las hay que contienen
elementos adicionales, fósforo, hierro, cobre, magnesio,
cinc o iodo.
Aminoácidos
Aminoácidos
En resumen:
o ADN:
4 nucleótidos
(A, C, T, G)
o ARN:
4 nucleótidos
(A, C, U, G)
o PROTEINAS:
20 aminoácidos
3 nucleótidos
=
1 aminoácidos
Proteínas
Las proteínas son cadenas de aminoácidos unidos por enlaces peptídicos.
Hay 20 aminoácidos distintos en las proteínas de los seres vivos.
Estructura primaria.
(sec. aminoácidos)
Secuencia de
Aminoácidos
Estructura
secundaria
Estructura
terciaria
(dominios)
Estructura 3D
(Forma)
Estructura
cuaternaria
Función Biológica
Rutas Metabólicas.
o Introducción de biología
Contenidos
o Introducción de bioinformática
o Principales retos en bioinformática. Big Data.
o Aplicaciones
o Análisis de microarrays
o Análisis de datos de secuenciación masiva (NGS)
o Alineamientos de secuencia
o Otras aplicaciones. Human Genome Project.
o Clustering en Bioinformática (si hay tiempo?)
¿Qué es la bioinformática?
Estadística
Matemáticas
Biología
Medicina
Farmacía
BIOINFORMÁTICA
Algoritmos
Programación
Paralelización
Aplicaciones
Bases de datos
Minería de datos
BIOINFORMÁTICA: Investigación, desarrollo o aplicación de herramientas y técnicas
computacionales para expandir el uso de datos biológicos, médicos y medioambientales, incluyendo la adquisición, almacenamiento, organización, análisis o
visualización de dichos datos (NIH BISTI Consortium ).
Bioinformática y Biología Computacional.
Biology in the 21st century is being transformed from a purely
lab-based science to an information science as well.
Fuente: National Center for Biotechnology Information
Bioinformatics is the field of science in which biology, computer
science, and information technology merge to form a single
discipline.
Fuente: National Center for Biotechnology Information
La “Bioinformática” ha evolucionado, de forma que ya no sólo se trata
de almacenar y organizar la información sino de analizar, visualizar e
interpretar mediante métodos matemáticos y computacionales
Biología Computacional.
¿Qué es la bioinformática?
Principales aplicaciones dentro de la bioinformática:
Estructuras
Secuencias
Genes
Proteínas
Enfermedades
BIOINFORMÁTICA
Mapas genéticos
Bioinformática y Biología Computacional.
¿Por qué es tan importante?
...Porque la ingente cantidad de datos y la complejidad de sus relaciones hacen inviable
su procesamiento manual.
...Porque se necesita una perspectiva global del diseño experimental y del análisis de
resultados.
...Porque la disponibilidad de archivos digitales permite generar hipótesis verificables
sobre la función/estructura de un gen o proteína de interés por medio de la
identificación de secuencias similares en organismos mejor caracterizados.
Principales áreas de trabajo en bioinformática.
Genómica Funcional: predicción de función
Análisis de secuencias biológicas: comparación de parejas de
secuencias, búsquedas en bases de datos, alineamientos múltiples,
visualización
Análisis de expresión de genes y datos de DNA microarrays:
preparación de datos (detección de outliers, normalización, relleno de
datos, etc)
Análisis en Proteómica
Identificación de Proteínas
Expresión diferencial de Proteínas
Interacción Proteína-Proteína
Redes de Interacción
Bioinformática estructural
Modelado de proteínas
Biología evolutiva (filogenia)
Principales tipos de datos en bioinformática.
Secuencias de ADN y Proteínas y sus anotaciones.
Motivos, perfiles, dominios.
Modelos: HMMs.
Estructura de proteínas: modelos atómicos, y datos
moleculares de resolución media.
Redes de interacción.
Estructura de la información: Ontologías.
Datos de expresión génica.
Datos de expresión de proteínas: Geles 1D y 2D.
Datos de espectrometría de masa.
Datos de Microscopia (confocal, video y electrónica).
Texto científico.
Bioinformática y Bases de Datos.
• Base de datos EMBL: Crecimiento desde Jun/1982 hasta
Jun/2010
·Crecimiento exponencial!
Bioinformática y Bases de Datos.
• Base de Datos de secuencia SwissProt: Crecimiento desde
Sept/1986 hasta Jul/2005
Identificación de Proteínas = Comparación de secuencias = Alineamiento.
Bioinformática y Bases de Datos.
• Base de Datos de estructuras PDB: Crecimiento desde
Oct/1992 hasta Ene/2000
Bases de Datos en Biología Molecular.
PRINTS
Patent USPTO
INTERPRO
BLOCKS
PIR
PFAM
PROSITEDOC
LOCUS LINK
NRL3D
DOMO
Patent JPO
SWISSFAM
PROSITE
TREMBL
TFMATRIX
UNIGENE
TFSITE
EMBL
DDBJ
DBSTS
TFCLASS
Medline
PRODOM
DSSP
GENEPEPT
Patent PCT
GSDB
TFCELL
TIGR
SWISSPROT
Entrez
PDB
GENBANK
RHDB
SNP
OMIM
Clinical DB
KEGG
dbSNP Contact
SNP Consortium
Microbial Genomes
STKE
WIT
Fly Base
ENZYME
FASTA
BLAST
dbSNP Population
Celera
GENETICCODE
HUGO
GDB
TAXONOMY
EBI
SSEARCH
C. Elegans
CLUSTALW
Introducción genómica
CÉLULA
CROMOSOMA
ADN
ARN
Transcripción
ARN
POLIMERASA
DOGMA CENTRAL
PROTEINAS
RIBOSOMA
Traducción
o Introducción de biología
Contenidos
o Introducción de bioinformática
o Principales retos en bioinformática. Big Data.
o Aplicaciones
o Análisis de microarrays
o Análisis de datos de secuenciación masiva (NGS)
o Alineamientos de secuencia
o Otras aplicaciones. Human Genome Project.
o Clustering en Bioinformática (si hay tiempo?)
PRINCIPALES RETOS DE
LA BIOINFORMÁTICA.
BIG DATA
¿Hacia la medicina personalizada?
o Human Genome Project (finalizado en 2006):
o ∼ 38.000 genes secuenciados  3.200 millones de pares de bases.
o 250.000-300.000 proteínas diferentes.
o 2,1 millones de pequeñas variaciones (single nucleotide polymorphism or SNP).
o Secuenciación masiva (NGS):
o ∼ 60.000 millones pares de bases en una
ejecución (max. 1 día).
o 53.558.214 SNPs anotados (Junio 2012)
“A decade’s perspective on DNA
sequencing technology” Elaine R. Mardis
Nature 470, 198–203 (10 February 2011)
¿Qué hacer con tantos datos?
¡NECESIDAD DE ANÁLISIS!
o Análisis de funcionalidad: No se conoce
la función de ∼40% de secuencias de
aminoácidos (Mistry et al. 2013, DataBase).
o Análisis estructural: No se conoce la
estructura de ∼50% de las familias de
proteínas (Mosca et al. 2013, Nat. Meth.)
o Otras
anotaciones:
Interacciones,
variantes, familias filogenéticas, etc.
APLICACIÓN CLÍNICA Y FARMACÉUTICA
¿Dónde se encuentran los datos?
SECUENCIAS
ADN
Proteínas
GenBank: Base de datos americana (NIH) de
secuencias genéticas.
1,8E+11
Uniprot:Base de datos con secuencias y
funcionalidad de proteínas.
1,80E+08
GenBank
1,6E+11
1,60E+08
1,4E+11
1,40E+08
1,2E+11
1,20E+08
1E+11
1,00E+08
8E+10
8,00E+07
6E+10
6,00E+07
4E+10
4,00E+07
2E+10
2,00E+07
Secuencias
0
jul-98
abr-01
ene-04
oct-06
jul-09
abr-12
Bases
0,00E+00
dic-14
AMBOS RefSeq: Base de datos integrada con
secuencias ADN, transcritos y proteínas
¿Dónde se encuentran los datos?
FUNCIONALIDAD
Pfam: Colección de familias de
proteínas caracterizadas por sus
regiones funcionales (dominios).
Gene Ontology: Vocabulario controlado
de términos (ontología) para describir
las características de genes y proteínas.
ESTRUCTURAS 3D
90000
80000
70000
60000
50000
40000
30000
20000
10000
0
Nuevas
Total
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
Número de estructuras
PDB: Repositorio de estructuras 3D para largas
cadenas moleculares (proteínas y genes).
¿Por qué la computación?
oCreación y mantenimiento BBDD.
oTratamiento eficiente de la información.
oIntegración de datos.
oExtracción de conocimiento útil.
•Comparación de datos.
•Predicción/Clasificación de nuevos
datos.
•Realimentación a BBDD.
Big Data y Bioinformática
La información es poder.
Y muchísima
información es
muchísimo poder
 El 90% de los datos se ha generado
en los dos últimos años.
 Cada 24 horas se producen 24
trillones de bytes de información.
 Actualmente solo se procesan el 1%
de los datos que se generan
Big Data y Bioinformática
CERN proceso
de datos
Manejar Petabytes (lo que puede
equivaler a 250.000 millones de
páginas de texto)
Un robot busca entre 37
petabytes de datos del Centro
de Computación para la
Investigación de Energia de
EE.UU
o Introducción de biología
Contenidos
o Introducción de bioinformática
o Principales retos en bioinformática. Big Data.
o Aplicaciones
o Análisis de microarrays
o Análisis de datos de secuenciación masiva (NGS)
o Alineamientos de secuencia
o Otras aplicaciones. Human Genome Project.
o Clustering en Bioinformática (si hay tiempo?)
APLICACIONES I:
ANÁLISIS DE
MICROARRAYS
Introducción a los microarrays
o Objetivo: Determinar la EXPRESIÓN DE GENES para individuos
concretos.
o Analisis comparativo:
–
–
–
–
Tipos de células: cerebro vs. hígado.
Desarrollo: feto vs. adulto.
Enfermedades: sano vs. enfermo.
Tratamientos y pronósticos: tratados vs. no tratados.
Microarray
original
Hibridación
Grupo 1
Grupo 2
Lectura
resultados
Genómica: Tecnología DNA Microarrays.
 Almacenamiento
 Análisis de Datos
 Visualización
 Interpretación/Anotación
 Publicación en
repositorio público
Tecnología DNA Microarrays. Proceso (I)
Aliter, Junio 2005.
Tecnología DNA Microarrays. Proceso (III)
On the surface
A
Aliter, Junio 2005.
B
In solution
4 copies of gene A,
1copy of gene B
After Hybridization
A
B
Tecnología DNA Microarrays. Proceso (II)
Aliter, Junio 2005.
¿Cómo se hace el microarray?
Aliter, Junio 2005.
Tecnologías de Microarrays:
•Short oligonucleotide arrays (Affymetrix)
•cDNA or spotted arrays (Brown/Botstein).
•Long oligonucleotide arrays (Agilent Inkjet)
•Fiber-optic arrays
Las tecnologías difieren fundamentalmente en:
– La forma en que el DNA es depositado en el sustrato (spotting,
lithography, Inkjet printingm,...).
– Longitud de la secuencia del DNA que es depositada (secuencia completa
o fragmentos del gen).
– El tipo de señal que se mide de cada spot (e.g. fluorescencia)
.
La tecnología del
cDNA microarray
Aliter, Junio 2005.
El ADN complementario o ADNc es un ADN de
cadena sencilla. Se sintetiza a partir de una hebra
simple de ARNm maduro. Se suele utilizar para la
clonación de genes propios de células eucariotas
en células procariotas, debido a que, dada la
naturaleza de su síntesis, carece de intrones
Arrayer (Robot):
Aliter, Junio 2005.
Laboratorio de Microarrays
Automated Slide
Processor
Gen III Arrayer
Scanner with Automated
Slide Loader
Aliter, Junio 2005.
Microarray Gridder
Aliter, Junio 2005.
Tecnologías en microarrays
Método de generación
o ADN Arrays
Oligo Array (Affymetrix)
Grupos de samples
Canal Único Doble Canal
cADN
Oligo
(Sintetizado)
----
cDNA
spotted
Affymetrix
Illumina
Agilent
Illumina
Agilent
o Protein Arrays: Unión por anticuerpos o
unión por proteínas
cADN Array (Stanford)
Análisis de microarrays
Análisis de calidad
Eliminación outliers
Normalización
Análisis diferencial
Anotaciones
Análisis Calidad: Boxplots, MA Plots, Histogramas,
Distancias, Principal Component Analysis (PCA).
Outliers: Se eliminan aquellas muestras de baja
calidad según los análisis anteriores.
Normalización:
• Evitar variaciones técnicas (estudio de variaciones
biológicas).
• Corrección de fondo, Robust Microarray Average
(RMA), loess, Variance Stabilizing Transform (VST).
Análisis diferencial:
• Comparar grupos de estudio para determinar
expresión diferencial de genes.
• Destacar genes expresados diferencialmente.
Anotaciones: Completar información de genes
destacados: funcionalidad, estructura, familia, …
Computación en microarrays
PROBLEMA DE
CLASIFICACIÓN
Dado un array con miles de genes, ¿cómo determinar a
que grupo pertenece?
Regresión
o Regresión logística
o Regresión de Cox
o LS-SVM
o…
Clasificación
o Redes Neuronales
o SVMs
o Clustering
o…
Medidas
o Test estadísticos
o Matriz de confusión
o Fold-change
o…
Dificultades a las que nos enfrentamos:
o Ruido
o Dimensionalidad (N<<F):
• N: número de individuos/pacientes (decenas o cientos).
• F: decenas de miles de valores de expresión de genes.
Caso real: Diagnóstico en cáncer
Microarray de genes
N
F
40
23 controles
Análisis de calidad
17 pacientes
33297
N
F
35
20 controles
15 pacientes
14570
Outliers
Test
T-test con ajuste FDR
P-Value
<0.01
FC
2
Genes
12 genes expresados
Análisis diferencial
Caso real: Pronóstico en cáncer
Microarray de proteínas
N
12 controles
27
F
Análisis de calidad
15 pacientes
509 proteínas
N
25
F
11 controles
14 pacientes
509 proteínas
Outliers
INDICE DE PRONÓSTICO
45
PI-5 proteinas
40
PI-3 proteinas
35
PI-4 proteinas
30
25
Logarítmica (PI-5
proteinas)
20
Método
Regresión de Cox
P-Value
<0.01
Pronóstico
Tiempo supervivencia
(larga vs corta duración)
Proteínas
5 proteínas destacadas
15
R² = 0,9257 R² = 0,9056
10
5
R² = 0,7269
0
0
5
10
15
20
25
30
35
40
45
Conclusiones en microarrays
o Relegado parcialmente por la secuenciación masiva.
o Uso clínico muy destacado todavía:
o Más barato que la secuenciación masiva.
o Menos potente que la secuenciación masiva.
o Más útil y sencillo para el análisis de expresión diferencial.
o Facilidades para el análisis, disponibles en R:
o Tecnologías: Affymetrix, Illumina, Agilent, etc.
o Librerías para el análisis diferencial: affy, lumi, limma, etc.
o Integración entre diferentes tecnologías o incluso con
secuenciación masiva
o Introducción de biología
Contenidos
o Introducción de bioinformática
o Principales retos en bioinformática. Big Data.
o Aplicaciones
o Análisis de microarrays
o Análisis de datos de secuenciación masiva (NGS)
o Alineamientos de secuencia
o Otras aplicaciones. Human Genome Project.
o Clustering en Bioinformática (si hay tiempo?)
APLICACIONES II:
SECUENCIACIÓN MASIVA
(NGS)
Introducción a la secuenciación masiva
o Objetivo:
o Determinar el orden de nucleótidos (G, A, T o C) en una cadena de
ADN.
o Extraer la máxima información posible. ¡INFORMACIÓN ≠ DATOS!
o Útil en áreas de biotecnología o diagnóstico clínico.
o Aplicaciones:
– RNA-seq: detección de splicing alternativo, expresión de mRNA
– Resecuenciación: anotación genómica, descubrimiento de
mutaciones.
– Secuenciación ‘de novo’: secuencias nuevas.
– ChIP-seq: interacciones proteína-ADN, factores de transcripción,...
– …
Tecnologías en NGS
Roche 454
Solexa/Illumina
SOliD
Longitud lecturas
700 bp
50-250 bp
50+25 bp
Lecturas por
ejecución
>1 millón
> 3.000 millones
>1.200 millones
Tiempo por
ejecución
10 horas
1 a 10 días
1 a 2 semanas
Tamaño fichero
1Gb
600 Gb/ejecución
200 Gb/ejecución
Precisión
99,9%
98%
99,9%
Coste por base
$10
$0.05 - $0.15
$0.13
Ventajas
Rápido
Lecturas largas
Coste aceptable
Más lecturas
Bajo coste
Más lecturas
Inconvenientes
Alto coste
Menos lecturas
Equipamiento caro
Menos preciso
Más lento
Demasiada información para ser
analizadas en un ordenador estándar
Procedimiento en NGS
Fragmentación
Procesamiento
Preparación
librería
Reads
“An Introduction to Next-Generation Sequencing Technology”
Illumina, 2012
Procesamiento de datos NGS
Análisis de calidad
Preprocesamiento
Anotación
Mapeo
Calidad y preprocesamiento en NGS
FastQC: Herramienta de control de calidad de datos de secuenciación
FastX: Filtrar por calidad o longitud de la lectura, cortar peores sectores..
Mapeo y anotación en NGS
MAPEO
BWA
Reads hasta 200bp.
Alineamiento con
huecos.
No usa calidad de
reads.
BOWTIE
Muy rápido para
reads cortos.
Alineamiento sin
huecos.
No usa calidad.
TOPHAT
Bowtie mejorado.
Alineamiento con
huecos.
ANOTACIÓN
Secuencias
Bases de datos
Gene Ontology
KEGG maps
InterPro
Enzyme
Expresión diferencial RNA-Seq
Controles
Reads
Pacientes
Se dice que un gen está expresado diferencialmente si se observa una
diferencia estadísticamente significativa en el número de reads de un
gen concreto entre dos condiciones diferentes.
Reads
Gen 1
Gen 2
Gen 1
Gen 2
Normalización: RPKM, Upper-quartile, TMM, …
Paquetes en R: edgeR, DESeq, baySeq, NOISeq …
Secuenciación vs Microarrays
Secuenciación
PROS
• Descubrimiento
nuevas regiones.
• Medida discreta.
• Calidad y versatilidad.
• Precio.
• Procesamiento y
CONTRAS análisis complejo.
• Falta de bancos de
tests bien definidos.
Microarrays
• Precio.
• Protocolos muy conocidos.
• Gran número de herramientas.
computacionales accesibles.
• Limitado a genoma conocido.
• Sensibilidad limitada.
• Errores por hibridación.
• Diseño específico para cada
problema.
Aplicaciones con NGS
o Introducción de biología
Contenidos
o Introducción de bioinformática
o Principales retos en bioinformática. Big Data.
o Aplicaciones
o Análisis de microarrays
o Análisis de datos de secuenciación masiva (NGS)
o Alineamientos de secuencia
o Otras aplicaciones. Human Genome Project.
o Clustering en Bioinformática (si hay tiempo?)
APLICACIONES III:
ALINEAMIENTO DE
SECUENCIAS
Alineamiento de secuencias
Objetivo: Comparar nuevas secuencias con otras ya anotadas para
inferir y predecir sus características biológicas
Bases de datos
Secuencias
COMPUTACÌÓN
Alineamiento
Nueva Secuencia
Características
Árboles filogenéticos
Estructuras
secundaria y 3D
Motifs o regiones
conservadas
Evaluación de alineamientos
Es necesaria una evaluación adecuada para conocer la
calidad del alineamiento:
1. Basada en matrices
C
S
T
P
A
G
N
D
E
Q
H
R
K
M
I
L
V
F
Y
W
12
0
-2
-3
-2
-3
-4
-5
-5
-5
-3
-4
-5
-5
-2
-6
-2
-4
0
-8
C
2
1
1
1
1
1
0
0
-1
-1
0
0
-2
-1
-3
-1
-3
-3
-2
S
3
0
1
0
0
0
0
-1
-1
-1
0
-1
0
-2
0
-3
-3
-5
T
6
1
-1
-1
-1
-1
0
0
0
-1
-2
-2
-3
-1
-5
-5
-6
P
2
1
0
0
0
0
-1
-2
-1
-1
-1
-2
0
-4
-3
A
2. Basada en referencias
BLOSUM
Point Accepted Mutation
(PAM)
Alineamiento
5
0
1
0
-1
-2
-3
-2
-3
-3
-4
-2
-5
-5
-7
G
2
2
1
1
2
0
1
-2
-2
-3
-2
-4
-2
-4
N
4
3
2
1
-1
0
-3
-2
-4
-2
-6
-4
-7
D
4
2
1
-1
0
-2
-2
-3
-2
-5
-4
-7
E
4
3
1
1
-1
-2
-2
-2
-5
-4
-5
Q
6
2
0
-2
-2
-2
-2
-2
0
-3
H
6
3
0
-2
-3
-2
-4
-4
2
R
5
0
-2
-3
-2
-5
-4
-3
K
6
2
4
2
0
-2
-4
M
5
2
4
1
-1
-5
I
6
2
2
-1
-2
L
4
-1
-2
-6
V
9
7
0
F
10
0 17
Y W
BAliBASE
OxBench
Referencia
Calidad / Score
Metodologías de alineamiento
Programación
dinámica
A
C
G
T
-
A
1
-1
-1
-1
-2
C
-1
1
-1
-1
-2
G
-1
-1
1
-1
-2
T
-1
-1
-1
1
-2
-
-2
-2
-2
-2
-2
AG-C
AAAC
Alineamientos progresivos
Métodos: ClustalW, Muscle, HMMT, Kalign
Alineamientos basados en consistencia
Métodos: TCoffee, ProbCons, MAFFT, MSACons
Problemas con alineamientos
Problema
Los métodos sólo utilizaban la
información propia de la secuencia
para alinear
Los alineamientos bajan su calidad
para secuencias alejadas
evolutivamente
Solución
Incrementar la información aportada
para realizar el alineamiento:
Estructura secundaria y 3D
Homologías
Regiones funcionales (dominios)
Métodos
3DCoffee
Promals
MO-SAStrE
Los alineamientos difieren según el
método de alineamiento aplicado
Integrar diversas metodologías y
elección de la más adecuada según las
características concretas del problema
AlexSys
PACAlCI
No existe un consenso claro en las
medidas de calidad para
alineamientos
Introducir también información
adicional en las medidas de calidad de
los alineamientos
STRIKE
CAO
LS-SVM score
Tiempo de computación muy alto
al incrementar la información
analizada
Supercomputación y paralelización
Problemas con alineamientos
Número de secuencias
4-150 secuencias
Longitud
50-2000 aminoácidos
PRECISIÓN DE ALINEAMIENTO
TIEMPO DE ALINEAMIENTO (sec.)
1,0
180
0,9
160
o RV11 incluye
secuencias menos
0,8
0,7
140
120
similares  PEOR CALIDAD
0,6
100
0,5
80
0,4
60
0,3
0,2
o Coste computacional
MUY ELEVADO
0,1
0,0
al incluir datos adicionales
PROGRESIVOS
BASADOS EN
CONSISTENCIA
40
20
0
CON DATOS
ADICIONALES
PROGRESIVOS
BASADOS EN
CONSISTENCIA
CON DATOS
ADICIONALES
Predicción de calidad (PACAlCI)
Alineamientos multiobjetivo (MO-SAStrE)
Aplicaciones de alineamientos
Predicción de estructuras a partir de alineamientos
Aplicaciones de alineamientos
Reconstrucción de árboles filogenéticos a partir de alineamientos
o Introducción de biología
Contenidos
o Introducción de bioinformática
o Principales retos en bioinformática. Big Data.
o Aplicaciones
o Análisis de microarrays
o Análisis de datos de secuenciación masiva (NGS)
o Alineamientos de secuencia
o Otras aplicaciones. Human Genome Project.
o Clustering en Bioinformática (si hay tiempo?)
OTRAS APLICACIONES
PROTEÓMICA
HUMAN GENOME
PROJECT
Proteómica
Introducción proteómica
Estructura primaria: Cadena de aminoácidos.
Aminoácidos
β-strands
3D structure
α-helix
Estructura secundaria: Enlaces de hidrógeno
producidos entre aminoácidos (hélices o
pliegues).
Estructura terciaria: Estructura 3D formada
por la estructura secundaria. Determina la
funcionalidad de la proteína.
Estructura cuaternaria: Composición de
varias cadenas o varias proteínas. La
interacción de proteínas está relacionada
con la funcionalidad.
Bioinformática: ¡MUCHO DÓNDE EXPLORAR!
Predicción de interacciones
Predicción de estructuras
proteína-proteína.
terciarias
Bioinformática clínica
Data mining en
Bioinformática
… Y MUCHO MÁS!
HUMAN GENOME PROJECT
http://exploreable.files.wordpress.com/2011/05/hgpsummary.jpg
SNP (Single Nucleotide Polymorphism)
Variación en la secuencia de ADN que
afecta a una sola base (adenina (A), timina
(T), citosina (C) o guanina (G))
SNP (Single Nucleotide Polymorphism)
 HapMap el catálogo de variaciones genéticas comunes (también
llamadas polimorfismos) que están presentes en la especie
humana. Su contenido describe en qué consisten dichas
variaciones, en qué sitios del genoma suceden y cómo se
distribuyen en las diferentes poblaciones.
Regiones
codificantes/no-codificantes, exones/intrones, genes, etc.
 El proyecto en sí no se encarga de usar esta información para
relacionar los polimorfismos con enfermedades
 Base de datos de SNPs del NCBI una vez completada una fase. El
libre acceso a la información hace que de ella puedan disponer
todas las instituciones investigadoras biomédicas a nivel mundial,
para hallar nuevos métodos de prevención, diagnóstico y
tratamiento de enfermedades.
 30 tríos (padres e hijo) de Nigeria.
 30 tríos de Estados Unidos de origen europeo.
 44 individuos sin relación genética de Japón (Tokyo).
 45 individuos sin parentesco de China (Peking)
 Italianos y residentes norteamericanos de origen
chino o sudamericano, alcanzando un número de 1184
personas
Los objetivos principales son encontrar:
 Genes asociados a condiciones patológicas del ser humano.
 Factores genéticos que contribuyen a la variación individual en la
respuesta a factores ambientales.
 Diferencias de susceptibilidad a infecciones.
 Diferentes perfiles de respuesta a fármacos.
 Personalización de los tratamientos médicos para mejorar la eficacia y
reducir sus efectos adversos.
 Empresas como 23andMe ofrecen análisis genéticos basados en el
análisis de SNPs: riesgo a padecer ciertas enfermedades, como ,
diabetes, trastorno bipolar.
o Introducción de biología
Contenidos
o Introducción de bioinformática
o Principales retos en bioinformática. Big Data.
o Aplicaciones
o Análisis de microarrays
o Análisis de datos de secuenciación masiva (NGS)
o Alineamientos de secuencia
o Otras aplicaciones. Human Genome Project.
o Clustering en Bioinformática (si hay tiempo?)
¿ Preguntas ?
Los humanos somos
99.9%
genéticamente
idénticos
ALGORITMOS DE
CLUSTERING EN
BIOINFORMÁTICA
Clustering
• El significado de cluster en problemas de clasificación
• Medidas de similaridad
• Algoritmos de clustering
– Clustering jerárquico
• Agglomerative clustering
• Divisive clustering
• Clustering no jerárquico (non-hierarchical):
• K-medias
• Fuzzy C-means
• SOM
Computación de altas prestaciones en
Bioinformatica
I.Rojas Curso
2006-2007
D / 95
Clustering
• Supongamos que queremos
transmitir en este ejemplo de dos
dimensiones, las coordenadas de
los puntos, con resolución muy
baja (2 bits)
Utilizar
algoritmos de
clustering
¿Qué es un cluster?
• Un conjunto de entidades que son similares (entidades
de diferentes cluster no son similares)
• Una agregación de puntos en el espacio de entrada de
forma que:
la distancia entre cualquier par de puntos en un cluster
es menor que la distancia entre un punto cualquiera en
un cluster y cualquier otro punto que no este en ese
mismo cluster
• Conexión de regiones en espacios multidimensionales,
que contienen una densidad relativamente alta de
puntos
–Separados por otras regiones con densidades
relativamente bajas de puntos
Generalmente una entidad se representa
mediante un vector de atributos (puede
considerarse un punto en un espacio ndimensional)
Distancia
• Distancia Euclidean
D / 98
Algoritmo de clustering K-Means
•
Donde ||es una medida de distancia entre un punto
y el centro del cluster
Ejemplo: tenemos 4 tipos de medicinas, y cada
objeto (medicina) tiene 2 atributos (feature)
Ejemplo: tenemos 4 tipos de medicinas, y 2 atributos
(feature)
Ejemplo: tenemos 4 tipos de medicinas, y 2 atributos (feature)
Ejemplo: tenemos 4 tipos de medicinas, y 2 atributos (feature)
Computación de altas prestaciones en Bioinformatica
I.Rojas Curso 2006-2007
Ejemplo: tenemos 4 tipos de medicinas, y 2 atributos (feature)
K-Means Clustering
D / 106
K-Means Clustering
• Máximo local?
D / 107
Aplicación de KNN para dato desconocido
Computación de altas prestaciones en
Bioinformatica
I.Rojas
D / 108
Variantes sobre el algoritmo básico
D / 109
Computación de altas prestaciones en
Bioinformatica
I.Rojas
D / 110
Aplicación de KNN en bioinformática
• Ejemplo en bioinformática
Aplicación de KNN en bioinformática
D / 112
Hierarchical Clustering. Aplicación
en Bioinformática
Single
Ave.
Complete
Ejemplo de cluster jerarquico
D / 114
Distancia entre objetos
Primer paso
Ejemplo de cluster jerarquico
D / 115
Ejemplo de cluster jerarquico
D / 116
Ejemplo en Matlab
D / 117
Ejemplo en Matlab
D / 118
¿ Preguntas ?
Los humanos somos
99.9%
genéticamente
idénticos
Descargar