Temas actuales: Next Generation Sequencing (NGS)

Anuncio
Temas actuales:
Next Generation
Sequencing (NGS)
Bioinformática
16-3-16
Elvira Mayordomo
Veremos
Historia
 Plataformas NGS
 Aplicaciones
 Retos bioinformáticos

Dogma central
Secuenciación de Sanger





El DNA se fragmenta
Clonación
Reacción de
secuenciación cíclica
Separación por
electroforesis
Lectura con etiquetas
fluorescentes




La secuenciación de Sanger ha sido el único
método de secuenciación de DNA durante 30
años, pero ...
... había gran necesidad de una mayor eficiencia y
de tecnologías de secuenciación más económicas
...
NGS tiene la capacidad de procesar en paralelo
millones de lecturas de secuencia en lugar de 96 a
la vez (1/6 del coste)
Objeciones: la fidelidad, la longitud de lectura, el
coste de infraestructura, el manejo de grandes
volúmenes de datos
NGS
NGS = Secuenciación amplificada de una
única secuencia
 Third generation sequencing =
secuenciación de una única molécula

Veremos
Historia
 Plataformas NGS
 Aplicaciones
 Retos bioinformáticos






Roche / 454 FLX: 2004
Illumina Solexa Genoma Analyzer: 2006
Applied Biosystems SOLIdTM System: 2007
Helicos HeliscopeTM : 2008
Pacific Biosciencies SMRT: 2010
Reducción de costes
Tres plataformas de secuenciación
principales
Roche 454
 Illumina Solexa
 Applied Biosystems SOLiD

Esquema general
1.
2.
Preparación biblioteca
2 opciones
1.
2.
3.
PCR por emulsión
PCR polony en una transparencia
3 opciones
1.
2.
3.
Amplificación de puentes (Illumina)
Amplificación por temperatura (SOLiD)
Pirosecuenciación (454)
1 Preparación de la biblioteca

Se añaden a los fragmentos



Adaptadores
Primers (principios para replicación)
Códigos de barras
1- Preparación biblioteca
Esquema general
1.
2.
Preparación biblioteca
2 opciones
1.
2.
3.
PCR por emulsión
PCR polony en una transparencia
3 opciones
1.
2.
3.
Amplificación de puentes (Illumina)
Amplificación por temperatura (SOLiD)
Pirosecuenciación (454)
2.1 PCR por emulsión
Se añaden microesferas recubiertas con
cebadores (beads)
 El fragmento de DNA se desnaturaliza en
2 hebras
 Una hebra se une a la microesfera y
empieza a replicarse
 Se consiguen de 30 a 60 copias

Esquema general
1.
2.
Preparación biblioteca
2 opciones
1.
2.
3.
PCR por emulsión
PCR polony en una transparencia
3 opciones
1.
2.
3.
Amplificación de puentes (Illumina)
Amplificación por temperatura (SOLiD)
Pirosecuenciación (454)
2.2 PCR polony en una transp.
Pegar el DNA a una superficie con
muchos primers
 Provocar la formación de puentes

Esquema general
1.
2.
Preparación biblioteca
2 opciones
1.
2.
3.
PCR por emulsión
PCR polony en una transparencia
3 opciones
1.
2.
3.
Amplificación de puentes (Illumina)
Amplificación por temperatura (SOLiD)
Pirosecuenciación (454)
3.1 Amplificación de puentes
Se construyen dobles puentes
 Se rompen los puentes (el resultado es
duplicación)
 Repetir el proceso construcción puentes –
duplicación - rotura

Esquema general
1.
2.
Preparación biblioteca
2 opciones
1.
2.
3.
PCR por emulsión
PCR polony en una transparencia
3 opciones
1.
2.
3.
Amplificación de puentes (Illumina)
Amplificación por temperatura (SOLiD)
Pirosecuenciación (454)
3.2 Amplificación por
temperatura

Replicación y desplazamiento (andar) con
distintos cambios de temperatura

Todo a través de los enzimas adecuados
Esquema general
1.
2.
Preparación biblioteca
2 opciones
1.
2.
3.
PCR por emulsión
PCR polony en una transparencia
3 opciones
1.
2.
3.
Amplificación de puentes (Illumina)
Amplificación por temperatura (SOLiD)
Pirosecuenciación (454)
3.3 Pirosecuenciación
Usa otra vez microesferas a las que se
unen varios fragmentos
 Usando primers se produce la replicación

Falta el último paso
Secuenciación: lectura de los trozos
originales y replicados
 Bioquímica algo más complicada

454
Maridis Annu. Rev. Genoma. Genet humano. 2008
SOLID
codificación por
color
Maridis Annu. Rev. Genoma. Genet humano. 2008
Comparación de los métodos
existentes
Datos reales - espacio de
nucleótidos
•
Solexa (Illumina)
@ SRR002051.1: 8: 1: 325: 773 Longitud = 33
AAAGAACATTAAAGCTATATTATAAGCAAAGAT
+ SRR002051.1: 8: 1: 325: 773 Longitud = 33
IIIIIIIIIIIIIIIIIIIIIIIII'II @ I $) @ SRR002051.2: 8: 1: 409: 432 Longitud = 33
AAGTTATGAAATTGTAATTCCAATATCGTAAGC
+ SRR002051.2: 8: 1: 409: 432 Longitud = 33
IIIIIIIIIIIIIIIIIIIIIIIIIIIIIII07
@ SRR002051.3: 8: 1: 488: 490 Longitud = 33
AATTTCTTACCATATTAGACAAGGCACTATCTT
+ SRR002051.3: 8: 1: 488: 490 Longitud = 33
IIIIIIIIIIIIIIIIIIIIIIIIIIIIIII + i
Datos reales - espacio de color
datos SOLID
> 1_24_47_F3
T1.1.23..0120230.320033300030030010022.00.0201.0201
> 1_24_52_F3
T2.3.21..2122321.213110332101132321002.11.0111.1222
> 1_24_836_F3
T0.2.22..2222222.010203032021102220200.01.2211.2211
> 1_24_1404_F3
T2.3.30..2013222.222103131323012313233.22.2220.0213
> 1_25_202_F3
T0.3213.111202312203021101111330201000313.121122211
> 1_25_296_F3
T0.1130.100123202213120023121112113212121.013301210

Espacio de color …
AA, CC, GG, TT : 0
 AC, CA, GT, TG : 1
 AG, CT, GA, TC : 2
 AT, CG, GC, TA : 3


T2.3.21..212232
Diferencia de salida de datos
entre las tres plataformas
espacio de nucleótidos vs. espacio de
color
 Longitud del lecturas cortas

454 (400 ~ 500 pb)> SOLID (70 pb) ~ Solexa (36 ~ 120
pb)
Veremos
Historia
 Plataformas NGS
 Aplicaciones
 Retos bioinformáticos

Aplicaciones
Ensamblaje de novo de genoma
 Resecuenciación de genoma
 RNA-Seq (la expresión génica, estructura
exón-intrón, los pequeños perfiles de
RNA, y las mutaciones)
 CHIP-Sec (interacción proteína-DNA)
 perfiles epigenéticos



Estado de la muestra degradado secuenciación mtDNA
genomas nucleares de restos antiguos: oso de las cavernas,
Mammuth, Neanderthal (106 bp)
Los problemas de contaminación: los humanos modernos y
coisolación del DNA bacteriano




pieza clave en la regulación
de la expresión génica
Recientemente, los estudios
en todo el genoma de
interacciones proteína-ADN
Analizar factor de
transcripción / estados de
histona en el genoma
humano
Mejorar nuestra comprensión
de la expresión génica en el
contexto de los estímulos
ambientales específicos



Caracterización de la biodiversidad que se encuentra en la Tierra
El creciente número de genomas secuenciados permite interpretar
secuencias parciales obtenidas por muestreo directo de nichos
ambientales.
Ejemplos: lecho marino, el suelo, los arrecifes de coral, microbioma
humano que puede variar según el estado de salud del individuo

variantes comunes aún no han
explicado completamente la
genética de enfermedades
complejas alelos raros también
contribuyen

También variantes estructurales,
inserciones y deleciones grandes y
pequeños

Acelerar la investigación biomédica
Veremos
Historia
 Plataformas NGS
 Aplicaciones
 Retos bioinformáticos

Cantidad enorme de datos

Operación tipica con SOLiD:
~ Archivo de imagen 2T
~ archivo de texto 120G para extracción
de conocimiento
~ 75 M fragmentos cortos por muestra
Métodos eficientes para el almacenamiento y
gestión de datos
Requiere cálculo paralelo de alto rendimiento
Tasas de error de secuenciación
considerables
análisis de imágenes de alta calidad para identificación de bases
Retos bioinformáticos




Métodos eficientes para almacenar, recuperar y
procesar gran cantidad de datos
Reducir los errores en el análisis de imágenes e
identificación de bases (“base calling”)
Métodos rápidos y precisos para alineación y
montaje del genoma
Nuevos algoritmos de extracción de
conocimiento
Descargar