Actualmente existen dos grandes vertientes en el ensamblado de

Anuncio
Estado del Arte NGS
Actualmente existen dos grandes vertientes en el ensamblado de secuencias:
Ensamblado de novo: intenta reconstruir la secuencia de ADN completa a partir
de las lecturas sin ningún tipo de conocimiento previo a cerca del genoma a
ensamblar. Busca lecturas cuyo final coincida con el principio de otra de forma
que se puedan unir para formar fragmentos mayores hasta completar el genoma.
Ensamblado comparativo: basándose en un genoma secuenciado previamente y
que suponemos sea similar al que se quiere ensamblar. El procedimiento básico
tratará de colocar cada una de las lecturas en la posición adecuada utilizando el
genoma de referencia como guía.
Ensamblado de novo
Los algoritmos de ensamblado de novo se pueden agrupar en 3 categorías: OverlapLayout-Consensus (OLC), grafos de Bruijn (DBG) y grafos greedy que usan OLC o
DBG.
Greedy
Los algoritmos greedy buscan el mejor overlap entre cualesquiera dos secuencias y las
unen formando una nueva secuencia que será incluida al espacio de búsqueda, este
proceso se repetirá hasta que no existan candidatos susceptibles de unión.
Ensambladores como SSAKE [1], SHARCGS [2], VCAKE [3] y Newbler [4] utilizan
este método.
La aplicación de este algoritmo requiere la elaboración de una tabla con el estudio del
overlap de cada una de las secuancias contra todas las demás, éstos cálculos se puede
realizar fácilmente de forma paralela debido a las bajas dependencias de datos
existentes.
En cada paso del algoritmo, al incorporar una nueva secuencia a la lista, es necesario
calcular los overlaps de la nueva secuencia con todas las demás, tarea que también se
puede realizar en paralelo.
Overlap-Layout-Consensus
Los algoritmos basados en OLC han sido ampliamente utilizados para ensamblar las
lecturas obtenidas con Sanger, originalmente diseñado para pequeños genomas, algunas
aplicaciones han sido optimizadas para ensamblar genomas más grandes como por
ejemplo Celera Assembler [5], Arachne [6], CAP y PCAP [7].
El algoritmo OLC utiliza un grafo de overlap y se divide en 3 etapas:
-
En la primera etapa se realiza un estudio del overlap de todas contra todas las
secuencias igual que en el método greedy que podrá ser paralelizado de la
misma forma.
-
En la segunda etapa se genera un grafo de overlaps con una disposición
aproximada de las secuencias ensambladas.
Tomando la información del grafo se realizan alineamientos múltiples para
precisar la disposición y determinar la secuencia consenso. Dado que en el grafo
disponemos de una disposición aproximada de las secuencias que formarán cada
contig, el proceso se puede realizar en paralelo ya que cada contig es
independiente del resto.
Newbler [8] y CABOG [9] también hacen uso de este método de ensamblaje.
De Bruijn
La mayor parte de las aplicaciones utilizadas en el ensamblaje de lecturas cortas como
las obtenidas mediante las plataformas de Solexa y SOLiD utilizan este método. Se trata
de la elaboración de un grafo de k-mers (trozos de secuencia de longitud fija) en el que
se representan los overlaps presentes en todas las secuencias.
Este método tiene la ventaja de que ya no es necesario realizar una comparación de
todos contra todos, pero tiene unos altos costes de memoria para trabajar con el grafo
completo. ABySS hace uso de MPI para distribuir los nodos del grafo a través de un
cluster de ordenadores y aliviar de esta forma el alto consumo de memoria.
Tras la elaboración inicial del grafo, que se realiza en tiempo lineal con respecto al
número de secuencias. Posteriormente se aplican modificaciones y simplificaciones al
grafo uniendo nodos, eliminando burbujas y seleccionando los mejores caminos hasta
obtener un grafo irreducible del que se obtienen los contigs.
Hay multitud de aplicaciones (Euler [10], Velvet [11], ABySS [12], AllPaths [13],
SOAPdenovo [14]) que implementan este método, aunque no todas utilizan el grafo de
la misma forma.
Ensamblado comparativo
Las aplicaciones que ensamblan por comparación primero generan alguna estructura de
datos para facilitar las posteriores búsquedas. La generación de esta estructura suele ser
bastante costosa y por ello sólo se realiza una vez por cada genoma de referencia que se
desee utilizar.
Dado que la preparación de la estructura de datos para la aceleración de la búsqueda
sólo se realiza una vez, la mayoría de las veces no resulta interesante su paralelización.
Sin embargo, el mapeo de cada una las secuencias sobre el genoma se realiza de forma
totalmente independiente por lo que puede ser paralelizado sin dificultad.
En este ámbito destaca Bowtie [15] que hace uso de la transformada de BurrowsWheeler (BWT) para generar una estructura de datos que le permite llegar a mapear
hasta 25 millones de lecturas cortas (35 bp) por hora.
Nombre
SSAKE
SHARCGS
VCAKE
Newbler
Celera
Assembler
Arachne
CAP
Tipo
de novo
de novo
de novo
de novo
de novo
Método
Greedy
Greedy
Greedy
Greedy/OLC
OLC
Plataformas
Solexa
Solexa
Solexa
454, Sanger
Sanger
Autor
Warren, R. et al.
Dohm et al.
Jeck W. et al.
454/Roche
Myers G. et al.
de novo
de novo
OLC
OLC
454, Solexa
454, Solexa
PCAP
de novo
OLC
454, Solexa
CABOG
Euler
Velvet
de novo
de novo
de novo
OLC
DBG
DBG
ABySS
AllPaths
SOAPdenovo
Bowtie
de novo
de novo
de novo
mapping
DBG
DBG
DBG
BWT
Sanger, 454, Solexa
Sanger, 454
Sanger, 454, Solexa,
SOLiD
Solexa, SOLiD
Solexa
Solexa
454, Solexa, SOLiD
Batzoglou S. et al.
Kolehmainen et
al.
Kolehmainen et
al.
Miller G. et al.
Pevzner P. et al.
Zerbino D. et al.
Simpson J. et al.
Butler J. et al.
Li R. et al.
Langmead B. et al.
Referencias
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
[15]
R.L.Warren, R.A. Holt, SSAKE 3.0: Improved speed, accuracy and contiguity,
Pacific Symposium on Biocomputing, 2008.
J.C. Dohm, C. Lottaz, T. Borodina, H. Himmelbauer, SHARCGS, a fast and
highly accurate short-read assembly algorithm for de novo genomic sequencing,
Genome Res. 17 (2007) 1697–1706.
W.R. Jeck, J.A. Reinhardt, D.A. Baltrus, M.T. Hickenbotham, V. Magrini, E.R.
Mardis, J.L. Dangl, C.D. Jones, Extending assembly of short DNA sequences to
handle error, Bioinformatics 23 (2007) 2942–2944.
J.R. Miller, A.L. Delcher, S. Koren, E. Venter, B.P.Walenz, A. Brownley, J.
Johnson, K. Li, C. Mobarry, G. Sutton, Aggressive assembly of pyrosequencing
reads with mates, Bioinformatics 24 (2008) 2818–2824.
E.W.Myers, G.G. Sutton, A.L. Delcher, I.M. Dew, D.P. Fasulo,M.J. Flanigan,
S.A. Kravitz, C.M.Mobarry, K.H. Reinert, K.A. Remington, E.L. Anson, R.A.
Bolanos, H.H. Chou, C.M. Jordan, A.L.Halpern, S. Lonardi, E.M. Beasley, R.C.
Brandon, L. Chen, P.J.Dunn, Z. Lai, Y. Liang, D.R. Nusskern, M. Zhan, Q.
Zhang, X. Zheng, G.M. Rubin, M.D. Adams, J.C. Venter, A whole-genome
assembly of Drosophila, Science 287 (2000) 2196–2204.
S. Batzoglou, D.B. Jaffe, K. Stanley, J. Butler, S. Gnerre, E. Mauceli, B. Berger,
J.P. Mesirov, E.S. Lander, ARACHNE: a whole-genome shotgun assembler,
Genome Res. 12 (2002) 177–189.
X. Huang, S.P. Yang, Generating a genome assembly with PCAP. Curr Protoc
Bioinformatics Chapter 11 (2005) Unit11 3.
M.J. Chaisson, P.A. Pevzner, Short read fragment assembly of bacterial
genomes, Genome Res. 18 (2008) 324–330.
Miller JR, Delcher AL, Koren S, Venter E, Walenz BP, et al. (2008) Aggressive
assembly of pyrosequencing reads with mates. Bioinformatics 24: 2818–2824.
P.A. Pevzner, H. Tang, G. Tesler, De novo repeat classification and fragment
assembly, Genome Res. 14 (2004) 1786–1796.
D.R. Zerbino, E. Birney, Velvet: algorithms for de novo short read assembly
using de Bruijn graphs, Genome Res. 18 (2008) 821–829.
J.T. Simpson, K.Wong, S.D. Jackman, J.E. Schein, S.J. Jones, I. Birol, ABySS:
A parallel assembler for short read sequence data, Genome Res. 19 (2009)
1117–1123.
J. Butler, I. MacCallum, M. Kleber, I.A. Shlyakhter, M.K. Belmonte, E.S.
Lander, C. Nusbaum, D.B. Jaffe, ALLPATHS: de novo assembly of wholegenome shotgun microreads, Genome Res. 18 (2008) 810–820.
R. Li, H. Zhu, J. Ruan, W. Qian, X. Fang, Z. Shi, Y. Li, S. Li, G. Shan, K.
Kristiansen, H. Yang, J.Wang, De novo assembly of human genomes
withmassively parallel short read sequencing, Genome Res. 20 (2009) 265–272.
Langmead, B., Trapnell, C., Pop, M. & Salzberg, S. L. Ultrafast and memoryefficient alignment of short DNA sequences to the human genome. Genome
Biol. 10, R25 (2009)
Descargar