Estado del Arte NGS Actualmente existen dos grandes vertientes en el ensamblado de secuencias: Ensamblado de novo: intenta reconstruir la secuencia de ADN completa a partir de las lecturas sin ningún tipo de conocimiento previo a cerca del genoma a ensamblar. Busca lecturas cuyo final coincida con el principio de otra de forma que se puedan unir para formar fragmentos mayores hasta completar el genoma. Ensamblado comparativo: basándose en un genoma secuenciado previamente y que suponemos sea similar al que se quiere ensamblar. El procedimiento básico tratará de colocar cada una de las lecturas en la posición adecuada utilizando el genoma de referencia como guía. Ensamblado de novo Los algoritmos de ensamblado de novo se pueden agrupar en 3 categorías: OverlapLayout-Consensus (OLC), grafos de Bruijn (DBG) y grafos greedy que usan OLC o DBG. Greedy Los algoritmos greedy buscan el mejor overlap entre cualesquiera dos secuencias y las unen formando una nueva secuencia que será incluida al espacio de búsqueda, este proceso se repetirá hasta que no existan candidatos susceptibles de unión. Ensambladores como SSAKE [1], SHARCGS [2], VCAKE [3] y Newbler [4] utilizan este método. La aplicación de este algoritmo requiere la elaboración de una tabla con el estudio del overlap de cada una de las secuancias contra todas las demás, éstos cálculos se puede realizar fácilmente de forma paralela debido a las bajas dependencias de datos existentes. En cada paso del algoritmo, al incorporar una nueva secuencia a la lista, es necesario calcular los overlaps de la nueva secuencia con todas las demás, tarea que también se puede realizar en paralelo. Overlap-Layout-Consensus Los algoritmos basados en OLC han sido ampliamente utilizados para ensamblar las lecturas obtenidas con Sanger, originalmente diseñado para pequeños genomas, algunas aplicaciones han sido optimizadas para ensamblar genomas más grandes como por ejemplo Celera Assembler [5], Arachne [6], CAP y PCAP [7]. El algoritmo OLC utiliza un grafo de overlap y se divide en 3 etapas: - En la primera etapa se realiza un estudio del overlap de todas contra todas las secuencias igual que en el método greedy que podrá ser paralelizado de la misma forma. - En la segunda etapa se genera un grafo de overlaps con una disposición aproximada de las secuencias ensambladas. Tomando la información del grafo se realizan alineamientos múltiples para precisar la disposición y determinar la secuencia consenso. Dado que en el grafo disponemos de una disposición aproximada de las secuencias que formarán cada contig, el proceso se puede realizar en paralelo ya que cada contig es independiente del resto. Newbler [8] y CABOG [9] también hacen uso de este método de ensamblaje. De Bruijn La mayor parte de las aplicaciones utilizadas en el ensamblaje de lecturas cortas como las obtenidas mediante las plataformas de Solexa y SOLiD utilizan este método. Se trata de la elaboración de un grafo de k-mers (trozos de secuencia de longitud fija) en el que se representan los overlaps presentes en todas las secuencias. Este método tiene la ventaja de que ya no es necesario realizar una comparación de todos contra todos, pero tiene unos altos costes de memoria para trabajar con el grafo completo. ABySS hace uso de MPI para distribuir los nodos del grafo a través de un cluster de ordenadores y aliviar de esta forma el alto consumo de memoria. Tras la elaboración inicial del grafo, que se realiza en tiempo lineal con respecto al número de secuencias. Posteriormente se aplican modificaciones y simplificaciones al grafo uniendo nodos, eliminando burbujas y seleccionando los mejores caminos hasta obtener un grafo irreducible del que se obtienen los contigs. Hay multitud de aplicaciones (Euler [10], Velvet [11], ABySS [12], AllPaths [13], SOAPdenovo [14]) que implementan este método, aunque no todas utilizan el grafo de la misma forma. Ensamblado comparativo Las aplicaciones que ensamblan por comparación primero generan alguna estructura de datos para facilitar las posteriores búsquedas. La generación de esta estructura suele ser bastante costosa y por ello sólo se realiza una vez por cada genoma de referencia que se desee utilizar. Dado que la preparación de la estructura de datos para la aceleración de la búsqueda sólo se realiza una vez, la mayoría de las veces no resulta interesante su paralelización. Sin embargo, el mapeo de cada una las secuencias sobre el genoma se realiza de forma totalmente independiente por lo que puede ser paralelizado sin dificultad. En este ámbito destaca Bowtie [15] que hace uso de la transformada de BurrowsWheeler (BWT) para generar una estructura de datos que le permite llegar a mapear hasta 25 millones de lecturas cortas (35 bp) por hora. Nombre SSAKE SHARCGS VCAKE Newbler Celera Assembler Arachne CAP Tipo de novo de novo de novo de novo de novo Método Greedy Greedy Greedy Greedy/OLC OLC Plataformas Solexa Solexa Solexa 454, Sanger Sanger Autor Warren, R. et al. Dohm et al. Jeck W. et al. 454/Roche Myers G. et al. de novo de novo OLC OLC 454, Solexa 454, Solexa PCAP de novo OLC 454, Solexa CABOG Euler Velvet de novo de novo de novo OLC DBG DBG ABySS AllPaths SOAPdenovo Bowtie de novo de novo de novo mapping DBG DBG DBG BWT Sanger, 454, Solexa Sanger, 454 Sanger, 454, Solexa, SOLiD Solexa, SOLiD Solexa Solexa 454, Solexa, SOLiD Batzoglou S. et al. Kolehmainen et al. Kolehmainen et al. Miller G. et al. Pevzner P. et al. Zerbino D. et al. Simpson J. et al. Butler J. et al. Li R. et al. Langmead B. et al. Referencias [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] R.L.Warren, R.A. Holt, SSAKE 3.0: Improved speed, accuracy and contiguity, Pacific Symposium on Biocomputing, 2008. J.C. Dohm, C. Lottaz, T. Borodina, H. Himmelbauer, SHARCGS, a fast and highly accurate short-read assembly algorithm for de novo genomic sequencing, Genome Res. 17 (2007) 1697–1706. W.R. Jeck, J.A. Reinhardt, D.A. Baltrus, M.T. Hickenbotham, V. Magrini, E.R. Mardis, J.L. Dangl, C.D. Jones, Extending assembly of short DNA sequences to handle error, Bioinformatics 23 (2007) 2942–2944. J.R. Miller, A.L. Delcher, S. Koren, E. Venter, B.P.Walenz, A. Brownley, J. Johnson, K. Li, C. Mobarry, G. Sutton, Aggressive assembly of pyrosequencing reads with mates, Bioinformatics 24 (2008) 2818–2824. E.W.Myers, G.G. Sutton, A.L. Delcher, I.M. Dew, D.P. Fasulo,M.J. Flanigan, S.A. Kravitz, C.M.Mobarry, K.H. Reinert, K.A. Remington, E.L. Anson, R.A. Bolanos, H.H. Chou, C.M. Jordan, A.L.Halpern, S. Lonardi, E.M. Beasley, R.C. Brandon, L. Chen, P.J.Dunn, Z. Lai, Y. Liang, D.R. Nusskern, M. Zhan, Q. Zhang, X. Zheng, G.M. Rubin, M.D. Adams, J.C. Venter, A whole-genome assembly of Drosophila, Science 287 (2000) 2196–2204. S. Batzoglou, D.B. Jaffe, K. Stanley, J. Butler, S. Gnerre, E. Mauceli, B. Berger, J.P. Mesirov, E.S. Lander, ARACHNE: a whole-genome shotgun assembler, Genome Res. 12 (2002) 177–189. X. Huang, S.P. Yang, Generating a genome assembly with PCAP. Curr Protoc Bioinformatics Chapter 11 (2005) Unit11 3. M.J. Chaisson, P.A. Pevzner, Short read fragment assembly of bacterial genomes, Genome Res. 18 (2008) 324–330. Miller JR, Delcher AL, Koren S, Venter E, Walenz BP, et al. (2008) Aggressive assembly of pyrosequencing reads with mates. Bioinformatics 24: 2818–2824. P.A. Pevzner, H. Tang, G. Tesler, De novo repeat classification and fragment assembly, Genome Res. 14 (2004) 1786–1796. D.R. Zerbino, E. Birney, Velvet: algorithms for de novo short read assembly using de Bruijn graphs, Genome Res. 18 (2008) 821–829. J.T. Simpson, K.Wong, S.D. Jackman, J.E. Schein, S.J. Jones, I. Birol, ABySS: A parallel assembler for short read sequence data, Genome Res. 19 (2009) 1117–1123. J. Butler, I. MacCallum, M. Kleber, I.A. Shlyakhter, M.K. Belmonte, E.S. Lander, C. Nusbaum, D.B. Jaffe, ALLPATHS: de novo assembly of wholegenome shotgun microreads, Genome Res. 18 (2008) 810–820. R. Li, H. Zhu, J. Ruan, W. Qian, X. Fang, Z. Shi, Y. Li, S. Li, G. Shan, K. Kristiansen, H. Yang, J.Wang, De novo assembly of human genomes withmassively parallel short read sequencing, Genome Res. 20 (2009) 265–272. Langmead, B., Trapnell, C., Pop, M. & Salzberg, S. L. Ultrafast and memoryefficient alignment of short DNA sequences to the human genome. Genome Biol. 10, R25 (2009)