Métodos de secuenciación de ácidos nucleicos. Gonzalo Greif . Unidad de Biología Molecular. Institut Pasteur Montevideo. 1. Un poco de historia 2. Secuenciación por método de Maxxam y Gilbert 3. Secuenciación por método de Sanger a. Avances en el método de Sanger (1986‐1996) b. Proyecto Genoma Humano 4. Algunos Métodos de secuenciado masivo a. Pirosecuenciación b. Secuenciado por hibridización (Illumina) c. Otro métodos d. Aplicaciones 1. Un poco de historia. Pasaron 15 años desde el descubrimiento de la estructura de doble hélice del ADN en 1953 hasta la determinación de la primera secuencia de ADN de forma experimental. Algunas de las razones que provocaron esta demora fueron: 1. Las propiedades químicas similares de las diferentes moléculas de ADN dificultaban su aislamiento. 2. El largo de las moléculas de ADN, mucho mayores que las cadenas polipeptídicas de las proteínas, hacían inabordable la secuenciación completa. 3. No se conocían ADNasas específicas. La secuenciación de proteínas se basaba en el uso de proteasas que cortaban en determinados aminoácidos. Sin embargo, algunas moléculas de ARN no ofrecían estas dificultades, en particular las moléculas de ARN de transferencia eran pequeñas y se podían purificar individualmente. Además se conocían ARNasas base‐específicas y se desarrollaron métodos análogos a los utilizados para proteínas. La primer secuencia de un ácido nucleico fue obtenida por Holley y sus colaboradores en 1965 y correspondía al ARN de transferencia de alanina de Escherichia coli. Un evento importante en el desarrollo de los métodos de secuenciación de ADN fue el descubrimiento de las enzimas de restricción de tipo II en 1970. Estás enzimas reconocen y cortan el ADN en secuencias específicas (en general entre 4 y 6 bases de largo). Estas enzimas proporcionaron un método general para fragmentar largas moléculas de ADN en pequeñas piezas para luego ser separadas por electroforesis en geles de agarosa. A mediados de la década del 70, Frederick Sanger publica el método “más‐menos” (“plus‐minus” method) que permitía la secuenciación de fragmentos de ADN utilizando la enzima ADN polimerasa de E. coli. A fines de esta misma década, Maxxam y Gilbert publican un método alternativo de secuenciación de ADN (método químico) y el mismo Frederick Sanger publica el método que luego se convertiría en el más utilizado durante los siguientes 30 años (método enzimático), como veremos en el punto 3. Méto odos de secuenciación dee ácidos nuclleicos. 2 Gonzalo o Greif 2 2. Secuenciación químicca. El método de se ecuenciación n química propuesto p po or Maxxam y Gilbert, fue f publicad do en febreero de 1977 en el Volumen 74 (nº 2) de la reevista PNAS, 10 meses antes a que Sanger S publicara el méto odo de secueenciación enzzimática quee veremos en n la siguientee sección. manera: “Desarrollamos u una nueva téécnica En eel artículo deescriben el procedimientto de esta m para secuenciar u una moléculla de ADN. EEl procedimiento determ mina la secue encia nucleo otídica de un n ADN marccado radioactivamente en e un extrem mo, cortándo olo con agen ntes químico os” en cada una de las b bases. El corrte parcial de cada basee, genera un set de fragm mentos marrcados desdee el extrem mo marcado o hasta la base dóndee fueron clivados. Utilizando gelees de poliaccrilamida y sseparando dichos fragmeentos por tamaño, es po osible determ minar la secu uencia de essta molécula. El método prop puesto estab ba limitado por la cap pacidad de resolución de los gelees de poliaccrilamida, y en este prim mer artículo muestran laa posibilidad d de secuenciar 100 basses de ADN. El método utiliizaba 4 reaccciones químiicas. Una reaacción quíímica produ uce cortes específicame e ente en Cito osinas (18 8M hidracinaa, 2M NaCl. Una reaccción con 50 0 mM dim metil‐sulfato corta en Adeeninas y Guaaninas; si lueego de este tratamientto químico se calienta la reacción a 9 90ºC a pH neutro, enttonces se obtiene o un patrón p de bandas inteenso para lass guaninas y tenues paraa las adeninaas. Por el contrario, el e tratamien nto posterior a un pH ácido pro ovoca un pattrón inverso (bandas inteensas de adeeninas y tenues t de guaninas). El E último tratamiento (18M hid dracina) prod duce el clivajje tanto en ccitosinas com mo en tim minas. En la Figura 1, se muestra e el patrón de e bandas obttenido durrante la secu uenciación de d un fragmento de 64 bases (mo ostrado en eel artículo de 1977). Figu ura 1. Se muestran m los cuatro carrriles del gel de poliacrilamida con c cada unaa de las reaccciones de cliivaje. Interpretación: La secuencia se lee de abajo hacia arrriba. Una banda inteensa en la primera p colum mna y una banda ten nue en la segu unda correspo onden a una A Adenina, mientras quee la situación inversa correesponde a un na Guanina en n esa possición. Una b banda que ap parece en la tercera y cu uarta columna en la misma posición indica una C. y una banda n la última columna corresp ponde a una TT. sólo presente en odos de secuenciación dee ácidos nuclleicos. 3 Méto Gonzalo o Greif 33. Secuenciación enzimática. En dicciembre de 1 1977 se publica el trabajo de Sanger,, Nicklen y Co oulson que p propone un n nuevo méto odo para detterminar la ssecuencias d de bases en una molécula de ADN. Sanger y Co oulson habíaan ya publiccado dos años antes, un n método de d secuenciaación (métod do más‐men nos) a partirr del cual haabían logrado o obtener do os secuenciaas de 70 basees del bacteriófago φX174. La dificu ultad en la interpretació ón de los resultados y aalgunos erro ores que pod dían ocurrir en la secueencia hiciero on que Sangger y sus co olaboradores siguieran trabajando para mejoraar los méto odos de secuenciación dee ácidos nucleicos. Así, eel método propuesto p por Sanger en e 1977 se convirtió c en el método más utilizad do de secueenciación dee ácidos nuccleicos hastaa la actualid dad. La incorporación de mejoras en e los aspecctos tecnológicos y meto odológicos (aautomatización, método os de detecciión, electrofforesis capilaar, etc.) perrmitieron, como hito fu undamental,, la secuencciación del genoma humano (finalizado en el año 2003) por este méétodo. En 19 980 Fredericck Sanger ob btuvo su seggundo prem mio Nobel en Química por la invención de este méétodo (ver re ecuadro). Reecién en 2005 5, con la aparición de lo os secuenciadores 454 se e dio un cam mbio en la te ecnología de secuenciación de ácido os nucleicos. Aun así, muchas de las n nuevas tecno ologías de seecuenciación masiva utilizan el principio de nucleótidos term minadores, descrito d por Sanger, com mo veremos más adelan nte en los seecuenciadorees de Illumin na. Fred derick Sange er (1918‐) Frederick Sanger nació en n Rendcombee, Inglaterra en e 1918. De padre médico, se esperaba quee Fred siguierra sus pasos, ssin embargo een la Universidad de Cambridge decidió realiizar una carrera en Cienccias. Continuó ó su formación en Cambridge realizando un n Ph.D. con A Albert Neuberger, en metab bolismo de am minoácidos. LLuego continuó trab bajando con C C. Chibnall ideentificando loss aminoácidoss de la insulin na, en el transcurso o de la investigación, Sanger imaginó ó las formas en las cuálees se ordenan los aaminoácidos e en la proteínaa. Fuee la primera p persona en ob btener la secuencia de amin noácidos de u una proteína ((la insulina). P Probó que las proteínass eran molécu ulas ordenadaas y, por analogía, los gen nes y el ADN que codifica estas protteínas deberían tener un orden o secu uencia. Por esste trabajo obtuvo su prim mer premio N Nobel (195 58). En 1 1962, Sanger ccomienza a trrabajar en el laboratorio dee Biología Molecular, también en Cambrridge, dón nde Francis Crick, John Keendrew y otro os trabajaban n con problem mas relacionaados con el ADN. A Reso olver como obtener la secu uencia de ADN era la exten nsión natural de su trabajo o anterior. Fuee así, com mo estudiando o primero la forma f de secuenciar ARN (una moléculla más pequeeña) logró obttener una técnica apliccable luego all ADN (el méttodo de secuenciación porr dideoxinucleeótidos). En 1980, 1 uvo por ello su segundo premio Nobel también en e Química compartido c co on Walter Giilbert obtu (méétodo de secue enciación química) y Paul B Berg (ADN reccombinante). En 1 1992, el Wellccome Trust y el Medical Research Coun ncil establecieeron el Sangerr Institute, un no de los ccentros de seccuenciación d dónde se llevó ó adelante el p proyecto Geno oma Humano. En 1 1985 se retiró y se dedica p principalmente e al cuidado d de su jardín. Fuen ntes:http://www..dnaftb.org/23/bio.html/ http://w www.sanger.ac.ukk/about/people/biographies/fsan nger.html Lectu uras recomendad das: Nobel Lecture (Frederick Sanger, 1980). Méto odos de secuenciación dee ácidos nuclleicos. 4 Gonzalo o Greif mático de Saanger, utilizaa una ADN polimerasa p e e inhibidores que finalizzan la El méétodo enzim caden na de ADN que está siendo sintetizada en luggares especííficos, particcularmente utiliza dideo oxinucleótido os (es decir n nucleótidos que en su caarbono 3´ no o contienen el grupo hid droxilo –Figu ura 2‐ ). La incorporación de una basee con estas ccaracterísticaas en un mollécula nacien nte de ADN impide que e una nuevaa base pueda incorporasse y la sínte esis de ADN N es interrum mpida (Figura 3). Figura 22. Estructura de un nucleótido (ej. dATP) y un di‐deoxinucleó ótido (ddATP). Figura 3. Esquema de m mecanismo de ssíntesis de ADN N (1), y (2) impo osibilidad de continuar elongacción de cadenaa nacientee luego de la inccorporación dee un didoxinucleeótido. En el artículo ejeemplifican, de d forma claara, que sucede cuándo utilizan di‐d deoxiTimina en la reaccción: “Debido o a que el ddT no contie ene grupo 3’ hidroxilo, la cadena no o puede conttinuar ocurre espeecíficamentee en las possiciones dónde dT exten ndiéndose, entonces e la terminación t debería haberse incorporado. Si un cebad dor y un mollde son incub bados con ADN polimeraasa en preseencia de unaa mezcla dee ddTTP y dTTP, así co omo los otrros tres deo oxiribonucleo osidos trifossfato (uno de ellos marcado radiiactivamentee con 32p),, se obtiene un mezccla de Méto odos de secuenciación dee ácidos nuclleicos. 5 Gonzalo o Greif mentos todoss con el mism mo extremo 5´ y con residuos ddT en n el extremo o 3´. Si esta m mezcla fragm es fraaccionada po or electroforresis desnatu uralizante en n geles de accrilamida el patrón de bandas muesstra la distrib bución de los residuos TTimina en el ADN sintetizzado. Utilizan ndo terminaadores para cada uno de d los cuatrro nucleótidos en reaccciones indep pendientes, y corriendo cada mezccla en paralelo en el gel, se obtiene u un patrón dee bandas a p partir del cuaal se puede leer la secueencia de basees” (Figura 4 4 y 5). Figura 4. Esta imagen n se encuentra en la Nobel Leecture de F. Saanger de 1980. En la misma se s ejemplifica el e pio del método de dideoxinucleeótidos terminadores. princip Figura 5. Esta imagen co orresponde a laa segunda figura del artículo de Sanger (PNASS, 1977). Se trata de un autorad diografía dóndee se muestra laa migración dee las cuatro differentes mezclas (una para cad da dideoxinucle eótido terminaador utilizado).. A la derech ha de la imagen se leen las secueencias de ADN (en este caso u un fragmento del bacteriófago o φX174. Las lecturas se realizan de abajo (fraggmentos más pequeños) haciaa arriba (más ggrandes), de acuerd do a la aparició ón de las bandas. La resolución n del gel, permiite separar bandas de 1 nucleótid do de diferenciaa en tamaño. Las seecuencias ob btenidas con este método alcanzaban n hasta 200 bases de larggo. odos de secuenciación dee ácidos nuclleicos. 6 Méto Gonzalo o Greif n el método de Sanger (1 1977‐1996). aa. Avances yy mejoras en minadores flu uorescentes ((dye‐terminaator sequenccing). I.. Secuenciaciión con term 986 Hood y y colaborado ores, en colaaboración con Applied Biosystems (ABI) publiccan el En 19 primeer reporte de e automatizaación de la ssecuenciación de ADN, q que establece e la secuenciación con terminadoress fluorescenttes como variante del m método de Saanger. Está vaariante utilizza una molécula fluoresccente diferente unida a cada dideoxinucleótido, y permite reealizar la reaacción n único tubo o (Figura ). Assimismo, la ssecuencia pu uede ser leíd da a través de un computtador. en un Las ssecuencias obtenidas, o co on esta nueeva variante eran de un n largo de entre e 500 y 1000 nucleeótidos. a. b. c. Figura 6. En estaa figura se ejem mplifica como en lugar de 4 carriles (uno paara cada base) (a), se corren todas las reacciones en un único ú carril de el gel (cada colo or representa u una base) (b) y se desarrollan aalgoritmos paara convertir essas señales en ““electroferograamas” que reprresentan la se ecuencia de AD DN (c). La flech ha a la izquierd da indica la dirrección de lectura 5’‐3’. III. Secuenciacción automáttica. La em mpresa Appllied Biosysteems, fue la pionera p y líd der en instru umentos de secuenciación. El primeer secuenciaador automáático (ABI 37 70A) aparecce en 1987, y con él se logra conocer la secueencia del primer gen porr Craig Venteer y sus coleegas del National Institutte of Health (NIH, USA). La aparición de los secuenciadores automático os permitió laa instalación n de facilidad des de on 6 secuencciadores ABII3700. secueenciación. El primero dee ellos fue el NIH, dóndee se instalaro En 19 992, Venter funda el Institute for Genomic G Ressearch (TIGR R) y expandee la capacidad de secueenciación con 30 equiposs. da, se demueestra el poder de la secuenciación aautomática ccon el Con eesta plataforrma instalad desarrrollo de la eestrategia EST (expressed d sequence ttag) para el d descubrimien nto de geness. Esta estrategia consiste en hacer copias de ADN A a partirr del ARN mensajero m ceelular (ADNcc=ADN E 1991, con n esta estraategia, copiaa) y clonarlaas de forma aleatoria para luego seecuenciar. En Venteer reporta 337 genes hu umanos no conocidos. La base de daatos de EST contiene hoy más de 43 3 millones dee secuencias correspondientes a 1300 organismo os diferentes. Métodos de secuenciación de ácidos nucleicos. 7 Gonzalo Greif b. Proyecto Genoma humano: La secuenciación del genoma humano se volvió un objetivo realizable una vez establecidas las metodologías de secuenciación de ADN. La discusión formal comenzó en 1985 en Estados Unidos. En 1990, se presentó un proyecto de 5 años en el congreso de Estados Unidos (Human Genome Project). Se estimaba que el proyecto duraría 15 años y el costo rondaría los 3 mil millones de dólares. El proyecto establecía el objetivo de mapear y secuenciar diferentes organismos modelo además de humano. Entre ellos E. coli, S. cerevisiae, C. elegans, D. melanogaster y el ratón (Mus domesticus). El proyecto se convirtió en un esfuerzo de colaboración internacional entre diversos centros de secuenciación en Estados Unidos, Europa y Japón. Cada centro se focalizó en regiones particulares del genoma, que permitieran obtener un mapa. En 1994 se publicó un mapa detallado del genoma humano que incluía el mapeo de 5840 loci con una media de espaciado de 0,7 cM (1 centiMorgan = 106 bases). En 1998, el proyecto público, compitiendo ahora con la empresa Celera (propiedad de Craig Venter) adopta los secuenciadores capilares de Applied Biosystems (ABI3700). En 1999 el proyecto Genoma humano había secuenciado más de mil millones de bases y se publicó la secuencia completa de un cromosoma humano (el cromosoma 22). Para el mismo tiempo, Celera, comenzó a Cobertura (Coverage): secuenciar el genoma humano con la estrategia de “whole genome shotgun sequencing” La cobertura es el número promedio de desarrollada por C. Venter (explicada más secuencias que representan a un adelante). La secuenciación comenzó en determinado nucleótido en la secuencia setiembre de 1999 y en junio de 2000 se realizó un ensamblaje inicial de las secuencias total reconstruida. Puede ser calculada a obtenidas. Los datos de Celera permitieron el partir del largo original del genoma (G), el ensamblaje del genoma humano con una número de secuencias (N) y el largo cobertura de 5X (ver Cobertura). Además se promedio de las secuencias (L) como: aumentó la cobertura 3X con los datos públicos. Cobertura = N x L/G El 25 de junio de 2000, en la Casa Blanca, el presidente Clinton junto a Francis Collins Ejemplo. Un genoma hipotético de 2000 (responsable del proyecto público, NIH) y Craig bases, secuenciado con 24 secuencias de Venter, anunciaron públicamente la versión 350 bases de promedio de largo tiene borrador del genoma humano realizada tanto una cobertura de: por el esfuerzo público como privado (Figura 7). 24 x (350/2000) = 4,2 X. En febrero de 2001, se publicaron los borradores del consorcio público y del privado en Science y Este valor significa que el genoma fue Nature (Figura 8). Finalmente en el año 2004 se secuenciado 4,2 veces. Cuánto mayor publicó la versión final del genoma humano. cobertura, menor posibilidades de errores en la secuencia final. Méto odos de secuenciación dee ácidos nuclleicos. 8 Gonzalo o Greif Figura 7. Fo oto de lanzam miento de borrrador del geno oma humano en Washington n (Clinton, Ven nter, Collins). Figura 8. Tapas de revisttas Nature y S Science de 200 01 con los borrad dores del geno oma humano. Whole genome Sho otgun sequen ncing y Craig V Venter: El método de Whole Genome Sh hotgun consisste en la fragm mentación al aazar del ADN de todo el geenoma, nciar ambas hebras h (el passo de clonado o luego fue eliminado). e Una vez clonarlo en plásmiidos y secuen nidas, las secu uencias se alin nean y ensam mblan para forrmar contigs b basándose en n las secuenciaas que obten solapaan (Figura 9). El método fue utilizado po or Sanger en 1 1982 para enssamblar el faggo lambda (48 8,5 kb), sin em mbargo Venter fue el prim mero en utilizarlo para seecuenciar un genoma de mayor tamañ ño (H. influeenzae, 1,8Mb) y proponerlo o como estrateegia para secu uenciar el genoma humano o. ra 9. Esquema a de secuenciaación con la eestrategia de SShotgun. Secu uenciación de fragmentos erados al azarr y ensamblaje de la secuen ncia utilizando o procesamien nto informáticco. En 1995, Venter y ssu grupo decid den utilizar nu uevas herram mientas compu utacionales assí como los méétodos mejorrados de seccuenciación para realizarr la primer secuencia de e un organissmo de vidaa libre (Haem mophilus influ uenzae). En TIGR analizar más m de 50 geenomas micro obianos. Ventter y alguno de d sus colabo oradores, com menzaron entonces la seccuenciación de d genomas de d mayor tam maño (mosca, rata, ratón). En 20006 se fundó el J. Craig Venter Institutee (JCVI) por laa unión de varias organizacciones (TIGR, TCAG, JCVSFF, etc.). Se trata de una orgganización lídeer en genómica a nivel mu undial con máás de 400 cien ntíficos trabajjando. Métodos de secuenciación de ácidos nucleicos. 9 Gonzalo Greif 4. Algunos Métodos de secuenciado masivo Pasaron cerca de 30 años desde la publicación del método de Sanger, hasta que apareciera una nueva tecnología de secuenciación de ácidos nucleicos que no fuera el método de dideoxinucleotidos terminadores. La principal característica de estas nuevas metodologías es la posibilidad de secuenciado masivo de forma paralela, esto significa que el número de secuencias obtenidas durante una corrida supera muchas veces el máximo de 96 secuencias por corrida que se obtienen con los secuenciadores capilares de última generación que utilizan el método de secuenciado de Sanger. A partir del desarrollo del método de pirosecuenciación (primer método de secuenciado masivo utilizado, 2005), surgen nuevas alternativas de secuenciación que utilizan el mismo principio de dideoxinucleotidos terminadores en sus protocolos, aunque con mejoras innovadoras. Estos nuevos métodos de secuenciado masivo no ofrecen lecturas tan largas como el método clásico de Sanger, aunque en pocos años se ha mejorado sustancialmente el largo de las secuencias obtenidas y en algunos casos alcanzan longitudes comparables a Sanger. a. Pirosecuenciación: El primer método de secuenciado masivo o “next generation sequencing” (NGS), fue publicado en 2005 en Nature, y llevado al mercado por la empresa 454 (luego adquirida por Roche). El resumen de este artículo explica: “Describimos un método escalable, un sistema de secuenciación altamente paralelizable con un rendimiento significativamente mayor que los instrumentos de electroforesis capilar. El aparato permite secuenciar 25 millones de bases, con 99% de precisión en una corrida de 4 horas” (este rendimiento es 100 veces superior a la cantidad de bases secuenciadas en ese tiempo en un secuenciador de 96 capilares). En el primer artículo, publican la secuenciación de novo del genoma de Mycoplasma genitalium alcanzando cubrir el 96% del genoma y con una precisión de 99,96% en una corrida. El método consiste en 4 pasos: 1. Fragmentación del ADN (o ARN). 2. Ligación de oligonucleótidos (adaptadores) en cada uno de los extremos. 3. Amplificación clonal (mediante PCR en emulsión). 4. Secuenciado por síntesis usando un protocolo de pirosecuenciación optimizado en un soporte sólido y en escala de picolitros. Más en detalle, luego de fragmentar el ADN, se ligan oligonucléotidos adaptadores a cada extremo del ADN. Estas secuencias adaptadoras comunes a todos los fragmentos serán utilizadas, tanto para ligar cada fragmento a las esferas, como secuencias donde se unirán los cebadores de la PCR y además presenta la secuencia donde se unirá el cebador de secuenciación. Una vez ligados los adaptadores, se ligan a las beads (esferas que contienen el complementario a uno de los adaptadores en su superficie), por un método de dilución límite, de modo de obtener un único fragmento unido a una esfera. Se busca, entonces, obtener en cada bead un único fragmento de ADN, el mismo es amplificado mediante PCR en emulsión. Méto odos de secuenciación dee ácidos nuclleicos. 10 Gonzalo o Greif PCR een emulsión (emPCR): La PCR en emu ulsión permite realizar en un úniico tubos miles m de reacciones dee PCR indep pendientes. U Una vez obteenida la libreería de fragm mentos que sserán secuen nciados, se u unen a esferas que conttienen uno de los adap ptadores preesentes en los l fragmentos, de mod do de ner un único fragmento o por esferaa. Luego la población de d esferas (cada una co on un obten fragm mento de AD DN) es emulssionada en u una mezcla d de agua y acceite, de modo tal de ob btener micellas de aceite e independientes –cadaa uno de ello os con una única esferaa y con todo os los reacttivos necesaarios para llevar adelante la reaccción‐. El re esultado finaal, son milees de micro oreactores dónde se llevaa adelante laa reacción dee PCR de form ma independ diente (Figurra 10). Figuraa 10. Esquema de la PCR en n emulsión. (1 1) Se liga a caada bead un fragmento f med diante las secu uencias complementarias a uno u de los adaaptadores que se encuentran en la superficie de las mism mas. (2) Se realiza una emulsión (agua‐aceitte) de tal form ma que en cadaa gota de aceitte encontremo os una única beead unida a un n único framgeento y encontrramos además todos los reacctivos necesario os para llevar adelante a la PCR R (dNTPs, Polim merasa, cofactores). (3) Luego o se realiza unaa PCR convencional, pero en ccada tubo de reeacción se realiizan simultáneaamente miles de reacciones en paralelo. (4 4) Luego de n ciclos de reaccción, se obtiene una amplificcación clonal de d cada fragmeento unido a un na bead. o de finalizada esta reeacción, se rompe la emulsión e y se recuperaan las beadss que Luego preseentaron amp plificación. Las L mismas son deposittadas en la placa de seecuenciación. Esta placaa (picoTiter p plate), tiene 1,6 milloness de pocillos, y en cada u uno de ellos sólo puede eentrar un beead (Figura 1 11). En cada pocillo suced derá una reaacción de seccuencia, por lo cual en la placa podemos decir que tenem mos 1,6 millones de secuenciado s c o 16000 1 res de 1 capilar, de 96 capilarees aproximad damente. secueenciadores d Méto odos de secuenciación dee ácidos nuclleicos. 11 Gonzalo o Greif Figuraa 11. Pico‐Titre plate. Arriba: esquema de dep posición de esfeeras en los pociillos. Abajo: miccrografía electrrónica de los pocillos y ejem mplo de carga dee una placa. Reaccción de secuenciación: ótidos Este método no utiliza nucleó n este caso, se realizan ciclos terminadores. En dónde se ofrece en cada poccillo una base por la vez, secuenciaalmente. Durante incorporación dee una base en una molécula DN se liberaa pirofosfatto, el nacieente de AD pirofo osfato liberrado se co onvierte en n luz mediante dos procesos p enzzimáticos. La L luz pocillo, dónd de se incorpo oró la emitida en cada p or la base ofrecida, es monittoreada po ométrica de la liberación del deteccción lumino pirofo osfato durante la reaccción de sín ntesis (Figura ). Una cám mara CCD colecta los dattos de da ciclo y en cada posició ón. cada base, en cad Figuraa 12. Esquema de reacción de pirosecuenciacción omopolimero os (tractos de d secuenciaa con el missmo nucleóttido), el larggo del En ell caso de ho homo opolimero ess determinado a partir d de la cantidaad de pirofossfato liberad do (proporcio onal a la can ntidad de bases incorporrada). Ejemplo: o se ofrece la base A, en todos los pocillos. En aquellos qu ue se incorpo ora se En el primer ciclo ón de luz (deependiendo la cantidad d de A incorpo orada, será la intensidad d de la obserrva la emisió luz em mitida). Lueggo de obtenidas las imágenes, se reemueve la baase, y se ofreece la base TT y se obserrvan los pocillos que inco orporan T. Se vuelve a eliminar la baase no incorp porada y se o ofrece la base G, y luego o la C para tterminar el p primer ciclo. Luego de 100 ciclos finaliza la corriida. El Métodos de secuenciación de ácidos nucleicos. 12 Gonzalo Greif tamaño promedio de cada lectura es de 400 bases y en una corrida se obtienen cerca de 1 millón de secuencias (es decir 400 millones de bases/10 horas de corrida). b. Illumina: 1 La segunda tecnología de secuenciación masiva que salió al mercado (2006) fue la de Solexa (luego adquirida por Illumina). En esta tecnología, se utilizan nucleótidos terminadores marcados con moléculas fluorescentes al igual que en la Secuenciación de Sanger. Además de la paralelización masiva (es decir la capacidad de realizar millones de secuencias en cada corrida), la diferencia con el método convencional es la posibilidad de eliminar la fluorescencia una vez obtenida la imagen, y desbloquear carbono 3’ de modo que pueda aceptar una nueva base para continuar la reacción de secuenciación, haciendo que la incorporación de un nucleótido terminador sea reversible. En este caso, las longitudes obtenidas son menores que los secuenciadores 454 (en la actualidad hasta 150 bases), sin embargo la capacidad de realizar secuencias en paralelo es mucho mayor que en 454 (hasta 250 millones de secuencias). Como resultado es posible obtener hasta 6 x 1012 en una sola corrida. Para dimensionar este número, el genoma humano tiene aproximadamente 3 x 109 bases de largo. Al igual que el método de secuenciación de Roche, los primeros pasos consisten en la fragmentación del ADN y ligación de adaptadores. Luego hay un paso de amplificación (en este caso, la amplificación es en una superficie sólida: “flow cell”, dónde también se dará luego la reacción de secuenciación). Amplificación y Reacción de secuenciación: En el primer paso, la librería se deposita en la flow cell por complementariedad con los adaptadores (1). Luego se produce la amplificación en puente (2 y 3) en sucesivos ciclos (4,5,6,7,8) hasta obtener un cluster con la amplificación clonal del fragmento inicial (8) (Figura 13). 8 2 3 4 5 6 7 Figura 13. Amplificación en puente. Ver descripción en el texto. En la reacción de secuenciación, se bloquea uno de los adaptadores (1), y se comienza la reacción de secuenciación desde el otro extremo (2) mediante un cebador específico (Figura 14). 1 2 Figura 14. Reacción de secuenciación de Illumina. Ver descripción en el texto. Métodos de secuenciación de ácidos nucleicos. 13 Gonzalo Greif Durante la reacción, a diferencia de la pirosecuenciación, se ofrecen los cuatro nucleótidos terminadores marcados cada uno con un fluorocromo diferente (1), al igual que el método de Sanger. Luego de un lavado (2), se obtienen las imágenes y se obtiene la primera base de cada cluster (3). Luego, se elimina el fluorocromo y se desbloquea el Carbono 3, permitiendo que un nuevo nucleótido pueda extender la cadena de ADN naciente (4). Otra vez los cuatro nucleótidos terminadores marcados son ofrecidos a los clusters, comenzando un nuevo ciclo (Figura 15). 1 2 3 4 Figura 15. Reacción de secuenciación de Illumina. Primer ciclo de secuenciación (1), incorporación de dideoxinucleótidos marcados (2), adquisición de imagen (3), y lavado, desbloqueo, y eliminación de marcado (4). Los últimos modelos de Illumina permiten secuenciar en paralelo más de 3000 millones de clusters con largos desde 35 a 150 bases (www.illumina.com). c. Otros métodos: Desde 2005 hasta la fecha, otras tecnologías de secuenciación masiva han sido desarrolladas y otras se encuentran en desarrollo y constituyen una nueva generación de secuenciadores (Tabla 1). Es imposible en este capítulo el desarrollo en profundidad de cada una de ellas, por lo tanto en la siguiente tabla se muestran otras tecnologías y las fuentes dónde obtener mayor información de cada una de ellas. Algunas de estas tecnologías (SMRT, Helicos) proponen la secuenciación a partir de una única molécula de ADN en tiempo real. Una de ellas (Pacific Biosciences) en teoría no tiene límite en cuánto al largo de las secuencias generadas y eventualmente podría secuenciar cromosomas enteros en una única lectura (www.pacificbiosciences.com). Otras, como Oxford nanopore e Ion Torrent (recientemente lanzada al mercado) ofrecen novedosas soluciones y no requieren marcación fluorescente ni cámaras registradoras de imágenes. En particular, Ion Torrent (ver recuadro J. Rothberg), se basa en el registro de los cambios de pH producidos durante la incorporación de bases durante la síntesis de ADN. Se trata de micropHímetros que reducen notablemente los costos de secuenciación (www.iontorrent.com) y prometen ser herramientas útiles en el área de diagnóstico. Méto odos de secuenciación dee ácidos nuclleicos. 14 Gonzalo o Greif Plataforma SOLiD (Applieed Biosystem m) Genetic G Anaalysis Systeem (H Helicos) SMRT (Pacificc Biosciencess) Io on Torrent Oxford Nanop O pore Te ecnología Ligación n true Siingle Moleccule Sequencing Single Molecule Real R time Micro p pHímetros Label free, electrical Longgitud de read ds 50 basses 25 a 55 bases Año o 2007 2008 >1000 bases (en teo oría sin límite) >200 b bases ND D ND 2011 ND D Web www.ap ppliedbiosystems.co om www w.helicosbio.com www.paacificbiosciences.com www w.iontorrent.com www.nanoporetech.com Tabla 1. Información sobre otras teccnologías de seecuenciación maasiva en el merrcado o cerca de e salir. Jonathan M M. Rothbergg, Ph.D. (19 963 ‐ ) Fundador y CEO de Ion TTorrent. 3 en New Haaven, Conneccticut. Se graaduó en inge eniería química con opció ón en Rothberg naació en 1963 Ingeniería B Biomedica en n Carnegie M Mellon University, y realizzó luego su m maestría y do octorado en la Universidad d de Yale. berg es el piionero en el desarrollo d de tecnologíías de secuenciación masiva. Según cuenta en laa El Dr. Rothb página web (www.ionto orrent.com), la primera id dea sobre el secuenciado o masivo en paralelo surge luego quee o en cuidado os intensivoss y se cuestio onara la imp portancia deel genoma humano en laa su hijo fuerra internado salud. Subssecuentemen nte, funda 454 4 Life Scieences, lanzan ndo al mercado el primer secuenciaador masivo o. Dirigió la seecuenciación del primer ggenoma hum mano de un individuo (secuenciando exitosamentte el genomaa del Dr. Wattson). Ademáás inició el p primer proyecto de secueenciado massivo de un AD DN antiguo ((Neanderthaal Genome Pro oject, en colaboración co on el Dr. Paabo). hberg al secuenciado maasivo incluyee el desarrollo del primeer sistema dee clonado no o La contribución de Roth bacterial (emPCR). menzó un nu uevo negocio, a raíz de un comentario de su hijo. h Rothberg funda Ion n En 2007, Rothberg com ón con pHím metros. Torrent y deesarrolla el cconcepto de secuenciació Además es ffundador de e otras empreesas, vinculaadas a la tecn nología y me edicina. Es también fundaador de The Rothberg In nstitute for C Childhood Dissease. Fuente: http://www.ionto orrent.com/teeam/jonathan‐rothberg/ Métodos de secuenciación de ácidos nucleicos. 15 Gonzalo Greif d. Aplicaciones La producción de un gran número de lecturas a bajo costo permite la aplicación de las plataformas de secuenciado masivo en muchas aplicaciones, y es imposible describir todas ellas aquí. La primera aplicación obvia es la secuenciación de genomas (ver recuadro Genoma Humano y Secuenciación masiva) y la precisa anotación de genes (sitios de splicing, poliadenliación, secuencias 5’ y 3’ UTR, etc). Dentro de las primeras aplicaciones encontramos la secuenciación de ARN (ej. descubrimiento de ARN pequeños, nuevas variantes génicas, nuevos genes, etc.) y amplicones de PCR (secuenciado de ARNr16S y su aplicación en metagenómica como veremos en el siguiente párrafo). Asimismo, la posibilidad de cuantificación de transcriptos que ofrece esta tecnología (RNA‐seq), la vuelve una alternativa a los experimentos de microarreglos. La secuenciación para identificar marcadores epigenéticos, identificar interacción ADN‐proteína, determinar estructura de cromatina (ChIP‐Seq, Methyl‐ seq, DNase‐seq) son aplicaciones cada vez más utilizadas. La metagenómica es el estudio genómico de microorganismos por la extracción directa de ADN de una comunidad microbiana. La aparición de la secuenciación masiva ha facilitado a los investigadores la tarea de identificación y caracterización de diferentes microogranismos, en diferentes ambientes. En la sección de lecturas recomendadas se ofrecen revisiones bibliográficas de cada una de estas aplicaciones para que el lector profundice en ellas. Genoma Humano y Secuenciación masiva: Como ya vimos antes, la secuencia del genoma humana se publicó en 2004. La secuenciación de este genoma tuvo un costo aproximado de 3000 millones de dólares y cerca de 20 años de trabajo. En octubre de 2007, se publica el primer genoma de un único individuo (J. Craig Venter), realizado por el método de shotgun y secuenciación Sanger. El costo de este genoma fue aproximadamente 70 millones de dólares y una duración de 4 años. El primer genoma humano secuenciado con la tecnología 454 fue el del Dr. James Watson, a un costo de 1 millón de dólares y en dos meses (2008). El costo ha continuado bajando y se han reportado la secuenciación de un genoma humano por menos de 100.000 dólares. Varios proyectos tienen como objetivo la secuenciación de más individuos, entre el ellos “The Cancer Genome Atlas” y “1000 Genome project”. Hace tan solo 10 años, 2 dedos eran suficientes para contar el número de genomas secuenciados. En 2009, alcanzaban los dedos de ambas manos. Hoy, es difícil de saberlo exactamente, pero un relevamiento realizado por la revista Nature, indica que cerca de 30.000 genomas humanos estarán secuenciados para finales de 2011. Métodos de secuenciación de ácidos nucleicos. 16 Gonzalo Greif Lecturas recomendadas: 1. Sanger F. Coulson R. A rapid method for determining sequences in DNA by primed synthesis with DNA polymerase. J. Mol. Biol., 94, 441‐448 (1975). Método “más‐menos” de Sanger. 2. Maxam A. and Gilbert. A new method for sequencing DNA. PNAS, 74 (2), 560‐564, (1977). Articulo dónde se describe método químico de secuenciación de ácidos nucleicos. 3. Sanger, F., Nicklen, S. and Coulson, A.R. DNA sequencing with chain‐terminating inhibitors 4. PNAS, 74 (12), 5463‐5467 (1977). Artículo de Sanger dónde describe el método de secuenciación utilizando dideoxinucleótidos. 5. Sanger, F. Determination of nucleotide sequences in DNA. Nobel lecture, 8 December 1980. 6. Venter, C. et al. The Diploid Genome Sequence of an Individual Human. PLOS Biology, 5 (10), (2007). Publicación de genoma de Craig Venter. 7. International Human Genome Consortium. Finishing the euchromatic sequence of the human genome. Nature 431, 931–945 (2004). 8. Margulies, M. et al. Genome sequencing in microfabricated high‐density picolitre reactors. Nature 437, 376–380 (2005). Los autores describen el desarrollo de la primer tecnología de secuenciado masivo, y realizan el ensamblaje de novo del genoma de Mycoplasma genitualium utilizando pirosecuenciación. 9. Bentley, D. R. et al. Accurate whole human genome sequencing using reversible terminator chemistry. Nature 456, 53–59 (2008). Artículo de los desarrolladores de Illumina, reportando el uso de esta tecnología para la secuenciación de un cromosoma humano. 10. Wang, Z., Gerstein, M. & Snyder, M. RNA‐Seq: a revolutionary tool for transcriptomics. Nature Rev. Genet. 10, 57–63 (2009). Review sobre uso de tecnologías de secuenciado masivo para análisis de transcriptomas (RNA‐seq). 11. Park, P. J. ChIP–seq: advantages and challenges of a maturing technology. Nature Rev. Genet. 10, 669–680 (2009). Revisión sobre ChIP‐seq. 12. Morozova, O.,Hirst, M., Marra, M. Applications of New Sequencing Technologies for Transcriptome Analysis. Annu. Rev. Genomics Hum. Genet. 10,135–51 (2009). Revisión NGS. 13. Petrosino, J. F., Highlander, S., Luna, R. A., Gibbs, R. A. & Versalovic, J. Metagenomic pyrosequencing and microbial identification. Clin. Chem. 55, 856–866 (2009). Se trata de un review sobre metagenómica. 14. Zhou, X., Ren, L., Meng, Q., Li, Y., Yu, Y., Yu, J. The next‐generation sequencing technology and application. Protein Cell, 1(6), 520–536 (2010). Revisión NGS. 15. Metzker, M.L. Sequencing technologies — the next generation. Nature Reviews Genetics 11, 31‐46 (2010). Revisión NGS. 16. Human genome: Genomes by the thousand. Nature 467, 1026‐1027 (2010). Revisión secuenciadores instalados y genomas secuenciados. 17. Zhanga, J., Chiodinic, R., Badra, A., Zhang G. The impact of next‐generation sequencing on genomics. Genet. Genomics. 38(3), 95–109 (2011). Revisión NGS. Otros recursos interesantes: 1000 Genomes Project: http://www.1000genomes.org The Cancer Genome Atlas: http://cancergenome.nih.gov The Exome Project: http://www.nhlbi.nih.gov/resources/exome.htm Human Microbiome Project: http://nihroadmap.nih.gov/hmp Personal Genome Project: http://www.personalgenomes.org Craig Venter Institute: www.jcvi.org