metodos de secuenciacion de acidos nucleicos

Anuncio
Métodos de secuenciación de ácidos nucleicos. Gonzalo Greif . Unidad de Biología Molecular. Institut Pasteur Montevideo. 1. Un poco de historia 2. Secuenciación por método de Maxxam y Gilbert 3. Secuenciación por método de Sanger a. Avances en el método de Sanger (1986‐1996) b. Proyecto Genoma Humano 4. Algunos Métodos de secuenciado masivo a. Pirosecuenciación b. Secuenciado por hibridización (Illumina) c. Otro métodos d. Aplicaciones 1. Un poco de historia. Pasaron 15 años desde el descubrimiento de la estructura de doble hélice del ADN en 1953 hasta la determinación de la primera secuencia de ADN de forma experimental. Algunas de las razones que provocaron esta demora fueron: 1. Las propiedades químicas similares de las diferentes moléculas de ADN dificultaban su aislamiento. 2. El largo de las moléculas de ADN, mucho mayores que las cadenas polipeptídicas de las proteínas, hacían inabordable la secuenciación completa. 3. No se conocían ADNasas específicas. La secuenciación de proteínas se basaba en el uso de proteasas que cortaban en determinados aminoácidos. Sin embargo, algunas moléculas de ARN no ofrecían estas dificultades, en particular las moléculas de ARN de transferencia eran pequeñas y se podían purificar individualmente. Además se conocían ARNasas base‐específicas y se desarrollaron métodos análogos a los utilizados para proteínas. La primer secuencia de un ácido nucleico fue obtenida por Holley y sus colaboradores en 1965 y correspondía al ARN de transferencia de alanina de Escherichia coli. Un evento importante en el desarrollo de los métodos de secuenciación de ADN fue el descubrimiento de las enzimas de restricción de tipo II en 1970. Estás enzimas reconocen y cortan el ADN en secuencias específicas (en general entre 4 y 6 bases de largo). Estas enzimas proporcionaron un método general para fragmentar largas moléculas de ADN en pequeñas piezas para luego ser separadas por electroforesis en geles de agarosa. A mediados de la década del 70, Frederick Sanger publica el método “más‐menos” (“plus‐minus” method) que permitía la secuenciación de fragmentos de ADN utilizando la enzima ADN polimerasa de E. coli. A fines de esta misma década, Maxxam y Gilbert publican un método alternativo de secuenciación de ADN (método químico) y el mismo Frederick Sanger publica el método que luego se convertiría en el más utilizado durante los siguientes 30 años (método enzimático), como veremos en el punto 3. Méto
odos de secuenciación dee ácidos nuclleicos. 2 Gonzalo
o Greif
2
2. Secuenciación químicca. El método de se
ecuenciación
n química propuesto p
po
or Maxxam y Gilbert, fue f
publicad
do en febreero de 1977 en el Volumen 74 (nº 2) de la reevista PNAS, 10 meses antes a
que Sanger S
publicara el méto
odo de secueenciación enzzimática quee veremos en
n la siguientee sección. manera: “Desarrollamos u
una nueva téécnica En eel artículo deescriben el procedimientto de esta m
para secuenciar u
una moléculla de ADN. EEl procedimiento determ
mina la secue
encia nucleo
otídica de un
n ADN marccado radioactivamente en e un extrem
mo, cortándo
olo con agen
ntes químico
os” en cada una de las b
bases. El corrte parcial de cada basee, genera un set de fragm
mentos marrcados desdee el extrem
mo marcado
o hasta la base dóndee fueron clivados. Utilizando gelees de poliaccrilamida y sseparando dichos fragmeentos por tamaño, es po
osible determ
minar la secu
uencia de essta molécula. El método prop
puesto estab
ba limitado por la cap
pacidad de resolución de los gelees de poliaccrilamida, y en este prim
mer artículo muestran laa posibilidad
d de secuenciar 100 basses de ADN. El método utiliizaba 4 reaccciones químiicas. Una reaacción quíímica produ
uce cortes específicame
e
ente en Cito
osinas (18
8M hidracinaa, 2M NaCl. Una reaccción con 50
0 mM dim
metil‐sulfato corta en Adeeninas y Guaaninas; si lueego de este tratamientto químico se calienta la reacción a 9
90ºC a pH neutro, enttonces se obtiene o
un patrón p
de bandas inteenso para lass guaninas y tenues paraa las adeninaas. Por el contrario, el e tratamien
nto posterior a un pH ácido pro
ovoca un pattrón inverso (bandas inteensas de adeeninas y tenues t
de guaninas). El E último tratamiento (18M hid
dracina) prod
duce el clivajje tanto en ccitosinas com
mo en tim
minas. En la Figura 1, se muestra e
el patrón de
e bandas obttenido durrante la secu
uenciación de d un fragmento de 64 bases (mo
ostrado en eel artículo de 1977). Figu
ura 1. Se muestran m
los cuatro carrriles del gel de
poliacrilamida con c
cada unaa de las reaccciones de cliivaje.
Interpretación: La secuencia se lee de abajo hacia arrriba.
Una banda inteensa en la primera p
colum
mna y una banda
ten
nue en la segu
unda correspo
onden a una A
Adenina, mientras
quee la situación inversa correesponde a un
na Guanina en
n esa
possición. Una b
banda que ap
parece en la tercera y cu
uarta
columna en la misma posición indica una C. y una banda
n la última columna corresp
ponde a una TT. sólo presente en
odos de secuenciación dee ácidos nuclleicos. 3 Méto
Gonzalo
o Greif
33. Secuenciación enzimática. En dicciembre de 1
1977 se publica el trabajo de Sanger,, Nicklen y Co
oulson que p
propone un n
nuevo méto
odo para detterminar la ssecuencias d
de bases en una molécula de ADN. Sanger y Co
oulson habíaan ya publiccado dos años antes, un
n método de d secuenciaación (métod
do más‐men
nos) a partirr del cual haabían logrado
o obtener do
os secuenciaas de 70 basees del bacteriófago φX174. La dificu
ultad en la interpretació
ón de los resultados y aalgunos erro
ores que pod
dían ocurrir en la secueencia hiciero
on que Sangger y sus co
olaboradores siguieran trabajando para mejoraar los méto
odos de secuenciación dee ácidos nucleicos. Así, eel método propuesto p
por Sanger en e 1977 se convirtió c
en el método más utilizad
do de secueenciación dee ácidos nuccleicos hastaa la actualid
dad. La incorporación de mejoras en e los aspecctos tecnológicos y meto
odológicos (aautomatización, método
os de detecciión, electrofforesis capilaar, etc.) perrmitieron, como hito fu
undamental,, la secuencciación del genoma humano (finalizado en el año 2003) por este méétodo. En 19
980 Fredericck Sanger ob
btuvo su seggundo prem
mio Nobel en Química por la invención de este méétodo (ver re
ecuadro). Reecién en 2005
5, con la aparición de lo
os secuenciadores 454 se
e dio un cam
mbio en la te
ecnología de secuenciación de ácido
os nucleicos. Aun así, muchas de las n
nuevas tecno
ologías de seecuenciación masiva utilizan el principio de nucleótidos term
minadores, descrito d
por Sanger, com
mo veremos más adelan
nte en los seecuenciadorees de Illumin
na. Fred
derick Sange
er (1918‐) Frederick Sanger nació en
n Rendcombee, Inglaterra en e 1918. De padre médico, se esperaba quee Fred siguierra sus pasos, ssin embargo een la Universidad de Cambridge decidió realiizar una carrera en Cienccias. Continuó
ó su formación en Cambridge realizando un
n Ph.D. con A
Albert Neuberger, en metab
bolismo de am
minoácidos. LLuego continuó trab
bajando con C
C. Chibnall ideentificando loss aminoácidoss de la insulin
na, en el transcurso
o de la investigación, Sanger imaginó
ó las formas en las cuálees se ordenan los aaminoácidos e
en la proteínaa. Fuee la primera p
persona en ob
btener la secuencia de amin
noácidos de u
una proteína ((la insulina). P
Probó que las proteínass eran molécu
ulas ordenadaas y, por analogía, los gen
nes y el ADN que codifica estas protteínas deberían tener un orden o secu
uencia. Por esste trabajo obtuvo su prim
mer premio N
Nobel (195
58). En 1
1962, Sanger ccomienza a trrabajar en el laboratorio dee Biología Molecular, también en Cambrridge, dón
nde Francis Crick, John Keendrew y otro
os trabajaban
n con problem
mas relacionaados con el ADN. A
Reso
olver como obtener la secu
uencia de ADN era la exten
nsión natural de su trabajo
o anterior. Fuee así, com
mo estudiando
o primero la forma f
de secuenciar ARN (una moléculla más pequeeña) logró obttener una técnica apliccable luego all ADN (el méttodo de secuenciación porr dideoxinucleeótidos). En 1980, 1
uvo por ello su segundo premio Nobel también en e Química compartido c
co
on Walter Giilbert obtu
(méétodo de secue
enciación química) y Paul B
Berg (ADN reccombinante).
En 1
1992, el Wellccome Trust y el Medical Research Coun
ncil establecieeron el Sangerr Institute, un
no de los ccentros de seccuenciación d
dónde se llevó
ó adelante el p
proyecto Geno
oma Humano. En 1
1985 se retiró y se dedica p
principalmente
e al cuidado d
de su jardín. Fuen
ntes:http://www..dnaftb.org/23/bio.html/ http://w
www.sanger.ac.ukk/about/people/biographies/fsan
nger.html Lectu
uras recomendad
das: Nobel Lecture (Frederick Sanger, 1980). Méto
odos de secuenciación dee ácidos nuclleicos. 4 Gonzalo
o Greif
mático de Saanger, utilizaa una ADN polimerasa p
e e inhibidores que finalizzan la El méétodo enzim
caden
na de ADN que está siendo sintetizada en luggares especííficos, particcularmente utiliza dideo
oxinucleótido
os (es decir n
nucleótidos que en su caarbono 3´ no
o contienen el grupo hid
droxilo –Figu
ura 2‐ ). La incorporación de una basee con estas ccaracterísticaas en un mollécula nacien
nte de ADN impide que
e una nuevaa base pueda incorporasse y la sínte
esis de ADN
N es interrum
mpida (Figura 3). Figura 22. Estructura de un nucleótido (ej. dATP) y un di‐deoxinucleó
ótido (ddATP).
Figura 3. Esquema de m
mecanismo de ssíntesis de ADN
N (1), y (2) impo
osibilidad de continuar elongacción de cadenaa nacientee luego de la inccorporación dee un didoxinucleeótido. En el artículo ejeemplifican, de d forma claara, que sucede cuándo utilizan di‐d
deoxiTimina en la reaccción: “Debido
o a que el ddT no contie
ene grupo 3’ hidroxilo, la cadena no
o puede conttinuar ocurre espeecíficamentee en las possiciones dónde dT exten
ndiéndose, entonces e
la terminación
t
debería haberse incorporado. Si un cebad
dor y un mollde son incub
bados con ADN polimeraasa en preseencia de unaa mezcla dee ddTTP y dTTP, así co
omo los otrros tres deo
oxiribonucleo
osidos trifossfato (uno de ellos marcado radiiactivamentee con 32p),, se obtiene un mezccla de Méto
odos de secuenciación dee ácidos nuclleicos. 5 Gonzalo
o Greif
mentos todoss con el mism
mo extremo 5´ y con residuos ddT en
n el extremo
o 3´. Si esta m
mezcla fragm
es fraaccionada po
or electroforresis desnatu
uralizante en
n geles de accrilamida el patrón de bandas muesstra la distrib
bución de los residuos TTimina en el ADN sintetizzado. Utilizan
ndo terminaadores para cada uno de d los cuatrro nucleótidos en reaccciones indep
pendientes, y corriendo cada mezccla en paralelo en el gel, se obtiene u
un patrón dee bandas a p
partir del cuaal se puede leer la secueencia de basees” (Figura 4
4 y 5). Figura 4. Esta imagen
n se encuentra en la Nobel Leecture de F. Saanger de 1980. En la misma se s ejemplifica el
e
pio del método de dideoxinucleeótidos terminadores. princip
Figura 5. Esta imagen co
orresponde a laa segunda figura del artículo de Sanger (PNASS, 1977).
Se trata de un autorad
diografía dóndee se muestra laa migración dee las cuatro differentes
mezclas (una para cad
da dideoxinucle
eótido terminaador utilizado).. A la derech
ha de la
imagen se leen las secueencias de ADN (en este caso u
un fragmento del bacteriófago
o φX174.
Las lecturas se realizan de abajo (fraggmentos más pequeños) haciaa arriba (más ggrandes),
de acuerd
do a la aparició
ón de las bandas. La resolución
n del gel, permiite separar bandas de 1
nucleótid
do de diferenciaa en tamaño. Las seecuencias ob
btenidas con este método alcanzaban
n hasta 200 bases de larggo. odos de secuenciación dee ácidos nuclleicos. 6 Méto
Gonzalo
o Greif
n el método de Sanger (1
1977‐1996).
aa. Avances yy mejoras en
minadores flu
uorescentes ((dye‐terminaator sequenccing). I.. Secuenciaciión con term
986 Hood y y colaborado
ores, en colaaboración con Applied Biosystems (ABI) publiccan el En 19
primeer reporte de
e automatizaación de la ssecuenciación de ADN, q
que establece
e la secuenciación con terminadoress fluorescenttes como variante del m
método de Saanger. Está vaariante utilizza una molécula fluoresccente diferente unida a cada dideoxinucleótido, y permite reealizar la reaacción n único tubo
o (Figura ). Assimismo, la ssecuencia pu
uede ser leíd
da a través de un computtador. en un
Las ssecuencias obtenidas, o
co
on esta nueeva variante eran de un
n largo de entre e
500 y 1000 nucleeótidos. a. b. c. Figura 6. En estaa figura se ejem
mplifica como en lugar de 4 carriles (uno
paara cada base) (a), se corren todas las reacciones en un único ú
carril
de
el gel (cada colo
or representa u
una base) (b) y se desarrollan aalgoritmos
paara convertir essas señales en ““electroferograamas” que reprresentan la
se
ecuencia de AD
DN (c). La flech
ha a la izquierd
da indica la dirrección de
lectura 5’‐3’. III. Secuenciacción automáttica. La em
mpresa Appllied Biosysteems, fue la pionera p
y líd
der en instru
umentos de secuenciación. El primeer secuenciaador automáático (ABI 37
70A) aparecce en 1987, y con él se logra conocer la secueencia del primer gen porr Craig Venteer y sus coleegas del National Institutte of Health (NIH, USA). La aparición de los secuenciadores automático
os permitió laa instalación
n de facilidad
des de on 6 secuencciadores ABII3700. secueenciación. El primero dee ellos fue el NIH, dóndee se instalaro
En 19
992, Venter funda el Institute for Genomic G
Ressearch (TIGR
R) y expandee la capacidad de secueenciación con 30 equiposs. da, se demueestra el poder de la secuenciación aautomática ccon el Con eesta plataforrma instalad
desarrrollo de la eestrategia EST (expressed
d sequence ttag) para el d
descubrimien
nto de geness. Esta estrategia consiste en hacer copias de ADN A
a partirr del ARN mensajero m
ceelular (ADNcc=ADN E 1991, con
n esta estraategia, copiaa) y clonarlaas de forma aleatoria para luego seecuenciar. En Venteer reporta 337 genes hu
umanos no conocidos. La base de daatos de EST contiene hoy más de 43
3 millones dee secuencias correspondientes a 1300 organismo
os diferentes. Métodos de secuenciación de ácidos nucleicos. 7 Gonzalo Greif
b. Proyecto Genoma humano: La secuenciación del genoma humano se volvió un objetivo realizable una vez establecidas las metodologías de secuenciación de ADN. La discusión formal comenzó en 1985 en Estados Unidos. En 1990, se presentó un proyecto de 5 años en el congreso de Estados Unidos (Human Genome Project). Se estimaba que el proyecto duraría 15 años y el costo rondaría los 3 mil millones de dólares. El proyecto establecía el objetivo de mapear y secuenciar diferentes organismos modelo además de humano. Entre ellos E. coli, S. cerevisiae, C. elegans, D. melanogaster y el ratón (Mus domesticus). El proyecto se convirtió en un esfuerzo de colaboración internacional entre diversos centros de secuenciación en Estados Unidos, Europa y Japón. Cada centro se focalizó en regiones particulares del genoma, que permitieran obtener un mapa. En 1994 se publicó un mapa detallado del genoma humano que incluía el mapeo de 5840 loci con una media de espaciado de 0,7 cM (1 centiMorgan = 106 bases). En 1998, el proyecto público, compitiendo ahora con la empresa Celera (propiedad de Craig Venter) adopta los secuenciadores capilares de Applied Biosystems (ABI3700). En 1999 el proyecto Genoma humano había secuenciado más de mil millones de bases y se publicó la secuencia completa de un cromosoma humano (el cromosoma 22). Para el mismo tiempo, Celera, comenzó a Cobertura (Coverage):
secuenciar el genoma humano con la estrategia de “whole genome shotgun sequencing” La cobertura es el número promedio de desarrollada por C. Venter (explicada más secuencias que representan a un adelante). La secuenciación comenzó en determinado nucleótido en la secuencia setiembre de 1999 y en junio de 2000 se realizó un ensamblaje inicial de las secuencias total reconstruida. Puede ser calculada a obtenidas. Los datos de Celera permitieron el partir del largo original del genoma (G), el ensamblaje del genoma humano con una número de secuencias (N) y el largo cobertura de 5X (ver Cobertura). Además se promedio de las secuencias (L) como: aumentó la cobertura 3X con los datos públicos. Cobertura = N x L/G El 25 de junio de 2000, en la Casa Blanca, el presidente Clinton junto a Francis Collins Ejemplo. Un genoma hipotético de 2000 (responsable del proyecto público, NIH) y Craig bases, secuenciado con 24 secuencias de Venter, anunciaron públicamente la versión 350 bases de promedio de largo tiene borrador del genoma humano realizada tanto una cobertura de: por el esfuerzo público como privado (Figura 7). 24 x (350/2000) = 4,2 X. En febrero de 2001, se publicaron los borradores del consorcio público y del privado en Science y Este valor significa que el genoma fue Nature (Figura 8). Finalmente en el año 2004 se secuenciado 4,2 veces. Cuánto mayor publicó la versión final del genoma humano. cobertura, menor posibilidades de errores en la secuencia final. Méto
odos de secuenciación dee ácidos nuclleicos. 8 Gonzalo
o Greif
Figura 7. Fo
oto de lanzam
miento de borrrador del geno
oma humano en Washington
n (Clinton, Ven
nter, Collins). Figura 8. Tapas de revisttas Nature y S
Science de 200
01 con los borrad
dores del geno
oma humano. Whole genome Sho
otgun sequen
ncing y Craig V
Venter: El método de Whole Genome Sh
hotgun consisste en la fragm
mentación al aazar del ADN de todo el geenoma, nciar ambas hebras h
(el passo de clonado
o luego fue eliminado). e
Una vez clonarlo en plásmiidos y secuen
nidas, las secu
uencias se alin
nean y ensam
mblan para forrmar contigs b
basándose en
n las secuenciaas que obten
solapaan (Figura 9). El método fue utilizado po
or Sanger en 1
1982 para enssamblar el faggo lambda (48
8,5 kb), sin em
mbargo Venter fue el prim
mero en utilizarlo para seecuenciar un genoma de mayor tamañ
ño (H. influeenzae, 1,8Mb) y proponerlo
o como estrateegia para secu
uenciar el genoma humano
o. ra 9. Esquema
a de secuenciaación con la eestrategia de SShotgun. Secu
uenciación de fragmentos erados al azarr y ensamblaje de la secuen
ncia utilizando
o procesamien
nto informáticco. En 1995, Venter y ssu grupo decid
den utilizar nu
uevas herram
mientas compu
utacionales assí como los méétodos mejorrados de seccuenciación para realizarr la primer secuencia de
e un organissmo de vidaa libre (Haem
mophilus influ
uenzae). En TIGR analizar más m de 50 geenomas micro
obianos. Ventter y alguno de d sus colabo
oradores, com
menzaron entonces la seccuenciación de d genomas de d mayor tam
maño (mosca, rata, ratón). En 20006 se fundó el J. Craig Venter Institutee (JCVI) por laa unión de varias organizacciones (TIGR, TCAG, JCVSFF, etc.). Se trata de una orgganización lídeer en genómica a nivel mu
undial con máás de 400 cien
ntíficos trabajjando. Métodos de secuenciación de ácidos nucleicos. 9 Gonzalo Greif
4. Algunos Métodos de secuenciado masivo Pasaron cerca de 30 años desde la publicación del método de Sanger, hasta que apareciera una nueva tecnología de secuenciación de ácidos nucleicos que no fuera el método de dideoxinucleotidos terminadores. La principal característica de estas nuevas metodologías es la posibilidad de secuenciado masivo de forma paralela, esto significa que el número de secuencias obtenidas durante una corrida supera muchas veces el máximo de 96 secuencias por corrida que se obtienen con los secuenciadores capilares de última generación que utilizan el método de secuenciado de Sanger. A partir del desarrollo del método de pirosecuenciación (primer método de secuenciado masivo utilizado, 2005), surgen nuevas alternativas de secuenciación que utilizan el mismo principio de dideoxinucleotidos terminadores en sus protocolos, aunque con mejoras innovadoras. Estos nuevos métodos de secuenciado masivo no ofrecen lecturas tan largas como el método clásico de Sanger, aunque en pocos años se ha mejorado sustancialmente el largo de las secuencias obtenidas y en algunos casos alcanzan longitudes comparables a Sanger. a. Pirosecuenciación: El primer método de secuenciado masivo o “next generation sequencing” (NGS), fue publicado en 2005 en Nature, y llevado al mercado por la empresa 454 (luego adquirida por Roche). El resumen de este artículo explica: “Describimos un método escalable, un sistema de secuenciación altamente paralelizable con un rendimiento significativamente mayor que los instrumentos de electroforesis capilar. El aparato permite secuenciar 25 millones de bases, con 99% de precisión en una corrida de 4 horas” (este rendimiento es 100 veces superior a la cantidad de bases secuenciadas en ese tiempo en un secuenciador de 96 capilares). En el primer artículo, publican la secuenciación de novo del genoma de Mycoplasma genitalium alcanzando cubrir el 96% del genoma y con una precisión de 99,96% en una corrida. El método consiste en 4 pasos: 1. Fragmentación del ADN (o ARN). 2. Ligación de oligonucleótidos (adaptadores) en cada uno de los extremos. 3. Amplificación clonal (mediante PCR en emulsión). 4. Secuenciado por síntesis usando un protocolo de pirosecuenciación optimizado en un soporte sólido y en escala de picolitros. Más en detalle, luego de fragmentar el ADN, se ligan oligonucléotidos adaptadores a cada extremo del ADN. Estas secuencias adaptadoras comunes a todos los fragmentos serán utilizadas, tanto para ligar cada fragmento a las esferas, como secuencias donde se unirán los cebadores de la PCR y además presenta la secuencia donde se unirá el cebador de secuenciación. Una vez ligados los adaptadores, se ligan a las beads (esferas que contienen el complementario a uno de los adaptadores en su superficie), por un método de dilución límite, de modo de obtener un único fragmento unido a una esfera. Se busca, entonces, obtener en cada bead un único fragmento de ADN, el mismo es amplificado mediante PCR en emulsión. Méto
odos de secuenciación dee ácidos nuclleicos. 10
Gonzalo
o Greif
PCR een emulsión (emPCR): La PCR en emu
ulsión permite realizar en un úniico tubos miles m
de reacciones dee PCR indep
pendientes. U
Una vez obteenida la libreería de fragm
mentos que sserán secuen
nciados, se u
unen a esferas que conttienen uno de los adap
ptadores preesentes en los l fragmentos, de mod
do de ner un único fragmento
o por esferaa. Luego la población de d esferas (cada una co
on un obten
fragm
mento de AD
DN) es emulssionada en u
una mezcla d
de agua y acceite, de modo tal de ob
btener micellas de aceite
e independientes –cadaa uno de ello
os con una única esferaa y con todo
os los reacttivos necesaarios para llevar adelante la reaccción‐. El re
esultado finaal, son milees de micro
oreactores dónde se llevaa adelante laa reacción dee PCR de form
ma independ
diente (Figurra 10). Figuraa 10. Esquema de la PCR en
n emulsión. (1
1) Se liga a caada bead un fragmento f
med
diante las secu
uencias complementarias a uno u de los adaaptadores que se encuentran en la superficie de las mism
mas. (2) Se realiza una emulsión (agua‐aceitte) de tal form
ma que en cadaa gota de aceitte encontremo
os una única beead unida a un
n único framgeento y encontrramos además todos los reacctivos necesario
os para llevar adelante a
la PCR
R (dNTPs, Polim
merasa, cofactores). (3) Luego
o se realiza unaa PCR convencional, pero en ccada tubo de reeacción se realiizan simultáneaamente miles de reacciones en paralelo. (4
4) Luego de n ciclos de reaccción, se obtiene una amplificcación clonal de d cada fragmeento unido a un
na bead. o de finalizada esta reeacción, se rompe la emulsión e
y se recuperaan las beadss que Luego
preseentaron amp
plificación. Las L mismas son deposittadas en la placa de seecuenciación. Esta placaa (picoTiter p
plate), tiene 1,6 milloness de pocillos, y en cada u
uno de ellos sólo puede eentrar un beead (Figura 1
11). En cada pocillo suced
derá una reaacción de seccuencia, por lo cual en la placa podemos decir que tenem
mos 1,6 millones de secuenciado
s
c
o 16000 1
res de 1 capilar, de 96 capilarees aproximad
damente. secueenciadores d
Méto
odos de secuenciación dee ácidos nuclleicos. 11
Gonzalo
o Greif
Figuraa 11. Pico‐Titre plate. Arriba: esquema de dep
posición de esfeeras en los pociillos. Abajo: miccrografía electrrónica de los pocillos y ejem
mplo de carga dee una placa.
Reaccción de secuenciación: ótidos Este método no utiliza nucleó
n este caso, se realizan ciclos terminadores. En
dónde se ofrece en cada poccillo una base por la vez, secuenciaalmente. Durante incorporación dee una base en una molécula DN se liberaa pirofosfatto, el nacieente de AD
pirofo
osfato liberrado se co
onvierte en
n luz mediante dos procesos p
enzzimáticos. La L luz pocillo, dónd
de se incorpo
oró la emitida en cada p
or la base ofrecida, es monittoreada po
ométrica de la liberación del deteccción lumino
pirofo
osfato durante la reaccción de sín
ntesis (Figura ). Una cám
mara CCD colecta los dattos de da ciclo y en cada posició
ón. cada base, en cad
Figuraa 12. Esquema de reacción de pirosecuenciacción
omopolimero
os (tractos de d secuenciaa con el missmo nucleóttido), el larggo del En ell caso de ho
homo
opolimero ess determinado a partir d
de la cantidaad de pirofossfato liberad
do (proporcio
onal a la can
ntidad de bases incorporrada). Ejemplo: o se ofrece la base A, en todos los pocillos. En aquellos qu
ue se incorpo
ora se En el primer ciclo
ón de luz (deependiendo la cantidad d
de A incorpo
orada, será la intensidad
d de la obserrva la emisió
luz em
mitida). Lueggo de obtenidas las imágenes, se reemueve la baase, y se ofreece la base TT y se obserrvan los pocillos que inco
orporan T. Se vuelve a eliminar la baase no incorp
porada y se o
ofrece la base G, y luego
o la C para tterminar el p
primer ciclo. Luego de 100 ciclos finaliza la corriida. El Métodos de secuenciación de ácidos nucleicos. 12 Gonzalo Greif
tamaño promedio de cada lectura es de 400 bases y en una corrida se obtienen cerca de 1 millón de secuencias (es decir 400 millones de bases/10 horas de corrida). b. Illumina: 1
La segunda tecnología de secuenciación masiva que salió al mercado (2006) fue la de Solexa (luego adquirida por Illumina). En esta tecnología, se utilizan nucleótidos terminadores marcados con moléculas fluorescentes al igual que en la Secuenciación de Sanger. Además de la paralelización masiva (es decir la capacidad de realizar millones de secuencias en cada corrida), la diferencia con el método convencional es la posibilidad de eliminar la fluorescencia una vez obtenida la imagen, y desbloquear carbono 3’ de modo que pueda aceptar una nueva base para continuar la reacción de secuenciación, haciendo que la incorporación de un nucleótido terminador sea reversible. En este caso, las longitudes obtenidas son menores que los secuenciadores 454 (en la actualidad hasta 150 bases), sin embargo la capacidad de realizar secuencias en paralelo es mucho mayor que en 454 (hasta 250 millones de secuencias). Como resultado es posible obtener hasta 6 x 1012 en una sola corrida. Para dimensionar este número, el genoma humano tiene aproximadamente 3 x 109 bases de largo. Al igual que el método de secuenciación de Roche, los primeros pasos consisten en la fragmentación del ADN y ligación de adaptadores. Luego hay un paso de amplificación (en este caso, la amplificación es en una superficie sólida: “flow cell”, dónde también se dará luego la reacción de secuenciación). Amplificación y Reacción de secuenciación: En el primer paso, la librería se deposita en la flow cell por complementariedad con los adaptadores (1). Luego se produce la amplificación en puente (2 y 3) en sucesivos ciclos (4,5,6,7,8) hasta obtener un cluster con la amplificación clonal del fragmento inicial (8) (Figura 13). 8
2
3
4
5
6
7
Figura 13. Amplificación en puente. Ver descripción en el texto. En la reacción de secuenciación, se bloquea uno de los adaptadores (1), y se comienza la reacción de secuenciación desde el otro extremo (2) mediante un cebador específico (Figura 14). 1
2
Figura 14. Reacción de secuenciación de Illumina. Ver descripción en el texto. Métodos de secuenciación de ácidos nucleicos. 13 Gonzalo Greif
Durante la reacción, a diferencia de la pirosecuenciación, se ofrecen los cuatro nucleótidos terminadores marcados cada uno con un fluorocromo diferente (1), al igual que el método de Sanger. Luego de un lavado (2), se obtienen las imágenes y se obtiene la primera base de cada cluster (3). Luego, se elimina el fluorocromo y se desbloquea el Carbono 3, permitiendo que un nuevo nucleótido pueda extender la cadena de ADN naciente (4). Otra vez los cuatro nucleótidos terminadores marcados son ofrecidos a los clusters, comenzando un nuevo ciclo (Figura 15). 1
2
3
4
Figura 15. Reacción de secuenciación de Illumina. Primer ciclo de secuenciación (1), incorporación de dideoxinucleótidos marcados (2), adquisición de imagen (3), y lavado, desbloqueo, y eliminación de marcado (4).
Los últimos modelos de Illumina permiten secuenciar en paralelo más de 3000 millones de clusters con largos desde 35 a 150 bases (www.illumina.com). c. Otros métodos: Desde 2005 hasta la fecha, otras tecnologías de secuenciación masiva han sido desarrolladas y otras se encuentran en desarrollo y constituyen una nueva generación de secuenciadores (Tabla 1). Es imposible en este capítulo el desarrollo en profundidad de cada una de ellas, por lo tanto en la siguiente tabla se muestran otras tecnologías y las fuentes dónde obtener mayor información de cada una de ellas. Algunas de estas tecnologías (SMRT, Helicos) proponen la secuenciación a partir de una única molécula de ADN en tiempo real. Una de ellas (Pacific Biosciences) en teoría no tiene límite en cuánto al largo de las secuencias generadas y eventualmente podría secuenciar cromosomas enteros en una única lectura (www.pacificbiosciences.com). Otras, como Oxford nanopore e Ion Torrent (recientemente lanzada al mercado) ofrecen novedosas soluciones y no requieren marcación fluorescente ni cámaras registradoras de imágenes. En particular, Ion Torrent (ver recuadro J. Rothberg), se basa en el registro de los cambios de pH producidos durante la incorporación de bases durante la síntesis de ADN. Se trata de micropHímetros que reducen notablemente los costos de secuenciación (www.iontorrent.com) y prometen ser herramientas útiles en el área de diagnóstico. Méto
odos de secuenciación dee ácidos nuclleicos. 14
Gonzalo
o Greif
Plataforma SOLiD (Applieed Biosystem
m) Genetic G
Anaalysis Systeem (H
Helicos) SMRT (Pacificc Biosciencess) Io
on Torrent Oxford Nanop
O
pore Te
ecnología Ligación
n true Siingle Moleccule Sequencing Single Molecule Real R
time Micro p
pHímetros Label free, electrical Longgitud de read
ds 50 basses
25 a 55 bases Año
o 2007 2008 >1000 bases (en teo
oría sin límite) >200 b
bases ND D ND
2011 ND
D Web www.ap
ppliedbiosystems.co
om
www
w.helicosbio.com
www.paacificbiosciences.com
www
w.iontorrent.com
www.nanoporetech.com
Tabla 1. Información sobre otras teccnologías de seecuenciación maasiva en el merrcado o cerca de
e salir. Jonathan M
M. Rothbergg, Ph.D. (19
963 ‐ ) Fundador y CEO de Ion TTorrent. 3 en New Haaven, Conneccticut. Se graaduó en inge
eniería química con opció
ón en Rothberg naació en 1963
Ingeniería B
Biomedica en
n Carnegie M
Mellon University, y realizzó luego su m
maestría y do
octorado en la Universidad
d de Yale. berg es el piionero en el desarrollo d
de tecnologíías de secuenciación masiva. Según cuenta en laa El Dr. Rothb
página web (www.ionto
orrent.com), la primera id
dea sobre el secuenciado
o masivo en paralelo surge luego quee o en cuidado
os intensivoss y se cuestio
onara la imp
portancia deel genoma humano en laa su hijo fuerra internado
salud. Subssecuentemen
nte, funda 454 4 Life Scieences, lanzan
ndo al mercado el primer secuenciaador masivo
o. Dirigió la seecuenciación del primer ggenoma hum
mano de un individuo (secuenciando exitosamentte el genomaa del Dr. Wattson). Ademáás inició el p
primer proyecto de secueenciado massivo de un AD
DN antiguo ((Neanderthaal Genome Pro
oject, en colaboración co
on el Dr. Paabo). hberg al secuenciado maasivo incluyee el desarrollo del primeer sistema dee clonado no
o La contribución de Roth
bacterial (emPCR). menzó un nu
uevo negocio, a raíz de un comentario de su hijo. h
Rothberg funda Ion
n En 2007, Rothberg com
ón con pHím
metros. Torrent y deesarrolla el cconcepto de secuenciació
Además es ffundador de
e otras empreesas, vinculaadas a la tecn
nología y me
edicina. Es también fundaador de The Rothberg In
nstitute for C
Childhood Dissease. Fuente: http://www.ionto
orrent.com/teeam/jonathan‐rothberg/ Métodos de secuenciación de ácidos nucleicos. 15 Gonzalo Greif
d. Aplicaciones La producción de un gran número de lecturas a bajo costo permite la aplicación de las plataformas de secuenciado masivo en muchas aplicaciones, y es imposible describir todas ellas aquí. La primera aplicación obvia es la secuenciación de genomas (ver recuadro Genoma Humano y Secuenciación masiva) y la precisa anotación de genes (sitios de splicing, poliadenliación, secuencias 5’ y 3’ UTR, etc). Dentro de las primeras aplicaciones encontramos la secuenciación de ARN (ej. descubrimiento de ARN pequeños, nuevas variantes génicas, nuevos genes, etc.) y amplicones de PCR (secuenciado de ARNr16S y su aplicación en metagenómica como veremos en el siguiente párrafo). Asimismo, la posibilidad de cuantificación de transcriptos que ofrece esta tecnología (RNA‐seq), la vuelve una alternativa a los experimentos de microarreglos. La secuenciación para identificar marcadores epigenéticos, identificar interacción ADN‐proteína, determinar estructura de cromatina (ChIP‐Seq, Methyl‐
seq, DNase‐seq) son aplicaciones cada vez más utilizadas. La metagenómica es el estudio genómico de microorganismos por la extracción directa de ADN de una comunidad microbiana. La aparición de la secuenciación masiva ha facilitado a los investigadores la tarea de identificación y caracterización de diferentes microogranismos, en diferentes ambientes. En la sección de lecturas recomendadas se ofrecen revisiones bibliográficas de cada una de estas aplicaciones para que el lector profundice en ellas. Genoma Humano y Secuenciación masiva:
Como ya vimos antes, la secuencia del genoma humana se publicó en 2004. La secuenciación de este genoma tuvo un costo aproximado de 3000 millones de dólares y cerca de 20 años de trabajo. En octubre de 2007, se publica el primer genoma de un único individuo (J. Craig Venter), realizado por el método de shotgun y secuenciación Sanger. El costo de este genoma fue aproximadamente 70 millones de dólares y una duración de 4 años. El primer genoma humano secuenciado con la tecnología 454 fue el del Dr. James Watson, a un costo de 1 millón de dólares y en dos meses (2008). El costo ha continuado bajando y se han reportado la secuenciación de un genoma humano por menos de 100.000 dólares. Varios proyectos tienen como objetivo la secuenciación de más individuos, entre el ellos “The Cancer Genome Atlas” y “1000 Genome project”. Hace tan solo 10 años, 2 dedos eran suficientes para contar el número de genomas secuenciados. En 2009, alcanzaban los dedos de ambas manos. Hoy, es difícil de saberlo exactamente, pero un relevamiento realizado por la revista Nature, indica que cerca de 30.000 genomas humanos estarán secuenciados para finales de 2011. Métodos de secuenciación de ácidos nucleicos. 16 Gonzalo Greif
Lecturas recomendadas: 1. Sanger F. Coulson R. A rapid method for determining sequences in DNA by primed synthesis with DNA polymerase. J. Mol. Biol., 94, 441‐448 (1975). Método “más‐menos” de Sanger. 2. Maxam A. and Gilbert. A new method for sequencing DNA. PNAS, 74 (2), 560‐564, (1977). Articulo dónde se describe método químico de secuenciación de ácidos nucleicos. 3. Sanger, F., Nicklen, S. and Coulson, A.R. DNA sequencing with chain‐terminating inhibitors 4. PNAS, 74 (12), 5463‐5467 (1977). Artículo de Sanger dónde describe el método de secuenciación utilizando dideoxinucleótidos. 5. Sanger, F. Determination of nucleotide sequences in DNA. Nobel lecture, 8 December 1980. 6. Venter, C. et al. The Diploid Genome Sequence of an Individual Human. PLOS Biology, 5 (10), (2007). Publicación de genoma de Craig Venter. 7. International Human Genome Consortium. Finishing the euchromatic sequence of the human genome. Nature 431, 931–945 (2004). 8. Margulies, M. et al. Genome sequencing in microfabricated high‐density picolitre reactors. Nature 437, 376–380 (2005). Los autores describen el desarrollo de la primer tecnología de secuenciado masivo, y realizan el ensamblaje de novo del genoma de Mycoplasma genitualium utilizando pirosecuenciación. 9. Bentley, D. R. et al. Accurate whole human genome sequencing using reversible terminator chemistry. Nature 456, 53–59 (2008). Artículo de los desarrolladores de Illumina, reportando el uso de esta tecnología para la secuenciación de un cromosoma humano. 10. Wang, Z., Gerstein, M. & Snyder, M. RNA‐Seq: a revolutionary tool for transcriptomics. Nature Rev. Genet. 10, 57–63 (2009). Review sobre uso de tecnologías de secuenciado masivo para análisis de transcriptomas (RNA‐seq). 11. Park, P. J. ChIP–seq: advantages and challenges of a maturing technology. Nature Rev. Genet. 10, 669–680 (2009). Revisión sobre ChIP‐seq. 12. Morozova, O.,Hirst, M., Marra, M. Applications of New Sequencing Technologies for Transcriptome Analysis. Annu. Rev. Genomics Hum. Genet. 10,135–51 (2009). Revisión NGS. 13. Petrosino, J. F., Highlander, S., Luna, R. A., Gibbs, R. A. & Versalovic, J. Metagenomic pyrosequencing and microbial identification. Clin. Chem. 55, 856–866 (2009). Se trata de un review sobre metagenómica. 14. Zhou, X., Ren, L., Meng, Q., Li, Y., Yu, Y., Yu, J. The next‐generation sequencing technology and application. Protein Cell, 1(6), 520–536 (2010). Revisión NGS. 15. Metzker, M.L. Sequencing technologies — the next generation. Nature Reviews Genetics 11, 31‐46 (2010). Revisión NGS. 16. Human genome: Genomes by the thousand. Nature 467, 1026‐1027 (2010). Revisión secuenciadores instalados y genomas secuenciados. 17. Zhanga, J., Chiodinic, R., Badra, A., Zhang G. The impact of next‐generation sequencing on genomics. Genet. Genomics. 38(3), 95–109 (2011). Revisión NGS. Otros recursos interesantes: 1000 Genomes Project: http://www.1000genomes.org The Cancer Genome Atlas: http://cancergenome.nih.gov The Exome Project: http://www.nhlbi.nih.gov/resources/exome.htm Human Microbiome Project: http://nihroadmap.nih.gov/hmp Personal Genome Project: http://www.personalgenomes.org Craig Venter Institute: www.jcvi.org 
Descargar