Genómica. Lección 1. Vectores y genotecas

Anuncio
The human genome
El proyecto
genoma
humano
El proyecto genoma humano
El Proyecto Genoma Humano
1. Consorcio de 20 laboratorios públicos pertenecientes a 6
países. Liderado por F.S.Collins y E. Lander.
2. Discusión y debate en la comunidad científica 1984-1990.
Iniciativa: Departament of Energy y National Institutes of
Health (US). Comienzo del proyecto: 1990. Borrador: Oct
2000. Publicación: Feb 2001. Finalización: Octubre 2004.
3. Secuenciación aleatoria jerárquica (Hierarchical Shotgun
Sequencing).
4. Material: DNA obtenido de donantes anónimos. La
identidad de los donantes no es conocida (ni siquiera por
ellos mismos).
5. Los datos se han hecho públicos a través de los bancos
públicos de datos sin ninguna restricción a medida que se
progresaba en el proyecto.
6. Publicación: Nature 409: 860-921 (15 febrero 2001); Nature
431: 931-945 (21 Octubre 2004).
Estrategias de Secuenciación de genomas
Aproximación Clon a clon
(Consorcio público)
Francis Collins
Eric Lander
Secuenciación del genoma (Aproximación aleatoria)
J. Craig Venter
Arquitectura
del genoma de
Haemophilus
influenzae
Tema 11: Genómica
6
Celera Sequencing Project
1. Celera Genomics. Empresa privada de biotecnología que
dirige J. Craig Venter y cotiza en bolsa.
2. Anuncio del proyecto: 1998. Comienzo de la secuenciación:
8 Sep 1999. Finalización de la secuenciación: 17 Jun 2000.
Ensamblaje del borrador: 1 Oct 2000.
3. Estrategia: Secuenciación aleatoria del genoma (Shotgun
sequencing).
4. Material: Se reclutaron 21 donantes voluntarios. De ellos se
seleccionaron 5 sujetos (dos hombres y tres mujeres): 2
caucásicos, un afroamericano, un asiático (chino) y un
hispano (mejicano).
5. Condiciones para el acceso a los datos mediante acuerdo
entre Science y Celera Genomics. Los datos está a
disposición de los investigadores a partir de la fecha de
publicación a través de la Web de Celera y con ciertas
restricciones.
6. Publicación: Science 291: 1304-1351 (16 febrero 2001).
Secuenciación de Genomas
Hierarchical Shotgun Sequencing
vs
Shotgun Sequencing
Hierarchical
Shotgun
Sequencing
Ensamblaje
de la
secuencia
Secuenciación de Genomas
Hierarchical Shotgun Sequencing
vs
Shotgun Sequencing
Shotgun
Sequencing
Ensamblaje
de la
secuencia
Calidad de una secuencia
•
•
•
•
P = Probabilidad de error de cada base
Q = Calidad de una base
Q = - 10 log P
Al iniciar un proyecto de secuenciación es
conveniente fijar cual es el objetivo: la
calidad de la secuencia final a obtener. De
ella depende la redundancia necesaria.
• Borrador Q = 30; Secuencia final Q = 40
10
Niveles de ensamblado
Strategy for whole-genome shotgun sequencing assembly
Figure 13-6
Paired-end reads may be used to join two sequence contigs
Secuenciación de un clon
100-200 kb
• Fase 1. Secuenciación aleatoria
– Construcción de una genoteca aleatoria en plásmido ->
colección de clones 1-2 kb de tamaño promedio.
– Secuenciación de uno o ambos extremos de un cierto
número de clones -> colección de lecturas (“reads”).
– Ensamblaje de las lecturas -> un cierto número de
“contigs” con huecos (“gaps”) entre ellos.
• Fase 2. Finalización (corrección de errores y
rellenado de huecos mediante secuenciación
dirigida)
Secuenciación
de un clon 100-200 kb
• Base-calling. PHRED permite obtener la
probabilidad de error de cada base.
• Ensamblaje. PHRAP permite ensamblar las
lecturas en contigs.
• Edición. CONSED permite visualizar el
ensamblaje y la secuencia consenso así como
calcular la probabilidad de error de cada base en
la secuencia consenso.
• Finalización. AUTOFINISH permite dirigir toda la
operación de finalización basándose en la calidad
de cada base.
Strategy for ordered-clone sequencing
Figure 13-8
26 de Junio del 2000
Presentación de la
Secuencia del
genoma humano
Estamos aprendiendo el
lenguaje con el que Dios
creó la vida. Aumenta
nuestro asombro por la
complejidad, la belleza y la
maravilla del más sagrado y
divino don de Dios.
El genoma humano
15 y 16 de Febrero 2001: Publicación secuencia borrador
del genoma humano
Celera
Generación del borrador
Paisaje genómico amplio
Variación en contenido GC
Islas CpG
Comparación de distancia genética y física
Contenido de repeticiones
Contenido de genes
Análisis del proteoma
Generación del borrador
Paisaje genómico amplio
Variación en contenido GC
Paisaje genómico amplio
Islas CpG
Paisaje genómico amplio
Comparación de distancia genética y física
Paisaje genómico amplio
Comparación de distancia genética y física
Contenido de repeticiones
Derivados de trasposones
Pseudogenes procesados
Repeticiones de secuencias sencillas
Duplicaciones segmentales 10-300 kb
Bloques de secuencias repetidas en tándem (centrómeros,
telómeros,...)
Derivados de trasposones
Contenido de repeticiones
Derivados de trasposones
Elementos
H. sapiens
D. melanogaster
C. elegans
A. thaliana
LINE/SINE
33.40%
0.70%
0.40%
0.50%
LTR
8.10%
1.50%
0.00%
4.80%
DNA
2.80%
0.70%
5.30%
5.10%
Total
44.40%
3.10%
6.50%
10.50%
Contenido de repeticiones
Derivados de trasposones
Variación en la distribución de repeticiones
Trasposones como fuerza creativa
Contenido de repeticiones
Repeticiones de secuencias sencillas (micro y minisatélites)
3% genoma
Contenido de repeticiones
Duplicaciones segmentales 10-300 kb
Intercromosómicas
Intracromosómicas
Contenido de repeticiones
Duplicaciones segmentales 10-300 kb
Intercromosómicas
Intracromosómicas
Genes que cifran RNA no codificador en el genoma humano
Genes de
RNA
Número
esperado
tRNA
Número
Observado
Genes relacionados
(pseudogenes, fragmentos,
parálogos)
1.310
497
324
18S rRNA
150-200
0
40
5.8S rRNA
150-200
1
11
28S rRNA
150-200
0
181
5S rRNA
200-300
4
520
snoRNA
97
84
645
snRNA (U1-U12)
??
78
1542
4
3
773
7SL RNA
Contenido de genes
Genes detectados por el Consorcio
del Proyecto Genoma Humano
(Initial gene index, IGI)
RNAs que codifican proteínas
Método
Número
de genes
Longitud
promedio (aa)
Genes conocidos
(RefSeq/SwissProt/TrEMBL
14.882
469
Ensembl system (Genscan + similaridad
con prot, EST y mRNA de cualquier
organismo) + Genie
4.057
443
Ensembl
12.839
187
Total
31.778
352
Características de los genes humanos que codifican proteínas.
Característica
Mediana
Promedio
Tamaño muestra
Tamaño exones
122 bp
145 bp
43.317
Número exones
7
8.8
3.501
Tamaño intrones
1.023 bp
3.365 bp
27.238
3’ UTR
400 bp
770 bp
689 (crom. 22)
5’ UTR
240
300
463 (crom. 22)
1.100 bp
1.340 bp
1.804
(CDS)
367 aa
447 aa
Extensión genómica
14 kb
27 kb
Secuencia codificadora
1.804
Comparación de los genes humanos
con los de Caenorhabditis y
Drosophila
GC content and gene density
DNA codificante (exones)
0.8%
Intrones,
30.8%
DNA intergénico
DNA, 68.3%
5'UTR, 4.7%
3'UTR, 0.7%
Human Proteome
Ha habido un considerable aumento en la complejidad del proteoma
desde las levaduras unicelulares hasta los vertebrados representado
por los humanos pasando por los invertebrados multicelulares.
A este aumento contribuyen cinco aspectos:
1.
2.
3.
4.
5.
El genoma humano contiene un mayor número de genes;
El proteoma humano contiene más familias de dominios y proteínas;
El proteoma humano contiene más parálogos (expansión de
familias);
El proteoma humano contiene más proteínas multidominio con
múltiples funciones;
El proteoma humano contiene más arquitecturas de proteínas.
Por lo tanto, la mayor complejidad del proteoma humano no es
simplemente consecuencia de su tamaño sino también de la innovación
de proteínas a gran escala.
Proteome analysis:
Categorization of the human gene catalog
Comparación
de proteínas
entre genomas
Distribución
de homologías
en proteínas humanas
Distribución de homologías en proteínas humanas
Mamíferos
14%
Vertebrados no
mamíferos
vertebrados
6%
Vertebrados y otros
animales
27%
Sólo humanos
<1%
Eucariota
y
procariota
23%
Animales y otros
eucariotas
29%
Número de tipos de dominios distintos
2.000
Transmembrana
Numero de dominios proteicos
1.800
Extracelular
1.600
Intracelular
1.400
1.200
1.000
800
400
200
0
Humano
Mosca
Gusano
Levadura
Arquitectura compleja de las proteínas
humanas (acreción de dominios)
Genomas
mamíferos
Homología entre los
cromosomas humanos
y los de ratón
Genes de
enfermedades
posicionados
Celera
Secuenciación del genoma
Verificación de
las secuencias
•Completitud
• Exactitud
•Validez del
ensamblado
Bases de datos del genoma humano
Viajando a través del Genoma Humà
Genoma
humano en
GenBank
http://www.ncbi.nlm.nih.gov/ma
pview/map_search.cgi?chr=hum
_chr.inf&query=
Visualizador del genoma
humano
http://www.ncbi.nlm.nih.gov/ge
nome/guide/human/
Guia del genoma humano
Ensembl
http://www.ensembl.org/Homo_
sapiens/index.html
Annotated human Genome
sequence data
UCSC
http://genome.ucsc.edu/cgibin/hgGateway?hgsid=10076815
9&clade=vertebrate&org=0&db=
0
UCSC Genome Browser
Bases de datos del genoma humano
Viajando a través del Genoma Humà
Genoma Humano (versión 21-Oct-2004)
Genoma Humano (versión 21-Oct-2004)
• Se han conseguido secuenciar 2.850 Mb (99% de la
eucromatina).
• La tasa de error es 1/100.000 bases.
• Se ha reducido el número de “gaps” (huecos) de
~150.000 a sólo 341.
• De ellos, 33 (total ~198 Mb) en la heterocromatina y 308
(total ~28 Mb) en la eucromatina.
• Tamaño total: 2.850 + 198 + 28 = 3.080 Mb.
• Número de genes: 20.000-25.000 (19.600 genes
conocidos + 2.200 predicciones).
• Pseudogenes: ~20.000.
El proyecto ENCODE
• El proyecto ENCODE (Encyclopedia od
DNA elements) pretende identificar
TODOS los elementos funcionales de la
secuencia del genoma humano.
• Fase piloto. Análisis detallado de 44
regiones discretas repartidas por todo el
genoma que suman ~30 Mb (~1%).
• Fase de desarrollo tecnológico.
• Fase de producción. Aplicación de las
técnicas desarrolladas en la fase anterior
al conjunto del genoma.
The human genome at ten
(Nature 464 1 April 2010)
Biology is complex
Other “Big Biology” efforts
•The International HapMap Project (2002-2005)
•ENCyclopedia Of DNA Elements (ENCODE) (2003-2001)
•Roadmap Epigenomic Programa (2008-2013)
•Genome-wide Association Studies (GWAS)
•Breathtaking technology -> Scientific progress
•Gene and Gene regulation concepts are far more
complex than ever imagined
•Universe of non-coding DNA
•The p53 network
•Development into “modules” of genes
•System biology as new discipline
•Interdisciplinary teams
•The sense that anything is scientifically possible
Descargar