The human genome El proyecto genoma humano El proyecto genoma humano El Proyecto Genoma Humano 1. Consorcio de 20 laboratorios públicos pertenecientes a 6 países. Liderado por F.S.Collins y E. Lander. 2. Discusión y debate en la comunidad científica 1984-1990. Iniciativa: Departament of Energy y National Institutes of Health (US). Comienzo del proyecto: 1990. Borrador: Oct 2000. Publicación: Feb 2001. Finalización: Octubre 2004. 3. Secuenciación aleatoria jerárquica (Hierarchical Shotgun Sequencing). 4. Material: DNA obtenido de donantes anónimos. La identidad de los donantes no es conocida (ni siquiera por ellos mismos). 5. Los datos se han hecho públicos a través de los bancos públicos de datos sin ninguna restricción a medida que se progresaba en el proyecto. 6. Publicación: Nature 409: 860-921 (15 febrero 2001); Nature 431: 931-945 (21 Octubre 2004). Estrategias de Secuenciación de genomas Aproximación Clon a clon (Consorcio público) Francis Collins Eric Lander Secuenciación del genoma (Aproximación aleatoria) J. Craig Venter Arquitectura del genoma de Haemophilus influenzae Tema 11: Genómica 6 Celera Sequencing Project 1. Celera Genomics. Empresa privada de biotecnología que dirige J. Craig Venter y cotiza en bolsa. 2. Anuncio del proyecto: 1998. Comienzo de la secuenciación: 8 Sep 1999. Finalización de la secuenciación: 17 Jun 2000. Ensamblaje del borrador: 1 Oct 2000. 3. Estrategia: Secuenciación aleatoria del genoma (Shotgun sequencing). 4. Material: Se reclutaron 21 donantes voluntarios. De ellos se seleccionaron 5 sujetos (dos hombres y tres mujeres): 2 caucásicos, un afroamericano, un asiático (chino) y un hispano (mejicano). 5. Condiciones para el acceso a los datos mediante acuerdo entre Science y Celera Genomics. Los datos está a disposición de los investigadores a partir de la fecha de publicación a través de la Web de Celera y con ciertas restricciones. 6. Publicación: Science 291: 1304-1351 (16 febrero 2001). Secuenciación de Genomas Hierarchical Shotgun Sequencing vs Shotgun Sequencing Hierarchical Shotgun Sequencing Ensamblaje de la secuencia Secuenciación de Genomas Hierarchical Shotgun Sequencing vs Shotgun Sequencing Shotgun Sequencing Ensamblaje de la secuencia Calidad de una secuencia • • • • P = Probabilidad de error de cada base Q = Calidad de una base Q = - 10 log P Al iniciar un proyecto de secuenciación es conveniente fijar cual es el objetivo: la calidad de la secuencia final a obtener. De ella depende la redundancia necesaria. • Borrador Q = 30; Secuencia final Q = 40 10 Niveles de ensamblado Strategy for whole-genome shotgun sequencing assembly Figure 13-6 Paired-end reads may be used to join two sequence contigs Secuenciación de un clon 100-200 kb • Fase 1. Secuenciación aleatoria – Construcción de una genoteca aleatoria en plásmido -> colección de clones 1-2 kb de tamaño promedio. – Secuenciación de uno o ambos extremos de un cierto número de clones -> colección de lecturas (“reads”). – Ensamblaje de las lecturas -> un cierto número de “contigs” con huecos (“gaps”) entre ellos. • Fase 2. Finalización (corrección de errores y rellenado de huecos mediante secuenciación dirigida) Secuenciación de un clon 100-200 kb • Base-calling. PHRED permite obtener la probabilidad de error de cada base. • Ensamblaje. PHRAP permite ensamblar las lecturas en contigs. • Edición. CONSED permite visualizar el ensamblaje y la secuencia consenso así como calcular la probabilidad de error de cada base en la secuencia consenso. • Finalización. AUTOFINISH permite dirigir toda la operación de finalización basándose en la calidad de cada base. Strategy for ordered-clone sequencing Figure 13-8 26 de Junio del 2000 Presentación de la Secuencia del genoma humano Estamos aprendiendo el lenguaje con el que Dios creó la vida. Aumenta nuestro asombro por la complejidad, la belleza y la maravilla del más sagrado y divino don de Dios. El genoma humano 15 y 16 de Febrero 2001: Publicación secuencia borrador del genoma humano Celera Generación del borrador Paisaje genómico amplio Variación en contenido GC Islas CpG Comparación de distancia genética y física Contenido de repeticiones Contenido de genes Análisis del proteoma Generación del borrador Paisaje genómico amplio Variación en contenido GC Paisaje genómico amplio Islas CpG Paisaje genómico amplio Comparación de distancia genética y física Paisaje genómico amplio Comparación de distancia genética y física Contenido de repeticiones Derivados de trasposones Pseudogenes procesados Repeticiones de secuencias sencillas Duplicaciones segmentales 10-300 kb Bloques de secuencias repetidas en tándem (centrómeros, telómeros,...) Derivados de trasposones Contenido de repeticiones Derivados de trasposones Elementos H. sapiens D. melanogaster C. elegans A. thaliana LINE/SINE 33.40% 0.70% 0.40% 0.50% LTR 8.10% 1.50% 0.00% 4.80% DNA 2.80% 0.70% 5.30% 5.10% Total 44.40% 3.10% 6.50% 10.50% Contenido de repeticiones Derivados de trasposones Variación en la distribución de repeticiones Trasposones como fuerza creativa Contenido de repeticiones Repeticiones de secuencias sencillas (micro y minisatélites) 3% genoma Contenido de repeticiones Duplicaciones segmentales 10-300 kb Intercromosómicas Intracromosómicas Contenido de repeticiones Duplicaciones segmentales 10-300 kb Intercromosómicas Intracromosómicas Genes que cifran RNA no codificador en el genoma humano Genes de RNA Número esperado tRNA Número Observado Genes relacionados (pseudogenes, fragmentos, parálogos) 1.310 497 324 18S rRNA 150-200 0 40 5.8S rRNA 150-200 1 11 28S rRNA 150-200 0 181 5S rRNA 200-300 4 520 snoRNA 97 84 645 snRNA (U1-U12) ?? 78 1542 4 3 773 7SL RNA Contenido de genes Genes detectados por el Consorcio del Proyecto Genoma Humano (Initial gene index, IGI) RNAs que codifican proteínas Método Número de genes Longitud promedio (aa) Genes conocidos (RefSeq/SwissProt/TrEMBL 14.882 469 Ensembl system (Genscan + similaridad con prot, EST y mRNA de cualquier organismo) + Genie 4.057 443 Ensembl 12.839 187 Total 31.778 352 Características de los genes humanos que codifican proteínas. Característica Mediana Promedio Tamaño muestra Tamaño exones 122 bp 145 bp 43.317 Número exones 7 8.8 3.501 Tamaño intrones 1.023 bp 3.365 bp 27.238 3’ UTR 400 bp 770 bp 689 (crom. 22) 5’ UTR 240 300 463 (crom. 22) 1.100 bp 1.340 bp 1.804 (CDS) 367 aa 447 aa Extensión genómica 14 kb 27 kb Secuencia codificadora 1.804 Comparación de los genes humanos con los de Caenorhabditis y Drosophila GC content and gene density DNA codificante (exones) 0.8% Intrones, 30.8% DNA intergénico DNA, 68.3% 5'UTR, 4.7% 3'UTR, 0.7% Human Proteome Ha habido un considerable aumento en la complejidad del proteoma desde las levaduras unicelulares hasta los vertebrados representado por los humanos pasando por los invertebrados multicelulares. A este aumento contribuyen cinco aspectos: 1. 2. 3. 4. 5. El genoma humano contiene un mayor número de genes; El proteoma humano contiene más familias de dominios y proteínas; El proteoma humano contiene más parálogos (expansión de familias); El proteoma humano contiene más proteínas multidominio con múltiples funciones; El proteoma humano contiene más arquitecturas de proteínas. Por lo tanto, la mayor complejidad del proteoma humano no es simplemente consecuencia de su tamaño sino también de la innovación de proteínas a gran escala. Proteome analysis: Categorization of the human gene catalog Comparación de proteínas entre genomas Distribución de homologías en proteínas humanas Distribución de homologías en proteínas humanas Mamíferos 14% Vertebrados no mamíferos vertebrados 6% Vertebrados y otros animales 27% Sólo humanos <1% Eucariota y procariota 23% Animales y otros eucariotas 29% Número de tipos de dominios distintos 2.000 Transmembrana Numero de dominios proteicos 1.800 Extracelular 1.600 Intracelular 1.400 1.200 1.000 800 400 200 0 Humano Mosca Gusano Levadura Arquitectura compleja de las proteínas humanas (acreción de dominios) Genomas mamíferos Homología entre los cromosomas humanos y los de ratón Genes de enfermedades posicionados Celera Secuenciación del genoma Verificación de las secuencias •Completitud • Exactitud •Validez del ensamblado Bases de datos del genoma humano Viajando a través del Genoma Humà Genoma humano en GenBank http://www.ncbi.nlm.nih.gov/ma pview/map_search.cgi?chr=hum _chr.inf&query= Visualizador del genoma humano http://www.ncbi.nlm.nih.gov/ge nome/guide/human/ Guia del genoma humano Ensembl http://www.ensembl.org/Homo_ sapiens/index.html Annotated human Genome sequence data UCSC http://genome.ucsc.edu/cgibin/hgGateway?hgsid=10076815 9&clade=vertebrate&org=0&db= 0 UCSC Genome Browser Bases de datos del genoma humano Viajando a través del Genoma Humà Genoma Humano (versión 21-Oct-2004) Genoma Humano (versión 21-Oct-2004) • Se han conseguido secuenciar 2.850 Mb (99% de la eucromatina). • La tasa de error es 1/100.000 bases. • Se ha reducido el número de “gaps” (huecos) de ~150.000 a sólo 341. • De ellos, 33 (total ~198 Mb) en la heterocromatina y 308 (total ~28 Mb) en la eucromatina. • Tamaño total: 2.850 + 198 + 28 = 3.080 Mb. • Número de genes: 20.000-25.000 (19.600 genes conocidos + 2.200 predicciones). • Pseudogenes: ~20.000. El proyecto ENCODE • El proyecto ENCODE (Encyclopedia od DNA elements) pretende identificar TODOS los elementos funcionales de la secuencia del genoma humano. • Fase piloto. Análisis detallado de 44 regiones discretas repartidas por todo el genoma que suman ~30 Mb (~1%). • Fase de desarrollo tecnológico. • Fase de producción. Aplicación de las técnicas desarrolladas en la fase anterior al conjunto del genoma. The human genome at ten (Nature 464 1 April 2010) Biology is complex Other “Big Biology” efforts •The International HapMap Project (2002-2005) •ENCyclopedia Of DNA Elements (ENCODE) (2003-2001) •Roadmap Epigenomic Programa (2008-2013) •Genome-wide Association Studies (GWAS) •Breathtaking technology -> Scientific progress •Gene and Gene regulation concepts are far more complex than ever imagined •Universe of non-coding DNA •The p53 network •Development into “modules” of genes •System biology as new discipline •Interdisciplinary teams •The sense that anything is scientifically possible