Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 Bioinformática en la era post-genómica Ascanio Rojas A. Centro Nacional de Cálculo Científico, ULA. CPTM. [email protected] Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 En esta Charla: • Introducción a la Bioinformática • Genómica • Uso de la información genética y Bases de datos • El futuro de la genómica Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 Un poco de historia - 1866 Gregor Mendel describe los mecanismos de la herencia 1868 Friedrich Miescher descubre el ADN en el núcleo 1909 El término ‘gen’ se usa por primera vez 1944 se identifica el ADN como el material de la herencia 1953 F. Crick J. Watson resuelven la estructura del ADN 1955 S. Ochoa y A. Körnberg descifran el código genético 1956 Identificados 23 pares de cromosomas humanos 1969 Se aísla el primer gen, en una bacteria. 1972 Stanley Cohen desarrolla la tecnología recombinante. 1977 F. Sanger, A. Maxam y W. Gilbert, desarrollan el método de secuenciación del ADN. - 1982 el NIH y Los Alamos National Laboratory establecen la base de datos GenBank, dando inicio a la bioinformática. - 1984 Se crean las primeras plantas transgénicas y se discute por primera vez el genoma humano - 1985 Un año después se inventa la técnica de la PCR - 1986 Se prueba la vacuna de Hepatitis B (Ing. Genética). Se inventa la primer equipo automático de secuenciación - 1989 Se identifican los Sequence-tagged sites (STS) - 1990 Inicia El Proyecto del Genoma Humano. - 1996 Secuenciado el genoma de la levadura de la cerveza. Nace en Escocia Dolly, el primer mamífero clonado. El único cordero resultante de 277 fusiones de óvulos. Es sacrificada el 14 de febrero de 2003. - 2003 Se publica la versión completa del genoma Humano. …continuará. Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 El ADN • El cuerpo humano tiene 100 trillones de células. • En el núcleo hay ~2 m de ADN enrollados en una estructura de unos 0,0001 cm, ordenados en 46 crosomomas. • Todo el ADN de estas células podría estirarse e ir y volver hasta el sol 600 veces (la secuencia llenaría 200 guías telefónicas de 500 páginas) Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 Que es la bioinformática? National Center for Biotechnology Information (NCBI, 2001): “Bioinformática es un campo de la ciencia en el cual confluyen varias disciplinas tales como: biología, computación y tecnología de la información. El fin último de este campo es facilitar el descubrimiento de nuevas ideas biológicas así como crear perspectivas globales a partir de las cuales se puedan discernir principios unificadores en biología. Al comienzo de la "revolución genómica", el concepto de bioinformática se refería sólo a la creación y mantenimiento de base de datos donde se almacena información biológica, tales como secuencias de nucleótidos y aminoácidos. …. Harvey y Mc. Meekin, 2002 Bioinformática es la aplicación del desarrollo de la computación y las matemáticas que permite la administración, análisis y comprensión de datos para resolver preguntas biológicas. (con conexiones a medi-, quimio-, neuro-, etc. informática). Modificado de: Center for Research on Innovation and Competition Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 Informática World Wide Web (Web o www.) o Red Global Mundial es un sistema de documentos de hipertexto o hipermedios enlazados y accesibles a través de Internet. Con un navegador Web se visualiza contenido en texto, imágenes, vídeos u otros contenidos multimedia, y navegar a través de ellas usando hiperenlaces. Creada en 1990 Tim BernersLee y Robert Cailliau en el CERN (Ginebra, Suiza) Una dirección IP es un número que identifica de manera lógica y jerárquica a una interfaz de un dispositivo (habitualmente una computadora) dentro de una red. IPv4 4.294.967.296 (232) direcciones de red diferentes IPv6 340.282.366.920.938.463.463.374.607.431.768.211.456 (2128 ó 340 sextillones) Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 Bases de datos en Bioinformática National Center for Biotechnology Information (NCBI) Creada en 1979 en the LANL (Los Alamos, CA). Mantenida desde 1992 NCBI (Bethesda, MD, USA). European Bioinformatics Institute (EBI) Creada en 1980 en The European Molecular Biology Laboratory in Heidelberg. Es mantenida por el EBI- Cambridge, desde 1994. GenomeNet Inició 1984, en the National Institute of Genetics (NIG) Mishima, Japón. Mantenida por Center for Information Biology and DNA Data Bank of Japan. Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 Genoma La totalidad del ADN de un organismo Fago λ Escherichia coli Levadura Caenorhabditis elegans Drosophila melanogaster Humano Mitocondrial humano 5×104 pb 4×106 pb 2×107 pb 8×107 pb 2×108 pb 3×109 pb 1.6×104 pb Genómica Conjunto de ciencias y técnicas dedicadas al estudio exhaustivo del funcionamiento, evolución y origen de los genomas. Los estudios genómicos se caracterizan por su interdisciplinaridad debido a que el gran número de datos generados que requiere de conocimientos biológicos, estadísticos e informáticos. Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 Números del Genoma Humano • Nuclear: 3.200 millones pb / Mitocondrial: 16.600 pb • ~38.000 genes (el doble que la mosca del vinagre, un tercio más que el gusano común y 5.000 genes más que la planta Arabidopsis) • 99,99% de código es compartido entre humanos (difieren en 1.250 letras) • 5 % del genoma codifica proteínas (se estima que existen ~300.000 proteínas). • 25 % de genoma no codifica nada o se desconoce su función Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 Secuenciación Es un conjunto de métodos y técnicas bioquímicas cuya finalidad es la determinación del orden de los nucleótidos (A, C, G y T) en un oligonucleótido de ADN. El método clásico de terminación de la cadena o método de Sanger. (Usando didesoxinucleótidos trifosfato –ddNTPs- como terminadores de la cadena de ADN). Se lee en ~700 pb en cada lectura, aunque no están agrupadas en cromosomas… Secuencia1 ACC AGA ATA CC Secuencia 2 TC CAG AAT AA Secuencia3 TA CCC GTG ATC CA AGG CAT ACC AGA ATA CCC GTG ATC CAG AAT AAG C Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 • A diferencia del sistema de Sanger (67.000 bases/hora), el nuevo método 454 puede determinar 20 millones bases en 4,5 horas. En 5 días se secuencia y anota el genoma de una bacteria completo • El costo por genoma decae: 300 millones $ en 2003, 1 millón $ en 2007, 60.000 $ 2009 y 5.000 dólares para mediados de año. • El Premio Archon X ha ofrecido 10 millones $ al grupo que logre secuenciar 100 genomas humanos en 10 días por 10.000 dólares o menos. PacBio (+1,000 bases) espera comercializar en 2010 máquinas de segunda generación que puede llevar a cabo la secuenciación del genoma por 1.000 dólares en 2013. Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 Estado actual de los Proyectos genomas • Grupos multidisciplinares • Interacción entre centros de investigación • Generación de una cantidad ingente de datos • Análisis complejos y Fechas ajustadas • Grandes presupuestos • Genomas anotados: 1865 • Proyectos Genomas: 11148 • Microbios: 299 • Arqueas: 206 • Bacterias: 6730 • Eucariotas: 2007 Last Update: 2018-06 @www.genomesonline.org Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 Números 600 millones de pb/año se añaden a bases de datos, haciendo que se duplique tamaño de las BD cada 14 meses aproximadamente Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 Fernández X. 2009 Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 Incidencia de la Bioinformática, la genómica y la filogenética Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 Science 2.0 “Collaborative Commons” Open Notebook Science Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 YouTube-EDU Más de 200 universidades Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 Nuevas tecnologías Nuevos retos Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 1000 Genomes Producirá más de 20TB de datos en secuencia... • Fase piloto. 60 muestras HapMap secuenciadas (low coverage) • Segunda fase piloto. Dos tríos de europeos y africanos (high coverage) • Tercera fase piloto. Secuenciando 1.000 genes en 1,000 individuos (high coverage). Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 Personal Genomics Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 La era post genómica Transcriptóma Un transcrito es una copia de RNA de un gen. El transcriptoma son todas las copias de RNA en una célula, tejido o individuo Proteómica El proteoma son todas las proteínas de una célula, tejido o individuo Metabolómica El metaboloma son todas las moléculas de una célula, tejido o individuo que producen las proteínas del proteoma. Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 Proteómica • Proteómica es el estudio a gran escala de proteínas, en particular de su estructura y función. Es considerada el siguiente paso en el estudio de un sistema biológico, luego de la genómica. • Es más complicada que la genómica debido a que el genoma es relativamente constante, el proteoma difiere de una célula a otra y de un momento a otro (más complejo en sistema eucariontes). • Matrix assisted laser desorption/ionization time-offlight mass spectrometry (MALDI-TOF-MS) • Electrospray fourier-transform ion cyclotron mass spectrometry (ESI-FTICR MS) http://www.proteinatlas.org Cantidad de genes: Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 Medicina genómica Uso rutinario de análisis genotípicos para mejorar el cuidado de la salud6 tiene sus pilares en la capacidad de conocer los SNPs de cada individuo y de modificar el medio ambiente en que este se desarrolla. • No es reactiva • Se • Predictiva y preventiva centra en individuos y poblaciones • Proviene de la genómica y otras ‘ómicas’ • Enfoque bioinformático apoyándose en nuevas tecnologías analíticas. Estudios de asociación genética (GWAS) Los estudios de “asociación genética” buscan establecer la relación estadística entre variables genéticas poblacionales y un fenotipo determinado (rasgo, riesgo de enfermedad, etc.) Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 Farmacogenómica Disciplina que estudia el efecto de la variabilidad genética de un individuo en su respuesta a determinados fármacos. Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 Ejemplos Cantidad de genes Parásito Total Analizado Único T. brucei 9,068 8,082 26 % T. cruzi 12,000 10,834 32 % L. major 8,311 7,624 12 % El proteoma general es bien conservado (mas de 6000 COGs compartidos) Tc y Lm (intracelulares) comparten mas genes Tc y Tb comparten mas que Lm La mayoría de los genes únicos son proteínas de superficie Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 Distribución de dominios proteicos 1617 Dominios proteicos (Pfam& TIGRFAM) • 73% presentes en otros eucariotas • 10% de archeobacteria • 17% de origen procariota Pocos dominios propios de grupo Menos de 5% únicos de una especie • L.major PF01187 o Macrophage migration inhibitory factor • T.brucei PF03238 o VSG expression site associated gene • T.cruzi PF05577 o Serine carboxipeptidase S28 Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 Ascanio Rojas A. Cátedra Scientiae. Facultad de Ciencias Universidad Industrial de Santander Bucaramanga-Colombia. 2011 Gracias… Ascanio Rojas A.