AGROBIOTECNOLOGIA CURSO 2015 Introducción a la Bioinformática Paula Fernandez [email protected] Departamento de Fisiología, Biología Molecular y Celular Facultad de Ciencias Exactas y Naturales Universidad de Buenos Aires - ¿Qué es la Bioinformática? Heurística • En computación, el objetivo fundamental es encontrar algoritmos que brinden soluciones con buenos tiempos de ejecución, usualmente las óptimas. • Las heurísticas generalmente son usadas cuando no existe una solución óptima bajo las restricciones dadas (tiempo, espacio, etc.). Algoritmos Un algoritmo es un conjunto de pasos que definen un proceso computacional; un programa es la implementación de un algoritmo. Puede haber varias implementaciones diferentes del mismo algoritmo, que deberían (pero puede que no) dar los mismos resultados. PROBLEMA: DEFINICIÓN ¿Cuáles son las principales aplicaciones en bioinformática? Source: GenomeWeb Survey 2010 Experimentación in-silico: cálculo e interpretación Podemos generar gran cantidad de datos. Resultados complejos provenientes de algoritmos complejos. Tiempos cortos (dependiendo del volumen de datos). Existen herramientas específicas muy útiles para realizar las tareas que se plantean con la pregunta biológica que queremos contestar. Es muy importante: Saber que pregunta queremos contestar. Saber que estamos haciendo con el software y en lo posible como lo hace. Saber que la salida del software es una cuenta, la interpretación de esa cuenta por parte nuestra es el verdadero resultado. Los resultados in-silico deben ser validados experimentalmente. En que estamos hoy … A partir de una ciencia experimental (con base en el laboratorio) la biología está siendo transformada en una ciencia de la información • La información acumulada no sólo es información genética (secuencias de DNA) – expresión de RNAs – interacción entre proteínas – estructuras tridimensionales • Cada vez más estudios comienzan con el análisis de bases de datos para luego formular hipótesis o diseñar experimentos • Cada vez más el trabajo de laboratorio culmina en la acumulación de colecciones masivas de datos que deben ser luego analizados • Equipamiento automatizado Projecto Genoma Humano (1990) Principales logros •Identificar todos los genes del genoma. •Determinar la secuencia de los 3 billones de nucleótidos que confirman el ADN humano. •Almacenar la información en bases de datos. •Desarrollar nuevas tecnologías y más eficientes. •Desarrollar herramientas para análisis de datos. •Conformación de ELSI (ethical, legal, and social issues) que comenzó con este proyecto. Generaciones en la secuenciación de ADN Then + Now 1st Gen Sanger •Low throughput •High cost •Accurate •Broad user base Sanger Now 2nd Gen -parallised •Optical •Amplification needed •Highly parallel •Improved cost and Throughput •More centralised users GAII (Solexa/Illumina) SOLiD (Agencourt/LIFE) FLX (454/Roche) Now + anticipated 2nd Gen -single mol or electronic •Optical •Single-molecule •Highly parallel •Cost similar •New applications •Or electronic, clonal Helicos Pacific Biosciences Ion Torrent (LIFE Starlight) Anticipated Next -single mol AND electronic •Direct electrical (no optics) •Single-molecule, highly parallel •Transformation of workflow •Designed to broaden user base, deliver step change in cost, power •New applications Nanopores Estimated cost of a human genome using these technologies $70M $200k --- $50k ---- $20k --- 15k--- ?$5k - $? INTRODUCCIÓN: ESTs INTRODUCCIÓN: ESTs Armando el rompecabezas del gen INTRODUCCIÓN: Contigs Ensamblado Constituye el primer paso computacional luego de la secuenciación. Es actualmente objeto de investigación ya que no es un problema totalmente resuelto. Problema general: “Armar” el genoma a patir de pequeños fragmentos (lecturas). Menor tamaño de lecturas Mayor gasto computacional. Algoritmos de ensamblado: Overlap layout consensus Grafos de De Brujin Lecturas largas Lecturas cortas Bases de ESTs http://www.ncbi.nlm.nih.gov/dbEST/dbEST_summary.html http://compbio.dfci.harvard.edu/tgi/ (exTIGR) Redes de Información Redes de información • Red Europea de Biología Molecular (EMBnet) – Red la laboratorios europeos de biocomputación. • Nodos nacionales • Nodos especialistas Redes de información • Centro Nacional (Americano) para la Información Biotecnológica (NCBI) – Suministrador líder americano de información. – Abanico de diferentes bases de datos accesibles a través de un interface único. Bases de datos Lab vs. Compus: Inicio de la minería de datos • Cada vez más estudios comienzan con el análisis de bases de datos para luego formular hipótesis o diseñar experimentos. • El trabajo de laboratorio culmina en la acumulación de colecciones masivas de datos que deben ser posteriormente analizados. Estructura y Transformación de los datos Transformación de los datos Reducción de la dimensionalidad Elección del método Clasificación Regresión Agrupamiento Conocimiento de la base de datos Algunas formas de guardar datos Texto plano / datos binarios Texto con formato Planillas de cálculo Texto estructurado Bases de datos jerárquicas Bases de datos relacionales 26 Tipos de datos • • • • • Numéricos (enteros, decimales) Texto Fechas (DD/MM/YYYY, HH:MM:SS) Lógicos (boolean) = verdadero / falso Geométricos (punto, línea, círculo, polígonos, etc.) Bases de datos: conceptos básicos: clave primaria gi 6226959 6226762 4557224 41 Accession NM_000014 NM_000014 NM_000014 X63129 version 3 2 1 1 date 01/06/2000 12/10/1999 04/02/1999 06/06/1996 Genbank Division taxid organims PRI 9606 homo sapiens PRI 9606 homo sapiens PRI 9606 homo sapiens MAM 9913 bos taurus Number of Chromosomes 22 diploid + X+Y 22 diploid + X+Y 22 diploid + X+Y 29+X+Y gi = Genbank Identifier: Clave única : Clave primaria Cambia con cada actualización del registro correspondiente a la secuencia Accession Number: Clave secundaria Refiere al mismo locus y secuencia, a pesar de los cambios en la secuencia. Accession + Version es equivalente al gi (representa un identificador único) Ejemplo: AF405321.2 Accession: AF405321 Version: 2 Búsquedas en una base de datos: índices Para facilitar las búsquedas en una base de datos, se construyen índices. Un índice es una lista de claves primarias asociadas a un determinado campo (o grupo de campos). Un ejemplo más complejo: buscar todos los records que contengan la palabra ‘kinase’ en la descripción de la secuencia. Búsquedas en una base de datos: índices Para facilitar las búsquedas en una base de datos, se construyen índices. Un índice es una lista de claves primarias asociadas a un determinado campo (o grupo de campos) Un ejemplo más complejo: buscar todos los records que contengan la palabra ‘kinase’ en la descripción de la secuencia Sistemas de búsqueda avanzada: GQuery Recuperación y almacenamiento de secuencias específicas Qquery System: Text Searches Uso de GQUery • Entrez es un sistema de búsqueda y adquisición de información integrada de las distintas bases de datos de NCBI: Secuencias proteicas Secuencias nucleotídicas Estructuras macromoleculares Genomas y mapas de genes Literatura científica (MEDLINE) Uso de GQUery AND / OR / NOT Delimitadores booleanos. En mayúsculas Affiliation [AD] Lugar en el que se ha hecho el trabajo (Univ. Buenos Aires) All fields [ALL] En cualquier campo Author name [AU] Nombre del autor. Formato: Smith JL [AU], sin comas ni puntos EC/RN Number [RN] Número asignado a una enzima por la Comisión de Enzimas Entrez Date [EDAT] Fecha de incorporación a Entrez Issue [IP] Ejemplar del volumen de una revista Journal Title [TA] Título de la revista: entero, abreviatura MEDLINE o número ISSN [molecular biology of the cell] [mol biol cell], sin puntos Language [LA] Idioma: English, French, German, Italian, Japanese MeSH Terms [MH] Medical Subject Headings (19000 términos, actualizados y clasificados) Uso de GQUery Genómica aplicada a la medicina clínica Uso de GQUery Uso de GQUery Uso de GQUery The NCBI ftp site 30,000 files per day 620 Gigabytes per day GenBank File Formats ASN.1 – The Raw Data XML FASTA flat file GenBank • • • • Redundante (es un Banco, no busca unificar datos) Con errores Difícil de actualizar Para poder corregir, mejorar y mantener actualizada la anotación de los registros, el NCBI creó RefSeq (colección curada de registros de GenBank) – toma records de GenBank y los actualiza/corrije – unifica para reducir redundancia – Accession numbers del tipo XX_123456 Bases de datos secundarias Una base de datos secundaria contiene información derivada de otras fuentes (primarias, entre otras). Refseq (Colección curada de GenBank en NCBI). Síntesis de información, no datos primarios. Grupo particular en momento determinado. Unigene (Clustering de ESTs en NCBI). Las bases de datos organismo-específicas son en general una mezcla entre primaria y secundaria. RefSeq: Base de datos secundaria mRNAs and Proteins NM_123456 NP_123456 NR_123456 XM_123456 XP_123456 XR_123456 Gene Records NG_123456 Chromosome NC_123455 NT_123456 NW_123456 Curated mRNA Curated Protein Curated non-coding RNA Predicted mRNA Predicted Protein Predicted non-coding RNA Reference Genomic Sequence Microbial replicons, organelles Contig WGS Supercontig Anotando el gen Genomic DNA (NC, NT, NW) Scanning.... Model mRNA (XM) (XR) Curated mRNA (NM) (NR) RefSeq Genbank Sequences Model protein (XP) = ?! Curated Protein (NP) GO vs MapMan Klie & Nikoloskie (2013), Front. Genetics 3:115 Blast significativos a factores de transcripción utilizando “Plant Transcription Factor Database” (http://plntfdb.bio.uni-potsdam.de/v3.0/). Tiempo pre-antesis. WGCNA 0 AP2-EREBP WRKY MYB NAC bZIP C3H Orphans ARF CCAAT bHLH GRAS MYB-related E2F-DP EIL HSF OFP ABI3VP1 Sigma70-like MADS zf-HD C2C2-GATA HB LIM AP2/DREB3 DBP FHA G2-like mTERF RWP-RK Trihelix 2 Número de genes 4 6 8 10 12 14 ATOFP2 ATERF3 SIG2 MYB78 GBF4 MADS-box ANAC055 Estudio integrador relacionado a la senescencia foliar en girasol Campo control: Tiempo 1 vs Tiempo 0 (Moschen et al Plant Biotech J. 2015) Weighted Gene Correlation Network Analysis (WGCNA) Vs. BioSignature Discoverer WGCNA: • Paquete de R diseñado para identificar clusters (módulos) de genes o metabolitos altamente correlacionados. • Cada módulo a menudo representa un proceso biológico específico. • Genes «hubs» altamente conectados dentro de un módulo dan indicio de genes reguladores y representan potenciales genes candidatos. BioSignature Discoverer (BioSD): • Paquete de R (y plug in de CLC BIO) que permite la identificación de “molecular signatures” en diferentes tipos de datos biológicos como Next Generation Sequencing, microarray y perfiles metabólicos. • Utiliza un algoritmo de selección característico de modelos bayesianos, basada en restricciones de aprendizaje y que es capaz de identificar múltiples «signatures», estadísticamente equivalentes. • Identifica los genes y/o metabolitos mas informativos que pueden discriminar entre dos condiciones diferentes. WGCNA Genes Metabolitos Bases primarias vs. secundarias Algorithms Sequencing Centers GenBank Updated ONLY by submitters INV VRT PHG VRL UniSTS EST STS GSS HTG UniGene Updated continually by NCBI RefSeq: Annotation Pipeline PRI ROD PLN MAM BCT Curators Labs RefSeq: Gene and Genomes Pipelines TATAGCCG AGCTCCGATA CCGATGACAA Bioinformática Siempre que sea posible, debe emplearse un abanico de métodos de análisis diferentes, y los resultados deberían unirse con toda la información biológica disponible. Lista de bases de datos de biología molecular en NAR http://nar.oupjournals.org/content/ vol28/issue1/