UNIVERSIDAD NACIONAL DE COLOMBIA INSTITUTO DE BIOTECNOLOGÍA Centro de Bioinformática SECUENCIAS ETIQUETADAS DE EXPRESIÓN Expressed Sequence Tags (EST) EMILIANO BARRETO H. Profesor Asociado D.E Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique LF-2002.10 UNIVERSIDAD NACIONAL DE COLOMBIA INSTITUTO DE BIOTECNOLOGÍA Centro de Bioinformática SECUENCIAS ETIQUETADAS DE EXPRESIÓN Expressed Sequence Tags (EST) DNA cromosomal Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique ¿ ? ANALISIS ¿Identificación Genes? LF-2002.10 1 Secuencias Etiquetadas de Expresión (EST) Qué son los ESTs? Problema de Calidad (única lectura) Limpieza (vector clipping, filtrado de contaminación, repeat masking) Agrupamiento Ensamblaje de contigs Indices de Genes Bases de Datos Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique LF-2002.10 Secuencias Etiquetadas de Expresión (EST) ESTs representan secuencias parciales de clones de cDNA (en promedio ~ 360 pb). Única lectura a partir de los extremos 5’ y/o 3’ de los clones de cDNA. Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique LF-2002.10 2 Cromatogramas Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique LF-2002.10 Interés de los ESTs ESTs representan el examen disponible más extenso de la porción transcrita de los genomas. ESTs son imprescindibles para la predicción de la estructura del gen, el descubrimiento de genes y mapeo genómico. Caracterización de las variantes de splicing y de poliadenilación alternativa. Estudios de expresión génica y exhibición diferencial in silico (expresión específica en tejido, estado normal/enfermedad). Explotación (data mining) de los datos de SNP. Producción de datos con alto-rendimiento de procesamiento y en grandes cantidades y a bajo costo. Hay 16,626,752 de entradas de EST en GenBank (dbEST) (Mayo 9, 2003 ): 5,142,390 entradas 3,721,428 entradas de ESTs humano; del ratón ESTs;... Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique LF-2002.10 3 Baja Calidad de los Datos de ESTs Altas tasas de error (~ 1/100) debido a la lectura de la secuencia una sola vez. Compresión de la secuencia y errores por cambios en el marco debido a la lectura de la secuencia una sola vez. Un EST representa solamente una secuencia parcial del gen. No es un producto gen/proteína definido. No esta curado Alta redundancia en los datos - > número enorme de secuencias a analizar. Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique LF-2002.10 Mejoramiento de ESTs: Agrupamiento, ensamblaje e índices de genes El valor de ESTs es realzado por agrupamiento (clustering) y ensamblaje (assembling). Solucionar la redundancia puede ayudar a corregir errores; Secuencias más grandes y mejor anotadas; Fácil asociación a los mRNAs y a las proteínas; pocas secuencias a analizar; Detección de las variantes del empalme; Menor número de secuencias para analizar; Índices génicos: Todas las secuencias expresadas (como ESTs) por un único gen son agrupados en una sola clase del índice, y cada clase del índice contiene la información de un solo gen. Diversos procedimientos de agrupamiento y ensamblaje se han propuesto con las base de datos relacionadas (índices del gene): UniGene (http://www.ncbi.nlm.nih.gov/UniGene) TIGR (http://www.tigr.org/tdb/tgi.shtml) TACK (http://www.sambi.ac.za/Dbases.html) Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique LF-2002.10 4 Agrupamiento de EST Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique LF-2002.10 Pre-procesamiento: Fuente de datos Las fuentes de datos para agrupar pueden ser bases de datos públicas internos, propietaria, o un híbrido de estas (cromatogramas y/o archivos de secuencia). Cada EST debe tener la información siguiente: Una secuencia AC/ID (ex secuencia-funcione la identificación); Localización con respecto a la cola poliA (3’ or 5’); La identificación del CLON (CLONE ID )del cual se ha generado el EST Organismo; Tejido y/o condiciones; La secuencia. El EST se puede almacenar en formato de FASTA : >T27784 EST16067 Human Endothelial cells Homo sapiens cDNA 5’ C C C C C GT CTCTTTAAAAATATATATATTTTAAATATACTTAAATATATATTTCTAATA TC TTTAAATATATATATATATTTNAAA G AC CAATTTAT G G G A G A NTT G CA CACA G AT GT G AA AT GAAT GTAATCTAATA GA N G C CTAATCA G C C CA C CATGTTCTC CA CT G AAAAATC CTCT TTCTTTG G G GTTTTTCTTTCTTTCTTTTTTGATTTTG CACT G G A C G GT G A C GT CA G C CAT GTA CA G G ATC CACA G G G GT G GT GTCAAAT G CTATT G AAATTNT GTT GAATTGTAT ACTTT Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique TTCACTTTTTGATAATTAAC CAT GTAAAAAAT GAA C G C TACTACTATA GTAG AATT G LF-2002.10 AT 5 Pre-procesamiento: Pasos Esenciales El proceso previo del EST consiste de varios pasos esenciales para reducir al mínimo la probabilidad de agrupar secuencias sin relación. Extraer regiones de baja calidad: Lecturas de secuencias de baja calidad son propensas a error. Los programas como Phred (Ewig et al., 98) leen los cromatogramas (nombramiento de bases) y determinan un valor de calidad para cada nucleótido. Extraer contaminaciones (tRNA, rRNA, mitoDNA). Extraer secuencias del vector (truncamiento del vector). Extraer secuencias repetidas (enmascaramiento de repeticiones). Extraer secuencias de baja complejidad. El software especializado está disponible para estas tareas: RepeatMasker (Smit and Green, http://ftp.genome.washington.edu/RM/RepeatMasker.html); VecScreen (http://www.ncbi.nlm.nih.gov/VecScreen); Lucy (Chou and Holmes, 01); ... Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique LF-2002.10 Pre-procesamiento: Eliminación del vector Eliminación del Vector Las secuencias del vector pueden sesgar el agrupamiento, incluso si hay pequeños fragmentos del vector en cada lectura. Eliminación de regiones 5’ y 3’ que corresponden al vector usado para el clonaje La detección de secuencias del vector no es una tarea trivial, porque normalmente estan en regiones de baja calidad de la secuencia. UniVec -> base de datos no-redundante (NCBI) de vectores : Hallazgo y Eliminación: http://www.ncbi.nlm.nih.gov/VecScreen/UniVec.html Contaminantes ADN bacteriano, ADN de levadura, y otras contaminantes; Los programas de la alineamiento pareado estándar se utilizan para la detección del vector y de otros contaminantes (por ejemplo cross-match, BLASTN, FASTA). Son razonablemente rápidos y exactos. Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique LF-2002.10 6 Pre-procesamiento: Enmascaramiento de repeticiones Algunos elementos repetitivos encontrados en el genoma humano: Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique LF-2002.10 Pre-procesamiento: Enmascaramiento de repeticiones Elementos repetidos: Representan una gran parte del genoma de los mamíferos Se encuentran en muchos genomas (las plantas...) Inducen errores en el agrupamiento y ensamblaje. Deben ser enmascarados, no eliminados, para evitar un falso ensamblaje. de la secuencia . ...pero son también elementos interesantes para los estudios evolutivos.. SSRs son importantes para busqueda de enfermedades. . RepeatMasker se MaskerAid Herramientas para encontrar repeticiones : ha desarrollado para encontrar elementos repetitivos y secuencias de baja complejidad. Utiliza el programa cross-match para los alineamientos pareados http://repeatmasker.genome.washington.edu/cgi-bin/RepeatMasker cross-match mejora la velocidad de RepeatMasker ~ 30 veces usando http://sapiens.wustl.edu/maskeraid http://www.girinst.org/Repbase Update.html WU-BLAST en vez RepBase es una base de datos de secuencias típicas representantes del ADN repetido de diversas especies eucarióticas Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique LF-2002.10 7 Pre-procesamiento: Regiones de Baja Complejidad Las secuencias de baja complejidad tienen cierta tendencia en su composición nucleotídica (zonas polyA, repeticiones AT, etc.). Las regiones de baja complejidad disminuyen la calidad de los miembros del grupo. Las estrategias de agrupamiento que emplean alineación por semejanza en su primer paso, son muy sensibles a las secuencias de baja complejidad. Algunas estrategias de agrupamiento no son sensibles a secuencias de baja complejidad, porque clasifican las secuencias con base en su contenido de información (ej: d2-cluster). Programs as (NCBI) can be used to mask low complexity regions. Los programas como DUST (NCBI) se pueden utilizar para enmascarar regiones de baja complejidad. Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique LF-2002.10 Pre-procesamiento: Resumen Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique LF-2002.10 8 Agrupamiento de EST La meta del proceso de agrupamiento es incorporar en un solo grupo, ESTs sobrelapados que se marcan como el mismo transcripto del mismo gen. Para el agrupamiento, se mide la semejanza (distancia) entre 2 secuencias. La distancia se reduce a un valor binario simple: acepta o rechaza dos secuencias en el mismo grupo. La semejanza se puede medir usando diversos algoritmos: Algoritmos de alineamiento pareado: Smith-Waterman es el el más sensible, pero lento (ej: cross-match); Los algoritmos heurísticos como BLAST y FASTA sacrifican sensibilidad por rápidez ara los de la velocidad Métodos de puntaje no basados en alineamiento: Algoritmo de agrupamiento D2 : basado en la comparación y la composición de la palabra (identidad y multiplicidad de palabra) (burke et al., 99). No se realiza ningún alineamiento -> rápido Métodos de Pre-indexación Métodos de agrupamiento basados en alineamientos construidos a propósito. Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique LF-2002.10 Agrupamiento riguroso y débil Agrupamiento riguroso: Mayor fidelidad inicial; Un paso Baja cobertura de los datos del gen expresado; Baja inclusión en el grupo de las formas del gen expresado; Un consenso más corto. Agrupamiento débil: Baja fidelidad inicial; Múltiples pasos; Mayor cobertura de los datos del gen expresado Mayor inclusión en el grupo de formas alternas expresadas Un consenso más grande; Riesgo de incluir parálogos en el mismo índice del gene. Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique LF-2002.10 9 Agrupamiento Supervisado y no supervisado de EST Agrupamiento Supervisado Agrupamiento no supervisado ESTs se clasifican con respecto a secuencias conocidas o “semillas” (mRNAs de longitud total, constructos de exones de secuencias genómicas, grupos consenso de EST ensamblados previamente). ESTs se clasifican sin ningún conocimiento previo. Los tres índices génicos principales utilizan diversos métodos de agrupamiento de EST: El índice génico de TIGR utiliza un método de agrupamiento riguroso y supervisado, que genera secuencias consenso más cortas y separan variantes de splicing. STACK utiliza un método débil y no supervisado de agrupamiento, produciendo secuencias consenso más largas e incluyendo variantes de splicing en el mismo índice. Una combinación de métodos supervisados y no supervisados con niveles variables de rigor (astringencia) se utilizan en UniGene. No se produce ninguna secuencia consenso. Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique LF-2002.10 Ensamblaje y procesamiento Un alineamiento múltiple para cada grupo se puede generar (ensamblaje) y para las secuencias consenso generadas (procesamiento). Varios programas están disponibles para el ensamblaje y procesamiento : PHRAP (http://www.genome.washington.edu/UWGC/analysistools/Phrap.cfm); TIGR ASSEMBLER (Sutton et al., 95); CRAW (Burke et al., 98); ... El ensamblaje y procesamiento producen secuencias y singletons consenso (útiles para visualizar variantes de splicing). Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique LF-2002.10 10 Enasamblaje del Cluster Todo los ESTs generados de la misma copia de cDNA corresponden a un solo gene. La información original de la copia de la DNA está por lo general disponible (~ el 90%). Usando la información del clon de cDNA y de la lectura 5´- 3´, los grupos pueden ser ensamblados. Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique LF-2002.10 Unigene UniGene Gene Indices available for a number of organisms. UniGene clusters are produced with a supervised procedure: ESTs are clustered using GenBank CDSs and mRNAs data as ”seed” sequences. No attempt to produce contigs or consensus sequences. UniGene uses pairwise sequence comparison at various levels of stringency to group related sequences, placing closely related and alternatively spliced transcripts into one cluster. UniGene web site: http://www.ncbi.nlm.nih.gov/UniGene. Índices de genes de UniGene están disponibles para varios organismos. Los grupos de UniGene se producen con un procedimiento supervisado: Los ESTs se agrupan usando CDSs del GenBank y datos de los mRNAs como secuencias semilla. No se trata de producir contigs o secuencias consenso. UniGene utiliza comparación pareada de secuencias en varios niveles de astringencia para agrupar secuencias relacionadas, colocando los transcriptos cercanamente relacionados y empalmados alternativamente en un mismo grupo. Sitio Web de UniGene: http://www.ncbi.nlm.nih.gov/UniGene. Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique LF-2002.10 11 Procedimiento con Unigene Búsqueda de contaminantes, repeticiones y regiones de baja complejidad en el GenBank. la Baja-complejidad se detecta usando Dust. Los contaminantes (secuencias bacterianas, mitocondriales, ribosomales, del vector, del linker) se detectan usando programas de alineamiento pareado. Enmascaramiento de regiones repetidas (RepeatMasker). Solamente las secuencias con por lo menos 100 bases informativas se aceptan Procedimiento de agrupamiento. Construir de grupos de genes y mRNAs (GenBank). Agregar ESTs a los grupos anteriores (megablast). Desechar los ESTs que se unan a dos grupos de genes/mRNAs. Desechar cualquier grupo que resulte sin señal de poliadenilación o con por lo menos dos ESTs 3´. Los grupos resultantes llamados grupos anclados desde su extremo 3´, son supuestamente conocidos. Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique LF-2002.10 Procedimiento con Unigene (2) Asegurar los ESTs 5´ y 3´ del mismo clon de cDNA pertenecientes al mismo grupo. ESTs que no se han agrupado, se procesan de nuevo con un nivel inferior del astringencia. Los ESTs añadidos durante este paso son llamados miembros huésped. Los grupos de tamaño 1 (contienen una sola secuencia) se comparan contra el resto de los grupos con un nivel inferior del astringencia y se combinan con el grupo que contiene la secuencia más similar. Para cada estructura de la base de datos, los IDs de grupo cambian si los grupos están partidos o combinados. Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique LF-2002.10 12 Indice de Genes TIGR TIGR produce índices de genes para varios organismos (http://www.tigr.org/tdb/tgi). Se producen usando métodos estrictos de agrupamiento supervisado. Los grupos están ensamblados en secuencias consenso llamadas secuencias consenso tentativas (TC), que representan los transcriptos subyacentes de mRNA. Los métodos de construcción de los índices de genes de TIGR agrupan firmemente secuencias altamente relacionadas y descartan las secuencias “ruidosas”, divergentes o poco representativas. Características de los índices de genes de TIGR: Separa los genes relacionados cercanamente en secuencias consenso distintas; Separa las variantes de splicing en grupos separados; bajo nivel de contaminación; TC sequences can be used for genome annotation, genome mapping, and identification of orthologs/paralogs genes. Las secuencias TC se pueden utilizar para la anotación de genomas, mapeo de genomas, y la identificación de genes ortologos/paralogos Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique LF-2002.10 Producción de los Indices de Genes TIGR Secuencias de EST recuperadas desde DbEST Las secuencias se ajustan para remover: (http://www.ncbi.nlm.nih.gov/dbEST); Obtención de transcriptos expresados (ETs) desde EGAD (http://www.tigr.org/tdb/egad/egad.shtml): Las secuencias de los vectores y del adaptador Colas polyA/T Secuencias bacterianas and adaptor sequences EGAD (Expressed Gene Anatomy Database) se basa en el mRNA y CDS (secuencias codificantes) del GenBank. Obtención de secuencias consenso y de singletons tentativos desde la base de datos constuida previamente. Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique LF-2002.10 13 Producción de los Indices de Genes TIGR Los TCs construidos son cargados en la base de datos de índices de genes de TIGR y se anotan usando la información del GenBank y/o de la homología de la proteína. Son conservados los IDs de los TC antiguos a través de un base de datos relacional Referencias: Quackenbush et al. (2000) Nucleic Acid Research,28, 141-145. Quackenbush et al. (2001) Nucleic Acid Research,29, 159-164. Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique LF-2002.10 STACK The Sequence Tag Alignment and Consensus Knowledgebase STACK esta especializado en datos humanos Basado en agrupamiento” débil” no supervisado, seguido por procedimiento de ensamblaje estricto y de análisis para identificar y caracterizar la divergencia de las secuencias (splicing alternativo). El método de agrupamiento ”débil”, d2 cluster, no se basa en alineamientos, sino que realiza comparaciones de la composición y de multiplicidad de palabras dentro de cada secuencia. Debido al agrupamiento “débil”, STACK produce secuencias consenso más grandes que los índices de genes de TIGR. STACK también integra ~ 30% más secuencias que UniGene, debido a la aproximación de agrupamiento “débil” Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique LF-2002.10 14 Procedimiento con STACK Sub-particionamiento. Seleccionar los ESTs humanos desde GenBank; Las secuencias se agrupan en categorías basadas en tejidos (“bin”). Esto permitirá la exploración adicional de la transcripción específica en el tejido. Un “bin” también se crea para las secuencias derivadas de tejidos relacionados con enfermedades human ESTs from GenBank; Enmascaramiento. Enmascarar las repeticiones y los contaminantes usando cross-match: Secuencias humanas repetidas (RepBase); Secuencias del vector; ADN mitocondrial y Ribosomal, otros contaminantes Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique LF-2002.10 Procedimiento con STACK (2) Agrupamiento “débil” usando el grupo d2 El algoritmo busca la co-ocurrencia de las palabras con n-longitud (n = 6) en una ventana con tamaño de 150 bases que tienen por lo menos una identidad del 96%. Las secuencias con menos de 50 bases se excluyen del proceso de agrupamiento. Secuencias altamente relacionadas se agrupan. Agrupar también secuencias relacionadas por cambios en el orden o por splicing alternativo. Dado que el grupo d2 considera las secuencias según su contenido de información, no es requerido el enmascaramiento de regiones de baja complejidad. Ensamblaje. El paso de ensamlaje se realiza usando Phrap. STACK no usa la información de calidad disponible desde los cromatogramas (pero si en la nueva versión 2,2 de stackPACK) La carencia de la información de rastreo es compensada en gran parte por la redundancia de los datos de ESTs. Las secuencias que no se pueden alinear con Phrap se extraen de los grupos (singletons) y se procesan más adelante. Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique LF-2002.10 15 Procedimiento con STACK (3) Análisis del alineamiento. El programa CRAW se utiliza en la primera parte del análisis de alineamiento . CRAW genera secuencias consenso maximizando la longitud. CRAW reparte un grupo en sub-conjuntos si > del 50% de una ventana de 100 bases se diferencia del resto de las secuencias del grupo. Alinea los sub-conjuntos según el número de secuencias asignadas y el número de las bases nombradas para cada sub-conjunto (CONTIGPROC). Anota las regiones polimórficas y de splicing alternativo. Ligamiento. Ensambla los grupos que contienen ESTs con el ID del clon compartido. Agrega los singletons producidos por Phrap basado en ID del clon. Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique LF-2002.10 Procedimiento con STACK (4) Actualización de STACK. Salida de STACK Los nuevos ESTs se buscan contra las secuencias consenso y singletons existentes usando cross-match. Las secuencias que aparean se agregan para ampliar grupos existentes y consenso. Las secuencias que No aparean se procesan usando el grupo d2 contra la base de datos completa y el nuevo grupo producido es renombrado (cambio del ID del índice de Genes). Consenso primario para cada grupo en formato FASTA . Alineamientos desde Phrap en formato GDE (Genetic Data Environment). Variaciones y consensos secundario de la secuencia (desde el procesamiento de CRAW). Referencias Miller et al. (1999) Genome Research,9, 1143-1155. Christoffels et al. (2001) Nucleic Acid Research,29, 234-238. http://www.sanbi.ac.za/Dbases.html Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique LF-2002.10 16 trEST (Ver también trGEN / tromer) trEST trata de producir contigs a partir de grupos de ESTs y traducirlos en proteínas trEST usa grupos de UniGene y grupos producidos apartir de software interno Para ensamblar los grupos, trEST usa algoritmos de Phrap y CAP3. Contigs producidos por el paso de ensamblaje se traducen en secuencias de proteína usando el programa de ESTscan, que corrige la mayoría de errores por cambio en el marco y predice transcripciones con errores en la posición de unos pocos aminoácidos. Acceso a trEST por medio de la base de datos HITS (http://hits.isb-sib.ch). Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique LF-2002.10 Procedimiento de agrupamiento con EST Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique LF-2002.10 17 Mapeo de EST en genomas sim4 es un algoritmo que rastrea ESTs, cDNAs, mRNAs en secuencias genómicas (http://pbil.univ-lyon1.fr/sim4.html) El algoritmo de sim4 encuentra bloques que representan el “núcleo del exon".) El algoritmo usado por sim4 es similar al algoritmo de BLAST: Determina los pares de segmento con altopuntaje(HSPs). Regiones sin gaps que tienen alto puntaje. Selecciona apareamientos exactos de longitud 12. Extend matches in both directions with a score of 1 for a match and -5 for a mismatch until no increase of the score. Extiende los apareamientos en ambas direcciones con una puntaje de 1 para un apareamiento y -5 para un mal apareamiento hasta que no haya ningún aumento del puntaje. Selecciona los HSPs que podrían representar un gene. Usa un algoritmo de programación dinámica para encontrar una cadena de HSPs con las siguientes características: 1. La posición de inicio está en orden de aumento 2. Las diagonales de HSPs consecutivos son casi los mismos ("núcleo del exon") o difieren lo suficiente para ser un posible intron. Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique LF-2002.10 Mapeo de EST en genomas Límites del hallazgo de exones. Determinación de los alineamientos Si los “núcleos del exon" se sobrelapan, los extremos se ajustan a los límite de las secuencias (GT..AG o CT..AC). Si los “núcleos del exon" no se sobrelapan, entonces son extendidos con un método "codicioso". Los extremos se ajustan para encontrar el límite de las secuencias. Si este último paso falla, se busca la región entre dos núcleos adyacentes del exon para HSPs con astringencia reducida. Al encontrar exones con límites anclados, estos son realineados por un método de alineamiento de secuencias de ADN muy similares (Chao et al., 1997). Otras herramientas similares: Spidey (http://www.ncbi.nlm.nih.gov/IEB/Research/Ostell/Spidey/index.html) est2genome (EMBOSS package) Swiss Institute of Bioinformatics Institut Suisse de Bioinformatique LF-2002.10 18