SECUENCIAS ETIQUETADAS DE EXPRESIÓN SECUENCIAS

Anuncio
UNIVERSIDAD NACIONAL DE COLOMBIA
INSTITUTO DE BIOTECNOLOGÍA
Centro de Bioinformática
SECUENCIAS ETIQUETADAS
DE EXPRESIÓN
Expressed Sequence Tags (EST)
EMILIANO BARRETO H.
Profesor Asociado D.E
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
LF-2002.10
UNIVERSIDAD NACIONAL DE COLOMBIA
INSTITUTO DE BIOTECNOLOGÍA
Centro de Bioinformática
SECUENCIAS ETIQUETADAS DE
EXPRESIÓN
Expressed Sequence Tags (EST)
DNA
cromosomal
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
¿
?
ANALISIS
¿Identificación Genes?
LF-2002.10
1
Secuencias Etiquetadas de
Expresión (EST)
„
„
„
„
„
„
„
Qué son los ESTs?
Problema de Calidad (única lectura)
Limpieza (vector clipping, filtrado de
contaminación, repeat masking)
Agrupamiento
Ensamblaje de contigs
Indices de Genes
Bases de Datos
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
LF-2002.10
Secuencias Etiquetadas de
Expresión (EST)
„
„
ESTs representan secuencias parciales de clones de
cDNA (en promedio ~ 360 pb).
Única lectura a partir de los extremos 5’ y/o 3’ de
los clones de cDNA.
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
LF-2002.10
2
Cromatogramas
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
LF-2002.10
Interés de los ESTs
„
„
„
„
„
„
„
ESTs representan el examen disponible más extenso de la
porción transcrita de los genomas.
ESTs son imprescindibles para la predicción de la estructura
del gen, el descubrimiento de genes y mapeo genómico.
Caracterización de las variantes de splicing y de
poliadenilación alternativa.
Estudios de expresión génica y exhibición diferencial in silico
(expresión específica en tejido, estado normal/enfermedad).
Explotación (data mining) de los datos de SNP.
Producción de datos con alto-rendimiento de procesamiento y
en grandes cantidades y a bajo costo.
Hay 16,626,752 de entradas de EST en GenBank (dbEST) (Mayo
9, 2003 ):
„
„
5,142,390 entradas
3,721,428 entradas
de ESTs humano;
del ratón ESTs;...
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
LF-2002.10
3
Baja Calidad de los Datos de ESTs
„
„
„
„
„
„
Altas tasas de error (~ 1/100) debido a la lectura
de la secuencia una sola vez.
Compresión de la secuencia y errores por cambios
en el marco debido a la lectura de la secuencia una
sola vez.
Un EST representa solamente una secuencia parcial
del gen.
No es un producto gen/proteína definido.
No esta curado
Alta redundancia en los datos - > número enorme de
secuencias a analizar.
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
LF-2002.10
Mejoramiento de ESTs:
Agrupamiento, ensamblaje e índices de genes
„
El valor de ESTs es realzado por agrupamiento (clustering) y ensamblaje
(assembling).
„
„
„
„
„
„
„
Solucionar la redundancia puede ayudar a corregir errores;
Secuencias más grandes y mejor anotadas;
Fácil asociación a los mRNAs y a las proteínas; pocas secuencias a
analizar;
Detección de las variantes del empalme;
Menor número de secuencias para analizar;
Índices génicos: Todas las secuencias expresadas (como ESTs) por
un único gen son agrupados en una sola clase del índice, y cada clase
del índice contiene la información de un solo gen.
Diversos procedimientos de agrupamiento y ensamblaje se han
propuesto con las base de datos relacionadas (índices del gene):
„
„
„
UniGene (http://www.ncbi.nlm.nih.gov/UniGene)
TIGR (http://www.tigr.org/tdb/tgi.shtml)
TACK (http://www.sambi.ac.za/Dbases.html)
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
LF-2002.10
4
Agrupamiento de EST
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
LF-2002.10
Pre-procesamiento: Fuente de datos
„
„
Las fuentes de datos para agrupar pueden ser bases de datos
públicas internos, propietaria, o un híbrido de estas (cromatogramas
y/o archivos de secuencia).
Cada EST debe tener la información siguiente:
„
„
„
„
„
„
„
Una secuencia AC/ID (ex secuencia-funcione la identificación);
Localización con respecto a la cola poliA (3’ or 5’);
La identificación del CLON (CLONE ID )del cual se ha generado el EST
Organismo;
Tejido y/o condiciones;
La secuencia.
El EST se puede almacenar en formato de FASTA :
>T27784 EST16067 Human Endothelial cells Homo sapiens cDNA 5’
C C C C C GT CTCTTTAAAAATATATATATTTTAAATATACTTAAATATATATTTCTAATA
TC
TTTAAATATATATATATATTTNAAA G AC CAATTTAT G G G A G A NTT G CA CACA G AT GT
G AA
AT GAAT GTAATCTAATA GA N G C CTAATCA G C C CA C CATGTTCTC CA CT G AAAAATC
CTCT
TTCTTTG G G GTTTTTCTTTCTTTCTTTTTTGATTTTG CACT G G A C G GT G A C GT CA G
C CAT
GTA CA G G ATC CACA G G G GT G GT GTCAAAT G CTATT G AAATTNT GTT GAATTGTAT
ACTTT
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
TTCACTTTTTGATAATTAAC
CAT GTAAAAAAT GAA C G C TACTACTATA GTAG AATT G
LF-2002.10
AT
5
Pre-procesamiento: Pasos Esenciales
„
El proceso previo del EST consiste de varios pasos esenciales
para reducir al mínimo la probabilidad de agrupar secuencias sin
relación.
„
Extraer regiones de baja calidad:
„
„
„
„
„
„
„
Lecturas de secuencias de baja calidad son propensas a error.
Los programas como Phred (Ewig et al., 98) leen los cromatogramas
(nombramiento de bases) y determinan un valor de calidad para cada
nucleótido.
Extraer contaminaciones (tRNA, rRNA, mitoDNA).
Extraer secuencias del vector (truncamiento del vector).
Extraer secuencias repetidas (enmascaramiento de repeticiones).
Extraer secuencias de baja complejidad.
El software especializado está disponible para estas tareas:
„
„
„
„
RepeatMasker (Smit and Green,
http://ftp.genome.washington.edu/RM/RepeatMasker.html);
VecScreen (http://www.ncbi.nlm.nih.gov/VecScreen);
Lucy (Chou and Holmes, 01);
...
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
LF-2002.10
Pre-procesamiento: Eliminación del vector
„
Eliminación del Vector
„
„
„
„
Las secuencias del vector pueden sesgar el agrupamiento, incluso si hay
pequeños fragmentos del vector en cada lectura.
Eliminación de regiones 5’ y 3’ que corresponden al vector usado para el
clonaje
La detección de secuencias del vector no es una tarea trivial, porque
normalmente estan en regiones de baja calidad de la secuencia.
UniVec -> base de datos no-redundante (NCBI) de vectores :
„
„
„
Hallazgo y Eliminación:
„
„
http://www.ncbi.nlm.nih.gov/VecScreen/UniVec.html
Contaminantes
ADN bacteriano, ADN de levadura, y otras contaminantes;
Los programas de la alineamiento pareado estándar se utilizan para la
detección del vector y de otros contaminantes (por ejemplo cross-match,
BLASTN, FASTA). Son razonablemente rápidos y exactos.
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
LF-2002.10
6
Pre-procesamiento:
Enmascaramiento de repeticiones
„
Algunos elementos repetitivos encontrados en el genoma humano:
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
LF-2002.10
Pre-procesamiento:
Enmascaramiento de repeticiones
„
Elementos repetidos:
„
Representan una gran parte del genoma de los mamíferos
Se encuentran en muchos genomas (las plantas...)
Inducen errores en el agrupamiento y ensamblaje.
Deben ser enmascarados, no eliminados, para evitar un falso ensamblaje.
de la secuencia .
...pero son también elementos interesantes para los estudios evolutivos..
SSRs son importantes para busqueda de enfermedades. .
„
RepeatMasker se
„
MaskerAid
„
„
„
„
„
„
„
Herramientas para encontrar repeticiones :
ha desarrollado para encontrar elementos repetitivos y secuencias
de baja complejidad. Utiliza el programa cross-match para los alineamientos pareados
„
„
http://repeatmasker.genome.washington.edu/cgi-bin/RepeatMasker
cross-match
mejora la velocidad de RepeatMasker ~ 30 veces usando
„
http://sapiens.wustl.edu/maskeraid
„
http://www.girinst.org/Repbase Update.html
WU-BLAST
en vez
RepBase es
una base de datos de secuencias típicas representantes del ADN
repetido de diversas especies eucarióticas
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
LF-2002.10
7
Pre-procesamiento:
Regiones de Baja Complejidad
„
„
„
„
„
„
Las secuencias de baja complejidad tienen cierta tendencia en su
composición nucleotídica (zonas polyA, repeticiones AT, etc.).
Las regiones de baja complejidad disminuyen la calidad de los miembros del
grupo.
Las estrategias de agrupamiento que emplean alineación por semejanza en su
primer paso, son muy sensibles a las secuencias de baja complejidad.
Algunas estrategias de agrupamiento no son sensibles a secuencias de baja
complejidad, porque clasifican las secuencias con base en su contenido de
información (ej: d2-cluster).
Programs as (NCBI) can be used to mask low complexity regions.
Los programas como DUST (NCBI) se pueden utilizar para enmascarar
regiones de baja complejidad.
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
LF-2002.10
Pre-procesamiento: Resumen
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
LF-2002.10
8
Agrupamiento de EST
„
„
„
„
La meta del proceso de agrupamiento es incorporar en un solo grupo, ESTs
sobrelapados que se marcan como el mismo transcripto del mismo gen.
Para el agrupamiento, se mide la semejanza (distancia) entre 2 secuencias.
La distancia se reduce a un valor binario simple: acepta o rechaza dos
secuencias en el mismo grupo.
La semejanza se puede medir usando diversos algoritmos:
„
Algoritmos de alineamiento pareado:
„ Smith-Waterman es el el más sensible, pero lento (ej: cross-match);
Los algoritmos heurísticos como BLAST y FASTA sacrifican sensibilidad por rápidez
ara los de la velocidad
Métodos de puntaje no basados en alineamiento:
„ Algoritmo de agrupamiento D2 : basado en la comparación y la composición de la palabra
(identidad y multiplicidad de palabra) (burke et al., 99). No se realiza ningún
alineamiento -> rápido
Métodos de Pre-indexación
Métodos de agrupamiento basados en alineamientos construidos a propósito.
„
„
„
„
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
LF-2002.10
Agrupamiento riguroso y débil
„
Agrupamiento riguroso:
„
„
„
„
„
„
Mayor fidelidad inicial;
Un paso
Baja cobertura de los datos del gen expresado;
Baja inclusión en el grupo de las formas del gen expresado;
Un consenso más corto.
Agrupamiento débil:
„
Baja fidelidad inicial;
Múltiples pasos;
Mayor cobertura de los datos del gen expresado
Mayor inclusión en el grupo de formas alternas expresadas
Un consenso más grande;
„
Riesgo de incluir parálogos en el mismo índice del gene.
„
„
„
„
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
LF-2002.10
9
Agrupamiento Supervisado y no
supervisado de EST
„
Agrupamiento Supervisado
„
„
Agrupamiento no supervisado
„
„
ESTs se clasifican con respecto a secuencias conocidas o “semillas” (mRNAs de longitud
total, constructos de exones de secuencias genómicas, grupos consenso de EST
ensamblados previamente).
ESTs se clasifican sin ningún conocimiento previo.
Los tres índices génicos principales utilizan diversos métodos de
agrupamiento de EST:
„
„
„
El índice génico de TIGR utiliza un método de agrupamiento riguroso y supervisado, que
genera secuencias consenso más cortas y separan variantes de splicing.
STACK utiliza un método débil y no supervisado de agrupamiento, produciendo
secuencias consenso más largas e incluyendo variantes de splicing en el mismo índice.
Una combinación de métodos supervisados y no supervisados con niveles variables de
rigor (astringencia) se utilizan en UniGene. No se produce ninguna secuencia consenso.
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
LF-2002.10
Ensamblaje y procesamiento
„
„
Un alineamiento múltiple para cada grupo se puede generar
(ensamblaje) y para las secuencias consenso generadas
(procesamiento).
Varios programas están disponibles para el ensamblaje y
procesamiento :
„
„
„
„
„
PHRAP
(http://www.genome.washington.edu/UWGC/analysistools/Phrap.cfm);
TIGR ASSEMBLER (Sutton et al., 95);
CRAW (Burke et al., 98);
...
El ensamblaje y procesamiento producen secuencias y
singletons consenso (útiles para visualizar variantes de
splicing).
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
LF-2002.10
10
Enasamblaje del Cluster
„
„
„
Todo los ESTs generados de la misma copia de cDNA corresponden a un
solo gene.
La información original de la copia de la DNA está por lo general
disponible (~ el 90%).
Usando la información del clon de cDNA y de la lectura 5´- 3´, los
grupos pueden ser ensamblados.
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
LF-2002.10
Unigene
„
„
„
„
„
„
„
„
„
UniGene Gene Indices available for a number of organisms.
UniGene clusters are produced with a supervised procedure: ESTs are clustered using
GenBank CDSs and mRNAs data as ”seed” sequences.
No attempt to produce contigs or consensus sequences.
UniGene uses pairwise sequence comparison at various levels of stringency to group
related sequences, placing closely related and alternatively spliced transcripts into
one cluster.
UniGene web site: http://www.ncbi.nlm.nih.gov/UniGene.
Índices de genes de UniGene están disponibles para varios organismos.
Los grupos de UniGene se producen con un procedimiento supervisado: Los
ESTs se agrupan usando CDSs del GenBank y datos de los mRNAs como
secuencias semilla.
No se trata de producir contigs o secuencias consenso.
UniGene utiliza comparación pareada de secuencias en varios niveles de
astringencia para agrupar secuencias relacionadas, colocando los
transcriptos cercanamente relacionados y empalmados alternativamente en
un mismo grupo. Sitio Web de UniGene:
http://www.ncbi.nlm.nih.gov/UniGene.
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
LF-2002.10
11
Procedimiento con Unigene
„
Búsqueda de contaminantes, repeticiones y regiones de baja complejidad en
el GenBank.
„
„
„
„
„
la Baja-complejidad se detecta usando Dust.
Los contaminantes (secuencias bacterianas, mitocondriales, ribosomales, del
vector, del linker) se detectan usando programas de alineamiento pareado.
Enmascaramiento de regiones repetidas (RepeatMasker).
Solamente las secuencias con por lo menos 100 bases informativas se aceptan
Procedimiento de agrupamiento.
„
„
„
„
„
Construir de grupos de genes y mRNAs (GenBank).
Agregar ESTs a los grupos anteriores (megablast).
Desechar los ESTs que se unan a dos grupos de genes/mRNAs.
Desechar cualquier grupo que resulte sin señal de poliadenilación o con por lo
menos dos ESTs 3´.
Los grupos resultantes llamados grupos anclados desde su extremo 3´, son
supuestamente conocidos.
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
LF-2002.10
Procedimiento con Unigene (2)
„
„
„
„
Asegurar los ESTs 5´ y 3´ del mismo clon de cDNA pertenecientes
al mismo grupo.
ESTs que no se han agrupado, se procesan de nuevo con un nivel
inferior del astringencia. Los ESTs añadidos durante este paso son
llamados miembros huésped.
Los grupos de tamaño 1 (contienen una sola secuencia) se comparan
contra el resto de los grupos con un nivel inferior del astringencia y
se combinan con el grupo que contiene la secuencia más similar.
Para cada estructura de la base de datos, los IDs de grupo cambian
si los grupos están partidos o combinados.
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
LF-2002.10
12
Indice de Genes TIGR
„
„
„
„
„
TIGR produce índices de genes para varios organismos
(http://www.tigr.org/tdb/tgi).
Se producen usando métodos estrictos de agrupamiento supervisado.
Los grupos están ensamblados en secuencias consenso llamadas secuencias consenso
tentativas (TC), que representan los transcriptos subyacentes de mRNA.
Los métodos de construcción de los índices de genes de TIGR agrupan firmemente
secuencias altamente relacionadas y descartan las secuencias “ruidosas”,
divergentes o poco representativas.
Características de los índices de genes de TIGR:
„
„
„
„
„
Separa los genes relacionados cercanamente en secuencias consenso distintas;
Separa las variantes de splicing en grupos separados;
bajo nivel de contaminación;
TC sequences can be used for genome annotation, genome mapping, and
identification of orthologs/paralogs genes.
Las secuencias TC se pueden utilizar para la anotación de genomas, mapeo de
genomas, y la identificación de genes ortologos/paralogos
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
LF-2002.10
Producción de los Indices de
Genes TIGR
„
Secuencias de EST recuperadas desde DbEST
„
Las secuencias se ajustan para remover:
(http://www.ncbi.nlm.nih.gov/dbEST);
„
„
„
„
Obtención de transcriptos expresados (ETs) desde EGAD
(http://www.tigr.org/tdb/egad/egad.shtml):
„
„
Las secuencias de los vectores y del adaptador
Colas polyA/T
Secuencias bacterianas and adaptor sequences
EGAD (Expressed Gene Anatomy Database) se basa en el mRNA y CDS
(secuencias codificantes) del GenBank.
Obtención de secuencias consenso y de singletons tentativos desde
la base de datos constuida previamente.
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
LF-2002.10
13
Producción de los Indices de
Genes TIGR
„
„
„
Los TCs construidos son cargados en la base de datos de
índices de genes de TIGR y se anotan usando la información
del GenBank y/o de la homología de la proteína.
Son conservados los IDs de los TC antiguos a través de un
base de datos relacional
Referencias:
„
„
Quackenbush et al. (2000) Nucleic Acid Research,28, 141-145.
Quackenbush et al. (2001) Nucleic Acid Research,29, 159-164.
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
LF-2002.10
STACK
„
„
„
„
„
The Sequence Tag Alignment and Consensus Knowledgebase
STACK esta especializado en datos humanos
Basado en agrupamiento” débil” no supervisado, seguido por
procedimiento de ensamblaje estricto y de análisis para
identificar y caracterizar la divergencia de las secuencias
(splicing alternativo).
El método de agrupamiento ”débil”, d2 cluster, no se basa en
alineamientos, sino que realiza comparaciones de la
composición y de multiplicidad de palabras dentro de cada
secuencia.
Debido al agrupamiento “débil”, STACK produce secuencias
consenso más grandes que los índices de genes de TIGR.
STACK también integra ~ 30% más secuencias que UniGene,
debido a la aproximación de agrupamiento “débil”
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
LF-2002.10
14
Procedimiento con STACK
„
Sub-particionamiento.
„
„
„
„
Seleccionar los ESTs humanos desde GenBank;
Las secuencias se agrupan en categorías basadas en tejidos (“bin”). Esto
permitirá la exploración adicional de la transcripción específica en el
tejido.
Un “bin” también se crea para las secuencias derivadas de tejidos
relacionados con enfermedades human ESTs from GenBank;
Enmascaramiento.
„
Enmascarar las repeticiones y los contaminantes usando cross-match:
„
„
„
Secuencias humanas repetidas (RepBase);
Secuencias del vector;
ADN mitocondrial y Ribosomal, otros contaminantes
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
LF-2002.10
Procedimiento con STACK (2)
„
Agrupamiento “débil” usando el grupo d2
„
„
„
„
„
„
El algoritmo busca la co-ocurrencia de las palabras con n-longitud (n = 6) en una
ventana con tamaño de 150 bases que tienen por lo menos una identidad del 96%.
Las secuencias con menos de 50 bases se excluyen del proceso de agrupamiento.
Secuencias altamente relacionadas se agrupan.
Agrupar también secuencias relacionadas por cambios en el orden o por splicing
alternativo.
Dado que el grupo d2 considera las secuencias según su contenido de información, no
es requerido el enmascaramiento de regiones de baja complejidad.
Ensamblaje.
„
„
„
„
El paso de ensamlaje se realiza usando Phrap.
STACK no usa la información de calidad disponible desde los cromatogramas (pero si
en la nueva versión 2,2 de stackPACK)
La carencia de la información de rastreo es compensada en gran parte por la
redundancia de los datos de ESTs.
Las secuencias que no se pueden alinear con Phrap se extraen de los grupos
(singletons) y se procesan más adelante.
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
LF-2002.10
15
Procedimiento con STACK (3)
„
Análisis del alineamiento.
El programa CRAW se utiliza en la primera parte del análisis de
alineamiento .
„ CRAW genera secuencias consenso maximizando la longitud.
„ CRAW reparte un grupo en sub-conjuntos si > del 50% de una
ventana de 100 bases se diferencia del resto de las secuencias del
grupo.
„ Alinea los sub-conjuntos según el número de secuencias asignadas
y el número de las bases nombradas para cada sub-conjunto
(CONTIGPROC).
„ Anota las regiones polimórficas y de splicing alternativo.
„ Ligamiento.
„ Ensambla los grupos que contienen ESTs con el ID del clon
compartido.
„ Agrega los singletons producidos por Phrap basado en ID del clon.
„
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
LF-2002.10
Procedimiento con STACK (4)
„
Actualización de STACK.
„
„
„
„
Salida de STACK
„
„
„
„
Los nuevos ESTs se buscan contra las secuencias consenso y singletons
existentes usando cross-match.
Las secuencias que aparean se agregan para ampliar grupos existentes y
consenso.
Las secuencias que No aparean se procesan usando el grupo d2 contra la base
de datos completa y el nuevo grupo producido es renombrado (cambio del ID
del índice de Genes).
Consenso primario para cada grupo en formato FASTA .
Alineamientos desde Phrap en formato GDE (Genetic Data Environment).
Variaciones y consensos secundario de la secuencia (desde el procesamiento de
CRAW).
Referencias
„
„
„
Miller et al. (1999) Genome Research,9, 1143-1155.
Christoffels et al. (2001) Nucleic Acid Research,29, 234-238.
http://www.sanbi.ac.za/Dbases.html
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
LF-2002.10
16
trEST
„
„
„
„
„
(Ver también trGEN / tromer)
trEST trata de producir contigs a partir de grupos de ESTs y traducirlos en
proteínas
trEST usa grupos de UniGene y grupos producidos apartir de software
interno
Para ensamblar los grupos, trEST usa algoritmos de Phrap y CAP3.
Contigs producidos por el paso de ensamblaje se traducen en secuencias de
proteína usando el programa de ESTscan, que corrige la mayoría de errores
por cambio en el marco y predice transcripciones con errores en la posición
de unos pocos aminoácidos.
Acceso a trEST por medio de la base de datos HITS (http://hits.isb-sib.ch).
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
LF-2002.10
Procedimiento de agrupamiento
con EST
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
LF-2002.10
17
Mapeo de EST en genomas
„
„
„
sim4 es un algoritmo que rastrea ESTs, cDNAs, mRNAs en secuencias
genómicas (http://pbil.univ-lyon1.fr/sim4.html)
El algoritmo de sim4 encuentra bloques que representan el “núcleo del
exon".)
El algoritmo usado por sim4 es similar al algoritmo de BLAST:
„
Determina los pares de segmento con altopuntaje(HSPs).
„
„
„
„
Regiones sin gaps que tienen alto puntaje.
Selecciona apareamientos exactos de longitud 12.
Extend matches in both directions with a score of 1 for a match and -5 for a
mismatch until no increase of the score. Extiende los apareamientos en ambas
direcciones con una puntaje de 1 para un apareamiento y -5 para un mal
apareamiento hasta que no haya ningún aumento del puntaje.
Selecciona los HSPs que podrían representar un gene.
„
Usa un algoritmo de programación dinámica para encontrar una cadena
de HSPs con las siguientes características:
1. La posición de inicio está en orden de aumento
2. Las diagonales de HSPs consecutivos son casi los mismos ("núcleo del exon") o
difieren lo suficiente para ser un posible intron.
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
LF-2002.10
Mapeo de EST en genomas
„
Límites del hallazgo de exones.
„
„
„
„
Determinación de los alineamientos
„
„
Si los “núcleos del exon" se sobrelapan, los extremos se ajustan a
los límite de las secuencias (GT..AG o CT..AC).
Si los “núcleos del exon" no se sobrelapan, entonces son
extendidos con un método "codicioso". Los extremos se ajustan
para encontrar el límite de las secuencias.
Si este último paso falla, se busca la región entre dos núcleos
adyacentes del exon para HSPs con astringencia reducida.
Al encontrar exones con límites anclados, estos son realineados
por un método de alineamiento de secuencias de ADN muy
similares (Chao et al., 1997).
Otras herramientas similares:
„
„
Spidey (http://www.ncbi.nlm.nih.gov/IEB/Research/Ostell/Spidey/index.html)
est2genome (EMBOSS package)
Swiss Institute of Bioinformatics
Institut Suisse de Bioinformatique
LF-2002.10
18
Descargar