Bioinformática Clásica

Anuncio
Bioinformática Clásica
Bioinformática Clásica
Tema 4: Alineamiento Múltiple y Filogenias (1)
Sección 1: Alineamiento Múltiple
Dr. Oswaldo Trelles
Universidad de Málaga
El alineamiento múltiple de secuencias (AM) es con frecuencia el punto de partida, intermedio
o final de los análisis bioinformáticos. Se usan para predecir estructura secundaria y 3D, son
también el inicio de varios métodos filogenéticos y sirven para estimar matrices de peso (coste
de mutaciones y gaps), para afinar parámetros de análisis de secuencias, etc.; o para
identificar las zonas mas conservadas de las secuencias y asociarlas a la función.
Alineamiento Múltiple y Filogenia
Campus Virtual Andaluz, 2007
Bioinformática Clásica
Revisión de Conceptos ( 1 )
Secuencia. Cadena de símbolos del alfabeto del ADN o Proteínas
Comparación. Encontrar la posición relativa que maximiza el parecido entre dos secuencias
Métodos. Identidades, semejanzas, interrupciones
Secuencia de ADN:
Secuencia de Proteína:
TCA GAC GAT TG …
MLHACTGKQF…
∈ AADN
∈ AProt
Las secuencias biológicas se escriben en el lenguaje de los
nucleótidos (4, en el ADN) o de los aminoácidos (20 en las
proteínas). El algoritmo más simple de comparación se
realiza por residuos iguales, buscando aquella posición con
mayores coincidencias
Alineamiento Múltiple y Filogenia
Campus Virtual Andaluz, 2007
Revisión de Conceptos ( 2 )
Bioinformática Clásica
Matrices de peso. Modelan los reemplazos sustitutivos y establecen relaciones evolutivas
entre residuos (estimadas a partir de sus probabilidades de sustitución)
Puntuación. Suma de los pesos de las parejas de residuos que se alínean tomando en
cuenta las penalizaciones por gaps
Puntuación máxima. La puntuación de comparar una secuencias consigo misma
Nivel de Semejanza. Medida normalizada del parecido entre dos secuencias (en general
relativas a la puntuación máxima)
Significancia Estadística. Valoración estadística de la calidad de una relación entre
secuencias. En general mide la probabilidad de que un determinado resultado sea
producto del azar
Matriz de Pesos
Alineamiento sin interrupciones
Alineamiento con interrupciones
Asumiendo un modelo evolutivo de mutaciones en que se observan ciertas preferencias de reemplazos o
sustituciones en los aminoácidos, podemos establecer unas tablas de peso, de forma tal que pasemos de
la comparación por identidades a la comparación por semejanza. Las interrupciones o gaps también se
aceptan como modelo evolutivo, por lo tanto los algoritmos los incorporan. Hablamos de comparaciones
globales o locales según se busque el fragmento de mayor parecido entre dos secuencias (local) o el
parecido total entre ellas (global)
Alineamiento Múltiple y Filogenia
Campus Virtual Andaluz, 2007
Bioinformática Clásica
Revisión de Conceptos ( 3 )
Semejanza entre parejas. Dada una matriz de pesos y un alineamiento de dos secuencias,
el “score” se obtiene como la suma del peso de cada pareja alineada. Las parejas
formadas por una interrupción y un residuo tienen puntuación negativa (-4 en el ejemplo),
-4. El puntaje máximo se alcanza alineando cada secuencia sonsigo misma
Matriz de Pesos
2 * Score(i, j )
2 * 41
% Semejanza =
=
= 68.9%
ScMax(i, i ) + ScMax( j , j ) 60 + 59
En este punto debemos ser capaces de alinear una pareja de secuencias usando una matriz
de pesos entre parejas, y en base a los valores obtenidos, estimar un “nivel de semejanza”
que nos orientará sobre qué relaciones son más cercanas, o cuando las secuencias son
más parecidas.
Alineamiento Múltiple y Filogenia
Campus Virtual Andaluz, 2007
Alineamiento Múltiple
Bioinformática Clásica
Dado el conjunto de secuencias {S1, S2, ..., Sn }, se define el Alineamiento Múltiple (AM)
como el conjunto formado por secuencias equivalentes { S’1, S’2, ..., S’n }, todas ellas de la
misma longitud ( |S’1| = |S’2| = |S’n| ) que se obtienen insertando interrupciones (gaps) con el
objetivo de maximizar el parecido en cada columna y observando el coste de los gaps.
Secuencias originales
MGARNSVLRGLKHIWANEL
QMGARNSVLLKHIVWAE
MGAKALRGLKHLVWA
MGRNSVLRLKHIVRAKL
Secuencias alineadas
-MGARNSVLRGLKHI-WANEL
QMGARNSVL--LKHIVWA-E-MGAK-A-LRGLKHLVWA---MG-RNSVLR-LKHIVRAK-L
FA9_BOVIN
------YNSG NKVVCSCTDG YRLAEDQKSC EPAVPFPCGR VSVSHISKKL TRAETIFSNT GEDAERGQFP IYSHMFCAGY HEGGKDSCQG KYGI---VSR YVNWIKEKTK LT
FA9_SHEEP
---------- ---------- ---------- ---------R ASVLHTSKKL TRAETIFSNM GEDAARGQFP IYNHMFCAGY HEGGKDSCQG KYGI-TKVSR YEV------- --
FA9_HUMAN
LNRPKRYNSG NKVVCSCTEG YRLAENQKSC EPAVPFPCGR VSVSQTS-KL TRAEAVFPDV GEDAKPGQFP IYNNMFCAGF HEGGRDSCQG KYG--TK-SR YVNWIKEKTK LT
FA9_RABIT
--------TV NKIICSCTEG YRLAENQKSC EPAVPFPCGR VSVSHASKKI TRATTIFSNT GENAKPGQFP IYNNMFCAGF DVGGKDSCEG KYGVYTRVSW YVNWIKEKTK LT
FA9_CANFA
LSRPKRYNSG NKVVCSCTTG YQLAEDQRSC EPAVPFPCGR VSVPHISMTR TRAETLFSNM GKDAKPGQFP IYNNMFCAGF HEGGKDSCQG KYGIYTK-SR YVNWIKEKTK LT
FA9_PIG
---------- ---------- ---------- ---------- ---SHSPTTL TRAEIIFSNM GENAKPGQFP IYSNMFCAGF HEGGKDSCLG KYGIYTK--R YVNW------ --
FA9_MOUSE
LTRPKRYNSG NKVICSCTEG YQLAEDQKSC EPTVPFPCGR ASISYSSKKI TRAETVFSNM GENAKPGQIP TYNNMFCAGY REGGKDSCEG KYAIYTKVSR YVNWIKEKTK LT
FA9_RAT
---------- ---------- ---------- ---------R VSVAYNSKKI TRAETVFSNT GENAKPGQIP IYNNMFCAGY REGGKDSCEG KYAIYTK-SR YVNW------ --
FA9_CAVPO
---------- ---------- ---------- ---------R VSIPSVSKEH NRANAIFSRM GEDAKPGQFP IYNNMFCAGF HEGGRDSCQG KYA--TKVSR YVNW------ --
Incluso en los ejercicios académicos (ver las 4 secuencias cortas del medio), alinear varias secuencias a la
vez es un proceso complicado. Lo que se busca es poder observar la relación entre ellas. Si dos
secuencias tienen una zona parecida es posible que sea debido a que la evolución la ha conservado por su
importancia. Si observamos que la misma zona se conserva en varias secuencias, la hipótesis se refuerza.
Alineamiento Múltiple y Filogenia
Campus Virtual Andaluz, 2007
Métodos de Alineamiento
Bioinformática Clásica
Extensión del Alineamiento de Parejas de
Secuencias
espacio de soluciones: hipercubo n-dimensional
volumen =
Lj = | Sj ! |; complejidad = O(Ln)
La primera idea tentadora es extender los algoritmos de
alineamiento de parejas de secuencias para que lo
hagan con varias secuencias a la vez. Hablando de
forma gruesa podemos decir que el coste (complejidad)
de alinear dos secuencias es como el área del
rectángulo que definen sus longitudes (LSa x LSb). Si
usamos más secuencias, el coste sería el producto de
sus longitudes. Si asumimos que –en promedio- son de
la misma longitud, la complejidad se eleva hasta Ln,
siendo L la longitud media y “n” el número secuencias.
Por ello, si alinear 2 secuencias de 300 residuos tardase 1 seg. (es demasiado pero ayudará a hacer la
analogía), alinear 3 secuencias tardaría 300 segundos y alinear 10 secuencias necesitaría del orden de 3008
segundos (lo que es mayor que el tiempo desde el Big Bang)
Alineamiento Múltiple y Filogenia
Campus Virtual Andaluz, 2007
Métodos de Alineamiento: Jerárquico
Bioinformática Clásica
Por ello, la solución exhaustiva basada en la programación dinámica) queda limitada a
números reducidos de secuencias (del orden de 10), habiéndose propuesto varias
aproximaciones. La más atractiva de ellas es el llamado alineamiento o Jerárquico.
Dadas n secuencias a alinear:
1.- Se calcula la matriz de semejanzas M(i,,j) entre cada pareja de secuencias
2.- Se calcula el orden o topología del alineamiento a partir de M(i,j)
3.- Se procede a alinear parejas en el orden sugerido por la topología
Estas parejas pueden estar formadas por:
Dos secuencias
Una secuencia y un grupo de secuencias
Dos grupos de secuencias
Nota: M(i,j) indica el nivel de semejanza o parecido entre la secuencia i y la secuencia j
Alineamiento Múltiple y Filogenia
Campus Virtual Andaluz, 2007
Alineamiento Jerárquico: Paso 1
Bioinformática Clásica
Dadas n secuencias a alinear:
1.- Calcular la matriz de semejanzas M(i,j) entre cada par de secuencias
[N]
Cross Similarity Matrix
L ---------+ ---------+ ---------+ ----
[0] 32 VFVCATLGTT GCAFDCLELG IPICASEEGL WL
[1] 34 VFVCATLGTT GVCAFDCLSE LGPICASEGL WLHI
[2] 30 VVVFVCGTGT TGVCAFDELG IICASSLHIW
[3] 32 VVVFVCATLG TTGVCAFELG IICASSSLHI WL
[4] 26 ALWHITLTVG VCADLEGQCN QEVWLV
[5] 27 GCALWHITLT VGCASDLEGQ CQEGWLV
[
[
[
[
[
[
[
0]
1]
2]
3]
4]
5]
6]
[0] [1] [2] [3] [4] [5] [6]
100 82 52 60 22 26 22
82 100 54 62 24 20 14
52 54 100 86 18 12 10
60 62 86 100 24 16
8
22 24 18 24 100 78 46
26 20 12 16 78 100 48
22 14 10
8 46 48 100
[6] 22 GGGCALWHIT LTVTQCNQEG VW
2 * S (i, j )
M (i, j ) =
S max(i, i ) + S max( j , j )
En el ejemplo (recuadro a la izquierda se muestran 7 secuencias (numeradas de 0 a 6) que se
desean alinear de forma conjunta. En secciones anteriores hemos visto como es posible
calcular la semejanza entre cada pareja, usando FASTA, BLAST, Programación dinámica, o
cualquier otro método (identidades por ejemplo).
Con ello podemos completar la matriz (a la derecha) en que se establece el parecido entre cada
par. Note que la diagonal indica que las secuencias se parecen en 100 %, mientras que la
secuencia [0] se parece en 82% a la secuencia [1]
Alineamiento Múltiple y Filogenia
Campus Virtual Andaluz, 2007
Alineamiento Jerárquico: Paso 2
Bioinformática Clásica
Dadas n secuencias a alinear:
1.- Calcular la matriz de semejanzas M(i,j) entre cada par de secuencias
2.- Calcular la topología u orden del alineamiento
[
[
[
[
[
[
[
0]
1]
2]
3]
4]
5]
6]
Cross Similarity Matrix
Cross Similarity Matrix
[0] [1] [2] [3] [4] [5] [6]
100 82 52 60 22 26 22
82 100 54 62 24 20 14
52 54 100 86 18 12 10
60 62 86 100 24 16
8
22 24 18 24 100 78 46
26 20 12 16 78 100 48
22 14 10
8 46 48 100
[0] [1] [2] [3] [4] [5] [6]
100 82 52 60 22 26 22
82 100 54 62 24 20 14
52 54 100 86 18 12 10
60 62 86 100 24 16
8
22 24 18 24 100 78 46
26 20 12 16 78 100 48
22 14 10
8 46 48 100
[
[
[
[
[
[
[
0]
1]
2]
3]
4]
5]
6]
Dada la matriz M(I,j) de semejanzas (aqui llamado Matriz de semejanzas cruzadas):
• Se elige la pareja con mayor semejanza. En este caso, el formado por las secuencias 2 y 3 con
un parecido del 86%
• Se “colapsa” la matriz, es decir, se unen las filas y columnas de las dos secuencias para formar
una sola, promediando ambas
Nota: observe que al grupo o cluster formado por las dos secuencias le hemos llamado [c7]
Alineamiento Múltiple y Filogenia
Campus Virtual Andaluz, 2007
Alineamiento Jerárquico: Paso 2
Bioinformática Clásica
Dadas n secuencias a alinear:
1.- Calcular la matriz de semejanzas M(i,j) entre cada par de secuencias
2.- Calcular la topología u orden del alineamiento
Cross Similarity Matrix
[C8]
[ 1]
[C7]
[ -]
[ 4]
[ 5]
[ 6]
Dada la matriz M(I,j) de semejanzas:
• Elegir la pareja con mayor semejanza.
• Colapsar la matriz
• Repetir hasta completar
Alineamiento Múltiple y Filogenia
[0] [1] [2] [3] [4] [5] [6]
100 -- 57 -- 23 23 18
-- --- -- -- -- -- -57 -- 100 -- 21 14
9
-- -- -- --- -- -- -23 -- 21 -- 100 78 46
23 -- 14 -- 78 100 48
18 -9 -- 46 48 100
En el ejemplo, el siguiente valor máximo es 82%
entre las secuencias [0] y [1] lo que formaría el
siguiente cluster [c8], y se vuelve a colapsar la
matriz promediando filas y columnas
Campus Virtual Andaluz, 2007
Bioinformática Clásica
Métodos de Alineamiento
Dadas n secuencias a alinear:
1.- Calcular la matriz de semejanzas M(i,j) entre cada par de secuencias
2.- Calcular la topología u orden del alineamiento
Cross Similarity Matrix
[C8]
[ 1]
[C7]
[ -]
[ 4]
[ 5]
[ 6]
[0] [1] [2] [3] [4] [5] [6]
100 -- 57 -- 23 23 18
-- --- -- -- -- -- -57 -- 100 -- 21 14
9
-- -- -- --- -- -- -23 -- 21 -- 100 78 46
23 -- 14 -- 78 100 48
18 -9 -- 46 48 100
Clu Components Sim n.Seqs
C.7 :
C.8 :
C.9 :
C.10:
C.11:
C.12:
S.2 S.0 S.4 C.7 S.6 C.10-
S.3 =
S.1 =
S.5 =
C.8 =
C.9 =
C.11=
86
82
78
60
48
18
2
2
2
4
3
7
(2,3)
(0,1)
(4,5)
(2,3,0,1)
(6,4,5)
(2,3,0,1,6,4,5)
De esta forma se completa el orden del alineamiento. En el recuadro se resume el orden en que
se han ido uniendo las secuencias formado los grupos o clusters [7 – 12]. Para cada uno de
ellos se indican las secuencias o clusters que lo forman, el porcentaje de semejanza y el
número de secuencias que hay en esa rama del árbol.
Alineamiento Múltiple y Filogenia
Campus Virtual Andaluz, 2007
Bioinformática Clásica
3.- Alinear
El último paso es alinear las parejas
de secuencias o lo clusters en el orden
determinado por la topología del AM.
Alineamiento Múltiple y Filogenia
Campus Virtual Andaluz, 2007
Secuencia-Cluster y Cluster-Cluster
Bioinformática Clásica
Comentario sobre el cálculo del valor de una celda en la matriz de
semejanzas al alinear varias secuencias o dos grupos de secuencias.
En los procedimientos de alineamiento
de secuencias (sección 1) el cálculo de
una celda está determinado por el peso
de la pareja de residuos que la definen.
En este caso una celda puede quedar
definida por varios residuos tanto en la
secuencia horizontal como en la
vertical. Para calcular el valor la celda
se combinan los pesos de todas las
posibles parejas de secuencias
Celda(1,1) = [ 4 x Peso(‘A’, ‘M’) ] / 4
Celda (1,2) = [ 3 x Peso(‘A’,’G’) + 1 x Peso(‘A’,’C’) ] / 4
Celda (1,3) = [ 2 x Peso(‘A’,’A’) +
1 x Peso(‘A’,’S’) +
1 x Peso(‘A’,’L’) ] / 4
n1
Celda (i, j ) =
n2
∑ ∑ Peso(SH (i), SV ( j ))
i =1 j =1
Alineamiento Múltiple y Filogenia
n1xn2
En el ejemplo se muestran 4 secuencias a
alinear con la vertical. Se indica la numeración
de las celdas (1,1), (1,2), etc. Abajo, el cálculo
de las tres primeras celdas en horizontal y la
fórmula para generalizar.
Es posible agilizar los cálculos, formando una
matriz de pesos específica por posición y
usándola en los algoritmos. Se muestra para
cada residuo en vertical la proporción en que
aparece en cada columna, lo que se puede
usar para calcular rápidamente la celda.
Campus Virtual Andaluz, 2007
Bioinformática Clásica
Algunos comentarios
Aunque no es razonable alinear con métodos exhaustivos más de unas pocas
secuencias, el AM jerárquico es una aproximación y como tal lal demos usar
Algunos de los problemas asociados son:
• Una vez que se ha insertado un gap en una pareja de secuencias, el gap se propaga a
las que se alinean con ella (todas, al final)
• Al colapsar la matriz suponemos que una secuencia A se parece a B en 80% y a C en
60%, entonces A se parecerá a B|C en un 70% (el promedio). Esto puede ser válido en
alineamientos globales y con secuencias de mucho parecido. Pero en el caso “local” las
secuencias B y C se pueden parecer a A en dos fragmentos diferentes que By C no
comparten. Habría necesidad de recalcular el valor de la semejanza
Alineamiento Múltiple y Filogenia
Campus Virtual Andaluz, 2007
Bioinformática Clásica
En Resumen
¿ Por qué Alineamiento Múltiple ?
Porque evidencia las relaciones entre secuencias
Además es el punto de partida, intermedio o final para:
z
z
z
z
Predecir estructura secundaria y 3D
Filogenia, cálculo de pesos (coste de mutaciones y gaps)
Afinar parámetros de análisis de secuencias
Identificación de zonas mas conservadas asociadas a función
Alineamiento Múltiple y Filogenia
Campus Virtual Andaluz, 2007
Bioinformática Clásica
ClustalW: http://www.ebi.ac.uk/clustalw/
El programa de mayor
aceptación para el AM de
secuencias es ClustalW que
forma parte del paquete
Phylips y está disponible en
varios servidores. Se indica
el del EBI.
Alineamiento Múltiple y Filogenia
Campus Virtual Andaluz, 2007
Bioinformática Clásica
Ejercicio de AM
Realice el AM de las secuencias que se muestran usando el programa ClustalW.
Indique las zonas más conservadas
>
>
>
>
>
>
>
>
>
>
>
>
>
>
mODC
rODC
hODC
bODC
pODC
gODC
hHDC
mHDC
rHDC
bDDC
sDDC
cDDC
hDDC
rDDC
(31
(31
(31
(31
(31
(31
(34
(34
(34
(34
(34
(34
(34
(34
AA):
AA):
AA):
AA):
AA):
AA):
aa):
AA):
AA):
AA):
AA):
AA):
AA):
AA):
VKFGATLKTS
VKFGATLKTS
VKFGATLATS
VKFGATLKTS
VKFGATLKTS
VKFGATLRTS
VFVCATLGTT
VFVCATLGTT
VFVCATLGTT
CFVVATLGTT
FFVVATLGTT
FFVVATLGTT
FFMVATLGTT
FFVVVTLGTT
RLLLERAKEL
RLLLERAKEL
RLLLERAKEL
RLLLERAKEL
RLLLERAKEL
RLLLERAKEL
GVCAFDCLSE
GVCAFDRLSE
GVCAFDKLSE
SCCSFDNLLE
SCCSFDNLLE
NCCSFDSLLE
TCCSFDNLLE
SCCSFDNLLE
NIDVIGVSFH
NIDVVGVSFH
NIDVVGVSFH
DIDVIGVSFH
NIDVIGVSFH
NIDVIGVSFH
LGPICASEGL
LGPICASEGL
LGPICAAEGL
VGPICHKEGL
VGPICHEEDI
VGPICNQEEM
VGPICNKEDI
VGPICNQEGV
V
V
V
V
V
V
WLHI
WLHV
WLHV
WLHV
WLHV
WLHI
WLHV
WLHV
Este fichero está disponible como 04Ej1-AM14SecProt.txt
Nota: A efectos académicos se ha incluido solo parte de la secuencias a fin de poder
apreciar el alineamiento y entender el procedimiento. El alumno puede recuperar las
secuencias originales (en el fichero se adjuntan algunos datos más) y resolver el problema
global. Este trabajo será evaluado
Alineamiento Múltiple y Filogenia
Campus Virtual Andaluz, 2007
Bioinformática Clásica
La versión ampliada de este tema se encuentra en los apuntes del Tema 4:
Alineamiento Múltiple y Filogenia, accesibles a través de la plataforma
Web de aprendizaje virtual de la UNIA.
Consulta estos materiales para completar tus conocimientos
Alineamiento Múltiple y Filogenia
Campus Virtual Andaluz, 2007
Descargar