Bioinformática Clásica Bioinformática Clásica Tema 4: Alineamiento Múltiple y Filogenias (1) Sección 1: Alineamiento Múltiple Dr. Oswaldo Trelles Universidad de Málaga El alineamiento múltiple de secuencias (AM) es con frecuencia el punto de partida, intermedio o final de los análisis bioinformáticos. Se usan para predecir estructura secundaria y 3D, son también el inicio de varios métodos filogenéticos y sirven para estimar matrices de peso (coste de mutaciones y gaps), para afinar parámetros de análisis de secuencias, etc.; o para identificar las zonas mas conservadas de las secuencias y asociarlas a la función. Alineamiento Múltiple y Filogenia Campus Virtual Andaluz, 2007 Bioinformática Clásica Revisión de Conceptos ( 1 ) Secuencia. Cadena de símbolos del alfabeto del ADN o Proteínas Comparación. Encontrar la posición relativa que maximiza el parecido entre dos secuencias Métodos. Identidades, semejanzas, interrupciones Secuencia de ADN: Secuencia de Proteína: TCA GAC GAT TG … MLHACTGKQF… ∈ AADN ∈ AProt Las secuencias biológicas se escriben en el lenguaje de los nucleótidos (4, en el ADN) o de los aminoácidos (20 en las proteínas). El algoritmo más simple de comparación se realiza por residuos iguales, buscando aquella posición con mayores coincidencias Alineamiento Múltiple y Filogenia Campus Virtual Andaluz, 2007 Revisión de Conceptos ( 2 ) Bioinformática Clásica Matrices de peso. Modelan los reemplazos sustitutivos y establecen relaciones evolutivas entre residuos (estimadas a partir de sus probabilidades de sustitución) Puntuación. Suma de los pesos de las parejas de residuos que se alínean tomando en cuenta las penalizaciones por gaps Puntuación máxima. La puntuación de comparar una secuencias consigo misma Nivel de Semejanza. Medida normalizada del parecido entre dos secuencias (en general relativas a la puntuación máxima) Significancia Estadística. Valoración estadística de la calidad de una relación entre secuencias. En general mide la probabilidad de que un determinado resultado sea producto del azar Matriz de Pesos Alineamiento sin interrupciones Alineamiento con interrupciones Asumiendo un modelo evolutivo de mutaciones en que se observan ciertas preferencias de reemplazos o sustituciones en los aminoácidos, podemos establecer unas tablas de peso, de forma tal que pasemos de la comparación por identidades a la comparación por semejanza. Las interrupciones o gaps también se aceptan como modelo evolutivo, por lo tanto los algoritmos los incorporan. Hablamos de comparaciones globales o locales según se busque el fragmento de mayor parecido entre dos secuencias (local) o el parecido total entre ellas (global) Alineamiento Múltiple y Filogenia Campus Virtual Andaluz, 2007 Bioinformática Clásica Revisión de Conceptos ( 3 ) Semejanza entre parejas. Dada una matriz de pesos y un alineamiento de dos secuencias, el “score” se obtiene como la suma del peso de cada pareja alineada. Las parejas formadas por una interrupción y un residuo tienen puntuación negativa (-4 en el ejemplo), -4. El puntaje máximo se alcanza alineando cada secuencia sonsigo misma Matriz de Pesos 2 * Score(i, j ) 2 * 41 % Semejanza = = = 68.9% ScMax(i, i ) + ScMax( j , j ) 60 + 59 En este punto debemos ser capaces de alinear una pareja de secuencias usando una matriz de pesos entre parejas, y en base a los valores obtenidos, estimar un “nivel de semejanza” que nos orientará sobre qué relaciones son más cercanas, o cuando las secuencias son más parecidas. Alineamiento Múltiple y Filogenia Campus Virtual Andaluz, 2007 Alineamiento Múltiple Bioinformática Clásica Dado el conjunto de secuencias {S1, S2, ..., Sn }, se define el Alineamiento Múltiple (AM) como el conjunto formado por secuencias equivalentes { S’1, S’2, ..., S’n }, todas ellas de la misma longitud ( |S’1| = |S’2| = |S’n| ) que se obtienen insertando interrupciones (gaps) con el objetivo de maximizar el parecido en cada columna y observando el coste de los gaps. Secuencias originales MGARNSVLRGLKHIWANEL QMGARNSVLLKHIVWAE MGAKALRGLKHLVWA MGRNSVLRLKHIVRAKL Secuencias alineadas -MGARNSVLRGLKHI-WANEL QMGARNSVL--LKHIVWA-E-MGAK-A-LRGLKHLVWA---MG-RNSVLR-LKHIVRAK-L FA9_BOVIN ------YNSG NKVVCSCTDG YRLAEDQKSC EPAVPFPCGR VSVSHISKKL TRAETIFSNT GEDAERGQFP IYSHMFCAGY HEGGKDSCQG KYGI---VSR YVNWIKEKTK LT FA9_SHEEP ---------- ---------- ---------- ---------R ASVLHTSKKL TRAETIFSNM GEDAARGQFP IYNHMFCAGY HEGGKDSCQG KYGI-TKVSR YEV------- -- FA9_HUMAN LNRPKRYNSG NKVVCSCTEG YRLAENQKSC EPAVPFPCGR VSVSQTS-KL TRAEAVFPDV GEDAKPGQFP IYNNMFCAGF HEGGRDSCQG KYG--TK-SR YVNWIKEKTK LT FA9_RABIT --------TV NKIICSCTEG YRLAENQKSC EPAVPFPCGR VSVSHASKKI TRATTIFSNT GENAKPGQFP IYNNMFCAGF DVGGKDSCEG KYGVYTRVSW YVNWIKEKTK LT FA9_CANFA LSRPKRYNSG NKVVCSCTTG YQLAEDQRSC EPAVPFPCGR VSVPHISMTR TRAETLFSNM GKDAKPGQFP IYNNMFCAGF HEGGKDSCQG KYGIYTK-SR YVNWIKEKTK LT FA9_PIG ---------- ---------- ---------- ---------- ---SHSPTTL TRAEIIFSNM GENAKPGQFP IYSNMFCAGF HEGGKDSCLG KYGIYTK--R YVNW------ -- FA9_MOUSE LTRPKRYNSG NKVICSCTEG YQLAEDQKSC EPTVPFPCGR ASISYSSKKI TRAETVFSNM GENAKPGQIP TYNNMFCAGY REGGKDSCEG KYAIYTKVSR YVNWIKEKTK LT FA9_RAT ---------- ---------- ---------- ---------R VSVAYNSKKI TRAETVFSNT GENAKPGQIP IYNNMFCAGY REGGKDSCEG KYAIYTK-SR YVNW------ -- FA9_CAVPO ---------- ---------- ---------- ---------R VSIPSVSKEH NRANAIFSRM GEDAKPGQFP IYNNMFCAGF HEGGRDSCQG KYA--TKVSR YVNW------ -- Incluso en los ejercicios académicos (ver las 4 secuencias cortas del medio), alinear varias secuencias a la vez es un proceso complicado. Lo que se busca es poder observar la relación entre ellas. Si dos secuencias tienen una zona parecida es posible que sea debido a que la evolución la ha conservado por su importancia. Si observamos que la misma zona se conserva en varias secuencias, la hipótesis se refuerza. Alineamiento Múltiple y Filogenia Campus Virtual Andaluz, 2007 Métodos de Alineamiento Bioinformática Clásica Extensión del Alineamiento de Parejas de Secuencias espacio de soluciones: hipercubo n-dimensional volumen = Lj = | Sj ! |; complejidad = O(Ln) La primera idea tentadora es extender los algoritmos de alineamiento de parejas de secuencias para que lo hagan con varias secuencias a la vez. Hablando de forma gruesa podemos decir que el coste (complejidad) de alinear dos secuencias es como el área del rectángulo que definen sus longitudes (LSa x LSb). Si usamos más secuencias, el coste sería el producto de sus longitudes. Si asumimos que –en promedio- son de la misma longitud, la complejidad se eleva hasta Ln, siendo L la longitud media y “n” el número secuencias. Por ello, si alinear 2 secuencias de 300 residuos tardase 1 seg. (es demasiado pero ayudará a hacer la analogía), alinear 3 secuencias tardaría 300 segundos y alinear 10 secuencias necesitaría del orden de 3008 segundos (lo que es mayor que el tiempo desde el Big Bang) Alineamiento Múltiple y Filogenia Campus Virtual Andaluz, 2007 Métodos de Alineamiento: Jerárquico Bioinformática Clásica Por ello, la solución exhaustiva basada en la programación dinámica) queda limitada a números reducidos de secuencias (del orden de 10), habiéndose propuesto varias aproximaciones. La más atractiva de ellas es el llamado alineamiento o Jerárquico. Dadas n secuencias a alinear: 1.- Se calcula la matriz de semejanzas M(i,,j) entre cada pareja de secuencias 2.- Se calcula el orden o topología del alineamiento a partir de M(i,j) 3.- Se procede a alinear parejas en el orden sugerido por la topología Estas parejas pueden estar formadas por: Dos secuencias Una secuencia y un grupo de secuencias Dos grupos de secuencias Nota: M(i,j) indica el nivel de semejanza o parecido entre la secuencia i y la secuencia j Alineamiento Múltiple y Filogenia Campus Virtual Andaluz, 2007 Alineamiento Jerárquico: Paso 1 Bioinformática Clásica Dadas n secuencias a alinear: 1.- Calcular la matriz de semejanzas M(i,j) entre cada par de secuencias [N] Cross Similarity Matrix L ---------+ ---------+ ---------+ ---- [0] 32 VFVCATLGTT GCAFDCLELG IPICASEEGL WL [1] 34 VFVCATLGTT GVCAFDCLSE LGPICASEGL WLHI [2] 30 VVVFVCGTGT TGVCAFDELG IICASSLHIW [3] 32 VVVFVCATLG TTGVCAFELG IICASSSLHI WL [4] 26 ALWHITLTVG VCADLEGQCN QEVWLV [5] 27 GCALWHITLT VGCASDLEGQ CQEGWLV [ [ [ [ [ [ [ 0] 1] 2] 3] 4] 5] 6] [0] [1] [2] [3] [4] [5] [6] 100 82 52 60 22 26 22 82 100 54 62 24 20 14 52 54 100 86 18 12 10 60 62 86 100 24 16 8 22 24 18 24 100 78 46 26 20 12 16 78 100 48 22 14 10 8 46 48 100 [6] 22 GGGCALWHIT LTVTQCNQEG VW 2 * S (i, j ) M (i, j ) = S max(i, i ) + S max( j , j ) En el ejemplo (recuadro a la izquierda se muestran 7 secuencias (numeradas de 0 a 6) que se desean alinear de forma conjunta. En secciones anteriores hemos visto como es posible calcular la semejanza entre cada pareja, usando FASTA, BLAST, Programación dinámica, o cualquier otro método (identidades por ejemplo). Con ello podemos completar la matriz (a la derecha) en que se establece el parecido entre cada par. Note que la diagonal indica que las secuencias se parecen en 100 %, mientras que la secuencia [0] se parece en 82% a la secuencia [1] Alineamiento Múltiple y Filogenia Campus Virtual Andaluz, 2007 Alineamiento Jerárquico: Paso 2 Bioinformática Clásica Dadas n secuencias a alinear: 1.- Calcular la matriz de semejanzas M(i,j) entre cada par de secuencias 2.- Calcular la topología u orden del alineamiento [ [ [ [ [ [ [ 0] 1] 2] 3] 4] 5] 6] Cross Similarity Matrix Cross Similarity Matrix [0] [1] [2] [3] [4] [5] [6] 100 82 52 60 22 26 22 82 100 54 62 24 20 14 52 54 100 86 18 12 10 60 62 86 100 24 16 8 22 24 18 24 100 78 46 26 20 12 16 78 100 48 22 14 10 8 46 48 100 [0] [1] [2] [3] [4] [5] [6] 100 82 52 60 22 26 22 82 100 54 62 24 20 14 52 54 100 86 18 12 10 60 62 86 100 24 16 8 22 24 18 24 100 78 46 26 20 12 16 78 100 48 22 14 10 8 46 48 100 [ [ [ [ [ [ [ 0] 1] 2] 3] 4] 5] 6] Dada la matriz M(I,j) de semejanzas (aqui llamado Matriz de semejanzas cruzadas): • Se elige la pareja con mayor semejanza. En este caso, el formado por las secuencias 2 y 3 con un parecido del 86% • Se “colapsa” la matriz, es decir, se unen las filas y columnas de las dos secuencias para formar una sola, promediando ambas Nota: observe que al grupo o cluster formado por las dos secuencias le hemos llamado [c7] Alineamiento Múltiple y Filogenia Campus Virtual Andaluz, 2007 Alineamiento Jerárquico: Paso 2 Bioinformática Clásica Dadas n secuencias a alinear: 1.- Calcular la matriz de semejanzas M(i,j) entre cada par de secuencias 2.- Calcular la topología u orden del alineamiento Cross Similarity Matrix [C8] [ 1] [C7] [ -] [ 4] [ 5] [ 6] Dada la matriz M(I,j) de semejanzas: • Elegir la pareja con mayor semejanza. • Colapsar la matriz • Repetir hasta completar Alineamiento Múltiple y Filogenia [0] [1] [2] [3] [4] [5] [6] 100 -- 57 -- 23 23 18 -- --- -- -- -- -- -57 -- 100 -- 21 14 9 -- -- -- --- -- -- -23 -- 21 -- 100 78 46 23 -- 14 -- 78 100 48 18 -9 -- 46 48 100 En el ejemplo, el siguiente valor máximo es 82% entre las secuencias [0] y [1] lo que formaría el siguiente cluster [c8], y se vuelve a colapsar la matriz promediando filas y columnas Campus Virtual Andaluz, 2007 Bioinformática Clásica Métodos de Alineamiento Dadas n secuencias a alinear: 1.- Calcular la matriz de semejanzas M(i,j) entre cada par de secuencias 2.- Calcular la topología u orden del alineamiento Cross Similarity Matrix [C8] [ 1] [C7] [ -] [ 4] [ 5] [ 6] [0] [1] [2] [3] [4] [5] [6] 100 -- 57 -- 23 23 18 -- --- -- -- -- -- -57 -- 100 -- 21 14 9 -- -- -- --- -- -- -23 -- 21 -- 100 78 46 23 -- 14 -- 78 100 48 18 -9 -- 46 48 100 Clu Components Sim n.Seqs C.7 : C.8 : C.9 : C.10: C.11: C.12: S.2 S.0 S.4 C.7 S.6 C.10- S.3 = S.1 = S.5 = C.8 = C.9 = C.11= 86 82 78 60 48 18 2 2 2 4 3 7 (2,3) (0,1) (4,5) (2,3,0,1) (6,4,5) (2,3,0,1,6,4,5) De esta forma se completa el orden del alineamiento. En el recuadro se resume el orden en que se han ido uniendo las secuencias formado los grupos o clusters [7 – 12]. Para cada uno de ellos se indican las secuencias o clusters que lo forman, el porcentaje de semejanza y el número de secuencias que hay en esa rama del árbol. Alineamiento Múltiple y Filogenia Campus Virtual Andaluz, 2007 Bioinformática Clásica 3.- Alinear El último paso es alinear las parejas de secuencias o lo clusters en el orden determinado por la topología del AM. Alineamiento Múltiple y Filogenia Campus Virtual Andaluz, 2007 Secuencia-Cluster y Cluster-Cluster Bioinformática Clásica Comentario sobre el cálculo del valor de una celda en la matriz de semejanzas al alinear varias secuencias o dos grupos de secuencias. En los procedimientos de alineamiento de secuencias (sección 1) el cálculo de una celda está determinado por el peso de la pareja de residuos que la definen. En este caso una celda puede quedar definida por varios residuos tanto en la secuencia horizontal como en la vertical. Para calcular el valor la celda se combinan los pesos de todas las posibles parejas de secuencias Celda(1,1) = [ 4 x Peso(‘A’, ‘M’) ] / 4 Celda (1,2) = [ 3 x Peso(‘A’,’G’) + 1 x Peso(‘A’,’C’) ] / 4 Celda (1,3) = [ 2 x Peso(‘A’,’A’) + 1 x Peso(‘A’,’S’) + 1 x Peso(‘A’,’L’) ] / 4 n1 Celda (i, j ) = n2 ∑ ∑ Peso(SH (i), SV ( j )) i =1 j =1 Alineamiento Múltiple y Filogenia n1xn2 En el ejemplo se muestran 4 secuencias a alinear con la vertical. Se indica la numeración de las celdas (1,1), (1,2), etc. Abajo, el cálculo de las tres primeras celdas en horizontal y la fórmula para generalizar. Es posible agilizar los cálculos, formando una matriz de pesos específica por posición y usándola en los algoritmos. Se muestra para cada residuo en vertical la proporción en que aparece en cada columna, lo que se puede usar para calcular rápidamente la celda. Campus Virtual Andaluz, 2007 Bioinformática Clásica Algunos comentarios Aunque no es razonable alinear con métodos exhaustivos más de unas pocas secuencias, el AM jerárquico es una aproximación y como tal lal demos usar Algunos de los problemas asociados son: • Una vez que se ha insertado un gap en una pareja de secuencias, el gap se propaga a las que se alinean con ella (todas, al final) • Al colapsar la matriz suponemos que una secuencia A se parece a B en 80% y a C en 60%, entonces A se parecerá a B|C en un 70% (el promedio). Esto puede ser válido en alineamientos globales y con secuencias de mucho parecido. Pero en el caso “local” las secuencias B y C se pueden parecer a A en dos fragmentos diferentes que By C no comparten. Habría necesidad de recalcular el valor de la semejanza Alineamiento Múltiple y Filogenia Campus Virtual Andaluz, 2007 Bioinformática Clásica En Resumen ¿ Por qué Alineamiento Múltiple ? Porque evidencia las relaciones entre secuencias Además es el punto de partida, intermedio o final para: z z z z Predecir estructura secundaria y 3D Filogenia, cálculo de pesos (coste de mutaciones y gaps) Afinar parámetros de análisis de secuencias Identificación de zonas mas conservadas asociadas a función Alineamiento Múltiple y Filogenia Campus Virtual Andaluz, 2007 Bioinformática Clásica ClustalW: http://www.ebi.ac.uk/clustalw/ El programa de mayor aceptación para el AM de secuencias es ClustalW que forma parte del paquete Phylips y está disponible en varios servidores. Se indica el del EBI. Alineamiento Múltiple y Filogenia Campus Virtual Andaluz, 2007 Bioinformática Clásica Ejercicio de AM Realice el AM de las secuencias que se muestran usando el programa ClustalW. Indique las zonas más conservadas > > > > > > > > > > > > > > mODC rODC hODC bODC pODC gODC hHDC mHDC rHDC bDDC sDDC cDDC hDDC rDDC (31 (31 (31 (31 (31 (31 (34 (34 (34 (34 (34 (34 (34 (34 AA): AA): AA): AA): AA): AA): aa): AA): AA): AA): AA): AA): AA): AA): VKFGATLKTS VKFGATLKTS VKFGATLATS VKFGATLKTS VKFGATLKTS VKFGATLRTS VFVCATLGTT VFVCATLGTT VFVCATLGTT CFVVATLGTT FFVVATLGTT FFVVATLGTT FFMVATLGTT FFVVVTLGTT RLLLERAKEL RLLLERAKEL RLLLERAKEL RLLLERAKEL RLLLERAKEL RLLLERAKEL GVCAFDCLSE GVCAFDRLSE GVCAFDKLSE SCCSFDNLLE SCCSFDNLLE NCCSFDSLLE TCCSFDNLLE SCCSFDNLLE NIDVIGVSFH NIDVVGVSFH NIDVVGVSFH DIDVIGVSFH NIDVIGVSFH NIDVIGVSFH LGPICASEGL LGPICASEGL LGPICAAEGL VGPICHKEGL VGPICHEEDI VGPICNQEEM VGPICNKEDI VGPICNQEGV V V V V V V WLHI WLHV WLHV WLHV WLHV WLHI WLHV WLHV Este fichero está disponible como 04Ej1-AM14SecProt.txt Nota: A efectos académicos se ha incluido solo parte de la secuencias a fin de poder apreciar el alineamiento y entender el procedimiento. El alumno puede recuperar las secuencias originales (en el fichero se adjuntan algunos datos más) y resolver el problema global. Este trabajo será evaluado Alineamiento Múltiple y Filogenia Campus Virtual Andaluz, 2007 Bioinformática Clásica La versión ampliada de este tema se encuentra en los apuntes del Tema 4: Alineamiento Múltiple y Filogenia, accesibles a través de la plataforma Web de aprendizaje virtual de la UNIA. Consulta estos materiales para completar tus conocimientos Alineamiento Múltiple y Filogenia Campus Virtual Andaluz, 2007