Construcción y análisis de árboles filogenéticos Antonio Gómez Tato Introducción Árboles filogenéticos Surgen a partir de la teoría de la evolución de Darwin. Son representaciones gráficas de las relaciones evolutivas entre un grupo de organismos vivos. Primer árbol filogenético debido a Haeckel 1866 Todas las especies descienden por evolución de una especie ancestral común. La aparición de una nueva especie se produce por la subdivisión de una existente en dos subespecies que han divergido tanto que pierden la capacidad de cruzarse. Los conocimientos también evolucionan http://tolweb.org/tree/ phylogeny.html Página web del proyecto “The tree of Life” donde se muestra la raíz del árbol universal. Estamos hablando de hace unos 3.000 millones de años Métodos de distancia Algo más cercano Métodos de distancia Estamos lejos de entender lo que dicen los restos fósiles Árboles filogenéticos Punto de vista matemático Ejemplo: Árbol filogenético para el grupo Hominidae Orangután Gorila Raíz án t u ng Chimpancé a Or a oril G c pan im Ch é Ardiphitecus Australophitecus Humanos Tiempo Ejemplo: Árbol filogenético para el grupo Hominidae Orangután Gorila Raíz Chimpancé Ardiphitecus Australophitecus Comienza la existencia del ancestro común a Austrolophitecus y Humanos Periodo evolutivo del ancestro común a Austrolophitecus y Humanos Momento en que aparece la especie humana Tiempo Humanos Ejemplo: Árbol filogenético para el grupo Hominidae Orangután Nodos Gorila Raíz Chimpancé Hojas Ardiphitecus Australophitecus Humanos Tiempo Las Topologías ¿Cuántos árboles (topologías) hay? Para 3 taxones A A B B B A C C C (A,(B,C)) ((A,B),C) (B,(A,C)) ¿Cuántos árboles hay? Para 4 taxones B A D B D C D C D A 3x5=15 D ¿Cuántos árboles hay? Para N taxones con raíz 3x5x7x…..x(2N-3)= (2N-3)!! Para N taxones sin raíz 3x5x7x…..x(2N-5)= (2N-5)!! Especies! ! 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 30 40 50 ! Número de árboles 1 1 3 15 105 945 10.395 135.135 2.027.025 34.459.425 654.729.075 13.749.310.575 316.234.143.225 7.905.853.580.625 213.458.046.676.875 6.190.283.353.629.375 191.898.783.962.510.625 6.332.659.870.762.850.625 221.643.095.476.699.771.875 8.200.794.532.637.891.559.375 4.9518x1038 1.00985x1057 2.75292x1076 Segundos por año 365x24x60x60 = 31.536.000 Un Pentium IV ejecuta 4.000.000 de instrucciones por segundo Instrucciones en un año: 126.144x109 Si en cada instrucción visitase un árbol tardaría... Especies! 20 30 Años 65.011.380 3.925x1025 ¡No hay que desesperar! • No es necesario visitar TODOS los árboles posibles. • Hay procedimientos (algoritmos) de tipo heurístico que permiten hacer una búsqueda rápida y efectiva aunque no exhaustiva de los “mejores” árboles. La estimación Orangután Gorila Chimpancé Ardipithecus Australopithecus Hombres Orangután Gorila Chimpancé Hombres Los datos ¿Qué datos se usan? Secuencias Secuencias alineadas “sin huecos” de ADN, ARN o mARN. ¿Qué datos se usan? Secuencias Datos morfológicos Tabla de caracteres morfológicos codificados ¿Qué datos se usan? Secuencias Datos morfológicos Lista ordenada Lista ordenada de genes si se dispone del genoma completo ¿Qué datos se usan? Secuencias Lugares de restricción, SNPs, Secuencias de aminoácidos, etc Datos morfológicos Lista ordenada En este curso nos restringiremos a las secuencias de ADN, ARN o mARN Los métodos Principales métodos Métodos de distancia Máxima parsimonia Máxima verosimilitud Métodos de distancia Modelo biológico Estimación ión tru Co ns ac Modelo biológico tim Es cc ió n Datos Árbol filogenético Matriz de distancias Métodos de distancia ¿Qué mide la distancia entre dos especies? • Habitualmente la distancia entre dos especies mide el número de años (o generaciones) transcurridos desde la subdivisión de la especie ancestral común en las dos especies en cuestión. • Esa distancia no es conocida y hay que estimarla a partir de los datos usando modelos evolutivos. • El modelo usado depende, entre otros factores, del tipo de datos que se tiene, del tipo de organismo y del criterio del investigador. Métodos de distancia La matriz de distancias T1 T2 .. . Tn T T11 d11 d21 ... dn1 T T22 .. .. .. T Tn d12 . . . d1n d22 . . . d23 ... ... ... dn2 . . . dnn dij es la distancia observada entre las especies i,j. En general no es una distancia en el sentido matemático del término Métodos de distancia d11 d21 ... dn1 d12 d22 ... dn2 . . . d1n . . . d2n ... ... . . . dnn Construcción Cálculo Métodos de distancia La distancia medida en un árbol es “aditiva” Dados 4 taxones A B C D B D v u C A dAB + dCD ≤ max(dAC + dBD , dAD + dBC ) Métodos de distancia Si el árbol tiene raíz, la distancia es ultramétrica v1 v2 A Dados tres taxones cualesquiera, A,B,C, se tiene: B Hay uno que equidista de los otros dos. (En el caso de la figura, el A) C Esa distancia es mayor que la distancia entre los dos restantes. v3 v4 dAC = v1 + v2 + v4 = v1 + v2 + v3 = dAB > dBC Métodos de distancia Si la matriz de distancia corresponde a una distancia ultramétrica se puede reconstruir el árbol de forma única Se busca el mínimo de las distancias C y D son las más próximas Paso 1 Métodos de distancia Si la matriz de distancia corresponde a una distancia ultramétrica se puede reconstruir el árbol de forma única UPGMA dU A (dAC + dAD ) = 2 Métodos de distancia Si la matriz no es ultramétrica Ancestro común a B y C B C A D Datos B C Reconstrucción El algoritmo de Neighbor-Joining intenta corregir el problema Métodos de distancia El algoritmo de Neighbor-Joining El procedimiento es el mismo que el del UPGMA, salvo que para buscar el mínimo usa una distancia corregida. La idea es cambiar la noción de vecino. Vecinos serán aquellos que están próximos pero también alejados de los demás. Métodos de distancia El ajuste por mínimos cuadrados El algoritmo de Fitch-Margoliash (1967) A DAB = v1 + v2 B v1 v3 v2 C v4 v5 D DAB = 1 ∗ v1 + 1 ∗ v2 + 0 ∗ v3 + 0 ∗ v4 + 0 ∗ v5 1 1 1 0 0 0 1 0 0 1 1 0 0 1 1 1 1 0 0 1 0 1 0 1 0 0 1 0 1 1 v1 v2 v3 v4 v5 = DAB DAC DAD DBC DBD DCD Métodos de distancia El ajuste por mínimos cuadrados El algoritmo de Fitch-Margoliash (1967) Para cada topología estimar los vi que minimizan n ! n ! 1 2 Q= (D − d ) ij ij 2 d i=1 j=1 ij 1 1 1 0 0 0 1 0 0 1 1 0 0 1 1 1 1 0 0 1 0 1 0 1 0 0 1 0 1 1 v1 v2 v3 v4 v5 = DAB DAC DAD DBC DBD DCD Métodos de distancia El ajuste por mínimos cuadrados El algoritmo de Fitch-Margoliash (1967) Fijada la topología encontrar la solución es un problema sencillo. Si no hay muchos taxones se busca la mejor entre todas las topologías Matriz=topología 1 1 1 0 0 0 1 0 0 1 1 0 0 1 1 1 1 0 0 1 0 1 0 1 0 0 1 0 1 1 n ! n ! 1 Q= (Dij − dij )2 2 d i=1 j=1 ij v1 v2 v3 v4 v5 = DAB DAC DAD DBC DBD DCD Métodos de distancia El ajuste por mínimos cuadrados El algoritmo de Fitch-Margoliash (1967) Fijada la topología encontrar la solución es un problema sencillo. Si no hay muchos taxones se busca la mejor entre todas las topologías En otro caso se recurre a algoritmos heurísticos para encontrar una solución aceptable n ! n ! 1 Q= (Dij − dij )2 2 d i=1 j=1 ij Matriz=topología 1 1 1 0 0 0 1 0 0 1 1 0 0 1 1 1 1 0 0 1 0 1 0 1 0 0 1 0 1 1 v1 v2 v3 v4 v5 = DAB DAC DAD DBC DBD DCD Cálculo de distancias ¿Cómo se calculan las distancias entre secuencias de nucleótidos? Podemos pensar en usar como distancia la proporción de no coincidencias entre los nucleótidos; pero esta distancia no refleja correctamente el proceso evolutivo. Podría pasar que después de varias mutaciones volviésemos al mismo nucleótido de partida Lo más correcto es usar un modelo probabilístico de evolución de nucleótidos. Los modelos de evolución La probabilidad entra en escena Las secuencias evolucionan mediante mutaciones, inserciones, delecciones, etc. Nosotros nos vamos a restringir al caso de mutaciones. Hay muchos modelos aplicables. Nosotros sólo veremos los dos más sencillos, Jules-Cantor y Kimura con dos parámetros. La probabilidad entra en escena Los modelos sencillos asumen que en una secuencia cada “sitio” evoluciona de forma independiente. Dadas dos secuencias alineadas La probabilidad de que S haya evolucionado a partir de R en un tiempo t es: S = s1 s2 s3 . . . sn−1 sn R = r1 r2 r3 . . . rn−1 rn P (S | R, t) = n ! P (si | ri , t) i=1 Sólo necesitamos el modelo de evolución de cada sitio Sólo necesitamos el modelo de evolución de cada sitio Como en cada sitio puede haber 4 estados A,G,C,T necesitamos conocer las probabilidades de cada una de las mutaciones en un tiempo t. P (A | A, t) P (A | G, t) P (A | C, t) P (A | T, t) P (G | A, t) P (G | G, t) P (G | C, t) P (G | T, t) P (C | A, t) P (C | G, t) P (C | C, t) P (C | T, t) P (T | A, t) P (T | G, t) P (T | C, t) P (T | T, t) Para modelizar se usan cadenas de Markov continuas, por lo que la matriz anterior no se da directamente. En su lugar se da la matriz de “velocidades” Modelo de Jules-Cantor (1969) Matriz de “velocidades” −3α α α α α −3α α α α α −3α α α α α −3α Matriz de probabilidades 1 4 + 3 −4αt 4e 1 4 − 1 −4αt 4e 1 4 − 1 −4αt 4e 1 4 − 1 −4αt 4e 1 4 − 41 e−4αt 1 4 + 34 e−4αt 1 4 − 14 e−4αt 1 4 − 14 e−4αt 1 4 − 41 e−4αt 1 4 − 14 e−4αt 1 4 + 34 e−4αt 1 4 − 14 e−4αt 1 4 − 41 e−4αt 1 4 − 14 e−4αt 1 4 − 14 e−4αt 1 4 + 34 e−4αt Modelo de Kimura 2 parámetros A G Purinas C T Piramidinas Transiciones Transversiones Kimura (con dos parámetros) A G C T A −α − 2β α β β G α −α − 2β β β C β β −α − 2β α T β β α −α − 2β Matriz de probabilidades 1 s = (1 − e−4βt ) 4 A C G T A r s u s G s r s u C u s r s T s u s r 1 u = (1 + e−4βt − 2e−2(α+β)t ) 4 r = 1 − 2s − u Una vez escogido el modelo, la distancia entre dos secuencias se puede pensar como la suma del tiempo de evolución transcurrido desde la “bifurcación” de su ancestro común más cercano R S Ancestro? El problema es que este ancestro no es conocido!! Por lo tanto hay que estimar esa distancia evolutiva. La forma más usual, ya que estamos metidos de lleno en probabilidades, es buscar lo más probable (verosimil). Como los sitios se suponen evolucionan de forma independiente, nos basta trabajar el principio con secuencias de longitud 1. R S Datos iniciales: El árbol, los nucleótidos de S y R V1 V2 Datos a estimar: v1, v2 Ancestro? Si el ancestro fuese una G tendríamos Esto nos lo da el modelo elegido Como el ancestro puede ser cualquier nucleótido de forma equiprobable obtenemos: Lo que buscamos son los valores de v1, v2 que hagan máxima esa probabilidad. Como los modelos que usamos son reversibles, esa probabilidad sólo depende de la suma v1+v2. (Principio de la polea de Felsenstein) Máxima verosimilitud Máxima verosimilitud Para un árbol arbitrario, se puede hacer algo análogo, salvo que tendremos muchos más parámetros que estimar. El método de máxima verosimilitud se basa en la optimización de una función de verosimilitud obtenida a partir del árbol bajo el establecimiento de un modelo de evolución y unas premisas o hipótesis simplificadoras. Computacionalmente, si para un árbol, la búsqueda del óptimo no es sencilla, la búsqueda del árbol óptimo es casi imposible si el número de taxones es alto. Máxima verosimilitud Hipótesis iniciales (Felsenstein 1981) : •Todos los sitios evolucionan de manera independiente. •Todos •Una evolucionan según el mismo modelo y con la misma velocidad. vez se produce una ramificación, las nuevas especies evolucionan de forma independiente. Máxima verosimilitud mejoras en el modelo •Todos los sitios evolucionan de manera independiente. Hay evidencias de que sitios cercanos tienen una dependencia evolutiva. Se intenta modelizar dicha dependencia por modelos de Markov ocultos (HMM). (Felsenstein Churchill 1996) Máxima verosimilitud mejoras en el modelo •Todos los sitios evolucionan según el mismo modelo y con la misma velocidad (“rates”). Se intenta solucionar permitiendo que los parámetros que nos dan la velocidad de evolución se ajusten a una cierta distribución.Yang 1994 Se mejoran los modelos, introduciendo muchos más parámetros que permitan distintas tasas de mutación entre los diferentes nucleótidos. Etc… Consecuencias Computacionalmente es cada vez más complejo ya que aparecen más parámetros, las secuencias disponibles son más grandes y el número de ellas es creciente. A pesar del constante crecimiento de la capacidad de cálculo de los ordenadores, esta sigue siendo insuficiente y aparecen soluciones mediante la paralelización de los algoritmos o el uso de redes de ordenadores. Se investiga activamente en la búsqueda de soluciones analíticas. Máxima parsimonia Máxima parsimonia Parece ser el más usado. La idea de partida es que las hipótesis simples son mejores que las más complejas y que las hipótesis “ad hoc” deben ser evitadas si es posible. Lo que se busca es encontrar el mínimo número de cambios que explique los datos. Máxima parsimonia El algoritmo más simple es el de Fitch. En un primer paso, se recorre el árbol hacia la raíz para determinar el número mínimo de cambios que se necesitan. En un segundo paso se intenta, ya partiendo de la raíz, reconstruir las secuencias de los ancestros para obtener ese número mínimo. Como los cambios en un sitio no afectan a los otro sitios, se puede hacer sitio a sitio. Máxima parsimonia a g a 1 2 3 a t 4 5 Reconstrucción {a,t} {a, g} {a} {a} El número mínimo de cambios es 2. Temas adicionales Árboles consenso Como los distintos métodos pueden dar distintos árboles para una misma colección de datos, se suelen hacer unos árboles consenso. Hay distintos criterios y los árboles resultantes no tienen porqué ser binarios. Tipo de criterio: Si un nodo es compartido por la mayoría de los árboles se adopta en el árbol consenso. Superárboles Está apareciendo una nueva técnica que sirve para englobar árboles de muy distintas procedencias. Por ejemplo: Árboles de datos morfológicos, de distintos genes, de distintos cromosomas o de distintos autores. Hay diversos métodos que no vamos a exponer. Se puede pensar esa técnica como una etapa posterior a un proceso del tipo “divide y vencerás” es decir, el conjunto de datos dividirlo según distintos criterios y después armonizar toda la información en un superárbol. Redes filogenéticas Hay algunos investigadores que se cuestionan el uso de árboles binarios, ya que los consideran que es un modelo demasiado simple para una realidad tan compleja. Además parece que hay indicios de una transferencia horizontal de genes entre especies, por lo que se propugna el uso de redes filogenéticas en lugar de los árboles. El tema está en sus comienzos. Resumen La filogenética es una ciencia antigua, pero la aparición de nuevos tipos de datos “moleculares” la renueva y da lugar a la filogenética molecular. • •Hay tres (tipos) de métodos de reconstrucción: distancia, verosimilitud y parsimonia. Todos con sus ventajas e inconvenientes. •El problema de alineación múltiple es tan complejo como el de reconstrucción filogenética. •Las soluciones generalmente no son las óptimas y además muchas veces no está garantizado que provengan de un máximo local. Epílogo La aparición de más datos e incluso de nuevos tipos de datos necesita de la mejora y desarrollo de nuevos y más potentes métodos. • • Ante un problema real, lo mejor es aplicar varios métodos y quedarnos con el más coherente con nuestras hipótesis biológicas o con lo aceptado hasta el momento. No derribar el “castillo” sin grandes evidencias en contra. • Existen tests estadísticos, pero están en constante controversia. Usarlos, pero con cuidado. Muchas gracias