Métodos filogenéticos Básico • La inferencia filogenética es un campo per se del estudio de la evolución, en continuo movimiento y expansión. • La inferencia filogenética es un procedimiento de estimación estadística. • Disponemos de información actual sobre las moléculas (u otros caracteres) e intentamos hipotetizar sobre el pasado • La pregunta es: ¿cuál es la historia evolutiva de este grupo de taxones? Lección 4. Métodos filogenéticos Curso “Análisis filogenético” David Posada Máster de Bioestadística 2006 Universidad de Santiago de Compostela Marzo 2006 Lección 4. Métodos Análisis filogenético 2006 David Posada Métodos filogenéticos Métodos filogenéticos Propiedades deseables Poder: ¿cuántos datos se necesitan para producir un resultado razonable? MÉTODO COMPUTACIONAL Criterio de optimalidad • Consistencia: ¿convergerá a la solución correcta si proporcionamos suficientes datos? • Robustez: ¿si se violan algunas asunciones el método sigue proporcionando soluciones razonables? • Falsabilidad: ¿nos indicará el método cuándo no lo deberíamos estar utilizando? • No existe el método perfecto Lección 4. Métodos Análisis filogenético 2006 David Posada Caracteres • Distancias Eficiencia: cuán rápido es el método? TIPO DE DATOS • Tipos de métodos Algoritmo de agrupamiento Máxima Parsimonia (MP) Máxima Verosimilitud (ML) Inferencia Bayesiana (BY) Evolución mínima (ME) Mínimos cuadrados (LS) Neighbor-joining (NJ) UPGMA Lección 4. Métodos Análisis filogenético 2006 David Posada Métodos filogenéticos Métodos filogenéticos Caracteres y distancias Algoritmos vs. Criterios de optimalidad • Los métodos algorítmicos definen una serie de pasos que conducen a la determinación de un árbol • Los métodos de optimalidad definen un criterio que permiten comparar diferentes árboles y decidir cúal es mejor (o igual). Métodos que usan caracteres nos indican cuáles cambian y nos permiten reconstruir estados ancestrales Lección 4. Métodos Análisis filogenético 2006 David Posada Métodos filogenéticos Son bastante “atractivos” • Dos pasos: 1. Definir el criterio de optimalidad (parsimonia, mínimos cuadrados, verosimilitud, probabilidad posterior) 2. Buscar el árbol óptimo bajo el criterio en question Tienen limitaciones • Proporcionan una forma de establecer un rango de bondad de las diferente soluciones posibles • Estos métodos son mucho más lentos que los métodos algorítmicos, ya que hay que buscar entre varias soluciones posibles • Máxima parsimonia (MP), Mínima evolución (ME), Máxima verosimilitud (ML), Inferencia Bayesiana (Bayes) – Pueden depender del orden en el que se añaden los taxones – No permiten comparar diferentes árboles • Lección 4. Métodos Análisis filogenético 2006 David Posada Métodos de optimalidad – Son métodos fáciles de implementar, incluso a mano. – El tiempo de computación – Suelen resultar en un único árbol • Optimalidad Métodos filogenéticos Métodos algorítmicos • Algoritmo UPGMA (ya no se usa), Unión del vecino o “Neighbor-joining” (NJ) Lección 4. Métodos Análisis filogenético 2006 David Posada Lección 4. Métodos Análisis filogenético 2006 David Posada Métodos filogenéticos Métodos filogenéticos ¿Cuántos árboles hay? Problema muy difícil Taxa (n) Enraízados (2n-3)!/((n-2)! 2n-2) No enraízados (2n-5)!/((n-3)! 2n-3) 4 15 3 5 105 15 6 954 105 7 10,395 954 8 135,135 10,395 9 2,027,025 135,135 10 34,459,425 2,027,025 20 8.20!1021 2.22!1020 50 2.75!1076 2.84!1074 • La inferencia filogenética es un problema NP (“non-deterministic polinomial”): no se conocen algoritmos eficientes para sus solución. • Para un número razonable de secuencias (p.e., más de 20) es a menudo imposible garantizar que se han encontrado el árbol óptimo. • A menudo hay que realizar búsquedas heurísticas, que pueden resultar en árboles buenos, regulares, malos … El número total de átomos en el cuerpo humano es 1028. El número total de partículas en el universo es 1072 – 1087. Lección 4. Métodos Análisis filogenético 2006 David Posada Métodos filogenéticos Lección 4. Métodos Análisis filogenético 2006 David Posada Métodos filogenéticos Paisajes de árboles (“tree landscape”) Islas de árboles (“tree islands”) Árbol óptimo global Un buen árbol Árbol óptimo local Y si la búsqueda empezase aquí? Lección 4. Métodos Análisis filogenético 2006 David Posada Lección 4. Métodos Análisis filogenético 2006 David Posada Métodos filogenéticos Métodos filogenéticos Búsqueda de árboles • Búsqueda exhaustiva Exacta: garantizan todos los óptimos globales (8-20 taxa) – Exhaustiva: cuando se evaluan todos los árboles posibles – Branch-and-Bound • Aproximada: se buscan una solución que sea óptima aunque sin garantizar que sea la mejor (¿óptimo local o global?) – Heurística: empezamos en un árbol dado y nos movemos a otros árboles intentando mejorar su optimalidad. Cuando no podemos mejorar, paramos. – Algoritmos genéticos Lección 4. Métodos Análisis filogenético 2006 David Posada Métodos filogenéticos Lección 4. Métodos Análisis filogenético 2006 David Posada Métodos filogenéticos Búsqueda Branch-and-Bound Ejemplo Branch-and-Bound Lección 4. Métodos Análisis filogenético 2006 David Posada Lección 4. Métodos Análisis filogenético 2006 David Posada Métodos filogenéticos Métodos filogenéticos Búsqueda heurística Adición secuencial (“stepwise addition”) 1. Hay que empezar en algún sitio: adición secuencial o descomposición de estrella 2. Hay que buscar (“branch swapping”): TBR, SPR, NNI. Conviene hacer varias réplicas de esta búsqueda con diferentes órdenes de adición GLOBAL MAXIMUM Search for global maximum GLOBAL MAXIMUM local maximum Lección 4. Métodos Análisis filogenético 2006 David Posada Métodos filogenéticos Lección 4. Métodos Análisis filogenético 2006 David Posada Métodos filogenéticos Ejemplo adición secuencial (“stepwise addition”) Descomposición de la estrella (“star decomposition”) Lección 4. Métodos Análisis filogenético 2006 David Posada Lección 4. Métodos Análisis filogenético 2006 David Posada Métodos filogenéticos Métodos filogenéticos Moviéndose en el bosque • • • • A partir del árbol inicial, queremos explorar diferentes árboles Se efectuan una serie de movimientos y nos quedamos con el mejor árbol El proceso se repite hasta que no se pueda mejorar Existen varios tipos de movimientos: NNI: Intercambio del vecino más cercano (“nearest neighbor interchange”) • • Intercambia ramas adyacentes del árbol Se trata de reordenar los cuatro subárboles definidos por una rama interna – NNI: intercambio del vecino cercano – SPR: poda y regrafo – TBR: bisección y reconexión Lección 4. Métodos Análisis filogenético 2006 David Posada Métodos filogenéticos SPR: poda y regrafo de subárboles (“subtree prunning and regrafting”) • • Lección 4. Métodos Análisis filogenético 2006 David Posada Métodos filogenéticos TBR: bisección y reconexión del árbol (“tree bisection and reconnection”) • • Se elimina una rama (interna o externa) del árbol El subárbol resultante se “injerta” en otra de las ramas Lección 4. Métodos Análisis filogenético 2006 David Posada Se rompe una rama interna, obteniéndose dos árboles Se exploran todas las conexiones entre todas las ramas de uno con todas las del otro Lección 4. Métodos Análisis filogenético 2006 David Posada Métodos filogenéticos Métodos filogenéticos Árboles consenso • Tipos de consenso A menudo encontramos varios árboles igualmente óptimos. Es posible construir árboles consenso a partir de un conjunto de árboles: – – – – Estricto: contiene los grupos (o nodos) que aparecen en todos los árboles Adams: contiene los tripletes que aparecen en todos los árboles Semi-estricto: contiene los grupos (o nodos) que no se contradicen Regla de la mayoría (“majority rule”): contiene los grupos (que aparecen más de la mitad de los árboles Estricto Adams Cual es es consenso estricto? Lección 4. Métodos Análisis filogenético 2006 David Posada Métodos filogenéticos Métodos filogenéticos Métodos algorítmicos • Comparativa optimalidad-algoritmos Los métodos algorítmicos combinan la inferencia del árbol y la definición del árbol optimo en un único paso • No proporcionan una forma de establecer un rango de bondad de las diferente soluciones posibles • Estos métodos son computacionalmente mucho más rápidos que los métodos de optimalidad, ya que no hay que buscar entre varias soluciones posibles • Lección 4. Métodos Análisis filogenético 2006 David Posada Regla de la mayoría Optimalidad Algorítmicos Ventajas Permiten ordenar los árboles Rápidos Desventajas Lentos Única respuesta Utilizan distancias Incluyen UPGMA y Neighbor-Joining (NJ) Lección 4. Métodos Análisis filogenético 2006 David Posada Lección 4. Métodos Análisis filogenético 2006 David Posada