Hoy 3 temas PEDECIBA BIOLOGÍA CURSO: SISTEMÁTICA BIOLÓGICA: MÉTODOS Y PRINCIPIOS 1- ¿qué hacemos cuando al analizar una matriz obtenemos más de un árbol más óptimo? Guillermo D’Elía - consensos - pesos sucesivos 2- evaluando los resultados - índices de Bremer - bootstrap - jackknife 3- ¿qué hacer cuando para un grupo de especímenes se tiene evolucion.fcien.edu.uy/sistematica/sistematica.htm “más de un set de datos” para analizar? ¿unir matrices o “consensuar” árboles? ¿Qué hacemos cuando analizando una matriz obtenemos más de un árbol más óptimo? Consenso: de una matriz de datos un análisis de máxima parsimonia puede recobrar más de una topología igualmente óptima - Varios métodos hay métodos (ej, unión de vecinos) que no - estricto - componentes combinables - por mayoría (majority rule) Técnicas de compromiso - otros GE GE 1 2 3 A A A A A A A A A C C A A A T T A A A A 3 1 2 GE 1 2 3 T C C T T - Combinan en un solo árbol (consenso) los clados comunes en los diferentes árboles más cortos - La diferencia está en el criterio para combinar C 1 Consenso estricto: Consenso de Componentes Combinables: Solo los grupos monofiléticos presentes en todos los árboles aparecen en el consenso incluye todos los componentes que no entren en conflicto con alguno de los árboles más cortos Es el método más estricto, más restrictivo Árbol más parsimonioso 1 A B CD E FG Árbol más parsimonioso 2 A C D B G FE Consenso Estricto A B CD E FG Árbol más parsimonioso 1 A B C D E F G Árbol más parsimonioso 2 A B C D Consenso de CC E F G A B C D E F G Algunos componentes (ej, clado C-D) no estarán –necesariamente- en todos los árboles más cortos ejercicio: Consenso por la regla de la mayoría (majority rule): Consenso de CC A B C Árbol más parsimonioso 1 A B C D E F G D E F G Árbol más parsimonioso 2 A B C D el consenso incluye los grupos monofiléticos que aparecen en al menos el 50 % de los árboles más cortos Árbol más parsimonioso 1 Árbol más parsimonioso 2 A B C D E F A B C D F G E F G E G Consenso por Mayoría A B C D E F Consenso Estricto A B C D E G F G Árbol más parsimonioso 3 A B C D E F G Algunos clados (ej, A-B y C-D) no son corroborados por todos los árboles más parsimoniosos 2 ejercicio: Problemas con los consensos: Árbol más parsimonioso 1 A B C D E F - los consensos implican (en la mayoría de los casos) politomías G Consenso Estricto éstas indican que distintas relaciones son posibles A B C D E F G algunas de las cuales no son necesariamente apoyadas por los datos A B C D E F C A A B C D E F Árbol más parsimonioso 2 A B C D F E G Consenso por Mayoría A B C D E F G A B D E B C D E F F Árbol más parsimonioso 3 A B C D G F E Uso de pesajes sucesivos Las técnicas de compromiso (ej, consensos de componentes combinables y por mayoría) pueden presentar clados que no están presentes en algunos de los árboles más cortos Como método para reducir el número de árboles más cortos Por lo tanto: Problemas: El uso del consenso estricto es preferido – su topologia es la única que no esta contradecida por alguno de los árboles más cortos - Es común que el árbol así obtenido no sea uno de los más cortos - Uso de pesos (hipótesis ad hoc sobre la calidad de los datos…..) 3 Evaluando los resultados También existen: - pruebas de permutaciones de datos, y Hoy vamos a ver tres tipos de medidas de apoyo: - comparaciones entre dos árboles Templeton, Kishino-Hasewaga, Shimodaira-Hasewaga - Índices de Bremer - Bootstrap - Jackknife - estudios de la sensitividad de los resultados a distintos métodos de análisis. Áreas de desacuerdo limita la confianza en los resultados salvo que se puedan explicar por propiedades no deseadas de los métodos y/o características de los datos Rutina, de corte verificacionista, muy usada por sistemáticos moleculares Índice de Bremer ¿qué tan bueno es un árbol? ¿qué confianza podemos tener en tal árbol? Ver cuántos pasos extras se necesitan para que un clado en particular colapse Para un clado el valor del IB = la diferencia de pasos entre a) el árbol más corto en que el clado en cuestión no aparece y b) el árbol más corto El valor mínimo de apoyo es 1 ¿y en tal clado en particular? (solo los clados que aparecen en todos los árboles más cortos tendrán un valor > 0) A mayores valores mayor apoyo 4 Presentación de los índices de Bremer Detectando errores….. Un valor de IB = 0 Dos posibilidades: Árbol más corto encontrado en el análisis: 20 pasos A B C D 1 E F G ej, en al menos un árbol de 22 pasos el clado F-G no aparece Árbol más corto encontrado en el análisis 1) existe al menos un árbol igualmente óptimo en el que el clado A-B no aparece A (nuestra búsqueda no recobró todos los árboles más parsimoniosos) B C 2 7 1 10 Los índices de Bremer son valores absolutos en el sentido de que no están escalados Para determinado nodo el índice de Bremer no puede ser mayor que el largo de la rama que lleva al nodo en cuestión E F 2 0 2 3 D G 2) existe al menos un árbol más parsimonioso que nuestro árbol “más parsimonioso” 2 10 3 Sea cual sea el caso, un valor de índice de Bremer de 0 implica que el “monte” no fue exitosamente explorado “deber”: En ausencia de homoplasia el índice de Bremer de un nodo será igual al largo de la rama que lleva a este Nota: - En el marco de un análisis de evidencia total se pueden estimar los índices de Bremer para cada partición (Partitioned Bremer Support) = el apoyo de cada partición para cada clado Long. Grado de optimización de los Optimo local árboles - la suma de los índices de Bremer de cada partición son el índice de Bremer total - se ve que algunos clados son corroborados por todas las particiones Optimo local Optimo global (valores positivos para cada partición) - y que otros clados son falsificados por alguna de las particiones (valores negativos para alguna partición) 5 Métodos de evaluación basados en “remuestreo” de los datos Asunciones (probabilidad) Datos originales son una muestra al azar de un conjunto mayor de datos independientes e idénticamente distribuidos Bootstrap Estas asunciones son violadas por la mayoría (o todos) los conjuntos de datos usados en reconstrucciones filogenéticas Jackknife Entonces: Entonces… ¿Son útiles los metodos de remuestreo? Bootstrap: - No - Sí, pero cualquier inferencia probabilística en el marco de reconstrucciones filogenéticas es inválida - Sí, ya que proveen una buena aproximación de la precisión de los datos Precisión en el sentido de repetibilidad - propuesto originalmente como una medida de “limites de confianza” de los distintos clados - seguramente es el método de evaluación más popular Una realidad que quizás tenga su causa en que es implementado en PAUP - Sí, ya que son buenas aproximaciones a la probabilidad de la filogenia 6 Computación del bootstrap: Ejemplo: - se crean n matrices mediante muestreos con reposición de los caracteres de la matriz original 1 2 3 4 5 6 7 8 9 1 1 C C A A C T A T T el largo de estas matrices es igual al de la matriz original 2 3 4 5 2 A A C C G G A A C - de cada una de estas matrices se obtiene el (o los) árbol(es) más corto(s) 3 A A C T G A A A C - los árboles más cortos obtenidos de cada matriz son consensuados mediante la regla de la mayoría (50%) 5 G T G T C A A A G 4 G T G C G G A A G - las frecuencias de ocurrencia de cada grupo, proporciones de bootstrap, son consideradas como las medidas de apoyo de cada clado 1 2 3 4 5 6 7 8 9 1 2 3 4 1 2 3 4 5 6 7 8 9 5 1 C C A A C T A T T 1 C C A A C T A T T 2 A A C C G G A A C 2 A A C C G G A A C 3 A A C T G A A A C 3 A A C T G A A A C 4 G T G C G G A A G 4 G T G C G G A A G 5 G T G T C A A A G 5 G T G T C A A A G 1 T A T C A T A T A 2 A C G A C G A A A 3 A T A A T A A A A 4 A C G G C G A A A 5 A T A G T A A A A 7 5 8 4 5 7 8 5 7 1 2 3 4 5 Otra de las posibles matrices seudoreplicadas Una de las posibles matrices seudoreplicadas 8 4 6 1 4 6 7 8 7 1 2 4 3 5 1 5 3 2 4 1 A C T A C A T C A 2 A G A C G A A G A 3 A G A T G A A G A 4 A G A C G A A G A 5 A C A T C A A C A 7 Algunas observaciones: Después de: - generar las n matrices, y - buscar los árboles más cortos para una de estas: - algunos caracteres no estarán presentes en algunas matrices Se hace un consenso por mayoría de los árboles más cortos de cada matriz Este es el árbol de bootstrap 1 2 3 Por lo tanto: 4 5 85 80 100 = algunos caracteres estarán presentes más de una vez Proporciones de Bootstrap Frecuencia del clado en cuestión en los árboles resultantes de las n matrices - algunos de los clados reconstruidos en base a estas matrices no estarán presentes en el árbol reconstruido en base a la matriz original - también algunos clados del árbol más parsimonioso no aparecen en el árbol de bootstrap Incluso cuando no haya conflicto entre caracteres Incluso cuando el clado en cuestión es recobrado en menos del 50% de los análisis de las matrices seudoreplicadas Las Proporciones de Bootstrap: Comentarios…… - varían entre 50 y 100% - Las PBs dependen de dos aspectos: a valores más altos mayor “apoyo” el número de caracteres que apoyan a un grupo, y el número de caracteres que apoyan grupos incongruentes - no serán necesariamente las mismas si se repite el proceso - serán más estables cuando n es alto (actualmente se crean unas 1000 matrices seudoreplicadas) - Una PB baja (incluso una menor a 50%) no significa que un clado es falso, solo que es pobremente apoyado por los datos analizados - al consenso de bootstrap puede tener clados que no aparecen en el(los) árbol(es) más cortos 8 Jackknife: Resumen evaluacion de los resultados: - similar al bootstrap - difieren en la estrategia de remuestreo Existen varios métodos para medir el apoyo de los clados encontrados en un árbol Incluyendo - test de permutaciones de los datos - test de dos árboles - se crean n matrices: eligiendo al azar una proporción (ej, un tercio) de los caracteres y excluyéndolos del análisis - El índice de Bremer es una medida de apoyo de uso exclusivo en un contexto de máxima parsimonia - Bootstrap y Jackknife pueden usarse con cualquier método = las matrices así generadas son más chicas que la original La interpretación de estas medidas no es del todo clara las matrices obtenidas se analizan y los árboles obtenidos son consensuados por la regla de la mayoría ¿Que hacer cuando tenemos más de un conjunto de datos para el mismo grupo de organismos? e.g., morfología larvaria y morfología adulta Existen fundamentalmente dos opciones: Consenso o Congruencia Taxonómica - análisis por separado y se combinan los resultados mediante un consenso un gen y morfología un gen nuclear y un gen mitocondrial dos genes nucleares no ligados ¿Se analizan por separado y se comparan los resultados? ¿Se hace una sola matriz y un solo análisis? Evidencia Total - análisis simultaneo También existe una especie de camino medio: combinar si la incongruencia de las particiones no es significativa (generalmente medida con el test ILD; incongruence length test) Discusión no trivial fundada en distintas filosofías 9 Congruencia Taxonómica Preguntas sin responder…… ¿Que son distintas particiones? Concepto: Particiones de datos independientes deben analizarse independientemente Método: ¿Existen distintas particiones en un mismo organismo? - evidencia (datos = caracteres) es dividida en diferentes particiones - hipótesis filogenéticas son obtenidas a partir de cada partición - estas se combinan en una sola topología mediante un consenso Observaciones y consideraciones Argumentos a favor de análisis separados - permiten obtener información que de otra forma no se obtendría En la congruencia taxonómica no se permite que los caracteres de las distintas particiones interaccionen entre si directamente, sino que lo hacen a través de los árboles derivados de cada partición Esta metodología refleja la suposición, o al menos la preocupación, de que: las diferentes particiones implican distintas historias evolutivas - los árboles obtenidos con una partición se usan para poner a prueba los clados obtenidos en base a las otras particiones argumento verificacionista - mismo “peso” a las distintas particiones se evita que los caracteres de una partición mayor enmascaren a los caracteres de una partición menor 10 Evidencia Total Algunos argumentos en contra - problemas con el uso de consensos: no indican el patrón de evolución más parsimonioso pueden contradecir a los árboles fundamentales Concepto: Todos los caracteres disponibles deben de combinarse en una sola matriz y analizarse (ademas: usando MP). - no es claro el tipo de consenso a usar (elección es arbitraria) los resultados cambiaran dependiendo del tipo Argumentación: - el resultado final no describe óptimamente los datos Maximiza el poder explicativo de los datos (usualmente el consenso es menos resuelto que los árboles fundamentales) Un árbol de un análisis combinado puede estar (o no) mejor resuelto que un consenso porque: - ¿existen realmente particiones en los organismos? - abordaje no parsimonioso información que resuelve ciertas relaciones puede estar presente en solo una partición Sobre algunas criticas a la ET… Nota: La preocupación de que la matriz mayor (ej, molecular) va a opacar a la menor (ej, morfológica) no es bien fundada - lo que importa para generar la hipótesis filogenética es el patrón de covariación de caracteres, no el número de caracteres La idea de congruencia taxonómica y evidencia total es independiente del método de reconstrucción filogenética empleado (MP, MV, bayesianos, distancias) - varios estudios muestran que este no es el caso 11 Resumen del día Vimos tres temas 1) que hacer cuando el análisis recobra más de un árbol más parsimonioso 2) medidas de apoyo de los resultados 3) como proceder cuando para un grupo de organismos se tiene evidencia de más de una fuente de información 12