Consenso:

Anuncio
Hoy 3 temas
PEDECIBA BIOLOGÍA
CURSO: SISTEMÁTICA BIOLÓGICA: MÉTODOS Y PRINCIPIOS
1- ¿qué hacemos cuando al analizar una matriz obtenemos
más de un árbol más óptimo?
Guillermo D’Elía
- consensos
- pesos sucesivos
2- evaluando los resultados
- índices de Bremer
- bootstrap
- jackknife
3- ¿qué hacer cuando para un grupo de especímenes se tiene
evolucion.fcien.edu.uy/sistematica/sistematica.htm
“más de un set de datos” para analizar?
¿unir matrices o “consensuar” árboles?
¿Qué hacemos cuando analizando una matriz obtenemos más
de un árbol más óptimo?
Consenso:
de una matriz de datos un análisis de máxima parsimonia puede recobrar
más de una topología igualmente óptima
- Varios métodos
hay métodos (ej, unión de vecinos) que no
- estricto
- componentes combinables
- por mayoría (majority rule)
Técnicas de compromiso
- otros
GE
GE
1
2
3
A
A
A
A
A
A
A
A
A
C
C
A
A
A
T
T
A
A
A
A
3
1
2
GE
1
2
3
T
C
C
T
T
- Combinan en un solo árbol (consenso) los clados comunes en
los diferentes árboles más cortos
- La diferencia está en el criterio para combinar
C
1
Consenso estricto:
Consenso de Componentes Combinables:
Solo los grupos monofiléticos presentes en todos los árboles aparecen en
el consenso
incluye todos los componentes que no entren en conflicto con alguno de
los árboles más cortos
Es el método más estricto, más restrictivo
Árbol más parsimonioso 1
A B CD E FG
Árbol más parsimonioso 2
A C D B G FE
Consenso Estricto
A B CD E FG
Árbol más parsimonioso 1
A B
C
D
E
F G
Árbol más parsimonioso 2
A B
C
D
Consenso de CC
E F G
A B C
D E
F G
Algunos componentes (ej, clado C-D) no estarán –necesariamente- en todos los árboles más cortos
ejercicio:
Consenso por la regla de la mayoría (majority rule):
Consenso de CC
A B C
Árbol más parsimonioso 1
A B
C
D
E
F G
D E
F G
Árbol más parsimonioso 2
A B
C
D
el consenso incluye los grupos monofiléticos que aparecen en al menos
el 50 % de los árboles más cortos
Árbol más parsimonioso 1
Árbol más parsimonioso 2
A B C D E F
A B C D F
G
E F G
E
G
Consenso por Mayoría
A B C D E F
Consenso Estricto
A B C
D E
G
F G
Árbol más parsimonioso 3
A B C D E F
G
Algunos clados (ej, A-B y C-D) no son
corroborados por todos los árboles más
parsimoniosos
2
ejercicio:
Problemas con los consensos:
Árbol más parsimonioso 1
A B C D E F
- los consensos implican (en la mayoría de los casos) politomías
G
Consenso Estricto
éstas indican que distintas relaciones son posibles
A B C D E F
G
algunas de las cuales no son necesariamente apoyadas por los datos
A
B
C
D
E
F
C
A
A
B
C
D
E
F
Árbol más parsimonioso 2
A B C D F
E
G
Consenso por Mayoría
A B C D E F
G
A
B
D
E
B
C
D
E
F
F
Árbol más parsimonioso 3
A B C D G F
E
Uso de pesajes sucesivos
Las técnicas de compromiso (ej, consensos de componentes
combinables y por mayoría) pueden presentar clados que no están
presentes en algunos de los árboles más cortos
Como método para reducir el número de árboles más cortos
Por lo tanto:
Problemas:
El uso del consenso estricto es preferido – su topologia es la única
que no esta contradecida por alguno de los árboles más cortos
- Es común que el árbol así obtenido no sea uno de los más cortos
- Uso de pesos (hipótesis ad hoc sobre la calidad de los datos…..)
3
Evaluando los resultados
También existen:
- pruebas de permutaciones de datos, y
Hoy vamos a ver tres tipos de medidas de apoyo:
- comparaciones entre dos árboles
Templeton, Kishino-Hasewaga, Shimodaira-Hasewaga
- Índices de Bremer
- Bootstrap
- Jackknife
- estudios de la sensitividad de los resultados a distintos métodos de
análisis.
Áreas de desacuerdo limita la confianza en los resultados salvo que se
puedan explicar por propiedades no deseadas de los métodos y/o
características de los datos
Rutina, de corte verificacionista, muy usada por sistemáticos moleculares
Índice de Bremer
¿qué tan bueno es un árbol?
¿qué confianza podemos tener en tal árbol?
Ver cuántos pasos extras se necesitan para que un clado en
particular colapse
Para un clado el valor del IB = la diferencia de pasos entre a) el árbol más
corto en que el clado en cuestión no aparece y b) el árbol más corto
El valor mínimo de apoyo es 1
¿y en tal clado en particular?
(solo los clados que aparecen en todos los árboles más cortos tendrán un valor > 0)
A mayores valores mayor apoyo
4
Presentación de los índices de Bremer
Detectando errores…..
Un valor de IB = 0
Dos posibilidades:
Árbol más corto encontrado en el análisis: 20 pasos
A
B
C
D
1
E F
G
ej, en al menos un árbol de 22 pasos
el clado F-G no aparece
Árbol más corto encontrado en el análisis
1) existe al menos un árbol igualmente
óptimo en el que el clado A-B no aparece
A
(nuestra búsqueda no recobró todos los
árboles más parsimoniosos)
B
C
2
7
1
10
Los índices de Bremer son valores absolutos
en el sentido de que no están escalados
Para determinado nodo el índice de Bremer no puede ser mayor
que el largo de la rama que lleva al nodo en cuestión
E F
2
0
2
3
D
G
2) existe al menos un árbol más
parsimonioso que nuestro árbol “más
parsimonioso”
2
10
3
Sea cual sea el caso, un valor de índice de
Bremer de 0 implica que el “monte” no fue
exitosamente explorado
“deber”:
En ausencia de homoplasia el índice de Bremer de un nodo será
igual al largo de la rama que lleva a este
Nota:
- En el marco de un análisis de evidencia total se pueden estimar los
índices de Bremer para cada partición
(Partitioned Bremer Support)
= el apoyo de cada partición para cada clado
Long.
Grado de
optimización
de los
Optimo
local
árboles
- la suma de los índices de Bremer de cada partición son el índice de
Bremer total
- se ve que algunos clados son corroborados por todas las particiones
Optimo
local
Optimo
global
(valores positivos para cada partición)
- y que otros clados son falsificados por alguna de las particiones
(valores negativos para alguna partición)
5
Métodos de evaluación basados en
“remuestreo” de los datos
Asunciones (probabilidad)
Datos originales son una muestra al azar de un conjunto mayor
de datos independientes e idénticamente distribuidos
Bootstrap
Estas asunciones son violadas por la mayoría (o todos) los
conjuntos de datos usados en reconstrucciones filogenéticas
Jackknife
Entonces:
Entonces…
¿Son útiles los metodos de remuestreo?
Bootstrap:
- No
- Sí, pero cualquier inferencia probabilística en el marco de
reconstrucciones filogenéticas es inválida
- Sí, ya que proveen una buena aproximación de la precisión de
los datos
Precisión en el sentido de repetibilidad
- propuesto originalmente como una medida de “limites de confianza”
de los distintos clados
- seguramente es el método de evaluación más popular
Una realidad que quizás tenga su causa en que es implementado en PAUP
- Sí, ya que son buenas aproximaciones a la probabilidad de la
filogenia
6
Computación del bootstrap:
Ejemplo:
- se crean n matrices mediante muestreos con reposición de los
caracteres de la matriz original
1 2 3 4 5 6 7 8 9
1
1 C C A A C T A T T
el largo de estas matrices es igual al de la matriz original
2
3
4
5
2 A A C C G G A A C
- de cada una de estas matrices se obtiene el (o los) árbol(es) más
corto(s)
3 A A C T G A A A C
- los árboles más cortos obtenidos de cada matriz son consensuados
mediante la regla de la mayoría (50%)
5 G T G T C A A A G
4 G T G C G G A A G
- las frecuencias de ocurrencia de cada grupo, proporciones de
bootstrap, son consideradas como las medidas de apoyo de cada
clado
1 2 3 4 5 6 7 8 9
1
2
3 4
1 2 3 4 5 6 7 8 9
5
1 C C A A C T A T T
1 C C A A C T A T T
2 A A C C G G A A C
2 A A C C G G A A C
3 A A C T G A A A C
3 A A C T G A A A C
4 G T G C G G A A G
4 G T G C G G A A G
5 G T G T C A A A G
5 G T G T C A A A G
1 T A T C A T A T A
2 A C G A C G A A A
3 A T A A T A A A A
4 A C G G C G A A A
5 A T A G T A A A A
7 5 8 4 5 7 8 5 7
1
2
3 4
5
Otra de las posibles matrices seudoreplicadas
Una de las posibles matrices seudoreplicadas
8 4 6 1 4 6 7 8 7
1
2
4
3
5
1
5
3
2
4
1 A C T A C A T C A
2 A G A C G A A G A
3 A G A T G A A G A
4 A G A C G A A G A
5 A C A T C A A C A
7
Algunas observaciones:
Después de:
- generar las n matrices, y
- buscar los árboles más cortos para una de estas:
- algunos caracteres no estarán presentes en algunas matrices
Se hace un consenso por mayoría de los árboles más cortos de cada matriz
Este es el árbol de bootstrap
1
2
3
Por lo tanto:
4
5
85
80
100
= algunos caracteres estarán presentes más de una vez
Proporciones de Bootstrap
Frecuencia del clado en cuestión en los
árboles resultantes de las n matrices
- algunos de los clados reconstruidos en base a estas matrices no
estarán presentes en el árbol reconstruido en base a la matriz original
- también algunos clados del árbol más parsimonioso no aparecen en el
árbol de bootstrap
Incluso cuando no haya conflicto entre caracteres
Incluso cuando el clado en cuestión es recobrado en menos del 50% de los análisis
de las matrices seudoreplicadas
Las Proporciones de Bootstrap:
Comentarios……
- varían entre 50 y 100%
- Las PBs dependen de dos aspectos:
a valores más altos mayor “apoyo”
el número de caracteres que apoyan a un grupo, y
el número de caracteres que apoyan grupos incongruentes
- no serán necesariamente las mismas si se repite el proceso
- serán más estables cuando n es alto
(actualmente se crean unas 1000 matrices seudoreplicadas)
- Una PB baja (incluso una menor a 50%) no significa que un
clado es falso, solo que es pobremente apoyado por los datos
analizados
- al consenso de bootstrap puede tener clados que no
aparecen en el(los) árbol(es) más cortos
8
Jackknife:
Resumen evaluacion de los resultados:
- similar al bootstrap
- difieren en la estrategia de remuestreo
Existen varios métodos para medir el apoyo de los clados encontrados
en un árbol
Incluyendo
- test de permutaciones de los datos
- test de dos árboles
- se crean n matrices:
eligiendo al azar una proporción (ej, un tercio) de los caracteres y
excluyéndolos del análisis
- El índice de Bremer es una medida de apoyo de uso exclusivo en
un contexto de máxima parsimonia
- Bootstrap y Jackknife pueden usarse con cualquier método
= las matrices así generadas son más chicas que la original
La interpretación de estas medidas no es del todo clara
las matrices obtenidas se analizan y los árboles obtenidos son
consensuados por la regla de la mayoría
¿Que hacer cuando tenemos más de un conjunto de datos para
el mismo grupo de organismos?
e.g.,
morfología larvaria y morfología adulta
Existen fundamentalmente dos opciones:
Consenso o Congruencia Taxonómica
- análisis por separado y se combinan los resultados mediante un
consenso
un gen y morfología
un gen nuclear y un gen mitocondrial
dos genes nucleares no ligados
¿Se analizan por separado y se comparan los resultados?
¿Se hace una sola matriz y un solo análisis?
Evidencia Total
- análisis simultaneo
También existe una especie de camino medio:
combinar si la incongruencia de las particiones no es significativa (generalmente medida
con el test ILD; incongruence length test)
Discusión no trivial fundada en distintas filosofías
9
Congruencia Taxonómica
Preguntas sin responder……
¿Que son distintas particiones?
Concepto:
Particiones de datos independientes deben analizarse
independientemente
Método:
¿Existen distintas particiones en un mismo organismo?
- evidencia (datos = caracteres) es dividida en diferentes particiones
- hipótesis filogenéticas son obtenidas a partir de cada partición
- estas se combinan en una sola topología mediante un consenso
Observaciones y consideraciones
Argumentos a favor de análisis separados
- permiten obtener información que de otra forma no se obtendría
En la congruencia taxonómica
no se permite que los caracteres de las distintas particiones interaccionen
entre si directamente, sino que lo hacen a través de los árboles derivados
de cada partición
Esta metodología refleja la suposición, o al menos la preocupación, de que:
las diferentes particiones implican distintas historias evolutivas
- los árboles obtenidos con una partición se usan para poner a
prueba los clados obtenidos en base a las otras particiones
argumento verificacionista
- mismo “peso” a las distintas particiones
se evita que los caracteres de una partición mayor enmascaren a
los caracteres de una partición menor
10
Evidencia Total
Algunos argumentos en contra
- problemas con el uso de consensos:
no indican el patrón de evolución más parsimonioso
pueden contradecir a los árboles fundamentales
Concepto:
Todos los caracteres disponibles deben de combinarse en una sola
matriz y analizarse (ademas: usando MP).
- no es claro el tipo de consenso a usar (elección es arbitraria)
los resultados cambiaran dependiendo del tipo
Argumentación:
- el resultado final no describe óptimamente los datos
Maximiza el poder explicativo de los datos
(usualmente el consenso es menos resuelto que los árboles fundamentales)
Un árbol de un análisis combinado puede estar (o no) mejor resuelto
que un consenso porque:
- ¿existen realmente particiones en los organismos?
- abordaje no parsimonioso
información que resuelve ciertas relaciones puede estar presente en solo una
partición
Sobre algunas criticas a la ET…
Nota:
La preocupación de que la matriz mayor (ej, molecular) va a
opacar a la menor (ej, morfológica) no es bien fundada
- lo que importa para generar la hipótesis filogenética es el patrón
de covariación de caracteres, no el número de caracteres
La idea de congruencia taxonómica y evidencia
total es independiente del método de
reconstrucción filogenética empleado (MP, MV,
bayesianos, distancias)
- varios estudios muestran que este no es el caso
11
Resumen del día
Vimos tres temas
1) que hacer cuando el análisis recobra más de un árbol
más parsimonioso
2) medidas de apoyo de los resultados
3) como proceder cuando para un grupo de organismos se
tiene evidencia de más de una fuente de información
12
Descargar