Arboles de inicio en el cálculo del likelihood (Cesar A, Peña F. cód

Anuncio
Arboles de inicio en el cálculo del likelihood (Cesar A, Peña F. cód.: 2030179 -2011-)
El árbol con mayor likelihood es una representación de la señal filogenética, es la representación
que mejor explica la señal dada a partir de los genes. El calculo del likelihood necesita de un árbol
para poder iniciar el análisis, a partir de este árbol se realiza una búsqueda exhaustiva del árbol que
mejor explique o de respuesta a la señal (criterio de optimización), durante la búsqueda se descartan
los arboles cuya longitud es mayor a la del árbol del cual partió la búsqueda y se adopta como un
nuevo árbol a evaluar aquel que presente una menor longitud (-árbol mas parsimonioso- puesto que
un árbol mas parsimonioso representa un mejor likelihood), a este árbol se le calcula el likelihood y
la búsqueda inicia nuevamente a partir de el hasta completar todo el espacio muestral. El análisis
termina cuando se ha explorado todo el espacio muestral (todos los arboles posibles) y se obtiene el
árbol con mayor likelihood.Un gran triunfo en la biología ha sido la demostración de que los
organismos son descendientes de antepasados comunes y por lo tanto están relacionados de una
manera jerárquica (Mayr, 1982). Una observación de gran importancia es que los organismos
filogenéticamente relacionados tienden a parecerse entre si y a esta semejanza filogenética se le
llama señal (Blomberg et al., 2003). Un factor importante que afecta la exactitud de la
reconstrucción del arboles es si los datos analizados en realidad contienen una señal filogenética
útil. Una forma de evaluar esta señal es mediante el principio de Máximo Likelihood (ML) en el
cual esta basado el software PhyML (Guindon y Gascuel, 2003). Para poder llevar a cabo dicho
análisis es necesario partir de una topología, debido a que lo que se busca hallar es la probabilidad
de la señal (los datos) dada una topología. Dicha topología puede ser de origen variable (opción
implementada en el software PhyML) y es por ello que en el presente informe se pretende ver si el
likelihood de la señal se ve afectado por el árbol de inicio en el análisis de ML, análisis que se
llevara a cabo en el software PhyML.
Metodología
Un muestreo de taxones adecuado mejora la estimación filogenética y en algunos casos puede hacer
manejable problemas intratables (eg., Wheeler, 1992; Lecointre et al., 1993; Hillis, 1996, 1998; Poe,
1998; Rannala et al., 1998), ya que computacionalmente es mas fácil analizar set de datos con
pocos taxa, es manejable definir e investigar un problema filogenético con tan pocos taxa como sea
posible (Derrick y Hills, 2005) se emplearon simulaciones de 2 arboles de 4 taxa, un árbol resuelto
y un árbol politomico desde la base (ver anexo arboles), estas simulaciones fueron realizadas en el
programa MySSP (Rosenberg, M. S. 2005 ) con una tamaño de 1000pb (ver anexo secuencias)y el
modelo evolutivo JC69 (Jukes y Cantor, 1969). Sin embargo, también se realizo una simulación
para un árbol de 100 terminales con el mismo tamaño de secuencia que el de 4 taxa (ver anexo
secuencias b), con el fin de evidenciar que el análisis no se viera sesgado por el tamaño del árbol y a
que el aumento en la muestra de taxa es una de las formas mas importantes para aumentar la
precisión filogenética global (Derrick y Hills, 2002).
Se analizaron arboles generados por distancias con la técnica BioNJ, por parsimonia, aleatorios (Se
evaluaron 1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,20,30,40,50,100,500 y 1000 arboles aleatorios para 4
taxa y 100 para el árbol de 100taxa) y cada una de las posibles topologías resueltas de 4 taxa ,
como arboles de inicio para el calculo del likelihood en el software PhyML con el modelo JC69
(Datos generados bajo un modelo evolutivo complejo producen altos niveles de error (Derrick y
Hillis, 2002)) y SPR como criterio para la optimización de la topología, junto con las secuencias
generadas en MySSP. Teniendo en cuenta que longitudes pequeñas de ramas son consideradas como
poca señal filogenética, en especial cuando las secuencias son cortas, se analizaron dos topologías
de 4 taxa con dos longitudes de ramas diferentes, tomando 0,05 como una longitud pequeña y 0,8
como una longitud grande (en ambos casos todas las longitudes de las remas fueron iguales en cada
árbol).Los resultados del análisis fueron visualizados den el editor de texto Geany 0.20
Resultados
Los arboles hallados mediante parsimonia, BioJN y los aleatorios, reportaron valores de log
likelihood = - 5545.007 y - 5541,049 respectivamente (los arboles generados a partir de distancias
y parsimonia presentaron el mismo valor - -5541,049-) cuando fueron incluidos para el análisis con
secuencias generadas a partir de un árbol politomico desde la base (calculo con arboles de 4 taxa).
Mientras que los valores de Log-Likelihood en el análisis con secuencias generadas a partir de un
árbol resuelto fueron de -1402,919 para todos los arboles (ver anexo 4-taxa)
El Log-likelihood calculado para los arboles de 100 taxa fue de -3047,04 para todos los arboles (ver
anexo 100-taxa).
El likelihood para las topologías evaluadas con longitudes de ramas en el árbol de inicio
presentaron los mismos valores, con un log-likelihood de -1402,919 (ver anexo longitudes)
Análisis
El calculo siempre parte de un árbol, a este árbol se le calcula el longitud, longitudes pequeñas
asumen un mayor likelihhod, los arboles hallados en la búsqueda que tengan una longitud mayor
son descartados y no se les calcula el likelihood, hasta encontrar el árbol optimo. Es por ello que el
likelihood se mantuvo estable en todos los análisis (todos los análisis llevados a cavo con la misma
simulación de secuencias generaron la misma respuesta).
El likelihood de la secuencia generada a partir de un árbol politomico es menor al likelihood de la
secuencia generada a partir de un árbol resuelto, Siendo esto un indicativo de que la señal
filogenética es mas fuerte cuando hay relaciones filogenéticas resueltas, entre los taxa analizados.
Las secuencias generadas a partir de arboles resueltos generan arboles mas cortos (mas
parsimoniosos) que los encontrados a partir de secuencias simuladas de arboles no resueltos, lo cual
repercute en el calculo del likelihood, puesto que arboles mas parsimoniosos generan mayores
valores de likelihood
Los arboles con menor cantidad de taxa representan menor cantidad de cambio y por ende un mayor
likelihood y es por ello que el likelihood del análisis de 4 taxa es mayor que el likelihood de
100taxa
La longitud de las ramas no representaaron un cambio en la longitud y por ende del likelihood de
los arboles analizados con respecto a los arboles analizados sin tener en cuenta la longitud de las
ramas del árbol inicial. Tampoco se observo diferencia en el likelihood de los arboles de 100 taxa
evaluados, lo cual le brinda veracidad al análisis realizado eliminando el sesgo que podría haber
generado realizar el análisis con solo 4 terminales
Conclusiónes
el calculo siempre parte de un árbol, a este árbol se le calcula el tamaño, tamaños pequeños asumen
un mayor likelihhod, los arboles hallados en la búsqueda que tengan un tamaño mayor son
descartados y no se les calcula el likelihood, lo cual sugiere que para un mismo set de datos el
likelihood siempre va ser el mismo independientemente del árbol con el que se inicie el análisis, ya
que este solo representa el primer árbol de la búsqueda y aunque la búsqueda inicie del árbol
verdadero (árbol del cual se genero la secuencia) el calculo siempre se hace teniendo en cuenta todo
el espacio muestral.
Secuencias simuladas a partir de arboles resueltos generan arboles mas parsimoniosos y con mejor
likelihood que las secuencias generadas a partir de arboles no resueltos
No importa de donde provenga el árbol de partida del análisis (BioJN, Parsimonia o un árbol
aleatorio), el likelihood no se va ver afectado.
Bibliografía
Derrick J. Zwickl and D avid M. Hillis. 2002. Increased Taxon Sampling Greatly Reduces
Phylogenetic Error. Syst. Biol. 51(4):588–598.
Guidon S., Gascuel O (2003). A Simple, Fast, and Accurate Algorithm to Estimate Large
Phylogenies by Maximum Likelihood. Systematic Biology, 52(5):696-704.
Hillis, D. M. 1996. Inferring complex phylogenies. Nature 383:130–131.
Hillis, D. M. 1998. Taxonomic sampling, phylogenetic accuracy, and investigator bias. Syst. Biol.
47:3–8.
Jukes TH and Cantor CR (1969). Evolutions of protein Molecules. New York Academic Press. P.21132.
Lecointre, G., H. Philippe, H. L. van le, and H. Le Guyader. 1993. Species sampling has a major
impact on phylogenetic inference. Mol. Phylogenet. Evol. 2:205–224.
Rosenberg, M. S. 2005. MySSP: Non-stationary evolutionary sequence simulation, including indels.
Evolutionary Bioinformatics Online 1:51–53.
Mayr, E. 1963. Animal species and evolution. The Belknap Press of Harvard Univ. Press,
Cambridge, MA.
POE, S. 1998. The effect of taxonomic sampling on accuracy of phylogenetic estimation: A test
case of a known phylogeny. Mol. Biol. Evol. 15:1086–1090.
Rannala, B., J. P. Huelsenbeck, Z. Yang, and R. Nielsen. 1998. Taxon sampling and the accuracy of
large phylogenies. Syst. Biol. 47:702–710.
Simon P. Blomberg., Theodore Garland, Jr y Anthony R. Ives (2005). Testing for phylogenetics
signal in comparative data: behavioral traits are more labille. Evolution, 57(4):717-745.
Wheeler, W. 1992. Extinction, sampling, and molecular phylogenetics. Pages 205–215 in Extinction
and phylogeny (M. J. Novacek and Q. D. Wheeler, eds.). Columbia University Press, New York.
Descargar