Arboles de inicio en el cálculo del likelihood (Cesar A, Peña F. cód.: 2030179 -2011-) El árbol con mayor likelihood es una representación de la señal filogenética, es la representación que mejor explica la señal dada a partir de los genes. El calculo del likelihood necesita de un árbol para poder iniciar el análisis, a partir de este árbol se realiza una búsqueda exhaustiva del árbol que mejor explique o de respuesta a la señal (criterio de optimización), durante la búsqueda se descartan los arboles cuya longitud es mayor a la del árbol del cual partió la búsqueda y se adopta como un nuevo árbol a evaluar aquel que presente una menor longitud (-árbol mas parsimonioso- puesto que un árbol mas parsimonioso representa un mejor likelihood), a este árbol se le calcula el likelihood y la búsqueda inicia nuevamente a partir de el hasta completar todo el espacio muestral. El análisis termina cuando se ha explorado todo el espacio muestral (todos los arboles posibles) y se obtiene el árbol con mayor likelihood.Un gran triunfo en la biología ha sido la demostración de que los organismos son descendientes de antepasados comunes y por lo tanto están relacionados de una manera jerárquica (Mayr, 1982). Una observación de gran importancia es que los organismos filogenéticamente relacionados tienden a parecerse entre si y a esta semejanza filogenética se le llama señal (Blomberg et al., 2003). Un factor importante que afecta la exactitud de la reconstrucción del arboles es si los datos analizados en realidad contienen una señal filogenética útil. Una forma de evaluar esta señal es mediante el principio de Máximo Likelihood (ML) en el cual esta basado el software PhyML (Guindon y Gascuel, 2003). Para poder llevar a cabo dicho análisis es necesario partir de una topología, debido a que lo que se busca hallar es la probabilidad de la señal (los datos) dada una topología. Dicha topología puede ser de origen variable (opción implementada en el software PhyML) y es por ello que en el presente informe se pretende ver si el likelihood de la señal se ve afectado por el árbol de inicio en el análisis de ML, análisis que se llevara a cabo en el software PhyML. Metodología Un muestreo de taxones adecuado mejora la estimación filogenética y en algunos casos puede hacer manejable problemas intratables (eg., Wheeler, 1992; Lecointre et al., 1993; Hillis, 1996, 1998; Poe, 1998; Rannala et al., 1998), ya que computacionalmente es mas fácil analizar set de datos con pocos taxa, es manejable definir e investigar un problema filogenético con tan pocos taxa como sea posible (Derrick y Hills, 2005) se emplearon simulaciones de 2 arboles de 4 taxa, un árbol resuelto y un árbol politomico desde la base (ver anexo arboles), estas simulaciones fueron realizadas en el programa MySSP (Rosenberg, M. S. 2005 ) con una tamaño de 1000pb (ver anexo secuencias)y el modelo evolutivo JC69 (Jukes y Cantor, 1969). Sin embargo, también se realizo una simulación para un árbol de 100 terminales con el mismo tamaño de secuencia que el de 4 taxa (ver anexo secuencias b), con el fin de evidenciar que el análisis no se viera sesgado por el tamaño del árbol y a que el aumento en la muestra de taxa es una de las formas mas importantes para aumentar la precisión filogenética global (Derrick y Hills, 2002). Se analizaron arboles generados por distancias con la técnica BioNJ, por parsimonia, aleatorios (Se evaluaron 1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,20,30,40,50,100,500 y 1000 arboles aleatorios para 4 taxa y 100 para el árbol de 100taxa) y cada una de las posibles topologías resueltas de 4 taxa , como arboles de inicio para el calculo del likelihood en el software PhyML con el modelo JC69 (Datos generados bajo un modelo evolutivo complejo producen altos niveles de error (Derrick y Hillis, 2002)) y SPR como criterio para la optimización de la topología, junto con las secuencias generadas en MySSP. Teniendo en cuenta que longitudes pequeñas de ramas son consideradas como poca señal filogenética, en especial cuando las secuencias son cortas, se analizaron dos topologías de 4 taxa con dos longitudes de ramas diferentes, tomando 0,05 como una longitud pequeña y 0,8 como una longitud grande (en ambos casos todas las longitudes de las remas fueron iguales en cada árbol).Los resultados del análisis fueron visualizados den el editor de texto Geany 0.20 Resultados Los arboles hallados mediante parsimonia, BioJN y los aleatorios, reportaron valores de log likelihood = - 5545.007 y - 5541,049 respectivamente (los arboles generados a partir de distancias y parsimonia presentaron el mismo valor - -5541,049-) cuando fueron incluidos para el análisis con secuencias generadas a partir de un árbol politomico desde la base (calculo con arboles de 4 taxa). Mientras que los valores de Log-Likelihood en el análisis con secuencias generadas a partir de un árbol resuelto fueron de -1402,919 para todos los arboles (ver anexo 4-taxa) El Log-likelihood calculado para los arboles de 100 taxa fue de -3047,04 para todos los arboles (ver anexo 100-taxa). El likelihood para las topologías evaluadas con longitudes de ramas en el árbol de inicio presentaron los mismos valores, con un log-likelihood de -1402,919 (ver anexo longitudes) Análisis El calculo siempre parte de un árbol, a este árbol se le calcula el longitud, longitudes pequeñas asumen un mayor likelihhod, los arboles hallados en la búsqueda que tengan una longitud mayor son descartados y no se les calcula el likelihood, hasta encontrar el árbol optimo. Es por ello que el likelihood se mantuvo estable en todos los análisis (todos los análisis llevados a cavo con la misma simulación de secuencias generaron la misma respuesta). El likelihood de la secuencia generada a partir de un árbol politomico es menor al likelihood de la secuencia generada a partir de un árbol resuelto, Siendo esto un indicativo de que la señal filogenética es mas fuerte cuando hay relaciones filogenéticas resueltas, entre los taxa analizados. Las secuencias generadas a partir de arboles resueltos generan arboles mas cortos (mas parsimoniosos) que los encontrados a partir de secuencias simuladas de arboles no resueltos, lo cual repercute en el calculo del likelihood, puesto que arboles mas parsimoniosos generan mayores valores de likelihood Los arboles con menor cantidad de taxa representan menor cantidad de cambio y por ende un mayor likelihood y es por ello que el likelihood del análisis de 4 taxa es mayor que el likelihood de 100taxa La longitud de las ramas no representaaron un cambio en la longitud y por ende del likelihood de los arboles analizados con respecto a los arboles analizados sin tener en cuenta la longitud de las ramas del árbol inicial. Tampoco se observo diferencia en el likelihood de los arboles de 100 taxa evaluados, lo cual le brinda veracidad al análisis realizado eliminando el sesgo que podría haber generado realizar el análisis con solo 4 terminales Conclusiónes el calculo siempre parte de un árbol, a este árbol se le calcula el tamaño, tamaños pequeños asumen un mayor likelihhod, los arboles hallados en la búsqueda que tengan un tamaño mayor son descartados y no se les calcula el likelihood, lo cual sugiere que para un mismo set de datos el likelihood siempre va ser el mismo independientemente del árbol con el que se inicie el análisis, ya que este solo representa el primer árbol de la búsqueda y aunque la búsqueda inicie del árbol verdadero (árbol del cual se genero la secuencia) el calculo siempre se hace teniendo en cuenta todo el espacio muestral. Secuencias simuladas a partir de arboles resueltos generan arboles mas parsimoniosos y con mejor likelihood que las secuencias generadas a partir de arboles no resueltos No importa de donde provenga el árbol de partida del análisis (BioJN, Parsimonia o un árbol aleatorio), el likelihood no se va ver afectado. Bibliografía Derrick J. Zwickl and D avid M. Hillis. 2002. Increased Taxon Sampling Greatly Reduces Phylogenetic Error. Syst. Biol. 51(4):588–598. Guidon S., Gascuel O (2003). A Simple, Fast, and Accurate Algorithm to Estimate Large Phylogenies by Maximum Likelihood. Systematic Biology, 52(5):696-704. Hillis, D. M. 1996. Inferring complex phylogenies. Nature 383:130–131. Hillis, D. M. 1998. Taxonomic sampling, phylogenetic accuracy, and investigator bias. Syst. Biol. 47:3–8. Jukes TH and Cantor CR (1969). Evolutions of protein Molecules. New York Academic Press. P.21132. Lecointre, G., H. Philippe, H. L. van le, and H. Le Guyader. 1993. Species sampling has a major impact on phylogenetic inference. Mol. Phylogenet. Evol. 2:205–224. Rosenberg, M. S. 2005. MySSP: Non-stationary evolutionary sequence simulation, including indels. Evolutionary Bioinformatics Online 1:51–53. Mayr, E. 1963. Animal species and evolution. The Belknap Press of Harvard Univ. Press, Cambridge, MA. POE, S. 1998. The effect of taxonomic sampling on accuracy of phylogenetic estimation: A test case of a known phylogeny. Mol. Biol. Evol. 15:1086–1090. Rannala, B., J. P. Huelsenbeck, Z. Yang, and R. Nielsen. 1998. Taxon sampling and the accuracy of large phylogenies. Syst. Biol. 47:702–710. Simon P. Blomberg., Theodore Garland, Jr y Anthony R. Ives (2005). Testing for phylogenetics signal in comparative data: behavioral traits are more labille. Evolution, 57(4):717-745. Wheeler, W. 1992. Extinction, sampling, and molecular phylogenetics. Pages 205–215 in Extinction and phylogeny (M. J. Novacek and Q. D. Wheeler, eds.). Columbia University Press, New York.