Incorporaci´on de Anotaciones Genéticas en el Algoritmo de

Incorporación de Anotaciones Genéticas en el Algoritmo de Agrupamiento MST-kNN Daniel Pavez Sandoval Egresado de Magı́ster en Ingenerı́a Informática Egresado de Ingenierı́a Civil Infomática y Licenciado en Ciencias de la Computación Universidad de Santiago de Chile Avenida Libertador Bernardo O’Higgins # 3363 E-mail: [email protected] Resumen—Actualmente los experimentos relacionados a secuenciación genómica generan enormes volúmenes de información, cuyo estudio o análisis sin el apoyo de herramientas informáticas es impracticable. La bioinformática nace por la relación natural entre las necesidades de los biólogos y las soluciones informáticas que facilitan el trabajo con grandes volúmenes de datos, como por ejemplo el uso de algoritmos de agrupamiento para establecer relaciones entre genes a partir de la similitud de sus caracterı́sticas. El algoritmo MST-kNN [10] permite relacionar genes de acuerdo a la correlación de sus perfiles de expresión, por lo que surge la pregunta de investigación relacionada a, de qué manera incorporar a dicho algoritmo anotaciones biológicas de bases de datos de libre acceso, para generar grupos de genes considerando tanto la similitud de sus perfiles de expresión, como la coherencia biológica de sus perfiles funcionales (descritos a través de los conjuntos de anotaciones biológicas asociadas a ellos). La solución desarrollada para responder a esa pregunta, se basa en el establecimiento de relaciones entre los términos biológicos de Gene Ontology a partir de la similitud semántica posible de calcular, dada la estructura lógica de DAG en que el repositorio de datos mantiene relacionado al conocimiento biológico entre sı́. La facultad de relacionar un término biológico con otro, implica poder relacionar a los genes entre sı́ a partir de los conjuntos de términos que los describen, y por tanto generar una estructura que represente qué tan similares (o distantes) son dos genes entre sı́, a partir de sus perfiles funcionales, para dicha estructura incorporarla a la que representa qué tan similares son en base a la correlación de sus perfiles de expresión. La estructura que nace de la incorporación de ambos tipos de datos, es sometida al algoritmo de agrupamiento MST-kNN, el cual genera grupos de genes similares tanto en base a su comportamiento, como a sus funcionalidades, ambas caracterı́sticas posibles de medir con una variación a los ı́ndices de validación propuestos en [4], lo que da cuenta de que, comparativamente a los resultados generados sin la incorporación de información, los grupos generados presentan un mayor grado tanto de correlación de los perfiles de expresión de los genes pertenecientes a un grupo, como de coherencia biológica, lo que se traduce en la generación de grupos de genes que son buenos candidatos a ser sometidos a análisis posteriores. I. I NTRODUCCI ÓN Dadas las necesidades de los biológicos para el manejo de grandes volúmenes de datos, nace la bioinformática como la forma natural que ofrecen herramientas computacionales de aportar al desarrollo y análisis de datos relacionados a diferentes campos de la biologı́a. Una de las herramientas utilizadas son los algoritmos de agrupamiento, los cuales permiten relacionar datos entre sı́ de acuerdo a la similitud o distancia existente entre ellos. El algoritmo MST-kNN [10] es una alternativa basada en grafos de proximidad (y que por tanto hace uso de su potencial) que permite relacionar datos de expresión genética para establecer qué tan similares son un conjunto de genes, a partir de la información relacionada a sus perfiles de expresión. Puesto que actualmente la mirada de la comunidad dedicada a la secuenciación genómica está puesta en las anotaciones biológicas, las cuales agregan capas de análisis a interpretación a dichos estudios, es deseable que un algoritmo como MST-kNN además de utilizar datos de expresión para relacionar genes, utilice el conocimiento biológico externo de bases de datos de libre acceso para que los grupos que se formen tengan (además de la coherencia relacionada al comportamiento de los genes en condiciones similares) coherencia biológica. El estado del arte asociado al problema no es amplio, a pesar del interés que despiertan las soluciones relacionadas en el campo de la secuenciación genómica. Actualmente, los trabajos expuestos en [2], [3] y [4] han planteado diferentes enfoques de incorporación de anotaciones de GO a variados algoritmos de agrupamiento, y por ende, con distinta calidad en los resultados obtenidos, pero todos llegando a la misma conclusión global: añadir anotaciones biológicas al proceso de agrupamiento mejora la coherencia biológica de los grupos que se obtienen, los cuales representan a los genes candidatos a ser sometidos a análisis posteriores que permitirı́an ampliar el conocimiento biológico de un área espécifica. En el presente trabajo se expone una alternativa de incorporación de términos biológicos de la base de datos Gene Ontology a través del uso distancias semánticas para calcular la similitud entre dos términos u anotaciones biológicas de la mencionada base de datos, y con ello establecer una relación entre genes que considere tanto sus perfiles de expresión como sus perfiles funcionales (conjunto de términos biológicos que describen a un gen). La solución es probada sobre el conjunto de datos de la especie Yeast Saccharomyce Cerevisiae, y analizada a través de dos ı́ndices de validación que permiten medir tanto la correlación de los perfiles de expresión, como la coherencia biológica de los grupos generados, entregando en ambos casos resultados satisfactorios dejando de manifiesto, comparativamente al agrupamiento que no hace uso de anotaciones biológicas, que la incorporación de anotaciones biológicas al algoritmo de agrupamiento MST-kNN permite la generación de grupos de genes cuyos comportamientos bajo las mismas condiciones experimentales estén altamente correlacionados, y que además posean alta coherencia respecto de sus funciones biológicas asociadas. II. M ARCO TE ÓRICO Los conceptos teóricos que involucra el trabajo se relacionan con las áreas de la biologı́a, bioinformática e informática. De la biologı́a, se utiliza el concepto de expresión genética, lo que puede definirse como un conjunto de caracterı́sticas cuantitativas que describen el comportamiento de un gen para un conjunto de experimentos, lo que permite su asociación con un conjunto de funciones especı́ficas. Cuando se confirma (a través de experimentos y análisis) que una función biológica está relacionada a un gen, pasa a ser una anotación o término biológico asociado a él. Para este trabajo, al conjunto de anotaciones biológicas de un gen, se le asigna el nombre de perfil funcional. Experimentos como los de microarray (que permiten identificar la expresión genética de múltiples genes) generan grandes volúmenes de datos, los cuales para ser analizados requieren de herramientas propias de la informática. La unión entre las necesidades de la biologı́a, y las facultades de la informática para entregar soluciones, hace natural el nacimiento de la bioinformática. Los conocimientos informáticos involucrados en este trabajo, se relacionan a los algoritmos de agrupamiento, los cuales permiten relacionar datos de acuerdo a, por ejemplo, qué tan similares o distantes pueden ser entre sı́. En particular, para calcular la correlación entre perfiles de expresión genética, se utilizan variaciones de la correlación de Pearson, los cuales responden a una necesidad especı́fica de un investigador, es decir, si éste ha de considerar que la coexpresión entre dos genes está relacionado tanto a la sobreexpresión de los mismos, como a la infra-expresión, o si sólo se ha de considerar la sobre-expresión como un comportamiento correlacionado, mientras que la infra-expresión responda a un comportamiento anti-correlacionado. El ı́ndice que permite validar la calidad de un grupo de genes a partir de la correlación de sus perfiles de expresión, es también una variación de la correlación de Pearson extraı́do de [4]. Referente a Gene Ontology, es un proyecto colaborativo que con la cooperación de variadas entidades se mantiene constante actualización de información relacionada a avances en biologı́a. Especı́ficamente, Gene Ontology mantiene a los términos biológicos (que están asociados a genes de variadas especies) relacionados lógicamente en una estructura de DAG, lo que permite su asociación entre sı́ a través de distancias semánticas, las cuales utilizan el concepto de Ancestro Común Mı́nimo (A.C.M.). Considerando que los datos a calcular su similitud residen en una estructura lógica de DAG, el A.C.M. corresponde al nodo más especı́fico (más alejado de la raı́z) que es ancestro de ambos nodos en comparación, de manera que un enfoque basado en las aristas básicamente calcula la cantidad de aristas que hay entre los nodos en cuestión, y el A.C.M., mientras que el enfoque basado en los nodos utiliza el concepto de Contenido de Información (C.I.), que corresponde al cálculo del logartimo negativo de la probabilidad de aparición del A.C.M. de los nodos en cuestión, dentro de la estructura de DAG (tomando en consideración que un nodo N i está presente en todos sus descendientes). En el presente trabajo se hizo uso de variaciones de medidas de distancia tanto del enfoque basado en los nodos ([7], [8] y [9]), como del enfoque basado en las aristas ([5] y [6]). El ı́ndice de validación que permite calcular la coherencia biológica de un grupo de genes, se basa en el análisis de la cantidad de términos biológicos que comparten y es una variación del ı́ndice propuesto en [4]. III. R ESULTADOS En sı́ntesis, los resultados se materializan en un conjunto de parametrizaciones o mezcla de funciones y medidas de distancia que, a partir de datos de expresión genética e información de anotaciones biológicas de un conjunto de genes, permiten la representación matricial o de estructura de grafo, donde cada nodo es un gen y cada arista una relación entre dos genes con un peso igual a la distancia asociada a la correlación existente entre los perfiles de expresión de dichos genes, incorporando además el grado de similitud biológica de sus perfiles funcionales. La estructura generada es sometida al algoritmo de agrupamiento basado en grafos MST-kNN, para de esa generar grupos o conjuntos disjuntos de genes que estén relacionados tanto por su comportamiento, como por su funcionalidad. La solución es probada sobre el conjunto de datos de la especie Yeast Saccharomyces Cerevisiae, extrayendo los datos de los perfiles de expresión de [1], y la información de los perfiles funcionales de Gene Ontology, y comparando el resultado de la calidad del agrupamiento que no considera el conocimiento biológico externo. La solución implementada obtuvo valores de calidad superiores tanto en la correlación de los perfiles de expresión de los grupos generados, como en la coherencia biológica de los mismos, con respecto a su análogo que no hace uso de anotaciones biológicas para generar el agrupamiento entre genes. IV. T RABAJO RELACIONADO Y CONCLUSIONES La conclusión general se resume en que es posible incorporar el conocimiento biológico externo al análisis de experimentos de secuenciación genómica a través de la relación entre términos biológicos haciendo uso de las distancias semánticas que los separan dentro de una representación de DAG, y que dicha incorporación provee de resultados de mayor calidad tanto en términos de la relación entre los genes basada en datos que describen su comportamiento bajo las mismas condiciones experimentales, como en relación a la información asociada a sus funcionalidades. Como trabajo futuro, queda pendiente el sometimiento de datos relacionados a la genómica del ser humano a la solución generada (validada sobre el conjunto de datos del Yeast Saccharomyces Cerevisiae), con la correspondiente interpretación a nivel biológico de los resultados. El trabajo relacionado al desarrollo se encuentra en [10]. R EFERENCIAS [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] EISEN, M. B., SPELLMAN, P. T., BROWN, P. O., & BOTSTEIN, D. (1998). Cluster analysis and display of genome-wide expression patterns. En Proceedings of the National Academy of Sciences of the United States of America, vol. 95, (pág. 14863-14868). Diciembre. CHERNOMORETZ, A. (2010). Gene Ontology guided clustering of gene expression profiles. En Comprendio en Conferencia ISCB Latin America 2010 . Lunes 16 de Marzo. Montevideo, Uruguay. MARAZIOTIS, A. I., DIMITRAKOPOULOS, G., & BEZERIANOS, A. (2012). Gene Ontology Semi-supervised Possibilistic Clustering of Gene Expression Data. En 7th Hellenic Conference on AI, SETN 2012. Proceedings, vol. 7297, (pág. 262-269). Lamia, Greece: Springer-Verlag Berlin Heidelberg, 1ra ed. DOI: 10.1007/978-3-642-30448-4 33; Print ISBN: 978-3-642-30447-7; Online ISBN: 978-3-642-30448-4; Series ISSN: 0302-9743; 28-31 de Mayo. VERBANCK, M., LÊ, S., & PAGÈS, J. (2013). A new unsupervised gene clustering algorithm based on the integration of biological knowledge into expression data. En BMC Bioinformatics, vol. 14, cap. 3, (p. 42). ISSN: 1471-2105. DOI:10.1186/1471-2105-14-42. 7 de Febrero. LIN, D. (1998). An Information-Theoretic Definition of Similarity. En ICML ’98 Proceedings of the Fifteenth International Conference on Machine Learning, (pág. 296-304). San Francisco, CA, USA: Morgan c Kaufmann Publishers Inc. 1998. ISBN: 1-55860-556-8. JIANG, J. J., & CONRATH, D. W. (1997). Semantic Similarity Based on Corpus Statistics and Lexical Taxonomy. En Proceedings of the International Conference on Research in Computational Linguistics ROCLING X, (pág. 19-33). Taiwan. 20 de Septiembre. WU, Z., & PALMER, M. (1994). Verb Semantics And Lexical Selection. En ACL ’94 Proceedings of the 32nd annual meeting on Association for Computational Linguistics, (pág. 133-138). Stroudsburg, PA, USA: Association for Computational Linguistics. DOI: 10.3115/981732.981751. SLIMANI, T., YAGHLANEY, B. B., & MELLOULI, K. (2008). A New Similarity Measure based on Edge Counting. En Proceedings of world academy of science, engineering and technology, vol. 17. LEACOCK, C., & CHODOROW, M. (1998). Combining Local Context and WordNet Similarity for Word Sense Identification. En WordNet: An Electronic Lexical Database (Language, Speech, and Communication), (pág. 265-283). MIT Press. Cambridge, Massachusetts. London, c England: MIT Press. Christiane Fellbaum. 1998 Massachusetts Institute of Technology, 1ra ed. ISBN: 0-262-06197-X; Mayo, 1998. INOSTROZA-PONTA, M. (2008). An Integrated and Scalable Approach Based on Combinatorial Optimization Techniques for the Analysis of Microarray Data. School of Electrical Engineering and Computer Science. Thesis (Ph.D.), University of Newcastle. Australia.

Incorporaci´on de Anotaciones Genéticas en el Algoritmo de

Documentos relacionados

Productos

Apoyo

Incorporaci´on de Anotaciones Genéticas en el Algoritmo de

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib