Resumen El preprocesado de datos de matrices de expresión genética, se ha vuelto un factor determinante en el análisis de datos generados a partir de experimentos de microarrays, ya que estos experimentos arrojan una cantidad importante de ruido, valores nulos y variaciones sistemáticas. Para tratar con estos problemas, se han desarrollado diversas técnicas de preprocesado de datos, que se pueden agrupar como: normalización de los datos, sustitución de valores nulos y eliminación de ruido en las imágenes de los microarrays. Esta investigación se enfocó al tratamiento de valores nulos. Algunos de los métodos más relevantes de sustitución de valores nulos se reportan en ( y ( Bo et al., 2004). En ( Celton et al., Celton et al., 2010) 2010) presentan 12 métodos de tratamiento de valores nulos, los cuales evaluaron para diferentes casos de prueba, y compararon entre sí. De estos métodos el que arrojó los mejores resultados es el EM_Array ( Bo et al., 2004), el cual elegimos para un Bo et al., análisis más profundo y, posteriormente, realizar una implementación basados en ( Johnson y Winchern , y ( 2004) 2007). Como parte de esta investigación, se diseñaron e implementaron nuevos métodos de estimación y reemplazo de valores nulos: los métodos de Estimación Normalizada y Estimación de Máxima Similitud, basados en la generación de submatrices y en la normalización de los datos. Aunado a esto, se implementó una modicación del EM_Array combinada con la generación de submatrices lo que condujo a obtener mejoras en su desempeño en cuanto al tiempo de ejecución, manteniendo estimaciones aceptables. En base a los experimentos realizados, concluimos que los métodos propuestos en esta investigación son muy competitivos, ya que arrojan resultados aproximados a los publicados en el trabajo de Celton et al., mejor evaluados en ( Bo et al. (2004), los cuales corresponden a los métodos 2010), en tiempos signicativamente mejores. Finalmente, se exponen recomendaciones que pueden ayudar a mejorar los resultados obtenidos. i A mis padres ii Agradecimientos A mis abuelos Eduardo y Marcela por haberme cuidado, por sus consejos y enseñanzas, y sobre todo, por su amor incondicional. A mi hermana Cristina por todo su cariño y por todos aquellos invaluables recuerdos que compartimos. A mis primos Servando, Marcela, Eduin, Wanda, Citlaly, Daniela y Naydelin por su apoyo, comprensión, ánimos, amor y buenos deseos. A mi hermano Plinio por su invaluable amistad, arduo trabajo, y por sus importantes aportaciones a esta investigación. Muy especialmente a mi asesor M. C. Jorge Enrique Luna Taylor por sus valiosas enseñanzas, por su paciencia y disponibilidad para asistirme en todo momento y resolver atentamente cualquier duda, y por brindar siempre un ambiente de conanza. También de manera muy especial al M. T. I. Luis Armando Cárdenas Florido por las ideas brindadas durante la investigación, ya que fueron clave en el desarrollo de la misma. A mis hermanos Paul, Luis Carlos, Aarón, Juan Luis y Erick por estar conmigo cuando más los necesito. A mi novia Hilda por creer en mí y brindarme todo su apoyo, cariño y atención. A mis profesores Ing. Juan Antonio Cañedo, Ing. Jorge Bravo Espinoza, M. C. Jorge Enrique Luna Taylor, M. T. I. Luis Armando Cárdenas Florido y Dr. Marco Antonio Castro Liera por sus valiosas enseñanzas durante mi carrera. A la Lic. Gabriela Sánchez Martínez por sus sabios consejos y por su gran apoyo. De manera muy especial al M. C. Antonio Hernández Sánchez por su amistad y por darle siempre agilidad a todos mis trámites de residencias. A mis compañeros y amigos Luis Fernando Ríos, Carla Alejandra Tiznado, Carlos Gabriel Jiménez, Adrián Núñez, Oscar Barba, Sergio Albarrán, Antonio Mercado, Alfredo Hernández, Alejandra Velazquez del Valle y Johana Villela por su valiosa amistad y todas las vivencias compartidas a lo largo de estos cinco años. A Lucía González por darme tantos ánimos. iii Tabla de Contenido i Resumen Agradecimientos iii Tabla de Contenido iv Lista de Figuras vi viii Lista de Tablas ix Lista de Algoritmos 1. Introducción 1 1.1. Antecedentes 1.2. Objetivos 1.3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2.2. Objetivos especícos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Organización de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. Planteamiento del Problema 2 3 2.1. Expresión genética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2. Microarrays . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.3. Clusters 5 2.4. Biclusters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.5. Preprocesado de datos de matrices de expresión genética . . . . . . . . . . . . . . . . 8 2.6. Denición formal del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.7. Trabajo previo realizado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.7.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Análisis comparativo de métodos de estimación y reemplazo de valores nulos, Celton et al., 2010) ( 2.7.2. 2.7.3. 2.7.4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . LSImpute: estimación exacta de valores nulos en microarrays, ( Troyanskaya et al., 2001) EM_array, (Johnson y Winchern , 2007) KNNimpute, ( iv Bo et al., 2004) 12 17 . . . . . . . . . . . . . . . . . . . . . 20 . . . . . . . . . . . . . . . . . . . . . 21 2.7.5. Implementación de EM_Array . . . . . . . . . . . . . . . . . . . . . . . . . . 3. Metodología Propuesta 24 25 3.1. Algoritmo genético . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.2. Método de estimación normalizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.3. Estimación de máxima similitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.4. EM_Array modicado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 4. Experimentos y Resultados 43 4.1. Conjuntos de datos de expresión genética utilizados . . . . . . . . . . . . . . . . . . . 43 4.2. Normalización del REMC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 4.3. Experimentos realizados con algoritmo genético . . . . . . . . . . . . . . . . . . . . . 45 4.4. Sustitución de valores nulos por valores aleatorios . . . . . . . . . . . . . . . . . . . . 46 4.5. Experimentos realizados con EM_Array . . . . . . . . . . . . . . . . . . . . . . . . . 48 4.6. Experimentos realizados con estimación normalizada 49 4.7. Experimentos realizados con estimación de máxima similitud 4.8. Experimentos realizados con EM_Array modicado 4.9. Discusión sobre resultados obtenidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 . . . . . . . . . . . . . . . . . . 52 . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 5. Conclusiones y Traba jo Futuro 57 5.1. Sumario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 5.2. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 5.3. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 Bibliografía 59 v Lista de Figuras 2.1. a) Matriz de datos de expresión genética con valores nulos. b) Matriz de datos de expresión genética después de un proceso de reemplazo de valores nulos. 3.1. . . . . . . . 10 a) Matriz de datos de expresión con valores nulos. b) Matriz de datos de expresión después de remover todos los genes con valores nulos. c) Matriz de datos de expresión después de remover todas las condiciones con valores nulos. 3.2. . . . . . . . . . . . . . . Los biclusters son arreglos de ceros y unos. Estos indican cuáles genes y condiciones de la matriz de datos se encuentran incluidos en él. . . . . . . . . . . . . . . . . . . . 3.3. 27 Cruza de dos individuos. Solo aquellos elementos incluidos en alguno de los padres son pasados al individuo hijo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6. 26 Población de ocho individuos los cuales están compitiendo por parejas para ser seleccionados, de cada par de individuos se selecciona aquel cuya aptitud es mayor. . . . . 3.5. 26 Identicación del individuo con mayor aptitud, para aplicar elitismo en el algoritmo genético. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4. 25 27 Proceso de mutación de un individuo. Se escoge un elemento de forma aleatoria, ya sea un gen o una condición, y se modica su valor. Si el elemento contenía un cero, su valor cambia a uno y viceversa. 3.7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 El concepto de costo para un gen con valores nulos considera que si es menos costoso remover un gen que una condición, o un conjunto de condiciones, se remueve el gen y se conservan las condiciones. Esto tiene la intensión de preservar la mayor cantidad de datos posibles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8. 28 a) Conjunto de genes con comportamiento es similar. b) Valores de expresión normalizados. Se puede apreciar con mayor claridad que los cinco genes se comportan de manera similar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.9. Submatriz de k genes, obtenida a partir de la matriz completa de datos de expresión. 3.10. Apartir de una matriz de k 33 genes cuyo comportamiento es similar. b) Valores de expresión nor- malizados. Se observa más claramente la similitud en el comportamiento de los genes. 32 k genes, se obtiene una matriz de k genes con las l condiciones más correlacionadas con la condición que contiene el valor nulo por estimar. . . . . . 3.11. a) Matriz de 31 k . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi 36 3.12. a) Matriz de k genes por l condiciones antes de estimar los valores nulos. Dichos valores nulos están representados por ceros. b) Valores de expresión y comportamiento normalizado de los k genes y l condiciones antes de la estimación. . . . . . . . . . . . 37 3.13. a) Matriz de datos de expresión cuyos genes presentan un comportamiento similar. b) Comportamiento de los genes seleccionados. . . . . . . . . . . . . . . . . . . . . . 39 3.14. a) Submatriz formada a partir de la primera submatriz. Para el primer gen, toma primero la condición en donde se presenta el valor nulo, y despues las condiciones no nulas restantes. b) El comportamiento de los genes seguirá siendo similar sin importar el reacomodo una o más condiciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3.15. a) La tercera submatriz se compone solo de los genes y las condiciones más correlacionadas. A partir de la segunda submatriz se seleccionan las condiciones que conforman a la matriz denitiva para realizar la estimación. b) Comportamiento de los genes de la tercera submatriz de datos antes de la estimación. . . . . . . . . . . . . . . . . . . 41 4.1. La media como criterio de normalización del REMC. . . . . . . . . . . . . . . . . . . 44 4.2. Diferencia entre el valor máximo y mínimo como criterio de normalización del REMC. 45 4.3. La desviación estándar como criterio de normalización del REMC. 45 4.4. Resultados del algoritmo genético en las 100 pruebas realizadas para los tres conjuntos . . . . . . . . . . de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.5. Valores de REMC para el reemplazo de valores nulos con valores aleatorios. 47 4.6. a) Conjunto de genes cuyo comportamiento es similar, considerarémos la primer con- . . . . . dición del Gen 1 como valor nulo. b) Reemplazo del valor nulo del Gen 1 por un valor aleatorio, dentro del rango de valores de la matriz. Este reemplazo puede llevar la expresión de dicha condición al valor máximo del rango de valores de la matriz. c) La estimación del valor nulo puede llegar a un resultado aproximado al valor real de dicha condición. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 4.7. Valores de REMC obtenidos en las pruebas con EM_Array. . . . . . . . . . . . . . . 49 4.8. Valores de REMC obtenidos por el método de estimación normalizada. . . . . . . . . 50 4.9. Valores de REMC obtenidos por el método de máxima similitud. . . . . . . . . . . . 52 4.10. Valores de REMC obtenidos por el método EM_Array Modicado. . . . . . . . . . . 53 4.11. Resultados generales del REMC obtenido para cada método con la matriz de datos Lymphoma. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 4.12. Resultados generales del REMC obtenido para cada método con la matriz de datos NCI60. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 4.13. Resultados generales del REMC obtenido para cada método con la matriz de datos TimeSeries. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vii 55 Lista de Tablas 2.2. Métodos utilizados en el análisis comparativo de métodos de estimación y reemplazo de valores nulos. 2.4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Conjuntos de datos originales, a partir de los cuales, se generaron los conjuntos de datos utilizados en el análisis comparativo de métodos de estimación y reemplazo de valores nulos. 2.6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 Subconjuntos de datos creados, a partir de sus respectivas matrices originales, para el análisis comparativo de métodos de estimación y reemplazo de valores nulos en Celton et al., 2010). ( 2.8. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Valores de REMC promedio de algunos métodos aplicados sobre algunos de los conjuntos de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 4.2. Matrices de datos utilizadas en los experimentos. 43 4.4. Resultados del algoritmo genético mostrando el número de elementos de los biclusters obtenidos sin valores nulos. 4.6. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 Resultado del cálculo de REMC utilizando valores aleatorios como reemplazo de valores nulos. 4.8. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 Resultados de EM_Array. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.10. Comparativa del REMC obtenido por el método de estimación normalizada y el EM_Array. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 4.12. Comparación de tiempo de ejecución de EM_Array y el método de estimación normalizada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 4.14. Comparativa del REMC obtenido por el método de estimación de máxima similitud y EM_Array. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 4.16. Comparación de tiempo de ejecución de estimación normalizada y la implementación de EM_Array. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 4.18. Comparativa del REMC obtenido con EM_Array Modicado y EM_Array original. 52 4.20. Comparación de tiempo de ejecución de EM_Array y EM_Array Modicado. . . . . 53 4.22. Resultados generales de los métodos de estimación y reemplazo de valores nulos. . . . 54 4.24. Comparación general del tiempo de ejecución de los métodos de estimación y reemplazo de valores nulos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . viii 56 Índice de algoritmos Bo et al., 2004). 2.1. EM_Array ( . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.1. Algoritmo Genético. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 3.2. Algoritmo Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 3.3. Estimación Normalizada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.4. Estimación de Máxima Similitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.5. EM_Array Modicado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 ix Capítulo 1 Introducción 1.1. Antecedentes El análisis de datos de matrices de expresión genética es uno de los problemas más interesantes de la bioinformática. Dicho análisis pretende identicar relaciones existentes entre grupos de genes y diferentes condiciones biológicas. Estas condiciones incluyen tanto estados normales de un organismo, como el padecimiento de alguna enfermedad, o la respuesta del organismo bajo un tratamiento especíco. Las bases de datos que contienen estas matrices son muy grandes. Una matriz de expresión genética puede contener miles de genes, incluso el genoma completo de un organismo. Este es un problema muy complejo, que para afrontarlo se han utilizado métodos estadísticos y computacionales muy variados. Las diferentes técnicas experimentales para la obtención de datos de expresión genética, son propensas a la generación de ruido, entrada de valores nulos y a variaciones sistemáticas. Por lo que el preprocesado de estos datos ayuda a que el análisis de las matrices sea más conable. Entre las técnicas de tratamiento de los datos se encuentran: la sustitución de valores nulos, normalización de los datos, ltrado de genes cuya expresión no cambia signicativamente, discretización de la información, entre otras. A pesar de los esfuerzos realizados, el problema del preprocesamiento sigue representando un reto muy importante, incluso, es considerado un área de investigación por sí misma. 1.2. Objetivos 1.2.1. Objetivo general Desarrollar un nuevo método computacional para el preprocesamiento de datos de matrices de expresión genética. 1 1.2.2. Objetivos especícos Analizar y documentar los métodos actuales de preprocesamiento de datos de expresión genética. Desarrollar un método computacional para sustitución de valores nulos en matrices de datos de expresión genética. Documentar y presentar el trabajo como tesis profesional. 1.3. Organización de la tesis Este documento se compone de cinco capítulos organizados de la siguiente manera: En el Capítulo 2 Planteamiento del Problema se denen los conceptos básicos necesarios para la comprensión del problema, se describe el problema del preprocesado de datos de matrices de expresión genética, se expone la denición formal del problema del tratamiento de valores nulos desde el punto de vista computacional, y se presenta una revisión general del trabajo previo realizado sobre el tratamiento de valores nulos en las matrices de datos de expresión genética. Por último, se expone la implementación algoritmica del método de estimación y reemplazo de valores nulos EM_Array, el cual fue el mejor calicado en la literatura. En el Capítulo 3 Metodología Propuesta se presenta el desarrollo de un algoritmo genético diseñado con la intención de buscar, a partir de una matriz de datos de expresión, la submatriz de mayor tamaño posible sin valores nulos. Posteriormente, se exponen dos propuestas generadas para el tratamiento de valores nulos, basadas en la generación de submatrices, y estimación de valores nulos, por medio de la normalización de los valores de expresión de los genes de dichas submatrices. Por último, se describe un método de estimación y reemplazo de valores nulos, basado en la generación de submatrices, y en el método de estimación EM_Array. En el Capítulo 4 Experimentos y Resultados se describen los experimentos realizados con los métodos propuestos, se presentan los resultados obtenidos, y nalmente se realiza una comparativa de los resultados. En el Capítulo 5 Conclusiones y Trabajo Futuro se presenta una discusión sobre los resultados obtenidos, se presentan las conclusiones nales del trabajo, y se exponen algunas propuestas para la continuación de este trabajo de investigación. 2 Capítulo 2 Planteamiento del Problema 2.1. Expresión genética Los genes funcionan expresándose en forma de proteínas. Esta expresión es un proceso que consta de dos fases: la transcripción y la traducción. La transcripción es la fase en donde, a partir de una secuencia de ADN, se genera una cadena simple de ARN mensajero (Abreviado ARNm) ( Lewin , 1996). El ARNm es una molécula muy similar a una de las dos cadenas del ADN, encargada de Lewin , 1996; Kreuzer y Massey , transportar la información genética del cromosoma a los ribosomas ( 2001). En la fase de traducción, se convierte el ARN en la secuencia de aminoácidos que forman una proteína ( Tamarin , 1996). De la gran cantidad de genes dentro de una célula dada, solo un conjunto de ellos se expresa en un momento dado, y esta expresión selectiva depende del tipo de célula, de la fase de crecimiento del ser vivo, actividad celular, enfermedades, entre otros factores ( 2004; Song y Wyse , Baena , 2006). Un perl de expresión es una caracterización de la cantidad relativa de cada transcripción que Song y Wyse , es producida en cualquier tipo de célula ( 2004). Los perles de expresión se utilizan para identicar cuestiones biológicas, como la identicación de los genes que se activan durante un ciclo celular para un organismo dado, descubrir fenotipos, detección de biomarcadores, clasicación Baena , 2006; Califano et al., 2000; Bhattacharya y y sub clasicación de enfermedades, entre otras ( Mariani , 2009). Los perles de expresión son ampliamente utilizados en áreas como la biotecnología, agricultura, alimentación, creación de cosméticos, medicina, entre otras (Korol , 2003). En el campo de la medicina, el análisis de los perles de expresión ayuda al descubrimiento y clasicación de patologías. Utilizando únicamente patrones de expresión, automática y acertadamente, Cobb , pacientes con leucemia fueron clasicados en los dos principales subtipos de esta enfermedad ( 2006). Según Madeira y Oliveira (2004), los objetivos comúnmente perseguidos cuando se analizan datos de expresión genética incluyen: Agrupamiento de genes de acuerdo a su expresión bajo múltiples condiciones. Clasicación de un nuevo gen, dada su expresión, y la expresión de otros genes con una clasi- 3 cación conocida. Agrupación de condiciones basadas en la expresión de un número de genes. Clasicación de una nueva condición, dada la expresión de los genes bajo cierta condición experimental. El análisis masivo de datos de expresión facilita la identicación de genes individuales que son expresados de manera desmesurada en alguna condición dada. El análisis simultáneo de un conjunto de genes permite revelar patrones similares de comportamiento en determinadas condiciones experimentales, al igual que encontrar grupos de genes que reaccionen de forma inversa ante determinados estímulos ( Baena , 2006). Una de las tecnologías, más utilizadas hoy en día, para la generación masiva de datos de expresión, es la creación de Microarrays. 2.2. Microarrays Los microarrays, también llamados ADN Chips o Biochips, son una matriz de miles de genes inmovilizados y expresados en distintas condiciones. Donde cada la corresponde a un gen diferente y las columnas corresponden a las condiciones que se expone cada gen. La intensidad de expresión Baena , de un gen es comúnmente representada por una variación de colores ( 2006). La tecnología de microarrays de ADN representa una gran oportunidad de estudiar la información genómica de manera global, de forma que podemos analizar relaciones entre miles de genes simultáneamente ( Baena et al., 2007). La matriz de genes es almacenada en un soporte sólido, el cual está formado por una gran cantidad de compartimientos microscópicos que sirven para contener a cada gen. Para la construcción de microarrays, se sigue el siguiente proceso: se seleccionan partes de ADN conocido y se colocan en el soporte sólido. Se selecciona el tipo de célula que se utiliza para estudiar algún gen, dicha célula se deposita en un contenedor, y se seleccionan los genes que se utilizarán para el estudio. Una vez adquirido el número de genes, se prosigue a obtener las moléculas de ARN mensajero (ARNm), realizando una transcripción inversa, para formar el ADN complementario (ADNc). Previamente, el ARNm se marca para ayudar a identicar el emparejamiento de genes. Una de las técnicas para realizar el marcaje de los ARNm es mediante uidos uorescentes, los cuales se adhieren al ARNm. El ADNc, se utiliza para realizar la hibridación, es decir, el emparejamiento del ADNc con las partes de ADN ubicadas en el soporte sólido. Las hebras de ADN que no se hibridaron, se eliminan mediante un lavado del chip. A continuación, se realiza un escaneo para hacer reaccionar el uido, Kreuzer y Massey , capturando una imagen de los genes expresados de dicho chip ( 2006; 2001; Baena , de Paz Santana , 2010; Lopez et al., 2002). El objetivo de la tecnología de microarrays de expresión consiste en cuanticar la abundancia de miles de secuencias de ARNm (asociadas a los genes y fragmentos de genes -ESTs-) de una muestra 4 biológica ( Gutierrez , 2010). Otro objetivo es el estudio de la funcionalidad especíca de los genes, y su participación en procesos biológicos, hasta la reconstrucción de las condiciones de una enfermedad Baena et al., 2007). para su posterior prognosis ( El análisis de microarrays se utiliza ampliamente en el campo de la medicina, donde su aplicación ayuda al descubrimiento, predicción, clasicación y tratamiento de enfermedades, detección de biomarcadores, entre otras aplicaciones. Inicialmente, los experimentos basados en microarrays los enfocaron al descubrimiento, estudio y clasicación de los tipos de cáncer humano, en muchos casos, con la nalidad de encontrar nuevas herramientas de diagnóstico, tratamiento de carcinomas Bhattacharya y Mariani , e identicación de nuevas dianas terapéuticas ( 2006; 2009; Korol , 2003; Cobb , Sorlie et al., 2001). En la industria farmacéutica, el análisis de microarrays ayuda al descubrimiento, evaluación de la toxicidad, seguridad y efectividad de tratamientos para un objetivo (enfermedad) previamente denido. Inclusive, tratamientos que son efectivos para un paciente, pueden causar reacciones nulas o indeseables en otros; abriendo las puertas al diseño de tratamientos individuales más ecientes, para perles únicos de expresión genética ( Korol , 2003). Los microarrays son una tecnología para generar datos masivos de expresión. Esta gran cantidad de datos ha atraído la atención de muchos investigadores debido a que la extracción de información útil representa un gran reto. Para afrontarlo se han aplicado diferentes técnicas estadísticas y de minería de datos. El clustering es la técnica más popular en este área de investigación ( Baena et al., 2007). 2.3. Clusters El clustering tiene como objetivo formar grupos o clases de datos, llamados clusters, de tal forma que los datos de un mismo grupo comparten una serie de características y similitudes, mientras que Baena , 2006). los datos de grupos distintos tienen mayores diferencias ( El clustering, es una técnica usada para el tratamiento de datos, basada en el agrupamiento de los mismos, con el n de facilitar su análisis. Una característica importante del agrupamiento de datos es la creación de un conjunto de grupos tales que sus elementos internos tengan la máxima similitud posible, de tal manera que la similitud intergrupal se minimice. La importancia de la formación de grupos de datos para su análisis, recae en identicar el comportamiento de una población, clasicación de objetos, extracción y/o selección de características similares. El agrupamiento de los datos es realizado por medio de algún algoritmo que trata los datos dependiendo de un criterio, ya sea de distancia o similitud. Éste criterio se establece dependiendo del tipo de datos, en otras palabras, depende de los datos la selección del algoritmo a utilizar. Durante la ejecución de un método de agrupamiento, puede existir la unión de dos clusters cuyos elementos compartan los criterios Pascual et al., 2007). establecidos ( Existen dos tipos de algoritmos de clustering básicos: algoritmos de particionamiento y algoritmos 5 jerárquicos. El primero, consiste en obtener una muestra de una base de datos con un número variable de objetos, para ser representada por un conjunto de clusters. El número de clusters es un parámetro de entrada en estos algoritmos, por lo tanto, se debe tener conocimiento de dominio, lo que diculta su uso en muchas aplicaciones. Este tipo de algoritmos comienzan con una muestra de la base de datos, después usan un conjunto de pasos repetitivos para ir minimizando el criterio utilizado. El cluster queda representado por un objeto o punto central, o por un objeto-medio, localizado lo más cercano al centro. El proceso de los algoritmos de particionamiento consta de dos pasos: el primero, determinar los objetos representativos de cada cluster, y el segundo, consta de asignar los demás objetos a los cluster, basándose en el criterio utilizado y comparándolos con los objetos representativos. Los algoritmos jerárquicos se basan en la creación de grupos jerárquicos de la base de datos de manera iterativa, hasta formar un árbol de subconjuntos en donde cada nivel contiene menos objetos. Cada nivel del árbol es considerado un cluster de la base de datos. Dentro de estos tipos de algoritmos, existe el enfoque aglomerativo, que consiste en mezclar clusters en cada iteración; y el enfoque divisivo, por el contrario, consiste en dividir la base de datos en clusters. Una gran diferencia respecto a los algoritmos de particionamiento viene siendo la necesidad de una condición de parada, ante la ausencia de especicar parámetros de entrada (cantidad de clusters) ( Ester et al., 1996). 2.4. Biclusters El término biclustering se reere al agrupamiento simultáneo de conjuntos de renglones y columnas en una matriz dada. Los métodos de biclustering, realizan agrupamiento simultáneo de dos Cheng y Church , dimensiones ( 2000). Esto signica que los métodos de clustering obtienen un mo- delo global, mientras que los algoritmos de biclustering producen un modelo local. Una gran fracción de aplicaciones de algoritmos de biclusters lidian con matrices de expresión genética. Sin embargo, existen muchas otras aplicaciones para el biclustering. Por esta razón, el caso general es una matriz de datos, A, con un conjunto de las X y columnas valor representando la relación entre la la A, Tal matriz {x1 , . . . , xm }, y J ⊆ Y, submatriz de las I con y columnas Aij de n y la columna Y = {y1 , . . . , yn }. y un conjunto de columnas Aij = (I, J) s ≤ n). (I ⊆ X Un bicluster Se utiliza (X, Y ) para denotar la matriz matriz de datos A. Aij = (I, J) Si X = I ⊆X denota la pertenecientes a la submatriz con un conjunto J. k ≤ m), (I, J) corresponden a un j. I = {i1 , . . . , ik } es un es un subconjunto de columnas (J ⊆ es un subconjunto de las y columnas donde y aij columnas, está denida por su propio conjunto de las A que contiene solo los elementos aij subconjunto de las y las y donde los elementos son subconjuntos de las las y las columnas, respectivamente, El bicluster Y m i Y, y J = {j1 , . . . , js } puede entonces ser denido como una submatriz K por S de la A. El problema especíco que atienden los algoritmos de biclusters, puede ser denido como: dada una matriz A, se requiere identicar un conjunto de biclusters 6 Bk = (Ik , Jk ), tal que cada biclus- ter Bk satisfaga alguna característica especíca de homogeneidad. Las características exactas de homogeneidad que un bicluster debe de obedecer varía de una propuesta a otra. Dentro del análisis de datos de expresión genética, el objetivo de las técnicas de biclustering es identicar subgrupos de genes y subgrupos de condiciones, para realizar un agrupamiento simultáneo Madeira y Oliveira , 2004). entre las y columnas de una matriz de expresión de genes ( Los algoritmos de biclustering identican grupos de genes que muestran patrones de actividad similar bajo un subconjunto especíco de las condiciones experimentales. Por lo tanto, la propuesta de biclustering es una técnica clave de uso cuando una o más de las siguientes situaciones se aplica: Un grupo de genes debe ser denido con respecto a solo un subconjunto de las condiciones. Un grupo de condiciones debe ser denido con respecto a solo un subconjunto de genes. Los grupos no deben ser exclusivos y/o exhaustivos: un gen o una condición debe ser capaz de pertenecer a más de un grupo o ningún grupo en absoluto, y se agrupan usando un subconjunto de condiciones o genes, respectivamente. Además, la robustez de los algoritmos biclustering, es especialmente relevante debido a dos características adicionales de los sistemas en estudio. La primera, es la complejidad de los procesos de regulación genética, que requieren de potentes herramientas de análisis. La segunda, es el nivel de ruido en los actuales experimentos de expresión genética, que hace indispensable el uso de herramientas Madeira y Oliveira , 2004). inteligentes de estadística ( Una de las razones por las cuales se utilizan biclusters para el análisis de los datos de expresión, es que un gen puede ser agrupado en uno o más biclusters, comportarse de manera similar bajo una o más condiciones que permitan la formación de biclusters traslapados. El problema de encontrar un conjunto mínimo de biclusters, ya sea mutuamente excluyentes o traslapados, para cubrir todos los elementos de la matriz, es una generalización del problema de cubrir un grafo bipartito por un conjunto mínimo de subgrupos, el cual ha sido demostrado ser un problema NP-Complejo. Más interesante, es el encontrar un conjunto de genes que muestren altos y bajos niveles de expresión bajo un conjunto de condiciones ( Cheng y Church , 2000). Los algoritmos de biclustering se pueden clasicar dentro de 4 aspectos: El tipo de biclusters que pueden encontrar. Esto se determina por las funciones de mérito que denen el tipo de homogeneidad que se busca en cada bicluster. La manera en que múltiples biclusters son tratados y su estructura es producida. Algunos algoritmos encuentran solo un bicluster, otros encuentran biclusters que no se traslapan, otros, de manera más general, extraen múltiples biclusters traslapados. El algoritmo especíco utilizado para encontrar cada bicluster. Algunas propuestas usan algoritmos voraces, mientras que otras utilizan propuestas globales más costosas o enumeraciones exhaustivas. 7 El dominio de aplicación de cada algoritmo. Las aplicaciones de biclustering oscilan de un número de tareas de análisis de microarrays, a aplicaciones más exóticas, como análisis de sistemas, mercadotecnia y análisis de elecciones. El análisis de vastos conjuntos de datos de muestras clínicas es uno de los principales objetivos de los métodos de biclustering. Muchas aplicaciones son desarrolladas para el análisis de datos de expresión genética obtenidos mediante tecnologías de microarrays, esta tecnología de microarrays permite medir el nivel de expresión de miles de genes bajo un conjunto de condiciones experimentales objetivo. En este dominio de aplicación, entre un gran número de aplicaciones, se pueden utilizar biclusters para asociar genes con clases clínicas especícas, clasicar muestras, detectar mutaciones, diagnosticar enfermedades, descubrir nuevos tratamientos. 2.5. Preprocesado de datos de matrices de expresión genética Una matriz de expresión genética es una matriz de números reales, donde cada uno de estos elementos es el logaritmo de la abundancia relativa (nivel de expresión) de ARNm de un gen bajo una condición especíca. La razón de esta transformación logarítmica es para convertir saltos Cheng y Church , exponenciales en los valores de la abundancia relativa, a incrementos aditivos ( 2000). Los experimentos de microarrays generan conjuntos de datos con información acerca de los Bo et al., niveles de expresión de miles de genes en un conjunto de muestras biológicas ( 2004). La imagen capturada del microarray, que contiene los datos de expresión genética, es propensa a ruido, valores nulos y variaciones sistemáticas producidas durante la ejecución de los experimentos. Por este motivo, es necesario un preprocesado de los datos antes de empezar a aplicar cualquier técnica Baena , 2006). trabajo de Schuchhardt et al. de biclustering ( En el (2000), se listan las fuentes más comunes de pérdidas de delidad en los experimentos de microarrays. Dentro de estas fuentes se encuentran las pérdidas de sondas, errores en la preparación del microarray, fallos en el proceso de hibridación, efectos de fondo y brillo excesivo resultantes del procesamiento de las imágenes. En el caso de la aparición de valores nulos, debido a un gran número de razones, no siempre es posible obtener una cuanticación de todos los puntos de un microarray; las razones típicas para la ocurrencia de esto incluyen problemas de manchas, rayones en la lámina, polvo, o hibridaciones fallidas, ocasionando que la matriz de expresión contenga éstos valores nulos. Los puntos y/o submatrices, pueden ser removidos hasta que no quede ningún valor nulo en el microarray, pero esta técnica ocaciona una perdida de muchos datos existentes en la matriz. En microarrays con un bajo porcentaje de valores nulos, es preferible estimar y reemplazar dichos valores, de tal manera, que el análisis subsecuente resulte lo más informativo posible. Es esencial que el método utilizado para la estimación de estos valores nulos sea preciso, debido a que una mínima porción de valores mal estimados, puede ocasionar que los algoritmos de clustering o biclustering 8 produzcan resultados inexactos ( Bo et al., 2004). La aparición de ruido en los escaneos de microarrays, es otro de los problemas a tratar del procesamiento de imágenes de Microarrays de ADN, debido a que seguido presentan ruido de fondo no homogéneos. En una lámina de microarray, la intensidad uorescente medida en un punto, es una combinación de la intensidad del fondo de la imagen alrededor del punto, y la intensidad determinada por el nivel de hibridación de las muestras. Para esto, es necesario implementar una corrección del fondo, lo que ayuda a estimar el verdadero nivel de hibridación de las muestras. Dentro de la comunidad cientíca, se han desarrollado métodos para corregir el ruido de fondo de las imágenes de microarrays. Los métodos que han sido publicados se han clasicado en tres categorías: (I) corrección de fondo constante, (II) corrección local de fondo y (III) apertura morfológica. Los métodos de corrección constante utilizan la intensidad media o mediana de todo el fondo de la imagen como la intensidad de fondo estimada, en algunas ocasiones son aplicados en imágenes con ruido de fondo no homogéneo. Los métodos de corrección local de fondo, calculan la intensidad local del fondo utilizando los pixeles cercanos al punto de la muestra. Estos métodos devuelven las imágenes corregidas por medio de la substracción y normalización del fondo local utilizando el nivel de la intensidad media o mediana de los pixeles del fondo original. Un problema de estos métodos es que el nivel de intensidad de los valores de la media o mediana calculada, a partir de los pixeles alrededor de una muestra en una región local, puede ser más alto que la intensidad de la muestra en sí. Esto sucede cuando el ruido de fondo provoca grandes cambios de variación de intensidad cerca de la muestra. Consecuentemente, la corrección local de ruido de fondo, puede ocasionar que se produzcan valores de intensidad negativos en las muestras, lo cual, es erróneo. Los métodos de apertura morfológica, estiman la intensidad del fondo utilizando un ltro no lineal. Este ltro, en esencia, suaviza de manera no uniforme la imagen entera, remueve los picos locales y devuelve una imagen suavizada. En concreto, los métodos de apertura morfológica aplican un proceso de erosión, seguido de un proceso de dilatación de la imagen, los cuales consisten en un ltrado de pixeles mínimo local y máximo local respectivamente. La normalización de los datos de expresión genética es un proceso aplicado a los microarrays para remover las fuentes de variación, de origen no biológico, de las matrices. Al trabajar con experimentos de microarrays que involucran múltiples matrices, se presentan dos tipos generales de caracterizaciones en las que los tipos de variación pueden ser clasicados. El primer tipo, denominado variación interesante, clasica diferencias biológicas, por ejemplo, los niveles de expresión de genes de tejido enfermo contra tejido normal. Sin embargo, en algunas ocasiones, los niveles de expresión presentan o incluyen variaciones que se introducen durante el proceso del experimento. A este tipo de variación se le denomina como variación oscurecida. El propósito de la normalización es trabajar con la variación oscurecida ( Bolstad et al., 2003; Harteminka et al., 2001). Otras maneras de afrontar el problema del preprocesamiento de los datos, según Baena (2006), es la normalización de los datos de expresión, realizando ltrado de aquellos genes cuyo valor de expresión no cambie signicativamente a lo largo de las condiciones experimentales, estandarizar cada 9 la de la matriz con una media de cero y una varianza de uno, o discretización de la información, entre otras propuestas. La mayoría de los métodos de análisis de datos de expresión genética suponen que las matrices sobre las que trabajan contienen sólo datos reales y válidos. Mientras las técnicas experimentales para la obtención de los datos no garanticen este hecho, el preprocesado de las matrices seguirá siendo un paso muy importante y crucial en el análisis de expresión genética. 2.6. Denición formal del problema Debido a la complejidad del problema del preprocesado de datos de matrices de expresión genética, la investigación toma el curso de enfocarse solo en el tratamiento de valores nulos. Como se menciona en la Sección 2.5, una matriz de datos de expresión genética, es una matriz de números reales A [m, n], valor de expresión del gen compuesta de i m genes y bajo la condición j. n condiciones, en donde cada elemento Frecuentemente se tienen elementos aij aij es el cuyo valor es desconocido, y se consideran como valores nulos (vn) (Ver Figura 2.1a). Una matriz de datos de expresión genética con valores nulos estimados, se puede representar como à [m, n], como ãij dentro de la cual, todo elemento aij considerado como valor nulo, esta representado después de su estimación (ver Figura 2.1b). (a) (b) Figura 2.1: a) Matriz de datos de expresión genética con valores nulos. b) Matriz de datos de expresión genética después de un proceso de reemplazo de valores nulos. El cálculo de la raíz del error medio cuadrático (REMC), es adoptado para evaluar la efectividad de los métodos de estimación y reemplazo de los valores nulos en las matrices de datos de expresión genética. Para evaluar esta efectividad en cualquier modelo de predicción de valores, mediante el cálculo del REMC, se toma la matriz A [m, n] con los valores reales, y se compara con la matriz à [m, n], que contiene los valores estimados. El valor devuelto por este cálculo indica que tan cercanos resultaron los valores obtenidos por el modelo. Entre más pequeño sea el valor de REMC, mayor similitud existe entre los valores estimados y los valores reales de la matriz. 10 El cálculo del REMC se realiza mediante la siguiente fórmula: s REM C A [m, n] , à [m, n] = donde k Pk 1 (|ãij − aij |)2 k (2.1) es el número de observaciones evaluadas. Desde el punto de vista computacional, el problema del tratamiento de valores nulos en las matrices de datos de expresión genética, se puede plantear de la siguiente manera: Entrada: Una matriz de números reales A [m, n] en la que se reemplaza un porcentaje τ a partir de la cual se crea una matriz de elementos aij , Avn [m, n], por valores nulos (vn), en posiciones conocidas. = vn), fueron reem plazados por elementos estimados ãij , de manera que se minimice REM C A [m, n] , à [m, n] . Salida: Una matriz de números reales à [m, n] donde los elementos nulos (aij 2.7. Trabajo previo realizado Se han realizado varias propuestas de sustitución de valores nulos, para su utilización dentro de métodos de biclustering. Por ejemplo, el trabajo de Cheng y Church (2000), en el cual, propusie- ron un conjunto de algoritmos heurísticos para encontrar conjuntos de biclusters. Los algoritmos consisten en iteraciones que detectan y enmascaran los valores nulos, descubren biclusters, realizan una supresión na y gruesa de nodos, añaden nodos e incluyen datos inversos. La complejidad computacional es del orden de O (M N ∗ (M + N ) ∗ k) para descubrir k biclusters, siendo M y N el número de condiciones y el número de genes, respectivamente. Aunque su trabajo arrojó resultados Yang et al. (2010), que el enmascaramiento de valores nulos y el descubrimiento de biclusters propuesto por (Cheng y Church , 2000), fue mejorado satisfactorios, sufre de algunas desventajas. Menciona al reemplazar celdas relevantes con valores aleatorios. Argumentando que los valores aleatorios tienen una oportunidad matemática de formar algún patrón reconocible y, por lo tanto, no resultaría un bicluster distorsionado. De igual manera, Yang et al. (2010) comenta que la intención original de enmascarar los bicluster descubiertos, es para asegurar que de cada corrida sucesiva del algoritmo determinístico, surja un bicluster diferente en el caso donde múltiples biclusters sean preferidos. En ambos casos, incluso los datos aleatorios improbablemente formen patrones cticios. Existe un riesgo substancial de que dichos números aleatorios, intervengan con el descubrimiento futuro de biclusters, especialmente, aquellos que se han superpuesto con los ya descubiertos. Llaman a este fenómeno, Yang et al., 2010), conrma que la interferencia aleatoria. El resultado del estudio experimental de ( interferencia aleatoria impacta en el resultado del biclustering. A continuación, se presentan algunos trabajos que tratan directamente el problema de sustitución de valores nulos en las matrices de datos de expresión genética. En estos trabajos se proponen métodos de estimación y reemplazo de valores nulos, se analizan y comparan los resultados obtenidos por dichos métodos para distintos casos de pruebas. 11 2.7.1. Análisis comparativo de métodos de estimación y reemplazo de valores nulos, (Celton et al., 2010) Las tecnologías de microarrays permiten la caracterización de un genoma de expresión completo, al medir los niveles de transcripción relativa de miles de genes en un experimento. Sin embargo, limitaciones técnicas o deciencias en el equipo, al realizar el escaneo del microarray (polvo, marcas) llevan a la generación de valores nulos en la imagen del microarray. Durante la fase de análisis de la imagen, se ltran puntos dañados o manchas que generan valores nulos. Estos valores nulos (MVs) alteran el agrupamiento de genes obtenido por medio de métodos clásicos de clustering. El tratamiento de valores nulos en datos de microarrays es un campo de investigación reciente, para el cual han sido, y se siguen desarrollando una gran diversidad de metodologías innovadoras. Por lo regular, las nuevas propuestas son comparadas con el método k-Nearest Neighbors (kNN) ( Troyanskaya et al., 2001). En este estudio de Celton et al. (2010), se decidió evaluar la calidad de la estimación y reemplazo de valores nulos de todos los métodos disponibles a la fecha (Ver Cuadro 2.2), y su inuencia en la calidad de agrupamiento de genes. Método Autor Año K-Nearest Neighbors (KNN) Troyanskaya O. 2001 Bayesian Principal Componen Analysis (BPCA) Oba S. 2003 Row Mean Bo T. H. 2004 EM_gene Bo T. H. 2004 EM_array Bo T. H. 2004 LSI_gene Bo T. H. 2004 LSI_array Bo T. H. 2004 LSI_combined Bo T. H. 2004 LSI_adaptative Bo T. H. 2004 Sequential KNN (SkNN) Kim K. 2004 Local Least Square Impute (LLSI) Kim H. 2005 Row Average Kim H. 2005 Cuadro 2.2: Métodos utilizados en el análisis comparativo de métodos de estimación y reemplazo de valores nulos. A continuación se presenta una breve descripción de los métodos revisados por Celton et al. (2010). El método kNN selecciona genes con perles de expresión similares a un gen de interés, para estimar y añadir los valores que reemplazarán los valores nulos. Si se considera un gen un valor nulo en el experimento uno, este método encuentra otros k Y que tiene genes, los cuales, tengan un valor presente en el experimento uno, con niveles de expresión similares al gen Y en los demás Troyanskaya et al., 2001). experimentos ( Bayesian Principal Component Analysis (BPCA), es un método de estimación de valores nulos que consiste de tres procesos elementales. Estos son la regresión del componente principal (PC 12 Regression), en la cual se considera una situación donde no existen valores nulos. PCA representa la variación de vectores de genes de expresión D-dimensionales y como una combinación lineal de vectores principales. El segundo proceso es una estimación bayesiana, consiste en un modelo probabilístico bajo la suposición de que el error residual ε y el factor de puntuación xi cual calcula el PCA, obedece distribuciones normales en la ecuación y= p (x) = Nk (x|0, Ik ), p (ε) = Pk l=1 xi wi + ε, la ND ε|0, τ1 ID . Y un tercer proceso, repetitivo, similar al algoritmo Expectation Maximization, en donde, si se conoce un parámetro θ, se obtienen estimaciones acerca de los valores nulos posteriores mediante la Oba et al., 2003). probabilidad marginal con respecto a las variables observadas ( Los métodos LSI_gene, LSI_array, LSI_combined, LSI_adaptative, son métodos de estimación y reemplazo de valores nulos basados en el principio de mínimos cuadrados. Este principio está basado en la minimización de la suma de los errores cuadrados de un modelo de regresión. LSI_gene se basa en la correlación entre los genes, mientras que LSI_array se basa en la correlación entre las submatrices de los microarrays, como base para la estimación de los valores nulos. LSI_combined y LSI_adaptative son una combinación y una variación, respectivamente, de estos dos algoritmos. EM_gene y EM_array, son métodos que se basan en la implementación del algoritmo ExpectationMaximization de Johnson y Winchern (2007). Este algoritmo, es similar a los LSI en cuanto al modelo de estimación, pero a diferencia de estos, utiliza una matriz de covarianza de los valores estimados más probables. EM itera actualizando las estimaciones de valores nulos hasta que los valores de dicha matriz se estabilicen. EM_gene y EM_array se comportan de la misma manera que LSI_gene y LSI_array, respectivamente, pero su diferencia es la actualización iterativa de los valores estimados Bo et al., 2004). ( SkNN es un método de estimación y reemplazo de valores nulos, que utiliza los valores promedio de los genes más similares para estimar sus valores nulos. SkNN puede ser considerado como un método basado en clustering, ya que los valores nulos son estimados mediante la selección de secuencias Kim et al., 2004). de genes similares ( LLSI es un método que selecciona genes similares, esto mediante el kNN, con la intención de obtener una secuencia de genes con coecientes absolutos de correlación de pearson. Utiliza un estimador k Kim et al., 2005). para generar estimaciones no paramétricas de valores nulos ( Para llevar a cabo las evaluaciones, Celton et al. (2010), mencionan que a partir de los conjuntos iniciales de datos de expresión genética, son eliminadas las series de apariciones de valores nulos, para crear una matriz de referencia. Después, se generan valores nulos simulados para un porcentaje establecido τ (donde τ es el porcentaje de genes con valores nulos en los datos), y son incluidos en la matriz de referencia. En un segundo paso, estos valores nulos simulados son estimados y reemplazados utilizando los diferentes métodos disponibles. La diferencia entre los valores reemplazados y los valores originales son nalmente evaluados utilizando la Raíz del Error Medio Cuadrático (REMC). Sea T T cualquier estimador de un parámetro desconocido θ. como el valor esperado del cuadrado de la diferencia entre 13 Se dene el error cuadrático medio de T y θ. Para cualquier estadística T, se denotará el error cuadrático medio por ECM (T ); de esta forma: ECM (T ) = E(T − θ)2 (Canavos , 1988). Se seleccionaron 12 métodos de reemplazamiento disponibles, los cuales fueron de alto rendimiento computacional. Las propuestas kNN y EM_gene exhiben una alta dispersión entre los valores esperados y verdaderos; las correlaciones se dene el coeciente de correlación variables aleatorias X y Y. ρ R Canavos , son respectivamente 0.23 y 0.32. En ( 1988), como una medida de la asociación lineal que existe entre las En el análisis de regresión, se asume la disponibilidad de una muestra aleatoria de la variable respuesta Y1 , Y2 , . . . , Yn , correspondientes a n valores jos x1 , x2 , . . . , xn de una variable de predicción. Para denir el coeciente de correlación de la muestra, se supondrá que tanto X como Y son variables aleatorias. El estimador de máxima verosimilitud de ρ (denominado coeciente de correlación de la muestra), está dado por: P P Xi Yi − ( Xin)( Yi ) r (X, Y ) = h P 2 (P Xi )2 i 12 hP 2 (P Y i)2 i 12 Xi − Yi − n n P (2.2) Para este análisis de métodos, se evalúa el desempeño de cada método por su valor de REMC, siendo entre más pequeño, mejor desempeño. La evolución de los valores de REMC para un rango τ entre 0.5 y 50 %, usando los conjuntos de datos, ilustran bien las diferencias de comportamiento observadas con los diferentes métodos de reemplazamiento. Algunos tienen valores iniciales altos de REMC y continúan siendo consistentes, mientras que otros tienen valores de REMC bajos inicialmente, pero son muy sensibles al incrementar la frecuencia de aparición de valores nulos. Además, el comportamiento de los diferentes métodos parece depender del conjunto de datos usados. En los Cuadros 2.4 y 2.6 se muestran los conjuntos de datos utilizados por Celton et al. (2010), para evaluar los métodos de sustitución de valores nulos.. Autor Ogawa et al., 2000 Gasch et al., 2000 Bohen S. P. et al., 2002 Lelandais et al., 2005 Organismo Saccharomyces Saccharomyces Humano Saccharomyces cerevisiae cerevisiae 6013 6153 Número inicial de condiciones 8 178 16 6 Valores Nulos ( %) 0.8 3 7.6 11.4 Genes con valores nulos ( %) 3,8 87,7 63,6 88.29 Genes borrados del estudio 230 NA NA 616 Condiciones borradas del estudio 0 136 0 0 Número inicial de genes cerevisiae 16523 5261 Cuadro 2.4: Conjuntos de datos originales, a partir de los cuales, se generaron los conjuntos de datos utilizados en el análisis comparativo de métodos de estimación y reemplazo de valores nulos. 14 Conjunto Ogawa_Complet Ogawa_subset Gasch Heat Gasch H2O2 Bohen Lelandais de datos (OC) (OS) (GHeat) (GH2 O2 ) (B) (L) Cinética N N Y N N Y Genes 5783 827 523 717 861 4645 Condiciones 8 8 8 10 16 6 Cuadro 2.6: Subconjuntos de datos creados, a partir de sus respectivas matrices originales, para el Celton et al., 2010). análisis comparativo de métodos de estimación y reemplazo de valores nulos en ( A continuación, se describen los resultados del análisis de los métodos previamente mencionados (Ver Cuadro 2.8). EM_gene: Este método siempre está asociado con valores muy altos de REMC, cuyo rango es un intervalo de 0.6 a 0.7 para una frecuencia valores y τ τ que va de 0.5 a 3.0 %, y decrementando para de 0.30 a 0.40. Un perl curveado tal es observado para los conjuntos de datos OS GH2 O2 . Para los otros conjuntos de datos, los valores de REMC se incrementan de manera esperada, pero el crecimiento siempre es asociado con valores muy altos. kNN: Sus valores de REMC para los seis conjuntos de datos oscila entre 0.3 y 0.4. El incremento de τ solo afecta ligeramente el resultado del kNN, en su mayoría 0.05 para los conjuntos de datos B y OS. Esta constancia de valores de REMC implica que para altas tazas de valores nulos (más de 20 % de valores nulos), los valores de REMC continúan aceptables. SkNN: A pesar del hecho de que el SkNN es una mejora del kNN, sus valores de REMC siempre son más altos que los del kNN. Solamente con el conjunto de datos B, SkNN trabaja ligeramente mejor que el kNN. LLSI: Los valores promedio de REMC oscilan principalmente entre 0.34 a 0.41 para la mayoría de los conjuntos de datos. Su comportamiento puede ser considerado promedio y su efectividad es cercana a la del método LSI_gene. Este es el método menos eciente sobre regresiones mínimas cuadradas. Sin embargo, para el conjunto de datos L, este método trabaja mejor después de los métodos LSIs. LSI_gene: La efectividad de este método es ligeramente afectada por el incremento de porcentaje de valores nulos. Para cada conjunto de datos, los valores de REMC oscilan entre 0.3 y 0.4. Estos resultados son cercanos a aquellos observados por los métodos LLSI y kNN, por ejemplo, métodos que han dado resultados que oscilan entre el mejor (LSI_array) y el método menos eciente (EM_gene). Row Mean y Row Average: Se observan valores bajos de REMC para los conjuntos de datos L (0.23) y B (0.28). Solamente para el conjunto de datos GHeat, el valor de REMC es alto (0.54). Este método muestra mejores y/o equivalentes resultados que las propuestas más elaboradas. 15 BPCA: Para los conjuntos de datos OC, OS y GH2 O2 , y para valores de τ que comprenden el rango de 0.5 a 10 ó 15 % de valores nulos, BPCA parece tener uno de los valores más bajos de REMC. Este método es robusto para tazas bajas de valores nulos. Sin embargo, la eciencia del BPCA es fuertemente reducida cuando la taza de valores nulos se incrementa. Esto es particularmente notable en el caso del conjunto de datos GHeat, donde los valores de REMC incrementan de 0.2 a 1.1. Para un valor τ mayor que 30 %, BPCA trabaja peor que la mayoría de los métodos de estimación y reemplazo. Para los conjuntos de datos B y OS, los valores de τ REMC tienen un incremento máximo de 0.1 para los valores de cuando incrementa de 0.5 a 50 %. LSI_array, LSI_combined, LSI_adaptative y EM_array: Sus valores de REMC son siempre menores que 0.1. Son dedignos incluso para tazas de valores nulos que llegan al 50 %. El promedio de valores REMC para EM_array son ligeramente menores que los de los otros tres métodos y es más efectivo cuando la taza de valores nulos excede el 20 %. Una comparación por pares muestra que EM_array es mejor que los otros tres métodos; su aproximación es mejor dos terceras partes de las veces. Si τ es más alto que el 33 %, este método, continua siendo el mejor el 80 % de las veces. Datos\Método EM_gene SkNN kNN LLSI LSi_gene RowMean BPCA LSI_array EM_array Promedio B 0.334 0.390 0.445 0.344 0.320 0.283 0.194 0.098 0.053 0.227 GH2 O2 0.586 0.445 0.431 0.452 0.358 0.319 0.334 0.068 0.028 0.336 OS 0.444 0.369 0.383 0.379 0.377 0.263 0.257 0.077 0.036 0.287 L 0.388 0.292 0.300 0.078 0.261 0.215 0.250 0.028 0.020 0.204 GHeat 0.703 0.426 0.350 0.412 0.403 0.541 0.690 0.091 0.054 0.408 Promedio 0.491 0.384 0.384 0.333 0.344 0.324 0.345 0.072 0.038 0.302 Cuadro 2.8: Valores de REMC promedio de algunos métodos aplicados sobre algunos de los conjuntos de datos. Los valores promedios de REMC calculados por Celton et al. (2010), son dados como el pro- medio de todas las simulaciones llevadas a cabo, oscilando de una τ igual a 0.5 a una t de 50 % (50000 simulaciones independientes por método de estimación y reemplazo). Esto permitió categorizar los métodos en tres grupos de acuerdo a su eciencia: el primer grupo incluye cuatro métodos (EM_array, LSI_array, LSI_combined y LSI_adaptative), para los cuales siempre se observaron valores bajos de REMC (EM_array siempre exhibió mejor rendimiento); el segundo grupo incluye cuatro métodos, BPCA, Row Mean, LSI_gene y LLSI; y nalmente, el tercer grupo, comprende tres métodos, kNN, SkNN y EM_gene. Este orden depende del conjunto de datos, pero aun así, los cambios en el orden son limitados. Por ejemplo, EM_gene se comporta mejor que kNN y SkNN para el conjunto de datos B, pero no para los demás. 16 Para el conjunto de datos L, LLSI se comporta bien y continua mejor que LSIs y EM_array. El conjunto de datos GHeat, el cual está asociado con los valores más altos de REMC, tiene fuertes particularidades como: (i) kNN se comporta mejor que BPCA, Row Mean, LSI_gene y LLSI, y (ii) BPCA y Row Mean tienen desempeño pobre comparado con los demás métodos, siendo ligeramente mejor que EM_gene. Por lo tanto, parece que GHeat es un conjunto de datos más complicado para estimar y reemplazar valores. La misma metodología fue seguida para analizar valores extremos, por ejemplo, el 1 % de las medidas de microarray con los valores absolutos más altos. Estos tienen un rol biológico mayor ya que representan variaciones más altas con respecto a la expresión de referencia. Por lo tanto, el porcentaje de valores nulos τ τ se puede percibir de forma diferente, por ejemplo, =10 % corresponde al 10 % de los valores nulos extremos, es decir, el 0.1 % de los valores del conjunto de datos. Como excepción, todos los métodos de reemplazamiento reducen su efectividad por la estimación de los valores extremos. El rendimiento de los métodos depende en gran parte del conjunto de datos utilizado y especialmente en el caso del GHeat. kNN es el método de menor desempeño en la mayoría de los casos. Su mayor promedio de REMC es a menudo más alto en 0.5 que el segundo método más pobre. Row Mean y Row Average tienen valores incrementados de REMC de 0.2 a 0.4 para los conjuntos de datos de levadura, los cuales son aceptables con respecto a los otros métodos. BPCA tiene un comportamiento aceptable. Pero contrario a los demás métodos es muy sensible al conjunto de datos utilizado. LSI_gene tiene los más bajos valores de REMC después de EM_array, LSI_array, LSI_combined y LSI_adaptative. Este resultado muestra que los LSIs, cualquiera que sea la especicación de su implementación, son efectivos para estimar y reemplazar valores nulos. El método EM_array es una vez más el de mayor rendimiento. LSI_array, LSI_combined y LSI_adaptative son ligeramente menos ecientes que el método EM_array. Algunos métodos resultaron ser mejores con respecto a la computación del REMC. En particular, EM_array es claramente el más eciente de los métodos probados. Para τ mejor método de estimación y reemplazo para el 60 % de los valores, y para menor que 35 %, es el τ mayor que 35 %, en el 80 %. LSI_array, LSI_combined y LSI_adaptative siguen cercanamente la eciencia del EM_array. Infructuosamente se ha tratado de combinar estos cuatro métodos diferentes para mejorar los valores de REMC. Ninguna combinación funciona mejor que el EM_array. 2.7.2. LSImpute: estimación exacta de valores nulos en microarrays, (Bo 2004) , et al. LSI_gene, es un algoritmo enfocado en la correlación entre genes, para la estimación y reemplazo de datos nulos, basado en el principio de mínimos cuadrados. Para el principio de mínimos cuadrados, es común utilizar un modelo de regresión lineal para y dada y = α + βx + e 17 x, como (2.3) dónde e es el término erróneo para el cual la varianza es minimizada cuando se estima el modelo (parámetros a y β) con mínimos cuadrados. En regresiones simples, el estimado de a y β es α̂ = y − β̂x y β̂ = dónde (2.4) sxy sxx (2.5) n sxy = 1 X (xj − x) (yj − y) n−1 (2.6) j=1 es la covarianza empírica entre x y y, n 1 X (xj − x)2 n−1 sxx = (2.7) j=1 es la varianza empírica de x, y sido observados juntos). Aquí x n, y es el número de observaciones (número de veces que y son los promedios sobre mínimo cuadrado estimado de una varianza y x1 , ..., xn dada una variable ŷ = y + x y y1 , ..., yn . x y y han Por lo tanto, el puede ser escrito como sxy (x − x) sxx (2.8) El modelo correspondiente para regresiones múltiples, (y1 , ..., yl dados yi = αi + βi1 x1 + βi2 x2 + ... + βik xk + e x1 , ..., xk ) es (2.9) Se puede mostrar que la estimación mínima cuadrada para este modelo, puede ser formulada como −1 ŷi = y i + Syi x Sxx (x − x) (2.10) x = [x1 , x2 , . . . , xk ]T , (2.11) x = [x1 , x2 , . . . , xk ]T , (2.12) Syi x = [syi x1 , syi x2 , . . . , syi xk ] , (2.13) dónde y sx1 x1 Sxx = sx1 x2 ··· sx1 xk . . . . . . . . . . . . sxk x1 sxk x2 · · · 18 sxk xk (2.14) El modelo singular de regresión tiene dos parámetros para ser estimados, mientras que el modelo múltiple de regresión tiene l (k + 1) parámetros. Es esencial para una buena estimación de paráme- tros, que muchas observaciones esten disponibles. El número de parámetros en un modelo debería de ser solamente una fracción del número de observaciones y, como regla general, debería haber al menos 5-10 veces tantas observaciones como parámetros. Cuando se trata de datos de microarrays, es común tener medidas de miles de genes y un limitado conjunto de condiciones, normalmente entre 20 y 100. Dado que queremos usar correlación entre genes como la base para la estimación de valores nulos, las observaciones serán las condiciones. Ya que la regresión múltiple para la correlación de los genes no es factible para más de unos cuantos genes, se propone usar una media ponderada de varias estimaciones singulares de regresión del mismo valor nulo. Dado un valor nulo en la matriz de datos para el gen genes x1 , . . . , x k ninguno de los más correlacionados con x1 , . . . , x k y, y, solamente los k son incluidos en el modelo de predicción. Además, tiene permitido contener un valor nulo en la misma condición que el valor a ser estimado. Cuando se determinan cuales son los genes mas correlacionados, se utilizan los valores absolutos de correlación, dado que ambas correlaciones, positivas y negativas, entre genes, es equitativamente bien adecuada para la regresión. La correlación entre los genes xi y y se determina solo al incluir arreglos donde ambos genes tengan ningún valor nulo en su computación. Dados los k genes correlacionados mas cercanos, son computadas por una sola regresión de cada los parámetros αi y βi k estimaciones x1 , . . . xk . ŷ1 , . . . , ŷk de los valores nulos, Para cada regresión sencilla se estima estan basados solamente en arreglos donde ni y ni xi ŷi , tienen valores nulos. Finalmente, una media ponderada de las estimaciones es computada. La ponderación esta diseñada para dar los genes más correlacionados con y y las más grandes ponderaciones, dado que se espera que den las mejores estimaciones para los valores nulos. Dada la correlacion estimada genes y y xi , la ponderación wi asignada a la estimación wi = dónde ε = 10−6 . ŷ 2 ryx i 2 +ε 1 − ryx i ryx entre los es !2 (2.15) En esta formula, el numerador se aproxima a 1 con una correlación incremental absoluta, mientras que el denominador tiende a ε. La constante ε (arbitrariamente establecida a 10−6 ), es sumada al denominador para evitar la división por cero. Las ponderaciones son escaladas de tal manera que todas sumen 1. Resultados Celton et al., 2010), se evaluó la efectividad de LSI_gene, mencionando que el método reduce desempeño entre más existan valores nulos en el conjunto de datos. Celton et al. (2010), ejecutó En ( su LSI_gene para los conjuntos de datos Ogawa_Complet (OC), Ogawa_subset (OS), Gasch Heat (GHeat), Gasch H2 O2 (GH2 O2 ), Bohen (B) y Lelandais (L), para los cuales, los valores de REMC oscilaron entre el 0.3 y 0.4. 19 2.7.3. KNNimpute, (Troyanskaya , 2001) et al. El método basado en KNN, selecciona genes con perles de expresión similares al gen cuyo valor se requiere estimar. Si consideramos un gen método encuentra otros k Y que tiene un valor nulo en la condición uno, este genes, los cuales tienen un valor presente en la condición uno, con nivel de expresión similar al gen Y en los experimentos del dos al Un promedio de valores en el experimento uno de los estimado para el valor nulo en el gen Y. En KNN, los k k n (siendo n el total de condiciones). genes más cercanos, es utilizado como un genes vecinos más cercanos son tomados de la matriz completa sin incluir los genes que tienen valores nulos en la misma posición que el gen cuyo valor nulo requiere ser estimado y reemplazado. Se utiliza la distancia euclidiana como métrica para estimar la similitud, considerando la misma dimensión y posición de los valores. A continuación, el valor es estimado y reemplazado con el promedio de los valores de los k genes vecinos más cercanos, dicho promedio se obtiene calculando el peso de la contribución de cada gen con la ecuación: Wi = 1 Di k P i=1 donde k es el número de genes seleccionados y Di (2.16) 1 Di es la distancia entre el i-esimo gen y el gen en cuestión. Resultados Troyanskaya et al., 2001), se evaluó el comportamiento del KNNimpute, el cual, fue juzgado En ( sobre conjuntos de datos con rangos de valores nulos del 1 al 20 %. El método resultó ser muy preciso, con una estimación que mostró solamente un promedio que va del 6 al 26 % de desviación con respecto a los verdaderos valores que fueron estimados, lo cual dependió del tipo de datos y porcentaje de valores nulos del conjunto utilizado. KNN estimó de manera más precisa cuando los valores nulos se encontraban en pequeños clusters. Bajo aparentes niveles bajos de ruido, aproximadamente el 94 % de los valores fueron estimados dentro del 0.25 del valor original. Sin embargo, un menor porcentaje de datos nulos, hace que la estimación y reemplazamiento de los valores nulos sea más precisa. KNN es robusto para porcentajes de valores nulos que incrementan un máximo de 10 %, y su precisión decrementa cuando existe un 20 % de valores nulos. Además, el método no toma en cuenta el valor exacto de k en el rango de 10-20 vecinos. El comportamiento del algoritmo, en nivel de precisión, declina cuando se utilizan pocos vecinos para la estimación. Los resultados de Troyanskaya et al. (2001), mostraron que en 60 ejecuciones del algoritmo con 5 % de valores nulos y k = 123 vecinos, el promedio de REMC fue de 0.203 con una varianza de 0.001. KNNimpute puede estimar y reemplazar valores nulos para matrices con al menos seis columnas y no se recomienda aplicar KNN cuando el número de columnas es inferior a este. 20 2.7.4. EM_array, (Johnson y Winchern , 2007) Un método de propósito general para calcular las estimaciones más aproximadas cuando se dan valores nulos en los datos, es llamado algoritmo EM, el cual, consiste de un cálculo iterativo abarcando dos pasos, llamados paso de predicción y de estimación. Paso de Predicción. Dada una estimada Θ̃ de parámetros desconocidos, predice la contribución de cualquier observación faltante al conjunto completo de datos. Paso de Estimación. Utilizando los valores calculados anteriormente, se realiza una estimación revisada de los parámetros. El método itera de un paso al otro, hasta que las estimaciones revisadas no dieran apreciablemente X1 , X2 , . . . , Xn de la estimación obtenida en las iteraciones anteriores. Cuando las observaciones son muestras aleatorias de una población normal, el algoritmo EM se basa en completar los datos. En este caso, el algoritmo procede de la siguiente manera: se asume que la media de la población y la varianza (µ y P , respectivamente) son desconocidas y deben de ser estimadas. Paso de Predicción. Para cada vector xj con valores nulos, se utiliza (1) xj para denotar los valores (2) nulos, y xj para denotar aquellos valores que si estan disponibles. Por lo tanto h i (1)0 (2)0 x0j = xj , xj Dados los estimados condicional de x(1) , µ̃ y dado x˜j (1) P ˜ del paso de estimación, se usa la media de la distribución normal x(2) , para estimar los valores nulos. Esto es, X X ˜ ˜ X ˜ −1 (2) (1) (2) = E Xj |xj ; µ̃, = µ̃(1) + xj − µ̃(2) 12 estima la contribución de (1) xj a =E 22 (2.18) T1 . A continuación, la contribución prevista de g(1)0 (1) xj xj (2.17) (1) (1)0 (2) xj xj |xj ; µ̃, (1) xj X ˜ = a T2 X ˜ 11 es − X ˜ X ˜ −1 X ˜ 12 22 21 (1) (1)0 + xj xj (2.19) y g(2)0 (1) xj xj X ˜ (1) (2)0 (1) (2)0 (2) = E xj xj |xj ; µ̃, = x̃j xj Las contribuciones anteriores son sumadas para todas las son combinados con la muesta de datos T̃1 y Ti = T̃2 xj (2.20) con valores nulos. Los resultados (Ver Ecuación 2.21 y Ecuación 2.22). m X Xj = mX j=1 21 (2.21) y T2 = m X 0 Xj Xj = (n − 1) S + mXX 0 (2.22) j=1 Por último, el paso de Estimación. Computa las estimaciones revisadas de máxima probabilidad (Ver Ecuación 2.23 y Ecuación 2.24). µ̃ = y X ˜ = T̃1 m 1 T̃2 − µ̃µ̃0 m 22 (2.23) (2.24) Bo et al., 2004). Algoritmo 2.1 EM_Array ( Entrada: Matriz de datos con valores nulos Salida: Matriz de datos estimados X [m, n]. X̃ [m, n]. Inicialización: 1. Establecer m igual al número de las y 2. Calcular las medias iniciales µ̃i n igual al número de columnas. para cada condición. 3. Calcular las desviaciones estándar iniciales P ˜ i para cada condición. 4. Calcular para cada condición de la matriz, las covarianzas iniciales con todas las demás condiciones, considerando que condición, y k xij es un elemento de la matriz X , µ̃j es la media inicial de cada un índice auxiliar entre condiciones, tenemos que cada covarianza inicial es calculada por medio de la fórmula: j=n P i=m P σ̃ = 5. Formar la matriz de covarianzas (xij − µ̃j )2 (xij+k − µ̃j )2 j=1 i=1 (2.25) m P ˜ de p por p, la cual contiene en cada posición P ˜ ij la cova- rianza de las columnas apuntadas por dichos índices. Iteración: 1. Mientras que a) Para µ̃ y P ˜ genY = 0 varien de una iteración a otra hasta que (1) genY = m. xgenY j (2) xgenY j los valores que si estan disponibles, P y dados los estimados µ̃ y ˜ , para cada vector xj con valores nulos se usa la media de 1) Estimar, siendo los valores nulos, y la distribución normal condicional de (1) Esto es, la contribución de xgenY j a 2) Calcular la contribución prevista de b) c) d) x(1) , dado x(2) , para estimar los valores nulos. T1 . (1) xgenY j a T2 . Fin Para. Formar el vector T˜1 y la matriz T˜2 Calcular las nuevas medias, y las nuevas covarianzas. 2. Fin Mientras. Resultados Celton et al., En ( 2010), se realizó una evaluación de métodos de estimación y reemplazo de valores nulos, en donde destacadamente, EM_array mostró el mejor comportamiento con respecto 23 a los otros 11 métodos evaluados. En dicho estudio, se evaluó cada método en base a la raíz del error cuadrático medio (REMC), cuyo valor, entre más cercano a cero, indica mayor delidad de estimación. EM_array mostró valores de REMC menores que 0.1 en la mayoría de los casos, incluso para tazas de valores nulos que llegan al 50 %. Dentro de los resultados expuestos por el autor, el promedio de valores REMC para EM_array son ligeramente menores que los de los otros tres mejores métodos, incluso cuando la taza de valores nulos excede el 20 %. Expone también, que una comparación por parejas reveló que EM_array es mejor el 80 % de las veces cuando el porcentaje de valores nulos excede del 33 % de los datos. 2.7.5. Implementación de EM_Array Con el objetivo de entender mejor el funcionamiento del método EM_Array, realizamos la implementación basados en ( Johnson y Winchern , 2007) y (Bo et al., 2004). La implementación utiliza una clase denominada Matriz. Dicha clase está compuesta por una matriz de datos y dos valores numéricos que indican las dimensiones de la matriz. Cada objeto de la clase Matriz, cuenta con métodos que se encargan de las operaciones de matrices utilizadas por el método, de tal manera que cada matriz es responsable de sus cálculos. Un objeto Matriz puede inicializarse recibiendo sus dimensiones y por medio de otra matriz, en dicho caso, se realiza una copia de la misma. La implementación del EM_Array comienza capturando los valores de la matriz en un objeto Matriz. Debido a que EM_Array es un método de regresión múltiple que reemplaza y actualiza sus valores estimados en cada iteración, es necesario saber en todo momento la coordenada, dentro de la matriz, de cada valor nulo. Esto fue resuelto utilizando un segundo objeto Matriz en el cual se almacenan ceros y unos; donde cero es un valor existente y uno es un valor nulo. Posteriormente, y como fue realizado en ( Bo et al., 2004), los valores nulos de cada gen son reemplazados inicialmente con la media del gen. Esto ayuda a que los valores estimados converjan más rápido con el valor estimado nal. A partir de este punto, se continúa con el proceso descrito en ( Johnson y Winchern , 2007) hasta que el vector de medias y la matriz de covarianzas se mantengan en esencia sin cambios de una iteración a otra. La tendencia que siguen los valores del vector de medias y de la matriz de covarianzas, reejan un renamiento en cada iteración. Una diferencia directa entre los valores de estas dos estructuras de datos, nos muestra que conforme van avanzando las iteraciones, se van haciendo más parecidas hasta el punto en que dejan de cambiar. Una vez terminado el proceso de estimación de los valores nulos, procedemos a almacenar la matriz estimada. El desempeño de la implementación de EM_Array se describe más a detalle en la sección 4.5. 24 Capítulo 3 Metodología Propuesta 3.1. Algoritmo genético Debido a que las matrices de datos reales contienen valores nulos, no es posible evaluar la efectividad de estimación de la implementación de los métodos, por esta razón, es necesario remover dichos valores nulos para conseguir una matriz de datos con solo valores conocidos, en la cual se insertan valores nulos de manera arbitraria, y en posiciones conocidas. Uno de los métodos utilizados para resolver este sub problema, fue implementar un método que toma la matriz de datos original (Ver Figura 3.1a), y elimina directamente todos los genes o condiciones con algún valor nulo (Ver Figura 3.1b y Figura 3.1c). Esta solución resuelve este subproblema, sin embargo, las matrices resultan muy pequeñas, y se desperdician muchos datos. (a) (b) (c) Figura 3.1: a) Matriz de datos de expresión con valores nulos. b) Matriz de datos de expresión después de remover todos los genes con valores nulos. c) Matriz de datos de expresión después de remover todas las condiciones con valores nulos. La hipótesis fue que un mejor seccionamiento lleva a un mayor número de datos en la matriz resultante, lo cual la hace más informativa para la estimación y, por lo tanto, el método de estimación arroja mejores valores de REMC. La propuesta para la solución de este sub problema fue implementar un algoritmo genético, en conjunto con un algoritmo tipo Monte Carlo, usando el concepto de bicluster para conseguir la submatriz más grande libre de valores nulos. El algoritmo genético consta de una población de biclusters. Cada bicluster es un individuo de 25 la población, y se representa mediante un arreglo de ceros y unos, donde para cada elemento el uno indica que dicho gen o condición está incluido en el bicluster (Ver Figura 3.2). El tamaño del arreglo es la suma del número de genes y el número de condiciones. Cada bicluster se inicializa asignando de manera aleatoria ceros y unos a sus elementos. Figura 3.2: Los biclusters son arreglos de ceros y unos. Estos indican cuáles genes y condiciones de la matriz de datos se encuentran incluidos en él. La función de aptitud del algoritmo genético, está dada por la cantidad de datos de expresión que contiene cada individuo. Entre más datos de expresión tenga un individuo, se considera más apto. El algoritmo genético se inicializa con la matriz de datos original, el número de individuos de la población, el número de generaciones, y las probabilidades de selección, cruza y mutación. Para preservar el mejor individuo de cada generación, se aplica elitismo, que permite que dicho individuo sea respetado, y no se reemplace por uno de menor tamaño (Ver Figura 3.3). Figura 3.3: Identicación del individuo con mayor aptitud, para aplicar elitismo en el algoritmo genético. La selección de los individuos se realiza por torneo. Inicialmente se barajea el total de individuos y se toman de dos en dos, y para cada par de individuos se compara el número total de datos de expresión que contiene cada uno, el individuo más apto es seleccionado. Este proceso se realiza dos veces para garantizar que se ha considerado el 100 % de los individuos a la hora de realizar la selección (Ver Figura 3.4). 26 Figura 3.4: Población de ocho individuos los cuales están compitiendo por parejas para ser seleccionados, de cada par de individuos se selecciona aquel cuya aptitud es mayor. La cruza toma los individuos de la población en parejas, recorre los elementos que representan a los genes y condiciones de ambos individuos, evaluando si alguno de los individuos incluye al gen o condición que representa dicho elemento, de ser así, el nuevo individuo lo incluirá también. Aquellos genes o condiciones que no se incluyen en ninguno de los individuos de la pareja, tampoco se incluyen en el nuevo individuo (Ver Figura 3.5). Figura 3.5: Cruza de dos individuos. Solo aquellos elementos incluidos en alguno de los padres son pasados al individuo hijo. La mutación consiste en tomar un individuo, y aleatoriamente eliminar o incluir un gen o condición (Ver Figura 3.6). Al nalizar estos procesos, se ejecuta el algoritmo tipo Monte Carlo para asegurar que los individuos resultantes no tengan ningún valor nulo. Figura 3.6: Proceso de mutación de un individuo. Se escoge un elemento de forma aleatoria, ya sea un gen o una condición, y se modica su valor. Si el elemento contenía un cero, su valor cambia a uno y viceversa. 27 El algoritmo tipo Monte Carlo analiza cada individuo de la población. Dicho análisis utiliza el concepto de costo, el cual se reere al número de valores de expresión no nulos que se pueden perder al eliminar un gen o una condición. El análisis consiste en tomar cada gen incluido en el individuo, y si dicho gen tiene valores nulos en alguna de las condiciones incluidas, calcula el costo de removerlo de la matriz y el costo de remover las condiciones para las cuales el gen tiene valores nulos. La intención del algoritmo es preservar la mayor cantidad de datos removiendo aquellos genes o condiciones menos costosos (Ver Figura 3.7). Figura 3.7: El concepto de costo para un gen con valores nulos considera que si es menos costoso remover un gen que una condición, o un conjunto de condiciones, se remueve el gen y se conservan las condiciones. Esto tiene la intensión de preservar la mayor cantidad de datos posibles. 28 Algoritmo 3.1 Algoritmo Genético. Entrada: Matriz de datos de expresión genética con valores nulos Salida: Matriz de datos sin valores nulos Y [i, j] ⊂ X [m, n], X [m, n]. donde i≤m y j ≤ n. Inicialización: 1. Inicializar el algoritmo genético con la matriz, el número de individuos, número de genera- ciones, probabilidad de selección, cruza y mutación. 2. Crear la población inicial. 3. Ejecutar el algoritmo tipo Monte Carlo. 4. Inicializar a cero el contador de generaciones sin cambios. Iteración: 1. Mientras el contador de generaciones sea menor al número de generaciones. 1.1 Marcar como bicluster élite al mejor bicluster de toda la población. 1.2 Ejecutar método de selección. 1.3 Ejecutar método de cruza. 1.4 Ejecuta método de mutación. 1.5 Ejecutar algoritmo tipo Monte Carlo. 2. Fin Mientras. 3. Devolver la matriz resultante en base al mejor bicluster de la población. 29 Algoritmo 3.2 Algoritmo Monte Carlo Entrada: Matriz de datos de expresión genética con valores nulos X [m, n], Bicluster B [m + n] que incluye genes y condiciones con valores nulos. Salida: Bicluster B [m + n] sin genes ni condiciones con valores nulos. Inicialización: Iteración: 1. Para genY = 1 1.1 Si el gen hasta m genY está incluido en el bicluster (B [genY ] = 1) genY (B [genY ] = 0) m+n 1.1.1 Calcular costo de quitar el gen 1.1.2 Para conY = m + 1 hasta [conY ] = 1) 1.1.2.1.1 Si el valor de expresión del gen genY bajo la condición conY es nulo (X [genY, ConY ] = vn) 1.1.2.1.1.1 Calcular costo de quitar todas las condiciones del gen genY 1.1.2.1 Si la condición conY está incluida en el bicluster (B donde el valor de expresión es nulo. 1.1.2.1.2 Fin Si 1.1.2.2 Fin Si 1.1.3 Fin Para 1.1.4 Si quitar el gen genY es más costoso 1.1.4.1 Quitar todas las condiciones nulas 1.1.5 En caso contrario 1.1.5.1 Quitar el gen genY 1.1.6 Fin Si 1.2 Fin Si 2. Fin Para 3.2. Método de estimación normalizada Una alternativa propuesta para el tratamiento de los valores nulos en las matrices de expresión genética, es el método que llamamos Estimación Normalizada, el cual, es un método basado en la obtención de submatrices y los conceptos de correlación, normalización y regresión. El método de estimación normalizada y los métodos KNN y SKNN comparten características similares, pero de igual manera, tienen diferencias signicativas. Para cada gen con valores nulos, los métodos KNN y SKNN utilizan a los k vecinos más cercanos (k genes más similares) para la estimación (Ver Subsección 2.7.1 y Subsección 2.7.3). Los k vecinos más cercanos para cada gen, se obtienen por medio del cálculo de la distancia Euclideana. Por otro lado, el método de estimación normalizada forma submatrices que contienen a los 30 k genes más correlacionados, y las l condiciones más correlacionadas. Esto se consigue mediante el cálculo del coeciente de correlación de Pearson. La forma en que el KNN y el SKNN obtienen el valor estimado de un valor nulo, se basa en calcular el promedio ponderado de los valores de expresión de los k genes bajo la condición en donde se encuentra el valor nulo. La ponderación aplicada a este cálculo se realiza mediante la Ecuación 2.16. El proceso de estimación empleado por el método de estimación normalizada, calcula el valor estimado de los valores nulos por medio de la normalización de los valores de expresión de los genes y l k condiciones. Posteriormente, se emplea un proceso de regresión. La idea central de este método es tomar cada gen que contenga al menos un valor nulo y encontrar, en la matriz completa, el conjunto de genes cuyo comportamiento es más similar al gen en cuestión. Dicho conjunto de genes, si bien se comportan de una manera parecida, sus valores pueden estar escalados y/o trasladados, es decir, que la proporción de cada gen, con respecto a su media, no sea la misma, e incluso la media de sus niveles de expresión ser diferentes (Ver Figura 3.8a). Por esta razón, para estimar cada valor nulo del gen, se normalizan todos los valores de cada gen del conjunto (Ver Figura 3.8b), de tal manera que un simple promedio de la condición en donde se encuentra el nulo, nos dé un valor estimado al valor real en la matriz de datos completa. Una vez realizado éste cálculo, se procede a realizar el proceso inverso a la normalización, con lo cual, los valores normalizados toman su valor original. (a) (b) Figura 3.8: a) Conjunto de genes con comportamiento es similar. b) Valores de expresión normalizados. Se puede apreciar con mayor claridad que los cinco genes se comportan de manera similar. Antes de iniciar el proceso de estimación, se obtiene una submatriz por cada gen a estimar, a partir de la matriz de datos completa. Este seccionamiento se hace creando matrices cuyas dimensiones son de k genes por el número total de condiciones en la matriz de datos. Cada submatriz de k genes se llena tomando para cada gen a estimar, los k−1 genes más correlacionados con este (Ver Figura 3.9). El cálculo de la correlación entre dos genes se basa en la fórmula del cálculo del coeciente de correlación de Pearson (Ver Ecuación 3.1). 31 N P (xi − x) ∗ (yi − y) s C=s N N P P 2 (xi − x) ∗ (yi − y)2 i=1 i=1 (3.1) i=1 dónde: xi es el valor de expresión del gen x bajo la condición i. yi es el valor de expresión del gen y bajo la condición i. x̄ es la media de los valores de expresión del gen x. ȳ es la media de los valores de expresión del gen y. n es el total de condiciones consideradas para la correlación. Figura 3.9: Submatriz de k genes, obtenida a partir de la matriz completa de datos de expresión. El método de Estimación Normalizada recorre todos los genes. Para un gen k−1 y se seleccionan los genes más correlacionados con dicho gen. Para esta selección, el método considera todos los genes restantes de la matriz. Los valores de correlación que se calculan son absolutos y se encuentran entre cero y uno. Una vez terminado el proceso de selección de los seleccionan las l−1 k − 1 genes más correlacionados con el gen y , se condiciones más correlacionadas con la condición a la que corresponde el valor nulo por estimar. De esta manera obtenemos para un gen las l−1 y, condiciones más correlacionadas (Ver Figura 3.10). 32 los k−1 genes más correlacionados, y Figura 3.10: Apartir de una matriz de k genes, se obtiene una matriz de k genes con las l condiciones más correlacionadas con la condición que contiene el valor nulo por estimar. k El proceso de normalización consiste en recorrer los recorrer las genes, calcular el valor de su media, y l condiciones para obtener la proporción de cada nivel de expresión en relación a la suma de niveles de expresión de todo el gen (Ver Ecuación 3.2 y Ecuación 3.3). El cálculo de la media y de la proporción solo considera a aquellos valores de expresión del gen que no son nulos o en su defecto, que ya han sido estimados. Pl i=1 xi media = (3.2) l normalizado = Pl x − media (3.3) i=1 |xi − media| dónde: xi x l es el valor de expresión del gen bajo la condición i. es el valor de expresión por normalizar. es el total de condiciones no nulas. Para obtener el valor estimado normalizado de un valor nulo del gen y, se obtiene el promedio ponderado de los valores normalizados del nivel de expresión bajo la misma condición que el valor nulo por estimar, de los k−1 genes más relacionados con el gen y (Ver Ecuación 3.4 y Ecuación 3.5). sumaCorrelaciones = k−1 X correlacioni (3.4) i=1 estimacionN ormalizada = k−1 X normalizadoi ∗ i=1 correlacioni sumaCorrealciones (3.5) donde: k−1 es el número de genes más correlacionados con el gen y que intervienen en la estimación de un valor nulo. 33 correlacioni es el valor de correlación del gen normalizadoi i es el valor normalizado del gen con el gen i y. en la condición donde se encuentra el valor nulo por estimar. Posteriormente, al valor estimado normalizado se le aplica la normalización inversa, para llevar el valor a su proporción original. Este cálculo se muestra en la Ecuación 3.6. estimado = estimacionN ormalizada ∗ l X ! |xi − media| + media (3.6) i=1 Finalmente, se realiza un proceso de regresión, donde se considera el valor recién estimado para calcular una nueva media del gen, y nuevos valores normalizados. Con estos nuevos valores, se actualiza el valor estimado según la Ecuación 3.6. Este proceso se repite hasta que la diferencia del valor estimado de una iteración a otra sea menor a una constante ε. Algoritmo 3.3 Estimación Normalizada. Entrada: Matriz de datos de expresión genética con valores nulos Salida: Matriz de datos estimados X [m, n]. X̃ [m, n]. Inicialización: Iteración: 1. Para genY = 1 hasta 1.1 Seleccionar los 1.2 Para conY = 1 m. k−1 hasta genes más correlacionados con el gen genY . n. 1.2.1 Si el valor de expresión del gen 1.2.1.1 Seleccionar las l−1 genY en la condición conY es nulo. condiciones más correlacionadas con la condición conY . 1.2.1.2 Normalizar según los 1.2.1.3 Estimar según los k k genes y genes y l l condiciones seleccionados. condiciones seleccionados. 1.2.2 Fin Si. 1.3 Fin Para. 2. Fin Para. 3. Devolver la matriz estimada. 3.3. Estimación de máxima similitud El método de estimación de máxima similitud, es una variante del método de estimación normalizada. Este método, al igual que el de estimación normalizada, es una propuesta para el tratamiento 34 de los valores nulos en las matrices de datos de expresión, y se basa en la obtención de submatrices y los conceptos de regresión y normalización. En esencia, realiza los mismos pasos que el método de estimación normalizada. Primero, se normalizan todos los valores de expresión de la matriz, y para cada gen, se obtienen los k−1 genes más similares por medio de un cálculo de similitud (Ver Figura 3.11). Para este cálculo, dado un gen y , se toma cada uno de los genes restantes en la matriz, y para cada par de genes formado con el gen y, se realiza una sumatoria de las diferencias de los vaores de expresión normalizados de todas las condiciones de ambos genes, dividida entre el total de condiciones, y ponderada dependiendo de la cantidad de diferencias que no pudieron ser calculadas a causa de los valores nulos en los genes. Este cálculo, a diferencia del cálculo de correlación, tiende a obtener valores más pequeños, que intentan también ser una medida del grado de similitud en el comportamiento de estos genes. Entre más pequeño sea el valor obtenido por este cálculo, existe mayor similitud entre el comportamiento de los genes tomados. 35 (a) (b) Figura 3.11: a) Matriz de k genes cuyo comportamiento es similar. b) Valores de expresión norma- lizados. Se observa más claramente la similitud en el comportamiento de los Posteriormente, utilizando la submatriz de una submatriz de k genes por l k k genes. genes, para cada condición nula del gen y, se crea condiciones (Ver Figura 3.12), aplicando el cálculo de similitud para seleccionar solo aquellas condiciones que sean más parecidas a la condición nula que se desea estimar. 36 (a) (b) Figura 3.12: a) Matriz de k genes por l condiciones antes de estimar los valores nulos. Dichos valores nulos están representados por ceros. b) Valores de expresión y comportamiento normalizado de los k genes y l condiciones antes de la estimación. Una vez creada la matriz de k genes por l condiciones, se procede al paso de estimación, en el cuál, se realiza una sumatoria del valor normalizado de todas las condiciones del gen y , y se cuentan todas las condiciones no nulas que contribuyeron a esta. Posteriormente se pondera el resultado de la sumatoria con respecto a la cantidad de condiciones no nulas. De igual manera, se realiza una sumatoria del valor normalizado de todos los valores de expresión de la condición donde se encuentra el valor nulo, y se cuentan todos los genes cuyos valores de expresión fueron sumados. Este resultado se pondera respecto a la cantidad de valores de expresión no nulos utilizados. Si alguno de estos dos cálculos no pudo llevarse a cabo debido a los valores nulos presentes, se asigna el otro cálculo al valor normalizado del valor nulo que se desea estimar. En caso contrario, si ambos cálculos pudieron 37 realizarse, el valor nulo normalizado será el promedio de ambos. Finalmente, se realiza un proceso de regresión, en el cual, se actualiza el valor normalizado del valor nulo en cuestión, recalculando los valores normalizados tomando en cuenta el valor estimado, hasta que la diferencia de una iteración a otra sea cercano a constante ε. Algoritmo 3.4 Estimación de Máxima Similitud Entrada: Matriz de datos de expresión genética con valores nulos Salida: Matriz de datos estimados X [m, n]. X̃ [m, n]. Inicialización: 1. Normalizar los datos de la matriz completa. Iteración: 1. Para genY = 0 hasta 1.1 Seleccionar los 1.2 Para conY = 0 m. k−1 hasta genes más similares con genY . n. 1.2.1 Si el valor de expresión de 1.2.1.1 Seleccionar las 1.2.1.2 Estimar según genY en la conY es nulo. l − 1 condiciones más similares a conY . k genes y l condiciones seleccionados. 1.2.2 Fin Si. 1.3 Fin Para. 2. Fin Para. 3. Devolver la matriz estimada. 3.4. EM_Array modicado Ésta propuesta está basada en el método EM_Array. Inicialmente, toma la matriz de datos y, de igual manera que el método de estimación normalizada, va tomando cada gen y creando la primera submatriz con solo los genes más correlacionados a él (Ver Figura 3.13a y Figura 3.13b). 38 (a) (b) Figura 3.13: a) Matriz de datos de expresión cuyos genes presentan un comportamiento similar. b) Comportamiento de los genes seleccionados. Posteriormente, recorre todas las condiciones del gen actual hasta encontrar la primera condición con valor nulo, cuenta el total de condiciones no nulas restantes y crea la segunda submatriz (Ver Figura 3.14a), la cual, en el primer gen y primera condición, contiene el valor nulo a estimar (Ver Figura 3.14b). 39 (a) (b) Figura 3.14: a) Submatriz formada a partir de la primera submatriz. Para el primer gen, toma primero la condición en donde se presenta el valor nulo, y despues las condiciones no nulas restantes. b) El comportamiento de los genes seguirá siendo similar sin importar el reacomodo una o más condiciones. Una vez creada la segunda submatriz, se procede a crear una tercera submatriz que contiene a las condiciones más correlacionadas a la primera condición (Ver Figura 3.15a). Al concluir este proceso, la tercera submatriz contendrá los genes más correlacionados con el gen que contiene al valor nulo, y además, las condiciones de dichos genes, más correlacionadas con la condición del gen en donde se encuentra el valor nulo (Ver Figura 3.15b). 40 (a) (b) Figura 3.15: a) La tercera submatriz se compone solo de los genes y las condiciones más correlacionadas. A partir de la segunda submatriz se seleccionan las condiciones que conforman a la matriz denitiva para realizar la estimación. b) Comportamiento de los genes de la tercera submatriz de datos antes de la estimación. Finalmente, se alimenta al EM_Array con la tercera submatriz como si se tratara de la matriz completa, y este se encarga de estimar el valor nulo. El proceso de seccionamiento de la matriz original se realiza una vez para cada valor nulo dentro de la matriz. El EM_Array original toma la matriz de datos completa y comienza un recorrido de todos los genes de la matriz, y para cada gen con valor nulo, realiza una estimación completa. En cambio, el EM_Array modicado, inicia un recorrido de la matriz, gen por gen, toma en orden las condiciones nulas de cada gen, y para cada una de ellas crea una submatriz de resulta más rápida de estimar. 41 k genes por l condiciones, la cual, Algoritmo 3.5 EM_Array Modicado Entrada: Matriz de datos de expresión genética con valores nulos Salida: Matriz de datos estimados X [m, n]. X̃ [m, n]. Inicialización: Iteración: 1. Para genY = 0 hasta 1.1 Seleccionar los 1.2 Para conY = 0 m. k−1 hasta genes más correlacionados con el gen genY . n. 1.2.1 Si el valor de expresión del gen genY bajo la condición conY es nulo. 1.2.1.1 Contar las condiciones no nulas. l−1 condiciones más correlacionadas a la condición conY . EM_Array según los k genes y l condiciones seleccionados. 1.2.1.2 Seleccionar las 1.2.1.3 Estimar con 1.2.1 Fin Si. 1.3 Fin Para. 2. Fin Para. 3. Devolver la matriz estimada. 42 Capítulo 4 Experimentos y Resultados 4.1. Conjuntos de datos de expresión genética utilizados Para la fase de experimentación y prueba de los métodos, se utilizaron tres conjuntos de datos reportados en ( Bo et al. Bo et al., 2004). Estos conjuntos de datos fueron seleccionados en el trabajo de (2004) con la intención de evaluar los métodos con una muestra de los experimentos comúnmente realizados con microarrays. Debido a que estos conjuntos de datos contienen valores nulos, aplicaron dos métodos diferentes para removerlos. El primer conjunto de datos reportado es nombrado Lymphoma , el cual es un estudio de cáncer. El conjunto de datos Lymphoma consta de 4,026 genes por 96 condiciones, al cual, se le removieron, en primera instancia, todas aquellas condiciones que tuvieran al menos 5 % de valores nulos, y posteriormente, se removieron todos los genes con valores nulos, resultando una matriz de 2,317 genes por 65 condiciones. El segundo conjunto de datos reportado corresponde al estudio de distintos tipos de cáncer, llamado NCI60 , y consta de 6,830 genes por 64 condiciones, al cual, se le removieron todos aquellos genes con valores nulos resultando en 2,069 genes por 64 condiciones. Por último, el tercer conjunto de datos corresponde a un estudio de series de tiempo de una infección, llamado TimeSeries , el cual cuenta con 16,838 genes y 39 condiciones. De igual manera que con el estudio de NCI60, a esta matriz también se le dejaron solo los genes que no tuvieran valores nulos, resultando de 6,850 genes por 39 condiciones (Ver Cuadro 4.2). Original Resultante Genes Condiciones Genes Condiciones Lymphoma 4,026 96 2,317 65 NCI60 6,830 64 2,026 64 TimeSeries 16,838 39 6,850 39 Cuadro 4.2: Matrices de datos utilizadas en los experimentos. Para ejecutar experimentos de cada una de las implementaciones propuestas, se crearon 10 ver- 43 siones con 10 % de valores nulos de cada una de las tres matrices. Con la intención de tener variedad en los experimentos y poder comparar resultados. 4.2. Normalización del REMC Cuando se trata de comparar la estimación en matrices de datos diferentes, debido a que dichas matrices tienen distinto número de datos, y por lo tanto, una cantidad diferente de valores nulos, rango de valores, etc., es necesario normalizar el valor de REMC obtenido en cada estimación para poder ser comparado con el resultado de las demás matrices. El criterio de normalización utilizado en esta investigación, es dividir el REMC entre la desviación estándar de los valores estimados (Ver Bo et al., Ecuación 4.1). El criterio de normalización del REMC utilizado en ( Celton 2004) y en ( et al., 2010) no es mencionado en los artículos correspondientes. q Pn 2 1 (|x̃ij −xij |) REM Cnormalizado = n σ (4.1) De los criterios de normalización encontrados en otras fuentes para el REMC, se utiliza la división entre la media de valores, como primer caso, y la división entre la diferencia del valor máximo menos el mínimo en otro. Dichos criterios parecieron inapropiados, ya que en el primer caso, una matriz de datos de expresión puede contener genes que se expresen de manera positiva y genes que se expresen de manera negativa, que al calcular su media, nos aproxime a un valor cercano a cero (Ver Figura 4.1). Dicho valor ocasionaría que el REMC resultara por encima de 1, y muy por encima de los valores reportados en el trabajo de Bo et al. (2004). En el peor de los casos, la media puede tomar el valor de cero, llevándonos a un cálculo imposible de realizar. Figura 4.1: La media como criterio de normalización del REMC. El segundo criterio de normalización encontrado, fue dividir el REMC entre la diferencia del valor máximo y mínimo encontrado en la matriz. Este criterio también resultó inadecuado, debido a que puede ocurrir para una matriz, que todos los genes se encuentren siguiendo una distribución denida, pero que un valor o un pequeño conjunto de valores, se expresen desmesuradamente, haciendo que el 44 resultado de la diferencia del máximo menos el mínimo sea un valor irreal a la verdadera distribución de los datos (Ver Figura 4.2). Figura 4.2: Diferencia entre el valor máximo y mínimo como criterio de normalización del REMC. Debido a este análisis, decidimos normalizar utilizando la desviación estándar de los valores, la cual, nos da un valor más cercano a la verdadera distribución de los datos (Ver Figura 4.3). Figura 4.3: La desviación estándar como criterio de normalización del REMC. 4.3. Experimentos realizados con algoritmo genético Para realizar las pruebas del algoritmo genético, el cual tiene como objetivo encontrar la subma- Bo et al., triz más grande sin valores nulos, se utilizaron las tres matrices originales reportadas en ( 2004). Para cada versión con valores nulos de estas matrices, realizamos 10 ejecuciones del algoritmo genético, dando como resultado un conjunto de 100 pruebas por matriz. Esto con la intención de apreciar la generalidad del método propuesto. Mediante experimentación, se establecieron los valores del número de individuos a 400, número de generaciones a 200, la probabilidad de selección, cruza y mutación a 90, 30 y 10 % respectivamente. El número de generaciones indica cuantas generaciones seguidas se permiten realizar sin obtener un mejor bicluster. 45 Figura 4.4: Resultados del algoritmo genético en las 100 pruebas realizadas para los tres conjuntos de datos. Como se puede apreciar en la Figura 4.4, los biclusters tienden a variar notablemente en su tamaño. Esta variación se debe, en primera instancia, a la generación de la población inicial, ya que esta se genera a partir de valores aleatorios. A continuación se muestran los resultados de las pruebas del algoritmo genético (Ver Cuadro 4.4) Peor Bicluster Mejor Bicluster Promedio 2,448 3,510 2,808 Lymphoma NCI60 2,304 3,094 2,605 TimeSeries 10,507 14,547 12,141 Cuadro 4.4: Resultados del algoritmo genético mostrando el número de elementos de los biclusters obtenidos sin valores nulos. Otros métodos pueden dar un mayor número de datos de expresión después de remover los valores nulos, pero en base a la experimentación, el algoritmo genético que proponemos busca el bicluster más grande con el mayor número de condiciones incluidas, no obstante, se han encontrado submatrices más grandes que las obtenidas mediante la eliminación de solo los genes o las condiciones con valores nulos. Aun así, no se garantiza que el algoritmo genético siempre obtenga el mejor resultado. 4.4. Sustitución de valores nulos por valores aleatorios En el trabajo de Cheng y Church (2000), proponen que los valores nulos sean reemplazados por valores aleatorios. Este reemplazo se realiza con la nalidad de obtener matrices de datos completas que son utilizadas para evaluar los métodos de clustering. Si tomamos las tres matrices de datos de prueba, y reemplazamos sus valores nulos por valores aleatorios, dentro del rango de valores propio 46 de cada matriz, podemos calcular y utilizar su REMC como punto de referencia para apreciar las bondades de los métodos de estimación revisados y propuestos en este trabajo. En el Cuadro 4.6, se muestra el promedio del REMC calculado para las tres matrices con sustitución aleatoria. La Figura 4.5 presenta la gráca del REMC para las 10 corridas . Figura 4.5: Valores de REMC para el reemplazo de valores nulos con valores aleatorios. REMC Lymphoma 4.7984 NCI60 4.5304 TimeSeries 5.4658 Cuadro 4.6: Resultado del cálculo de REMC utilizando valores aleatorios como reemplazo de valores nulos. Estos resultados indican que un reemplazo de valores nulos con números aleatorios dentro del rango de valores de la matriz, generan valores alejados de los valores reales. En la siguiente sección, se presentan los resultados de las pruebas obtenidas con la implementación de EM_Array y los métodos propuestos. Estos resultados muestran siempre un REMC menor a 1, por lo tanto, se asume que son estimaciones cercanas a los valores reales, cuyo alejamiento siempre es menor al rango de valores de la matriz. Esto es importante debido a que una buena estimación de valores nulos incrementa el desempeño de los algoritmos de agrupamiento ( Bo et al., 2004). 47 (a) (b) (c) Figura 4.6: a) Conjunto de genes cuyo comportamiento es similar, considerarémos la primer condición del Gen 1 como valor nulo. b) Reemplazo del valor nulo del Gen 1 por un valor aleatorio, dentro del rango de valores de la matriz. Este reemplazo puede llevar la expresión de dicha condición al valor máximo del rango de valores de la matriz. c) La estimación del valor nulo puede llegar a un resultado aproximado al valor real de dicha condición. En un escenario extremo, un valor nulo reemplazado por un valor aleatorio, puede tomar tanto el valor máximo de la matriz, como el mínimo. Como se muestra en la Figura 4.6, si tenemos tres genes cuyo comportamiento es similar, pero uno de ellos presenta un valor nulo, una estimación de dicho valor puede encontrar un acercamiento al valor real del gen, mientras que un reemplazo por un valor aleatorio puede ocasionar que los métodos de agrupamiento aplicados lo remuevan o lo ignoren de ese conjunto. 4.5. Experimentos realizados con EM_Array Las pruebas realizadas con el EM_Array consistieron en tomar cada una de las versiones con valores nulos de las tres matrices de datos, y estimar sus valores, dando 20 iteraciones por matriz. Este número de iteraciones se estableció para que todas las pruebas realizadas pudieran compararse con mayor precisión y, por otro lado, por medio de experimentación notamos que nuestra implementación, a partir de la iteración número 20, comenzaba a variar insignicativamente. Para cada matriz, el REMC obtenido en cada estimación, se mantuvo en esencia sin cambios para cada versión con valores nulos (Ver Figura 4.7). 48 Figura 4.7: Valores de REMC obtenidos en las pruebas con EM_Array. REMC Bo et al., 2004) EM_Array ( EM_Array Lymphoma 0.46 0.6108 NCI60 0.49 0.6814 TimeSeries 0.259 0.2602 Cuadro 4.8: Resultados de EM_Array. Como se puede observar en el Cuadro 4.8, los valores de REMC del EM_Array de Bo et al. (2004) son mejores que los obtenidos por la implementación del EM_Array. Esto puede ser ocasionado debido al criterio de normalización del REMC utilizado en su trabajo. 4.6. Experimentos realizados con estimación normalizada De igual manera que con el EM_Array, se realizaron las pruebas con las matrices correspondientes utilizando el método de estimación normalizada. Aunque los valores de REMC arrojados por este método (Ver Cuadro 4.10), no superaron al REMC del EM_Array, el método de estimación normalizada consigue valores estimados cercanos al EM_Array, y en menor tiempo de ejecución (Ver Cuadro 4.12), mostrando un comportamiento constante para cada versión con valores nulos de las matrices utilizadas (Ver Figura 4.8). 49 REMC EM_Array Estimación Normalizada Lymphoma 0.6108 0.7706 NCI60 0.6814 0.9287 TimeSeries 0.2602 0.3124 Cuadro 4.10: Comparativa del REMC obtenido por el método de estimación normalizada y el EM_Array. Estos resultados, al igual que los del EM_Array, son mayores que los reportados en el trabajo de Bo et al. (2004), pero para la matriz Lymphoma y TimeSeries, los valores estimados del EM_Array y de éste método, dieren mínimamente entre sí. Por otro lado, hemos comprobado, por medio de la sustitución de valores aleatorios, que incluso el 0.9287 conseguido para la matriz NCI60 es un resultado aceptable. Este valor de REMC indica que todos los valores estimados se encuentran dentro del rango de valores propio de la matriz, y mejor aún, sus valores están acercados a los originales, ya que una sustitución por aleatorios en esta matriz dio un REMC de 4.5304. Tiempo de Ejecución (Minutos) EM_Array Estimación Normalizada Lymphoma 59 3 NCI60 49 3 TimeSeries 39 15 Cuadro 4.12: Comparación de tiempo de ejecución de EM_Array y el método de estimación normalizada. Éste método tiene la naturaleza que sus operaciones no requieren mucho esfuerzo computacional. Por esta razón, el tiempo de ejecución es mínimo con respecto a la implementación de EM_Array. Figura 4.8: Valores de REMC obtenidos por el método de estimación normalizada. 50 4.7. Experimentos realizados con estimación de máxima similitud Se realizó un conjunto de experimentos con el método de estimación de máxima similitud, para comparar los valores de REMC con los demás métodos. Los resultados de las pruebas mostraron que éste método encuentra genes más parecidos entre sí, que los obtenidos al aplicar el coeciente de correlación de Pearson. Esto se ve reejado en la estimación, ya que para las mismas matrices, éste método arrojó valores de REMC más pequeños (Ver Cuadro 4.14), y debido a la naturaleza del método, esto solo puede ser logrado mediante genes más similares entre sí a la hora de estimar. REMC EM_Array Estimación de Máxima Similitud Lymphoma 0.6108 0.6181 NCI60 0.6814 0.7966 TimeSeries 0.2602 0.3065 Cuadro 4.14: Comparativa del REMC obtenido por el método de estimación de máxima similitud y EM_Array. Otra característica mostrada por éste método, es el tiempo de ejecución utilizado para la estimación (Ver Cuadro 4.16). En esencia, éste método y el de estimación normalizada, realizan operaciones similares, pero el método de estimación normalizada, para cada valor nulo, crea 3 submatrices para conseguir la matriz denitiva para la estimación, en cambio, éste método solo utiliza dos submatrices para cada valor nulo, lo cual reduce el tiempo computacional. Por otro lado, el coeciente de correlación de Pearson es una fórmula más compleja de calcular que la de similitud. Tiempo de Ejecución (Minutos) EM_Array Estimación de Máxima Similitud Lymphoma 59 2 NCI60 49 1 TimeSeries 39 10 Cuadro 4.16: Comparación de tiempo de ejecución de estimación normalizada y la implementación de EM_Array. 51 Figura 4.9: Valores de REMC obtenidos por el método de máxima similitud. Éste método es consistente ya que su comportamiento ha sido el mismo que el mostrado por los otros dos métodos (Ver Figura 4.9). La diferencia es que ha conseguido valores muy similares y en menor tiempo. 4.8. Experimentos realizados con EM_Array modicado Con el n de conocer el comportamiento del EM_Array basado en los genes más correlacionados, se realizó esta implementación y se compararon los resultados. Éste método en esencia es el EM_Array, ya que la parte de estimación no fue modicada. Lo interesante del método es ver cómo cambia su desempeño al trabajar con matrices de menor tamaño, y mejor correlación entre sus genes. Los experimentos realizados mostraron resultados muy similares a los del EM_Array original (Ver Cuadro 4.18). Estos resultados dieren de manera mínima y la ventaja con respecto al EM_Array, es la reducción del tiempo de ejecución . REMC EM_Array EM_Array Modicado Lymphoma 0.6108 0.6500 NCI60 0.6814 0.7923 TimeSeries 0.2602 0.2821 Cuadro 4.18: Comparativa del REMC obtenido con EM_Array Modicado y EM_Array original. Por las caracteristicas del método EM_Array, se pronosticaba que el tiempo de ejecución sería menor con el EM_Array modicado (Ver Cuadro 4.20). Esto se debe a que el EM_Array utiliza múltiples cálculos de matrices para cada estimación de valores nulos. Las dimensiones de las matrices involucradas en los cálculos, corresponden al número de condiciones que tenga la matriz, y en cada iteración, los valores de todas estas matrices se actualizan para seguir el proceso de regresión. De 52 tal manera que el tiempo de ejecución total del EM_Array crece por cada condición contenida en la matriz original. Por medio de experimentación, se denieron las dimensiones de la tercer submatriz a 70 genes y 10 condiciones. Esto se debe a que en 70 genes encontramos la información suciente para estimar el valor nulo y obtener resultados cercanos a los que arroja nuestra implementación del EM_Array. La ventaja del EM_Array modicado con respecto al EM_Array, es el tiempo de ejecución del algoritmo. Esto es posible debido a la naturaleza de los cálculos que realiza el método, entre más condiciones tenga la matriz, el tiempo de ejecución incrementa. Para el EM_Array modicado, se aligera el esfuerzo computacional y aunado a esto, en promedio, en la segunda iteración de estimación se obtienen los mejores resultados, ya que el REMC empieza a incrementarse de manera insignicativa para cada iteración posterior. Tiempo de Ejecución (Minutos) EM_Array EM_Array Modicado Lymphoma 59 11 NCI60 49 9 TimeSeries 39 28 Cuadro 4.20: Comparación de tiempo de ejecución de EM_Array y EM_Array Modicado. Por los resultados de los experimentos podemos concluir que el seccionamiento de las matrices de datos no afecta el comportamiento del EM_Array (Ver Figura 4.10), mientras este seccionamiento involucre solamente a los genes y condiciones más correlacionados con el gen y condición de cada valor nulo a estimar. Figura 4.10: Valores de REMC obtenidos por el método EM_Array Modicado. 4.9. Discusión sobre resultados obtenidos Todos los métodos revisados y propuestos en éste trabajo ofrecen una alternativa al tratamiento de los valores nulos en las matrices de expresión genética, y algunos de ellos, en principio, pueden 53 ser aplicados en distintas áreas que requieran estimación de valores. Estos métodos han arrojado resultados similares en general, y garantizan que los valores estimados son, en efecto, un acercamiento al valor original. La referencia original, para los valores de REMC, fueron los resultados del trabajo de Bo et al. (2004), ya que utilizamos y reproducimos las matrices de datos utilizadas en sus experimentos e implementamos nuestra propia versión del EM_Array siguiendo todas las indicaciones y referencias expuestas en dicho trabajo. Debido a que se desconoce el criterio de normalización del REMC utilizado en ( Bo et al., 2004), propusimos una normalización basada en la desviación estándar de los valores de cada matriz. Bo et al., Esta normalización nos arroja valores parecidos a los de ( 2004), pero aun así, estos resultados no fueron obtenidos con exactitud (Ver Cuadro 4.22). Por esta razón, nuestra referencia para evaluar el comportamiento de los métodos propuestos, fueron los resultados obtenidos por nuestra implementación del EM_Array tanto para los valores de REMC como para el tiempo de ejecución (Ver Cuadro 4.24) . REMC EM_Array (Bo Lymphoma EM_Array , 2004) et al. Estimación Estimación de Normalizada Máxima Similitud EM_Array Modicado 0.46 0.6108 0.7706 0.6181 0.6500 NCI60 0.49 0.6814 0.9287 0.7966 0.7923 TimeSeries 0.259 0.2602 0.3124 0.3065 0.2821 Cuadro 4.22: Resultados generales de los métodos de estimación y reemplazo de valores nulos. Como se puede observar en los resultados, para el conjunto de datos Lymphoma (Ver Figura 4.11), el método de estimación normalizada fue el que tuvo un desempeño menos exitoso, pero en cuestión de tiempo, fue el segundo método más rápido en concluir la estimación. Figura 4.11: Resultados generales del REMC obtenido para cada método con la matriz de datos Lymphoma. 54 Para la matriz de NCI60, podemos notar que todos los métodos propuestos tuvieron un resultado notablemente mayor al del EM_Array (Ver Figura 4.12). Incluso en el trabajo de Bo et al. (2004) (Ver Cuadro 4.22), los resultados registrados indican que esta matriz tuvo un REMC mayor al de la matriz Lymphoma, y la diferencia en proporción entre el REMC de Lymphoma y NCI60, son similares para el EM_Array de Bo et al. (2004) y nuestra implementación de EM_Array. Figura 4.12: Resultados generales del REMC obtenido para cada método con la matriz de datos NCI60. Para la matriz TimeSeries, los resultados estuvieron cercanos entre ellos, y los valores de REMC no varían más de 0.2 entre sí (Ver Figura 4.12). Figura 4.13: Resultados generales del REMC obtenido para cada método con la matriz de datos TimeSeries. En esta matriz, para cada gen, cada valor de expresión es una muestra del mismo gen bajo la misma condición después de un intervalo de tiempo diferente. Esto ayuda a que los métodos estimen valores más cercanos a la realidad. Los tiempos de ejecución de todos los métodos propuestos, superan signicativamente a la imple- 55 mentación del EM_Array (Ver Cuadro 4.24). Como ha sido mencionado anteriormente, el EM_Array es sensible a la cantidad de condiciones que tenga la matriz, ya que cada condición aumenta el tiempo de ejecución. Esta característica no la comparten el método de estimación normalizada y el método de estimación de máxima similitud, ya que sus operaciones no se basan en cálculos de matrices (Ver Ecuación 2.18, Ecuación 2.19, Ecuación 2.20), y en caso del EM_Array modicado, las matrices de datos con las que trabaja son signicativamente más pequeñas. El mejor tiempo de estimación fue obtenido con el método de estimación de máxima similitud, que para el conjunto de datos Lymphoma, realizó la estimación en 2 minutos, NCI60 en 1 minuto y TimeSeries 10 minutos. Tiempo de Ejecución (Minutos) EM_Array Estimación Estimación de Normalizada Máxima Similitud EM_Array Modicado Lymphoma 59 3 2 11 NCI60 49 3 1 9 TimeSeries 39 15 10 28 Cuadro 4.24: Comparación general del tiempo de ejecución de los métodos de estimación y reemplazo de valores nulos. En general, estos resultados nos muestran que los métodos propuestos en este trabajo realizan estimaciones conables, cercanas a la realidad y con poco esfuerzo computacional. Estos métodos Bo et al., si bien no superan los resultados de implementaciones publicadas en ( 2004), ofrecen un camino diferente para atacar el problema del tratamiento de valores nulos en las matrices de datos de expresión genética. 56 Capítulo 5 Conclusiones y Trabajo Futuro 5.1. Sumario Este trabajo de investigación trata acerca del problema del preprocesado de datos de matrices de expresión genética, y se centra en el tratamiento de valores nulos. El objetivo es reemplazar los valores nulos contenidos en una matriz de datos de expresión, por valores estimados lo más aproximado a los valores reales. Actualmente existen diversos métodos de estimación y reemplazo de valores nulos, que han aportado una buena aproximación a la solución del problema. Celton et al. (2010), el mejor método de estimación y reemplazo de valores nulos es el EM_Array (Bo et al., 2004). Este método se basa en un modelo de regresión múltiple que maneja Según matrices de covarianzas y actualiza los valores estimados en cada iteración. En nuestro trabajo de investigación se implementó este método, se evaluó con diferentes conjuntos de datos, y se utilizó como referencia para evaluar nuestros métodos propuestos. En esta tesis se presentan también dos nuevos métodos de estimación y reemplazo de valores nulos, basados en la obtención de submatrices de genes mejor correlacionados, y la normalización de los valores de expresión de los genes. Además, se presenta un método basado en el EM_Array que estima los valores nulos basado también en submatrices. Los experimentos realizados con los métodos propuestos, arrojan resultados con estimaciones competentes con respecto a la implementación del EM_Array, en tiempos signicativamente menores. Si bien estos nuevos métodos no superaron las estimaciones del EM_Array, si representan una nueva estrategia para el tratamiento de valores nulos, lo cual abre un nuevo camino en la búsqueda de la solución de este problema. Por último, se exponen algunas ideas de mejora de los métodos propuestos, que pueden contribuir a obtener mejores estimaciones, manteniendo buenos tiempos de ejecución. 57 5.2. Conclusiones En base a los resultados de los experimentos, se concluye que los métodos propuestos ofrecen una alternativa diferente para el tratamiento de los valores nulos en las matrices de expresión genética. Todos los métodos propuestos, para las matrices de datos utilizadas en este trabajo, obtienen un valor de REMC menor a 1, por lo cual concluimos que las estimaciones son aceptables y cercanas a los valores reales de las matrices. Los tiempos de ejecución de los métodos propuestos son signicativamente menores a los tiempos de ejecución de la implementación de EM_Array. Además, las estimaciones de los métodos propuestos no dieren de manera excesiva con respecto a las estimaciones del EM_Array. Consideramos que los métodos propuestos en esta investigación arrojan resultados competentes. Como parte de los objetivos del proyecto, se logró implementar dos métodos que se encargan del tratamiento de valores nulos en las matrices de expresión genética. Estos métodos son propuestas nuevas para contribuir a la solución del problema del preprocesado de datos de dichas matrices. Por otro lado, se realizó la implementación del EM_Array, y de una versión modicada del mismo, con el objetivo de obtener un conocimiento más amplio del método, de tener un punto de referencia de las evaluaciones de los nuevos métodos, y de ser posible, obtener mejores resultados, tanto en la estimación como en la reducción del tiempo de ejecución. 5.3. Trabajo futuro Es necesario realizar más pruebas con distintas matrices de datos, para ir anando los métodos propuestos, y puedan competir estos de manera más clara, con los mejores trabajos encontrados en la literatura. Diseñar un método que sea capaz de descubrir genes y condiciones con comportamiento más similar que los encontrados mediante el coeciente de correlación de Pearson y el método de similitud propuesto. Encontrar el criterio de normalización del REMC utilizado por Bo et al. (2004), para comparar de manera directa nuestros resultados con los resultados publicados en su trabajo, incluyendo el algoritmo de EM_Array implementado por ellos. 58 Bibliografía Baena, D. S. R. (2006), Análisis de datos de expresión genética mediante técnicas de biclustering, Master's thesis, Departamento de Lenguajes y Sistemas Informáticos Universidad de Sevilla. Baena, D. S. R., J. S. A. Ruiz, y J. G. Gutiérrez (2007), Análisis de datos de expresión genética para BIGS Bioinformatics Group Seville Universidad Pablo de Olavide Escuela Politécnica Superior 41013 Sevilla, 265272 p. p. la obtención de patrones alfa, Bhattacharya, S., y T. J. Mariani (2009), Array of hope: Expression proling identies disease biomarkers and mechanism, Division of Neonatology and Center for Pediatric Biomedical Research, University of Rochester, 855862 p. p. Bo, T. H., B. Dysvik, y I. Jonassen (2004), Lsimpute: accurate estimation of missing values in microarray data with least squares methods, Nucleic Acids Res, 3441 p. p. Bolstad, B. M., R. A. Irizarry, y et al. (2003), A comparison of normalization methods for high density oligonucleotide array data based on variance and bias, Bioinformatics, 185193 p. p. Califano, A., G. Stolovitzky, y Y. Tu (2000), Analysis of gene expression microarrays for phenotyoe classication, Canavos, G. IBM Computional Biology Center., 7585 p. p. C. (1988), Probabilidad y Estadistica. Aplicaciones y Metodos, McGraw- Hill/Interamericana de México. Celton, M., A. Malpertuy, y et. al. (2010), Comparative analysis of missing value imputation methods to improve clustering and interpretation of microarray experiments, Cheng, Y., y G. M. Church (2000), Biclustering of expression data, BMC Genomics, 116 p. p. AAAI, 93103 p. p. Cobb, K. (2006), Microarrays: The search for meaning in a vast sea of data, Biomedical Computation Review, 1623 p. p. de Paz Santana, J. F. (2010), Modelo de planicación dinámica para la extracción de conocimiento en expresiones genéticas, Ph.D. thesis, Universidad de Salamanca. 59 Ester, M., H.-P. Kriegel, y et. al. (1996), A density-based algorithm for discovering clusters in large spatial databases with noise, 2nd International Conference on Knowledge Discovery and Data Mining (KDD-96), 226231 p. p. Gutierrez, C. C. (2010), Extraccion de conocimiento de microarrays y literatura biomedica para el estudio de la regulacion genetica, Ph.D. thesis, Universidad de Granada. Harteminka, A. J., D. K. Giord, y et al. (2001), Maximum likelihood estimation of optimal scaling factors for expression array normalization, Johnson, R. A., y D. W. Winchern (2007), SPIE BiOS, 19 p. p. Applied Multivariate Statistical Analysis, 252257 p., Pearson Prentice Hall. Kim, H., G. H. Golub, y H. Park (2005), Missing value estimation for dna microarray gene expression data: local least squares imputation, Bioinformatics. Oxford University Press, 262265 p. p. Kim, K.-Y., B.-J. Kim, y G.-S. Yi (2004), Reuse of imputed data in microarray analysis increases imputation eciency, BMC Bioinformatics, 160169 p. p. Korol, A. B. (2003), Microarray cluster analysis and applications, Institute of Evolution, University of Haifa, 144 p. p. Kreuzer, H., y A. Massey (2001), Lewin, B. (1996), ADN Recombinante y Biotecnología, Editorial Acribia. Genes, Editorial Reverté. Lopez, M., P. Mallorquin, y M. Vega (2002), Microarrays y biochips de adn. informe de vigilancia Fundacion Española para el Desarrollo de la Investigacion en Genomica y Proteomica/Fundacion General de la Universidad Autonoma de Madrid, 158 p. p. tecnologica, Madeira, S. C., y A. L. Oliveira (2004), Biclustering algorithms for biological data analysis: A survey, IEEE/ACM Transactions on Computational Biology and Bioinformatics, vol. 1, no. 1,, 2445 p. p. Oba, S., M. aki Sato, y et al. (2003), A bayesian missing value estimation method for gene expression prole data, Bioinformatics. Oxford University Press, 20882096 p. p. Pascual, D., F. Pla, y S. Sánchez (2007), Algoritmos de agrupamiento, Departamento de Compu- tación, Universidad de Oriente., 163175 p. p. Schuchhardt, J., D. Beule, y et. al. (2000), Normalization strategies for cdna microarrays, Oxford University Press, 4751 p. p. Song, C. H., y M. Wyse (2004), Painless gene expression proling: Sage (serial analysis of gene expression), 816823 p. p. 60 Sorlie, T., C. M. Perou, y et. al. (2001), Gene expression patterns of breast carcinomas distinguish Proceedings of the National Academy of Sciences of the United States of America. National Academy of Sciences., 1086910874 p. p. tumor subclasses with clinical implications, Tamarin, R. H. (1996), Principios de Genética, Editorial Reverté. Troyanskaya, O., M. Cantor, y et. al. (2001), Missing value estimation methods for dna microarrays, Bioinformatics, 520525 p. p. Yang, J., H. Wang, y et. al. (2010), Enhanced biclustering on expression data, Society, 321327 p. p. 61 IEEE Computer