X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 ESTIMACIÓN DE TRANSFORMACIONES ESTABILIZADORAS DE VARIANZAS, CON APLICACIONES A DATOS DE MICROARREGLOS SUSANA RUIZ1 y DIANA KELMANSKY2 1 Facultad de CEFyN de la UNSJ [email protected] 2 Instituto de Cálculo de la UBA [email protected] RESUMEN En el presente trabajo se describen y comparan alternativas de estimación de transformaciones para estabilizar varianzas con aplicación a datos de microarreglos, basadas en relaciones media varianza. Se parte de propuestas de estimación de Simon Lin et al. (2008). Todas las propuestas se implementan en R y se comparan mediante un estudio intensivo de Monte Carlo. Se generan datos con una distribución de medias similar a la de datos reales de microarreglos que satisfacen un modelo con parámetros conocidos con una relación media varianza cuadrática, y también en varios escenarios de alejamiento de dicha estructura media varianza inicial. Mediante modificaciones propuestas se logra mejorar las estimaciones de transformaciones estabilizadoras de varianzas de Simon Lin et al. (2008) en casos donde la presencia de datos contaminados rompen con la estructura de la relación media varianza considerada, como también en casos donde dicha estructura es mucho más general que la planteada inicialmente. PALABRAS CLAVE: microarreglos - estabilización de varianzas - relación media varianza. 1. INTRODUCCIÓN En muchos tipos de experimentos los datos muestran una relación entre media y varianza. Tal es el caso para datos de experimentos de microarreglos, donde para mayores intensidades se observan mayores variaciones cuando se mide repetidamente. La estabilización de varianza para datos de experimentos de microarreglos es un paso correspondiente al pre-procesamiento de datos, de mucha importancia cuando se quiere aplicar métodos clásicos para hacer X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 comparaciones como por ejemplo un ANAVA. En este contexto también es de interés tener presente la posible presencia de datos contaminados que pueden afectar enormemente las estimaciones. Una salida al problema mencionado, de heteroscedasticidad, es transformar los datos de manera tal que los datos transformados muestren varianza constante o al menos en forma aproximada. Varias transformaciones se han propuesto para estabilizar varianzas para datos de experimentos de microarreglos. La preferida por los Biólogos es la transformación logaritmo en base 2, debido a que es muy simple interpretar los valores transformados (Smyth et al. (2003)). Pero esta transformación ha sido duramente criticada por su comportamiento en los valores bajos ya que estabiliza varianza en valores altos pero infla varianzas en valores bajos y no están definidas para valores negativos (Durbin et al.(2002)). Otras transformaciones aplicadas son las correspondientes a la familia Box y Cox, que resultan muy inestables para valores cercanos al cero, y no están definidas para valores negativos (Huang,S. et al, (2004)). Como solución al problema anterior varios autores (Rocke y Durbin (2003)-Durbin et al.(2002)- Huber et al.(2002) han propuesto trabajar con la familia de transformaciones Logaritmo Generalizado [1], definidas para valores negativos, y que surge de considerar un modelo de error aditivo-multiplicativo. Esta familia de transformaciones también ha sido utilizada en el estudio de datos de concentraciones de análisis químicos. h(y,a,b,c) = c .asinh(a.y +b) [1] Varios métodos han sido propuestos para seleccionar un miembro de la familia de transformaciones Logaritmo Generalizado con el objetivo de estabilizar varianzas para datos de experimentos de microarreglos. Unos de éstos es el método VSN propuesto por Huber et al. (2003), para estabilizar varianzas sobre microarreglos con pocos replicados técnicos de sondas con afinidad a un mismo tipo de gen y con distribución, en cada microarreglo, en lugares fijos. Otro método es el método VST, propuesto por Simón Lin et al.(2008), para estabilizar varianzas sobre microarreglos con mayor número de replicados técnicos que los diseños convencionales. Este grupo de científicos, destacado por sus aportes en esta área, comparan el método VST bajo la implementación propuesta por Pan Du y Simón Lin (2008), en R, con los métodos VSN y la transformación log2, y concluyen en su trabajo que el método VST resulta ser más apropiado para estabilizar varianzas para datos de experimentos de X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 microarreglos con las características de tener 30 o más réplicas técnicas de sondas con afinidad a un mismo tipo de gen y con distribución aleatoria sobre el soporte (Lin et al.(2008)). Por otro lado la transformación Logaritmo Generalizado ha sido criticada por Speed (2003), debido a su comportamiento en los valores altos. Speed comenta que esta transformación es muy severa en estos valores y cuando uno transforma los datos lo que hace es invertir la heteroscedasticidad. Como solución a este problema, más recientemente las Dras. Diana Kelmansky y Elena Martínez han propuesto que se trabaje con la familia de transformaciones de Potencia Generalizada [2], que contiene al Logaritmo Generalizado entre uno de sus miembros así como la familia Box y Cox contiene al logaritmo natural entre sus miembros (Kelmansky D.M. y Martinez E.J. (2010)) . . [2] Teniendo en cuenta los antecedentes mencionados y las problemáticas planteadas, el objetivo general de este trabajo es la de proponer y estudiar alternativas metodológicas que puedan mejorar el método y la implementación propuestos por Simón Lin y colegas, en el año 2008, para estabilizar varianzas para datos de experimentos de microarreglos. 2. METODOLOGÍAS Los métodos que se emplean en este trabajo son: 2.1. Método VST: Simón Lin et al. (2008) proponen el método VST para estimar transformaciones que estabilicen varianzas en forma asintótica, dentro de la familia de transformaciones logaritmo generalizado. Los autores a partir de considerar un modelo de error aditivo multiplicativo para intensidades sobre microarreglos (Rocke y Durbin (2001), Huber et al. (2003)), y = a + b . m. eη + ε, [3] donde: η y ε son variables aleatorias independientes, con distribución unimodal, simétrica, con media cero y varianza finita; muestran que la relación media-varianza responde a una relación cuadrática , X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 vu=(c1 .u +c2)2+c3 , [4] tal que a medida que la media de intensidades, u, aumenta la varianza vu también; y proponen estimar la transformación estabilizadora de varianzas asintótica, que responde a la forma de una transformación Logaritmo Generalizado cuando el parámetro c3 es positivo, cuya expresión general es dada en [5], modelando la relación media varianza (Lin S. et al. (2008)). . [5] Para la estimación de la transformación los autores sugieren además seguir con los siguientes pasos: 1) estimar c3, teniendo en cuenta que representa la varianza de intensidades de sondas de fondo (es decir: sondas asociadas a genes que no se expresan). 2) Estimar los parámetros c1 y c2 por ajuste lineal teniendo en cuenta que la relación media varianza [4] puede ser reescrita de la siguiente manera: para =c1 u + c2, c3. 3) Por último, estimar la transformación estabilizadora de varianzas asintótica, dada en [5], reemplazando los parámetros c1, c2 y c3 por los valores obtenidos en los pasos anteriores. Respecto a la implementación de este método en R, según la propuesta dada por Pan Du y Simon Lin (2008), se observa que dada una muestra aleatoria de intensidades sobre un mismo microarreglo, para k =1, ...,K genes, donde yki representa la intensidad asociada al gen k en la réplica i, el procedimiento considera como datos de entrada a un conjunto de pares de valores media-varianza estimadas de intensidades para cada tipo de gen k, con k=1,2,..,K, , cuyos cálculos se obtienen según [6] y [7], luego de eliminar datos extremos según el criterio 3-MAD . = = = = [6] . [7] X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 En la implementación del método VST, el procedimiento por defecto, que denominamos en este trabajo “VST-2 iter”, parte considerando c3=0 como estimación inicial. Luego a) estima c1 y c2 por ajuste lineal, utilizando mínimos cuadrados. Posteriormente b) estima c3, a través de una media aritmética truncada al 5% en ambos extremos, de la diferencias para cada gen k. Si la estimación de c3 resulta un valor positivo, los pasos a) y b) los aplica dos veces más en forma iterativa; mientras que si resulta un valor negativo, este lo cambia, lo iguala a 0 (cero) y da por concluido el proceso de estimación. Respecto al procedimiento alternativo en la implementación propuesta, la denominamos en este trabajo VST p-valor , ya que a diferencia del procedimiento anterior, este además considera como valores de entrada un conjunto de p-valores de detección asociados a cada tipo de gen, { , con 0 ≤ pk ≤ 1, que resultan de realizar pruebas de comparación de medias de intensidades, donde para cada gen k se compara el valor medio de intensidades respecto a la media de intensidades de sondas de control negativo (sondas termodinámicamente preparadas y distribuidas sobre el soporte de tal forma que no haya hibridación específica, sus señales son muy similares a las señales de sondas de fondo). En las pruebas de comparación de medias se asume que la variable intensidad asociada a sondas de control negativo se distribuye normalmente con media y varianza conocidas. A partir del conjunto de valores de entrada, se estima c3 a través de una media aritmética de los valores de varianza estimada asociada a sondas cuyos p-valores son mayores que un cierto umbral, 0.01 es el valor que se toma por defecto, ; mientras que c1 y c2 se estiman, de la misma forma que el proceso anterior, por ajuste lineal utilizando mínimos cuadrados. Teniendo en cuenta esta implementación definidas en R, uno puede observar que ante la presencia de datos contaminados, que pueden afectar a los valores de entrada: estimar c3 a través de una media aritmética o estimar c1 y c2 por ajuste lineal por mínimos cuadrados pueden resultar valores muy alejados de los valores verdaderos, ya que tanto la media aritmética como los estimadores por mínimos cuadrados son muy sensibles a la presencia de datos contaminados. Por otro lado, en el proceso iterativo se estima c3 a través de una media aritmética truncada utilizando las diferencias , para k=1,2,..,K, tanto positivas como negativas. Consideramos, en este trabajo, la posibilidad de que no tengan sentido tener en cuenta las diferencias negativas desde el sólo hecho que se quiere estimar el parámetro c3 que representa un valor de varianza y por lo tanto nunca puede tomar valores X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 negativos. A partir de estas observaciones se generan nuevas propuestas de implementación del método VST, que tienen como base las implementaciones originadas dadas en R, y lo que se realiza son pequeñas modificaciones en cuanto a cómo se estiman los parámetros. Así resultan: i) Teniendo en cuenta el proceso “VST-p valor”: Propuesta 1: “VST p-valor-mediana” propone estimar c3, en lugar de aplicar una media aritmética, utilizando la mediana de los valores de varianza estimada. Propuesta 2: “VST p-valor-LTS” estima c1 y c2 por ajuste lineal, en lugar de aplicar mínimos cuadrados, utiliza mínimos cuadrados truncados, es decir un ajuste lineal LTS cuyas estimaciones son más resistentes a la presencia de datos contaminados. ii) Teniendo en cuenta el proceso iterativo “VST-2 iter”: Propuesta 3: “VST 2iter-MEDIA TRIM(dk > 0)” estima el parámetro c3 sólo considerando las diferencias positivas. Propuesta 4: “VST 2-iter -MEDIANA(dk > 0)” estima el parámetro c3 a través de la mediana de las diferencias positivas. Propuesta 5: “ VST 2-iter - LTS” estima c1 y c2 por ajuste lineal LTS. Propuesta 6: “VST 2iter-MEDIA TRIM(dk > 0)-LTS” que surge de combinar la Propuestas 3 y 5. Propuesta 7: “VST 2-iter -MEDIANA(dk > 0)-LTS” que surge de combinar las Propuestas 4 y 5. 2.2. Método Resistente: El Método Resistente se basa en la aplicación del método de Máxima Verosimilitud, y postula como modelo adecuado a: , donde G es la transformación verdadera, que se asume dentro de la familia de Potencia Generalizada con parámetro P próximo a 0 [2], especifico k en la réplica i, gen k, y es la intensidad asociada a sondas con afinidad al gen es el nivel de expresión media en escala transformada para el es el término de error, componente aleatoria que se sume con distribución normal, media 0 y varianza constante. Los parámetros a estimar son transformación que se asume verdadera, de error. correspondientes a la para cada tipo de gen, y la varianza del término X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 Como los estimadores por máxima verosimilitud son sensibles a desviaciones de normalidad y a la presencia de datos contaminados, este método propone como estimadores de los niveles de expresión media para cada tipo de gen para k=1,..,K, y la varianza del término de error , a los que se obtienen de maximizar la función log-verosimilitud, dada en [8], considerando valores fijos, previa eliminación de datos extremos, y cuyas expresiones respectivas se muestran en [9] y [10]. [8] [9] . [10] Posteriormente se obtienen los estimadores de los parámetros de la transformación ( maximizando una expresión modificada de la log-verosimilitud, dada en [11], que resulta de reemplazar las expresiones de los estimadores de [9], para cada gen k, y la varianza del término de error [10], y luego considerar sólo aquellos datos correspondientes a los genes cuya suma de residuos al cuadrado resulten ser más bajos. Este criterio está relacionado con el criterio utilizado en ajustes lineales LTS (ajustes lineales por mínimos cuadrados truncados) para obtener estimaciones más resistentes ante la presencia de datos contaminados. [11] Respecto al proceso que se define para implementar este método, en términos generales, se puede detallar los siguientes pasos: 1. Hacer CK0={1,2,…,K} conjunto inicial de genes. 2. Para cada kϵ CK0 considerar el conjunto de intensidades yki, con i=1,2,…,n(k), y definir un nuevo conjunto eliminando datos extremos. 3. Seleccionar valores iniciales de 4. Calcular y P. , para k=1,2,…,K. X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 5. Para cada k, con k=1,2,…,K, calcular la suma de cuadrados de residuos . 6. Ordenar los valores , para k=1,2,…,K: 7. Determinar el conjunto CKqlts={t(j)ϵ CK0: . <=Q*qlts}, donde qlts es un valor tal que 0.5<qlts<1, y Q qlts es aquel cuantil que deja el (qlts.100)% de los valores sr2(sumas de residuos al cuadrado) más pequeños a la izquierda. 8. Hallar que maximiza . 9. Mientras no se cumpla algún criterio de convergencia o no se alcance una cantidad máxima de iteraciones preestablecida, volver a 4. Considerando P)= . * 3. RESULTADOS Y DISCUSIÓN Para comparar las distintas propuestas metodológicas de estimación de transformaciones estabilizadoras de varianzas ya presentadas en la sección anterior, tanto para datos reales como simulados, con errores normales y normales contaminados, se dispone inicialmente de datos reales correspondientes a cuatro muestras bilógicas que contienen información sobre diluciones de sangre y placenta humana. Los datos son de Barnes y se pueden acceder a ellos desde internet o desde R bajando la librería “lumi”. Para las simulaciones, en términos generales, se generan datos de tal forma que posean una distribución de frecuencias y un rango de valores similares a los extraídos experimentalmente, la transformación adecuada sea conocida, perteneciente a la familia de Potencia Generalizada con parámetro P próximo a cero, y permitan evaluar las distintas propuestas metodológicas que se desean comparar. Respecto a los datos contaminados, estos se generan de tal forma que rompan con la estructura de relación media varianza, tanto para intensidades bajas como también para intensidades medias altas, en niveles de contaminación del 0, 5 y hasta un 10%. Específicamente los escenarios de simulación para las comparaciones corresponden a datos de microarreglos con la característica de tener 30 o más réplicas técnicas de sondas con afinidad a un mismo tipo de gen, con distribución aleatoria sobre el soporte; la cantidad de genes que se consideran en un solo microarreglo es de 1000 ó 8000 ( bajo selección aleatoria); la cantidad de microarreglos por simulación es uno; y el software sobre la cual se trabaja es R, ya que es libre, gratuito y la mayoría de los científicos la utilizan para realizar sus aportes en esta área. Para las comparaciones este trabajo se organiza en dos etapas. En la primera etapa donde se comparan las distintas implementaciones del método VST, trabajando con datos reales y X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 simulados con errores normales y normales contaminados, asumiendo como transformación adecuada a miembros de la familia de Potencia Generalizada con parámetro P=0. Mientras que en la segunda, se comparan implementaciones del método VST con la respectiva al método Resistente, trabajando con datos simulados, con errores normales y normales contaminados y asumiendo como transformación adecuada a miembros de la familia de Potencia Generalizada con parámetro P próximo a 0. Respecto a las simulaciones, en la primer etapa del trabajo, se generan datos de tal forma que respondan al modelo planteado en la siguiente igualdad: , [12] donde para transformación estabilizadora a estimar perteneciente a la familia de Potencia Generalizada con parámetro P=0, es el nivel de expresión media en escala transformada para el gen k y es el término de error, componente aleatoria que se asume con distribución normal, media cero y varianza constante. En la segunda etapa se asume como modelo adecuado a similar al dado en [12] salvo que la transformación estabilizadora de varianzas a estimar es un miembro de la familia de Potencia Generalizada dada en [2] con parámetro P próximo a 0, . Respecto a los datos contaminados, estos se generan de tal forma que rompan con la estructura de relación media-varianza, tanto para intensidades bajas (ver Figura 1), como también, para intensidades medias-altas (ver Figura 2), en niveles de contaminación del 0, 5 y hasta un 10%. X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 Figura 1 Figura 2 Para ello en la primer etapa del trabajo, se reemplazan un cierto porcentaje de pares de valores media varianza-estimada y para k=1…K, por nuevos pares de valores tal que positivo. Se consideran alternativas de definición de la discrepancia, , entre la varianza estimada y la “inflada” , de tal forma que el rango de valores esté dentro del rango de valores que se puede observar. Las expresiones alternativas que se consideran son: i) , ii) Mientras que en }. la segunda etapa, se generan pseudo-datos aleatorios , en escala transformada, bajo una distribución normal con media ϵ y varianza X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 constante. Los valores un rango de valores , para cada gen k, se generan con una distribución de frecuencia y similar a los obtenidos experimentalmente. A estos datos pseudo aleatorios, además, se le suma un término adicional, donde pk es un indicador que puede tomar valores 0 ó 1, si toma el valor 1 quiere decir que el dato está contaminado, mientras que si toma el valor 0 el dato esta sin contaminar. El factor representa la amplitud diferencial entre el dato contaminado y el sin contaminar, y estos se obtienen generando pseudo-datos donde aleatorios bajo una distribución uniforme, representa la máxima amplitud diferencial. El criterio que se utiliza para comparar las estimaciones de la transformación estabilizadora de varianzas bajo las distintas propuestas metodológicas planteadas es a través del error cuadrático medio. Para ello se realizan 1000 simulaciones, y para cada simulación se calcula el error cuadrático medio de la transformación estimada cuya expresión de cálculo se muestra en [12], donde N representa el número total de datos en la muestra aleatoria de intensidades , es la transformación verdadera y la transformación estimada. Luego se promedia los errores y se tiene en cuenta que cuanto más pequeño es el error mejor es la estimación en términos medios. Todas las comparaciones se realizan bajo una misma escala. [12 ] Los resultados obtenidos en la primer etapa del trabajo se pueden visualizar en las Figuras 3, 4, 5 y 6. Al considerar las cuatro muestras biológicas de la base de datos Barnes, y comparar las estimaciones de las relación media varianza aplicando los distintos procesos propuestos en la implementación en R dada por Pan Du y Simon Lin (2008), se observa que para las intensidades altas, los resultados son similares; mientras que a medida que las intensidades medias van decreciendo las diferencias en las estimaciones por los distintos procesos también (ver Figuras 4 ,5 y 6). A partir de considerar los datos simulados se pudo apreciar mejores resultados en el proceso iterativo VST-2iter, en términos medios, respecto al proceso VST-p valor, teniendo en cuenta el promedio de error cuadrático medio para 1000 simulaciones, como lo muestra la Tabla 1. X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 Método VST VST p-valor VST 2-iter 0.07132273 0.02119795 Tabla 1 Teniendo en cuenta los resultados para las distintas implementaciones del método VST (propuestas en este trabajo), considerando datos simulados, se observa en general que para datos contaminados en niveles de contaminación del 0, 5 y hasta un 10%, los mejores resultados se obtuvieron al aplicar las dos últimas formas de implementación del proceso iterativo, bajo los nombres de las Propuestas 6 y 7 dadas en este escrito (ver Figuras 7 y 8). Se detectaron algunos problemas en la estimación de los valores transformados, al trabajar con datos contaminados en las intensidades bajas, al aplicar procesos iterativos donde utilizan diferencias dk tanto negativas como positivas y aplican mínimos cuadrados para la estimación de c1 y c2. También se presentaron casos, bajo un nivel de contaminación del 10%, tanto en procesos iterativos como en los que utilizan p-valores como datos de entradas, con excepción de las Propuestas 6 y 7, donde los errores en la estimación de c3 fueron tan grandes que el ajuste lineal no se pudo realizar. Bajo las Propuestas 6 y 7, según lo muestran las Figuras 7 y 8, también se observa que los resultados en las estimaciones son bastante similares. - Figura 3: Estimación de la relación media varianza para la base de datos A01 de Barnes, según los procedimientos VST 2-iter y VST p-valor. X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 - Figura 4: Estimación de la relación media varianza para la base de datos B01 de Barnes, según los procedimientos VST 2-iter y VST p-valor. - Figura 5: Estimación de la relación media varianza para la base de datos A02 de Barnes, según los procedimientos VST 2-iter y VST p-valor. X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 Figura 6: Estimación de la relación media varianza para la base de datos B02 de Barnes, según los procedimientos VST 2-iter y VST p-valor. Figura 7: Relación entre el porcentaje de datos contaminados (q) y el error cuadrático medio para 1000 simulaciones, cuando los datos contaminados corresponden a intensidades bajas. X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 Figura 8: Relación entre el porcentaje de datos contaminados (q) y el error cuadrático medio para 1000 simulaciones, cuando los datos contaminados corresponden a intensidades medias altas. Respecto a la segunda etapa del trabajo, se comparan el proceso iterativo bajo la implementación original del método VST dadas en R (2008), y el método Resistente cuyos parámetros iniciales son P=0 mientras que y se determinaron al generar pseudo-datos aleatorios bajo una distribución uniforme y , donde Delta representa la máxima amplitud diferencial entre el parámetro verdadero y el inicial. Se consideran en este trabajo valores de discrepancias =100 y =500. Los resultados obtenidos se muestan en las Figuras 9, 10, 11, 12 y 13. Teniendo en cuenta los errores cuadráticos medios, se pudo observar que: - a medida que la estructura de los datos responden a una estructura de relación media-varianza que se va alejando de la propuesta original dada por los autores del método VST, los errores en las estimaciones para la propuesta considerada de implementación del método VST aumentan. - Los mejores resultados se obtienen al aplicar el método Resistente para 0.1≤P≤0.4 (ver Figura 9). X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 Trabajando con datos contaminados, tanto para intensidades bajas (q=0), como para intensidades medias altas (q=0.75), en niveles de contaminación del 0, 5 hasta un 10%, en general se pudo notar sensibilidad en las estimaciones, como es de esperar, para las distintas propuestas consideradas. Esto es, a medida que el porcentaje (pc) de datos contaminados aumenta, los errores en términos medios también (ver Figuras 10, 11, 12 y 13). Sin embargo los mejores resultados se obtienen con el método Resistente en casos donde la estructura de la relación media-varianza se aleja de la propuesta original dada por Simon Lin y colegas en el año 2008 (ver Figuras 12 y 13). Figura 9: Relación entre el parámetro P de la transformación verdadera a estimar y el error cuadrático medio en la estimación de la transformación estabilizadora de varianzas, para datos generados por simulación sin contaminar. X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 Figura 10: Relación entre el parámetro P de la transformación verdadera a estimar y el error cuadrático medio en la estimación de la transformación estabilizadora de varianzas, al aplicar el Método Resistente a datos contaminados en intensidades bajas (q=0) y proporciones de contaminación pc=0, 0.05 y 0.1. Figura 11: Relación entre el parámetro P de la transformación verdadera a estimar y el error cuadrático medio en la estimación de la transformación estabilizadora de varianzas, al aplicar el Método Resistente a datos contaminados en las intensidades medias altas (q=0.75) y proporciones de contaminación pc=0, 0.05 y 0.1. X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 Figura 12: Resultados obtenidos al trabajar con datos simulados contaminados en las intensidades bajas (q=0) y niveles de contaminación de 0, 5 hasta un 10% (pc=0, 0.05, 0.1) con el objetivo de relacionar el parámetro P de la transformación verdadera a estimar y el error cuadrático medio en la estimación de la transformación, al aplicar distintas metodologías. Figura13: Resultados obtenidos al trabajar con datos simulados contaminados en las intensidades medias altas (q=0.75) y niveles de contaminación de 0, 5 hasta un 10% (pc=0, 0.05, 0.1), con el objetivo de relacionar el parámetro P de la transformación verdadera a estimar y el error cuadrático medio en la estimación de la transformación, al aplicar distintas metodologías. X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 4. CONCLUSIONES Luego de un estudio exhaustivo de Montecarlo, teniendo en cuenta los resultados de los errores cuadráticos medios en la estimación de los parámetros de la transformación estabilizadora de varianzas adecuada, se logra mejorar la implementación del método VST definida por los autores de este método en R, cuando los datos responden a una estructura de relación media-varianza cuadrática y ésta se rompe ante la presencia de datos contaminados en niveles de contaminación de hasta un 10%. Por otro lado se propone una nueva alternativa metodológica para estimar transformaciones estabilizadoras de varianzas para datos de experimentos de microarreglos. El procedimiento es el denominado método Resistente. Esta nueva alternativa muestra resultados alentadores cuando se trabaja con datos cuya estructura de relación media varianza se aleja de la propuesta original; como también para datos contaminados con niveles de contaminación de hasta un 10%. 5. REFERENCIAS DURBIN,B.P., HARDIN,J.S., HAWKINS,D.M. and ROCKE,D.M. (2002) “A variancestabilizing transformation for gene-expression microarray data”. Bioinformatics, 18(Suppl. 1), S105–S110. HUANG,S., YEO,A.A., GELBERT,L., LIN,X., NISENBAUM,L. and BEMIS,K.G. (2004) “At what scale should microarray data be analyzed?” Am. J. Pharmacogenomics, 4, 129–139. HUBER W., HEYDEBRECK A., SUELTMANN H., POUSTKA A. and VINGRON M. (2003) “Parameter estimation for the calibration and variance stabilization of microarray data”. Statistical Applications in Genetics and Molecular Biology”. Volume 2, Inssue 1, Article 3. http:/www.bepress.com/sagmb/vol2/iss1/art3. HUBER,W., VON HEYDEBRECK,A., SULTMANN,H., POUSTKA,A. and VINGRON,M. (2002) “Variance stabilization applied to microarray data calibration and to the quantification of differential expression”. Bioinformatics, 18(Suppl. 1), S96–S104. KELMANSKY D. M., MARTINEZ E.J. (2010) “Generalized Power Transformations”. CLATSE IX –Viña del Mar –Chile-octubre 2010. LIN S.M., PAN DU, HUBER W. and WARREN A. K. (2008) “Model-based variancestabilizing transformation for Illumina microarray data”. Nucleic Acids Research, 2008, Vol. 36. No 2. X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012 ROCKE D. M. and DURBIN B.(2001). “A Model for Measurement Error for Gene Expression Arrays”. Journal of Computational Biology. Volume 8, Number 6, 2001. Mary Ann Liebert, Inc. Pp. 557-569. ROCKE D. M. and DURBIN B (2003) .-“Approximate variance-stabilizing transformations for gene-expression microarray data”. Bioinformatics, 19, 966972. SMYTH G.K., YANG Y.H, SPEED T. (2003). “Statistical issues in cDNA microarray data analysis”. Methods Mol Biol;224:111-36.