pulse aquí

Anuncio
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
ESTIMACIÓN DE TRANSFORMACIONES ESTABILIZADORAS DE
VARIANZAS, CON APLICACIONES A DATOS DE MICROARREGLOS
SUSANA RUIZ1 y DIANA KELMANSKY2
1 Facultad de CEFyN de la UNSJ [email protected]
2 Instituto de Cálculo de la UBA [email protected]
RESUMEN
En el presente trabajo se describen y comparan alternativas de estimación de transformaciones
para estabilizar varianzas con aplicación a datos de microarreglos, basadas en relaciones
media varianza. Se parte de propuestas de estimación de Simon Lin et al. (2008). Todas las
propuestas se implementan en R y se comparan mediante un estudio intensivo de Monte
Carlo. Se generan datos con una distribución de medias similar a la de datos reales de
microarreglos que satisfacen un modelo con parámetros conocidos con una relación media
varianza cuadrática, y también en varios escenarios de alejamiento de dicha estructura media
varianza inicial. Mediante modificaciones propuestas se logra mejorar las estimaciones de
transformaciones estabilizadoras de varianzas de Simon Lin et al. (2008) en casos donde la
presencia de datos contaminados rompen con la estructura de la relación media varianza
considerada, como también en casos donde dicha estructura es mucho más general que la
planteada inicialmente.
PALABRAS CLAVE: microarreglos - estabilización de varianzas - relación media varianza.
1. INTRODUCCIÓN
En muchos tipos de experimentos los datos muestran una relación entre media y varianza. Tal
es el caso para datos de experimentos de microarreglos, donde para mayores intensidades se
observan mayores variaciones cuando se mide repetidamente. La estabilización de varianza
para datos de experimentos de microarreglos es un paso correspondiente al pre-procesamiento
de datos, de mucha importancia cuando se quiere aplicar métodos clásicos para hacer
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
comparaciones como por ejemplo un ANAVA. En este contexto también es de interés tener
presente la posible presencia de datos contaminados que pueden afectar enormemente las
estimaciones.
Una salida al problema mencionado, de heteroscedasticidad, es transformar los datos de
manera tal que los datos transformados muestren varianza constante o al menos en forma
aproximada.
Varias transformaciones se han propuesto para estabilizar varianzas para datos de
experimentos de microarreglos. La preferida por los Biólogos es la transformación logaritmo
en base 2, debido a que es muy simple interpretar los valores transformados (Smyth et al.
(2003)). Pero esta transformación ha sido duramente criticada por su comportamiento en los
valores bajos ya que estabiliza varianza en valores altos pero infla varianzas en valores bajos
y no están definidas para valores negativos (Durbin et al.(2002)). Otras transformaciones
aplicadas son las correspondientes a la familia Box y Cox, que resultan muy inestables para
valores cercanos al cero, y no están definidas para valores negativos (Huang,S. et al, (2004)).
Como solución al problema anterior varios autores (Rocke y Durbin (2003)-Durbin et
al.(2002)- Huber et al.(2002) han propuesto trabajar con la familia de transformaciones
Logaritmo Generalizado [1], definidas para valores negativos, y que surge de considerar un
modelo de error aditivo-multiplicativo. Esta familia de transformaciones también ha sido
utilizada en el estudio de datos de concentraciones de análisis químicos.
h(y,a,b,c) = c .asinh(a.y +b) [1]
Varios métodos han sido propuestos para
seleccionar un miembro de la familia de
transformaciones Logaritmo Generalizado con el objetivo de estabilizar varianzas para datos
de experimentos de microarreglos. Unos de éstos es el método VSN propuesto por Huber et
al. (2003), para estabilizar varianzas sobre microarreglos con pocos replicados técnicos de
sondas con afinidad a un mismo tipo de gen y con distribución, en cada microarreglo, en
lugares fijos. Otro método es el método VST, propuesto por Simón Lin et al.(2008), para
estabilizar varianzas sobre microarreglos con mayor número de replicados técnicos que los
diseños convencionales. Este grupo de científicos, destacado por sus aportes en esta área,
comparan el método VST bajo la implementación propuesta por Pan Du y Simón Lin (2008),
en R, con los métodos VSN y la transformación log2, y concluyen en su trabajo que el método
VST resulta ser más apropiado para estabilizar varianzas para datos de experimentos de
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
microarreglos con las características de tener 30 o más réplicas técnicas de sondas con
afinidad a un mismo tipo de gen y con distribución aleatoria sobre el soporte (Lin et
al.(2008)).
Por otro lado la transformación Logaritmo Generalizado ha sido criticada por Speed (2003),
debido a su comportamiento en los valores altos. Speed comenta que esta transformación es
muy severa en estos valores y cuando uno transforma los datos lo que hace es invertir la
heteroscedasticidad. Como solución a este problema, más recientemente las Dras. Diana
Kelmansky y Elena Martínez han propuesto que se trabaje con la familia de transformaciones
de Potencia Generalizada [2], que contiene al Logaritmo Generalizado entre uno de sus
miembros así como la familia Box y Cox contiene al logaritmo natural entre sus miembros
(Kelmansky D.M. y Martinez E.J. (2010)) .
.
[2]
Teniendo en cuenta los antecedentes mencionados y las problemáticas planteadas, el objetivo
general de este trabajo es la de proponer y estudiar alternativas metodológicas que puedan
mejorar el método y la implementación propuestos por Simón Lin y colegas, en el año 2008,
para estabilizar varianzas para datos de experimentos de microarreglos.
2. METODOLOGÍAS
Los métodos que se emplean en este trabajo son:
2.1. Método VST: Simón Lin et al. (2008) proponen el método VST
para estimar
transformaciones que estabilicen varianzas en forma asintótica, dentro de la familia de
transformaciones logaritmo generalizado. Los autores a partir de considerar un modelo de
error aditivo multiplicativo para intensidades sobre microarreglos (Rocke y Durbin (2001),
Huber et al. (2003)),
y = a + b . m. eη + ε,
[3]
donde: η y ε son variables aleatorias independientes, con distribución unimodal, simétrica,
con media cero y varianza finita; muestran que la relación media-varianza responde a una
relación cuadrática ,
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
vu=(c1 .u +c2)2+c3 ,
[4]
tal que a medida que la media de intensidades, u, aumenta la varianza vu también; y proponen
estimar la transformación estabilizadora de varianzas asintótica, que responde a la forma de
una transformación Logaritmo Generalizado cuando el parámetro c3 es positivo, cuya
expresión general es dada en [5], modelando la relación media varianza (Lin S. et al. (2008)).
.
[5]
Para la estimación de la transformación los autores sugieren además seguir con los siguientes
pasos:
1) estimar c3, teniendo en cuenta que representa la varianza de intensidades de sondas de
fondo (es decir: sondas asociadas a genes que no se expresan).
2) Estimar los parámetros c1 y c2 por ajuste lineal teniendo en cuenta que la relación
media varianza [4] puede ser reescrita de la siguiente manera:
para
=c1 u + c2,
c3.
3) Por último, estimar la transformación estabilizadora de varianzas asintótica, dada en
[5], reemplazando los parámetros c1, c2 y c3 por los valores obtenidos en los pasos
anteriores.
Respecto a la implementación de este método en R, según la propuesta dada por Pan Du y
Simon Lin (2008), se observa que dada una muestra aleatoria de intensidades sobre un mismo
microarreglo,
para k =1, ...,K genes, donde yki representa la intensidad asociada al
gen k en la réplica i, el procedimiento considera como datos de entrada a un conjunto de
pares de valores media-varianza estimadas de intensidades para cada tipo de gen k, con
k=1,2,..,K,
, cuyos cálculos se obtienen según [6] y [7], luego de eliminar
datos extremos según el criterio 3-MAD .
=
=
=
=
[6]
.
[7]
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
En la implementación del método VST, el procedimiento por defecto, que denominamos en
este trabajo “VST-2 iter”, parte considerando c3=0 como estimación inicial. Luego a) estima
c1 y c2 por ajuste lineal, utilizando mínimos cuadrados. Posteriormente b) estima c3, a través
de una media aritmética truncada al 5% en ambos extremos, de la diferencias
para cada gen k. Si la estimación de c3 resulta un valor positivo, los pasos a) y
b) los aplica dos veces más en forma iterativa; mientras que si resulta un valor negativo, este
lo cambia, lo iguala a 0 (cero) y da por concluido el proceso de estimación.
Respecto al procedimiento alternativo en la implementación propuesta, la denominamos en
este trabajo VST p-valor , ya que a diferencia del procedimiento anterior, este además
considera como valores de entrada un conjunto de p-valores de detección asociados a cada
tipo de gen, {
, con 0 ≤ pk ≤ 1, que resultan de realizar pruebas de comparación de
medias de intensidades, donde para cada gen k se compara el valor medio de intensidades
respecto
a la media
de intensidades
de
sondas
de
control
negativo
(sondas
termodinámicamente preparadas y distribuidas sobre el soporte de tal forma que no haya
hibridación específica, sus señales son muy similares a las señales de sondas de fondo). En las
pruebas de comparación de medias se asume que la variable intensidad asociada a sondas de
control negativo se distribuye normalmente con media y varianza conocidas. A partir del
conjunto de valores de entrada, se estima c3 a través de una media aritmética de los valores de
varianza estimada asociada a sondas cuyos p-valores son mayores que un cierto umbral, 0.01
es el valor que se toma por defecto,
; mientras que c1 y c2 se estiman, de la
misma forma que el proceso anterior, por ajuste lineal utilizando mínimos cuadrados.
Teniendo en cuenta esta implementación definidas en R, uno puede observar que ante la
presencia de datos contaminados, que pueden afectar a los valores de entrada: estimar c3 a
través de una media aritmética o estimar c1 y c2 por ajuste lineal por mínimos cuadrados
pueden resultar valores muy alejados de los valores verdaderos, ya que tanto la media
aritmética como los estimadores por mínimos cuadrados son muy sensibles a la presencia de
datos contaminados. Por otro lado, en el proceso iterativo se estima c3 a través de una media
aritmética truncada utilizando las diferencias
, para k=1,2,..,K, tanto
positivas como negativas. Consideramos, en este trabajo, la posibilidad de que no tengan
sentido tener en cuenta las diferencias negativas desde el sólo hecho que se quiere estimar el
parámetro c3 que representa un valor de varianza y por lo tanto nunca puede tomar valores
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
negativos. A partir de estas observaciones se generan nuevas propuestas de implementación
del método VST, que tienen como base las implementaciones originadas dadas en R, y lo que
se realiza son pequeñas modificaciones en cuanto a cómo se estiman los parámetros. Así
resultan:
i) Teniendo en cuenta el proceso “VST-p valor”:
Propuesta 1: “VST p-valor-mediana” propone estimar c3, en lugar de aplicar una media
aritmética, utilizando la mediana de los valores de varianza estimada.
Propuesta 2: “VST p-valor-LTS” estima c1 y c2 por ajuste lineal, en lugar de aplicar mínimos
cuadrados, utiliza mínimos cuadrados truncados, es decir un ajuste lineal LTS cuyas
estimaciones son más resistentes a la presencia de datos contaminados.
ii) Teniendo en cuenta el proceso iterativo “VST-2 iter”:
Propuesta 3: “VST 2iter-MEDIA TRIM(dk > 0)” estima el parámetro c3 sólo considerando
las diferencias positivas.
Propuesta 4: “VST 2-iter -MEDIANA(dk > 0)” estima el parámetro c3 a través de la mediana
de las diferencias positivas.
Propuesta 5: “ VST 2-iter - LTS” estima c1 y c2 por ajuste lineal LTS.
Propuesta 6: “VST 2iter-MEDIA TRIM(dk > 0)-LTS” que surge de combinar la Propuestas 3
y 5.
Propuesta 7: “VST 2-iter -MEDIANA(dk > 0)-LTS” que surge de combinar las Propuestas 4
y 5.
2.2. Método Resistente: El Método Resistente se basa en la aplicación del método de Máxima
Verosimilitud, y postula como modelo adecuado a:
, donde G es la
transformación verdadera, que se asume dentro de la familia de Potencia Generalizada con
parámetro P próximo a 0 [2],
especifico k en la réplica i,
gen k, y
es la intensidad asociada a sondas con afinidad al gen
es el nivel de expresión media en escala transformada para el
es el término de error, componente aleatoria que se sume con distribución normal,
media 0 y varianza constante. Los parámetros a estimar son
transformación que se asume verdadera,
de error.
correspondientes a la
para cada tipo de gen, y la varianza del término
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Como los estimadores por máxima verosimilitud son sensibles a desviaciones de normalidad
y a la presencia de datos contaminados, este método propone como estimadores de los niveles
de expresión media para cada tipo de gen para k=1,..,K, y la varianza del término de error
,
a los que se obtienen de maximizar la función log-verosimilitud, dada en [8], considerando
valores fijos, previa eliminación de datos extremos, y cuyas expresiones respectivas
se muestran en [9] y [10].
[8]
[9]
. [10]
Posteriormente se obtienen los estimadores de los parámetros de la transformación
(
maximizando una expresión modificada de la log-verosimilitud, dada en [11], que
resulta de reemplazar las expresiones de los estimadores de
[9], para cada gen k, y la
varianza del término de error [10], y luego considerar sólo aquellos datos correspondientes a
los genes cuya suma de residuos al cuadrado resulten ser más bajos. Este criterio está
relacionado con el criterio utilizado en ajustes lineales LTS (ajustes lineales por mínimos
cuadrados truncados) para obtener estimaciones más resistentes ante la presencia de datos
contaminados.
[11]
Respecto al proceso que se define para implementar este método, en términos generales, se
puede detallar los siguientes pasos:
1. Hacer CK0={1,2,…,K} conjunto inicial de genes.
2. Para cada kϵ CK0 considerar el conjunto de intensidades yki, con i=1,2,…,n(k), y definir un
nuevo conjunto
eliminando datos extremos.
3. Seleccionar valores iniciales de
4. Calcular
y P.
, para k=1,2,…,K.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
5. Para cada k, con k=1,2,…,K, calcular la suma de cuadrados de residuos
.
6. Ordenar los valores
, para k=1,2,…,K:
7. Determinar el conjunto CKqlts={t(j)ϵ CK0:
.
<=Q*qlts},
donde qlts es un valor tal
que 0.5<qlts<1, y Q qlts es aquel cuantil que deja el (qlts.100)% de los valores
sr2(sumas de residuos al cuadrado) más pequeños a la izquierda.
8. Hallar
que maximiza
.
9. Mientras no se cumpla algún criterio de convergencia o no se alcance una cantidad
máxima de iteraciones preestablecida, volver a 4. Considerando
P)=
.
*
3. RESULTADOS Y DISCUSIÓN
Para comparar las distintas propuestas metodológicas de estimación de transformaciones
estabilizadoras de varianzas ya presentadas en la sección anterior, tanto para datos reales
como simulados, con errores normales y normales contaminados, se dispone inicialmente de
datos reales correspondientes a cuatro muestras bilógicas que contienen información sobre
diluciones de sangre y placenta humana. Los datos son de Barnes y se pueden acceder a ellos
desde internet o desde R bajando la librería “lumi”. Para las simulaciones, en términos
generales, se generan datos de tal forma que posean una distribución de frecuencias y un
rango de valores similares a los extraídos experimentalmente, la transformación adecuada sea
conocida, perteneciente a la familia de Potencia Generalizada con parámetro P próximo a
cero, y permitan evaluar las distintas propuestas metodológicas que se desean comparar.
Respecto a los datos contaminados, estos se generan de tal forma que rompan con la
estructura de relación media varianza, tanto para intensidades bajas como también para
intensidades medias altas, en niveles de contaminación del 0, 5 y hasta un 10%.
Específicamente los escenarios de simulación para las comparaciones corresponden a datos de
microarreglos con la característica de tener 30 o más réplicas técnicas de sondas con afinidad
a un mismo tipo de gen, con distribución aleatoria sobre el soporte; la cantidad de genes que
se consideran en un solo microarreglo es de 1000 ó 8000 ( bajo selección aleatoria); la
cantidad de microarreglos por simulación es uno; y el software sobre la cual se trabaja es R,
ya que es libre, gratuito y la mayoría de los científicos la utilizan para realizar sus aportes en
esta área.
Para las comparaciones este trabajo se organiza en dos etapas. En la primera etapa donde se
comparan las distintas implementaciones del método VST, trabajando con datos reales y
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
simulados con errores normales y normales contaminados, asumiendo como transformación
adecuada a miembros de la familia de Potencia Generalizada con parámetro P=0. Mientras
que en la segunda, se comparan implementaciones del método VST con la respectiva al
método Resistente, trabajando con datos simulados, con errores normales y normales
contaminados y asumiendo como transformación adecuada a miembros de la familia de
Potencia Generalizada con parámetro P próximo a 0.
Respecto a las simulaciones, en la primer etapa del trabajo, se generan datos de tal forma que
respondan al modelo planteado en la siguiente igualdad:
, [12]
donde
para
transformación
estabilizadora a estimar perteneciente a la familia de Potencia Generalizada con parámetro
P=0,
es el nivel de expresión media en escala transformada para el gen k y
es el
término de error, componente aleatoria que se asume con distribución normal, media cero y
varianza constante.
En la segunda etapa se asume como modelo adecuado a
similar al dado en [12] salvo que la transformación estabilizadora de varianzas a estimar es un
miembro de la familia de Potencia Generalizada dada en [2] con parámetro P próximo a 0,
.
Respecto a los datos contaminados, estos se generan de tal forma que rompan con la
estructura de relación media-varianza, tanto para intensidades bajas (ver Figura 1), como
también, para intensidades medias-altas (ver Figura 2), en niveles de contaminación del 0, 5 y
hasta un 10%.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Figura 1
Figura 2
Para ello en la primer etapa del trabajo, se reemplazan un cierto porcentaje de pares de valores
media varianza-estimada
y
para k=1…K, por nuevos pares de valores
tal que
positivo. Se consideran alternativas de definición de la discrepancia,
,
entre la varianza estimada y la “inflada” , de tal forma que el rango de valores esté dentro del
rango de valores que se puede observar. Las expresiones alternativas que se consideran son: i)
, ii)
Mientras que en
}.
la segunda etapa, se generan pseudo-datos aleatorios
, en escala transformada, bajo una distribución normal con media
ϵ
y varianza
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
constante. Los valores
un rango de valores
, para cada gen k, se generan con una distribución de frecuencia y
similar a los obtenidos experimentalmente. A estos datos pseudo
aleatorios, además, se le suma un término adicional,
donde pk es un indicador que
puede tomar valores 0 ó 1, si toma el valor 1 quiere decir que el dato está contaminado,
mientras que si toma el valor 0 el dato esta sin contaminar. El factor
representa la
amplitud diferencial entre el dato contaminado y el sin contaminar, y estos se obtienen
generando
pseudo-datos
donde
aleatorios
bajo
una
distribución
uniforme,
representa la máxima amplitud diferencial.
El criterio que se utiliza para comparar las estimaciones de la transformación estabilizadora
de varianzas bajo las distintas propuestas metodológicas planteadas es a través del error
cuadrático medio. Para ello se realizan 1000 simulaciones, y para cada simulación se calcula
el error cuadrático medio de la transformación estimada cuya expresión de cálculo se muestra
en [12], donde N representa el número total de datos en la muestra aleatoria de intensidades ,
es la transformación verdadera y
la transformación estimada. Luego se promedia
los errores y se tiene en cuenta que cuanto más pequeño es el error mejor es la estimación en
términos medios. Todas las comparaciones se realizan bajo una misma escala.
[12 ]
Los resultados obtenidos en la primer etapa del trabajo se pueden visualizar en las Figuras 3,
4, 5 y 6. Al considerar las cuatro muestras biológicas de la base de datos Barnes, y comparar
las estimaciones de las relación media varianza aplicando los distintos procesos propuestos en
la implementación en R dada por Pan Du y Simon Lin (2008), se observa que para las
intensidades altas, los resultados son similares; mientras que a medida que las intensidades
medias van decreciendo las diferencias en las estimaciones por los distintos procesos también
(ver Figuras 4 ,5 y 6).
A partir de considerar los datos simulados se pudo apreciar mejores resultados en el proceso
iterativo VST-2iter, en términos medios, respecto al proceso VST-p valor, teniendo en cuenta
el promedio de error cuadrático medio para 1000 simulaciones, como lo muestra la Tabla 1.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Método VST VST p-valor VST 2-iter
0.07132273
0.02119795
Tabla 1
Teniendo en cuenta los resultados para las distintas implementaciones del método VST
(propuestas en este trabajo), considerando datos simulados, se observa en general que para
datos contaminados en niveles de contaminación del 0, 5 y hasta un 10%, los mejores
resultados se obtuvieron al aplicar las dos últimas formas de implementación del proceso
iterativo, bajo los nombres de las Propuestas 6 y 7 dadas en este escrito (ver Figuras 7 y 8).
Se detectaron algunos problemas en la estimación de los valores transformados, al trabajar
con datos contaminados en las intensidades bajas, al aplicar procesos iterativos donde utilizan
diferencias dk tanto negativas como positivas y aplican mínimos cuadrados para la estimación
de c1 y c2. También se presentaron casos, bajo un nivel de contaminación del 10%, tanto en
procesos iterativos como en los que utilizan p-valores como datos de entradas, con excepción
de las Propuestas 6 y 7, donde los errores en la estimación de c3 fueron tan grandes que el
ajuste lineal no se pudo realizar.
Bajo las Propuestas 6 y 7, según lo muestran las Figuras 7 y 8, también se observa que los
resultados en las estimaciones son bastante similares.
-
Figura 3: Estimación de la relación media varianza para la base de datos A01 de
Barnes, según los procedimientos VST 2-iter y VST p-valor.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
-
Figura 4: Estimación de la relación media varianza para la base de datos B01 de
Barnes, según los procedimientos VST 2-iter y VST p-valor.
-
Figura 5: Estimación de la relación media varianza para la base de datos A02 de
Barnes, según los procedimientos VST 2-iter y VST p-valor.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Figura 6: Estimación de la relación media varianza para la base de datos B02 de
Barnes, según los procedimientos VST 2-iter y VST p-valor.
Figura 7: Relación entre el porcentaje de datos contaminados (q) y el error cuadrático
medio para 1000 simulaciones, cuando los datos contaminados corresponden a
intensidades bajas.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Figura 8: Relación entre el porcentaje de datos contaminados (q) y el error cuadrático
medio para 1000 simulaciones, cuando los datos contaminados corresponden a
intensidades medias altas.
Respecto a la segunda etapa del trabajo, se comparan el proceso iterativo bajo la
implementación original del método VST dadas en R (2008), y el método Resistente cuyos
parámetros iniciales son P=0 mientras que
y
se determinaron al generar pseudo-datos
aleatorios bajo una distribución uniforme
y
, donde Delta representa la máxima amplitud diferencial entre el
parámetro verdadero y el inicial. Se consideran en este trabajo valores de discrepancias
=100 y
=500.
Los resultados obtenidos se muestan en las Figuras 9, 10, 11, 12 y 13. Teniendo en cuenta los
errores cuadráticos medios, se pudo observar que:
-
a medida que la estructura de los datos responden a una estructura de relación
media-varianza que se va alejando de la propuesta original dada por los autores del
método VST, los errores en las estimaciones para la propuesta considerada de
implementación del método VST aumentan.
-
Los mejores resultados se obtienen al aplicar el método Resistente para 0.1≤P≤0.4
(ver Figura 9).
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Trabajando con datos contaminados, tanto para intensidades bajas (q=0), como para
intensidades medias altas (q=0.75), en niveles de contaminación del 0, 5 hasta un 10%, en
general se pudo notar sensibilidad en las estimaciones, como es de esperar, para las distintas
propuestas consideradas. Esto es, a medida que el porcentaje (pc) de datos contaminados
aumenta, los errores en términos medios también (ver Figuras 10, 11, 12 y 13). Sin embargo
los mejores resultados se obtienen con el método Resistente en casos donde la estructura de la
relación media-varianza se aleja de la propuesta original dada por Simon Lin y colegas en el
año 2008 (ver Figuras 12 y 13).
Figura 9: Relación entre el parámetro P de la transformación verdadera a estimar y el error
cuadrático medio en la estimación de la transformación estabilizadora de varianzas, para
datos generados por simulación sin contaminar.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Figura 10: Relación entre el parámetro P de la transformación verdadera a estimar y el
error cuadrático medio en la estimación de la transformación estabilizadora de varianzas, al
aplicar el Método Resistente a datos contaminados en intensidades bajas (q=0) y
proporciones de contaminación pc=0, 0.05 y 0.1.
Figura 11: Relación entre el parámetro P de la transformación verdadera a estimar y el
error cuadrático medio en la estimación de la transformación estabilizadora de varianzas, al
aplicar el Método Resistente a datos contaminados en las intensidades medias altas (q=0.75)
y proporciones de contaminación pc=0, 0.05 y 0.1.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
Figura 12: Resultados obtenidos al trabajar con datos simulados contaminados en las
intensidades bajas (q=0) y niveles de contaminación de 0, 5 hasta un 10% (pc=0, 0.05, 0.1)
con el objetivo de relacionar el parámetro P de la transformación verdadera a estimar y el
error cuadrático medio en la estimación de la transformación, al aplicar distintas
metodologías.
Figura13: Resultados obtenidos al trabajar con datos simulados contaminados en las
intensidades medias altas (q=0.75) y niveles de contaminación de 0, 5 hasta un 10% (pc=0,
0.05, 0.1), con el objetivo de relacionar el parámetro P de la transformación verdadera a
estimar y el error cuadrático medio en la estimación de la transformación, al aplicar
distintas metodologías.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012
4. CONCLUSIONES
Luego de un estudio exhaustivo de Montecarlo, teniendo en cuenta los resultados de los
errores cuadráticos medios en la estimación de los parámetros de la transformación
estabilizadora de varianzas adecuada, se logra mejorar la implementación del método VST
definida por los autores de este método en R, cuando los datos responden a una estructura de
relación media-varianza cuadrática y ésta se rompe ante la presencia de datos contaminados
en niveles de contaminación de hasta un 10%.
Por otro lado se propone una nueva alternativa metodológica para estimar transformaciones
estabilizadoras de varianzas para datos de experimentos de microarreglos. El procedimiento
es el denominado método Resistente. Esta nueva alternativa muestra resultados alentadores
cuando se trabaja con datos cuya estructura de relación media varianza se aleja de la
propuesta original; como también para datos contaminados con niveles de contaminación de
hasta un 10%.
5. REFERENCIAS

DURBIN,B.P., HARDIN,J.S., HAWKINS,D.M. and ROCKE,D.M. (2002) “A variancestabilizing transformation for gene-expression microarray data”. Bioinformatics, 18(Suppl. 1),
S105–S110.

HUANG,S., YEO,A.A., GELBERT,L., LIN,X., NISENBAUM,L. and BEMIS,K.G. (2004)
“At what scale should microarray data be analyzed?” Am. J. Pharmacogenomics, 4, 129–139.

HUBER W., HEYDEBRECK A., SUELTMANN H., POUSTKA A. and VINGRON M.
(2003) “Parameter estimation for the calibration and variance stabilization of microarray
data”. Statistical Applications in Genetics and Molecular Biology”. Volume 2, Inssue 1,
Article 3. http:/www.bepress.com/sagmb/vol2/iss1/art3.

HUBER,W., VON HEYDEBRECK,A., SULTMANN,H., POUSTKA,A. and VINGRON,M.
(2002) “Variance stabilization applied to microarray data calibration and to the quantification
of differential expression”. Bioinformatics, 18(Suppl. 1), S96–S104.

KELMANSKY D. M., MARTINEZ E.J. (2010) “Generalized Power Transformations”.
CLATSE IX –Viña del Mar –Chile-octubre 2010.

LIN S.M., PAN DU, HUBER W. and WARREN A. K. (2008) “Model-based variancestabilizing transformation for Illumina microarray data”. Nucleic Acids Research, 2008, Vol.
36. No 2.
X CONGRESO LATINOAMERICANO DE SOCIEDADES DE ESTADÍSTICA
CÓRDOBA, ARGENTINA. 16 A 19 DE OCTUBRE 2012

ROCKE D. M. and
DURBIN
B.(2001). “A Model for Measurement Error for Gene
Expression Arrays”. Journal of Computational Biology. Volume 8, Number 6, 2001. Mary Ann
Liebert, Inc. Pp. 557-569.

ROCKE D. M. and DURBIN B (2003) .-“Approximate variance-stabilizing transformations
for gene-expression microarray data”. Bioinformatics, 19, 966972.

SMYTH G.K., YANG Y.H, SPEED T. (2003). “Statistical issues in cDNA microarray data
analysis”. Methods Mol Biol;224:111-36.
Descargar