Pruebas de Independencia Completa v´ıa FDR Testing complete

Anuncio
IX Coloquio Internacional de Estadı́stica
“Métodos Estadı́sticos Aplicados a Finanzas y Salud”
Universidad Nacional de Colombia - Sede Medellı́n
Medellı́n, Junio 29 a Julio 2 de 2012
Pruebas de Independencia Completa vı́a FDR
Juan Carlos Correaa,b , Jorge Iván Vélezb,c,#
a
Profesor Asociado, Escuela de Estadı́stica, Universidad Nacional de Colombia, Sede Medellı́n.
b Grupo de Investigación en Estadı́stica, Universidad Nacional de Colombia,
Sede Medellı́n.
c Medical Genetics Branch, National Human Genome Research Institute,
National Institutes of Health, Bethesda, MD, USA.
# Email: [email protected]
Resumen
En estadı́stica aplicada, probar independencia completa en un conjunto de
datos es usualmente de gran interés. Si X1 , . . . , XN una normal p variada con
matriz de covarianza Σp , probar independencia completa implica probar la
hipótesis nula H0 : Σ = D(σ12 , σ22 , . . . , σp2 ), or equivalentemente, H0 : P = I,
con P la matriz de correlación. Para probar H0 , las pruebas de Box (1949) y
Bartlett (1954) son dos de las más utilizadas en la literatura. En este trabajo se comparan, vı́a simulación, las pruebas de Box y Bartlett. Ası́ mismo,
se propone metodologı́a basada en la Tasa de Falsos Descubrimientos para
probar independencia completa, y se compara su desempeño con los métodos antes mencionados. Finalmente, ilustramos nuestra propuesta con datos
provenientes de estudios con microarreglos.
Palabras Clave: Prueba de razón de verosimilitud, Tasa de Falsos Descubrimientos, Matrices de Covarianza.
Testing complete independence via FDR
Juan Carlos Correaa,b , Jorge Iván Vélezb,c,#
a
Associate Professor, Department of Statistics, National University of Colombia
at Medellı́n.
b
Research Group in Statistics, National University of Colombia at Medellı́n.
c
Medical Genetics Branch, National Human Genome Research Institute, National
Institutes of Health, Bethesda, MD, USA.
#
Email: [email protected]
1
IX Coloquio Internacional de Estadı́stica
“Métodos Estadı́sticos Aplicados a Finanzas y Salud”
Universidad Nacional de Colombia - Sede Medellı́n
Medellı́n, Junio 29 a Julio 2 de 2012
Abstract
In applied statistics, testing complete independence is often of interest. If X1 , . . . , Xp
is a random sample from a p-dimensional normal distribution with covariance matrix Σp , testing complete independence refers to test the null hypothesis H0 : Σ =
D(σ12 , σ22 , . . . , σp2 ), or equivalently, H0 : P = I, with P the correlation matrix. To
test H0 , two of the most frequently cited tests in the literature are Box’s (1949)
and Bartlett’s (1954). Here, these two tests are compared using a simulation study.
Furthermore, by using the False Discovery Rate (FDR), we propose a new methodology to test complete independence and compare its performance with the
aforementioned methods. Finally, we illustrate our proposal with data from microarray experiments.
Keywords: Likelihood ratio test, False Discovery Rate, Covariance Matrices.
1.
Introducción
Desarrollos relativamente recientes en genética y procesamiento de imágenes han
dado lugar a experimentos y aplicaciones cuyo resultados corresponden a grandes
conjuntos de datos. Una de las más importantes en el campo de la investigación
médica es el análisis de microarreglos [7] en el que se miden los niveles de expresión
para m genes en un grupo de n1 casos y en otro de n2 controles.
Por lo general, en estudios con microarreglos el interés se centra en determinar
aquellos genes para los que sus niveles de expresión difieren significativamente entre
ambos grupos, o aquellos pares de genes para los cuales su correlación es estadı́sticamente significativa. En el primer caso, la detección de diferencias significativas
permite determinar qué genes se encuentran alterados en los casos y no en los controles, mientras en el segundo el coeficiente de correlación corresponde a un proxy
que cuantifica una potencial interacción entre un par de genes especfı́cos y que su
vez modifican la presencia de la enfermedad.
Dado un conjunto de datos con p variables numéricas, independencia completa
se refiere a probar H0 : Σ = D(σ12 , σ22 , . . . , σp2 ), donde Σ es la matriz de varianzascovarianzas y σi2 corresponde a la varianza de la i-ésima variable, i = 1, 2, . . . , p.
Si P es la matriz de correlación, lo anterior se reduce a probar H0 : P = I, con
I una matriz diagonal de orden p cuyas componentes Ii,j = 0 e Ii,i = 1, i, j =
1, 2, . . . , p. En el caso de estudios con microarreglos, probar independencia completa
corresponderı́a a probar si existe al menos un par de genes que interactúan.
Para probar H0 , en la literatura se encuentra disponibles las metodologı́as de
Bartlett [1] y Box [2]. En este trabajo proponemos una metodologı́a basada en la
Tasa de Falsos Descubrimientos (FDR, en inglés) para probar independencia completa, y comparamos su desempeño con los métodos de Bartlett y Box. Finalmente,
ilustramos nuestra propuesta con datos provenientes de estudios con microareglos.
2
IX Coloquio Internacional de Estadı́stica
“Métodos Estadı́sticos Aplicados a Finanzas y Salud”
Universidad Nacional de Colombia - Sede Medellı́n
Medellı́n, Junio 29 a Julio 2 de 2012
2.
Prueba de Independencia Completa
Supongamos que se tiene una matriz de datos



Xn×p = 

x11
x21
..
.
xn1
···
···
..
.
···
x12
x22
..
.
xn2
x1p
x2p
..
.
xnp





(1)
donde n corresponde al número de observaciones y p al número de variables. El
vector de medias muestrales x̄, la matriz de varianzas covarianzas muestral Sk×p y
la matriz de correlación muestral Rp×p están dados, respectivamente, por

x̄ =
n
n
X
X
1
1

xi =

n
n

i=1
i=1


 
 
=
 
s11
 s21

= .
 ..
sk1
s12
s22
..
.
sk2
···
···
..
.
···
s1p
s2p
..
.
spp
1
r21
..
.
rp1
r12
1
..
.
rp2
···
···
..
.
···
r1p
r2p
..
.
1

Sp×k
xi1
xi2
..
.
xip
x̄1
x̄2
..
.
x̄p




,





(2)
(3)
y



Rk×k = 

con siendo sij =
n
P
p=1
(xpi −x̄i )(xpj −x̄j )
,
n−1





sii = var(x
ˆ i ), rij =
(4)
√
sij
sii sjj , rii
= 1, rij = rji
y −1 ≤ rij ≤ 1, i, j = 1, 2, . . . , p.
Si los datos privienen de una distribución p-variada, Wilks (1935) mostró que
para probar independencia completa el estadı́stico de prueba es
Λ = |R|n/2
(5)
con R la matriz de correlación. La distribución de Λ es aún motivo de extensa
investigación [6].
3
IX Coloquio Internacional de Estadı́stica
“Métodos Estadı́sticos Aplicados a Finanzas y Salud”
Universidad Nacional de Colombia - Sede Medellı́n
Medellı́n, Junio 29 a Julio 2 de 2012
2.1.
Aproximaciónes de Box y Bartlett
De acuerdo con Box [2], la distribución de Λ puede aproximarse como
P [−n log U ≤ z] ≈ P {χ2w ≤ z}
γ2
+
P {χ2w+4 ≤ z} − P {χ2w ≤ z} + O(m−3 )
m2
(6)
con U = |R|, γ2 = p(p−1)(2p2 −2p−13)/288, m = n−(2p+11)/6, w = p(p−1)/2
and χ2w corresponde a una variable χ2 con w grados de libertad.
Similarmente, Bartlett [1] propuso aproximar la distribución de
Q = −[n − (2p + 11)/6] log |R|
(7)
utilizando una distribución χ2w , w = p(p − 1)/2.
2.2.
Tasa de Falsos Descubrimientos
La tasa de falsos descubrimientos (FDR, en inglés) está definida como la proporción de hipótesis nulas verdaderas que resultan ser rechazadas dentro del total de
hipótesis rechazadas [3]. Para una revisión sobre este y otros métodos véase [9] y
[4].
Tabla 1: Posibles resultados cuando se prueban m hipótesis.
H0 Verdadera
H0 Falsa
Total
Acepto H0
TN
FN
N
Rechazo H0
FD
TD
D
Total
m0
m1
m
A partir de la Tabla 1 donde T significa cierto, F Falso, D Descubrimiento (rechazo de H0 ), la FDR se define como [3]:
F D F DR = E
R > 0 P (D > 0)
(8)
D El procedimiento es el siguiente:
1. Suponga que se prueban m hipótesis H0,1 , H0,2 , . . . , H0,m , de las cuales se obtienen los estadı́sticos de prueba T0,1 , T0,2 , . . . , T0,m y los valores p p0,1 , . . . , p0,m ,
donde p0,i = 1 − F0,i (T0,i ), i = 1, 2, . . . , m, con F alguna función de distribución de probabilidad acumulada.
2. Suponga que de las m hipótesis, m0 hipótesis nulas son ciertas.
4
IX Coloquio Internacional de Estadı́stica
“Métodos Estadı́sticos Aplicados a Finanzas y Salud”
Universidad Nacional de Colombia - Sede Medellı́n
Medellı́n, Junio 29 a Julio 2 de 2012
3. Ordene los valores p como p(1) ≤ p(2) ≤ · · · ≤ p(m) .
4. Estime κ como
i
κ̂ = max i : p(i) ≤ α
m
para algún nivel de significancia α ∈ (0, 1) y rechace H0,1 , H0,2 , . . . , H0,κ̂ . Si
no existe tal i, ninguna hipótesis nula podrá ser rechazada.
3.
Estudio de Simulación
Las aproximaciones de Barlett y Box con nuestra propuesta basada en la FDR se
compararon en R [8] vı́a simulación, utilizando diferentes valores de n, p y matrices
de correlación P . El algorı́tmo opera de la siguiente manera:
1. Genere una muestra aleatoria de tamaño n de una distribución normal pvariada.
2. Estime la matriz de correlación ρ̂p .
3. Sobre ρ̂p , aplique las aproximaciones (6) y (7) y determine si no existe independencia completa, es decir, si se rechaza H0 .
4. Realice, para l = 1, 2, . . . , m, las pruebas de hipótesis H0,l
r : ρl = 0 vs.
rl2 (n−2)
H1,l : ρl 6= 0 y calcule, para cada caso, el estadı́stico tc,l =
. Bajo
1−r 2
l
H0,l , tc,l ∼ tn−2 . Calcule el valor p para cada valor del estadı́stico.
5. Determine el valor de κ̂ utilizando la FDR. Si κ̂ > 0, se rechaza H0 y se
concluye que no existe independencia completa.
6. Repita los pasos 1–5, B veces y calcule la tasa de rechazos de las aproximaciones de Bartlett, Box y la FDR como como la proporción de veces que se
rechaza H0 en las B muestras de tamaño n.
(8) Reporte los resultados.
Nota: Desafortunadamente, al momento de escribir este reporte el estudio de
simulación aún no habı́a finalizado. Sin embargo, los resultados de este estudio serán
presentados durante la conferencia en el IX Coloquio Internacional de Estadı́stica.
5
IX Coloquio Internacional de Estadı́stica
“Métodos Estadı́sticos Aplicados a Finanzas y Salud”
Universidad Nacional de Colombia - Sede Medellı́n
Medellı́n, Junio 29 a Julio 2 de 2012
4.
Aplicación
Mootha et al. (2003) [5] presenta una estrategia de análisis para la detecció de
pequeños cambios en los niveles de expresió de grupos de genes relacionados funcionalmente y lo ilustra con microarreglos de ADN. Los autores miden los niveles de
expresión en 43 biopsias de hombres de la misma edad, 17 de ellos con tolerancia
normal a la glucosa (NGT), 8 con intolerancia a la glucosa (IGT) y 18 con diabetes tipo 2 (DT2). Como resultado, los autores identificaron un conjunto de genes
implicados en la fosforilación oxidativa, un proceso metabólico que utiliza energı́a
liberada por la oxidación de nutrientes para producir ATP.
Después de seleccionar aleatoriamente 10 niveles de expresión de las muestras
de T2D, se estimó la matriz de correlación calculó la matriz de correlación y se
realizó la prueba de independencia completa utilizando la aproximación de Bartlett,
la aproximación de Box y nuestra propuesta basada en la FDR. En los tres casos
se rechazó la hipótesis de independencia completa.
Referencias
[1] Bartlett, M. S. (1954), ‘A Note on Multiplying Factors for Various χ2 Approximations’, Journal of the Royal Statistical Society, Ser. B, 16:296-298.
[2] Box, G.E.P (1949), ‘A General Distribution Theory for a Class of Likelihood
Criteria’, Biometrika, 36:317-346.
[3] Benjamini, Y. & Hochberg, Y. (1995), ‘Controlling the false discovery rate:
A practical and powerful approach to multiple testing’, Journal of the Royal
Statistial Society, Series B (Methodological), 57(1): 389-300.
[4] Correa, J.C. (2011), ‘Diagnósticos de Regresión usando la FDR (Tasa de Descubrimientos Falsos)’, Comunicaciones en Estadı́stica, 3 (2): 109-118.
[5] Mootha et. al. (2003), ‘Pgc-1-responsive genes involved in oxidative phosphorylation are coordinately downregulated in human diabetes’, Nat. Genet.;
34(3):26773.
[6] Mudholkar, G. S., Trivedi, M. C., & Lin, T.C. (1982), ‘An Approximation
to the Distribution of the Likelihood Ratio Statistic for Testing Complete
Independence’, Technometrics, 24(2):139-143.
[7] Nguyen, D. V., Bulak Apart, A., Wang, N. & Carrol, R. J. (2002), DNA Microarray Experiments: Biological and Technological Aspects, Biometrics 58:701717.
6
IX Coloquio Internacional de Estadı́stica
“Métodos Estadı́sticos Aplicados a Finanzas y Salud”
Universidad Nacional de Colombia - Sede Medellı́n
Medellı́n, Junio 29 a Julio 2 de 2012
[8] R Core Team (2012). R: A language and environment for statistical computing.
R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0,
URL http://www.R-project.org/.
[9] Shaffer, J. P. (1994), Multiple Hypothesis Testing: A Review, National Institute
of Statistical Sciences, P.O. Box 14162, Research Triangle Park, N. C. 27709,
United States.
[10] Wilks, S. S. (1935), ‘On the Independence of k Sets of Normally Distributed
Statistical Variables’, Econometrica; 3:309-326.
7
Descargar