IX Coloquio Internacional de Estadı́stica “Métodos Estadı́sticos Aplicados a Finanzas y Salud” Universidad Nacional de Colombia - Sede Medellı́n Medellı́n, Junio 29 a Julio 2 de 2012 Pruebas de Independencia Completa vı́a FDR Juan Carlos Correaa,b , Jorge Iván Vélezb,c,# a Profesor Asociado, Escuela de Estadı́stica, Universidad Nacional de Colombia, Sede Medellı́n. b Grupo de Investigación en Estadı́stica, Universidad Nacional de Colombia, Sede Medellı́n. c Medical Genetics Branch, National Human Genome Research Institute, National Institutes of Health, Bethesda, MD, USA. # Email: [email protected] Resumen En estadı́stica aplicada, probar independencia completa en un conjunto de datos es usualmente de gran interés. Si X1 , . . . , XN una normal p variada con matriz de covarianza Σp , probar independencia completa implica probar la hipótesis nula H0 : Σ = D(σ12 , σ22 , . . . , σp2 ), or equivalentemente, H0 : P = I, con P la matriz de correlación. Para probar H0 , las pruebas de Box (1949) y Bartlett (1954) son dos de las más utilizadas en la literatura. En este trabajo se comparan, vı́a simulación, las pruebas de Box y Bartlett. Ası́ mismo, se propone metodologı́a basada en la Tasa de Falsos Descubrimientos para probar independencia completa, y se compara su desempeño con los métodos antes mencionados. Finalmente, ilustramos nuestra propuesta con datos provenientes de estudios con microarreglos. Palabras Clave: Prueba de razón de verosimilitud, Tasa de Falsos Descubrimientos, Matrices de Covarianza. Testing complete independence via FDR Juan Carlos Correaa,b , Jorge Iván Vélezb,c,# a Associate Professor, Department of Statistics, National University of Colombia at Medellı́n. b Research Group in Statistics, National University of Colombia at Medellı́n. c Medical Genetics Branch, National Human Genome Research Institute, National Institutes of Health, Bethesda, MD, USA. # Email: [email protected] 1 IX Coloquio Internacional de Estadı́stica “Métodos Estadı́sticos Aplicados a Finanzas y Salud” Universidad Nacional de Colombia - Sede Medellı́n Medellı́n, Junio 29 a Julio 2 de 2012 Abstract In applied statistics, testing complete independence is often of interest. If X1 , . . . , Xp is a random sample from a p-dimensional normal distribution with covariance matrix Σp , testing complete independence refers to test the null hypothesis H0 : Σ = D(σ12 , σ22 , . . . , σp2 ), or equivalently, H0 : P = I, with P the correlation matrix. To test H0 , two of the most frequently cited tests in the literature are Box’s (1949) and Bartlett’s (1954). Here, these two tests are compared using a simulation study. Furthermore, by using the False Discovery Rate (FDR), we propose a new methodology to test complete independence and compare its performance with the aforementioned methods. Finally, we illustrate our proposal with data from microarray experiments. Keywords: Likelihood ratio test, False Discovery Rate, Covariance Matrices. 1. Introducción Desarrollos relativamente recientes en genética y procesamiento de imágenes han dado lugar a experimentos y aplicaciones cuyo resultados corresponden a grandes conjuntos de datos. Una de las más importantes en el campo de la investigación médica es el análisis de microarreglos [7] en el que se miden los niveles de expresión para m genes en un grupo de n1 casos y en otro de n2 controles. Por lo general, en estudios con microarreglos el interés se centra en determinar aquellos genes para los que sus niveles de expresión difieren significativamente entre ambos grupos, o aquellos pares de genes para los cuales su correlación es estadı́sticamente significativa. En el primer caso, la detección de diferencias significativas permite determinar qué genes se encuentran alterados en los casos y no en los controles, mientras en el segundo el coeficiente de correlación corresponde a un proxy que cuantifica una potencial interacción entre un par de genes especfı́cos y que su vez modifican la presencia de la enfermedad. Dado un conjunto de datos con p variables numéricas, independencia completa se refiere a probar H0 : Σ = D(σ12 , σ22 , . . . , σp2 ), donde Σ es la matriz de varianzascovarianzas y σi2 corresponde a la varianza de la i-ésima variable, i = 1, 2, . . . , p. Si P es la matriz de correlación, lo anterior se reduce a probar H0 : P = I, con I una matriz diagonal de orden p cuyas componentes Ii,j = 0 e Ii,i = 1, i, j = 1, 2, . . . , p. En el caso de estudios con microarreglos, probar independencia completa corresponderı́a a probar si existe al menos un par de genes que interactúan. Para probar H0 , en la literatura se encuentra disponibles las metodologı́as de Bartlett [1] y Box [2]. En este trabajo proponemos una metodologı́a basada en la Tasa de Falsos Descubrimientos (FDR, en inglés) para probar independencia completa, y comparamos su desempeño con los métodos de Bartlett y Box. Finalmente, ilustramos nuestra propuesta con datos provenientes de estudios con microareglos. 2 IX Coloquio Internacional de Estadı́stica “Métodos Estadı́sticos Aplicados a Finanzas y Salud” Universidad Nacional de Colombia - Sede Medellı́n Medellı́n, Junio 29 a Julio 2 de 2012 2. Prueba de Independencia Completa Supongamos que se tiene una matriz de datos Xn×p = x11 x21 .. . xn1 ··· ··· .. . ··· x12 x22 .. . xn2 x1p x2p .. . xnp (1) donde n corresponde al número de observaciones y p al número de variables. El vector de medias muestrales x̄, la matriz de varianzas covarianzas muestral Sk×p y la matriz de correlación muestral Rp×p están dados, respectivamente, por x̄ = n n X X 1 1 xi = n n i=1 i=1 = s11 s21 = . .. sk1 s12 s22 .. . sk2 ··· ··· .. . ··· s1p s2p .. . spp 1 r21 .. . rp1 r12 1 .. . rp2 ··· ··· .. . ··· r1p r2p .. . 1 Sp×k xi1 xi2 .. . xip x̄1 x̄2 .. . x̄p , (2) (3) y Rk×k = con siendo sij = n P p=1 (xpi −x̄i )(xpj −x̄j ) , n−1 sii = var(x ˆ i ), rij = (4) √ sij sii sjj , rii = 1, rij = rji y −1 ≤ rij ≤ 1, i, j = 1, 2, . . . , p. Si los datos privienen de una distribución p-variada, Wilks (1935) mostró que para probar independencia completa el estadı́stico de prueba es Λ = |R|n/2 (5) con R la matriz de correlación. La distribución de Λ es aún motivo de extensa investigación [6]. 3 IX Coloquio Internacional de Estadı́stica “Métodos Estadı́sticos Aplicados a Finanzas y Salud” Universidad Nacional de Colombia - Sede Medellı́n Medellı́n, Junio 29 a Julio 2 de 2012 2.1. Aproximaciónes de Box y Bartlett De acuerdo con Box [2], la distribución de Λ puede aproximarse como P [−n log U ≤ z] ≈ P {χ2w ≤ z} γ2 + P {χ2w+4 ≤ z} − P {χ2w ≤ z} + O(m−3 ) m2 (6) con U = |R|, γ2 = p(p−1)(2p2 −2p−13)/288, m = n−(2p+11)/6, w = p(p−1)/2 and χ2w corresponde a una variable χ2 con w grados de libertad. Similarmente, Bartlett [1] propuso aproximar la distribución de Q = −[n − (2p + 11)/6] log |R| (7) utilizando una distribución χ2w , w = p(p − 1)/2. 2.2. Tasa de Falsos Descubrimientos La tasa de falsos descubrimientos (FDR, en inglés) está definida como la proporción de hipótesis nulas verdaderas que resultan ser rechazadas dentro del total de hipótesis rechazadas [3]. Para una revisión sobre este y otros métodos véase [9] y [4]. Tabla 1: Posibles resultados cuando se prueban m hipótesis. H0 Verdadera H0 Falsa Total Acepto H0 TN FN N Rechazo H0 FD TD D Total m0 m1 m A partir de la Tabla 1 donde T significa cierto, F Falso, D Descubrimiento (rechazo de H0 ), la FDR se define como [3]: F D F DR = E R > 0 P (D > 0) (8) D El procedimiento es el siguiente: 1. Suponga que se prueban m hipótesis H0,1 , H0,2 , . . . , H0,m , de las cuales se obtienen los estadı́sticos de prueba T0,1 , T0,2 , . . . , T0,m y los valores p p0,1 , . . . , p0,m , donde p0,i = 1 − F0,i (T0,i ), i = 1, 2, . . . , m, con F alguna función de distribución de probabilidad acumulada. 2. Suponga que de las m hipótesis, m0 hipótesis nulas son ciertas. 4 IX Coloquio Internacional de Estadı́stica “Métodos Estadı́sticos Aplicados a Finanzas y Salud” Universidad Nacional de Colombia - Sede Medellı́n Medellı́n, Junio 29 a Julio 2 de 2012 3. Ordene los valores p como p(1) ≤ p(2) ≤ · · · ≤ p(m) . 4. Estime κ como i κ̂ = max i : p(i) ≤ α m para algún nivel de significancia α ∈ (0, 1) y rechace H0,1 , H0,2 , . . . , H0,κ̂ . Si no existe tal i, ninguna hipótesis nula podrá ser rechazada. 3. Estudio de Simulación Las aproximaciones de Barlett y Box con nuestra propuesta basada en la FDR se compararon en R [8] vı́a simulación, utilizando diferentes valores de n, p y matrices de correlación P . El algorı́tmo opera de la siguiente manera: 1. Genere una muestra aleatoria de tamaño n de una distribución normal pvariada. 2. Estime la matriz de correlación ρ̂p . 3. Sobre ρ̂p , aplique las aproximaciones (6) y (7) y determine si no existe independencia completa, es decir, si se rechaza H0 . 4. Realice, para l = 1, 2, . . . , m, las pruebas de hipótesis H0,l r : ρl = 0 vs. rl2 (n−2) H1,l : ρl 6= 0 y calcule, para cada caso, el estadı́stico tc,l = . Bajo 1−r 2 l H0,l , tc,l ∼ tn−2 . Calcule el valor p para cada valor del estadı́stico. 5. Determine el valor de κ̂ utilizando la FDR. Si κ̂ > 0, se rechaza H0 y se concluye que no existe independencia completa. 6. Repita los pasos 1–5, B veces y calcule la tasa de rechazos de las aproximaciones de Bartlett, Box y la FDR como como la proporción de veces que se rechaza H0 en las B muestras de tamaño n. (8) Reporte los resultados. Nota: Desafortunadamente, al momento de escribir este reporte el estudio de simulación aún no habı́a finalizado. Sin embargo, los resultados de este estudio serán presentados durante la conferencia en el IX Coloquio Internacional de Estadı́stica. 5 IX Coloquio Internacional de Estadı́stica “Métodos Estadı́sticos Aplicados a Finanzas y Salud” Universidad Nacional de Colombia - Sede Medellı́n Medellı́n, Junio 29 a Julio 2 de 2012 4. Aplicación Mootha et al. (2003) [5] presenta una estrategia de análisis para la detecció de pequeños cambios en los niveles de expresió de grupos de genes relacionados funcionalmente y lo ilustra con microarreglos de ADN. Los autores miden los niveles de expresión en 43 biopsias de hombres de la misma edad, 17 de ellos con tolerancia normal a la glucosa (NGT), 8 con intolerancia a la glucosa (IGT) y 18 con diabetes tipo 2 (DT2). Como resultado, los autores identificaron un conjunto de genes implicados en la fosforilación oxidativa, un proceso metabólico que utiliza energı́a liberada por la oxidación de nutrientes para producir ATP. Después de seleccionar aleatoriamente 10 niveles de expresión de las muestras de T2D, se estimó la matriz de correlación calculó la matriz de correlación y se realizó la prueba de independencia completa utilizando la aproximación de Bartlett, la aproximación de Box y nuestra propuesta basada en la FDR. En los tres casos se rechazó la hipótesis de independencia completa. Referencias [1] Bartlett, M. S. (1954), ‘A Note on Multiplying Factors for Various χ2 Approximations’, Journal of the Royal Statistical Society, Ser. B, 16:296-298. [2] Box, G.E.P (1949), ‘A General Distribution Theory for a Class of Likelihood Criteria’, Biometrika, 36:317-346. [3] Benjamini, Y. & Hochberg, Y. (1995), ‘Controlling the false discovery rate: A practical and powerful approach to multiple testing’, Journal of the Royal Statistial Society, Series B (Methodological), 57(1): 389-300. [4] Correa, J.C. (2011), ‘Diagnósticos de Regresión usando la FDR (Tasa de Descubrimientos Falsos)’, Comunicaciones en Estadı́stica, 3 (2): 109-118. [5] Mootha et. al. (2003), ‘Pgc-1-responsive genes involved in oxidative phosphorylation are coordinately downregulated in human diabetes’, Nat. Genet.; 34(3):26773. [6] Mudholkar, G. S., Trivedi, M. C., & Lin, T.C. (1982), ‘An Approximation to the Distribution of the Likelihood Ratio Statistic for Testing Complete Independence’, Technometrics, 24(2):139-143. [7] Nguyen, D. V., Bulak Apart, A., Wang, N. & Carrol, R. J. (2002), DNA Microarray Experiments: Biological and Technological Aspects, Biometrics 58:701717. 6 IX Coloquio Internacional de Estadı́stica “Métodos Estadı́sticos Aplicados a Finanzas y Salud” Universidad Nacional de Colombia - Sede Medellı́n Medellı́n, Junio 29 a Julio 2 de 2012 [8] R Core Team (2012). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org/. [9] Shaffer, J. P. (1994), Multiple Hypothesis Testing: A Review, National Institute of Statistical Sciences, P.O. Box 14162, Research Triangle Park, N. C. 27709, United States. [10] Wilks, S. S. (1935), ‘On the Independence of k Sets of Normally Distributed Statistical Variables’, Econometrica; 3:309-326. 7