Pruebas de Independencia Completa v´ıa FDR Testing complete

IX Coloquio Internacional de Estadı́stica “Métodos Estadı́sticos Aplicados a Finanzas y Salud” Universidad Nacional de Colombia - Sede Medellı́n Medellı́n, Junio 29 a Julio 2 de 2012 Pruebas de Independencia Completa vı́a FDR Juan Carlos Correaa,b , Jorge Iván Vélezb,c,# a Profesor Asociado, Escuela de Estadı́stica, Universidad Nacional de Colombia, Sede Medellı́n. b Grupo de Investigación en Estadı́stica, Universidad Nacional de Colombia, Sede Medellı́n. c Medical Genetics Branch, National Human Genome Research Institute, National Institutes of Health, Bethesda, MD, USA. # Email: [email protected] Resumen En estadı́stica aplicada, probar independencia completa en un conjunto de datos es usualmente de gran interés. Si X1 , . . . , XN una normal p variada con matriz de covarianza Σp , probar independencia completa implica probar la hipótesis nula H0 : Σ = D(σ12 , σ22 , . . . , σp2 ), or equivalentemente, H0 : P = I, con P la matriz de correlación. Para probar H0 , las pruebas de Box (1949) y Bartlett (1954) son dos de las más utilizadas en la literatura. En este trabajo se comparan, vı́a simulación, las pruebas de Box y Bartlett. Ası́ mismo, se propone metodologı́a basada en la Tasa de Falsos Descubrimientos para probar independencia completa, y se compara su desempeño con los métodos antes mencionados. Finalmente, ilustramos nuestra propuesta con datos provenientes de estudios con microarreglos. Palabras Clave: Prueba de razón de verosimilitud, Tasa de Falsos Descubrimientos, Matrices de Covarianza. Testing complete independence via FDR Juan Carlos Correaa,b , Jorge Iván Vélezb,c,# a Associate Professor, Department of Statistics, National University of Colombia at Medellı́n. b Research Group in Statistics, National University of Colombia at Medellı́n. c Medical Genetics Branch, National Human Genome Research Institute, National Institutes of Health, Bethesda, MD, USA. # Email: [email protected] 1 IX Coloquio Internacional de Estadı́stica “Métodos Estadı́sticos Aplicados a Finanzas y Salud” Universidad Nacional de Colombia - Sede Medellı́n Medellı́n, Junio 29 a Julio 2 de 2012 Abstract In applied statistics, testing complete independence is often of interest. If X1 , . . . , Xp is a random sample from a p-dimensional normal distribution with covariance matrix Σp , testing complete independence refers to test the null hypothesis H0 : Σ = D(σ12 , σ22 , . . . , σp2 ), or equivalently, H0 : P = I, with P the correlation matrix. To test H0 , two of the most frequently cited tests in the literature are Box’s (1949) and Bartlett’s (1954). Here, these two tests are compared using a simulation study. Furthermore, by using the False Discovery Rate (FDR), we propose a new methodology to test complete independence and compare its performance with the aforementioned methods. Finally, we illustrate our proposal with data from microarray experiments. Keywords: Likelihood ratio test, False Discovery Rate, Covariance Matrices. 1. Introducción Desarrollos relativamente recientes en genética y procesamiento de imágenes han dado lugar a experimentos y aplicaciones cuyo resultados corresponden a grandes conjuntos de datos. Una de las más importantes en el campo de la investigación médica es el análisis de microarreglos [7] en el que se miden los niveles de expresión para m genes en un grupo de n1 casos y en otro de n2 controles. Por lo general, en estudios con microarreglos el interés se centra en determinar aquellos genes para los que sus niveles de expresión difieren significativamente entre ambos grupos, o aquellos pares de genes para los cuales su correlación es estadı́sticamente significativa. En el primer caso, la detección de diferencias significativas permite determinar qué genes se encuentran alterados en los casos y no en los controles, mientras en el segundo el coeficiente de correlación corresponde a un proxy que cuantifica una potencial interacción entre un par de genes especfı́cos y que su vez modifican la presencia de la enfermedad. Dado un conjunto de datos con p variables numéricas, independencia completa se refiere a probar H0 : Σ = D(σ12 , σ22 , . . . , σp2 ), donde Σ es la matriz de varianzascovarianzas y σi2 corresponde a la varianza de la i-ésima variable, i = 1, 2, . . . , p. Si P es la matriz de correlación, lo anterior se reduce a probar H0 : P = I, con I una matriz diagonal de orden p cuyas componentes Ii,j = 0 e Ii,i = 1, i, j = 1, 2, . . . , p. En el caso de estudios con microarreglos, probar independencia completa corresponderı́a a probar si existe al menos un par de genes que interactúan. Para probar H0 , en la literatura se encuentra disponibles las metodologı́as de Bartlett [1] y Box [2]. En este trabajo proponemos una metodologı́a basada en la Tasa de Falsos Descubrimientos (FDR, en inglés) para probar independencia completa, y comparamos su desempeño con los métodos de Bartlett y Box. Finalmente, ilustramos nuestra propuesta con datos provenientes de estudios con microareglos. 2 IX Coloquio Internacional de Estadı́stica “Métodos Estadı́sticos Aplicados a Finanzas y Salud” Universidad Nacional de Colombia - Sede Medellı́n Medellı́n, Junio 29 a Julio 2 de 2012 2. Prueba de Independencia Completa Supongamos que se tiene una matriz de datos    Xn×p =   x11 x21 .. . xn1 ··· ··· .. . ··· x12 x22 .. . xn2 x1p x2p .. . xnp      (1) donde n corresponde al número de observaciones y p al número de variables. El vector de medias muestrales x̄, la matriz de varianzas covarianzas muestral Sk×p y la matriz de correlación muestral Rp×p están dados, respectivamente, por  x̄ = n n X X 1 1  xi =  n n  i=1 i=1       =   s11  s21  = .  .. sk1 s12 s22 .. . sk2 ··· ··· .. . ··· s1p s2p .. . spp 1 r21 .. . rp1 r12 1 .. . rp2 ··· ··· .. . ··· r1p r2p .. . 1  Sp×k xi1 xi2 .. . xip x̄1 x̄2 .. . x̄p     ,      (2) (3) y    Rk×k =   con siendo sij = n P p=1 (xpi −x̄i )(xpj −x̄j ) , n−1      sii = var(x ˆ i ), rij = (4) √ sij sii sjj , rii = 1, rij = rji y −1 ≤ rij ≤ 1, i, j = 1, 2, . . . , p. Si los datos privienen de una distribución p-variada, Wilks (1935) mostró que para probar independencia completa el estadı́stico de prueba es Λ = |R|n/2 (5) con R la matriz de correlación. La distribución de Λ es aún motivo de extensa investigación [6]. 3 IX Coloquio Internacional de Estadı́stica “Métodos Estadı́sticos Aplicados a Finanzas y Salud” Universidad Nacional de Colombia - Sede Medellı́n Medellı́n, Junio 29 a Julio 2 de 2012 2.1. Aproximaciónes de Box y Bartlett De acuerdo con Box [2], la distribución de Λ puede aproximarse como P [−n log U ≤ z] ≈ P {χ2w ≤ z} γ2 + P {χ2w+4 ≤ z} − P {χ2w ≤ z} + O(m−3 ) m2 (6) con U = |R|, γ2 = p(p−1)(2p2 −2p−13)/288, m = n−(2p+11)/6, w = p(p−1)/2 and χ2w corresponde a una variable χ2 con w grados de libertad. Similarmente, Bartlett [1] propuso aproximar la distribución de Q = −[n − (2p + 11)/6] log |R| (7) utilizando una distribución χ2w , w = p(p − 1)/2. 2.2. Tasa de Falsos Descubrimientos La tasa de falsos descubrimientos (FDR, en inglés) está definida como la proporción de hipótesis nulas verdaderas que resultan ser rechazadas dentro del total de hipótesis rechazadas [3]. Para una revisión sobre este y otros métodos véase [9] y [4]. Tabla 1: Posibles resultados cuando se prueban m hipótesis. H0 Verdadera H0 Falsa Total Acepto H0 TN FN N Rechazo H0 FD TD D Total m0 m1 m A partir de la Tabla 1 donde T significa cierto, F Falso, D Descubrimiento (rechazo de H0 ), la FDR se define como [3]: F D F DR = E R > 0 P (D > 0) (8) D El procedimiento es el siguiente: 1. Suponga que se prueban m hipótesis H0,1 , H0,2 , . . . , H0,m , de las cuales se obtienen los estadı́sticos de prueba T0,1 , T0,2 , . . . , T0,m y los valores p p0,1 , . . . , p0,m , donde p0,i = 1 − F0,i (T0,i ), i = 1, 2, . . . , m, con F alguna función de distribución de probabilidad acumulada. 2. Suponga que de las m hipótesis, m0 hipótesis nulas son ciertas. 4 IX Coloquio Internacional de Estadı́stica “Métodos Estadı́sticos Aplicados a Finanzas y Salud” Universidad Nacional de Colombia - Sede Medellı́n Medellı́n, Junio 29 a Julio 2 de 2012 3. Ordene los valores p como p(1) ≤ p(2) ≤ · · · ≤ p(m) . 4. Estime κ como i κ̂ = max i : p(i) ≤ α m para algún nivel de significancia α ∈ (0, 1) y rechace H0,1 , H0,2 , . . . , H0,κ̂ . Si no existe tal i, ninguna hipótesis nula podrá ser rechazada. 3. Estudio de Simulación Las aproximaciones de Barlett y Box con nuestra propuesta basada en la FDR se compararon en R [8] vı́a simulación, utilizando diferentes valores de n, p y matrices de correlación P . El algorı́tmo opera de la siguiente manera: 1. Genere una muestra aleatoria de tamaño n de una distribución normal pvariada. 2. Estime la matriz de correlación ρ̂p . 3. Sobre ρ̂p , aplique las aproximaciones (6) y (7) y determine si no existe independencia completa, es decir, si se rechaza H0 . 4. Realice, para l = 1, 2, . . . , m, las pruebas de hipótesis H0,l r : ρl = 0 vs. rl2 (n−2) H1,l : ρl 6= 0 y calcule, para cada caso, el estadı́stico tc,l = . Bajo 1−r 2 l H0,l , tc,l ∼ tn−2 . Calcule el valor p para cada valor del estadı́stico. 5. Determine el valor de κ̂ utilizando la FDR. Si κ̂ > 0, se rechaza H0 y se concluye que no existe independencia completa. 6. Repita los pasos 1–5, B veces y calcule la tasa de rechazos de las aproximaciones de Bartlett, Box y la FDR como como la proporción de veces que se rechaza H0 en las B muestras de tamaño n. (8) Reporte los resultados. Nota: Desafortunadamente, al momento de escribir este reporte el estudio de simulación aún no habı́a finalizado. Sin embargo, los resultados de este estudio serán presentados durante la conferencia en el IX Coloquio Internacional de Estadı́stica. 5 IX Coloquio Internacional de Estadı́stica “Métodos Estadı́sticos Aplicados a Finanzas y Salud” Universidad Nacional de Colombia - Sede Medellı́n Medellı́n, Junio 29 a Julio 2 de 2012 4. Aplicación Mootha et al. (2003) [5] presenta una estrategia de análisis para la detecció de pequeños cambios en los niveles de expresió de grupos de genes relacionados funcionalmente y lo ilustra con microarreglos de ADN. Los autores miden los niveles de expresión en 43 biopsias de hombres de la misma edad, 17 de ellos con tolerancia normal a la glucosa (NGT), 8 con intolerancia a la glucosa (IGT) y 18 con diabetes tipo 2 (DT2). Como resultado, los autores identificaron un conjunto de genes implicados en la fosforilación oxidativa, un proceso metabólico que utiliza energı́a liberada por la oxidación de nutrientes para producir ATP. Después de seleccionar aleatoriamente 10 niveles de expresión de las muestras de T2D, se estimó la matriz de correlación calculó la matriz de correlación y se realizó la prueba de independencia completa utilizando la aproximación de Bartlett, la aproximación de Box y nuestra propuesta basada en la FDR. En los tres casos se rechazó la hipótesis de independencia completa. Referencias [1] Bartlett, M. S. (1954), ‘A Note on Multiplying Factors for Various χ2 Approximations’, Journal of the Royal Statistical Society, Ser. B, 16:296-298. [2] Box, G.E.P (1949), ‘A General Distribution Theory for a Class of Likelihood Criteria’, Biometrika, 36:317-346. [3] Benjamini, Y. & Hochberg, Y. (1995), ‘Controlling the false discovery rate: A practical and powerful approach to multiple testing’, Journal of the Royal Statistial Society, Series B (Methodological), 57(1): 389-300. [4] Correa, J.C. (2011), ‘Diagnósticos de Regresión usando la FDR (Tasa de Descubrimientos Falsos)’, Comunicaciones en Estadı́stica, 3 (2): 109-118. [5] Mootha et. al. (2003), ‘Pgc-1-responsive genes involved in oxidative phosphorylation are coordinately downregulated in human diabetes’, Nat. Genet.; 34(3):26773. [6] Mudholkar, G. S., Trivedi, M. C., & Lin, T.C. (1982), ‘An Approximation to the Distribution of the Likelihood Ratio Statistic for Testing Complete Independence’, Technometrics, 24(2):139-143. [7] Nguyen, D. V., Bulak Apart, A., Wang, N. & Carrol, R. J. (2002), DNA Microarray Experiments: Biological and Technological Aspects, Biometrics 58:701717. 6 IX Coloquio Internacional de Estadı́stica “Métodos Estadı́sticos Aplicados a Finanzas y Salud” Universidad Nacional de Colombia - Sede Medellı́n Medellı́n, Junio 29 a Julio 2 de 2012 [8] R Core Team (2012). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org/. [9] Shaffer, J. P. (1994), Multiple Hypothesis Testing: A Review, National Institute of Statistical Sciences, P.O. Box 14162, Research Triangle Park, N. C. 27709, United States. [10] Wilks, S. S. (1935), ‘On the Independence of k Sets of Normally Distributed Statistical Variables’, Econometrica; 3:309-326. 7

Pruebas de Independencia Completa v´ıa FDR Testing complete

Documentos relacionados

Productos

Apoyo

Pruebas de Independencia Completa v´ıa FDR Testing complete

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib