Muestreo de Tablas de Contingencia para Modelos Log

Muestreo de Tablas de Contingencia para Modelos Log-Lineales 2 de junio de 2015 UNIVERSIDAD DE LOS ANDES Resumen Facultad de Ciencias Departamento de Matemáticas Muestreo de Tablas de Contingencia para Modelos Log-Lineales por Mónica Ribero El siguiente proyecto estudia el problema de calcular p-valores de pruebas de hipótesis utilizando tests exactos como método alternativo a las pruebas asintóticas. Para estas pruebas se han desarrollado algoritmos que generan muestras de tablas con entradas enteras de acuerdo con alguna distribución conocida. Para esto se estudia un nuevo algoritmo que reduce este problema a muestrear continuamente dentro de un politopo. Índice general Resumen I Lista de Figuras III Lista de Tablas IV 1. Introducción 1 2. Aproximaciones Al Problema 2.1. Prueba Chi-Cuadrado de independencia . . . . . . . . . . . . 2.2. Test exacto de Fischer . . . . . . . . . . . . . . . . . . . . . . 2.3. Aproximaciones algebráicas . . . . . . . . . . . . . . . . . . 2.3.1. Estadı́stico χ 2 y Estimadores de Máxima Verosimilitud 2.3.2. Muestreo . . . . . . . . . . . . . . . . . . . . . . . . 2.4. Base Lattice . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.1. Cómo encontrar Base Lattice . . . . . . . . . . . . . . 2.4.2. Cómo generar los movimientos . . . . . . . . . . . . . . . . . . . . 11 11 13 15 15 17 19 20 22 3. El nuevo algoritmo 3.1. Muestreo Continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Aproximación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3. Método del Rechazo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 24 25 29 4. Resultados 4.1. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 32 38 Bibliografı́a 40 II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Índice de figuras 4.1. Nuevo Algoritmo dimensión 2 . . . . . . . 4.2. Base Lattice dimensión 2 . . . . . . . . . . 4.3. Nuevo Algoritmo dimensión 3 . . . . . . . 4.4. Base Lattice dimensión 3 . . . . . . . . . . 4.5. Nuevo Algoritmo dimensión 3 . . . . . . . 4.6. Base Lattice dimensión 3 . . . . . . . . . . 4.7. Nuevo Algoritmo dimensión 3 . . . . . . . 4.8. Base Lattice dimensión 3 . . . . . . . . . . 4.9. Nuevo Algoritmo dimensión 4 . . . . . . . 4.10. Base Lattice dimensión 4 . . . . . . . . . . 4.11. Nuevo Algoritmo dimensión 4 . . . . . . . 4.12. Base Lattice dimensión 4 . . . . . . . . . . 4.13. Nuevo Algoritmo dimensión 4 . . . . . . . 4.14. Base Lattice dimensión 4 . . . . . . . . . . 4.15. Nuevo Algoritmo dimensión 4 . . . . . . . 4.16. Base Lattice dimensión 4 . . . . . . . . . . 4.17. Nuevo Algoritmo dimensión 4. N = 25000 . 4.18. Hipercubo “puntudo ”. Tomado de [1] . . . III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 33 33 33 34 34 34 34 35 35 35 35 36 36 37 37 37 39 Índice de cuadros 1.1. Veredictos de Pena de Muerte . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. Actitudes frente al aborto en la comunidad blanca cristiana . . . . . . . . . . . 4.1. 4.2. 4.3. 4.4. 4.5. 4.6. 4.7. 4.8. 4.9. Tabla de Contingencia 2 × 3 . . . . . . . . Tabla de Contingencia 2 × 4 . . . . . . . . Tabla de Contingencia 2 × 4 . . . . . . . . Tabla de Contingencia 2 × 4 . . . . . . . . Tabla de Contingencia 3 × 3 . . . . . . . . Tabla de Contingencia 3 × 3 . . . . . . . . Tabla de Contingencia 2 × 5 . . . . . . . . Tabla de Contingencia 2 × 5 . . . . . . . . Relación entre mes de nacimiento y muerte IV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 10 32 33 34 34 35 35 36 36 38 Capı́tulo 1 Introducción El objetivo del presente trabajo es desarrollar pruebas de hipótesis para determinar si una muestra vectorial con componentes discretas proviene de una familia de distribuciones. Particularmente se estudian las familias log-lineales. En el siguiente capı́tulo se introducen los modelos estadı́sticos y ejemplos donde surgen estas pruebas. Primero se presentan algunas definiciones esenciales y luego, para ilustrar estas ideas, tres ejemplos que muestran cuándo podrı́a surgir el problema y por qué es interesante. Suponga que tiene un vector aleatorio discreto ~X = (X1 , ...Xm ). Donde Xl toma valores en [rl ] := 1, ..., rl y rl ∈ N. Sea R = ∏m i=1 [rl ]. Definición 1.1. Definimos ∆k el k-simplex de probabilidad como el conjunto de todas las distribuciones de probabilidad para una variable aleatoria discreta X con k + 1 posibles resultados. k+1 ∆k := {q ∈ Rk+1 | qi ≥ 0 ∀i , ∑ qi = 1} i=1 Definición 1.2. Un modelo estadı́stico M es una familia de distribuciones de probabilidad. En nuestro caso nos interesan los modelos M ⊆ ∆k donde las distribuciones provienen de vectores aleatorios discretos. Un modelo paramétrico es un modelo estadı́stico donde la familia de distribuciones está especificada por un número finito de parámetros θ = (θ1 , θ2 , ..., θm ) para algún m ∈ N. Un modelo log-lineal es una forma de especificar estos parámetros como se muestra a continuación. Sean V1 , ...,Vm espacios vectoriales con bases fijas. Para cada j = 1, ..., m denotamos por er1 , ..., er j la base de V j y por ei1 ...im la base natural inducida en el producto tensorial ⊗mj=1V j Sea A : ⊗mj=1V j → F ∼ = Rd una transformación lineal. El modelo log-lineal especificado por A es el conjunto de distribuciones de probabilidad MA donde 1 2 MA = {p = (pi )i∈R ∈ int(∆R−1 ) | log(p) ∈ rowspan(A)} donde int(∆R−1 ) denota el interior de ∆R−1 Esto significa que estamos determinando la familia de distribuciones de probabilidad ~p = (pi )i∈R donde pi = P(~X = i) para i ∈ R donde las probabilidades están dadas por t p~i = pi1 ...im = eθ Aei1 ...im Z(θ ) para algún vector θ ∈ Rd y Z(θ ) una constante normalizadora. Ahora suponga que tiene una muestra ~X (1) , ~X (2) , ..., ~X (k) del vector ~X. A partir de esta muestra se puede crear la tabla de contingencia asociada, es decir, la tabla de frecuencias que clasifica la muestra de acuerdo a los resultados de cada ~X ( j) . Definición 1.3. La tabla de contingencia asociada a la muestra ~X (1) , ~X (2) , ..., ~X (k) del vector ~X es el vector U(~X (1) , ~X (2) , ..., ~X (k) ) ∈ ⊗m V j donde cada entrada está determinada por j=1 k U(~X (1) , ~X (1) , ..., ~X (k) )i1 ...im = ∑ 1~X ( j) =(i j=1 1 ...im ) para (i1 , ..., im ) ∈ R Estas tablas nos interesan porque si conocemos una de ellas, el estadı́stico AU es suficiente para el parámetro θ . Es decir que se pierde la dependencia del parámetro θ como se muestra en el siguiente lema. Definición 1.4. Defina T (N) como el conjunto de tablas de contingencia que podrı́an resultar para un tamaño de muestra N: T (N) = {u ∈ ⊗mj=1V j | ∑ ui = N} i∈R Definición 1.5. Defina la fibra de la tabla u para un tamaño de muestra N como F(u) = {U ∈ T (N) | AU = Au} Note que como la suma de las columnas de A es constante entonces ~1 = (1, .., 1) ∈ rowspan(A) 3 Esto implica que ~1 = qt A para algún q ∈ ⊗mj=1V j . Entonces si v ∈ F(u), se tiene que Av = Au y ası́ qt Av = qt Au ~1t v = ~1t u ∑ vi = ∑ ui i∈R i∈R =N Es decir que la suma de las entradas de v ∈ F(u) es N para cualquier tabla en F(u). Ahora sı́ probamos que, dada una tabla de contingencia u, el estadı́stico Au es suficiente para el parámetro θ . t Lema 1.1. Sea p = eA θ ∈ MA donde e(v1 ,...,vn ) = (ev1 , . . . , evn ) y u ∈ T (N) una tabla. Entonces t N P(U = u) = eθ Au u1 ...u|R| Adicionalmente, P(U = u|AU = Au) = 1/ ∏i∈R ui ! ∑v∈F (u) 1/ ∏i∈R vi ! (1.1) Es decir que el estadı́stico Au es suficiente para el parámetro θ . Demostración. Para encontrar la distribución de una tabla U y probar la primera parte del lema note que, por definición, la tabla U tiene una distribución multinomial con parámetros p y N pues tenemos un tamaño de muestra N y queremos que ocurra ui1 ...im veces el evento ~X = (i1 , ..., im ). Es decir que utilizando la distribución multinomial y propiedades de exponentes se tiene que N ui ...i pi1 1...imm P(U = u) = ∏ u1 ...u|R| i1 ...im t N (e(θ A)i1 ...im )ui1 ...im = ∏ u1 ...u|R| i1 ...im t N = e∑i1 ...im (θ A)i1 ...im ui1 ...im u1 ...u|R| t N = eθ Au u1 ...u|R| 4 probando ası́ la primera parte del lema. Para la distribución de U|AU = Au se tiene que P(U = u | AU = Au) = P(U = u, AU = Au) P(AU = Au) Sin embargo es claro que el evento U = u está contenido en el el evento AU = Au entonces P(U = u | AU = Au) = P(U = u) P(AU = Au) Para calcular la probabilidad en el denominador, se puede traducir el evento AU = Au como que U = v para alguna tabla v en la fibra de u, es decir que P(AU = Au) = P(U = v) ∑ v∈F (u) Usando la primera parte del lema = ∑ v∈F (u) t N eθ Av v1 ...v|R| Como v ∈ F(u), entonces Au = Av ası́ que usando esto y la definición de los coeficientes binomiales = N! ∑ v∈F (u) = eθ t Au ∏i∈R vi ! ∑ v∈F (u) Ası́ que finalmente se tiene que eθ t Au N! ∏i∈R vi ! 5 t P(U = u|AU = Au) = = eθ Au (N!/ ∏i∈R ui !) t eθ Au ∑v∈F (u) (N!/ ∏i∈R vi !) 1/ ∏i∈R ui ! ∑v∈F (u) 1/ ∏i∈R vi ! Recuerde que quisiéramos realizar pruebas de hipótesis para saber si la distribución de un vector ~X proviene de un modelo log-lineal MA determinado. El lema 1.1 sugiere que si conocemos una tabla de contingencia u podrı́amos realizar la prueba de hipótesis con hipótesis nula: H0 : u/N = (ui /N)i∈R ∈ MA (1.2) y calcular el p-valor de manera exacta. Esto se explica en el capı́tulo 2 pero por ahora note que dado Au, las probabilidades del vector U|AU = Au se pueden calcular de manera exacta. Solo se debe sumar dentro de la fibra F(u) de la tabla u que contiene finitas tablas (todas tienen tamaño de muestra N). Esto permitirá más adelante calcular de manera exacta también el el p-valor de la prueba de hipótesis 1.2. Para ilustrar mejor lo anterior considere primero los siguientes ejemplos que aclaran los conceptos introducidos y muestran en qué situaciones podrı́a surgir la prueba de hipótesis 1.2 que nos interesa sobre los modelos log-lineales. Ejemplo 1.1. Modelo de independencia. Considere la siguiente tabla de contingencia tomada de Drton, Sturmfels, Sullivant [2] que clasifica 376 homicidios ocurridos en la Florida en 1970. La tabla los clasifica de acuerdo con la raza del acusado y su condena: si obtuvo pena de muerte o no. En este caso nuestro vector aleatorio serı́a el vector (X,Y ) donde X = Condena y Y = Raza y donde cada variable podrı́a tomar dos posibles valores. C UADRO 1.1: Veredictos de Pena de Muerte Condena Pena de Muerte Raza Blanco Negro Total Sı́ No Total 19 17 36 141 149 280 160 166 326 6 Una pregunta natural serı́a si estas dos variables están relacionadas, es decir, si la condena del acusado estuvo influenciada por su raza. Es decir, quisiéramos determinar si las variables X y Y son independientes. Este problema se puede generalizar de la siguiente manera Definición 1.6. Sean X y Y dos variables aleatorias discretas con posibles valores [m] y [n] respectivamente. Las probabilidades conjuntas de X y Y se definen como pi j = P(X = i,Y = j) para i = 1, ..., m y j = 1, ..., n Estas probabilidades determinan las probabilidades marginales que aı́slan las probabilidades de cada variable. Definición 1.7. Las probabilidades marginales se definen como n pi+ = ∑ pi j = P(X = i) para i = 1, ..., m j=1 m p+ j = ∑ pi j = P(Y = j) para j = 1, ..., n i=1 Recuerde que se quiere determinar si las variables aleatorias son independientes o no. Para esto se introduce la siguiente definición. Definición 1.8. Las variables X y Y son independientes si pi j > 0 para cualquier i = 1, . . . , m y j = 1, . . . , n y pi j = pi+ p+ j para i = 1, ..., m y j = 1, ..., n (1.3) Tomando logaritmo en la definición anterior esto se reduce a log pi j = log pi+ + log p+ j = θ(i+) + θ(+ j) Con esta información se puede escribir la matriz A que codifica este comportamiento. Suponga por ejemplo que m = 2 y n = 3 . La matriz p = (pi j ) se podrı́a escribir como vector llenándolo por filas. De esta manera, la matriz A del modelo de independencia que codifica estas restricciones es la matriz 7 (11) (12) (13) (21) (22) (23) 1 1 1 0 0 0   0   A = 1   0  0 0 0 1 1 0 0 1 0 1 0 0 1 0 1 0 0  1    0   0   1   Note primero que efectivamente si multiplicamos A por un vector θ t = (θ1+ , θ2+ , θ+1 , θ+2 , θ+3 ) obtenemos el vector log pi j como se definió en la ecuación 1.3. Otro dato interesante es que si multiplicamos esta matriz A por una tabla de contingencia u obtenemos el vector con las sumas de filas y columnas de u. (11)  (12) (13) (21) (22) (23) 1 1 1 0 0 0   0    1   0  0 0 0 1 1 1 0 0 1 0 0 1 0 0 1 0 0 1 0 0 1              u11 u12 u13 u21 u22 u23             =         u1+   u2+    u+1   u+2   u+3 Es decir que las tablas v en la fibra de u son las tablas cuyas sumas de filas y columnas son iguales a las de la tabla u. Por ejemplo, suponga que tenemos la tabla u 1.1 de veredictos de pena de muerte y quisiéramos saber si las variables son independientes. Relizarı́amos la prueba de hipótesis con hipótesis nula H0 : u/N ∈ MA y como conocemos el estadı́stico Au, para calcular el p-valor de la prueba deberı́amos considerar solamente las tablas cuyas sumas de filas y columnas sean iguales a las de la tabla 1.1. Ejemplo 1.2. Modelo de Birkhoff Piense ahora que se quiere hacer un estudio sobre unas elecciones donde hay n candidatos y N votantes. Se le pregunta a cada votante que ordene a sus primeros r (1 ≤ r ≤ n) candidatos preferidos. Por ejemplo suponga que n = 5, r = 3 donde tiene los candidatos (a, b, c, d, e). Un votante podrı́a clasificar a sus preferidos como (b, d, e), es decir a b en primer lugar, d en segundo y e en tercero. Todas las posibilidades para un votante serı́an S5,3 = {σ = (σ (1), σ (2), σ (3)) | σ es permutación de r elementos de [n]} 8 En el caso general el conjunto de las posibles elecciones de los votantes es el conjunto de permutaciones de r elementos de n, es decir Sn,r = {σ = (σ (1), ..., σ (r)) |σ es inyección de [r] en [n]} Bajo esta notación, σ ( j) denota el candidato que el votante eligió en la posición j. En este caso el vector aleatorio discreto que quisiéramos estudiar es el vector ~X = (X1 , ..., Xr ) donde X j ∈ [n] es el candidato elegido en la posición j. Para cada candidato k ∈ [n] se especifica una distribucion sobre las posiciones j ∈ [r] con P{Candidato k quede en el lugar j} = p jk donde p jk es un parámetro positivo y se asume que los eventos C jk = Candidato k en el lugar j son entre sı́ independientes para todo ( j, k) ∈ [n] × [r] Esto induce la siguiente distribución sobre Sn,r . p(σ ) = 1 Z r ∏ p jσ ( j) (1.4) j=1 donde Z := ∑σ ∈Sn,r ∏rj=1 θ jσ ( j) es una constante normalizadora. Si θ jk es grande es más probable que el candidato j esté en el ranking en la posición k. Tomando logaritmos sobre la ecuación 1.4 este modelo nos estarı́a diciendo que log(pσ ) = θ1σ (1) + θ2σ (2) + ... + θrσ (r) es decir que la probabilidad de que que los candidatos elegidos sean (σ (1), ..., σ (r)) es el producto de las probabilidades marginales de que el candidato σ (i) sea ubicado en la posición i. De acuerdo con esto el modelo de Birkhoff es un modelo log-lineal. La matriz de configuración del modelo es la matriz A cuyas columnas están rotuladas de acuerdo a todas las posibles permutaciones. Adicionalmente las filas podrı́an marcarse por (i, j) donde cada par ordenado significa que en la posición i queda el candidato j. Para hacer esto más claro suponga n = 4 y r = 2 la matriz A4,2 es la siguiente matriz 9 (11) (12) (13) (14) (21) (22) (23) (24) (12) (13) (14) (21) (23) (24) (31) (32) (34) (41) (42) (43)  1 1 1 0 0 0 0 0 0 0 0 0                 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 1 0 0 1 0 0 1 0 1 0 0 0 0 0 0 1 0 0 1 0 1 0 0 1 0 0 0 0 0 0 0 0 1 0 0 1 0 0 1 0 0  0    0   1    0    0   1   0  Para este modelo tendrı́amos una tabla de contingencia contarı́a la frecuencia de cada permutación de los candidatos, es decir u = (uσ | σ ∈ Sn,r ) donde uσ nos estarı́a diciendo cuántos de los N votantes eligieron la clasificación σ de los candidatos. El problema serı́a determinar si la distribución de probabilidad especificada por esta tabla u proviene del modelo log-lineal especificado por la matriz An,r . Ejemplo 1.3. Modelo de no interacción de tres factores Otro ejemplo de modelo log-lineal es el modelo de no interacción entre tres factores. También se conoce como el modelo de asociación homogénea. En este ejemplo las tablas de contingencia son de tres dimensiones. Consideramos este modelo pues es uno de los ejemplos utilizados por Aoki, Hara y Takemura en [3] para probar sus resultados y su método para calcular los p-valores de las pruebas de hipótesis que nos interesan. Suponga que tiene una variable aleatoria Y cuyo efecto se podrı́a medir en términos de variables aleatorias X1 , ..., Xm . En estadı́stica la interacción mide el efecto de las variables Xi sobre la variable Y . Suponga que Y depende de 3 variables X1 , X2 , X3 y que, en principio, Y = β1 X1 + β2 X2 + β3 X3 + β12 (X1 X2 ) + β13 (X1 X3 ) + β23 (X2 X3 ) + β123 (X1 X2 X3 ). Si el efecto sobre Y es simplemente la suma de los efectos de cada variable decimos que no hay interacción, es decir Y = β1 X1 + β2 X2 + β3 X3 . En caso de que los demás coeficientes no sean cero decimos que hay interacción pues el resultado no es simplemente la suma de los efectos de X1 , X2 , y X3 si no que las variables interactúan ya sea para disminuir el resultado total Y o aumentarlo. Sean X1 , X2 , X3 tres variables y nuevamente pi jk = P(X1 = i, X2 = j, X3 = k). Como se mencionó anteriormente podrı́a haber diferentes tipos de interacción entre estas variables. El modelo de no interacción entre tres factores es una de estas formas de interacción. Otras formas de interacción entre tres factores se pueden encontrar en [4]. El modelo de no interacción entre tres factores se puede describir a partir de la siguiente ecuación. log(pi jk ) = θ + θi + θ j + θk + θi j + θik + θ jk 10 Exponenciando a ambos lados las probabilidades por celdas tienen la forma pi jk = ψi j φ jk ωik En general no existe una expresión para pi jk en términos de las marginales de pi jk . Considere la siguiente tabla tomada de [5] que clasifica una muestra de personas de acuerdo a su religión, nivel de educación y actitud frente al aborto. Protestantes Norte P M N 9 16 41 M 85 52 A 77 30 B Protestantes Sur 8 8 105 35 29 38 37 15 46 Católicos 11 14 38 54 47 35 115 22 25 21 42 C UADRO 1.2: Actitudes frente al aborto en la comunidad blanca cristiana La primera variable serı́a el tipo de Cristiano: Protestante Norte, Protestante Sur o Católico. La segunda variable es educación: Baja (B), Media (M) o Alta (A). La tercera variable es la actitud frente al aborto no terapéutico (Positivo, Mixto o Negativo). Se podrı́a querer determinar si las variables interactúan de alguna manera particular, por ejemplo, si la distribución proviene del modelo de no interacción de tres factores. Como se verá más adelante, concluir que la muestra proviene de la familia de distribuciones del modelo de no interacción entre tres factores es posible usando los algoritmos desarrollados en los capı́tulos 2 y 3. Estos tres ejemplos muestran tres situaciones donde se necesita calcular el p-valor de una prueba de hipótesis para determinar si una muestra de un vector aleatorio discreto proviene de un modelo log-lineal. En el siguiente capı́tulo se realiza una revisión sobre las formas de abordar este problema que existen. En el capı́tulo 3 se propone un nuevo algoritmo para calcular el p-valor de la prueba de hipótesis y en el último capı́tulo se muestran resultados de la implementación y se compara con otro método. Capı́tulo 2 Aproximaciones Al Problema Recuerde el problema inicial que se quiere estudiar. Se tiene una tabla de contingencia u ∈ Z|R| que clasifica una muestra de un vector aleatorio discreto ~X. A partir de esto se quiere determinar si la distribución de probabilidad p ∈ ∆|R|−1 que especifica esta tabla pertenece a algún modelo log-lineal determinado MA donde A es la transformación lineal que describe el modelo. Para esto se plantea la prueba de hipótesis H0 : p ∈ MA vs. Ha : p ∈ / MA En el siguiente capı́tulo se estudian diferentes métodos que resuelven este problema ya sea en el caso general de cualquier modelo log-lineal o para algún modelo particular. Este es el caso de la prueba Chi-Cuadrado de independendencia que que se utiliza para resolver el ejemplo 1.1 de determinar si dos variables son independientes. Luego se estudian los tests exactos y finalmente las aproximaciones algebráicas al problema. 2.1. Prueba Chi-Cuadrado de independencia En 1900 Pearson propuso la siguiente prueba para determinar si dos variables eran independientes a partir de una tabla de contingencia. Esta prueba de hipótesis se basa en la distribución chi-cuadrado y vale remarcar que fue uno de los primeros tests utilizados de inferencia estadı́stica. Lo que Pearson propuso fue que dadas dos variables aleatorias discretas X y Y con posibles valores [m] y [n] y una muestra de tamaño N, (X k ,Y k ), k = 1, ..., N de estas variables se podrı́a plantear el test con hipótesis nula 11 12 H0 : ~p ∈ MA donde A es la matriz de configuración del modelo de independencia y p la distribución de (X,Y ). Sea U = (Ui j ) ∈ Nm×n una tabla aleatoria. Considere el estadı́stico m n (Ui j − ûi j )2 ûi j i=1 j=1 XN2 (U) = ∑ ∑ (2.1) donde ûi j son las frecuencias esperadas. Note que este estadı́stico cuenta para una tabla U qué tan alejados están los valores observados de los valores esperados por celda. Esto es, m n (Observados − Esperados)2 Esperados i=1 j=1 X 2 (U) = ∑ ∑ De esta manera, para rechazar la hipótesis nula esperarı́amos que dada nuestra tabla u observada, la probabilidad de obtener un estadı́stico mayor al nuestro fuera pequeña. Para ilustrar esto considere la siguiente probabilidad. P(X 2 (U) ≥ X 2 (u)) (2.2) Un valor pequeño de esta probabilidad en 2.2 es evidencia en contra de la hipótesis nula pues nos dice que obtener nuestro resultado es muy improbable si la hipótesis nula fuera cierta.Es decir, un valor pequeño nos estarı́a indicando que si las variables realmente fueran independientes haber observado esos resultados serı́a muy improbable. Este valor se conoce como el p-valor de la prueba de hipótesis. Ahora quisiéramos entonces calcular la probabilidad en 2.2. El siguiente teorema es la base del test chi-cuadrado pues permite encontrar la distribución para el estadı́stico y de esta manera calcular la región de rechazo y el p-valor de la prueba de hipótesis. Una prueba de este teorema se puede encontrar en [4] Teorema 2.1. X 2 (U) sigue una distribución aproximadamente chi-cuadrado con (m − 1)(n − 1) grados de libertad, esto es 2 lı́m P(X 2 (U) ≥ t) → P(χ(m−1)(n−1) ≥ t) n→∞ 13 Ahora faltarı́a ver cómo calcular los valores esperados uˆi j de Ui j en 2.1. Dado que estas son las frecuencias que esperarı́amos si la distribución de estas frecuencias proviniera del modelo de independencia quisiéramos que ui j N = ui+ u+ j N2 pues, por la definición 1.8, si X y Y son independientes pi j = pi+ p+ j . Ası́ que en 2.1 podemos reemplazar ûi j utilizando la suma de filas y columnas, esto es, ûi j = ui+ u+ j N . El test se puede concluir calculando el p-valor de la prueba utilizando el teorema 2.1. Por ejemplo, para la tabla 1.1 se obtiene un p-valor de 0.638 es decir que no hay evidencia suficiente para rechazar la hipótesis nula. Este test tiene un defecto importante y es su dependencia del teorema 2.1. Es un test asintótico y para poder asegurar cierto nivel de confiabilidad se requieren tamaños grandes de muestras. Y esto todavı́a no es suficiente. Se requiere, además, que al menos ui j ≥ 5 haciendo que el test sea poco confiable si alguno de los eventos evento es poco probable [4]. Adicionalmente, este test, descrito de esta forma, funciona únicamente para el modelo de independencia y se quisieran tests para cualquier modelo log-lineal. Considere ahora la aproximación de Fishcer al mismo problema problema pero para tablas de contingencia 2 × 2. Esta aproximación dio nacimiento a lo que se conoce como “ tests exactos” pues, en principio, permiten calcular el p-valor de la prueba de manera exacta y sin dependencia del teorema 2.1. De esta manera se soluciona el problema de la dependencia del tamaño muestra y las frecuencias por celda en las tablas de contingencia. Esta idea de los tests exactos fue la que dio nacimiento a la solución propuesta por Diaconis y Sturmfels [5] para tablas de contingencia de cualquier modelo log-lineal. 2.2. Test exacto de Fischer Nuevamente, recuerde la tabla 1.1 de veredictos de pena de muerte. Note que al fijar las sumas de filas y columnas de la tabla solo una entrada de la tabla queda libre. Si ya se conoce por ejemplo la cantidad u11 de hombres blancos que sı́ recibieron la pena de muerte como condena, las otras tres entradas de la tabla ya están determinadas por las sumas de filas y columnas pues 14 u12 = u1+ − u11 u21 = u+1 − u11 y u22 = u+2 − u12 = u+2 − u1+ + u11 Teorema 2.2. Sea u ∈ T (N) una tabla de contingencia 2x2. Entonces para la variable aleatoria U de 2x2 P(U11 = u11 |U1+ = u1+ ,U+1 = u+1 ) = u1+ u11 n−u1+ u+1 −u11 n u+1 Note que este es un caso particular del teorema 1.1 pues como se mostró en el ejemplo 1.1 esta suma de filas y columnas son el estadı́stico suficiente, es decir AU = U1+ ! U+1 ası́ que la condición U1+ = u1+ ,U+1 = u+1 es equivalente a AU = u1+ ! = Au u+1 Por ejemplo para la tabla 1.1 esta proposición nos dice que para calcular el p-valor de la prueba, dado que solo hay finitas tablas en T (n) con esa determinada suma de filas y columnas, consiste en sumar sobre estas tablas. Es decir, la probabilidad en 2.1 es el número de tablas que cumplen X 2 (U) ≥ X 2 (u) sobre el número total, cantidad que se puede calcular exactamente y por esta razón se llaman tests exactos. Más precisamente, ∑ 1χ 2 (v)≥χ 2 (u) p − valor = v∈F (u) ∑v∈F (u) 1 ∑ 1χ 2 (v)≥χ 2 (u) = v∈F (u) |F(u)| Por ejemplo para la tabla 1.1 se obtiene un p-valor de 0.7246 que aunque tampoco permite rechazar la hipótesis nula es significativamente mayor al obtenido utilizando el test chi-cuadrado. A continuación se muestra cómo generalizar este test exacto a los demás modelos. 15 2.3. Aproximaciones algebráicas El test exacto de Fischer se podrı́a generalizar a tablas de mayores dimensiones del modelo de independencia pero más importante aún, a cualquier modelo log-lineal gracias al lema 1.1 y es lo que se introduce ahora. 2.3.1. Estadı́stico χ 2 y Estimadores de Máxima Verosimilitud Recuerde que en el test exacto de Fischer se calcula la probabilidad P(X 2 (U) ≥ X 2 (u)|AU = Au) de manera exacta. Basados en el lema 1.1 esta probabilidad se calcula usando el estadı́stico 2.1 m n (Ui j − ûi j )2 ûi j i=1 j=1 X 2 (U) = ∑ ∑ . En este caso si ri y c j son las sumas de filas y columnas respectivamente, como uˆi j eran las frecuencias esperadas, las tomábamos como ri c j /n dado que bajo la hipótesis nula eran independientes. Para cualquier otro modelo log-lineal MA la generalización natural de este estadı́stico serı́a n X 2 (U) = (Ui − ûi )2 ûi j=1 ∑ donde ûi = N p̂i , N el tamaño de la muestra en u y p̂i es el estimador de máxima verosimilitud discutido a continuación. Si tenemos esto ya se podrı́a diseñar un test exacto de acuerdo con la definición del p-valor de la prueba y el lema 1.1. Si µ es la medida no uniforme sobre la fibra F(u) definida en este lema tenemos que p − valor = P(X 2 (U) ≥ X 2 (u)|AU = Au) = Eµ [1X 2 (U)≥X 2 (u) ] = ∑v∈F (u) 1X 2 (U)≥X 2 (u) |F(u)| Definición 2.1. Sea ~X (1) , ~X (2) , ..., ~X (n) ∼ Pθ variables independientes e idénticamente distribuidas de acuerdo una distribución Pθ . la función de verosimilitud se define como n Ln (θ ) := ∏ P(~X = ~X ( j) ) j=1 (2.3) 16 y la función de log-verosimilitud como `(θ ) := log(Ln (θ )) (2.4) El estimador de máxima verosimilitud (estimador ML) es la variable Θ := argmaxθ Ln (θ ) n = argmaxθ ∏ P(~X = ~X ( j) ) j=1 Para el caso que nos interesa t Θ = argmaxθ eθ AU Z(θ )n (2.5) donde U(~X (1) , ..., ~X (n) )i es el número de X ( j) iguales a i ∈ R. Note que U es una variable aleatoria. Para cada muestra particular x(1) , ..., x(n) tenemos el estimado de máxima verosimilitud t eθ Au θ̂ := argmaxθ Z(θ )n El estimador ML θ̂ es el valor del parámetro tal que maximiza la probabilidad de observar ~X (1) , ..., ~X (n) . Lema 2.1. Si A tiene rango completo entonces el estimador de máxima similitud está dado por la única solución p(θ ∗ ) de la ecuación A un = Ap(θ ∗ ) donde p(α) := ∑ pi (α)ei i∈R Demostración. Recuerde que Z(θ ) := ∑i∈R eθ t Ae i . Como resultado se tiene entonces que la fun- ción de log-verosimilitud está dada por `(θ ) = θ t Au − n log(Z(θ )) y el gradiente respecto a θ está dado por t eθ Aei A ji e j = Au − nA ∑ pi (θ )ei Au − n ∑ ∑ j=1n i∈R Z(θ ) 17 que es cero si y solo si θ satisface la ecuación A un = Ap(θ ). Diferenciando nuevamente observamos que la Hessiana de `(θ ) está dada por la matriz H(θ ) := A[diag(pi (α)) − p(θ )p(θ )t ]At Ahora veamos que la matriz [diag(pi (α)) − p(θ )p(θ )t ]At es negativa semidefinida. Esto se debe a que representa la forma cuadrática ψ(q) := ∑ pi q2i − (∑ pi qi )2 . Ahora, la función x2 es estrictamente convexa en R entonces por la desigualdad de Jensen sabemos que para cualquier variable aleatoria Y se tiene E(Y )2 ≤ E(Y 2 ) Si Y es una variable aleatoria con P(Y = qi ) = pi (θ ) esta desigualdad de traduce en que ψ(q) sea negativa semidefinida. Más aún, como los pi (θ ) son estrictamente positivos, la igualdad se tiene si y solo si todos los qi coinciden, caracterizando ası́ el kernel de la forma. Concluimos entonces que `(θ ) es cóncava y entonces su máximo global se alcanza en cualquier punto donde su gradiente sea 0. Más aún, si θ1 y θ2 son óptimos globales de la función de verosimilitud entonces el vector uniéndolos es una dirección hacia donde la hessiana evaluada en θ1 se desvanece que por nuestra hipótesis sobre la inyectividad de At implica que θ1t A − θ2t A = [c, ..., c] para alguna constante c. Esto significa que ambas distribuciones son iguales módulo una constante multiplicativa. Es decir, p(θ1 ) = p(θ2 ) mostrando ası́ la unicidad. 2.3.2. Muestreo Note que el test exacto de Fischer necesita calcular la probabilidad de todas las tablas en la fibra. En general este es un problema defı́cil por la cardinalidad de este conjunto. La solución presentada por Diaconis y Sturmfels en [5] consiste en tomar una muestra de estas tablas con la distribución apropiada dada por el lema 1.1 para calcular una aproximación del p-valor evitando encontrar todas las tablas. Por ejemplo para el modelo de independencia donde el estadı́stico suficiente son las sumas de filas y columnas, para obtener una muestra de tablas de contingencia con la suma de filas y columnas deseadas se podrı́a pensar en empezar con una tabla dentro de la fibra F(u) y moverse 18 a la siguiente tabla escogiendo dos filas y dos columnas y sumando y restando 1 de alguna de las siguientes maneras, cada una con probabilidad 1 2 + − − + − + + − (2.6) De esta forma la tabla obtenida también tendrá la misma suma de filas y columnas. Si el resultado es una tabla con entradas negativas se descarta y se vuelve a intentar. Esta es la idea general del procedimiento propuesto por Diaconis y Sturmfels en [5]. Los “movimientos.entre tablas son realmente una base de Markov para el espacio F(u). En el caso general de cualquier modelo loglineal habrı́a que encontrar entonces una una base de Markov para F(u) y moverse dentro de la fibra para obtener una muestra con las probabilidades dadas por el lema 1.1. Este procedimiento permite definir una cadena de Markov para muestrear tablas con la distribución de U|AU = Au evitándose calcular exactamente el p-valor de la prueba. Para crear la cadena la idea es encontrar movimientos que conecten a todas las tablas de la fibra y ajustar la probabilidad con el algoritmo de Metropolis-Hastings. Cómo conectar la fibra es ilustrado a continuación. Definición 2.2. Sea MA el modelo log-lineal asociado a la matriz A ∈ Z|R|×d con kernel entero KerZ (A) = Ker(A) ∩ N|R|×d = {v ∈ Z|R|×d |Av = 0}. B ⊆ KerZ(A) es una base de Markov para MA si para cualquier u ∈ T (n) y cualesquiera v, v0 ∈ F(u) existe L ∈ N y u1 , u2 , ...uL ∈ B tales que L l k=1 k=1 v0 = v + ∑ uk y v + ∑ uk ≥ 0∀l = 1, ..., L Los elementos de B se llaman movimientos Dado que esta base de Markov nos garantiza que podemos llegar a cualquier tabla en la fibra con probabilidad positiva podemos muestrear tablas ajustando las probabilidades con el algoritmo Metropolis-Hastings como se muestra a continuación. Algoritmo 2.1. (Metropolis-Hastings) Entrada: Una tabla u ∈ T (n) y una base de Markov B para MA , un tamaño de muestra N. N Salida: Sucesión de estadı́sticos (X 2 (vt ))t=1 1. inicialice v1 = u 19 2. Para t = 1, ..., N − 1: a) seleccione uniformemente ut ∈ B b) Si mı́n(vt + ut ) < 0, vt+1 = vt . De lo contrario ( vt+1 = vt + ut con probabilidad q 1−q vt donde P(U = vt + ut |AU = Au) q = mı́n 1, P(U = vt |AU = Au) c) calcule χ 2 (vt ) Note que para calcular la probabilidad q en el paso 2 no hay necesidad de calcular la constante normalizadora, es decir sumar sobre todas las tablas pues es la razón entre dos de estas probabilidades cancelando ası́ la constante, ası́, en cada paso t del algoritmo 1/ ∏i∈R (uti + vti )! q = mı́n 1, 1/ ∏i∈R vti ! N del algoritmo 2.1 es una cadena de Markov aperiódica, Teorema 2.3. La salida (X 2 (vt ))t=1 reversible e irreducible con distribución estacionaria igual a la de la tabla aleatoria X 2 (U)|AU = Au M del algoritmo 2.1 satisface Corolario 2.1. La salida (X 2 (vt ))t=1 N ∑ 1X (v )≥X (u)) = P(X 2 (U) ≥ X 2 (u)|AU = Au) N→∞ lı́m 2 t 2 t=1 2.4. Base Lattice Para el algoritmo 2.1 es necesaria una base de Markov para KerZ (A). Esta base no siempre es fácil de encontrar. En algunos casos se puede utilizando el software 4ti2 pero en general es costoso en tiempo y difı́cil computacionalmente. Dado que la base de Markov conecta cualquier fibra y no solo una en particulas F(u) se podrı́a pensar en simplificar el problema encontrando un conjunto que garantice conectividad al menos dentro de la fibra que nos interesa. Esto sigue siendo un problema difı́cil como se muestra en [3]. 20 Estos autores proponen entonces cambiar el problema por el de encontrar una base del lattice que es mucho más fácil. Como se verá, todo movimiento de la base de Markov se puede expresar como combinación lineal de elementos de esta base lattice ası́ que se pueden generar los coeficientes de la combinación con diferentes distribuciones siempre y cuando cualquier combinación entera (pues queremos quedarnos dentro de la fibra) de coeficientes tenga probabilidad positiva. Esto garantizarı́a que con probabilidad positiva obtenemos todos los movimientos de una base de Markov. Definición 2.3. L = {z1 , ..., zk } ⊆ KerZ (A) es una base lattice si cualquier z ∈ KerZ (A) se puede escribir de manera única como combinación entera de estos, es decir que existen únicos αi ∈ Z i = 1, ..., k tales que z = α1 z1 + α2 z2 + ... + αk zk Ası́, garantizando que cualquier combinación entera α1 , ..., αk tiene probabilidad positiva podemos generar cualquier elemento de la base de Markov con probabilidad positiva (no necesariamente de manera uniforme como en el algoritmo 2.1 de Diaconis y Sturmfels) 2.4.1. Cómo encontrar Base Lattice Para encontrar la base lattice de una matriz A Aoki, Hara y Takemura [3] utilizan la descomposición de l’Hermite de la matriz A descrita a continuación. Esta descomposición es el equivalente a la reducción escalonada de una matriz pero sobre los enteros. Definición 2.4. Sea H = (hi j ) una matriz de m con coeficientes enteros. Se dice que H está en forma normal de l’Hermite si existe r ≤ n y una función estrictamente creciente de {r + 1, ..., n} en {1, ..., m} tal que 1. Las primeras r columnas de H son 0. 2. Para r + 1 ≤ j ≤ n h f ( j) j ≥ 1 hi j = 0 si i > f ( j) 0 ≤ m f (k) j < m f (k)k si k < j Teorema 2.4. Sea A ∈ Zm×n una matriz con entradas enteras. Entonces existe una única matriz H ∈ Zm×n en forma normal de l’Hermite y U ∈ GLn (Z) tales que H = AU. 21 Demostración. La demostración de la existencia en este teorema se da con el siguiente algoritmo tomado de [6] que retorna las matrices H y U. Algoritmo 2.2. Sea A = (ai j ) una matriz de m × n con columnas Ak para k = 1, ..., m 1. Inicialice: Si m ≤ n i ← m, k ← k,l ← 1. Si m > n, l ← m − n + 1 2. Terminó fila?: Si ai j = 0 para j < k, si aik < 0 reemplace Ak por −Ak y vaya a 5. 3. Escoja pivote: Sea ai j0 una entrada diferente de 0 con valor absoluto mı́nimo entre las entradas diferentes de 0. Si j0 < k intercambie la calumna Ak con la columna A j0 . Adicionalmente, si aik < 0 reemplace Ak por −Ak . Fije b ← aik 4. Reduzca: para j = 1, ..., k − 1: q ← ai j /b y A j ← A j − qAk . Vaya a 2. 5. Reducciones finales set b ← aik . Si b = 0, k ← k + 1 y vaya a 6. De lo contrario, para j > k repita: q ← ai j /b y A j ← A j − qAk 6. Terminó?: Si i = l entonces para j = 1, ..., n − k + 1 fije H j ← A j+k−1 y termine el algoritmo. De lo contrario, i ← i − 1, k ← k − 1 y vaya a 2. Ası́, si se tiene una base lattice para el kernel entero de la matriz H, suponga KerZ (H) = sp{v1 , ..., vl } entonces Hvi = AUvi = 0 ∀i es decir que como U es invertible la una base lattice para A es {Uv1 , ...,Uvl } Para encontrar {v1 , ..., vl } note que como H esta en forma normal de l’Hermite, si H es de m × n   0 ... 0 ∗ ∗ ... ∗   0 ... 0 0 ∗ ... ∗   H =  ..   .   0 ... 0 0 ... 0 ∗ Una base lattice para KerZ (H) es entonces el conjunto {e1 , ..., er } donde ei es el i−ésimo vector de la base canónica de Rn y {Ue1 , ...,Uer } es base lattice para A. 22 2.4.2. Cómo generar los movimientos Ya teniendo la base lattice se puede proceder a generar movimientos a partir de combinaciones lineales con coeficientes enteros de los vectores en la base lattice. Para garantizar que cualquier movimiento tenga probabilidad positiva (y ası́ mantener la conectividad dentro de cada fibra F(u) para u ∈ N|R| ) Aoki, Hara y Takemura [3] proponen los dos siguientes algoritmos para generar los coeficientes. Algoritmo 2.3. 1. Genere |αi | ∼ Pois(λ ) para i = 1, ..., k. Excluya el caso α1 = α2 = ... = αk = 0 2. αi ← |α| o αi ← −|α| cada uno con probabilidad 1 2 Algoritmo 2.4. 1. Genere ∑ki=1 |αi | = |α| ∼ geom(p) 2. Asigne α1 , .., αk con la distribución multinomial haciendo que (α1 , ..., αk ) ∼ Mn(|α|, 1k , ..., 1k ) De esta forma se puede reemplazar el paso 2.a en el algoritmo 2.1 que utiliza la base de Markov.Si bien se daña la uniformidad en la selección de los movimientos, este algoritmo permite muestrear tablas de modelos donde no se conoce una base de Markov. Un ejemplo de esto es el modelo de no interacción de tres factores descrito en el ejemplo 1.3 definido en el capı́tulo uno. Utilizando estos algoritmos Aoki, Hara y Takemura [3] muestran resultados buenos para este ejemplo y resultados comparables a los de Diaconis y Sturmfels [5] en los casos en que sı́ se conoce una base de Markov para el modelo. Capı́tulo 3 El nuevo algoritmo Retomando el algoritmo 2.1 de Diaconis y Sturmfels [5]se puede ver que el algoritmo consiste en empezar con una tabla de contingencia u ∈ N|R| y tomar una muestra de F(u) con la distribución de U|AU = Au. Acá, A es la matriz asociada a un modelo log-lineal y quisiéramos saber si la distribución especificada por las frecuencias en u proviene de este modelo. En resumen se está tomando una muestra del politopo P = {x ∈ R|R| |Ax = Au} intersectado con el lattice N|R| con la distribución deseada. En el siguiente capı́tulo se propone un nuevo algoritmo para generar esta muestra que parte de realizar un muestreo continuo dentro del politopo P. Este problema tiene varias componentes. Primero se quisiera realizar el muestreo continuo dentro del politopo P. Sin embargo estas tablas no tendrán entradas enteras con probabilidad 1 ası́ que en segunda instancia habrı́a que corregir esto. En tercer lugar está el problema de que la muestra resultante tenga la distribución deseada. Ası́ en resumen el problema consiste en: 1. Muestrear continuamente en P 2. Aproximar las tablas para que tengan entradas enteras 3. La muestra final proviene de la distribución deseada (dada por el lema 1.1). Para resolver estos tres problemas se propone el siguiente algoritmo. Algoritmo 3.1. Entrada: Una tabla u ∈ T (n), la matriz A que define el modelo log-lineal MA M Salida: Sucesión de estadı́sticos (X 2 (vt ))t=1 1. Tome una muestra continua uniforme sobre el politopo P = {x ∈ R|R| |Ax = Au}. 23 24 2. Redondee cada tabla sin dañar la uniformidad de la muestra. 3. Ajuste las probabilidades utilizando el método del rechazo. A continuación se muestra entonces cómo se realizan cada uno de estos pasos. 3.1. Muestreo Continuo El problema de muestrear continuamente dentro de un politopo P ha sido estudiado por muchos autores y existen varios métodos para resolverlo. Una revisión de este tema se puede encontrar en [7]. El procedimiento general está dado por caminatas aleatorias que empiezan en un punto x0 dentro del politopo P y en cada paso se mueven a otro punto en un vecindario de x0 de acuerdo a alguna distribucuón que depende del punto donde se encuentra. El método que se utilizó para implementar el muestreo continuo es conocido como Hit and Run. Considere un politopo P definido por P = {x ∈ Rn | Ax ≤ b} donde A es una matriz A ∈ Rm×n y b un vector b ∈ Rm . Siempre se cuenta con un oráculo que indica si un punto x ∈ Rn pertenece o no al politopo P. Este método de muestreo continuo es una caminata geométrica en P que primero selecciona un segmento por el punto actual x y luego un punto uniforme en este segmento. Algoritmo 3.2. Hit and Run Entrada: Un punto inicial x0 ∈ P ⊆ Rn , matriz A y vector b que definen el politopo P, un tamaño de muestra N. Salida: Sucesión de puntos (xi )Ni=0 en el politopo. Para t = 1, ..., N − 1, si está en el punto xt , 1. Escoja una dirección: Genere u1 , ..., un ∼ N(0, 1) que definen la dirección~u = (u1 , ..., un ) y tome d~ = ~u/k~uk el vector normalizado. Defina la recta l = ~xt + sd~ para s ∈ R que pasa por xt y tiene dirección d. 2. Escoja un punto: Escoja uniformemente un punto r en el intervalo [a, b] definido por la longitud de la cuerda l ∩ P. Muévase al punto ~xt+1 =~xt + rd~ El punto escogido en el paso 2 del algoritmo efectivamente pertenece a P pues P es politopo y por lo tanto es convexo. Teorema 3.1. La distribución estacionaria del algoritmo 3.2 es la distribución uniforme. Una prueba de este teorema se puede encontrar en [7] 25 3.2. Aproximación Para el problema que nos interesa solo necesitamos tablas de contingencia que cuentan frecuencias, es decir que siempre tendrán entradas en los naturales. Sin embargo las tablas obtenidas en la anterior sección no tendrán entradas enteras con probabilidad 1. Para solucionar este problema se utiliza un redondeo. Este problema no es tan sencillo como aproximar cada entrada al natural más cercano pues bajo este redondeo las tablas en la frontera tendrán menos probabilidad al haber menos tablas que se redondean a ellas. Para el caso particular del modelo de independencia Ben Morris propone en [8] ampliar el politopo P a un politopo P0 que satisfaga que, luego del redondeo, la probabilidad de cualquier punto del lattice tenga igual probabilidad. Este resultado puede ser extendido a cualquier politopo y es uno de los resultados principales del presente proyecto. El teorema 3.4 es un nuevo resultado que se encontró en el desarrollo de este trabajo y que permite muestrear tablas de cualquier modelo log-lineal de manera uniforme. Primero considere solo el modelo de independencia. Recuerde que se tiene una muestra de tamaño N de dos variables X y Y clasificada en una tabla de contingencia u con sumas de filas ~r = (r1 , ..rm ) y de columnas ~c = (c1 , ..., cn ). Sea n P = {x ∈ Rm×n ≥0 | m ∑ xi j = ri ∀i ∈ [m] , j=1 ∑ xi j = c j ∀ j ∈ [n]} i=1 el conjunto de todas las tablas con entradas reales no negativas con sumas de filas y columnas dadas y I(r, c) = Zm×n ∩ P . En resumen, la idea de Morris en [8] es la siguiente: 1. Tome P0 ⊇ P un politopo más grande que P. 2. Tome y ∈ P0 3. Redondee y a z. Si z ∈ / I(r, c) repita 2. Para una tabla x ∈ I(r, c) sea vol(x) el número de tablas que se redondean a x. Queremos que para cada tabla en I(r, c) este volumen sea constante y de esta forma si se toma una muestra uniforme en P0 , la muestra redondeada será uniforme en I(r, c). Sin embargo es claro que hay que compensar el ajuste de este volumen con la probabilidad de que la tabla final esté en I(r, c). Es decir, entre más se corrija el volumen de cada tabla x mayor será el politopo P0 y mayor la 26 probabilidad de que las tablas finales estén por fuera del politopo original P y por ende de la fibra F(u) haciendo que el tiempo que se demorara en correr el algoritmo sea superior. Para el modelo de independencia el politopo P de las tablas en la fibra F(u) de la tabla inicial u con sumas r y c está descrito por las tablas x ∈ N m×n que cumplen las igualdades n ∑ xi j = ri para i = 1, ..., m ∑ xi j = c j para j = 1, ..., n j=1 m i=1 Note que las tablas están completamente especificadas por los valores en las entradas (i, j) para i < m, j < n. Es decir, bajo las siguientes identificaciones n−1 xin = ri − ∑ xi j i = 1, ..., m − 1 para j=1 m−1 xm j = c j − ∑ xi j j = 1, ..., n para i=1 este politopo se puede describir con las desigualdades n−1 ∑ xi j ≤ ri para i = 1, ..., m − 1 para j = 1, ..., n − 1 j=1 m−1 ∑ xi j ≤ c j i=1 m−1 n−1 m−1 ∑ ∑ xi j ≥ ∑ ri − cn i=1 j=1 i=1 La ventaja de esta descripción es que permite muestrear de un politopo de dimensión completa en R(m−1)×(n−1) . Recuerde que tenemos que vol(x) para x ∈ Nm×n se define como el volumen de tablas en el politopo “agrandado”P0 que se redondean a x, es decir que es el volumen de la intersección entre P0 y el hipercubo (m − 1)(n − 1)-dimensional centrado en x. Dicho de esta manera se puede caracterizar vol(x) de la siguiente manera. Sea E una matriz aleatoria de (m − 1) × (n − 1) con entradas distribuidas uniformemente en el intervalo [− 21 , 12 ]. Entonces tenemos 27 que vol(x) = Pr(x + E ∈ P0 ) y quisiéramos que vol(X) ≈ 1 para cualquier tabla x ∈ I(r, c). Se puede entonces definir el politopo P0 de la siguiente manera. Sea 0 < ε < 1 2 un parámetro de error y sean C1 ,C2 ,C3 constantes definidas por C1 = 1 log(2/ε), 2 C2 = log(4/ε) 1 + , 2 log m 2 C3 = log(4/)n 1 + 2 log n 2 P0 es el conjunto de las matrices Y ∈ R(m−1)×(n−1) que satisfacen −1 2 p Ymn ≥ − C1 mn p Yin ≥ − C2 n log m p Ym j ≥ − C3 m log n Yi j ≥ para i < m y j < n. Como se muestra en el siguiente teorema estas desigualdades que definen P0 permiten que efectivamente vol(X) ≈ 1. Teorema 3.2. Sea 0 < ε < 12 . Para cualquier tabla X ∈ I(r, c) se tiene que 1 − ε ≤ vol(X) ≤ 1 La prueba de este teorema y la elección de las constantes C1 , C2 y C3 se basa en la desigualdad de Hoeffding. Adicionalmente, Morris en [8] demuestra que no solo esta elección de P0 permite obtener una muestra uniforme sino que además se puede realizar en algunos casos en tiempo polinomial. Su resultado principal es el siguiente teorema que prueba que si las sumas de filas y columnas cumplen ciertas condiciones entonces el algoritmo corre en tiempo polinomial. Teorema 3.3. Suponga que las sumas de filas y columnas satisfacen ri = Ω(n3/2 mlogm) y c j = Ω(m3/2 nlogn) para todo i y todo j. Entonces el número esperado de ensayos antes de que el algoritmo genere un punto uniforme de I(r, c) es O(1/ε) Como se mencionaba anteriormente se logró extender el teorema 3.2 al problema más general de muestrear puntos del lattice contenido en un politopo P y por lo tanto al de muestrear tablas de contingencia de cualquier modelo log-lineal. Teorema 3.4. Sea P = {x ∈ Rn | Ax ≤ b} donde A ∈ Rm×n y b ∈ Rm y K = Zn ∩ P. Sea K 0 = {x ∈ Zn | Ax ≤ b + k} donde 28 k = (k1 , ..., km ) n y ki = −2 ∑ a2i j log(ε/n) j=1 Sea E un vector aleatorio (n − 1)-dimensional con entradas distribuidas uniformemente en el / P0 ) < ε intervalo [− 12 , 21 ] y x ∈ K. Entonces, Pr(x + E ∈ Para probar este teorema se utiliza la desigualdad de Hoeffding enunciada a continuación Teorema 3.5. Sean Y1 , ...,Yn variables aleatorias independientes tales que ai ≤ Yi ≤ bi (i = 1, ..., n). Sea Ȳ = (Y1 + ... +Yn )/n y µ = EȲ . Entonces para t > 0 Pr(Ȳ − µ > t) ≤ e−2t 2/ ∑ni=1 (bi −ai )2 (3.1) Demostración. Teorema 3.4 Sea x0 = x + E. Si ai denota el vector con la i-ésima fila de la matriz A = (ai j ) tenemos que Pr(x + E ∈ / K 0 ) = Pr(x0 ∈ / K0) = Pr( at1 x0 > b1 + k1 ∨ at2 x0 > b2 + k2 ∨ ... ∨ atn x0 > bn + kn ) m = ∑ Pr(ati x0 > bi + ki ) i=1 Ahora, para cada i ∈ [m] se tiene que ati x ≤ bi entonces bi − ati x ≥ 0 y Pr(ati x0 > bi + ki ) = Pr(ati x + ati E > bi + ki ) = Pr(ati E > (bi − ati x) + ki ) < Pr(ati E > ki ) 29 Como E j se distribuye uniforme en [− 12 , 12 ] j = 1, ..., n entonces ai j E j es uniforme en [− |ai j | |ai j | 2 , 2 ]. Entonces Ē = 0 por linealidad del valor esperado. Aplicando la desigualdad de Hoeffding a las variables ai j E j j = 1, ..., n 2 n 2 Pr(ati E > ki ) ≤ e−ki / ∑ j=1 2(ai j ) ε < m Y finalmente se tiene entonces que m Pr(x + E ∈ / K 0 ) = ∑ Pr(ati x0 > bi + ki ) i=1 m < ∑ Pr(ati E > ki ) i=1 m ε i=1 m <∑ =ε 3.3. Método del Rechazo Hasta ahora, el algoritmo produce una muestra casi uniforme de tablas de contingencia de la fibra F(u) para alguna tabla de contingencia u de algún modelo log-lineal MA . Pero se quiere que la muestra tenga la distribución de U|AU = Au dada por el lema 1.1. Una forma de ajustar estas probabilidades es el método del rechazo. Asuma que Ω es un conjunto finito y se quiere una muestra de una distribución p∗ (x) en Ω. Suponga que Se conoce una función p(x) proporcional a p∗ (x) que se puede evaluar. Se conoce una distribución q∗ (x) en Ω de la cual se puede muestrear y una función q∗ (x) que se puede evaluar. Se conoce una constante c > 0 tal que cq(x) ≥ p(x) para cualquier x ∈ Ω El método del rechazo realiza lo siguiente 30 Algoritmo 3.3. 1. En el paso t = 0 empiece con cualquier punto x0 ∈ Ω 2. En el paso t muestree w ∈ Ω de acuerdo a q∗ (x) y genere y ∼ Unif(0, cq(w)). Si y < p(w) defina xt+1 := w (Acepta la muestra) Si y > p(w) defina xt+1 := xt (Rechace la muestra) La sucesión (xt )t∈N es una cadena de Markov con distribución estacionaria p∗ (x). Para el caso que nos interesa de los modelos log-lineales se puede tomar la medida uniforme en F(u) donde q(x) = 1 para cualquier x ∈ F(u). p(x) se puede tomar como p(x) = 1 . ∏ vi ! La constante c óptima para esta elección de q serı́a c := máx v∈F (u) 1 1 = ∏i∈R vi ! mı́nv∈F (u) ∏i∈R vi ! Sin embargo aparece nuevamente el problema de la cardinalidad del conjunto F(u) para encontrar este máximo. El siguiente lema que permitirá encontrar un aproximado de esta constante c. Lema 3.1. Sean v1 , ..., vm enteros no negativos y k = ∑m i=1 vi . Entonces m k ∏ vi ! ≥ ( n !)n i=1 y m 1 1 ∏ vi ! ≤ ( k !)n i=1 n Demostración. Sean v1 y v2 enteros no negativos y suponga sin pérdida de generalidad v1 ≥ v2 entonces v1 (v1 − 1)!(v2 + 1)! v2 + 1 v1 = (v1 − 1)!(v2 + 1)! v2 + 1 v1 !v2 ! = 31 Como v1 y v2 son enteros no negativos y v1 > v2 se tiene que v1 v2 +1 ≥ 1, entonces ≥ (v1 − 1)!(v2 + 1)! Ası́, el producto v1 , . . . , vn se minimiza cuando más cercanos están los factores. Note entonces que si la distribución p∗ está dada por p∗ (u) = P(U = u|AU = Au) = 1/ ∏i∈R ui ! ∑v∈F (u) 1/ ∏i∈R vi ! podemos tomar p(x) = 1/ ∏i∈R xi ! y usando el lema anterior p(x) ≤ c para cualquier x ∈ F(u). Como q(u) = 1 efectivamente p(x) ≤ cq(x) . Capı́tulo 4 Resultados En este capı́tulo se muestran algunos ejemplos para el modelo de independencia para los que se implementó el nuevo algoritmo. En el ejemplo 4.1 se muestran ejemplos en dimensión baja donde el algoritmo funciona correctamente. Para comparar, también se implementó el muestreo utilizando la base Lattice y se observa en algunos casos un desempeño comparable. En el ejemplo 4.2 se considera un ejemplo en dimensión mayor y se muestran algunas debilidades del nuevo algoritmo. Finalmente se muestran algunas conclusiones sobre los resultados 4.1. Ejemplos Ejemplo 4.1. Se generaron diferentes tablas aleatorias de dimensiones m × n con entradas en diferentes intervalos [a, b]. Se generó una muestra de tamaño N = 2500 y se comparó el algoritmo propuesto con el algoritmo que utiliza la base lattice, encontrando los coeficientes para los movimientos de la base de Markov utilizando el el algoritmo 2.3. Para cada m, n, a y b 2 se muestra el histograma del estadı́stico chi-cuadrado y la densidad χ(m−1)(n−1) . 1. Modelo independencia para dos variables X y Y con 3 y 2 posibles resultados respectivamente y entradas ui j ∈ {3, ..., 9} X Y 1 2 3 1 3 7 8 2 7 4 5 C UADRO 4.1: Tabla de Contingencia 2 × 3 32 33 F IGURA 4.1: Nuevo Algoritmo dimensión 2 F IGURA 4.2: Base Lattice dimensión 2 2. Modelo de intependencia para dos variables X y Y con 4 y 2 posibles resultados respectivamente. Tabla con entradas ui j ∈ {3, ..., 9} X Y 1 2 3 4 1 4 3 8 7 2 5 7 4 4 C UADRO 4.2: Tabla de Contingencia 2 × 4 F IGURA 4.3: Nuevo Algoritmo dimensión 3 Tabla con entradas ui j ∈ {4, ..., 9} F IGURA 4.4: Base Lattice dimensión 3 34 X Y 1 2 3 4 1 8 8 4 9 2 8 8 6 7 C UADRO 4.3: Tabla de Contingencia 2 × 4 F IGURA 4.5: Nuevo Algoritmo dimensión 3 F IGURA 4.6: Base Lattice dimensión 3 Tabla con entradas ui j ∈ {5, ..., 9} X Y 1 2 3 4 1 9 6 6 5 2 8 5 6 6 C UADRO 4.4: Tabla de Contingencia 2 × 4 F IGURA 4.7: Nuevo Algoritmo dimensión 3 F IGURA 4.8: Base Lattice dimensión 3 3. Modelo de intependencia para dos variables X y Y con 3 posibles resultados cada una. 35 Tabla con entradas ui j ∈ {3, ..., 9} X Y 1 2 3 1 5 9 9 2 7 9 3 3 6 5 9 C UADRO 4.5: Tabla de Contingencia 3 × 3 F IGURA 4.9: Nuevo Algoritmo dimensión 4 F IGURA 4.10: Base Lattice dimensión 4 4. Tabla con entradas ui j ∈ {7, ..., 10} X Y 1 2 3 1 10 10 9 2 10 9 8 3 10 8 10 C UADRO 4.6: Tabla de Contingencia 3 × 3 F IGURA 4.11: Nuevo Algoritmo dimensión 4 F IGURA 4.12: Base Lattice dimensión 4 36 Modelo de intependencia para dos variables X y Y con 5 y 2 posibles resultados respectivamente. Tabla con entradas ui j ∈ {4, 5, 6} X Y 1 2 3 4 5 1 5 4 6 4 4 2 4 4 5 4 5 C UADRO 4.7: Tabla de Contingencia 2 × 5 F IGURA 4.13: Nuevo Algoritmo dimensión 4 F IGURA 4.14: Base Lattice dimensión 4 Tabla con entradas ui j ∈ {6, 7, 8} X Y 1 2 3 4 5 1 7 8 7 8 6 2 7 6 6 8 6 C UADRO 4.8: Tabla de Contingencia 2 × 5 • Tamaño de muestra N = 2500 37 F IGURA 4.15: Nuevo Algoritmo dimensión 4 F IGURA 4.16: Base Lattice dimensión 4 • Tamaño de muestra N = 25000 para el nuevo algoritmo F IGURA 4.17: Nuevo Algoritmo dimensión 4. N = 25000 Ejemplo 4.2. El siguiente ejemplo fue tomado de [5]. La siguiente tabla de contingencia clasifica una muestra de 82 personas de acuerdo a su fecha de nacimiento y de deceso. Este ejemplo es interesante pues al intentar correr el nuevo algoritmo no fue posible generar nuevas tablas dentro de la fibra. 38 Mes Nacimiento Mes de Muerte Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic Total Ene 1 0 0 0 1 2 0 0 1 0 1 0 6 Feb 1 0 0 1 0 0 0 0 0 1 0 2 5 Mar 1 0 0 0 2 1 0 0 0 0 0 1 5 Abr 3 0 2 0 0 0 1 0 1 3 1 1 12 May 2 1 1 1 1 1 1 1 1 1 1 0 12 Jun 2 0 0 0 1 0 0 0 0 0 0 0 3 Jul 2 0 2 1 0 0 0 0 1 1 1 2 10 Ago 0 0 0 3 0 0 1 0 0 1 0 2 7 Sept 0 0 0 1 1 0 0 0 0 0 1 0 3 Oct 1 1 0 2 0 0 1 0 0 1 1 0 7 Nov 0 1 1 1 2 0 0 2 0 1 1 0 9 Dic 0 1 1 0 0 0 1 0 0 0 0 0 3 Total 13 4 7 10 8 4 5 3 4 9 7 8 82 C UADRO 4.9: Relación entre mes de nacimiento y muerte Para tamaños de muestra 10000, al agrandar el politopo usando el teorema 3.4 todas las tablas encontradas estaban fuera de la fibra (tenı́an entradas negativas o la suma de filas y columnas no era correcta) y al intentar correr el algoritmo sin agrandar el politopo simplemente la cadena no se movı́a. El ejemplo es importante para ver posibles fallas y mejoras del algoritmo como el problema de dimensionalidad pues el algoritmo depende fuertemente de la forma del politopo.Esto podrı́a estar relacionado con problemas numéricos en el código o con problemas de concentración de la medida. 4.2. Conclusiones En el ejemplo 4.1 hay varios casos que muestran que el algoritmo propuesto funciona. Esto es cuando la dimensión del politopo en el que se toma la muestra es pequeña. Sin embargo es claro que la primera limitación del código implementado es la dimensión. Por ejemplo, el simple hecho de pasar de una tabla 2 × 3 a una 3 × 3 equivale a muestrear en un politopo de dimensión 2 y pasar a uno de dimensión 4 y la diferencia es evidente en las gráficas. En estos casos aumentar el tamaño de muestra ayuda como se ve para la tabla de 2×5 al final del ejemplo 4.1 pero esto aumenta considerablemente el tiempo que se tarda el algoritmo mientras que el método de Aoki, Hara y Takemura se mantiene prácticamente igual en los diferentes ejemplos. 39 Otra limitación que podrı́a llegar a tener el método es la concentración de la medida en dimensión alta. Como muestra Köppen en [1] un hipercubo en dimensión alta se debe imaginar como un erizo. Es decir, en el hipercubo n− dimensional el volumen está concentrado en una bola √ central de radio 1/2 cubierta por 2n puntas de longitud n/2. F IGURA 4.18: Hipercubo “puntudo ”. Tomado de [1] Si se inicia en una tabla en alguna de las puntas el algoritmo podrı́a tardarse mucho en converger. Adicionalmente a medida que aumenta la dimensión el método del rechazo se empieza a tardar más pues es más propenso a rechazar las tablas. A futuro se podrı́a pensar en métodos que permitieran iniciar el algoritmo no necesariamente en la tabla de contingencia dada sino en algún punto central del politopo que hiciera que el muestreo fuera más eficiente. Además se podrı́a pensar en mejorar la constante c del método del rechazo que es difı́cil de calcular para números grandes y también podrı́a causar errores numéricos en la implementación. Bibliografı́a [1] Mario Köppen. The curse of dimensionality. In 5th Online World Conference on Soft Computing in Industrial Applications (WSC5), pages 4–8, 2000. [2] Mathias Drton, Bernd Sturmfels, and Seth Sullivant. Lectures on algebraic statistics. Springer Science & Business Media, 2008. [3] Hisayuki Hara, Satoshi Aoki, and Akimichi Takemura. Running markov chain without markov basis. arXiv preprint arXiv:1109.0078, 2011. [4] Alan Agresti. Categorical data analysis. John Wiley & Sons, 2013. [5] Persi Diaconis, Bernd Sturmfels, et al. Algebraic algorithms for sampling from conditional distributions. The Annals of statistics, 26(1):363–397, 1998. [6] Henri Cohen. A course in computational algebraic number theory, volume 138. Springer Science & Business Media, 1993. [7] Santosh Vempala. Geometric random walks: a survey. MSRI volume on Combinatorial and Computational Geometry, 2005. [8] Ben J Morris. Improved bounds for sampling contingency tables. Random Structures & Algorithms, 21(2):135–146, 2002. 40

Muestreo de Tablas de Contingencia para Modelos Log

Documentos relacionados

Productos

Apoyo

Muestreo de Tablas de Contingencia para Modelos Log

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib