Tablas de contingencia y contrastes χ2 Independencia Grados de Biología y Biología sanitaria M. Marvá e-mail: [email protected] Unidad docente de Matemáticas, Universidad de Alcalá 22 de noviembre de 2015 El problema Analizaremos la (posible) relación entre dos variables cualitativas F ∼F Terminología habitual • Una variable cualitativa se suele llamar factor • Las modalidades de cada factor se llaman niveles del factor Ejemplos: 1 Factor: gravedad del estado de un paciente, niveles: leve, moderado, grave, crítico 2 Factor: vacunación, niveles: vacunado, no vacunado 3 Factor: género, niveles: mujer, hombre 4 Factor: Creencia religiosa niveles: creyente, no creyente Sección 12.1 del libro El problema Para que exista relación entre dos factores, se tiene que poder clasificar la poblción de acuerdo a los dos factores. Para resumur esa clasificación se utilizan las tablas de contingencia Ejemplo: En el mes de enero de 2013 el Barómetro del CIS recoge las respuestas de n = 2452 personas sobre sus creencias religiosas Creyentes No creyentes Hombres 849 356 Mujeres 1015 232 Hemos eliminado a las 19 mujeres y a los 12 hombres que decidieron no contestar. ¿Hay más creyentes entre los hombre, o entres las mujeres? En otras palabras ¿Son independientes los factores “género” y “ser creyente”? Resultados del CIS de Enero de 2013 discriminados por género aquí Tablas de contingencia 2 × 2 Hipótesis H0 : {La religiosidad es independiente del género} H1 : {La religiosidad dependen del género} Ojo: si llamamos pm y ph las proporciones de mujeres y hombres creyentes, podríamos contrastar H0 : pm = ph H1 : pm 6= ph como una diferencia de proporciones (para tablas 2 × 2 es equivalente) Estrategia: comparar • Lo que hemos observado en realidad • Lo que esperamos observar si H0 fuera cierta y decidir si las diferencias son significativas: necesitaremos un estadístico y su distribución de probabilidad Tablas de contingencia 2 × 2 Valores observados es la tabla obtenida del CIS. Añadimos los valores marginales Creyentes No creyentes Total Hombres o11 = 849 o21 = 356 1205 Usamos oij para el número de observaciones • del nivel i del primer factor y • el nivel j del segundo factor Mujeres o12 = 1015 o22 = 232 1247 Total 1864 588 2452 Tablas de contingencia 2 × 2 Valores esperados si H0 cierta (la religiosidad no depende del género) la proporción de creyentes debe ser la misma entre hombre y mujeres. • Calcular la proporción creyentes sin considerar el género total creyentes 1864 = = p̂ ≈ 0.7602 total individuos 2452 • Proporción NO creyentes q̂ = 1 − p̂ • Al multiplicar el total de hombres/mujeres por la proporción de creyentes/NO creyentes Valor esperado para mujeres creyectes total mujeres · p̂ = 1247 · p̂ ≈ 948 se obtiene la tabla de valores esperados Creyentes No creyentes Total Hombres e11 = 916 e21 = 289 1205 Mujeres e12 = 948 e22 = 299 1247 Hemos redondeado, aunque en general no se hace Total 1864 588 2452 Tablas de contingencia 2 × 2 Test de independencia Estadístico χ2 para una tabla de contingencia 2 × 2 Dada una tabla de contingencia 2×2, con valores esperados eij y valores observados oij (para i, j = 1, 2), definimos el estadístico: Ξ= (o11 − e11 )2 (o12 − e12 )2 (o21 − e21 )2 (o22 − e22 )2 + + + . e11 e12 e21 e22 (1) Entonces, mientras sea n > 30 y ninguno de los valores eij sea menor de 5, el estadístico Ξ sigue una distribución χ21 , con 1 grado de libertad. El p-valor del contrate es P(χ21 > Ξ) Simetría: da lo mismo considerar F1 ∼ F2 que F2 ∼ F1 Ejemplo: en el caso que nos ocupa Ξ = (o11 − e11 )2 + (o12 − e12 )2 e11 (849 − 916)2 = Como P(χ21 (o21 − e21 )2 (o22 − e22 )2 −10 (232 − 299)2 + 289 = e22 (356 − 289)2 + 948 > 40.23) = 2.26 · 10 + e21 (1015 − 948)2 + 916 + e12 ≈ 40,23 299 , podemos rechazar la hipótesis nula Tablas de contingencia n1 × n2 Caso general Contrastar la (posible) relación F1 ∼ F2 donde • el factor F1 tiene n1 niveles • el factor F2 tiene n2 niveles Considerar todas las combinaciones posibles de los niveles de F1 y F2 da una tabla de contingencia n1 × n2 , con n1 filas y n2 columnas: Variable F1 a1 .. . an1 Variable F2 b1 ··· bn2 o11 ··· o1n2 .. . on1 1 · · · on1 n2 Ejemplo: F1 edad años 30 ≤ [31, 65] 66 ≤ cristiano o11 o21 = 350 o31 F2 creencias musulman otros o12 o13 = 150 o22 = 50 o23 = 85 o32 o33 = 15 ateo o14 o24 = 575 o34 Sección 12.1.2 del libro Tablas de contingencia n1 × n2 Para obtener los valores esperados se calculan los valores marginales F1 edad años 30 ≤ [31, 65] 66 ≤ cristiano o11 o21 = 350 o31 F2 creencias musulman otros o12 o13 = 150 o22 = 50 o23 = 85 o32 o33 = 15 250 ateo o14 o24 = 575 o34 1000 2500 • Calcular las proporciones observadas con independencia del factor F2 p̂2 = total individuos nivel 2 de F1 1000 = total individuos 2500 • Calcular la frecuencia esperada para cada par de niveles de F1 y F2 e23 = p̂2 · total individuos nivel 3 de F2 = 1000 · 250 = 100 2500 Tablas de contingencia n1 × n2 Para obtener los valores esperados se calculan los valores marginales b1 Variable F1 a1 .. . an1 Total Variable F2 ··· bn2 o11 ··· Total o1n2 o1+ .. . .. on1 1 o+ 1 . ··· ··· on1 n2 o+ n2 on1 + o++ =n • Calcular las proporciones observadas con independencia del factor F2 p̂i = total individuos nivel ai oi+ = total individuos n • Calcular la frecuencia esperada para cada par de niveles de F1 y F2 eij = p̂i · total individuos nivel bj = p̂i · o+j Tablas de contingencia n1 × n2 Test de independencia Estadístico χ2 para una tabla de contingencia n1 × n2 Dada una tabla de contingencia n1 × n2 , con valores observados oij , y valores esperados eij , definimos el estadístico: Ξ= n1 n2 X X (oij − eij )2 X (observado − esperado)2 = eij esperado i=1 j=1 tabla Es decir, sumamos un término para cada casilla de la tabla. Entonces, mientras sea n > 30 y ninguno de los valores eij sea menor de 5, el estadístico Ξ sigue una distribución χ2k , con k = (n1 − 1)(n2 − 1) grados de libertad. El p-valor del contraste H0 : {El factor F1 es independiente del factor F2 } es P χ2(n1 −1)(n2 −1) > Ξ Tablas de contingencia n1 × n2 Talamanca Ribatejada Meco Daganzo Camarma - Daganzo Camarma Cobeña Campo Real Pinto Torrejón Estremera Suma MachosAdultos 53 16 10 18 34 17 4 38 28 37 17 272 Hembras 177 68 30 108 79 41 27 74 57 95 24 780 MachosJovenes 14 7 0 12 12 5 12 12 6 8 3 91 Suma 244 91 40 138 125 63 43 124 91 140 44 1143 H0 : { La composición por grupos es independiente de la zona } Atención: hay valores menores que 5. Si tiene sentido: agrupar zonas Ejemplo 12.1.5 del libro Tablas de contingencia n1 × n2 Zona 1. Talamanca 2. Ribatejada 3. Daganzo 4. Camarma-Daganzo-Cobeña 5. Camarma-Meco 6. Campo Real 7. Pinto 8. Torrejón Suma MachosAdultos 53 16 18 38 27 38 28 37 255 Hembras 177 68 108 106 71 74 57 95 756 MachosJovenes 14 7 12 24 5 12 6 8 88 Suma 244 91 138 168 103 124 91 140 1099 Gráfico de columnas apiladas Gráfico de mosaico Zona 1. Talamanca 2. Ribatejada 3. Daganzo 4. Camarma-Daganzo-Cobeña 5. Camarma-Meco 6. Campo Real 7. Pinto 8. Torrejón Suma Tablas de contingencia n1 × n2 MachosAdultos 53 16 18 38 27 38 28 37 255 Hembras 177 68 108 106 71 74 57 95 756 MachosJovenes 14 7 12 24 5 12 6 8 88 Suma 244 91 138 168 103 124 91 140 1099 Calcular los valores esperados; por ejemplo, para hembras en Pinto e72 = zona 1 zona 2 zona 3 zona 4 zona 5 zona 6 zona 7 zona 8 Suma Ξ= 8 X 3 X i=1 j=1 MachosAdultos 56.62 21.11 32.02 38.98 23.90 28.77 21.11 32.48 255 (oij − eij )2 eij ! ≈ 32.23, 91 · 756 1099 Hembras 167.85 62.60 94.93 115.57 70.85 85.30 62.60 96.31 756 MachosJovenes 19.54 7.29 11.05 13.45 8.25 9.93 7.29 11.21 88 Suma 244 91 138 168 103 124 91 140 1099 2 P χ14 > 32.23 ≈ 0.0037 ⇒ rechazar H0