Tablas de contingencia y contrastes χ

Anuncio
Tablas de contingencia
y
contrastes χ2
Independencia
Grados de Biología y Biología sanitaria
M. Marvá
e-mail: [email protected]
Unidad docente de Matemáticas, Universidad de Alcalá
22 de noviembre de 2015
El problema
Analizaremos la (posible) relación entre dos variables cualitativas
F ∼F
Terminología habitual
• Una variable cualitativa se suele llamar factor
• Las modalidades de cada factor se llaman niveles del factor
Ejemplos:
1 Factor: gravedad del estado de un paciente,
niveles: leve, moderado, grave, crítico
2 Factor: vacunación,
niveles: vacunado, no vacunado
3 Factor: género,
niveles: mujer, hombre
4 Factor: Creencia religiosa
niveles: creyente, no creyente
Sección 12.1 del libro
El problema
Para que exista relación entre dos factores, se tiene que poder clasificar la
poblción de acuerdo a los dos factores. Para resumur esa clasificación se
utilizan las tablas de contingencia
Ejemplo: En el mes de enero de 2013 el Barómetro del CIS recoge las
respuestas de n = 2452 personas sobre sus creencias religiosas
Creyentes
No creyentes
Hombres
849
356
Mujeres
1015
232
Hemos eliminado a las 19 mujeres y a los 12 hombres que decidieron no
contestar.
¿Hay más creyentes entre los hombre, o entres las mujeres?
En otras palabras
¿Son independientes los factores “género” y “ser creyente”?
Resultados del CIS de Enero de 2013 discriminados por género aquí
Tablas de contingencia 2 × 2
Hipótesis
H0 : {La religiosidad es independiente del género}
H1 : {La religiosidad dependen del género}
Ojo: si llamamos pm y ph las proporciones de mujeres y hombres creyentes,
podríamos contrastar
H0 : pm = ph
H1 : pm 6= ph
como una diferencia de proporciones (para tablas 2 × 2 es equivalente)
Estrategia: comparar
• Lo que hemos observado en realidad
• Lo que esperamos observar si H0 fuera cierta
y decidir si las diferencias son significativas: necesitaremos un
estadístico y su distribución de probabilidad
Tablas de contingencia 2 × 2
Valores observados es la tabla obtenida del CIS.
Añadimos los valores marginales
Creyentes
No creyentes
Total
Hombres
o11 = 849
o21 = 356
1205
Usamos
oij
para el número de observaciones
• del nivel i del primer factor y
• el nivel j del segundo factor
Mujeres
o12 = 1015
o22 = 232
1247
Total
1864
588
2452
Tablas de contingencia 2 × 2
Valores esperados si H0 cierta (la religiosidad no depende del género) la
proporción de creyentes debe ser la misma entre hombre y mujeres.
• Calcular la proporción creyentes sin considerar el género
total creyentes
1864
=
= p̂ ≈ 0.7602
total individuos
2452
• Proporción NO creyentes
q̂ = 1 − p̂
• Al multiplicar el total de hombres/mujeres por la proporción de
creyentes/NO creyentes
Valor esperado para mujeres creyectes total mujeres · p̂ = 1247 · p̂ ≈ 948
se obtiene la tabla de valores esperados
Creyentes
No creyentes
Total
Hombres
e11 = 916
e21 = 289
1205
Mujeres
e12 = 948
e22 = 299
1247
Hemos redondeado, aunque en general no se hace
Total
1864
588
2452
Tablas de contingencia 2 × 2
Test de independencia
Estadístico χ2 para una tabla de contingencia 2 × 2
Dada una tabla de contingencia 2×2, con valores esperados eij y valores
observados oij (para i, j = 1, 2), definimos el estadístico:
Ξ=
(o11 − e11 )2
(o12 − e12 )2
(o21 − e21 )2
(o22 − e22 )2
+
+
+
.
e11
e12
e21
e22
(1)
Entonces, mientras sea n > 30 y ninguno de los valores eij sea menor
de 5, el estadístico Ξ sigue una distribución χ21 , con 1 grado de libertad.
El p-valor del contrate es P(χ21 > Ξ)
Simetría: da lo mismo considerar F1 ∼ F2 que F2 ∼ F1
Ejemplo: en el caso que nos ocupa
Ξ =
(o11 − e11 )2
+
(o12 − e12 )2
e11
(849 − 916)2
=
Como
P(χ21
(o21 − e21 )2
(o22 − e22 )2
−10
(232 − 299)2
+
289
=
e22
(356 − 289)2
+
948
> 40.23) = 2.26 · 10
+
e21
(1015 − 948)2
+
916
+
e12
≈ 40,23
299
, podemos rechazar la hipótesis nula
Tablas de contingencia n1 × n2
Caso general Contrastar la (posible) relación F1 ∼ F2 donde
• el factor F1 tiene n1 niveles
• el factor F2 tiene n2 niveles
Considerar todas las combinaciones posibles de los niveles de F1 y F2 da
una tabla de contingencia n1 × n2 , con n1 filas y n2 columnas:
Variable F1
a1
..
.
an1
Variable F2
b1
···
bn2
o11
···
o1n2
..
.
on1 1 · · ·
on1 n2
Ejemplo:
F1
edad
años
30 ≤
[31, 65]
66 ≤
cristiano
o11
o21 = 350
o31
F2 creencias
musulman
otros
o12
o13 = 150
o22 = 50
o23 = 85
o32
o33 = 15
ateo
o14
o24 = 575
o34
Sección 12.1.2 del libro
Tablas de contingencia n1 × n2
Para obtener los valores esperados se calculan los valores marginales
F1
edad
años
30 ≤
[31, 65]
66 ≤
cristiano
o11
o21 = 350
o31
F2 creencias
musulman
otros
o12
o13 = 150
o22 = 50
o23 = 85
o32
o33 = 15
250
ateo
o14
o24 = 575
o34
1000
2500
• Calcular las proporciones observadas con independencia del factor F2
p̂2 =
total individuos nivel 2 de F1
1000
=
total individuos
2500
• Calcular la frecuencia esperada para cada par de niveles de F1 y F2
e23 = p̂2 · total individuos nivel 3 de F2 =
1000
· 250 = 100
2500
Tablas de contingencia n1 × n2
Para obtener los valores esperados se calculan los valores marginales
b1
Variable
F1
a1
..
.
an1
Total
Variable F2
···
bn2
o11
···
Total
o1n2
o1+
..
.
..
on1 1
o+ 1
.
···
···
on1 n2
o+ n2
on1 +
o++ =n
• Calcular las proporciones observadas con independencia del factor F2
p̂i =
total individuos nivel ai
oi+
=
total individuos
n
• Calcular la frecuencia esperada para cada par de niveles de F1 y F2
eij = p̂i · total individuos nivel bj = p̂i · o+j
Tablas de contingencia n1 × n2
Test de independencia
Estadístico χ2 para una tabla de contingencia n1 × n2
Dada una tabla de contingencia n1 × n2 , con valores observados oij , y
valores esperados eij , definimos el estadístico:
Ξ=
n1 n2 X
X (oij − eij )2 X (observado − esperado)2
=
eij
esperado
i=1 j=1
tabla
Es decir, sumamos un término para cada casilla de la tabla. Entonces,
mientras sea n > 30 y ninguno de los valores eij sea menor de 5, el
estadístico Ξ sigue una distribución χ2k , con
k = (n1 − 1)(n2 − 1)
grados de libertad. El p-valor del contraste
H0 : {El factor F1 es independiente del factor F2 }
es P χ2(n1 −1)(n2 −1) > Ξ
Tablas de contingencia n1 × n2
Talamanca
Ribatejada
Meco
Daganzo
Camarma - Daganzo
Camarma
Cobeña
Campo Real
Pinto
Torrejón
Estremera
Suma
MachosAdultos
53
16
10
18
34
17
4
38
28
37
17
272
Hembras
177
68
30
108
79
41
27
74
57
95
24
780
MachosJovenes
14
7
0
12
12
5
12
12
6
8
3
91
Suma
244
91
40
138
125
63
43
124
91
140
44
1143
H0 : { La composición por grupos es independiente de la zona }
Atención: hay valores menores que 5. Si tiene sentido: agrupar zonas
Ejemplo 12.1.5 del libro
Tablas de contingencia n1 × n2
Zona
1. Talamanca
2. Ribatejada
3. Daganzo
4. Camarma-Daganzo-Cobeña
5. Camarma-Meco
6. Campo Real
7. Pinto
8. Torrejón
Suma
MachosAdultos
53
16
18
38
27
38
28
37
255
Hembras
177
68
108
106
71
74
57
95
756
MachosJovenes
14
7
12
24
5
12
6
8
88
Suma
244
91
138
168
103
124
91
140
1099
Gráfico de columnas apiladas
Gráfico de mosaico
Zona
1. Talamanca
2. Ribatejada
3. Daganzo
4. Camarma-Daganzo-Cobeña
5. Camarma-Meco
6. Campo Real
7. Pinto
8. Torrejón
Suma
Tablas de contingencia n1 × n2
MachosAdultos
53
16
18
38
27
38
28
37
255
Hembras
177
68
108
106
71
74
57
95
756
MachosJovenes
14
7
12
24
5
12
6
8
88
Suma
244
91
138
168
103
124
91
140
1099
Calcular los valores esperados; por ejemplo, para hembras en Pinto
e72 =
zona 1
zona 2
zona 3
zona 4
zona 5
zona 6
zona 7
zona 8
Suma
Ξ=
8 X
3
X
i=1 j=1
MachosAdultos
56.62
21.11
32.02
38.98
23.90
28.77
21.11
32.48
255
(oij − eij )2
eij
!
≈ 32.23,
91
· 756
1099
Hembras
167.85
62.60
94.93
115.57
70.85
85.30
62.60
96.31
756
MachosJovenes
19.54
7.29
11.05
13.45
8.25
9.93
7.29
11.21
88
Suma
244
91
138
168
103
124
91
140
1099
2
P χ14 > 32.23 ≈ 0.0037 ⇒ rechazar H0
Descargar