Prueba ji-cuadrado: χ2

Anuncio
ÁNALISIS BIVARIADO
Estudiar la relación entre dos variables
cualitativas
ÁNALISIS BIVARIADO
Estudiar la relación entre dos variables
cualitativas
ANALISIS DE FRECUENCIAS, INDEPENDENCIA
ANALISIS DE FRECUENCIAS, INDEPENDENCIA
Estudiar la relación entre dos variables
cuantitativas
CORRELACIÓN Y REGRESIÓN LINEAL
Ø Frecuencias, tabla de contingencia
Ø Prueba de asociación/independencia χ2
Ø Gráficos de barras
Estudiar la relación entre una variable
cuantitativa y una variable cualitativa
COMPARACIÓN DE MEDIAS
ANÁLISIS DE FRECUENCIAS
Resumir los valores observados de dos variables cualitativas,
es el resultado de clasificar a los sujetos según los valores de
las dos variables.
Describir la distribuci ón de frecuencias de una de las variables
(var respuesta) en cada categoría de la otra variable (var
explicativa)
Tabla de 2x2
En el caso más simple de dos variables
categóricas, las frecuencias de interés
son las que forman la tabla de 2x2:
intervención
1
1
n11
2
n 12
n1.
2
n21
n22
n2 .
n.1
n.2
N
Ejemplo:
Resultado de una intervenci ón (sí/no) y sexo (hombre/mujer)
¿La proporci ón de curados es igual en hombres y mujeres, es
decir es independiente del sexo, o por el contrario se asocia al
sexo, de manera que la proporci ón de curados es mayor en
hombres que en mujeres?
Contraste de hipótesis:
H0: El resultado de la intervención no se relaciona con el sexo
H1: El resultado de la intervención sí se relaciona con el sexo
H0: Las dos variables son independientes
sexo
Prueba ji-cuadrado: χ2
Las pruebas de hipótesis sobre
proporciones pueden reformularse como
pruebas sobre el número de casos
observados respecto a los esperados
cuando H0 es cierta
H1: Las dos variables no son independientes
1
1
n11
1
2
2
n12
CASOS OBSERVADOS
n1.
n21
n22
n2.
n.1
n.2
n..
esperados =
Observados
ni . * n. j
n ..
Tabla de contingencia SEXE Sexe de l'entrevistat * BRONQ Bronquitis crònica
BRONQ Bronquitis
crònica
.00 No
1.00
bronquític Bronquític
SEXE Sexe de 1 Home Recuento
l'entrevistat
Frecuencia esperada
2 Dona
Frecuencia esperada
Total
74
181
62.8
181.0
132
53
185
120.8
64.2
185.0
Recuento
Frecuencia esperada
Recuento
BRONQ Bronquitis
crònica
.00 No
bronquític
1.00
Bronquític
SEXE Sexe de 1 Home
l'entrevistat
2 Dona
107
74
181
132
53
185
Total
239
127
366
Total
Ejercicio
Total
107
118.2
Recuento
Tabla de contingencia SEXE Sexe de l'entrevistat * BRONQ
Bronquitis crònica
239
127
366
239.0
127.0
366.0
e11 =
n1. * n .1 181*239
=
= 118,2
366
n ..
e12 =
n 1. * n .2 181*127
=
= 62,8
366
n ..
e 21 =
n 2. * n .1 185*239
=
= 120,8
366
n ..
e 21 =
n 2. * n .2 185*127
=
= 64,2
366
n ..
¿Es independiente el sexo de la autopercepción de la
salud (recodificar la percepción de la salud en 2
categorías (EX+MB+B y R+M)?. Calcular el valor
esperado e 21
CASOS ESPERADOS
e21 =
Construir la tabla 2x2:
n2. * n .1 185 * 263
=
= 132 ,94
n..
366
Tabla de contingencia sexo Sexo del entrevistado * salud2
salud2
sexo Sexo del
entrevistado
Tabla de contingencia sexo Sexo del entrevistado * salud2
Recuento
salud2
,00 Ex+MB+B
sexo Sexo del 1 Hombre
entrevistado 2 Mujer
139
Total
1,00 R+M
2 Mujer
Total
42
181
124
61
185
263
103
366
Total
,00 Ex+MB+B
139
1,00 R+M
42
Frecuencia esperada
130,1
50,9
181,0
% de sexo Sexo del
entrevistado
76,8%
23,2%
100,0%
% de salud2
52,9%
40,8%
49,5%
% del total
38,0%
11,5%
49,5%
124
61
Frecuencia esperada
132,9
52,1
185,0
% de sexo Sexo del
entrevistado
67,0%
33,0%
100,0%
% de salud2
47,1%
59,2%
50,5%
% del total
33,9%
16,7%
50,5%
263
103
Frecuencia esperada
263,0
103,0
366,0
% de sexo Sexo del
entrevistado
71,9%
28,1%
100,0%
100,0%
100,0%
100,0%
71,9%
28,1%
100,0%
1 Hombre Recuento
Recuento
Recuento
% de salud2
% del total
Total
181
185
366
2
Estadístico de contraste χ2 :
Chi-Square Tests
χ2 = ∑ (o-e)2 ~ χ 2(f-1)*(c-1)
e
o = frecuencia observada casilla
e = frecuencia esperada, si H0 cierta
(f-1)*(c-1) = grados de libertad
Pearson Chi-Square
a
Continuity Correction
Likelihood Ratio
Fisher's Exact Test
Linear-by-Linear
Association
Ejemplo:
χ2 =
N of Valid Cases
(139 − 130,1) 2 ( 42 − 50,9 ) 2 (124 − 132,9 ) 2 ( 61 − 52,1) 2
+
+
+
= 4,32
130,1
50,9
132,9
52,1
1
1
Asymp. Sig.
(2-sided)
,038
,050
4,337
1
,037
4,305
1
,038
Value
b
4,317
3,848
df
Exact Sig.
(2-sided)
Exact Sig.
(1-sided)
,048
,025
366
a. Computed only for a 2x2 table
b. 0 cells (,0%) have expected count less than 5. The minimum expected count is
50,94.
¿Qué hacer si no se cumple?
Propiedades test χ2
1. Se pueden agrupar las categorías (pero con sentido!!!!)
Es siempre a 2 colas (se pierde el signo de las
diferencias)
Usa una aproximación normal, por lo que deben
cumplirse ciertas condiciones:
Ø Como m áximo 20% de las frecuencias esperadas
pueden ser < 5
Ø No debe usarse si hay frecuencias E < 1
2. Corrección de continuidad de Yates
- Está muy discutido su uso
- Hay quien dice que debe usarse siempre, porque es
una corrección conservadora pero hay argumentos
importantes en su contra
-SPSS proporciona los 2 test para elegir
3. Test exacto de Fisher
SPSS: TABLA DE CONTINGENCIA
TABLA DE CONTINGENCIA
Analizar → Estadísticos descriptivos → Tablas de contingencia
El análisis de frecuencias basado en tablas de contingencia
puede generalizarse a variables con m ás de 2 categorías: (r x k)
Tabla de contingencia ESTADO SALUD * SEXO
Recuento
SEXO
Hombre
ESTADO
SALUD
Mujer
63
142
236
258
494
Regular
50
100
150
Dolenta
9
16
25
Molt dolenta
3
2
5
Bona
NS/NC
Total
Total
79
Molt bona
377
1
1
440
817
3
SPSS: TABLA DE CONTINGENCIA, CASILLAS
SPSS: TABLA DE CONTINGENCIA, CASILLAS
Tabla de contingencia ESTADO SALUD * SEXO
SEXO
Hombre
ESTADO
SALUD
Molt
bona
Recuento
Regular
142
44,4%
100,0%
% de SEXO
21,0%
14,4%
17,4%
7,7%
17,4%
236
258
494
47,8%
52,2%
100,0%
% de SEXO
62,6%
58,8%
60,5%
% del total
28,9%
31,6%
Recuento
60,5%
50
100
150
% de ESTADO
SALUD
33,3%
66,7%
100,0%
% de SEXO
13,3%
22,8%
18,4%
6,1%
12,3%
Recuento
% de SEXO
% del total
Recuento
% de ESTADO
SALUD
% de SEXO
% del total
Total
9,7%
% de ESTADO
SALUD
% de ESTADO
SALUD
Molt
dolenta
Porcentajes que calculará
para cada casilla
Recuento
% del total
Dolenta
Total
63
55,6%
% del total
Bona
En la casilla puede mostrar:
- el número observado en el
fichero de datos
- el número esperado si fuera
cierta la hipótesis de
independencia entre filas y
columnas
Mujer
79
% de ESTADO
SALUD
Recuento
% de ESTADO
SALUD
% de SEXO
% del total
18,4%
9
16
25
36,0%
64,0%
100,0%
2,4%
3,6%
3,1%
1,1%
2,0%
3,1%
3
2
5
60,0%
40,0%
100,0%
,8%
,5%
,6%
,4%
,2%
,6%
377
439
816
46,2%
53,8%
100,0%
100,0%
100,0%
100,0%
46,2%
53,8%
100,0%
SPSS: GRÁFICOS DE BARRAS
SPSS: GRÁFICOS DE BARRAS
GRAFICOS
300
BARRAS
200
Agrupadas
Apiladas
100
Recuento
SEXO
Hombre
0
Mujer
Molt bona
Regular
Bona
Molt dolenta
Dolenta
ESTADO SALUD
Editando el gr áfico podemos
manipularlo y cambiar el estilo,
ya que por defecto se
representan las frecuencias y
son más ilustrativos los
porcentajes
SPSS: GRÁFICOS DE BARRAS
SPSS: PRUEBA DE INDEPENDENCIA χ2
La relación entre 2 variables categóricas se representa
gráficamente en barras simples o barras agrupadas o apiladas
100
90
80
70
60
50
ESTADO SALUD
40
Molt dolenta
30
Dolenta
20
Regular
Bona
10
0
Molt bona
Mujer
Hombre
4
SPSS: PRUEBA DE INDEPENDENCIA χ2
Tabla de contingencia ESTADO SALUD * SEXO
Pruebas de chi-cuadrado
SEXO
ESTADO Molt bona Recuento
SALUD
Frecuencia
esperada
Bona
Recuento
Frecuencia
esperada
Regular
Total
Total
142
65,6
76,4
142,0
236
258
494
265,8
494,0
50
100
150
69,3
80,7
150,0
9
16
25
11,6
13,4
25,0
3
2
5
Frecuencia
esperada
2,3
2,7
5,0
Recuento
377
439
816
377,0
439,0
816,0
Recuento
Recuento
Frecuencia
esperada
Molt
dolenta
Mujer
63
228,2
Frecuencia
esperada
Dolenta
Hombre
79
Recuento
Frecuencia
esperada
Valor
Sig.
asintótic
a
(bilateral)
gl
a
Chi-cuadrado de
Pearson
16,997
4
,002
Razón de verosimilitud
17,249
4
,002
Asociación lineal por
lineal
11,915
1
,001
N de casos válidos
816
a. 2 casillas (20,0%) tienen una frecuencia esperada
inferior a 5. La frecuencia mínima esperada es 2,31.
p = 0.002
α nivel significación 0.05
p ≤ α ⇒ Rechazo H0
“Estado salud depende sexo,
es mayor el % de mujeres que
declara mala salud”
5
Descargar