Contraste de Independencia entre Variables Cualitativas

Anuncio
Contraste de Independencia entre Variables
Cualitativas
Francisco M. Ocaña Peinado
Grado en NHD. Grupos C y E
Francisco M. Ocaña Peinado
Contraste de Independencia entre Variables Cualitativas
Ejemplo I
Ejemplo: Supóngase que se desea estudiar la posible relación entre
dos variables de tipo cualitativo (tipo de piel y el color de pelo) en
una población. Para ello se extrae una muestra de 100 individuos,
obteniéndose la tabla siguiente:
PIEL / PELO
OSCURA
CLARA
TOTAL
NEGRO
25
10
35
CASTAÑO
25
15
40
RUBIO
10
15
25
TOTAL
60
40
100
El objetivo es decidir si las variables están o no relacionadas.
Francisco M. Ocaña Peinado
Contraste de Independencia entre Variables Cualitativas
Definición Independencia I
Definición: Se dice que dos variables cualitativas A y B son
independientes cuando la proporción de individuos de cada una de
las modalidades de la variable A es la misma para cada una de las
modalidades de la variable B.
En el ejemplo, si el color de pelo fuese independiente del color de la
piel, se deberı́an esperar las siguientes proporciones:
De los 35 individuos de pelo negro: (60/100) deberı́an tener la
piel oscura y por tanto (40/100) deberı́an tener la piel clara.
De los 40 individuos de pelo castaño: el (60/100) deberı́an
tener piel oscura y el (40/100) deberı́an tener la piel clara.
De los 25 individuos con pelo rubio se esperarı́a una
proporción del (60/100) con piel oscura y una proporción de
(40/100) con piel clara.
Francisco M. Ocaña Peinado
Contraste de Independencia entre Variables Cualitativas
Contraste Independencia I
La hipótesis de independencia es la que interesa contrastar, o sea,
decidir si se rechaza o no. Ası́, se tendrı́a que:
(
H0 : Independencia entre variables
H1 : No Independencia entre variables
Según esta suposición de independencia entre variables, es decir si
fuese cierta H0 , el número de individuos teórico en cada caso serı́a
el reflejado en la siguiente tabla:
PIEL / PELO
OSCURA
CLARA
TOTAL
NEGRO
21
14
35
CASTAÑO
24
16
40
Francisco M. Ocaña Peinado
RUBIO
15
10
25
TOTAL
60
40
100
Contraste de Independencia entre Variables Cualitativas
Contraste Independencia: Idea Intuitiva para Resolución I
Como puede verse, estos números no son los que figuran en la
tabla de observaciones, pero también es evidente que aunque
las variables en cuestión fuesen independientes, tampoco
coincidirı́an como consecuencia de las fluctuaciones debidas al
azar.
Objetivo: Determinar si las diferencias existentes entre lo que
se ha observado (tabla inicial, que se denominará de tabla
frecuencias observadas) y lo que teóricamente habrı́a de
darse (segunda tabla, que se denominará tabla de frecuencias
esperadas) son suficientemente importantes como para
pensar que la hipótesis de que las variables son independientes
no es cierta.
Francisco M. Ocaña Peinado
Contraste de Independencia entre Variables Cualitativas
Generalización del Contraste Independencia I
La representación general correspondientes a las variables A y B
vendrá expresada en una tabla del siguiente tipo:
A/B
A1
A2
..
.
B1
n11
n21
..
.
B2
n12
n22
..
.
Ai
..
.
ni1
..
.
ni2
..
.
Ak
Totales
nk1
n.1
nk2
n.2
···
···
···
Bj
n1j
n2j
···
···
···
···
···
···
nij
···
···
···
···
nkj
n.j
···
···
..
.
Francisco M. Ocaña Peinado
···
···
Bm
n1m
n2m
..
.
Totales
n1.
n2.
..
.
nim
..
.
ni.
..
.
nkm
n.m
nk.
n
Contraste de Independencia entre Variables Cualitativas
Notación en el Contraste de Independencia I
A ≡ v.a. cualitativa con k modalidades,
A = {A1 , A2 , . . . , Ai , . . . , Ak }
B ≡ v.a. cualitativa con m modalidades,
B = {B1 , B2 , . . . , Bj , . . . , Bm }
nij ≡ número de veces que se presenta en la muestra
simultáneamente la modalidad i de la variable A y la
modalidad j de la variable B.
ni. ≡ total de individuos que presentan la modalidad i de la
variable A (total de la i-ésima fila).
n.j ≡ total de individuos que presentan la modalidad j de la
variable B (total de la j-ésima columna).
Francisco M. Ocaña Peinado
Contraste de Independencia entre Variables Cualitativas
Contraste Independencia: Cálculo Frecuencias Esperadas y
Estadı́stico de Contraste I
Si se cumple H0 , (es decir, si se da la hipótesis de independencia
entre variables), los valores esperados que debı́an darse, que se
llamarán frecuencias esperadas, y se representarán como eij serı́an:
eij =
ni. × n.j
n
La idea, que ya ha sido expresada anteriormente en el ejemplo, es
medir las diferencias entre lo que se ha observado en la muestra,
valores nij , y lo que debe de darse si hay independencia entre
variables, eij .
Francisco M. Ocaña Peinado
Contraste de Independencia entre Variables Cualitativas
Contraste Independencia: Cálculo Frecuencias Esperadas y
Estadı́stico de Contraste II
Se necesita una medida de la diferencia global entre lo observado y
lo esperado. Esta medida es proporcionada por el estadı́stico U
cuya expresión es:
U=
k X
m
X
(nij − eij )2
eij
i=1 j=1
Francisco M. Ocaña Peinado
Contraste de Independencia entre Variables Cualitativas
Estadı́stico de Contraste: Distribución de Probabilidad I
Si se cumple H0 , se podrı́a demostrar que el estadı́stico U , es una
v.a. Chi-Cuadrado con (k − 1) × (m − 1) grados de libertad.
Para resolver el contraste, aplicamos el siguiente procedimiento:
Se fija α (nivel de significación del contraste).
Se calcula el valor de U en la muestra, es decir el valor Uexp .
Sabiendo que si H0 es cierta entonces U
χ2(k−1)×(m−1) , se
compara Uexp con el valor de una v.a. χ2(k−1)×(m−1);α
(utilizándose las tablas de la v.a. χ2 ).
Si se cumple H0 , serı́a demasiado extraño que Uexp fuese mayor
que χ2(k−1)×(m−1);α por lo que en ese caso se rechazarı́a la
independencia entre variables.
Francisco M. Ocaña Peinado
Contraste de Independencia entre Variables Cualitativas
Estadı́stico de Contraste: Distribución de Probabilidad II
Francisco M. Ocaña Peinado
Contraste de Independencia entre Variables Cualitativas
Resolución Contraste Independencia: Resumen I
En resumen, y según el planteamiento anterior, para la toma de
decisión del contraste, se tiene que para un nivel de significación α:
Si Uexp ≥ χ2(k−1)×(m−1);α ⇒ Se rechaza H0
Si Uexp < χ2(k−1)×(m−1);α ⇒ No se rechaza H0
Francisco M. Ocaña Peinado
Contraste de Independencia entre Variables Cualitativas
Resolución Contraste Independencia: Ejemplo I
Para el ejemplo inicial se tiene:
Uexp =
(25 − 21)2 (25 − 24)2 (10 − 15)2
(15 − 10)2
+
+
+. . .+
= 6.1757
21
24
15
10
con k = 2 y m = 3, por lo que el correspondiente χ2(k−1)×(m−1)
para nivel de significación α = 0.05 es (veáse en la tabla):
χ2(2−1)×(3−1);α ≡ χ22;0.05 = 5.9915
Comparando los valores χ22;0.05 y Uexp la conclusión es que se
rechaza la hipótesis de independencia entre las variables a un nivel
de significación del α = 0.05, con lo cual se dirı́a que existe
relación entre el tipo de piel y color de pelo a un nivel de
significación α = 0.05.
Francisco M. Ocaña Peinado
Contraste de Independencia entre Variables Cualitativas
Descargar