Contraste de Independencia entre Variables Cualitativas Francisco M. Ocaña Peinado Grado en NHD. Grupos C y E Francisco M. Ocaña Peinado Contraste de Independencia entre Variables Cualitativas Ejemplo I Ejemplo: Supóngase que se desea estudiar la posible relación entre dos variables de tipo cualitativo (tipo de piel y el color de pelo) en una población. Para ello se extrae una muestra de 100 individuos, obteniéndose la tabla siguiente: PIEL / PELO OSCURA CLARA TOTAL NEGRO 25 10 35 CASTAÑO 25 15 40 RUBIO 10 15 25 TOTAL 60 40 100 El objetivo es decidir si las variables están o no relacionadas. Francisco M. Ocaña Peinado Contraste de Independencia entre Variables Cualitativas Definición Independencia I Definición: Se dice que dos variables cualitativas A y B son independientes cuando la proporción de individuos de cada una de las modalidades de la variable A es la misma para cada una de las modalidades de la variable B. En el ejemplo, si el color de pelo fuese independiente del color de la piel, se deberı́an esperar las siguientes proporciones: De los 35 individuos de pelo negro: (60/100) deberı́an tener la piel oscura y por tanto (40/100) deberı́an tener la piel clara. De los 40 individuos de pelo castaño: el (60/100) deberı́an tener piel oscura y el (40/100) deberı́an tener la piel clara. De los 25 individuos con pelo rubio se esperarı́a una proporción del (60/100) con piel oscura y una proporción de (40/100) con piel clara. Francisco M. Ocaña Peinado Contraste de Independencia entre Variables Cualitativas Contraste Independencia I La hipótesis de independencia es la que interesa contrastar, o sea, decidir si se rechaza o no. Ası́, se tendrı́a que: ( H0 : Independencia entre variables H1 : No Independencia entre variables Según esta suposición de independencia entre variables, es decir si fuese cierta H0 , el número de individuos teórico en cada caso serı́a el reflejado en la siguiente tabla: PIEL / PELO OSCURA CLARA TOTAL NEGRO 21 14 35 CASTAÑO 24 16 40 Francisco M. Ocaña Peinado RUBIO 15 10 25 TOTAL 60 40 100 Contraste de Independencia entre Variables Cualitativas Contraste Independencia: Idea Intuitiva para Resolución I Como puede verse, estos números no son los que figuran en la tabla de observaciones, pero también es evidente que aunque las variables en cuestión fuesen independientes, tampoco coincidirı́an como consecuencia de las fluctuaciones debidas al azar. Objetivo: Determinar si las diferencias existentes entre lo que se ha observado (tabla inicial, que se denominará de tabla frecuencias observadas) y lo que teóricamente habrı́a de darse (segunda tabla, que se denominará tabla de frecuencias esperadas) son suficientemente importantes como para pensar que la hipótesis de que las variables son independientes no es cierta. Francisco M. Ocaña Peinado Contraste de Independencia entre Variables Cualitativas Generalización del Contraste Independencia I La representación general correspondientes a las variables A y B vendrá expresada en una tabla del siguiente tipo: A/B A1 A2 .. . B1 n11 n21 .. . B2 n12 n22 .. . Ai .. . ni1 .. . ni2 .. . Ak Totales nk1 n.1 nk2 n.2 ··· ··· ··· Bj n1j n2j ··· ··· ··· ··· ··· ··· nij ··· ··· ··· ··· nkj n.j ··· ··· .. . Francisco M. Ocaña Peinado ··· ··· Bm n1m n2m .. . Totales n1. n2. .. . nim .. . ni. .. . nkm n.m nk. n Contraste de Independencia entre Variables Cualitativas Notación en el Contraste de Independencia I A ≡ v.a. cualitativa con k modalidades, A = {A1 , A2 , . . . , Ai , . . . , Ak } B ≡ v.a. cualitativa con m modalidades, B = {B1 , B2 , . . . , Bj , . . . , Bm } nij ≡ número de veces que se presenta en la muestra simultáneamente la modalidad i de la variable A y la modalidad j de la variable B. ni. ≡ total de individuos que presentan la modalidad i de la variable A (total de la i-ésima fila). n.j ≡ total de individuos que presentan la modalidad j de la variable B (total de la j-ésima columna). Francisco M. Ocaña Peinado Contraste de Independencia entre Variables Cualitativas Contraste Independencia: Cálculo Frecuencias Esperadas y Estadı́stico de Contraste I Si se cumple H0 , (es decir, si se da la hipótesis de independencia entre variables), los valores esperados que debı́an darse, que se llamarán frecuencias esperadas, y se representarán como eij serı́an: eij = ni. × n.j n La idea, que ya ha sido expresada anteriormente en el ejemplo, es medir las diferencias entre lo que se ha observado en la muestra, valores nij , y lo que debe de darse si hay independencia entre variables, eij . Francisco M. Ocaña Peinado Contraste de Independencia entre Variables Cualitativas Contraste Independencia: Cálculo Frecuencias Esperadas y Estadı́stico de Contraste II Se necesita una medida de la diferencia global entre lo observado y lo esperado. Esta medida es proporcionada por el estadı́stico U cuya expresión es: U= k X m X (nij − eij )2 eij i=1 j=1 Francisco M. Ocaña Peinado Contraste de Independencia entre Variables Cualitativas Estadı́stico de Contraste: Distribución de Probabilidad I Si se cumple H0 , se podrı́a demostrar que el estadı́stico U , es una v.a. Chi-Cuadrado con (k − 1) × (m − 1) grados de libertad. Para resolver el contraste, aplicamos el siguiente procedimiento: Se fija α (nivel de significación del contraste). Se calcula el valor de U en la muestra, es decir el valor Uexp . Sabiendo que si H0 es cierta entonces U χ2(k−1)×(m−1) , se compara Uexp con el valor de una v.a. χ2(k−1)×(m−1);α (utilizándose las tablas de la v.a. χ2 ). Si se cumple H0 , serı́a demasiado extraño que Uexp fuese mayor que χ2(k−1)×(m−1);α por lo que en ese caso se rechazarı́a la independencia entre variables. Francisco M. Ocaña Peinado Contraste de Independencia entre Variables Cualitativas Estadı́stico de Contraste: Distribución de Probabilidad II Francisco M. Ocaña Peinado Contraste de Independencia entre Variables Cualitativas Resolución Contraste Independencia: Resumen I En resumen, y según el planteamiento anterior, para la toma de decisión del contraste, se tiene que para un nivel de significación α: Si Uexp ≥ χ2(k−1)×(m−1);α ⇒ Se rechaza H0 Si Uexp < χ2(k−1)×(m−1);α ⇒ No se rechaza H0 Francisco M. Ocaña Peinado Contraste de Independencia entre Variables Cualitativas Resolución Contraste Independencia: Ejemplo I Para el ejemplo inicial se tiene: Uexp = (25 − 21)2 (25 − 24)2 (10 − 15)2 (15 − 10)2 + + +. . .+ = 6.1757 21 24 15 10 con k = 2 y m = 3, por lo que el correspondiente χ2(k−1)×(m−1) para nivel de significación α = 0.05 es (veáse en la tabla): χ2(2−1)×(3−1);α ≡ χ22;0.05 = 5.9915 Comparando los valores χ22;0.05 y Uexp la conclusión es que se rechaza la hipótesis de independencia entre las variables a un nivel de significación del α = 0.05, con lo cual se dirı́a que existe relación entre el tipo de piel y color de pelo a un nivel de significación α = 0.05. Francisco M. Ocaña Peinado Contraste de Independencia entre Variables Cualitativas