Tema 4. Medidas de asociación Objetivos del tema 4 En este tema aprenderás a: Interpretar la intensidad de la dependencia entre dos variables en una tabla de contingencia Calcular e interpretar medidas de asociación en tablas 2x2: Coeficiente Phi de Pearson, Riesgo relativo y Razón de productos cruzados. Calcular e interpretar medidas de asociación en tablas rxc: Coeficiente de contingencia de Pearson y V de Cramer. Calcular e interpretar medidas de asociación que informan de la reducción del error de predicción de una variable, cuando se conoce el valor de la otra: Lambda de Goodman y Kruskal Lambda de Goodman y Kruskal 1.- Leo A. Goodman 2.- William Henry Kruskal 4.1. Introducción En el tema anterior hemos visto la manera de realizar un contraste Chi-cuadrado, para ver si dos variables están o no asociadas. Este contraste sólo nos informa de la presencia de asociación, pero no nos dice si es alta o baja. En el caso de rechazar la hipótesis de independencia, el siguiente paso sería calcular algún valor que mida la intensidad de la asociación, es decir, indique cómo de dependientes son las variables la una de la otra. A continuación vamos a mostrar distintos coeficientes que sirven para medir esta intensidad. Diferenciamos el caso de las tablas 2x2 y los generales de tablas rxc. 4.2. Medidas para tablas 2x2 Las tablas 2x2 son especiales, porque, además de la intensidad de la asociación podemos ver el signo. Recordamos la forma de estas tablas, que muestran la presencia o ausencia de dos factores A y B. Tabla 4.1. Tabla de contingencia 2x2 B No B Total A f11 f12 f1. No A f21 f22 f2. Total f.1 f.2 N Para estas tablas podemos calcular algunos coeficientes con signo, de modo que se tiene: Si el coeficiente es positivo la asociación es directa, es decir, A y B suelen suceder juntos. Por tanto, si se da A suele darse B; por tanto habrá muchos casos en la celda f11. Por otro lado, si no se da A, lo más frecuente es que tampoco se de B, por tanto habrá muchos casos en la celda f22. Por ejemplo “ser rubio” y “ojos claros” tendría asociación directa, pues habrá muchos casos de rubios con ojos claros y también de morenos con ojos no claros. Si el coeficiente es negativo la asociación es inversa, es decir, si se da A no suele ocurrir B y si se da B no suele ocurrir A. Habría mayor frecuencia en las celdas f21 y f12. Si el coeficiente es nulo no existe asociación, es decir, son independientes. No se encuentra un patrón en las diferentes celdas. A continuación vamos a estudiar algunos coeficientes que pueden calcularse en una tabla 2x2, para saber no sólo el signo, sino la intensidad (si la asociación es fuerte o débil). 1 4.2.1. Coeficiente Phi de Pearson Este coeficiente está basado en el valor chi-cuadrado, que vimos como se calculaba en el tema anterior. ( f ij eij ) 2 2 Recordamos que exp . Para las tablas 2x2 podemos utilizar la forma alternativa para el eij i j cálculo de Chi-cuadrado: 2 exp ( f11 f 22 f12 f 21 ) 2 n f1. f 2 . f .1 f .2 Se define el coeficiente Phi, de la forma siguiente: 2 / n = (( f11 f 22 f12 f 21 ) 2 n) /( f1. f 2 . f .1 f .2 ) n ( f11 f 22 f12 f 21 ) 2 f1. f 2 . f .1 f .2 Este coeficiente toma valores entre -1 y 1: El valor máximo (1) se obtiene cuando la dependencia es directa y perfecta, todos los casos están en las celdas f11 y f22. Si el coeficiente es positivo, la dependencia es directa y más alta cuanto más se acerque a 1. El valor mínimo (-1) se obtiene cuando la dependencia es inversa y perfecta, todos los casos están en las celdas f12 y f21. Si el coeficiente es negativo, la dependencia es inversa y más alta cuanto más se acerque a -1. El valor 0 se obtiene cuando hay independencia. Puede demostrarse que es equivalente al coeficiente de correlación cuando se codifican los valores A y B por 0 y no A y no B por 1 No depende de las frecuencias marginales No varía si se multiplica o divide todas las frecuentas por el mismo número Ejemplo 4.1. Observación de conducta Para realizar un estudio de observación de conductas de interacción en niños en situación de juego se ha entrenado a dos observadores en la utilización de un sistema de registro de conductas. Los dos observadores codifican con el mismo sistema de categorías, requiriéndose que lo utilicen con un mismo criterio. Para evaluar el nivel de acuerdo entre los observadores y constatar si el entrenamiento recibido ha sido adecuado, se pide a ambos observadores que clasifiquen las conductas observadas en un vídeo de prueba. Los resultados fueron los siguientes: Observador A A B Total Observador B A B 100 10 20 60 120 70 Total 110 80 190 Calcula e interpreta el coeficiente Phi de Pearson como valor de la intensidad. Calculamos primero las frecuencias esperadas: A B Tabla 4.2. Frecuencias esperadas A B (110x120)/190=69,474 (110x70)/190=40,53 (80x120)/190=50,526 (80x70)/190=29,47 A partir de ellas obtenemos el valor Chi-cuadrado: 2 exp i j ( fij eij ) 2 eij (100 69,474 ) 2 (20 50,526 ) 2 (10 40,53) 2 (60 29,47 ) 2 =13,413 + 18,443 + 22,99 + 31,62=86,47 69,474 50,526 40,53 29,47 2 Calculamos el coeficiente Phi de Pearson: 2 / n = 86,47 / 190= 0,675 Observamos que el valor es positivo (dependencia directa) y, en efecto, aparecen muchos más datos en la diagonal principal f11 y f22 que en la otra diagonal. Vemos que el valor es moderado-alto (cerca de 0,7). Si tuviéramos un valor del observador A, sabiendo el tipo de resultado, podríamos tratar de predecir su resultado por el observador B. La mayoría de los que tienen un resultado A por el observador A, también obtienen un resultado A por el observador B (e igual con los resultados de B). Cuantos más casos en la diagonal principal, mayor valor de Phi y más fácil la predicción. 4.2.2. Riesgo relativo Se puede calcular por filas y por columnas. El riesgo relativo El riesgo relativo por columnas indica cuanto más probable es la presencia de A con B que entre aquellos que no poseen B. Se calcula mediante la siguiente formula (columnas): RRcolumnas P( A / B) f11 / f .1 f11 f .2 P( A / B ) f12 / f .2 f .1 f12 El riesgo relativo por filas indica cuanto más probable es la presencia de B con A que entre aquellos que no poseen A. Este coeficiente se calcula mediante la siguiente formula para filas: RR filas f f P( B / A) f11 / f1. 11 2. P( B / A ) f 21 / f 2. f 21 f1. Estos dos valores puede que coincidan, pero esto no pasa siempre. El valor del Riesgo relativo cambia según el tipo de asociación que tengan las variables: El RR = 1, informa que no hay asociación entre las variables. El RR > 1, nos dice que existe asociación positiva. El RR < 1, indica que existe una asociación negativa. Ejemplo 4.1. Observación de conducta (continuación) Calculemos estos dos riesgos en el ejemplo sobre observación de conducta Observador A A B Total Observador B A B 100 10 20 60 120 70 Total 110 80 190 El riesgo relativo por columnas se calcula mediante la siguiente formula: RRcolumnas P(ObA_ A / ObB _ A) 100/ 120 100x70 7000= 5,8333 P(ObA_ A / ObB _ B) 10 / 70 10x120 1200 El RRcolumnas > 1, nos dice que existe asociación positiva. Nos dice que es 5,8333 veces más fácil tener un valor A por el observador A cuando se tiene un valor A por el observador B que si se tiene un valor B por el observador B. El riesgo relativo por filas se calcula mediante la siguiente formula: 3 RR filas P(ObB _ A / ObA_ A) 100/ 110 100x80 8000 = 3,6364 P(ObB _ A / ObA_ B) 20 / 80 20x110 2200 El RRfilas > 1, nos dice que existe asociación positiva. Nos dice que es 3,6364 veces más fácil tener un valor A por el observador B cuando se tiene un valor A por el observador A que si se tiene un valor B por el observador A. 4.2.3. Razón de productos cruzados Este coeficiente es una razón de dos cocientes: RC f11 f 22 f /f C 11 21 1 f12 f 21 f12 / f 22 C2 C1 es la razón de casos en que se presenta A y los que no se presenta A cuando está presente B. C2 es la razón de casos A y no A cuando no está presente el factor B. Conviene observar que la Razón de productos cruzados es una medida no simétrica. Es decir, A es la variable dependiente y B la independiente. Podemos interpretarlo en la forma siguiente: El RC = 1, implica que hay la misma razón de casos que aparece A y A , cuando está B, que cuando no está presente B, El RC < 1, implica que la razón entre los casos que aparecen A y A es menor cuando está presente B. El RC > 1, implica que la razón entre los casos que aparecen A y A es mayor cuando está presente B. Ejemplo 4.1. Observación de conducta (continuación) Calculamos la razón de productos cruzado para este ejemplo que hemos estado utilizando anteriormente, f f obteniendo: RC 11 22 100x60 6000 30 f12 f 21 10x20 200 Al obtener un valor mayor que 1, implica que la razón entre los resultados A y B del observador A es superior cuando el sujeto tiene un valor A por el observador B que cuando tiene un valor B. De hecho, entre los sujetos con resultados A del observador B hay 100 valorados con A por el observador A por cada 20 valorados con B por el observador B (la razón es 5/1). Entre los sujetos con resultados B del observador B hay 10 valorados con A por el observador A por cada 60 valorados con B por el observador B. 4.3. Medidas de asociación para tablas rxc Ahora vamos a mostrar algunos coeficientes los cuales se pueden aplicar a tablas con mayor número de columnas y filas. 4.3.1. Coeficiente de contingencia de Pearson Este coeficiente se calcula mediante la siguiente formula: C 2 /( 2 n) Vemos como se sigue basándose en el estadístico Chi-cuadrado. Este coeficiente cuando vale 0 indica independencia absoluta, pero el máximo, cuando la tabla tiene c columnas y r filas es: Max {C}= Min{r 1, c 1} 1 Min{r 1, c 1} 4 Ejemplo 4.2. Aborto Para analizar si el estado civil no era una variable relevante a la hora de explicar las actitudes abortistas, se ha encuestado a 500 sujetos obteniendo los resultados que aparecen en la tabla siguiente. Solteros Casados Divorciados Total Actitud Abortista Actitud Antiabortista Total 120 50 30 200 30 200 70 300 150 250 100 500 Calcula e interpreta el coeficiente de contingencia de Pearson y su máximo. Calculamos las frecuencias esperadas y vemos que hay más solteros con actitud abortista de lo esperado (y menos contrarios al aborto); hay menos casados con esta actitud que lo esperado y algunos divorciados más. Por tanto hay relación entre las variables. Tabla 4.3. Frecuencias esperadas Actitud Abortista Actitud antiabortista (150x200)/500=60 (150x300)/500=90 Solteros (250x200)/500=100 (250x300)/500=150 Casados Divorciados (200x100)/500=40 (300x100)/500=60 Al calcular el valor Chi-cuadrado, se obtiene un valor estadísticamente significativo (se puede comprobar mirando la tabla para 2 grados de libertad: 2 exp i j ( f ij eij ) 2 eij 60 + 40 + 25 + 16,67 + 2,5 + 1,667 = 145,83 Y el coeficiente C se calcula mediante la siguiente formula: C 2 /( 2 n) = 145,83/(145,83 500) 0,475 El máximo posible para esta tabla sería Max {C}= Min{r 1, c 1} = 0,7071 1 Min{r 1, c 1} Por ello, podemos decir que la asociación es moderada-alta. 4.3.2. V de Cramer Este coeficiente se calcula mediante la siguiente formula: V 2 / n( p 1) Siendo p = Min {número de filas, número de columnas}. Este coeficiente varía entre 0 y 1, siendo 0 en caso de independencia y 1 en caso de dependencia perfecta. Ejemplo 4.5. Aborto (continuación) Para el ejemplo dado El valor chi-cuadrado era 145,83. El coeficiente se calcula mediante la siguiente formula, siendo p = Min {número de filas, número de columnas}: V 2 / n( p 1) = 145,83/ 500x(2 1) 0,29166= 0,54 5 4.3.3. Medidas basadas en la reducción proporcional del error Puesto que los coeficientes anteriores a veces no tienen una interpretación sencilla, algunos autores consideran medidas de asociación basadas en la cuantificación de la reducción del error que se comete al predecir el valor de una variable, cuando se conoce el valor de la otra. Supongamos que quiero predecir el valor de la característica X (variable en filas) en un individuo tomado al azar en la población. Si no tuviera ninguna información sobre el mismo, la probabilidad de cometer un error en la clasificación sería: P(1 ) n f max , siendo fmax la mayor frecuencia marginal en filas. Ya que si no n se nada, lo asignaría a la fila de mayor frecuencia. Si supiera cuál es la columna (valor de la variable Y), lo asignaría a la fila (valor de X) que tenga frecuencia máxima en esa columna. La probabilidad de error sería P( 2 ) n f mj n donde f mj es la frecuencia máxima en la columna j. El coeficiente 1 2 indica cual es el porcentaje de error que se ve reducido al predecir el valor 1 de la variable dependiente X, conocido el valor de la variable independiente Y, en vez de asignar al azar el valor de X. Lambda de Goodman y Kruskal Una medida basada en la reducción proporcional del error es la lambda de Goodman y Kruskal, este coeficiente se calcula mediante la siguiente formula, para variables fila dependiente: f mj n f max n n n n f max n n f max n = n f max f = f Es decir, f mj mj mj f max n f max f max n f max Siendo: fmax es la mayor frecuencia marginal en filas y fmj es la frecuencia máxima en la columna j-ésima. Ejemplo 4.6. Aborto (continuación) Recordamos los datos de la tabla. Solteros Casados Divorciados Total Actitud antiabortista Total 120 50 30 200 30 200 70 300 150 250 100 500 Supongamos que queremos predecir el estado civil de una persona al azar en esta muestra, sin saber nada sobre su actitud respecto al aborto. Como la máxima frecuencia marginal en filas es la correspondiente a casados (250), diríamos que es casado. La probabilidad de error en este caso sería P(1 ) Actitud abortista n f max 500 250 =1/2; pues nos equivocaríamos con los solteros y divorciados. n 500 Si nos dicen cuál es la actitud de la persona, predeciríamos que es soltero (si tiene actitud abortista) o casado (si no la tiene). La probabilidad de error ahora 6 sería P( 2 ) n f mj n 500 (120 200) 180 0,36 . Hemos reducido el error de predicción, ahora 500 500 sólo nos equivocamos en el 36% de los casos, en vez de la mitad El cociente 1 2 0,5 0,36 0,14 =0,28 1 0,5 0,5 En resumen, el coeficiente Lambda de Goodman y Kruskal se calcula mediante la siguiente formula: f mj f max n f max = (120 200 ) 250 = 0,28 500 250 Siendo: fm+ es la mayor frecuencia marginal en filas y fmj es la mayor frecuencia en la columna j-ésima. Hemos reducido un 28% con respecto al error que teníamos. Ejercicios resueltos del tema 4 Ejercicio 4.1. Calificaciones de estadística. Al final del curso los cuatro profesores de un mismo curso de estadística calificaron a los alumnos de la siguiente forma: Profesores NOTAS Total Aprobados Suspensos A 68 57 125 B 90 60 150 C 70 30 100 D 120 30 150 Total 348 177 525 a. Calcula los coeficientes de contingencia de Pearson V de Cramer y Llambda de Goodman y Kruskal (con filas dependientes) b. ¿Qué se puede concluir de lo obtenido? Calculamos primero las frecuencias esperadas: Profesores A B C D El valor chi-cuadrado es: NOTAS Aprobados Suspensos (125x348)/525=82,86 (125x177)/525=42,14 (150x348)/525=99,43 (150x177)/525=50,57 (100x348)/525=66,29 (100x177)/525=33,71 (150x348)/525=99,43 (150x177)/525=50,57 2 exp i j ( f ij eij ) 2 eij 23,80. Los grados de libertad son 3. Para 3 grados de libertad, la tabla me indica que el valor 12,84 tiene una probabilidad menor que 0,005. Por tanto el contraste es estadísticamente significativo y hay asociación entre profesor y aprobados/suspensos. El coeficiente de contingencia de Pearson sería C 2 /( 2 n) = 0,208. El valor máximo en este Min{r 1, c 1} = 0,7071. Por tanto la intensidad de la asociación es pequeña 1 Min{r 1, c 1} pues sólo llegamos a la tercera parte del máximo. caso es: Max {C}= El coeficiente V de Cramer es: V 2 / n( p 1) = 0,213. Como sabemos este coeficiente puede llegar a 1, por lo que confirma que la asociación es pequeña 7 La lambda de Goodman y Kruskal: x ( f mj ) f m N f m = 0,08, de lo que observamos que no mejora mucho la predicción al saber si el alumno ha aprobado para predecir su profesor. Se puede concluir que todos los coeficientes están por debajo de la mitad del rango que pueden tomar, sin llegar a ser nula. Podría decirse que resulta una asociación baja. Ejercicio 4.2. Niños disléxicos Un psicólogo escolar está probando la eficacia de tres métodos de lectura de niños disléxicos. Estudiando los antecedentes de estos niños vio que la experiencia en la familia de hermanos disléxicos podría ser una causa de la ineficacia de los métodos. Con el fin de obtener alguna evidencia, midió a sus alumnos en las dos variables y obtuvo la tabla siguiente de curación. Pacientes curados Método A Método B Método C Total Sin hermanos disléxicos 0 6 14 20 Con hermanos disléxicos 10 16 4 30 Total 10 22 18 50 a. Calcula el coeficiente de contingencia de Pearson. b. Calcula el coeficiente V de Cramer. c. Calcula la lambda de Goodman y Kruskal. d. ¿Qué se puede concluir de lo obtenido? Frecuencias esperadas: Método A Método B Método C Sin hermanos disléxicos (20x10)/50=4 (20x22)/50=8,8 (20x18)/50=7,2 Con hermanos disléxicos (30x10)/50=6 (30x22)/50=13,2 (30x18)/50=10.8 El valor chi-cuadrado es: 2 exp i ( f ij eij ) 2 j eij 18.86 El coeficiente de contingencia de Pearson: C 2 /( 2 n) = 0,523 El máximo es: Max {C}= Min{r 1, c 1} = 0,7071 1 Min{r 1, c 1} El coeficiente V de Cramer es: V 2 / n( p 1) = 0,614 La lambda de Goodman y Kruskal: x ( f mj ) f m N f m = 0,5 Se puede concluir que todos los coeficientes están por encima de la mitad del rango que pueden tomar, sin llegar a ser el máximo. Podría decirse que resulta una asociación moderada-alta. 8