Desarrollo teórico del tema

Anuncio
Tema 4. Medidas de asociación
Objetivos del tema 4
En este tema aprenderás a:
 Interpretar la intensidad de la dependencia entre dos
variables en una tabla de contingencia
 Calcular e interpretar medidas de asociación en tablas 2x2:
Coeficiente Phi de Pearson, Riesgo relativo y Razón de
productos cruzados.
 Calcular e interpretar medidas de asociación en tablas rxc:
Coeficiente de contingencia de Pearson y V de Cramer.
 Calcular e interpretar medidas de asociación que informan
de la reducción del error de predicción de una variable,
cuando se conoce el valor de la otra: Lambda de Goodman y
Kruskal
Lambda de Goodman y Kruskal
1.- Leo A. Goodman
2.- William Henry Kruskal
4.1. Introducción
En el tema anterior hemos visto la manera de realizar un contraste Chi-cuadrado, para ver si dos variables
están o no asociadas. Este contraste sólo nos informa de la presencia de asociación, pero no nos dice si es
alta o baja.
En el caso de rechazar la hipótesis de independencia, el siguiente paso sería calcular algún valor que mida la
intensidad de la asociación, es decir, indique cómo de dependientes son las variables la una de la otra. A
continuación vamos a mostrar distintos coeficientes que sirven para medir esta intensidad. Diferenciamos el
caso de las tablas 2x2 y los generales de tablas rxc.
4.2. Medidas para tablas 2x2
Las tablas 2x2 son especiales, porque, además de la intensidad de la asociación podemos ver el signo.
Recordamos la forma de estas tablas, que muestran la presencia o ausencia de dos factores A y B.
Tabla 4.1. Tabla de contingencia 2x2
B No B Total
A
f11
f12
f1.
No A
f21
f22
f2.
Total
f.1
f.2
N
Para estas tablas podemos calcular algunos coeficientes con signo, de modo que se tiene:

Si el coeficiente es positivo la asociación es directa, es decir, A y B suelen suceder juntos. Por tanto,
si se da A suele darse B; por tanto habrá muchos casos en la celda f11. Por otro lado, si no se da A, lo
más frecuente es que tampoco se de B, por tanto habrá muchos casos en la celda f22. Por ejemplo “ser
rubio” y “ojos claros” tendría asociación directa, pues habrá muchos casos de rubios con ojos claros
y también de morenos con ojos no claros.

Si el coeficiente es negativo la asociación es inversa, es decir, si se da A no suele ocurrir B y si se da
B no suele ocurrir A. Habría mayor frecuencia en las celdas f21 y f12.

Si el coeficiente es nulo no existe asociación, es decir, son independientes. No se encuentra un patrón
en las diferentes celdas.
A continuación vamos a estudiar algunos coeficientes que pueden calcularse en una tabla 2x2, para saber no
sólo el signo, sino la intensidad (si la asociación es fuerte o débil).
1
4.2.1. Coeficiente Phi de Pearson
Este coeficiente está basado en el valor chi-cuadrado, que vimos como se calculaba en el tema anterior.
( f ij  eij ) 2
2
Recordamos que  exp
. Para las tablas 2x2 podemos utilizar la forma alternativa para el
 
eij
i
j
cálculo de Chi-cuadrado:
2
 exp

( f11 f 22  f12 f 21 ) 2 n
f1. f 2 . f .1 f .2
Se define el coeficiente Phi, de la forma siguiente:
  2 / n =
(( f11 f 22  f12 f 21 ) 2 n) /( f1. f 2 . f .1 f .2 )

n
( f11 f 22  f12 f 21 ) 2
f1. f 2 . f .1 f .2
Este coeficiente toma valores entre -1 y 1:

El valor máximo (1) se obtiene cuando la dependencia es directa y perfecta, todos los casos están en las
celdas f11 y f22. Si el coeficiente es positivo, la dependencia es directa y más alta cuanto más se acerque a
1.

El valor mínimo (-1) se obtiene cuando la dependencia es inversa y perfecta, todos los casos están en las
celdas f12 y f21. Si el coeficiente es negativo, la dependencia es inversa y más alta cuanto más se acerque a
-1.

El valor 0 se obtiene cuando hay independencia.

Puede demostrarse que es equivalente al coeficiente de correlación cuando se codifican los valores A y B
por 0 y no A y no B por 1

No depende de las frecuencias marginales

No varía si se multiplica o divide todas las frecuentas por el mismo número
Ejemplo 4.1. Observación de conducta
Para realizar un estudio de observación de conductas de interacción en niños en situación de juego se ha
entrenado a dos observadores en la utilización de un sistema de registro de conductas. Los dos observadores
codifican con el mismo sistema de categorías, requiriéndose que lo utilicen con un mismo criterio. Para
evaluar el nivel de acuerdo entre los observadores y constatar si el entrenamiento recibido ha sido adecuado,
se pide a ambos observadores que clasifiquen las conductas observadas en un vídeo de prueba. Los
resultados fueron los siguientes:
Observador A
A
B
Total
Observador B
A
B
100
10
20
60
120
70
Total
110
80
190
Calcula e interpreta el coeficiente Phi de Pearson como valor de la intensidad.
Calculamos primero las frecuencias esperadas:
A
B
Tabla 4.2. Frecuencias esperadas
A
B
(110x120)/190=69,474 (110x70)/190=40,53
(80x120)/190=50,526
(80x70)/190=29,47
A partir de ellas obtenemos el valor Chi-cuadrado:
2
 exp
 
i
j
( fij  eij ) 2
eij

(100  69,474 ) 2 (20  50,526 ) 2 (10  40,53) 2 (60  29,47 ) 2 =13,413 + 18,443 + 22,99 + 31,62=86,47



69,474
50,526
40,53
29,47
2
Calculamos el coeficiente Phi de Pearson:
  2 / n =
86,47 / 190= 0,675
Observamos que el valor es positivo (dependencia directa) y, en efecto, aparecen muchos más datos en la
diagonal principal f11 y f22 que en la otra diagonal. Vemos que el valor es moderado-alto (cerca de 0,7).
Si tuviéramos un valor del observador A, sabiendo el tipo de resultado, podríamos tratar de predecir su
resultado por el observador B. La mayoría de los que tienen un resultado A por el observador A, también
obtienen un resultado A por el observador B (e igual con los resultados de B). Cuantos más casos en la
diagonal principal, mayor valor de Phi y más fácil la predicción.
4.2.2. Riesgo relativo
Se puede calcular por filas y por columnas. El riesgo relativo

El riesgo relativo por columnas indica cuanto más probable es la presencia de A con B que entre aquellos
que no poseen B. Se calcula mediante la siguiente formula (columnas):
RRcolumnas 

P( A / B) f11 / f .1 f11 f .2


P( A / B ) f12 / f .2 f .1 f12
El riesgo relativo por filas indica cuanto más probable es la presencia de B con A que entre aquellos que
no poseen A. Este coeficiente se calcula mediante la siguiente formula para filas:
RR filas 
f f
P( B / A) f11 / f1.

 11 2.
P( B / A ) f 21 / f 2. f 21 f1.
Estos dos valores puede que coincidan, pero esto no pasa siempre.
El valor del Riesgo relativo cambia según el tipo de asociación que tengan las variables:

El RR = 1, informa que no hay asociación entre las variables.

El RR > 1, nos dice que existe asociación positiva.

El RR < 1, indica que existe una asociación negativa.
Ejemplo 4.1. Observación de conducta (continuación)
Calculemos estos dos riesgos en el ejemplo sobre observación de conducta
Observador A
A
B
Total
Observador B
A
B
100
10
20
60
120
70
Total
110
80
190
El riesgo relativo por columnas se calcula mediante la siguiente formula:
RRcolumnas 
P(ObA_ A / ObB _ A) 100/ 120 100x70 7000= 5,8333



P(ObA_ A / ObB _ B)
10 / 70
10x120 1200
El RRcolumnas > 1, nos dice que existe asociación positiva. Nos dice que es 5,8333 veces más fácil tener un
valor A por el observador A cuando se tiene un valor A por el observador B que si se tiene un valor B por el
observador B.
El riesgo relativo por filas se calcula mediante la siguiente formula:
3
RR filas 
P(ObB _ A / ObA_ A) 100/ 110 100x80 8000 = 3,6364



P(ObB _ A / ObA_ B)
20 / 80
20x110 2200
El RRfilas > 1, nos dice que existe asociación positiva. Nos dice que es 3,6364 veces más fácil tener un valor
A por el observador B cuando se tiene un valor A por el observador A que si se tiene un valor B por el
observador A.
4.2.3. Razón de productos cruzados
Este coeficiente es una razón de dos cocientes:
RC 
f11 f 22
f /f
C
 11 21  1
f12 f 21 f12 / f 22 C2

C1 es la razón de casos en que se presenta A y los que no se presenta A cuando está presente B.

C2 es la razón de casos A y no A cuando no está presente el factor B.
Conviene observar que la Razón de productos cruzados es una medida no simétrica. Es decir, A es la variable
dependiente y B la independiente. Podemos interpretarlo en la forma siguiente:



El RC = 1, implica que hay la misma razón de casos que aparece A y A , cuando está B, que cuando no
está presente B,
El RC < 1, implica que la razón entre los casos que aparecen A y A es menor cuando está presente B.
El RC > 1, implica que la razón entre los casos que aparecen A y A es mayor cuando está presente B.
Ejemplo 4.1. Observación de conducta (continuación)
Calculamos la razón de productos cruzado para este ejemplo que hemos estado utilizando anteriormente,
f f
obteniendo: RC  11 22  100x60  6000  30
f12 f 21 10x20
200
Al obtener un valor mayor que 1, implica que la razón entre los resultados A y B del observador A es
superior cuando el sujeto tiene un valor A por el observador B que cuando tiene un valor B.
De hecho, entre los sujetos con resultados A del observador B hay 100 valorados con A por el observador A
por cada 20 valorados con B por el observador B (la razón es 5/1). Entre los sujetos con resultados B del
observador B hay 10 valorados con A por el observador A por cada 60 valorados con B por el observador B.
4.3. Medidas de asociación para tablas rxc
Ahora vamos a mostrar algunos coeficientes los cuales se pueden aplicar a tablas con mayor número de
columnas y filas.
4.3.1. Coeficiente de contingencia de Pearson
Este coeficiente se calcula mediante la siguiente formula:
C   2 /(  2  n)
Vemos como se sigue basándose en el estadístico Chi-cuadrado. Este coeficiente cuando vale 0 indica
independencia absoluta, pero el máximo, cuando la tabla tiene c columnas y r filas es:
Max {C}=
Min{r  1, c  1}
1  Min{r  1, c  1}
4
Ejemplo 4.2. Aborto
Para analizar si el estado civil no era una variable relevante a la hora de explicar las actitudes abortistas, se
ha encuestado a 500 sujetos obteniendo los resultados que aparecen en la tabla siguiente.
Solteros
Casados
Divorciados
Total
Actitud
Abortista
Actitud
Antiabortista
Total
120
50
30
200
30
200
70
300
150
250
100
500
Calcula e interpreta el coeficiente de contingencia de Pearson y su máximo.
Calculamos las frecuencias esperadas y vemos que hay más solteros con actitud abortista de lo esperado (y
menos contrarios al aborto); hay menos casados con esta actitud que lo esperado y algunos divorciados más.
Por tanto hay relación entre las variables.
Tabla 4.3. Frecuencias esperadas
Actitud
Abortista
Actitud
antiabortista
(150x200)/500=60
(150x300)/500=90
Solteros
(250x200)/500=100 (250x300)/500=150
Casados
Divorciados (200x100)/500=40 (300x100)/500=60
Al calcular el valor Chi-cuadrado, se obtiene un valor estadísticamente significativo (se puede comprobar
mirando la tabla para 2 grados de libertad:
2
 exp
 
i
j
( f ij  eij ) 2
eij
 60 + 40 + 25 + 16,67 + 2,5 + 1,667 = 145,83
Y el coeficiente C se calcula mediante la siguiente formula:
C   2 /(  2  n) = 145,83/(145,83 500)  0,475
El máximo posible para esta tabla sería
Max {C}=
Min{r  1, c  1} = 0,7071
1  Min{r  1, c  1}
Por ello, podemos decir que la asociación es moderada-alta.
4.3.2. V de Cramer
Este coeficiente se calcula mediante la siguiente formula:
V   2 / n( p  1)
Siendo p = Min {número de filas, número de columnas}.
Este coeficiente varía entre 0 y 1, siendo 0 en caso de independencia y 1 en caso de dependencia perfecta.
Ejemplo 4.5. Aborto (continuación)
Para el ejemplo dado El valor chi-cuadrado era 145,83. El coeficiente se calcula mediante la siguiente
formula, siendo p = Min {número de filas, número de columnas}:
V   2 / n( p  1) = 145,83/ 500x(2 1)  0,29166= 0,54
5
4.3.3. Medidas basadas en la reducción proporcional del error
Puesto que los coeficientes anteriores a veces no tienen una interpretación sencilla, algunos autores
consideran medidas de asociación basadas en la cuantificación de la reducción del error que se comete al
predecir el valor de una variable, cuando se conoce el valor de la otra. Supongamos que quiero predecir el
valor de la característica X (variable en filas) en un individuo tomado al azar en la población.

Si no tuviera ninguna información sobre el mismo, la probabilidad de cometer un error en la
clasificación sería: P(1 ) 
n  f max
, siendo fmax la mayor frecuencia marginal en filas. Ya que si no
n
se nada, lo asignaría a la fila de mayor frecuencia.

Si supiera cuál es la columna (valor de la variable Y), lo asignaría a la fila (valor de X) que tenga
frecuencia máxima en esa columna. La probabilidad de error sería P( 2 ) 
n
f
mj
n
donde f mj es la
frecuencia máxima en la columna j.

El coeficiente  
1   2
indica cual es el porcentaje de error que se ve reducido al predecir el valor
1
de la variable dependiente X, conocido el valor de la variable independiente Y, en vez de asignar al
azar el valor de X.
Lambda de Goodman y Kruskal
Una medida basada en la reducción proporcional del error es la lambda de Goodman y Kruskal, este
coeficiente se calcula mediante la siguiente formula, para variables fila dependiente:


f mj
 n  f max   n 


n
n




n  f max
n


 n  f max   n 
=
n  f max
  f =  f
Es decir,  
f
mj
mj
mj
 f max 
n  f max
 f max
n  f max
Siendo: fmax es la mayor frecuencia marginal en filas y fmj es la frecuencia máxima en la columna j-ésima.
Ejemplo 4.6. Aborto (continuación)
Recordamos los datos de la tabla.
Solteros
Casados
Divorciados
Total

Actitud
antiabortista
Total
120
50
30
200
30
200
70
300
150
250
100
500
Supongamos que queremos predecir el estado civil de una persona al azar en esta muestra, sin saber
nada sobre su actitud respecto al aborto. Como la máxima frecuencia marginal en filas es la
correspondiente a casados (250), diríamos que es casado. La probabilidad de error en este caso sería
P(1 ) 

Actitud
abortista
n  f max 500 250

=1/2; pues nos equivocaríamos con los solteros y divorciados.
n
500
Si nos dicen cuál es la actitud de la persona, predeciríamos que es soltero (si tiene actitud abortista) o
casado
(si
no
la
tiene).
La
probabilidad
de
error
ahora
6
sería P( 2 ) 
n
f
mj
n

500 (120 200) 180

 0,36 . Hemos reducido el error de predicción, ahora
500
500
sólo nos equivocamos en el 36% de los casos, en vez de la mitad

El cociente  
 1   2 0,5  0,36 0,14


=0,28
1
0,5
0,5
En resumen, el coeficiente Lambda de Goodman y Kruskal se calcula mediante la siguiente formula:

f
mj
 f max
n  f max
= (120  200 )  250 = 0,28
500  250
Siendo: fm+ es la mayor frecuencia marginal en filas y fmj es la mayor frecuencia en la columna j-ésima.
Hemos reducido un 28% con respecto al error que teníamos.
Ejercicios resueltos del tema 4
Ejercicio 4.1. Calificaciones de estadística.
Al final del curso los cuatro profesores de un mismo curso de estadística calificaron a los alumnos de la
siguiente forma:
Profesores
NOTAS
Total
Aprobados Suspensos
A
68
57
125
B
90
60
150
C
70
30
100
D
120
30
150
Total
348
177
525
a. Calcula los coeficientes de contingencia de Pearson V de Cramer y Llambda de Goodman y
Kruskal (con filas dependientes)
b. ¿Qué se puede concluir de lo obtenido?
Calculamos primero las frecuencias esperadas:
Profesores
A
B
C
D

El valor chi-cuadrado es: 
NOTAS
Aprobados
Suspensos
(125x348)/525=82,86 (125x177)/525=42,14
(150x348)/525=99,43 (150x177)/525=50,57
(100x348)/525=66,29 (100x177)/525=33,71
(150x348)/525=99,43 (150x177)/525=50,57
2
exp
 
i
j
( f ij  eij ) 2
eij
 23,80. Los grados de libertad son 3. Para 3
grados de libertad, la tabla me indica que el valor 12,84 tiene una probabilidad menor que 0,005. Por tanto
el contraste es estadísticamente significativo y hay asociación entre profesor y aprobados/suspensos.

El coeficiente de contingencia de Pearson sería C 
 2 /(  2  n) = 0,208. El valor máximo en este
Min{r  1, c  1} = 0,7071. Por tanto la intensidad de la asociación es pequeña
1  Min{r  1, c  1}
pues sólo llegamos a la tercera parte del máximo.
caso es: Max {C}=

El coeficiente V de Cramer es: V   2 / n( p  1) = 0,213. Como sabemos este coeficiente puede
llegar a 1, por lo que confirma que la asociación es pequeña
7

La lambda de Goodman y Kruskal: x 
( f mj )  f m
N  f m
= 0,08, de lo que observamos que no mejora
mucho la predicción al saber si el alumno ha aprobado para predecir su profesor.
Se puede concluir que todos los coeficientes están por debajo de la mitad del rango que pueden tomar, sin
llegar a ser nula. Podría decirse que resulta una asociación baja.
Ejercicio 4.2. Niños disléxicos
Un psicólogo escolar está probando la eficacia de tres métodos de lectura de niños disléxicos. Estudiando
los antecedentes de estos niños vio que la experiencia en la familia de hermanos disléxicos podría ser una
causa de la ineficacia de los métodos. Con el fin de obtener alguna evidencia, midió a sus alumnos en las
dos variables y obtuvo la tabla siguiente de curación.
Pacientes curados
Método A Método B Método C Total
Sin hermanos disléxicos
0
6
14
20
Con hermanos disléxicos
10
16
4
30
Total
10
22
18
50
a. Calcula el coeficiente de contingencia de Pearson.
b. Calcula el coeficiente V de Cramer.
c. Calcula la lambda de Goodman y Kruskal.
d. ¿Qué se puede concluir de lo obtenido?
Frecuencias esperadas:
Método A
Método B
Método C
Sin hermanos disléxicos (20x10)/50=4 (20x22)/50=8,8 (20x18)/50=7,2
Con hermanos disléxicos (30x10)/50=6 (30x22)/50=13,2 (30x18)/50=10.8

El valor chi-cuadrado es: 
2
exp
 
i

( f ij  eij ) 2
j
eij
 18.86
El coeficiente de contingencia de Pearson: C   2 /(  2  n) = 0,523
El máximo es: Max {C}=
Min{r  1, c  1} = 0,7071
1  Min{r  1, c  1}

El coeficiente V de Cramer es: V   2 / n( p  1) = 0,614

La lambda de Goodman y Kruskal:
x 
( f mj )  f m
N  f m
= 0,5
Se puede concluir que todos los coeficientes están por encima de la mitad del rango que pueden tomar, sin
llegar a ser el máximo. Podría decirse que resulta una asociación moderada-alta.
8
Descargar