Subido por CESAR AROTAIPE ALA

Tema 5: Relación de variables cualitativas

Anuncio
Asociación de variables
bidimensionales cualitativas
DOCENTE: Dra. ROSA YOLANDA CARPIO BARREDA
LOGRO DE LA SESIÓN
Al finalizar la sesión de aprendizaje, el estudiante
conoce la asociación entre variables cualitativas.
Introducción
El análisis estadístico descriptivo univariado permite organizar, representar y describir los datos de una
muestra o población, sin embargo, en la mayoría de los estudios o investigaciones, lo que resulta mas
importante es conocer si hay relación entre dos variables (investigaciones correlaciónales, causa-efecto).
Los estudios correlacionales pretenden responder a preguntas
de investigación como las siguientes:
1. ¿Aumenta la satisfacción del cliente conforme se mejore la calidad del producto?
2. ¿A mayor autonomía en el trabajo corresponde mayor motivación intrínseca
respecto de las tareas laborales?
Muchas veces el interés de los investigadores está centrado en establecer la
relación entre dos o más variables.
RELACION ENTRE DOS VARIABLES CUALITATIVAS NOMINALES
¿Influye el nivel de estudios sobre la practica del cumplimiento de
protocolos?
¿Tiene relación el genero con los hábitos de lectura?
¿Hay alguna relación entre la práctica religiosa, y el sistema político con el que se rige el país?
¿Hay alguna relación entre el tipo de empresa, y el servicio que ofrece al público?
ASOCIACIÓN ENTRE DOS VARIABLES CUALITATIVAS
Las tablas de contingencia (bivariadas), los gráficos de barras agrupados, apilados y el
coeficiente de asociación; permiten organizar, describir datos bivariados y analizar la relación
entre dos variables cualitativas.
TABLA DE CONTINGENCIA
GRAFICOS DE BARRAS AGRUPADO
GRAFICOS DE BARRAS APILADO
COEFICIENTES DE
ASOCIACIÓN
INDEPENDENCIA O ASOCIACIÓN
TABLAS DE CONTINGENCIA
Las tablas de contingencia permiten conocer como se distribuyen los datos en
forma conjunta en dos variables cualitativas o mixtas, también se utilizan para
examinar la relación entre ambas variables (cualitativas o categóricas).
𝟏
𝟐
La independencia de dos variables consiste en que la distribución de una
de las variables es similar sea cual sea el nivel que examinaremos de la
otra.
En una tabla de contingencia las frecuencias de las filas (y las columnas)
son aproximadamente proporcionales, es recomendable hacerlo por
porcentajes por fila (o columnas) y observando si estos son similares.
EJEMPLO 1 (a)
Prioridades y sexo
Los siguientes datos recogen las respuestas de estudiantes
universitarios a los que se les preguntó, entre otras cosas, a
qué daban más prioridad de entre tres posibilidades:
• Tener buenas notas,
• Destacar en los deportes o
• Ser popular entre los compañeros.
Vamos a estudiar la independencia o asociación entre
variables, consideremos la variable sexo y la variable
prioridades.
Estudiante
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
Sexo
Hombre
Mujer
Mujer
Mujer
Hombre
Mujer
Hombre
Hombre
Hombre
Mujer
Mujer
Hombre
Hombre
Mujer
Mujer
Hombre
Hombre
Mujer
Prioridades
Notas
Deportes
Notas
Deportes
Deportes
Popularidad
Notas
Deportes
Popularidad
Deportes
Notas
Popularidad
Notas
Popularidad
Deportes
Deportes
Deportes
Notas
Del ejemplo anterior, se elabora la tabla de contingencia:
Prioridades
Sexo
Notas
Deportes
Popularidad
Total
Varón
3 (16,67%)
4 (22,22%)
2 (11,11%)
9 (50%)
Mujer
3 (16,67%)
4 (22,22%)
2 (11,11%)
9 (50%)
Total
6 (33,34%)
8 (44,44%)
4 (22,22%)
18 (100%)
De acuerdo a la tabla de contingencias se observa
cantidades iguales de estudiantes varones o mujeres. En
cuanto a la importancia que tienen para ellos las notas,
deportes o popularidad, tampoco se observa diferencia en
la preferencia según el sexo.
Interpretación
De acuerdo a la tabla de contingencia y los gráficos, el sexo
del estudiante no está relacionado con la importancia que le
dan a las prioridades.
EJEMPLO 2
Un investigador quiere estudiar si hay asociación entre la
práctica deportiva y la sensación de bienestar. Extrae una
muestra aleatoria de 250 sujetos. Los datos aparecen a
continuación en la siguiente tabla.
¿Están las variables relacionadas o son independientes? Justifique su respuesta.
Muchos podrían pensar que las variables están relacionadas, pues la celda donde hay mayor
frecuencia es en las personas que tienen sensación de bienestar y practica deporte. ¡Pero sería un
error basar el juicio de asociación en los datos de una sola celda de la tabla! Para analizar la
asociación podemos comparar la proporción de personas con sensación de bienestar entre los que
practican deporte y los que no. Utilice las tablas condicionales.
EJEMPLO 3
¿El defecto en el lenguaje está relacionado con el grupo socioeconómico?
Interpretación
De acuerdo al grafico, se puede observar un comportamiento proporcional en los grupos
socioeconómico con respecto a la presencia o ausencia del lenguaje en los niños (fig. 1). Si prestamos
atención a la tabla, observamos los porcentajes la diferencia presentada es muy similar de acuerdo a
los niveles tanto en presencia o ausencia de lenguaje, por lo tanto esto implica que no hay influencia o
dependencia del grupo socioeconómico con respecto al defecto del lenguaje presentado por los niños
de la escuela.
EJEMPLO 4
De cara a la planificación del próximo curso,
seria conveniente analizar la relación entre
el nivel de estudios del padre y la
orientación del alumno hacia las ciencias. Se
cuenta para ello con la información
obtenida en el centro.
Se puede representar gráficamente, mediante barras agrupadas:
Interpretación
De acuerdo al grafico, se puede observar la mayor
diferencia en el nivel básico mostrado por los
padres (12 con orientación hacia las ciencias y 42 no
orientados), caso contrario ocurre en el nivel medio
de los padres (34 muestra orientación a las ciencias
y 16 no la muestra), en el caso del nivel nulo y
superior la diferencia no es muy significativa (fig. 1).
Si prestamos atención la distribución de la
orientación hacia ciencias en porcentajes por el
nivel educativo de los padres, la diferencia resulta
mas evidente (tabla 1).
El resultado de un examen y la situación de pobreza en que se
encuentran un conjunto de estudiantes que estudian en un centro educativo en
las afueras de la ciudad.
Ejemplo:
aprobó
Variables:
categorías
Si
no
Situación de
pobreza
v. Nominal dicotómica
Si
no
v. Nominal dicotómica
El resultado de un examen y la situación de pobreza en que se
encuentran un conjunto de estudiantes que estudian en un centro educativo en
las afueras de la ciudad.
Ejemplo:
No Pobres
Pobres
Total
Aprobaron
23
10
33
No
aprobaron
Total
15
8
23
38
18
56
Nos preguntamos:
¿existe relación significativa entre una y otra variable?
¿Cúal es la fuerza y el sentido de dicha relación?
Para medir el grado de dependencia o asociación entre las variables X e Y
se utilizan medidas de asociación.
Existen diferentes medidas o coeficientes de asociación, según las
características de la tabla, las características de las variables y el tipo de
hipótesis que nos planteamos.
COEFICIENTES DE ASOCIACION
Introducción
Los términos asociación, correlación, contingencia, concordancia y otros
similares, se suelen utilizar como equivalentes muy a menudo. No obstante,
haciendo un uso más correcto de la terminología estadística, aún con
significado semejante, se puede considerar:
• Correlación de variables propiamente dichas, o sea, medidas en escala de
intervalo.
• Concordancia de ordenaciones, entendiéndose como tales las
denominadas variables ordinales, y
• Asociación o contingencia de variables nominales o atributos.
Así, para clasificar los coeficientes que detectan y miden el grado de relación, o dependencia
estadística, se ha tenido en cuenta el tipo y la naturaleza de las variables sometidas a estudio.
COEFICIENTES DE ASOCIACION
Miden el grado de dependencia o asociación entre dos características
cualitativas. La medida básica es el estadístico Chi Cuadrado de Pearson:
El Coeficiente Phi
El Coeficiente Chi Cuadrado
El Coeficiente Contingencia C
El Coeficiente V de Cramer
El estudio de la relación entre dos variables se puede caracterizar mediante:
i) La existencia o no de asociación;
ii) La fuerza de dicha asociación y
iii) La dirección de ésta.
El uso apropiado de un coeficiente de asociación (correlación) depende del nivel de medición
de las variables.
COEFICIENTE PHI DE PEARSON 𝝓
El estadístico Phi 𝝓 mide o cuantifica la asociación
entre dos variables cualitativas nominales dicotómicas.
Las dos deberán ser realmente dicotómicas (ej.: hombre-mujer, vivomuerto...) o una dicotómica y la otra dicotomizada artificialmente.
Condiciones:
• Se requiere que 𝑛 ≥ 100,
• No debe emplearse ninguna proporción total que sea inferior a 0,05 siendo
peligroso emplear proporciones inferiores a 0,10.
Variable dicotómica
Expresa 2 categorías excluyentes.
Ejemplo:
• Si o No,
• Hombre o Mujer.
COEFICIENTE PHI DE PEARSON 𝝓
El estadístico Phi 𝝓 mide o cuantifica la asociación entre dos variables cualitativas
nominales dicotómicas. Se trata de cuantificar la fuerza de la relación entre dos
variables X e Y.
TABLA DE CONTINGENCIA
Se define el coeficiente Phi 𝝓 , de la forma siguiente:
𝝓=
𝒏𝟏𝟏 𝒏𝟐𝟐 − 𝒏𝟏𝟐 𝒏𝟐𝟏
𝒙𝟏
𝒚𝟏
(a) n11
Total
𝒚𝟐
(b) n12 (a+b) n1.
𝒙𝟐
(c) n21
(d) n22 (c+d) n2.
𝒏𝟏𝟏 + 𝒏𝟐𝟏 𝒏𝟏𝟐 + 𝒏𝟐𝟐 𝒏𝟏𝟏 + 𝒏𝟏𝟐 𝒏𝟐𝟏 + 𝒏𝟐𝟐
𝒂𝒅 - bc
𝝓
Total
(a+c)
n.1
(b+d)
n.2
n
TABLA DE CONTINGENCIA
𝒙𝟏
𝒙𝟐
Total
𝒚𝟏
n11
n21
n.1
𝒚𝟐
n12
n22
n.2
Total
n1.
n2.
n
También se define el coeficiente Phi 𝝓 ,de la forma
siguiente:
𝝓=
𝒏𝟏𝟐 𝒏𝟐𝟏 − 𝒏𝟏𝟏 𝒏𝟐𝟐
𝒏𝟏. 𝒏𝟐. 𝒏.𝟏 𝒏.𝟐
PROPIEDADES
• Toma valores en el intervalo: − 1    1
• Se trata de cuantificar la fuerza de la relación entre dos variables X e Y.
Interpretación
Valor 1: se obtiene cuando la dependencia es directa y perfecta,
Valor -1: se obtiene cuando la dependencia es inversa y perfecta,
Valor 0: se obtiene cuando hay independencia.
𝟐
COEFICIENTE PHI DE PEARSON 𝝓
−1    1
Existen discusiones con respecto a lo que se debe considerar como una relación débil,
moderada o fuerte, pero el rango de valores mayormente utilizado puede ser teniendo en
cuenta una mayor degradación, consideremos la siguiente clasificación mostrada en la tabla.
Valor del coeficiente
Nivel
0.00
Ninguno
0.01 – 0.09
Muy débil
0.10 – 0.29
Débil
0.30 – 0.59
Moderado
0.60 – 0.74
Fuerte
0.75 – 0.99
Muy fuerte
1
Perfecto
EJEMPLO 5
Se quiere establecer la relación entre el consumo del tabaco y el género del paciente.
Consumo de Tabaco
Sexo
Sí
No
Total
Masculino
18 (a)
32 (b)
50
Femenino
22 (c)
28 (d)
50
Total
40
60
100
La fórmula expuesta anteriormente se puede explicar con palabras estableciendo que el
coeficiente phi es igual a la resta de los productos de los valores diagonales de la matriz de datos
entre la raíz cuadrada del producto de las sumas de los valores lineales de la tabla.
𝜙=
18 . 28 − 32 . 22
18 + 22 . 32 + 28 . 18 + 32 . (22 + 28)
𝜙=
18 . 28 − 32 . 22
18 + 22 . 32 + 28 . 18 + 32 . (22 + 28)
Tras realizar las operaciones algebraicas relativas a sumas, restas y multiplicaciones
el resultado será:
𝜙=
18 . 28 − 32 . 22
18 + 22 . 32 + 28 . 18 + 32 . (22 + 28)
−200
6.000.000
= − 0,0816
Interpretación
Cómo 𝝓 = - 0,0816 es cercano muy a 0, indica que no hay relación o es muy débil entre las dos
variables.
El estadístico Chi Cuadrado 𝝌𝟐 mide o cuantifica la
asociación entre dos variables cualitativas.
Coeficiente Chi Cuadrado
Se fundamenta su cálculo e
interpretación , en las diferencias
entre las frecuencias observadas y las
frecuencias esperadas.
𝒇𝒓𝒆𝒄𝒖𝒆𝒏𝒄𝒊𝒂𝒔 𝒐𝒃𝒔𝒆𝒓𝒗𝒂𝒅𝒂𝒔
𝝌𝟐
𝒇𝒐 − 𝒇𝒆
= 𝑺𝒖𝒎𝒂
𝒇𝒆
𝟐
𝒇𝒓𝒆𝒄𝒖𝒆𝒏𝒄𝒊𝒂𝒔 𝒆𝒔𝒑𝒆𝒓𝒂𝒅𝒂𝒔
𝒇𝒓𝒆𝒄𝒖𝒆𝒏𝒄𝒊𝒂𝒔 𝒐𝒃𝒔𝒆𝒓𝒗𝒂𝒅𝒂𝒔 𝒇𝒐
𝒇𝒓𝒆𝒄𝒖𝒆𝒏𝒄𝒊𝒂𝒔 𝒆𝒔𝒑𝒆𝒓𝒂𝒅𝒂𝒔 𝒇𝒆 = 𝑻𝒐𝒕𝒂𝒍 𝒇𝒊𝒍𝒂 𝒊 × 𝑻𝒐𝒕𝒂𝒍 𝒄𝒐𝒍𝒖𝒎𝒏𝒂 𝒋
𝑻𝒐𝒕𝒂𝒍 𝒈𝒆𝒏𝒆𝒓𝒂𝒍
Coeficiente Chi Cuadrado
En notación matemática, la
coeficiente chi cuadrado sería:
fórmula
del
N ⁰ de modalidades de la
variable 2
N ⁰ de modalidades de la
variable 1
Frecuencias Absoluta Observada ( 𝒏𝒊𝒋 )
𝑛𝑖. 𝑛.𝑗
𝑛𝑖𝑗 − 𝑛
𝜒2 = ෍ ෍
𝑛𝑖. 𝑛.𝑗
𝑖=1 𝑗=1
𝑛
ℎ
Coeficiente chi cuadrado
𝑝
2
Frecuencias Absoluta Esperada ( 𝒆𝒊𝒋 )
𝑛𝑖. 𝑛.𝑗
𝒆𝒊𝒋 =
𝑛
Interpretación
Si 𝝌𝟐 = 𝟎 entonces no hay asociación entre las variables cualitativas
Si 𝝌𝟐 > 𝟎, entonces hay asociación entre las variables cualitativas
No hay asociación
Si hay asociación
0
➢ En la medida en que 𝝌𝟐 se acerque a cero, la dependencia o asociación será débil,
➢ en la medida en que se aleje, la dependencia o asociación será más fuerte.
➢ El valor del coeficiente de chi cuadrado 𝝌𝟐 es sensible al tamaño de la
muestra
EJEMPLO 6 (a)
Prioridades en niños y sexo
Los datos donde se recogen las respuestas de unos escolares de 10 a 12 años a los que se les preguntó,
entre otras cosas, a qué daban más prioridad de entre tres posibilidades:
• Tener buenas notas,
• Destacar en los deportes o
• Ser popular entre los compañeros.
La tabla de distribución conjunta, se muestra a continuación:
Prioridades
Sexo
Notas
Deportes
Popularidad
Total
Varón
12 (44,44%)
10 (37,08%)
5 (18,51%)
27 (100%)
Mujer
20(50%)
8 (20%)
12 (30%)
40 (100%)
Vamos a estudiar la independencia o asociación entre variables,
consideremos la variable sexo y la variable metas (prioridad).
Solución
Calculando las frecuencias absolutas esperadas 𝑒𝑖𝑗 :
Frecuencias observadas
Frecuencias esperadas
𝒏𝒊. 𝒏.𝒋
𝒆𝒊𝒋 =
𝒏
Prioridades
Sexo
Notas
Deportes
Popularidad
Total
Varón
12
10
5
27
Mujer
20
8
12
40
Total
32
18
17
67
𝒆𝟏𝟏 =
𝟐𝟕 × 𝟑𝟐
= 𝟏𝟐. 𝟗𝟎
𝟔𝟕
𝒆𝟏𝟐 =
𝟐𝟕 × 𝟏𝟖
= 𝟕. 𝟐𝟓
𝟔𝟕
Prioridades
Sexo
Notas
Deportes
Popularidad
Total
Varón
12
10
5
27
Mujer
20
8
12
40
Total
32
18
17
67
Popularidad
Total
Prioridades
Sexo
Notas
Deportes
Varón
12
10
5
27
Mujer
20
8
12
40
Total
32
18
17
67
𝒆𝟏𝟑 =
𝟐𝟕 × 𝟏𝟕
= 𝟔. 𝟖𝟓
𝟔𝟕
Solución
Calculando las frecuencias absolutas esperadas 𝑒𝑖𝑗 :
Frecuencias observadas
Frecuencias esperadas
𝒏𝒊. 𝒏.𝒋
𝒆𝒊𝒋 =
𝒏
Prioridades
Sexo
Notas
Deportes
Popularidad
Total
Varón
12
10
5
27
Mujer
20
8
12
40
Total
32
18
17
67
𝒆𝟐𝟏 =
𝟒𝟎 × 𝟑𝟐
= 𝟏𝟗. 𝟏𝟎
𝟔𝟕
𝒆𝟐𝟐 =
𝟒𝟎 × 𝟏𝟖
= 𝟏𝟎. 𝟕𝟓
𝟔𝟕
𝒆𝟐𝟑 =
𝟒𝟎 × 𝟏𝟕
= 𝟏𝟎. 𝟏𝟓
𝟔𝟕
Prioridades
Sexo
Notas
Deportes
Popularidad
Total
Varón
12
10
5
27
Mujer
20
8
12
40
Total
32
18
17
67
Prioridades
Sexo
Notas
Deportes
Popularidad
Total
Varón
12
10
5
27
Mujer
20
8
12
40
Total
32
18
17
67
Solución
Calculando el coeficiente chi cuadrado 𝜒 2 :
Prioridades
Sexo
Notas
Deportes
Popularidad
Total
Varón
12 (12.9)
10 (7.25)
5 (6.85)
27
Mujer
20(19.1)
8 (10.75)
12 (10.15)
40
𝝌𝟐
12 − 12.9
=
12.9
2
10 − 7.25
+
7.25
2
5 − 6.85
+
6.85
2
20 − 19.1
+
19.1
𝑛𝑖. 𝑛.𝑗
𝑛𝑖𝑗 − 𝑛
𝜒2 = ෍ ෍
𝑛𝑖. 𝑛.𝑗
𝑖=1 𝑗=1
𝑛
ℎ
2
𝑝
8 − 10.75
+
10.75
2
2
12 − 10.15
+
10.15
2
segunda fila
Primera fila
𝝌𝟐 = 0.0622 + 1.0397 + 0.5000 + 0,0420 + 0.7018 + 0.3375
Primera fila
segunda fila
𝝌𝟐 = 2.6832
Interpretación
Cómo 𝝌𝟐 = 𝟐. 𝟔𝟖𝟑𝟐 > 𝟎 es mayor a cero, indica que hay relación entre las dos
variables, es decir, hay relación entre el sexo del escolar y el tipo de prioridades .
Solución
Prioridades
Sexo
Notas
Deportes
Popularidad
Total
Varón
12 (44,44%)
10 (37,08%)
5 (18,51%)
27 (100%)
Mujer
20(50%)
8 (20%)
12 (30%)
40 (100%)
Calculando el coeficiente chi cuadrado 𝜒 2 :
Interpretación
𝑛𝑖. 𝑛.𝑗
𝑛𝑖𝑗 − 𝑛
𝜒2 = ෍ ෍
𝑛𝑖. 𝑛.𝑗
𝑖=1 𝑗=1
𝑛
ℎ
𝑝
2
𝝌𝟐 = 2.6832
Cómo 𝝌𝟐 = 𝟐. 𝟔𝟖𝟑𝟐 > 𝟎 es mayor a cero, indica que hay relación entre las dos
variables, es decir, hay relación entre el sexo del escolar y el tipo de prioridades .
Con un poco de atención se observa porcentajes similares de niños y niñas en cuanto a la
importancia que tienen para ellos las notas. Donde más diferencia se observa entre los sexos
es en la preferencia que muestran muchos chicos por los deportes y muchas chicas por la
popularidad.
EJEMPLO 7
De cara a la planificación del próximo curso,
seria conveniente analizar la relación entre el
nivel de estudios del padre y la orientación del
alumno hacia las ciencias. Se cuenta para ello
con la información obtenida en el centro.
Orientación
Orientado
No orientado
Total
Nivel estudios
Básico Medio Superior Total
12
34
32
78
42
16
28
86
54
50
60
164
Calcule e interprete el coeficiente Chi cuadrado 𝝌𝟐 .
Solución
Calculando las frecuencias absolutas esperadas 𝑒𝑖𝑗 :
Orientación
Orientado
No orientado
Total
Frecuencias esperadas
Nivel estudios
Básico Medio Superior Total
12
34
32
78
42
16
28
96
54
50
60
174
𝒏𝒊. 𝒏.𝒋
𝒆𝒊𝒋 =
𝒏
𝒆𝟏𝟏 =
𝟕𝟖 × 𝟓𝟒
= 𝟐𝟒. 𝟐𝟏
𝟏𝟕𝟒
𝒆𝟐𝟏 =
𝟗𝟔 × 𝟓𝟒
= 𝟐𝟗. 𝟕𝟗
𝟏𝟕𝟒
𝒆𝟏𝟐 =
𝟕𝟖 × 𝟓𝟎
= 𝟐𝟐. 𝟒𝟏
𝟏𝟕𝟒
𝒆𝟐𝟐 =
𝟗𝟔 × 𝟓𝟎
= 𝟐𝟕. 𝟓𝟗
𝟏𝟕𝟒
𝒆𝟏𝟑 =
𝟕𝟖 × 𝟔𝟎
= 𝟐𝟔. 𝟗𝟎
𝟏𝟕𝟒
𝒆𝟐𝟐 =
𝟗𝟔 × 𝟔𝟎
= 𝟑𝟑. 𝟏𝟎
𝟏𝟕𝟒
Nivel estudios
Calculando el coeficiente chi cuadrado 𝜒 2 :
𝑛𝑖. 𝑛.𝑗
𝑛𝑖𝑗 − 𝑛
𝜒2 = ෍ ෍
𝑛𝑖. 𝑛.𝑗
𝑖=1 𝑗=1
𝑛
ℎ
12 − 24.21
𝝌 =
24.21
𝟐
𝑝
2
34 − 22.41
+
22.41
2
2
32 − 26.9
+
26.9
Orientación
Orientado
No orientado
Total
2
Básico
Superior Total
Medio
12 (24.21) 34 (22.41) 32 (26.90) 78
42 (29.79) 16 (27.59) 28 (33.10) 96
42 − 29.79
+
29.79
60
50
54
2
16 − 27.59
+
27.59
2
174
28 − 33.10
+
33.10
2
segunda fila
Primera fila
𝝌𝟐 = 6.1556 + 5.9892 + 0.9683 + 5.0014 + 4.8662 + 0.7868
Primera fila
segunda fila
𝝌𝟐 = 23.7676
Interpretación
Cómo 𝝌𝟐 = 𝟐𝟑. 𝟕𝟔𝟕𝟔 > 𝟎 es mayor a cero, indica que hay relación entre las dos
variables, es decir, hay relación entre el nivel de estudios del padre y la
orientación del alumno hacia las ciencias.
Una expresión alternativa de este estadístico es:
𝑛𝑖. 𝑛.𝑗
𝑛𝑖𝑗 − 𝑛
𝜒2 = ෍ ෍
𝑛𝑖. 𝑛.𝑗
𝑖=1 𝑗=1
𝑛
ℎ
𝑝
2
ℎ
𝑝
𝑛𝑖𝑗 2
−1
𝜒 = 𝑛 ෍෍
𝑛𝑖. 𝑛.𝑗
2
𝑖=1 𝑗=1
Inconvenientes
• Uno de los inconvenientes del estadístico 𝜒 2 es que no esta acotado
entre o y 1.
𝜒2 ≥ 0
• Con objeto de tener coeficientes acotados que además permitan
comparar tablas distintas, se han propuesto diversas medidas,
algunas de las cuales se recogen a continuación.
Uno de los inconvenientes del estadístico 𝜒 2 es que no esta acotado entre o y 1. Con
objeto de tener coeficientes acotados que además permitan comparar tablas distintas, se
han propuesto diversas medidas, algunas de las cuales se recogen a continuación.
El Coeficiente V de Cramer
El Coeficiente de Contingencia C de Pearson
CHI CUADRADO
V DE CRAMER
C DE CONTINGENCIA DE PEARSON
C DE CONTINGENCIA DE PEARSON
Viene definido por:
Coeficiente Chi cuadrado
𝐶=
𝜒2
𝑛 + 𝜒2
Tamaño de la muestra
Donde:
𝟎≤𝑪<𝟏
El valor máximo es:
𝒗𝒎á𝒙 =
𝟏
𝟏−
𝒎𝒊𝒏(𝒉; 𝒑)
𝟏
es decir: 0 ≤ 𝐶 ≤ 𝟏 − 𝒎𝒊𝒏 𝒉; 𝒑 < 𝟏
En el caso de tablas de contingencia ℎ × ℎ, se tiene:
𝒗𝒎á𝒙 =
1
1−
ℎ
es decir: 0 ≤ 𝐶 ≤
1−
1
<1
ℎ
CARACTERÍSTICAS
• Puede asumir valores mayores o iguales a cero y menores que 1.
• El valor 0, lo alcanza cuando
𝜒 2 = 0 indica que las dos variables no tienen relación.
• El valor 1 sólo lo consigue si 𝒏 = 𝟎, lo que implica que no hay observaciones.
• Cuanto mayor es el valor de C, mayor es la relación.
• Esta medida de asociación no se ve afectada por el tamaño de la muestra y está
acotada.
• No se puede utilizar para comparar la fuerza de asociación entre dos tablas de
clasificación cruzada.
C DE CONTINGENCIA DE PEARSON
Para una mejor interpretación del grado de la relación del coeficiente, utilizaremos el
siguiente clasificador: :
Valor del coeficiente
Nivel
0.00
Ninguno
0.01 – 0.09
Muy débil
0.10 – 0.29
Débil
0.30 – 0.59
Moderado
0.60 – 0.74
Fuerte
0.75 – 0.99
Muy fuerte
1
Perfecto
EJEMPLO 8
De cara a la planificación del próximo curso, seria conveniente analizar la relación
entre el nivel de estudios del padre y la orientación del alumno hacia las ciencias.
Se cuenta para ello con la información obtenida en el centro.
Orientación
Orientado
No orientado
Total
Nivel estudios
Básico Medio Superior Total
12
34
32
78
42
16
28
86
54
50
60
164
Calcular e interpretar el coeficiente C de contingencia
Solución
Como se trata de una tabla de contingencia, se calcula el coeficiente Chi cuadrado
ese resultado se encontró en el ejemplo anterior 𝝌𝟐 = 23.7676
El coeficiente C de contingencia es: 𝐶 =
El valor máximo es: 𝒗𝒎á𝒙 =
𝟏−
𝜒2
=
𝑛 + 𝜒2
𝟏
=
𝒎𝒊𝒏(𝟑; 𝟐)
𝟏−
23.7676
= 0.3557
164 + 23.7676
𝟏
= 𝟎. 𝟕𝟎𝟕𝟏
𝟐
el coeficiente de contingencia con respecto al valor máximo representa:
𝐶
𝒗𝒎á𝒙
× 100
0.3557
× 100 = 50,30% Es un porcentaje moderado
0.7071
0
Interpretación
𝑪 = 𝟎. 𝟑𝟓𝟓𝟕
𝒗𝒎á𝒙 = 𝟎. 𝟕𝟎𝟕𝟏
1
Luego, podemos concluir que el grado de asociación entre las variables
es moderado.
V DE CRAMER
Viene definido por:
Coeficiente Chi cuadrado
𝑉=
𝜒2
𝑛 min ℎ; 𝑝 − 1
Numero de columnas
Tamaño de la muestra
Numero de filas
Donde:
𝟎≤𝑽≤𝟏
Que toma el valor 0 en el caso de independencia y el valor de 1 en el de
asociación perfecta,
V DE CRAMER
Para una mejor interpretación del grado de la relación del coeficiente, utilizaremos el
siguiente clasificador: :
Valor del coeficiente
Nivel
0.00
Ninguno
0.01 – 0.09
Muy débil
0.10 – 0.29
Débil
0.30 – 0.59
Moderado
0.60 – 0.74
Fuerte
0.75 – 0.99
Muy fuerte
1
Perfecto
CARACTERISTICAS
• Puede asumir valores mayores o iguales a cero y también menores o iguales que 1.
• El valor 0 lo alcanza cuando 𝜒 2 = 0
relación.
indica que las dos variables no tienen
• Cuanto mayor es el valor de V, mayor es la relación.
• Esta medida de asociación no se ve afectada por el tamaño de la muestra y está
acotada.
• Se puede utilizar para comparar la fuerza de asociación entre dos tablas de
clasificación cruzada. Se puede considerar que las tablas que tienen un valor
mayor para Cramer's V tienen una relación fuerte entre las variables, con un
valor menor para V que indica una relación más débil.
EJEMPLO 9
De cara a la planificación del próximo curso, seria conveniente analizar la relación
entre el nivel de estudios del padre y la orientación del alumno hacia las ciencias.
Se cuenta para ello con la información obtenida en el centro.
Orientación
Orientado
No orientado
Total
Nivel estudios
Básico Medio Superior Total
12
34
32
78
42
16
28
86
54
50
60
164
Calcular e interpretar el coeficiente V de Cramer
Solución
De cara a la planificación del próximo curso, seria conveniente analizar la relación
entre el nivel de estudios del padre y la orientación del alumno hacia las ciencias.
Se cuenta para ello con la información obtenida en el centro.
Como se trata de una tabla de contingencia, se calcula el coeficiente Chi cuadrado
y sus derivados para hacer posible la interpretación.
𝝌𝟐 = 23.7676
El coeficiente V de Cramer es:
𝑉=
23.7676
=
164 min 2; 3 − 1
Interpretación
𝑉=
𝜒2
𝑛 min ℎ; 𝑝 − 1
23.7676
=
164 2 − 1
23.7676
= 0.3806
164(1)
Luego, podemos concluir que el grado de asociación entre las variables
es moderado.
EJEMPLO 10
A un grupo de 50 jóvenes recién licenciados en Economía,
Derecho o Matemáticas, se les pregunta su opinión sobre la
posibilidad de encontrar trabajo en menos de un año tras la
finalización de sus estudios. Las respuestas se ordenan en tres
categorías: poco probable, bastante probable y muy probable.
Los resultados obtenidos se reflejan en la tabla adjunta
a. Construir la tabla de frecuencias esperadas
b. Estudiar la asociación entre la titulación y la opinión respecto al mercado de trabajo.
Solución
a. Los valores de la tabla de frecuencias esperadas suponiendo independencia vienen
definidos por:
Tabla de frecuencias esperadas
Opinión
Titulación
Poco
probable
Bastante
probable
Muy probable
Total
Economía
2,1
4,8
8,1
15
Derecho
3,5
8,0
13,5
25
Matemáticas
1,4
3,2
5,4
10
Total
7
16
27
50
Tabla de frecuencias esperadas
Opinión
𝝌𝟐
Titulación
Poco
probable
Bastante
probable
Muy
probable
Total
Economía
2,1
4,8
8,1
15
Derecho
3,5
8,0
13,5
25
Matemáticas
1,4
3,2
5,4
10
Total
7
16
27
50
1 − 2,1
=
2.1
2
4 − 4,8
+
4,8
2
10 − 8,1
+
8,1
Primera fila
𝝌𝟐 = 𝟏𝟒, 𝟔𝟒
2
1 − 3,5
+
3,5
2
9−8
+
8
Segunda fila
2
2 − 5,4
+. . .
5,4
2
tercera fila
Como 𝝌𝟐 = 14,64
De donde se deduce que existe cierta asociación entre ambos atributos. Los
coeficientes de contingencia de Pearson C, V de Cramer son:
𝐶=
𝑉=
𝜒2
𝑛 + 𝜒2
=
14,64
= 0,48
50 + 14,64
14,64
50 min 3;3 −1
=
14,64
50 3−1
=
14,64
50(2)
= 0,38
Valor del coeficiente
Nivel
0.00
Ninguno
0.01 – 0.09
Muy débil
0.10 – 0.29
Débil
0.30 – 0.59
Moderado
0.60 – 0.74
Fuerte
0.75 – 0.99
Muy fuerte
1
Perfecto
Interpretación
El grado de asociación entre los dos caracteres es moderado.
EJERCICIOS PROPUESTOS
Determinar si existe relación entre situación laboral (se
trabaja / no se trabaja) y tipo de enseñanza elegida
(tradicional / a distancia) por estudiantes universitarios. En
una muestra de 2000 alumnos se observó que el 20%
estaban matriculados en enseñanza a distancia, y de ellos
trabajaban 300, mientras que de los alumnos matriculados
en la enseñanza tradicional sólo trabajaba un 10%.
a. Construir la tabla de frecuencias esperadas
b. Estudiar la asociación entre el tipo de enseñanza y la situación laboral.
EJERCICIOS PROPUESTOS
Un investigador desea encontrar la
asociación entre la cantidad de estrés en
167 estudiantes de una Universidad del
primer semestre dependiendo de sus
condiciones socioeconómicas, como se
muestra en la siguiente tabla:
a. Construir la tabla de frecuencias esperadas
b. Estudiar la asociación entre la condición socioeconómica y la cantidad de estrés en los estudiantes.
Limitaciones
➢ Como esta prueba (chi cuadrado) depende el cálculo de las frecuencias esperadas,
entonces no conviene que muchas frecuencias esperadas sean muy pequeñas (inferiores a
5) más que en unas pocas casillas, sino el cálculo se distorsiona y no es adecuado para su
interpretación.
➢ Si es en muchas las casillas donde esto ocurre (más del 20% por ejemplo) se debe usar una
prueba que no incluya aproximaciones, como la prueba exacta de Fisher
➢ Si las variables poseen muchos niveles posiblemente la prueba no resulte de mucho
interés, ya que es lógico esperar que se encuentren diferencias.
➢ Se aplica principalmente a variables cualitativas y no cuantitativas Si una de las
variables es cuantitativa (ingresos, salarios, deudas) u ordinal (puntuaciones), es
posible que nos interese además de la asociación , saber si hay cambios significativos
según incrementos de unidades de alguna de las variables, lo cual no es adecuado si
usa chi cuadrado.
Coeficiente de Correlación por Rangos de Spearman:
• El Coeficiente de Correlación por Rangos de Spearman permite determinar la correlación de datos
de carácter ordinal midiendo la concordancia o discordancia entre las clasificaciones.
• Formulación:
Si no hay empates
D: diferencia de valores para las
dos variables.
• Interpretación:
✓ Si ρ= 1: Correlación por rangos perfecta y positiva. La concordancia entre los rangos es
perfecta
✓Si ρ = -1: Correlación por rangos perfecta y negativa. La concordancia entre los rangos
es perfecta
✓Si ρ = 0: Correlación por rangos nula. No hay concordancia entre los rangos
✓Si 0 < ρ < 1: Correlación por rangos positiva y si -1 < ρ <0: Correlación por rangos
negativa
MEDIDAS DE ASOCIACIÓN
Medida de
asociación
Tabla
Escala de
Medida
Observaciones
Phi
2x2
Nominales
V de Cramer
fxc
Nominales
Lambda
fxc
Nominales
Toma valores entre 0 y 1.
Disponen versión asimétrica.
Es fácil de interpretar en términos de la
proporción que se reduce le error de
predicción del valor de una variable a partir
de los valores de la otra (pero puede tomar
valores muy bajos en tablas con asociación).
Gamma
fxc
Ordinales
Tau b / c de
fxc
Ordinales
Toma valores entre -1 y 1, pasando por 0.
Gamma es más fácil de interpretar. Asume
relaciones curvilineales.
Tau b sólo alcanza valores extremos cuando
hay asociación total y f y c son iguales.
Tau c tiende a subestimar la relación.
Kendall
Medidas basadas en chi cuadrado.
Toman valores comprendidos entre 0 y 1.
Evalúa hipótesis lineales (diagonal principal).
Son útiles para estimar grados de asociación
entre pares de variables, sobre un mismo
conjunto de individuos para n filas y columnas.
Descargar