tablas de contingencia (cross-tab): buscando relaciones de

Anuncio
Licenciatura en derecho y ADE. Universidad Autónoma de Madrid
NOTAS DE CLASE Introducción a la Econometría (Prof. Rafael de Arce)
TABLAS DE CONTINGENCIA (CROSS-TAB): BUSCANDO RELACIONES DE
DEPENDENCIA ENTRE VARIABLES CATEGÓRICAS1
[email protected]
El objeto de las tablas de contingencia es extraer información de cruce entre dos o más
variables de tipo categórico o cualitativo, ya sean éstas de tipos nominal u ordinal. La idea
básica es que se pretende juzgar si existe o no algún tipo de relación de dependencia entre dos
variables no métricas.
Con este tipo de análisis se podrían contestar a preguntas tales como:
-
-
-
¿Hay alguna relación entre el área geográfica en la que se inscribe un país, o su
confesión religiosa mayoritaria, y el sistema político con el que se rige? (se ponen en
relación dos variables nominales).
¿Depende el nivel de desarrollo (alto, medio, bajo) del sistema político (democracia,
dictadura, oligarquía, etc.)? (se ponen en relación una variable ordinal con otra
nominal).
¿Está relacionado el índice de democracia (clasificado en bajo, medio, alto y muy alto)
con el nivel de corrupción (con igual clasificación)? (se ponen en relación dos variables
ordinales).
En el análisis de tablas de contingencia tendrá sentido interrogarse sobre:
1. La existencia de relación o no (dependencia o independencia) entre un par de
variables.
2. Si existe dependencia, en qué grado o con qué fuerza se produce la misma.
3. Caso de haber relación, entre que cruces, de entre todos los posibles, existe dicha
relación.
¿EXISTE RELACIÓN ENTRE LAS VARIABLES?
Evidentemente, uno puede recurrir a la observación directa de los datos y realizar algunas
conclusiones intuitivas sobre la existencia o no de relaciones de de dependencia entre ellos. Si
la muestra no es muy elevada, a partir de un análisis sensato de una tabla cruzada entre las
variables que se desea comparar será una aproximación bastante adecuada.
¿Qué incorpora entonces el análisis estadístico de “tablas de contingencia” a un análisis
directo y simple de los datos? Por un lado, la dimensión de análisis en términos de
probabilidad (las variables que estamos midiendo son aleatorias, luego exigen tener en cuenta
sus intervalos de confianza) y, por otro, el descuento de las coincidencias casuales en la
observación de la realidad.
1
Para el seguimiento de los cálculos realizados en este documento es conveniente abrir al tiempo la
hoja de excel http://www.uam.es/personal_pdi/economicas/rarce//pdf/demo_corrup_cross_tab.xls
Licenciatura en derecho y ADE. Universidad Autónoma de Madrid
NOTAS DE CLASE Introducción a la Econometría (Prof. Rafael de Arce)
Respecto al primer punto, no hace falta entrar en más detalle sobre la precisión de medida de
cualquier variable (más aún cuando es de tipo cualitativo). Al no existir una precisión perfecta,
o al poder haberse incluido errores de otro tipo al contabilizar un fenómeno, siempre es
necesario recurrir a los instrumentos de la estadística de probabilidad para poder realizar
análisis con cierta garantía.
Respecto al segundo punto, quizá el más interesante por específico en esta técnica, el análisis
de tablas de contingencia observará cuando efectivamente se dan coincidencias asociativas
entre los pares de combinaciones posibles en una tabla más allá de aquellos que podrían
haberse dado “por mera casualidad” o, dicho de otro modo, en condiciones de independencia
estadística entre ambas variables.
A modo de ejemplo, escribimos los datos de una tabla de contingencia (bivariada o cross-tab)
que cruza los datos para 164 países de dos variables: el “índice de democracia” y el “control de
corrupción”. Ambas variables han sido categorizadas desde sus unidades iniciales, de modo
que ahora se presentan tres/cuatro niveles de las mismas: bajo, medio, alto y muy alto.
Tabla 1: Tabla de contingencia
Democracia
Bajo
Medio
Alto
Total Col.
Bajo
18
20
6
44
Control de la corrupción
Medio
Alto
Muy alto
14
4
5
13
8
1
17
23
35
44
35
41
Total Filas
41
42
81
164
Fuente: base de datos de la Universidad de Gottenburg (QOG Institute, Quality of Goverment dataset)
Inicialmente, podría observarse a partir de esta tabla si existe o no relación entre ambas
variables. De una forma muy intuitiva, el hecho de que los extremos de la tabla (por
simplificar) presenten gran cantidad de datos podría ser significativo de una relación entre
ambas variables (nótese que un bajo índice de democracia está asociado a un bajo nivel de
democracia – se dan 18 países en esta circunstancia, el 21% de los países – y, de una forma
mucho más clara, un alto nivel democrático está asociado a un mayor control de corrupción –
se dan 35 países en este cruce –). Podría seguir argumentándose este hecho comprobando,
por ejemplo, que pocos valores de bajo nivel de democracia están asociados con un alto
control de la corrupción (apenas cinco países de un total de 164), etc.
Este primer análisis puede ser claramente mejorado si se incluye en él una dimensión
estadística básica: incluso en el caso en el que no hubiera relación entre ambas variables,
casualmente podrían encontrarse datos de coincidencias bajo-bajo, alto-muy alto, etc. Habría
países en los que se producirían estos cruces que, sin embargo, no representarían una mayoría
más allá de la de la anécdota.
Dicho esto, cabe plantearse cuáles serían aquellos cruces posibles entre cada par de
situaciones (en cada una de las variables) que podrían no ser significativos.
Licenciatura en derecho y ADE. Universidad Autónoma de Madrid
NOTAS DE CLASE Introducción a la Econometría (Prof. Rafael de Arce)
Recurriendo a la teoría estadística básica, la probabilidad conjunta de dos sucesos
independientes viene marcada por el producto de sus probabilidades individuales.
(recuérdese, por ejemplo, cuál es la probabilidad de obtener dos caras seguidas en dos
lanzamientos consecutivos de una moneda: al ser sucesos totalmente independientes, será el
producto de la probabilidad de cada suceso – 0.5*0.5=0.25).
En nuestro caso, la selección concreta de esos 164 países para los que se disponía de
información produce, para cada variable, una probabilidad determinada de estar ante una de
las situaciones posibles (niveles de la variable bajo, medio, alto o muy alto). En la muestra, y
simplemente calculando los porcentajes del total de filas y columnas, podremos observar este
hecho.
Como se ve en la tabla siguiente, por ejemplo, nuestra muestra contiene un alto número de
países con alto nivel en el índice de democracia (un 49,4% de los países exhiben este alto nivel
de democracia, luego, elegido al azar un país cualquiera de la muestra, será bastante probable
obtener un país de estas características – casi en la mitad de las ocasiones -). En el caso de la
variable de control de la corrupción, el porcentaje está más equilibrado.
Tabla 2: Tabla de contingencia con marginales (en porcentaje)
Democracia
Bajo
Medio
Alto
Total Col.
Marginal
Bajo
18
20
6
44
26,8%
Control de la corrupción
Medio
Alto
14
4
13
8
17
23
44
35
26,8%
21,3%
Muy alto
5
1
35
41
25,0%
Total Filas
41
42
81
164
100,0%
Marginal
25,0%
25,6%
49,4%
100,0%
Para calcular el número de países que se podrían haber situado en cada cruce (celda) aun
existiendo independencia entre ambas variables, a cada casilla le podemos asignar el producto
de sus marginales por el número total de observaciones:
(Prob. Democ = i) * (Prob. Control Corrupción =j) * (Nº de datos) = casos esperables en
independencia
Tabla 3. Valores esperados bajo el supuesto de independencia entre ambas variables
Democracia
Bajo
Medio
Alto
Total Col.
Bajo
11,0
11,3
21,7
44,0
Control de la corrupción
Medio
Alto
11,0
8,8
11,3
9,0
21,7
17,3
44,0
35,0
Muy alto
10,3
10,5
20,3
41,0
Total Filas
41,0
42,0
81,0
164,0
Licenciatura en derecho y ADE. Universidad Autónoma de Madrid
NOTAS DE CLASE Introducción a la Econometría (Prof. Rafael de Arce)
Con la información de esta tabla de valores esperables incluso en condiciones de
independencia entre las variables, nuestro cálculo intuitivo se puede refinar, simplemente
considerando cuántos cuál es el número de casos en cada celda más allá de los que se
producen por simple azar estadístico. O dicho de otro modo, podríamos calcular la diferencia
entre las tablas 1 y 3 para observar si, efectivamente, entre ambas variables existe una
relación significativa o no.
Para obtener un dato global que nos muestre si hay claras diferencias entre los casos casuales
(esperados en condiciones de independencias) y los realmente observados se emplea el
siguiente ratio:
Donde, simplemente, se obtiene la suma cuadrada2 de todas las diferencias en términos
relativos a las unidades que estamos midiendo (divididas por el número de valores esperados).
Intuitivamente, cuanto más pequeño sea este ratio, menor será la diferencia entre los valores
observados y los esperados, luego mayor probabilidad de que no haya dependencia entre las
variables. Dicho esto, en términos estadísticos, diremos que la hipótesis nula de este contraste
es la independencia entre ambas variables.
Para determinar hasta que nivel en el valor de este ratio podemos considerar que las
diferencias no son significativamente distintas de cero, basta con conoce cómo se distribuye
dicho ratio en condiciones de independencia (no diferencia entre valores observados y
esperados). De un modo muy sucinto, sin entrar en detalle, comprobamos que se trata del
sumatorio de variables normales estándar al cuadrado (en condiciones de independencia), por
lo que podríamos demostrar que la distribución de este ratio será la de una chi-cuadrado con
grados de libertad iguales al número de filas menos uno por el número de columnas menos
uno.
En el ejemplo que nos ocupa, el valor del ratio es 798,6. Aunque, por lo abultado, es evidente
que es significativamente distinto de cero, para comprobarlo estadísticamente habría que ver
de donde a donde están los valores de las tablas de la chi-cuadrado para el porcentaje de
confianza deseado y, en este caso, con seis grados de libertad ((3-1)*(4-1)). Por ejemplo, para
un 95% de confianza, todos los valores de una variable que se distribuye como un chi-cuadrado
con seis grados de libertad son iguales o menores que 12.5916. Luego nuestro valor es
claramente mayor que este así que, con más de un 95% se puede afirmar que se rechaza la
hipótesis nula de independencia o, dicho de modo alterno, existe una clara dependencia entre
el índice de democracia y el control de la corrupción.
2
Al cuadrado simplemente para evitar que en la suma se compensen diferencias de signo negativo con
diferencias de signo positivo. Se trata ahora de ver si hay diferencias, no de cuál es su signo.
Licenciatura en derecho y ADE. Universidad Autónoma de Madrid
NOTAS DE CLASE Introducción a la Econometría (Prof. Rafael de Arce)
¿CUÁL ES EL GRADO DE IMPORTANCIA DE LA RELACIÓN ENCONTRADA?3
Una vez determinado que existe relación entre dos variables, el segundo aspecto de interés
lógico será medir de algún modo el grado de importancia de la misma y, para el caso de las
variables ordinales, medir también su carácter inverso o directo (recuérdese que en este tipo
de variables, el número asignado a cada opción representa el tamaño u orden, luego tiene
sentido observar si aumentos en una variable producen aumentos en la otra – relación directa
– o lo contrario – relación inversa -).
Otro aspecto de interés sería analizar la “direccionalidad” de la relación encontrada. Dicho de
otro modo, observar qué variable actúa mejor como explicativa o causante de la otra.
Existen multitud de test para analizar la importancia de la relación, alguno de ellos
simplemente diferentes en cuestiones de matiz. Claramente se puede hacer las siguientes
distinciones entre ellos:
Phi (Es la más utilizada en tablas 2x2 con
verdaderas dicotómicas
φ=
Variables nominales
[0 , 1]
Basados ChiCuadrado
(si la dependencia es
perfecta, el valor de
la chi-cuadrado
tiende a ser igual al
número de
observaciones –n–)
3
n
C Coeficiente de Contingencia (Intenta
corregir la PHI para tablas de más de 2x2)
C=
χ2
( χ 2 + n)
T Cramer V (Es la más utilizada, vale para
tablas de cualquier orden PERO sólo alcanza
el 1 si los marginales son iguales en filas y
columnas. Tiende a dar un valor más
pequeño que la Phi o C )
V=
Variables Ordinales
[-1, 1]
χ2
χ2
n(k − 1)
k es el max{nºfilas, nº columnas}
Lambda: observa el ratio de reducción del
error de considerar la asignación de cada
Basados en la
caso a una celda sólo teniendo en cuenta una
reducción
variable frente al de tener en cuenta las dos
proporcional del
a la vez
error
Coeficiente de incertidumbre (similar al
anterior). Incorpora direccionalidad
Gamma de Goodman y Kruskal (discordancia o concordancia entre -1
y 1 PERO para variables ordinales, es decir, concordancia o
discordancia entre dos ordenaciones Y ADEMÁS con la posibilidad de
Se puede encontrar más detalle sobre los distintos estadísticos presentados en esta sección en el libro
de Antonio Pardo “Guía para la utilización de SPSS 11.0”
(http://www.uca.es/serv/ai/formacion/spss/Pantalla/verguia.pdf )
Licenciatura en derecho y ADE. Universidad Autónoma de Madrid
NOTAS DE CLASE Introducción a la Econometría (Prof. Rafael de Arce)
observar intervalos de confianza)
Tau de Kendall (Tau de Kendall Concordancia ordinal, como la
Gamma pero teniendo en cuenta los empates PERO adecuada sólo
para tablas cuadradas)
o
D-Somers (es igual que las “TAUS” pero con la ventaja de que
es simétrica, puede analizarse por separado el efecto de R (rows)
sorbe C (columns) o al revés)
En nuestro ejemplo, ambas variables son ordinales, luego correspondería utilizar un análisis
como los presentados en la segunda parte de la tabla anterior. A pesar de ello, en la hoja de
cálculo que completa este documento, también se presentan los cálculos de los coeficientes C
y V de Cramer, más adecuados para las tablas de contingencia en las que interviene una
variable nominal.
Los resultados obtenidos en el ejemplo son C=0,48 y V= 0,21, lo que nos indicaría (en el caso
de que utilizarlos fuera lo correcto) que el grado de dependencia sería entre bajo y medio.
Teóricamente, ambos oscilan entre 0 y 1, aunque raramente alcanzan el valor máximo. Como
regla práctica de uso, se podría decir que:
0 - 0,25 : poca dependencia
0,26 - 0,5: dependencia media
0,6 - 0,75: alta dependencia
> 0,76: muy alta dependencia
En las medidas de asociación para variables ordinales, tiene interés observar no sólo la
“potencia” de la relación, sino también su signo, dado que en dichas variables se contiene una
medida no exacta de la magnitud que permite, precisamente, ordenarlas: es útil saber si la
relación de dependencia es directa o inversamente proporcional (a más “cantidad” de una
variable, más de la otra o a más cantidad de la variable menos de la segunda,
respectivamente). En las distintas medidas propuestas en la tabla anterior, se analizan los
cambios en una variable y otra (cuando una crece la otra también o lo contrario) y se
contabilizan el número de “inversiones” y “no inversiones”. Cualquier software al uso incluye
el cálculo de estos coeficientes, por lo que no entraré en más detalle sobre su cálculo que, a
hecho mano, sería algo largo.
En nuestro ejemplo, el estadístico más habitual, la tau beta de kendall, da un valor de +…..,
valorable como dependencia media y positiva (a más de una variable, más de la otra).
¿ENTRE QUÉ COMBINACIONES DE ATRIBUTOS SE PRODUCE UNA MAYOR
DEPENDENCIA?
Siguiendo la lógica del procedimiento que estamos utilizando, y una vez ya hemos visto que
existe dependencia y cuál es el grado de importancia de la misma; el siguiente paso de nuestro
análisis debiera ser determinar concretamente entre qué combinaciones de las dos variables
que estamos explorando se produce esa dependencia con más fuerza.
Licenciatura en derecho y ADE. Universidad Autónoma de Madrid
NOTAS DE CLASE Introducción a la Econometría (Prof. Rafael de Arce)
En nuestro procedimiento, bastará simplemente con observar en qué celdas de la tabla se
produce una mayor diferencia entre los valores observados (reales) y esperados (en caso de
independencia).
Intuitivamente, bastaría con restar los resultados de ambas tablas (observadas – esperadas =
residuos) y determinar aquellos valores más grandes presentes en ellas. Sin embargo, este
análisis se puede mejorar estadísticamente haciendo dos cálculos sencillos:
-
Sabemos que la dependencia se determinó a partir del valor de la chi-cuadrado
calculada anteriormente. En vez de observar directamente los residuos, podría
observarse la aportación de cada celda al valor total de la chi-cuadrado, lo que
resultaría en una estimación de cómo cada cruce en las tablas aporta a que haya o no
dependencia entre ambas variables. Para ello, basta simplemente con calcular el valor
de cada residuo dividido de la raíz cuadrado de su valor esperado en condiciones de
independencia.
residuoij
(esperadoij
Dado que la suma de todos estos valores al cuadrado resulta la chi-cuadrado calculada
(nuestro modo de ver si hay o no dependencia), los valores anteriores al cuadrado
entre la chi nos serán útiles para ver lo que cada cruce aporta a la construcción de la
dependencia.
-
Tiene especial interés poder calcular lo que se conoce con el nombre de los residuos
tipificados corregidos (los anteriores divididos por su desviación típica). En esta nueva
tabla, se podrá asumir que dichos residuos se distribuyen como una N(0,1). Siendo así,
cualquier valor de la tabla que, en valor absoluto, supere el valor de dos representará
un cruce con un error especialmente alto (más alto o bajo que donde se situarían el
95% de los casos en una normal). Estos cruces serán entonces los que más están
contribuyendo a generar esa dependencia entre ambas variables. El cálculo de estos
valores simplemente incorpora al anterior el valor de variación máxima de las
frecuencias observadas en el cruce de cada fila y columna:
residuoij
(esperadoij (1 − suma _ filai / n)(1 − suma _ colum j / n))
En nuestro ejemplo, los resultados son los siguientes:
Aportación a la dependencia a partir de los residuos tipificados
Democracia
Bajo
Bajo
8,7%
Control de la corrupción
Medio
Alto
1,6%
5,0%
Muy alto
5,2%
Licenciatura en derecho y ADE. Universidad Autónoma de Madrid
NOTAS DE CLASE Introducción a la Econometría (Prof. Rafael de Arce)
Medio
Alto
13,2%
22,2%
0,5%
2,0%
0,2%
3,7%
16,7%
20,9%
En 12 cruces, la aportación igual en cada celda sería 1/12=8,3%. Cualquier valor de esta
tabla que exceda ese porcentaje es reseñable.
Para observar qué valores de error son especialmente significativos y utilizando los
residuos tipificados corregidos, obtenemos los siguientes resultados:
Residuos tipificados corregidos
Democracia
Bajo
Medio
Alto
Bajo
2,8
3,5
-5,5
Control de la corrupción
Medio
Alto
1,2
-2,1
0,7
-0,4
-1,7
2,2
Muy alto
-2,2
-3,9
5,3
Donde valores absolutos por encima de dos representan un cruce con una diferencia
estadísticamente significativa entre el valor observado y el esperable en caso de
independencia.
Descargar