Tema 8 Análisis de correspondencias

Anuncio
Tema 8
Análisis de correspondencias
El Análisis de Correspondencias es una técnica de reducción de dimensión y elaboración de
mapas percentuales. Los mapas percentuales se basan en la asociación entre objetos y un conjunto de caracterı́sticas descriptivas o atributos especificados por el investigador. Su aplicación
es muy directa y su beneficio es la capacidad para representar filas y columnas en un mismo
espacio. En este sentido la finalidad será determinar la posición de una serie de objetos según
una serie de caracterı́sticas a través de un espacio vectorial en dos, tres o más dimensiones.
En su forma básica, el Análisis de Correspondencias examina las relaciones entre categorı́as
de datos nominales mediante la medida de asociación de la chi-cuadrado. Este análisis realiza
una reducción de la dimensión del problema en donde la proximidad, en sentido matemático,
entre los individuos indicará el nivel de asociación.
El Análisis de Correspondencias tiene dos objetivos básicos:
Asociación entre categorı́as de columnas o filas: se usa para medir la asociación de solo
una fila o columna, para ver, por ejemplo si las modalidades de una variable pueden ser
combinadas
Asociación entre categorı́as de filas y columnas: se usa para estudiar si existe relación
entre categorı́as de las filas y columnas.
El análisis de correspondencias solo requiere que los datos representen las respuestas a una
serie de preguntas y que están organizadas en categorı́as. Dependiendo si existen dos o más
variables el análisis será simple o múltiple.
8.1.
Análisis de correspondencias
Uno de los objetivos del Análisis de Correspondencias es describir las relaciones existentes
entre dos variables nominales, recogidas en una tabla de correspondencias, sobre un espacio
de pocas dimensiones, mientras que al mismo tiempo se describen las relaciones entre las categorı́as de cada variable. Para cada variable, las distancias sobre un gráfico entre los puntos de
categorı́as reflejan las relaciones entre las categorı́as, con las categorı́as similares representadas
106
107
Análisis de correspondencias
próximas unas a otras.
El análisis de las tablas de contingencia a menudo incluye examinar los perfiles de fila y
de columna, ası́ como contrastar la independencia a través del estadı́stico de chi-cuadrado.
Sin embargo, el número de perfiles puede ser bastante grande y la prueba de chi-cuadrado no
revelará la estructura de la dependencia. El procedimiento Tablas de contingencia ofrece varias
medidas y pruebas de asociación pero no puede representar gráficamente ninguna relación entre las variables.
8.2.
Aplicación mediante SPSS
Para poder realizar un análisis de correspondencias tendremos que seleccionar los menús:
Analizar
Reducción de datos
Análisis de Correspondencias
En este ejemplo vamos a trabajar con el fichero “correspondencias” en el cuál se mide a
1200 individuos dos variables, el Estado Civil, clasificado en tres grupos, Solteros, Casados y
Otros y sus Preocupaciones más importantes, en cuatro categorı́as, la Vida Afectiva, el Dinero,
la Armonı́a Familiar y la Salud.
Una vez seleccionado el análisis obtendremos el siguiente menú, en donde hemos de seleccionar las variables con las trabajar y las categorı́as que tiene cada una. En este ejemplo la
variable Fila será estado civil, la cuál tiene tres categorı́as (ordenadas de la 1 a la 3) por lo que
el rango tomará como valor máximo el 3 y el mı́nimo el 1. La variable columna será preocupaciones, el rango será de 1 a 4.
Figura 8.1: Selección del análisis
A la hora de indicar las categorı́as de cada variable tenemos una serie de opciones sobre
ellas que son:
1. Las categorı́as deben ser iguales. Utilizaremos esta opción si existen dos categorı́as que
son iguales o las queremos agrupar.
ANÁLISIS MULTIVARIANTE PARA SOCIÓLOGOS MEDIANTE SPSS.
108
Análisis de correspondencias
2. La categorı́a es suplementaria si no influye en el análisis pero se representan.
Botón Modelo
Con este botón especificaremos el número de dimensiones, la medida de distancia, el método
de estandarización y el método de normalización.
Dimensiones en la solución: tendremos que tener en cuenta que el número de dimensiones
óptimo será el menor número de dimensiones que necesitaremos para explicar la mayor
parte de la variación. Evidentemente intentaremos que este valor sea el mı́nimo posible,
de tal manera que el número máximo de dimensiones será el mı́nimo del número de filas
menos uno (en este caso 4-1=3) y el de columnas menos uno (3-1=2), es decir, en nuestro
ejemplo usaremos dos dimensiones.
Medida de distancia: por defecto usaremos la distancia chi-cuadrado.
Método de normalización: esta es una de las decisiones más importantes, ya que dependiendo del método, se producirán soluciones que, aunque equivalentes, pueden ser
diferentes. Usaremos:
1. Simétrico: en este caso la inercia se reparte igualmente entre filas y columnas. Usaremos este método para examinar las diferencias entre las categorı́as de las dos
variables.
2. Principal: usaremos este método si deseamos examinar las diferencias entre las categorı́as de una o de ambas variables en lugar de las diferencias entre las dos variables.
3. Principal por fila: este método se usa para examinar las diferencias entre las categorı́as de la variable de filas.
4. Principal por columna: para examinar las diferencias entre las categorı́as de la variable de columnas.
5. Personalizado.
Figura 8.2: Botón Modelo
En nuestro ejemplo elegiremos la medida de la chi-cuadrado y como método de normalización el simétrico. Como ya hemos visto el número de ejes o dimensiones apropiado será de
dos.
ANÁLISIS MULTIVARIANTE PARA SOCIÓLOGOS MEDIANTE SPSS.
109
Análisis de correspondencias
8.2.1.
Botón Estadı́sticos
Con este botón podremos obtener las siguientes salidas:
Tabla de correspondencias: tabla de contingencia de las variables con los totales marginales
de filas y columnas.
Inspección de los puntos de fila: resumen de cada categorı́a de filas, las puntuaciones,
la masa, la inercia, la contribución a la inercia de la dimensión y la contribución de la
dimensión a la inercia del punto.
Inspección de los puntos de columna: igual que para las filas pero para cada columna.
Perfiles de fila: marginales por filas.
Perfiles de columna: marginales por columnas.
Permutaciones de la tabla de correspondencias.
Estadı́sticos de confianza para puntos de fila.
Estadı́sticos de confianza para puntos de columna.
Figura 8.3: Botón estadı́sticos
Aplicación en SPSS
Vamos a seleccionar todas las opciones disponibles con este botón.
1. Tabla de correspondencias: simplemente es la tabla de doble entrada de resumen de los
datos; en ella podemos ver que por ejemplo existen 26 solteros cuya preocupación más
importante es la vida afectiva o 111 que es el dinero.
ANÁLISIS MULTIVARIANTE PARA SOCIÓLOGOS MEDIANTE SPSS.
110
Análisis de correspondencias
Figura 8.4: Tabla de contingencia
2. Perfiles por fila y columna: son las distribuciones marginales. Los perfiles por fila son el
resultado de dividir cada valor por el total de su fila mientras que los perfiles por columna
es el valor de cada casilla entre el total su columna.
3. Tabla resumen: en esta tabla destacaremos varios aspectos:
a) Valor propio.
b) Inercia: raı́z cuadrada del valor propio. Mide la importancia de un eje; 0.043 el
primero y 0.05 el segundo.
c) Inercia total: explicación total de los ejes. Los ejes explican un total de 0.048.
d ) Proporción de inercia: aunque el valor de la inercia podı́a parecer pequeño, 0.0403
y 0.005, entre ambos ejes explican el 100 de la varianza y más concretamente el
primero el 90.4 % y el segundo el 9.06 %.
e) Chi-cuadrado: con este valor obtenemos el contraste de independencia entre ambas variables, como vimos en la sección ?? el contraste de la chi-cuadrado en las
Tablas de Contingencia contrasta la independencia como hipótesis nula frente a la
dependencia. En este caso al ser el p-valor 0,3 ∗ 10−3 aceptarı́amos la hipótesis de
dependencia entre variables. Destacamos que en el caso en que dos variables fuesen
independientes, el análisis de correspondencias podrı́a realizarse, pero no tendrı́a
lógica.
Figura 8.5: Estadı́sticos
f ) Examen de los puntos fila:
ANÁLISIS MULTIVARIANTE PARA SOCIÓLOGOS MEDIANTE SPSS.
111
Análisis de correspondencias
Las puntuaciones en la dimensión son los valores que toma cada punto en la representación que hayamos calculado. Con inercia vemos lo que aporta cada categorı́a
al total de inercia, por ejemplo, del total de inercia (0.048) los Solteros aportan 0.028.
Con contribución de los puntos a la inercia de la dimensión se mide la importancia
de un punto a la hora de explicar un eje, por ejemplo Soltero es el valor más importante para la orientación del primer eje y Otro para el segundo.
Con contribución de la dimensión a la inercia del punto vemos el porcentaje de cada
modalidad explicado por cada eje, el primer eje explica el 98.30 % de la modalidad
Soltero frente a solo el 1,7 % del segundo eje.
g) Examen de los puntos columna:
Igual que el caso anterior, además de los valores para representar en los ejes, podemos ver que el primer eje viene muy determinado por el Dinero frente al segundo
que lo hace por la Armonı́a Familiar. También podemos ver que el primer eje explica
el 99.9 % de la varianza de la modalidad de Dinero y el 93 % de Salud.
Figura 8.6: Puntos fila y columna
8.2.2.
Botón gráficos
Dentro del botón de gráficos podremos especificar las siguientes opciones:
Diagramas de dispersión: produce los gráficos por parejas de las dimensiones. Entre ellos:
1. Diagrama de dispersión biespacial: diagramas conjuntos de los puntos de filas y de
columnas.
2. Puntos de fila.
3. Puntos de columna.
ANÁLISIS MULTIVARIANTE PARA SOCIÓLOGOS MEDIANTE SPSS.
112
Análisis de correspondencias
Gráfico de lı́neas. Para obtener los siguientes gráficos unidimensionales:
1. Categorı́as de fila transformadas: produce un gráfico de los valores originales para
las categorı́as de fila frente a las puntuaciones de fila.
2. Categorı́as de columna transformadas: produce un gráfico de los valores originales
para las categorı́as de columna frente a las puntuaciones de columna.
Dimensiones del gráfico.
1. Muestra todas las dimensiones de la solución.
2. Restringe el número de dimensiones
Figura 8.7: Botón gráficos
Vamos a seleccionar todos los gráficos posibles.
Aplicación en SPSS
Si seleccionamos todos los gráficos posibles obtendremos:;
Diagramas de dispersión:
Con esta opción obtenemos los gráficos en dos dimensiones (si hubiera mas dimensiones
obtendrı́amos las combinaciones de las dimensiones) para filas y columnas a la vez y por
separado.
Si analizamos los perfiles fila, observamos que los tres grupos, Solteros, Casados y Otros
son bastante diferentes (lejanos). Si observamos los puntos columna, en estos parece que
existe semejanza entre Dinero y Vida Afectiva y Salud y Armonı́a Familiar.
ANÁLISIS MULTIVARIANTE PARA SOCIÓLOGOS MEDIANTE SPSS.
113
Análisis de correspondencias
Figura 8.8: Gráficos de filas y gráfico de columnas
Con el gráfico de filas y columnas podemos sacar las conclusiones finales, que son que
los Casados prefieren la Armonı́a Familiar y la Salud frente a los Solteros que prefieren
el Dinero y la Vida Afectiva.
Figura 8.9: Gráfico conjunto
Gráficos de lı́neas: muestras los valores de las componentes de las filas y columnas unidimensionalmente.
8.3.
Análisis de correspondencias multiple
Para este caso vamos a usar el fichero correspondencias2, que contiene los 50 primeros
individuos del ejemplo anterior, pero a los que además se les ha estudiado el Sexo. Los procedimientos son los mismos solo que un poco más amplios.
8.3.1.
Aplicación en SPSS
Para obtener un análisis de correspondencias múltiple, tendremos que elegir los menús:
ANÁLISIS MULTIVARIANTE PARA SOCIÓLOGOS MEDIANTE SPSS.
114
Análisis de correspondencias
Analizar
Reducción de Datos
Escalamiento óptimo
y en la ventana del modelo seleccionar:
Todas las variables son nominales múltiples
Un conjunto
Definir
Dentro de este análisis podrı́amos obtener todos los resultados equivalentes al análisis de
correspondencias simple. Nosotros solo nos centraremos en las siguientes opciones:
Opciones: cambiaremos método de normalización a simétrico.
Botón resultados: seleccionaremos
1. Medidas discriminantes
2. Correlaciones de las variables originales
Con estas dos opciones podemos ver la relación entre las variables. La correlación
más baja es entre la variable Sexo con las otras dos, lo que implicará que no existe
mucha relación entre ellas. Con respecto a la segunda dimensión los valores aumentan pero sigue la variable Sexo sin estar muy relacionada. También podemos ver esta
circunstancia en el gráfico de discriminación, en donde las variables Estado Civil y
Preocupaciones están muy relacionadas. La tabla de Medidas de discriminación son
las coordenadas de las variables en las dos dimensiones. En la Tabla de resumen del
modelo, vemos también como con dimensiones explicamos el 91.7 % de la varianza
total.
Figura 8.10: Correspondencias multiples
ANÁLISIS MULTIVARIANTE PARA SOCIÓLOGOS MEDIANTE SPSS.
115
Análisis de correspondencias
Figura 8.11: Correspondencias multiples2
3. Cuantificaciones y contribuciones de las categorı́as:
Las cuantificaciones son los valores de los individuos son las representaciones óptimas en el sentido que estén separadas unas de otras en las dimensiones estudiadas y
dentro de cada categorı́a los individuos estén juntos entre si. Estas cuantificaciones
son graficadas posteriormente y será esos valores los que estudiemos.
Botón Gráficos de variable:
1. Gráficos por categorı́as: introduciremos las tres variables. Con esta opción nos
mostrará los gráficos bidimensionales de las variables marginalmente.
2. Gráficos de categorı́as conjuntas: también introduciremos las tres variables. En este
caso obtendremos un gráfico bidimensional con todas las variables juntas.
Figura 8.12: Gráficos
ANÁLISIS MULTIVARIANTE PARA SOCIÓLOGOS MEDIANTE SPSS.
116
Análisis de correspondencias
En ellos podemos ver como los Hombres se posicionan cerca de preferencia por la
Vida Afectiva, solteros por Armonı́a Familiar, Otro con Salud y Mujer con Casadas.
3. Gráficos de objeto: con este gráfico obtenemos la representación de todos los individuos pudiendo buscar aquellos que sean anómalos o extremos, que será aquellos
que tengan un comportamiento distinto al resto.
Figura 8.13: Puntos objeto
8.4.
8.4.1.
Ejercicios obligatorios
Ejercicio primero
El fichero correspondencias3, contiene los datos para 1519 individuos, agrupados en
categorı́as profesionales (numeradas del 1 al 5), y su consumo de tabaco (categorı́as 1 a 4). Se
pide:
1. ¿Cuál serı́a el número de dimensiones máximo posible?
2. ¿Se podrı́a realizar una análisis de dos dimensiones?, ¿por qué?
3. Realizar una análisis de correspondencias con dos dimensiones. ¿Serı́a admisible agrupar alguna modalidad de la variable consumo de tabaco? ¿Y de categorı́a profesional?
Comentar el gráfico bidimensional.
8.4.2.
Ejercicio segundo
Se quiere analizar la influencia de la raza en cada una de las regiones de America del
Norte. Para ello se selecciona una muestra de tal manera que a esos individuos se analiza su
región en donde viven y la raza a la que pertenecen. Los resultados aparecen en el fichero
correspondencias4. Se desea realizar un análisis de correspondencias completo (incluido el
análisis de independencia y el estudio de las tablas de frecuencias marginales) en el que se
analice esta hipótesis.
ANÁLISIS MULTIVARIANTE PARA SOCIÓLOGOS MEDIANTE SPSS.
Descargar