Tema 8 Análisis de correspondencias El Análisis de Correspondencias es una técnica de reducción de dimensión y elaboración de mapas percentuales. Los mapas percentuales se basan en la asociación entre objetos y un conjunto de caracterı́sticas descriptivas o atributos especificados por el investigador. Su aplicación es muy directa y su beneficio es la capacidad para representar filas y columnas en un mismo espacio. En este sentido la finalidad será determinar la posición de una serie de objetos según una serie de caracterı́sticas a través de un espacio vectorial en dos, tres o más dimensiones. En su forma básica, el Análisis de Correspondencias examina las relaciones entre categorı́as de datos nominales mediante la medida de asociación de la chi-cuadrado. Este análisis realiza una reducción de la dimensión del problema en donde la proximidad, en sentido matemático, entre los individuos indicará el nivel de asociación. El Análisis de Correspondencias tiene dos objetivos básicos: Asociación entre categorı́as de columnas o filas: se usa para medir la asociación de solo una fila o columna, para ver, por ejemplo si las modalidades de una variable pueden ser combinadas Asociación entre categorı́as de filas y columnas: se usa para estudiar si existe relación entre categorı́as de las filas y columnas. El análisis de correspondencias solo requiere que los datos representen las respuestas a una serie de preguntas y que están organizadas en categorı́as. Dependiendo si existen dos o más variables el análisis será simple o múltiple. 8.1. Análisis de correspondencias Uno de los objetivos del Análisis de Correspondencias es describir las relaciones existentes entre dos variables nominales, recogidas en una tabla de correspondencias, sobre un espacio de pocas dimensiones, mientras que al mismo tiempo se describen las relaciones entre las categorı́as de cada variable. Para cada variable, las distancias sobre un gráfico entre los puntos de categorı́as reflejan las relaciones entre las categorı́as, con las categorı́as similares representadas 106 107 Análisis de correspondencias próximas unas a otras. El análisis de las tablas de contingencia a menudo incluye examinar los perfiles de fila y de columna, ası́ como contrastar la independencia a través del estadı́stico de chi-cuadrado. Sin embargo, el número de perfiles puede ser bastante grande y la prueba de chi-cuadrado no revelará la estructura de la dependencia. El procedimiento Tablas de contingencia ofrece varias medidas y pruebas de asociación pero no puede representar gráficamente ninguna relación entre las variables. 8.2. Aplicación mediante SPSS Para poder realizar un análisis de correspondencias tendremos que seleccionar los menús: Analizar Reducción de datos Análisis de Correspondencias En este ejemplo vamos a trabajar con el fichero “correspondencias” en el cuál se mide a 1200 individuos dos variables, el Estado Civil, clasificado en tres grupos, Solteros, Casados y Otros y sus Preocupaciones más importantes, en cuatro categorı́as, la Vida Afectiva, el Dinero, la Armonı́a Familiar y la Salud. Una vez seleccionado el análisis obtendremos el siguiente menú, en donde hemos de seleccionar las variables con las trabajar y las categorı́as que tiene cada una. En este ejemplo la variable Fila será estado civil, la cuál tiene tres categorı́as (ordenadas de la 1 a la 3) por lo que el rango tomará como valor máximo el 3 y el mı́nimo el 1. La variable columna será preocupaciones, el rango será de 1 a 4. Figura 8.1: Selección del análisis A la hora de indicar las categorı́as de cada variable tenemos una serie de opciones sobre ellas que son: 1. Las categorı́as deben ser iguales. Utilizaremos esta opción si existen dos categorı́as que son iguales o las queremos agrupar. ANÁLISIS MULTIVARIANTE PARA SOCIÓLOGOS MEDIANTE SPSS. 108 Análisis de correspondencias 2. La categorı́a es suplementaria si no influye en el análisis pero se representan. Botón Modelo Con este botón especificaremos el número de dimensiones, la medida de distancia, el método de estandarización y el método de normalización. Dimensiones en la solución: tendremos que tener en cuenta que el número de dimensiones óptimo será el menor número de dimensiones que necesitaremos para explicar la mayor parte de la variación. Evidentemente intentaremos que este valor sea el mı́nimo posible, de tal manera que el número máximo de dimensiones será el mı́nimo del número de filas menos uno (en este caso 4-1=3) y el de columnas menos uno (3-1=2), es decir, en nuestro ejemplo usaremos dos dimensiones. Medida de distancia: por defecto usaremos la distancia chi-cuadrado. Método de normalización: esta es una de las decisiones más importantes, ya que dependiendo del método, se producirán soluciones que, aunque equivalentes, pueden ser diferentes. Usaremos: 1. Simétrico: en este caso la inercia se reparte igualmente entre filas y columnas. Usaremos este método para examinar las diferencias entre las categorı́as de las dos variables. 2. Principal: usaremos este método si deseamos examinar las diferencias entre las categorı́as de una o de ambas variables en lugar de las diferencias entre las dos variables. 3. Principal por fila: este método se usa para examinar las diferencias entre las categorı́as de la variable de filas. 4. Principal por columna: para examinar las diferencias entre las categorı́as de la variable de columnas. 5. Personalizado. Figura 8.2: Botón Modelo En nuestro ejemplo elegiremos la medida de la chi-cuadrado y como método de normalización el simétrico. Como ya hemos visto el número de ejes o dimensiones apropiado será de dos. ANÁLISIS MULTIVARIANTE PARA SOCIÓLOGOS MEDIANTE SPSS. 109 Análisis de correspondencias 8.2.1. Botón Estadı́sticos Con este botón podremos obtener las siguientes salidas: Tabla de correspondencias: tabla de contingencia de las variables con los totales marginales de filas y columnas. Inspección de los puntos de fila: resumen de cada categorı́a de filas, las puntuaciones, la masa, la inercia, la contribución a la inercia de la dimensión y la contribución de la dimensión a la inercia del punto. Inspección de los puntos de columna: igual que para las filas pero para cada columna. Perfiles de fila: marginales por filas. Perfiles de columna: marginales por columnas. Permutaciones de la tabla de correspondencias. Estadı́sticos de confianza para puntos de fila. Estadı́sticos de confianza para puntos de columna. Figura 8.3: Botón estadı́sticos Aplicación en SPSS Vamos a seleccionar todas las opciones disponibles con este botón. 1. Tabla de correspondencias: simplemente es la tabla de doble entrada de resumen de los datos; en ella podemos ver que por ejemplo existen 26 solteros cuya preocupación más importante es la vida afectiva o 111 que es el dinero. ANÁLISIS MULTIVARIANTE PARA SOCIÓLOGOS MEDIANTE SPSS. 110 Análisis de correspondencias Figura 8.4: Tabla de contingencia 2. Perfiles por fila y columna: son las distribuciones marginales. Los perfiles por fila son el resultado de dividir cada valor por el total de su fila mientras que los perfiles por columna es el valor de cada casilla entre el total su columna. 3. Tabla resumen: en esta tabla destacaremos varios aspectos: a) Valor propio. b) Inercia: raı́z cuadrada del valor propio. Mide la importancia de un eje; 0.043 el primero y 0.05 el segundo. c) Inercia total: explicación total de los ejes. Los ejes explican un total de 0.048. d ) Proporción de inercia: aunque el valor de la inercia podı́a parecer pequeño, 0.0403 y 0.005, entre ambos ejes explican el 100 de la varianza y más concretamente el primero el 90.4 % y el segundo el 9.06 %. e) Chi-cuadrado: con este valor obtenemos el contraste de independencia entre ambas variables, como vimos en la sección ?? el contraste de la chi-cuadrado en las Tablas de Contingencia contrasta la independencia como hipótesis nula frente a la dependencia. En este caso al ser el p-valor 0,3 ∗ 10−3 aceptarı́amos la hipótesis de dependencia entre variables. Destacamos que en el caso en que dos variables fuesen independientes, el análisis de correspondencias podrı́a realizarse, pero no tendrı́a lógica. Figura 8.5: Estadı́sticos f ) Examen de los puntos fila: ANÁLISIS MULTIVARIANTE PARA SOCIÓLOGOS MEDIANTE SPSS. 111 Análisis de correspondencias Las puntuaciones en la dimensión son los valores que toma cada punto en la representación que hayamos calculado. Con inercia vemos lo que aporta cada categorı́a al total de inercia, por ejemplo, del total de inercia (0.048) los Solteros aportan 0.028. Con contribución de los puntos a la inercia de la dimensión se mide la importancia de un punto a la hora de explicar un eje, por ejemplo Soltero es el valor más importante para la orientación del primer eje y Otro para el segundo. Con contribución de la dimensión a la inercia del punto vemos el porcentaje de cada modalidad explicado por cada eje, el primer eje explica el 98.30 % de la modalidad Soltero frente a solo el 1,7 % del segundo eje. g) Examen de los puntos columna: Igual que el caso anterior, además de los valores para representar en los ejes, podemos ver que el primer eje viene muy determinado por el Dinero frente al segundo que lo hace por la Armonı́a Familiar. También podemos ver que el primer eje explica el 99.9 % de la varianza de la modalidad de Dinero y el 93 % de Salud. Figura 8.6: Puntos fila y columna 8.2.2. Botón gráficos Dentro del botón de gráficos podremos especificar las siguientes opciones: Diagramas de dispersión: produce los gráficos por parejas de las dimensiones. Entre ellos: 1. Diagrama de dispersión biespacial: diagramas conjuntos de los puntos de filas y de columnas. 2. Puntos de fila. 3. Puntos de columna. ANÁLISIS MULTIVARIANTE PARA SOCIÓLOGOS MEDIANTE SPSS. 112 Análisis de correspondencias Gráfico de lı́neas. Para obtener los siguientes gráficos unidimensionales: 1. Categorı́as de fila transformadas: produce un gráfico de los valores originales para las categorı́as de fila frente a las puntuaciones de fila. 2. Categorı́as de columna transformadas: produce un gráfico de los valores originales para las categorı́as de columna frente a las puntuaciones de columna. Dimensiones del gráfico. 1. Muestra todas las dimensiones de la solución. 2. Restringe el número de dimensiones Figura 8.7: Botón gráficos Vamos a seleccionar todos los gráficos posibles. Aplicación en SPSS Si seleccionamos todos los gráficos posibles obtendremos:; Diagramas de dispersión: Con esta opción obtenemos los gráficos en dos dimensiones (si hubiera mas dimensiones obtendrı́amos las combinaciones de las dimensiones) para filas y columnas a la vez y por separado. Si analizamos los perfiles fila, observamos que los tres grupos, Solteros, Casados y Otros son bastante diferentes (lejanos). Si observamos los puntos columna, en estos parece que existe semejanza entre Dinero y Vida Afectiva y Salud y Armonı́a Familiar. ANÁLISIS MULTIVARIANTE PARA SOCIÓLOGOS MEDIANTE SPSS. 113 Análisis de correspondencias Figura 8.8: Gráficos de filas y gráfico de columnas Con el gráfico de filas y columnas podemos sacar las conclusiones finales, que son que los Casados prefieren la Armonı́a Familiar y la Salud frente a los Solteros que prefieren el Dinero y la Vida Afectiva. Figura 8.9: Gráfico conjunto Gráficos de lı́neas: muestras los valores de las componentes de las filas y columnas unidimensionalmente. 8.3. Análisis de correspondencias multiple Para este caso vamos a usar el fichero correspondencias2, que contiene los 50 primeros individuos del ejemplo anterior, pero a los que además se les ha estudiado el Sexo. Los procedimientos son los mismos solo que un poco más amplios. 8.3.1. Aplicación en SPSS Para obtener un análisis de correspondencias múltiple, tendremos que elegir los menús: ANÁLISIS MULTIVARIANTE PARA SOCIÓLOGOS MEDIANTE SPSS. 114 Análisis de correspondencias Analizar Reducción de Datos Escalamiento óptimo y en la ventana del modelo seleccionar: Todas las variables son nominales múltiples Un conjunto Definir Dentro de este análisis podrı́amos obtener todos los resultados equivalentes al análisis de correspondencias simple. Nosotros solo nos centraremos en las siguientes opciones: Opciones: cambiaremos método de normalización a simétrico. Botón resultados: seleccionaremos 1. Medidas discriminantes 2. Correlaciones de las variables originales Con estas dos opciones podemos ver la relación entre las variables. La correlación más baja es entre la variable Sexo con las otras dos, lo que implicará que no existe mucha relación entre ellas. Con respecto a la segunda dimensión los valores aumentan pero sigue la variable Sexo sin estar muy relacionada. También podemos ver esta circunstancia en el gráfico de discriminación, en donde las variables Estado Civil y Preocupaciones están muy relacionadas. La tabla de Medidas de discriminación son las coordenadas de las variables en las dos dimensiones. En la Tabla de resumen del modelo, vemos también como con dimensiones explicamos el 91.7 % de la varianza total. Figura 8.10: Correspondencias multiples ANÁLISIS MULTIVARIANTE PARA SOCIÓLOGOS MEDIANTE SPSS. 115 Análisis de correspondencias Figura 8.11: Correspondencias multiples2 3. Cuantificaciones y contribuciones de las categorı́as: Las cuantificaciones son los valores de los individuos son las representaciones óptimas en el sentido que estén separadas unas de otras en las dimensiones estudiadas y dentro de cada categorı́a los individuos estén juntos entre si. Estas cuantificaciones son graficadas posteriormente y será esos valores los que estudiemos. Botón Gráficos de variable: 1. Gráficos por categorı́as: introduciremos las tres variables. Con esta opción nos mostrará los gráficos bidimensionales de las variables marginalmente. 2. Gráficos de categorı́as conjuntas: también introduciremos las tres variables. En este caso obtendremos un gráfico bidimensional con todas las variables juntas. Figura 8.12: Gráficos ANÁLISIS MULTIVARIANTE PARA SOCIÓLOGOS MEDIANTE SPSS. 116 Análisis de correspondencias En ellos podemos ver como los Hombres se posicionan cerca de preferencia por la Vida Afectiva, solteros por Armonı́a Familiar, Otro con Salud y Mujer con Casadas. 3. Gráficos de objeto: con este gráfico obtenemos la representación de todos los individuos pudiendo buscar aquellos que sean anómalos o extremos, que será aquellos que tengan un comportamiento distinto al resto. Figura 8.13: Puntos objeto 8.4. 8.4.1. Ejercicios obligatorios Ejercicio primero El fichero correspondencias3, contiene los datos para 1519 individuos, agrupados en categorı́as profesionales (numeradas del 1 al 5), y su consumo de tabaco (categorı́as 1 a 4). Se pide: 1. ¿Cuál serı́a el número de dimensiones máximo posible? 2. ¿Se podrı́a realizar una análisis de dos dimensiones?, ¿por qué? 3. Realizar una análisis de correspondencias con dos dimensiones. ¿Serı́a admisible agrupar alguna modalidad de la variable consumo de tabaco? ¿Y de categorı́a profesional? Comentar el gráfico bidimensional. 8.4.2. Ejercicio segundo Se quiere analizar la influencia de la raza en cada una de las regiones de America del Norte. Para ello se selecciona una muestra de tal manera que a esos individuos se analiza su región en donde viven y la raza a la que pertenecen. Los resultados aparecen en el fichero correspondencias4. Se desea realizar un análisis de correspondencias completo (incluido el análisis de independencia y el estudio de las tablas de frecuencias marginales) en el que se analice esta hipótesis. ANÁLISIS MULTIVARIANTE PARA SOCIÓLOGOS MEDIANTE SPSS.