Tema 8 Análisis de Correspondencias Análisis de Correspondencias 1963 Universidad de Renner (Francia), Benzecri Se trata de una técnica de interdependencia en la que no se distingue entre variables dependientes e independientes Es una técnica que permite estudiar las relaciones de inercia y asociación, entre variables categóricas en tablas de contingencia Análisis de Correspondencias Simple (dos variables) Análisis de Correspondencias Múltiple (más de dos variables) S o c i o l o g í a d e l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í Análisis de Correspondencias CORRESPONDENCIAS SIMPLES S o c i o l o g í a d e Dada una tabla de observaciones correspondiente a dos variables cualitativas, el análisis de correspondencias simples es una técnica para representar las categorías de las dos variables en un espacio de pequeña dimensión que permita interpretar, por un lado, las similitudes entre las categorías de una variable respecto a las categorías de la otra, y por otro, las relaciones entre las categorías de cada una de las variables por separado l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í Análisis de Correspondencias Así al analizar el cruce entre dos variables se pretende 1 Reducir la información de la que disponemos a factores que permitan explicarla de modo más resumido y sencillo 2 Crear un espacio factorial en el que ubicar las variables y sujetos para poder establecer grados de semejanza y diferencia entre ellos Todo ello nos permite 1 Analizar la semejanzas y diferencias entre las categorías de una misma variable 2 Analizar la relación de semejanzas y diferencias entre las categorías de las distintas variables incluidas en el análisis S o c i o l o g í a d e l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í Análisis de Correspondencias Representación y reducción de las dimensiones Así a partir de la representación de las filas o columnas, se extraerá un nuevo espacio c-dimensional siendo c = [min (p,q) –1], del que a su vez se obtendrá un espacio K-dimensional tal que por un lado, K sea pequeño, y por otro, se pierda poca información respecto a la similitud entre las distintas categorías S o c i o l o g í a d e l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í 1 2 3 4 5 Total N 71 80 81 86 102 420 E 42 43 47 47 43 222 n 55 56 58 54 49 272 V 66 68 65 65 58 322 e 18 5 1 0 0 24 252 252 252 252 252 1260 Nauseas Fármaco 1 Erupciones cutáneas Fármaco 2 Fármaco 3 Fármaco 5 Fármaco 4 No efectos secundarios Vómitos Epigastralgia S o c i o l o g í a d e l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í S o c i o l o g í a d e l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í Análisis de Correspondencias Concepto de masa: La masa de cada punto (categoría marginal) será igual a la frecuencia relativa de observaciones en la categoría correspondiente Cada masa es una ponderación asignada con la finalidad de que, a la hora de extraer un eje tratando de que la deformación de la nube de puntos sea mínima, las categorías que presentan una mayor frecuencia se ven menos afectadas e inciden en mayor medida en la determinación de los ejes factoriales resultantes S o c i o l o g í a d e l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í Análisis de Correspondencias Concepto de Inercia: Es el estadístico que mide la dispersión de la nube de puntos. La inercia es el promedio de las distancias de los distintos puntos a su centro de gravedad, estando cada distancia ponderada por la masa del punto correspondiente La inercia total es igual al cociente entre el estadístico Chi-cuadrado de la tabla, y el total de las observaciones S o c i o l o g í a d e Es decir, si las variables son muy dependientes, tanto las filas como las columnas serán distintas entre sí, mientras que si son independientes serán parecidas l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í Análisis de Correspondencias Concepto de Inercia: En resumen si son independientes habrá poca inercia y si son dependientes (están relacionadas) habrá mucha inercia, es decir, mucha dispersión S o c i o l o g í a d e l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í Análisis de Correspondencias FASES DEL ANÁLISIS DE CORRESPONDENCIAS 1 Extracción del espacio factorial criterios: Conseguir un 70% de inercia explicada o más Sólo retener aquellas dimensiones proporción de inercia explicada superior a 1/c En síntesis si K es pequeño la solución será más fácil de interpretar pero será menos fiable que si K es grande, caso en el que ocurrirá lo contrario S o c i o l o g í a d e l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í Análisis de Correspondencias FASES DEL ANÁLISIS DE CORRESPONDENCIAS S o c i o l o g í a d e l a 2 Extracción de puntuaciones factoriales: “Marginal Profile” o Perfiles Marginales son las masas de las categorías o frecuencias relativas de las mismas “Contribution of dimensions to the inertia of each point” o CONTRIBUCIÓN RELATIVA Ayuda a conocer la calidad de representación de cada dimensión o factor “Contribution of Row/Column to the inertia of each dimensíon” o CONTRIBUCIÓN ABSOLUTA Cuanto influye cada categoría en el factor sirve para “bautizarlos” t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í Análisis de Correspondencias FASES DEL ANÁLISIS DE CORRESPONDENCIAS 3 Representación gráfica: Cuanto mayor sea la distancia al origen mayor será la tendencia de la categoría correspondiente a concentrar su frecuencia en determinadas celdas S o c i o l o g í a d e l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í 1 2 3 4 5 Total N 71 80 81 86 102 420 E 42 43 47 47 43 222 n 55 56 58 54 49 272 V 66 68 65 65 58 322 e 18 5 1 0 0 24 252 252 252 252 252 1260 Coordenadas Contribución relativa Coordenadas Contribución absoluta Significance . 82388 Análisis de Correspondencias Interpretación de resultados Relación entre las categorías de cada variable Fármaco {1} {2,3,4} {5} Efectos secundarios {erupciones cutáneas} {Epigastralgia, nauseas, vómitos} {No hay efectos secundarios} S o c i o l o g í a d e Relación entre las categorías de ambas variables {1} {erupciones cutáneas} {2,3,4} {Epigastralgia, nauseas, vómitos} {5} {No hay efectos secundarios} l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í Análisis de Correspondencias Interpretación de resultados En conclusión, excepto el primer analgésico, al que se le pueden atribuir la existencia de erupciones cutáneas, los restantes son bastante homogéneos entre sí, aunque matizando pequeñas diferencias entre ellos, ya que cabe esperar que con el quinto, la ausencia de efectos secundarios sea más frecuente que con el resto S o c i o l o g í a d e l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í Análisis de Correspondencias Por favor, indica qué características principales asocias a cada una de las marcas de productos que te mostramos: Marcas Levi’s Lois Bennetton Zara Opel Volkswgen Seat Audi Coca-Cola Kas Pepsi Cola La Casera S o c i o l o g í a d e l a t e c n o l o g í a Características Moderna Amigable Solidaria Juvenil Internacional Elegante Confiable Creativa Económica Divertida Clásica Diferente . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í Análisis de Correspondencias 1,2 Solidaria Bennetton Levi’s Internacional Creativa Volkswagen 0 Audi Coca- Cola Pepsi Cola Divertida Lois Moderna Confiable Diferente Amigable Elegante Kas Zara Opel Clásica Juvenil Seat Economíca 1,4 -1,6 S o c i o l o g í a 0 d e l a t e c n o l o g í a . U n i v e r s i d a d La Casera d e A l i c a n t e . 1,0 S o c i o l o g í Análisis de Correspondencias CORRESPONDENCIAS MULTIPLES Extensión del Análisis de Correspondencias Simple a más de dos variables , el objetivo es el mismo : definir los factores y asociar categorías S o c i o l o g í a d e Características 1 En lugar de partir de la tabla de contingencia partimos de la TABLA DE BURT (matriz simétrica que resume la información original) 2 Las categorías con una frecuencia significativamente baja se han de depurar pues pueden aparecer sobre representadas generando confusión l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í Análisis de Correspondencias CORRESPONDENCIAS MULTIPLES Características 3 La parte de inercia atribuida a cada variable es tanto mayor cuanto mayor es su número de categorías. Por ello es recomendable que las variables incluidas en el análisis tengan un número similar de categorías 4 La inercia explicada por los factores comunes es menor que en el caso de correspondencias simple. No se pretende tanto explicar un determinado % de inercia como trabajar con un número de dimensiones reducido S o c i o l o g í a d e l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í Análisis de Correspondencias CORRESPONDENCIAS MULTIPLES Interpretación de resultados 1 Si dos categorías tienen estructura similar aparecerán cercanas en el plano, pero que aparezcan lejanas no quiere decir necesariamente que tengan estructuras diferentes, dependerá de la calidad de representación S o c i o l o g í a d e 2 La situación cercana de una modalidad a otra sólo se puede interpretar si estamos lejos del origen. Las categorías que aparecen cercanas al origen representan una estructura media, son categorías asociadas a distintas categorías de la periferia l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í Análisis de Correspondencias CORRESPONDENCIAS MULTIPLES Interpretación de resultados 3 Cuando una categoría tiene un perfil próximo al perfil medio tenderá a ubicarse cercana al origen 4 Cada variable además de cada categoría explica una parte concreta de cada factor, ésta se obtiene sumando la de todas sus categorías S o c i o l o g í a d e 5 Debemos tener en cuenta las contribuciones absolutas de las modalidades o categorías para conocer cuáles son las que más influyen en el factor y así poder definirlo mejor, “bautizarlo” l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í Análisis de Correspondencias CORRESPONDENCIAS MULTIPLES Interpretación de resultados 6 Las contribuciones relativas ayudan a conocer la calidad de representación de cada categoría y no cometer errores visuales S o c i o l o g í a d e l a t e c n o l o g í a . U n i v e r s i d a d d e A l i c a n t e . S o c i o l o g í Edad: E1 menor de 25 años E2 entre 26 y 35 años E3 entre 36 y 50 años E4 más de 50 años Nivel de Renta: R1 menos de 10.000 e R2 entre 10.000 y 20.000 e R3 entre 20.000 y 40.000 e R4 más de 40.000 e Nivel de estudios: Ep Estudios primarios Em Estudios medios Es Estudios superiores Tamaño ciudad de Residencia: Z1 Menos de 50.000 hb Z2 entre 50.000 y 200.000 hb Z3 entre 200.000 y 1.000.000 hb Z4 más de 1.000.000 hb Frecuencia en la utilización de Productos congelados: C1 nunca C2 raras veces C3 con frecuencia C4 con mucha frecuencia C5 casi a diario Actitud hacia los Hornos microondas: Nivel profesional: M1 Los desconozco M2 No me interesa M3 Me gustaría M4 Lo tengo P1 Ama de casa P2 Trabajo no cualificado P3 Trabajo cualificado P4 Trabajo muy cualificado • Menos de 50.000 Hb. • Estudios primarios • Nunca utiliza congelados • Desconoce los microondas •Trabajo no cualficado •Utiliza congelados con frecuencia •Le gustaría tener microondas •Más de 40.000 Hb. •Utiliza congelados casi a diario •Estudios superiores •Tiene microondas •Trabajo muy cualificado Archivos para el ejemplo con SPSS smoking.sav coffee.sav flying.sav