Interpretación de resultados

Anuncio
Tema 8
Análisis de Correspondencias
Análisis de Correspondencias
 1963 Universidad de Renner (Francia), Benzecri
 Se trata de una técnica de interdependencia en la
que no se distingue entre variables dependientes e
independientes
 Es una técnica que permite estudiar las relaciones
de inercia y asociación, entre variables categóricas
en tablas de contingencia
 Análisis de Correspondencias Simple (dos variables)
Análisis de Correspondencias Múltiple (más de dos
variables)
S o c i o l o g í a
d e
l a
t e c n o l o g í a
.
U n i v e r s i d a d
d e
A l i c a n t e
.
S o c i o l o g í
Análisis de Correspondencias
 CORRESPONDENCIAS SIMPLES
S o c i o l o g í a
d e
Dada una tabla de observaciones correspondiente a
dos variables cualitativas, el análisis de
correspondencias simples es una técnica para
representar las categorías de las dos variables en
un espacio de pequeña dimensión que permita
interpretar, por un lado, las similitudes entre las
categorías de una variable respecto a las categorías
de la otra, y por otro, las relaciones entre las
categorías de cada una de las variables por
separado
l a
t e c n o l o g í a . U n i v e r s i d a d
d e
A l i c a n t e . S o c i o l o g í
Análisis de Correspondencias
 Así al analizar el cruce entre dos variables se
pretende
1 Reducir la información de la que disponemos a
factores que permitan explicarla de modo más
resumido y sencillo
2 Crear un espacio factorial en el que ubicar las
variables y sujetos para poder establecer grados de
semejanza y diferencia entre ellos
 Todo ello nos permite
1 Analizar la semejanzas y diferencias entre las
categorías de una misma variable
2 Analizar la relación de semejanzas y diferencias entre
las categorías de las distintas variables incluidas en el
análisis
S o c i o l o g í a
d e
l a
t e c n o l o g í a
.
U n i v e r s i d a d
d e
A l i c a n t e
.
S o c i o l o g í
Análisis de Correspondencias
 Representación y reducción de las dimensiones
Así a partir de la representación de las filas o columnas,
se extraerá un nuevo espacio c-dimensional siendo
c = [min (p,q) –1], del que a su vez se obtendrá un
espacio K-dimensional tal que por un lado, K sea
pequeño, y por otro, se pierda poca información
respecto a la similitud entre las distintas categorías
S o c i o l o g í a
d e
l a
t e c n o l o g í a
.
U n i v e r s i d a d
d e
A l i c a n t e
.
S o c i o l o g í
1
2
3
4
5
Total
N
71
80
81
86
102
420
E
42
43
47
47
43
222
n
55
56
58
54
49
272
V
66
68
65
65
58
322
e
18
5
1
0
0
24
252
252
252
252
252
1260
Nauseas
Fármaco 1
Erupciones cutáneas
Fármaco 2
Fármaco 3
Fármaco 5
Fármaco 4
No efectos secundarios
Vómitos
Epigastralgia
S o c i o l o g í a
d e
l a
t e c n o l o g í a
.
U n i v e r s i d a d
d e
A l i c a n t e
.
S o c i o l o g í
S o c i o l o g í a
d e
l a
t e c n o l o g í a
.
U n i v e r s i d a d
d e
A l i c a n t e
.
S o c i o l o g í
Análisis de Correspondencias
 Concepto de masa:
La masa de cada punto (categoría marginal) será igual a la
frecuencia relativa de observaciones en la categoría
correspondiente
Cada masa es una ponderación asignada con la finalidad de que,
a la hora de extraer un eje tratando de que la deformación de la
nube de puntos sea mínima, las categorías que presentan una
mayor frecuencia se ven menos afectadas e inciden en mayor
medida en la determinación de los ejes factoriales resultantes
S o c i o l o g í a
d e
l a
t e c n o l o g í a
.
U n i v e r s i d a d
d e
A l i c a n t e
.
S o c i o l o g í
Análisis de Correspondencias
 Concepto de Inercia:
Es el estadístico que mide la dispersión de la nube de
puntos. La inercia es el promedio de las distancias de los
distintos puntos a su centro de gravedad, estando cada
distancia ponderada por la masa del punto
correspondiente
La inercia total es igual al cociente entre el estadístico
Chi-cuadrado de la tabla, y el total de las observaciones
S o c i o l o g í a
d e
Es decir, si las variables son muy dependientes, tanto las
filas como las columnas serán distintas entre sí, mientras
que si son independientes serán parecidas
l a
t e c n o l o g í a . U n i v e r s i d a d
d e
A l i c a n t e . S o c i o l o g í
Análisis de Correspondencias
 Concepto de Inercia:
En resumen si son independientes habrá poca inercia y
si son dependientes (están relacionadas) habrá mucha
inercia, es decir, mucha dispersión
S o c i o l o g í a
d e
l a
t e c n o l o g í a
.
U n i v e r s i d a d
d e
A l i c a n t e
.
S o c i o l o g í
Análisis de Correspondencias
 FASES DEL ANÁLISIS DE CORRESPONDENCIAS
1 Extracción del espacio factorial criterios:
 Conseguir un 70% de inercia explicada o más
 Sólo retener aquellas dimensiones
proporción de inercia explicada superior a 1/c
En síntesis si K es pequeño la solución será más fácil de
interpretar pero será menos fiable que si K es grande,
caso en el que ocurrirá lo contrario
S o c i o l o g í a
d e
l a
t e c n o l o g í a
.
U n i v e r s i d a d
d e
A l i c a n t e
.
S o c i o l o g í
Análisis de Correspondencias
 FASES DEL ANÁLISIS DE CORRESPONDENCIAS
S o c i o l o g í a
d e
l a
2 Extracción de puntuaciones factoriales:
 “Marginal Profile” o Perfiles Marginales son las
masas de las categorías o frecuencias relativas
de las mismas
 “Contribution of dimensions to the inertia of each
point” o CONTRIBUCIÓN RELATIVA
Ayuda a conocer la calidad de representación de
cada dimensión o factor
 “Contribution of Row/Column to the inertia of
each dimensíon” o CONTRIBUCIÓN ABSOLUTA
Cuanto influye cada categoría en el factor sirve
para “bautizarlos”
t e c n o l o g í a . U n i v e r s i d a d
d e
A l i c a n t e . S o c i o l o g í
Análisis de Correspondencias
 FASES DEL ANÁLISIS DE CORRESPONDENCIAS
3 Representación gráfica:
 Cuanto mayor sea la distancia al origen mayor
será la tendencia de la categoría correspondiente
a concentrar su frecuencia en determinadas
celdas
S o c i o l o g í a
d e
l a
t e c n o l o g í a
.
U n i v e r s i d a d
d e
A l i c a n t e
.
S o c i o l o g í
1
2
3
4
5
Total
N
71
80
81
86
102
420
E
42
43
47
47
43
222
n
55
56
58
54
49
272
V
66
68
65
65
58
322
e
18
5
1
0
0
24
252
252
252
252
252
1260
Coordenadas
Contribución
relativa
Coordenadas
Contribución
absoluta
Significance
. 82388
Análisis de Correspondencias
 Interpretación de resultados
Relación entre las categorías de cada variable
Fármaco
{1} {2,3,4} {5}
Efectos secundarios
{erupciones cutáneas} {Epigastralgia, nauseas, vómitos}
{No hay efectos secundarios}
S o c i o l o g í a
d e
Relación entre las categorías de ambas variables
 {1} {erupciones cutáneas}
 {2,3,4} {Epigastralgia, nauseas, vómitos}
 {5} {No hay efectos secundarios}
l a
t e c n o l o g í a . U n i v e r s i d a d
d e
A l i c a n t e . S o c i o l o g í
Análisis de Correspondencias
 Interpretación de resultados
En conclusión, excepto el primer analgésico, al que se le
pueden atribuir la existencia de erupciones cutáneas, los
restantes son bastante homogéneos entre sí, aunque
matizando pequeñas diferencias entre ellos, ya que cabe
esperar que con el quinto, la ausencia de efectos
secundarios sea más frecuente que con el resto
S o c i o l o g í a
d e
l a
t e c n o l o g í a
.
U n i v e r s i d a d
d e
A l i c a n t e
.
S o c i o l o g í
Análisis de Correspondencias
 Por favor, indica qué características principales asocias a cada una de
las marcas de productos que te mostramos:
Marcas
Levi’s
Lois
Bennetton
Zara
Opel
Volkswgen
Seat
Audi
Coca-Cola
Kas
Pepsi Cola
La Casera
S o c i o l o g í a
d e
l a
t e c n o l o g í a
Características
Moderna
Amigable
Solidaria
Juvenil
Internacional
Elegante
Confiable
Creativa
Económica
Divertida
Clásica
Diferente
.
U n i v e r s i d a d
d e
A l i c a n t e
.
S o c i o l o g í
Análisis de Correspondencias
1,2
Solidaria
Bennetton
Levi’s
Internacional
Creativa
Volkswagen
0
Audi
Coca- Cola
Pepsi Cola
Divertida
Lois
Moderna
Confiable
Diferente
Amigable
Elegante
Kas
Zara
Opel
Clásica
Juvenil
Seat
Economíca
1,4
-1,6
S o c i o l o g í a
0
d e
l a
t e c n o l o g í a
.
U n i v e r s i d a d
La Casera
d e
A l i c a n t e
.
1,0
S o c i o l o g í
Análisis de Correspondencias
 CORRESPONDENCIAS MULTIPLES
Extensión del Análisis de Correspondencias Simple a más
de dos variables , el objetivo es el mismo : definir los
factores y asociar categorías
S o c i o l o g í a
d e
Características
1 En lugar de partir de la tabla de contingencia partimos de
la TABLA DE BURT (matriz simétrica que resume la
información original)
2 Las categorías con una frecuencia significativamente
baja se han de depurar pues pueden aparecer sobre
representadas generando confusión
l a
t e c n o l o g í a . U n i v e r s i d a d
d e
A l i c a n t e . S o c i o l o g í
Análisis de Correspondencias
 CORRESPONDENCIAS MULTIPLES
Características
3 La parte de inercia atribuida a cada variable es tanto
mayor cuanto mayor es su número de categorías. Por ello
es recomendable que las variables incluidas en el análisis
tengan un número similar de categorías
4 La inercia explicada por los factores comunes es menor
que en el caso de correspondencias simple. No se
pretende tanto explicar un determinado % de inercia
como trabajar con un número de dimensiones reducido
S o c i o l o g í a
d e
l a
t e c n o l o g í a
.
U n i v e r s i d a d
d e
A l i c a n t e
.
S o c i o l o g í
Análisis de Correspondencias
 CORRESPONDENCIAS MULTIPLES
Interpretación de resultados
1 Si dos categorías tienen estructura similar aparecerán
cercanas en el plano, pero que aparezcan lejanas no
quiere decir necesariamente que tengan estructuras
diferentes, dependerá de la calidad de representación
S o c i o l o g í a
d e
2 La situación cercana de una modalidad a otra sólo se
puede interpretar si estamos lejos del origen. Las
categorías que aparecen cercanas al origen representan
una estructura media, son categorías asociadas a distintas
categorías de la periferia
l a
t e c n o l o g í a . U n i v e r s i d a d
d e
A l i c a n t e . S o c i o l o g í
Análisis de Correspondencias
 CORRESPONDENCIAS MULTIPLES
Interpretación de resultados
3 Cuando una categoría tiene un perfil próximo al perfil
medio tenderá a ubicarse cercana al origen
4 Cada variable además de cada categoría explica una
parte concreta de cada factor, ésta se obtiene sumando la
de todas sus categorías
S o c i o l o g í a
d e
5 Debemos tener en cuenta las contribuciones absolutas
de las modalidades o categorías para conocer cuáles son
las que más influyen en el factor y así poder definirlo
mejor, “bautizarlo”
l a
t e c n o l o g í a . U n i v e r s i d a d
d e
A l i c a n t e . S o c i o l o g í
Análisis de Correspondencias
 CORRESPONDENCIAS MULTIPLES
Interpretación de resultados
6 Las contribuciones relativas ayudan a conocer la
calidad de representación de cada categoría y no cometer
errores visuales
S o c i o l o g í a
d e
l a
t e c n o l o g í a
.
U n i v e r s i d a d
d e
A l i c a n t e
.
S o c i o l o g í
Edad: E1 menor de 25 años
E2 entre 26 y 35 años
E3 entre 36 y 50 años
E4 más de 50 años
Nivel de Renta: R1 menos de 10.000 e
R2 entre 10.000 y 20.000 e
R3 entre 20.000 y 40.000 e
R4 más de 40.000 e
Nivel de estudios: Ep Estudios primarios
Em Estudios medios
Es Estudios superiores
Tamaño ciudad de
Residencia:
Z1 Menos de 50.000 hb
Z2 entre 50.000 y 200.000 hb
Z3 entre 200.000 y 1.000.000 hb
Z4 más de 1.000.000 hb
Frecuencia en la utilización de
Productos congelados: C1 nunca
C2 raras veces
C3 con frecuencia
C4 con mucha frecuencia
C5 casi a diario
Actitud hacia los
Hornos microondas:
Nivel profesional:
M1 Los desconozco
M2 No me interesa
M3 Me gustaría
M4 Lo tengo
P1 Ama de casa
P2 Trabajo no cualificado
P3 Trabajo cualificado
P4 Trabajo muy cualificado
• Menos de
50.000 Hb.
• Estudios
primarios
• Nunca utiliza
congelados
• Desconoce los
microondas
•Trabajo no cualficado
•Utiliza congelados
con frecuencia
•Le gustaría tener
microondas
•Más de 40.000 Hb.
•Utiliza congelados
casi a diario
•Estudios superiores
•Tiene microondas
•Trabajo muy cualificado
Archivos para el ejemplo con SPSS
 smoking.sav
 coffee.sav
 flying.sav
Descargar