ANÁLISIS CLUSTER

Anuncio
Curso de Postgrado en Herramientas Estadísticas Avanzadas:
ANÁLISIS MULTIVARIANTE PARA INVESTIGACIÓN EN SISTEMAS
AGROPECUARIOS
ANÁLISIS CLUSTER
Prof. Dr. José Perea
Dpto. Producción Animal
ANÁLISIS
Á
DE CONGLOMERADOS
1. Introducción
2 Medidas de similaridad
2.
3. Análisis jerárquico
4. Análisis no jerárquico
5. Elección entre los distintos tipos
p de análisis
6. Caso práctico
clasificación
Análisis de interdependencias
Relación
entre
variables
Métricas
componentes
principales
Relación
entre
casos
Relación
entre
objetos
j
análisis
cluster
escalamiento
multidimensional
No métricas
análisis
factorial
análisis
correspondencias
introducción
Técnica para clasificar observaciones en grupos:
-
Cada grupo sea homogéneo respecto a las variables
utilizadas para su formación
-
Que los grupos sean lo más distintos posible unos de
otros respectos a las variables consideradas
-
La composición de los grupos es desconocida a priori (en
el análisis discriminante o en la regresión logística se conocen
los grupos)
introducción
-
Por ejemplo:
-
Clasificar los animales de un rebaño según sus
características productivas y aptitudes para la explotación
ecológica (producción de leche, producción de carne,
edad, enfermedades, rusticidad, prolificidad, fertilidad,
aplomos, raza, etc.)
-
Clasificar explotaciones ganaderas según su implicación
en funciones no productivas
introducción
P
Pasos
d l análisis
del
áli i cluster:
l t
-
Se tiene información de n casos y k variables
-
Se establece un indicador que nos diga en qué medida cada
par de observaciones se parece entre sí (distancia o
similaridad)
-
Se crean los grupos de acuerdo a la medida de similaridad o
distancia anterior.
anterior Hay dos tipos de creación de grupos y
varios métodos de agrupación
-
Se describen los grupos obtenidos y se comparan unos con
otros
-
Validación del análisis
medidas de similaridad
Medidas de similaridad
Ejemplo
Se tiene información de la producción de leche y del rendimiento
quesero de
d 8 cabras
b
Cabra
1
2
3
4
5
6
7
8
Producción leche Rendimiento quesero
225
10
225
15
210
0
30
200
35
325
20
375
25
450
40
500
35
medidas de similaridad
45
40
35
30
25
20
15
10
5
0
100
250
400
550
medidas de similaridad
45
40
35
30
25
20
15
10
5
0
100
250
400
550
medidas de similaridad
M did de
Medidas
d similaridad
i il id d para variables
i bl métricas
ét i
-
Distancia euclídea (D) entre dos casos: D = √Σ (Xip – Xjp)2
-
En el ejemplo:
-
D12 = √ ((225 – 225))2 + ((15 – 10))2 = 5
-
D13 = √ (210 – 225)2 + (30 – 10)2 = 196
Cabra
1
2
3
4
5
6
7
8
Producción leche Rendimiento quesero
225
10
225
15
210
30
200
35
325
20
375
25
450
40
500
35
medidas de similaridad
-
Di t
Distancia
i euclídea
líd all cuadrado
d d (D2) entre
t dos
d casos:
-
-
Menos exigente que el anterior
-
D = Σ (Xip – Xjp)2
En el ejemplo:
j p
-
D12 = (225 – 225)2 + (15 – 10)2 = 25
-
D13 = (210 – 225)2 + (30 – 10)2 = 38425
Cabra
1
2
3
4
5
6
7
8
Producción leche Rendimiento quesero
q
225
10
225
15
210
30
200
35
325
20
375
25
450
40
500
35
medidas de similaridad
-
-
Di t
Distancia
i de
d Minkowski:
Mi k
ki
-
M = [Σ (Xip – Xjp)2]1/n
-
Los dos casos anteriores son un caso particular (n=2)
de la distancia de Minkowski
Distancia city block o “Manhatan”:
-
M = Σ (Xip – Xjp)
medidas de similaridad
45
40
c
35
30
b
25
20
a
15
10
5
0
100
250
400
550
medidas de similaridad
Estandarización de los datos:
-
Las distancias de similaridad son muy sensibles a las
unidades en q
que estén medidas las variables.
-
En el ejemplo (distancia D2):
-
-
D12 = (225 – 225)2 + (15 – 10)2 = 25
-
D13 = (210 – 225)2 + (30 – 10)2 = 38.425
-
Si la producción de leche la medimos en centilitros:
-
D12 = (22500 – 22500)2 + (15 – 10)2 = 25
-
D13 = (21000 – 22500)2 + (30 – 10)2 = 2.250.400
2 250 400
Lo más común en restar la media a cada observación y dividir
por la desviación típica (variables de media cero y d.t. 1)
medidas de similaridad
M did de
Medidas
d similaridad
i il id d para datos
d t binarios
bi
i
-
Se utilizan con variables ficticias o con variables dicotómicas
(
(p.e.
“ ” 0 “si”=1)
“no”=0;
“ i” 1)
-
Se utiliza una tabla de doble entrada:
Ganadero
G
d
1
2
3
4
5
Ecológico
E
ló i
1
0
1
0
1
ATP
1
1
1
0
1
Soltero
S
lt
0
1
0
0
1
Estudios
E
t di
0
1
1
1
0
medidas de similaridad
Ganadero
G
d
1
2
3
4
5
Ecológico
E
ló i
1
0
1
0
1
ATP
1
1
1
0
1
Soltero
S
lt
0
1
0
0
1
Estudios
E
t di
0
1
1
1
0
1
2
1
0
1
1
1
0
2
0
medidas de similaridad
Ganadero
G
d
1
2
3
4
5
Ecológico
E
ló i
1
0
1
0
1
ATP
1
1
1
0
1
Soltero
S
lt
0
1
0
0
1
Estudios
E
t di
0
1
1
1
0
1
2
1
0
1
1
1
a
c
0
2
0
b
d
medidas de similaridad
M did
Medidas:
-
D2 = b + c
-
D=√b+c
-
Diferencia de tamaño = (b–c)
(b c)2/(a+b+c+d)2
-
Diferencia de configuración = (b
(b*c)/(a+b+c+d)
c)/(a+b+c+d)2
-
Diferencia de forma = [(a+b+c+d)
[(a+b+c+d)*(b+c)
(b+c)-(b–c)
(b c)2]/(a+b+c+d)2
análisis jerárquico
F
Formación
ió de
d grupos:
-
Análisis jerárquico: Inicialmente cada caso es un grupo en
síí mismo
i
y sucesivamente
i
t se van fusionando
f i
d grupos
cercanos hasta que todos los individuos confluyen en un solo
g p
grupo.
-
Análisis no jerárquico: Inicialmente se establece el número
de grupos y cada caso se asigna a uno de ellos.
Nótese que si elegimos p.e. 3 grupos, en el método jerárquico los
grupos proceden de fusionar dos grupos de la anterior
combinación de 4 y en el método no jerárquico los 3 grupos
se habrán confeccionado para maximizar la heterogeneidad
entre grupos y la homogeneidad dentro de grupos.
análisis jerárquico
Ej
Ejemplo:
l
-
12 casos (explotaciones ecológicas de vacuno lechero)
-
Agrupar según las siguientes variables:
-
p
´dedicada a la actividad en ha))
NHT ((superficie
-
NHT_NHP (superficie en propiedad %)
-
NVAC (número de vacas)
-
TREP (tasa de reposición)
-
TMORT (tasa de mortalidad)
-
CARGA (carga ganadera UGM/ha)
-
ITC (índice terneros comerciales)
-
ILC (índice de litros comerciales)
análisis jerárquico
Utilizando
Utili
d ell análisis
áli i jerárquico
j á i con la
l distancia
di t
i euclídea
líd y ell
método de Ward:
Dendrogram
Ward's Method,Squared Euclidean
100
80
60
40
20
12
11
9
8
4
10
6
5
3
2
7
0
1
Disttance
-
análisis jerárquico
Utilizando
Utili
d ell análisis
áli i jerárquico
j á i con la
l distancia
di t
i euclídea
líd y ell
método de Ward:
Dendrogram
Ward's Method,Squared Euclidean
100
80
60
40
20
12
11
9
8
4
10
6
5
3
2
7
0
1
Disttance
-
análisis jerárquico
-
-
Utilizando
Utili
d ell análisis
áli i jerárquico
j á i con la
l distancia
di t
i euclídea
líd y ell
método de Ward:
-
G
Grupo
I 1,
I:
1 3,
3 5,
5 6,
6 7,
7 10
-
Grupo II: 4, 8, 9, 11
-
Grupo III: 12
Utilizando el análisis no jerárquico con la distancia euclídea:
-
Grupo I: 1,
1 7,
7 12
-
Grupo II: 4, 8, 9, 10
-
Grupo III: 2, 3, 5, 6, 11
análisis jerárquico
Mét d de
Métodos
d agrupación
ió jerárquica:
j á
i
-
Método del centroide
-
Método del vecino más cercano
-
j
Método del vecino más lejano
-
Método de la vinculación promedio
-
Método de Ward
análisis jerárquico
Mét d del
Métodos
d l centroide:
t id
-
Comienza
cercanas.
uniendo
las
-
A continuación, el grupo se sustituye por una observación
que lo representa (centroide) y en el que todas las
variables toman un valor medio.
-
Se vuelven a calcular la matriz de distancias (D,
(D D2,
etc.), se unen otro par de observaciones y se recalcula la
matriz.
-
Así hasta que todas las observaciones quedan en un solo
grupo.
dos
observaciones
más
análisis jerárquico
Métodos del vecino más cercano:
-
Igual que el método del centroide pero varía el cálculo de
la distancia.
-
Las distancias entre los grupos a fusionar se calculan
tomando las observaciones más cercanas de cada
grupo (en
( vez del
d l valor
l medio).
di )
45
40
35
30
25
20
15
10
5
0
100
250
400
550
análisis jerárquico
Métodos del vecino más cercano:
-
Igual que el método del centroide pero varía el cálculo de
la distancia.
-
Las distancias entre los grupos a fusionar se calculan
tomando las observaciones más cercanas de cada
grupo (en
( vez del
d l valor
l medio).
di )
45
40
35
30
25
20
15
10
5
0
100
250
400
550
análisis jerárquico
Métodos del vecino más cercano:
-
Igual que el método del centroide pero varía el cálculo de
la distancia.
-
Las distancias entre los grupos a fusionar se calculan
tomando las observaciones más cercanas de cada
grupo (en
( vez del
d l valor
l medio).
di )
45
40
35
30
25
20
15
10
5
0
100
250
400
550
análisis jerárquico
Métodos del vecino más cercano:
-
Igual que el método del centroide pero varía el cálculo de
la distancia.
-
Las distancias entre los grupos a fusionar se calculan
tomando las observaciones más cercanas de cada
grupo (en
( vez del
d l valor
l medio).
di )
45
40
35
30
25
20
15
10
5
0
100
250
400
550
análisis jerárquico
Métodos del vecino más cercano:
-
Igual que el método del centroide pero varía el cálculo de
la distancia.
-
Las distancias entre los grupos a fusionar se calculan
tomando las observaciones más cercanas de cada
grupo (en
( vez del
d l valor
l medio).
di )
45
40
35
30
25
20
15
10
5
0
100
250
400
550
análisis jerárquico
Métodos del vecino más cercano:
-
Igual que el método del centroide pero varía el cálculo de
la distancia.
-
Las distancias entre los grupos a fusionar se calculan
tomando las observaciones más cercanas de cada
grupo (en
( vez del
d l valor
l medio).
di )
45
40
35
30
25
20
15
10
5
0
100
250
400
550
análisis jerárquico
Métodos del vecino más cercano:
-
Igual que el método del centroide pero varía el cálculo de
la distancia.
-
Las distancias entre los grupos a fusionar se calculan
tomando las observaciones más cercanas de cada
grupo (en
( vez del
d l valor
l medio).
di )
45
40
35
30
25
20
15
10
5
0
100
250
400
550
análisis jerárquico
Métodos del vecino más cercano:
-
Igual que el método del centroide pero varía el cálculo de
la distancia.
-
Las distancias entre los grupos a fusionar se calculan
tomando las observaciones más cercanas de cada
grupo (en
( vez del
d l valor
l medio).
di )
45
40
35
30
25
20
15
10
5
0
100
250
400
550
análisis jerárquico
Métodos del vecino más cercano:
-
Igual que el método del centroide pero varía el cálculo de
la distancia.
-
Las distancias entre los grupos a fusionar se calculan
tomando las observaciones más cercanas de cada
grupo (en
( vez del
d l valor
l medio).
di )
45
40
35
30
25
20
15
10
5
0
100
250
400
550
análisis jerárquico
Métodos del vecino más cercano:
-
Igual que el método del centroide pero varía el cálculo de
la distancia.
-
Las distancias entre los grupos a fusionar se calculan
tomando las observaciones más cercanas de cada
grupo (en
( vez del
d l valor
l medio).
di )
45
40
35
30
25
20
15
10
5
0
100
250
400
550
análisis jerárquico
Mét d del
Métodos
d l vecino
i
más
á lejano:
l j
-
Igual que el método anterior pero utiliza las observaciones
más
á lejanas
l j
d cada
de
d grupo para calcular
l l las
l distancias.
di t
i
45
40
35
30
25
20
15
10
5
0
100
250
400
550
análisis jerárquico
Mét d del
Métodos
d l vecino
i
más
á lejano:
l j
-
Igual que el método anterior pero utiliza las observaciones
más
á lejanas
l j
d cada
de
d grupo para calcular
l l las
l distancias.
di t
i
45
40
35
30
25
20
15
10
5
0
100
250
400
550
análisis jerárquico
Mét d del
Métodos
d l vecino
i
más
á lejano:
l j
-
Igual que el método anterior pero utiliza las observaciones
más
á lejanas
l j
d cada
de
d grupo para calcular
l l las
l distancias.
di t
i
45
40
35
30
25
20
15
10
5
0
100
250
400
550
análisis jerárquico
Mét d del
Métodos
d l vecino
i
más
á lejano:
l j
-
Igual que el método anterior pero utiliza las observaciones
más
á lejanas
l j
d cada
de
d grupo para calcular
l l las
l distancias.
di t
i
45
40
35
30
25
20
15
10
5
0
100
250
400
550
análisis jerárquico
Mét d del
Métodos
d l vecino
i
más
á lejano:
l j
-
Igual que el método anterior pero utiliza las observaciones
más
á lejanas
l j
d cada
de
d grupo para calcular
l l las
l distancias.
di t
i
45
40
35
30
25
20
15
10
5
0
100
250
400
550
análisis jerárquico
Mét d del
Métodos
d l vecino
i
más
á lejano:
l j
-
Igual que el método anterior pero utiliza las observaciones
más
á lejanas
l j
d cada
de
d grupo para calcular
l l las
l distancias.
di t
i
45
40
35
30
25
20
15
10
5
0
100
250
400
550
análisis jerárquico
Mét d del
Métodos
d l vecino
i
más
á lejano:
l j
-
Igual que el método anterior pero utiliza las observaciones
más
á lejanas
l j
d cada
de
d grupo para calcular
l l las
l distancias.
di t
i
45
40
35
30
25
20
15
10
5
0
100
250
400
550
análisis jerárquico
Mét d del
Métodos
d l vecino
i
más
á lejano:
l j
-
Igual que el método anterior pero utiliza las observaciones
más
á lejanas
l j
d cada
de
d grupo para calcular
l l las
l distancias.
di t
i
45
40
35
30
25
20
15
10
5
0
100
250
400
550
análisis jerárquico
Mét d del
Métodos
d l vecino
i
más
á lejano:
l j
-
Igual que el método anterior pero utiliza las observaciones
más
á lejanas
l j
d cada
de
d grupo para calcular
l l las
l distancias.
di t
i
45
40
35
30
25
20
15
10
5
0
100
250
400
550
análisis jerárquico
Mét d del
Métodos
d l vecino
i
más
á lejano:
l j
-
Igual que el método anterior pero utiliza las observaciones
más
á lejanas
l j
d cada
de
d grupo para calcular
l l las
l distancias.
di t
i
45
40
35
30
25
20
15
10
5
0
100
250
400
550
análisis jerárquico
Mét d de
Métodos
d la
l vinculación
i
l ió promedio:
di
-
La distancia entre los grupos se obtiene calculando la
di t
distancia
i
promedio
di
entre
t
t d
todos
l
los
pares de
d
observaciones que pueden formarse entre los dos
grupos
g
p fusionar.
45
40
35
30
25
20
15
10
5
0
100
250
400
550
análisis jerárquico
Mét d de
Métodos
d la
l vinculación
i
l ió promedio:
di
-
La distancia entre los grupos se obtiene calculando la
di t
distancia
i
promedio
di
entre
t
t d
todos
l
los
pares de
d
observaciones que pueden formarse entre los dos
grupos
g
p fusionar.
45
40
35
30
25
20
15
10
5
0
100
250
400
550
análisis jerárquico
Mét d de
Métodos
d la
l vinculación
i
l ió promedio:
di
45
40
35
30
25
20
15
10
5
0
100
250
400
550
análisis jerárquico
Mét d de
Métodos
d Ward:
W d
-
El método de Ward es el más utilizado (maximiza la
h
homogeneidad
id d dentro
d t de
d los
l grupos).
)
-
Para ello, plantea todas las posibles fusiones en cada
etapa concreta y elige la que maximiza la homogeneidad:
-
Calcula los centroides de los grupos resultantes de
las posibles fusiones
-
A continuación calcula la distancia al centroide de
todas las observaciones del grupo (suma de
cuadrados total)
-
La solución con menor suma de cuadrados total es la
elegida
Ejemplo método de Ward (distancia
Cabra
1
2
3
4
5
6
7
8
análisis jerárquico
D2):
Producción leche Rendimiento quesero
225
10
225
15
210
30
200
35
325
20
375
25
450
40
500
35
45
8
40
35
30
25
4
7
3
5
20
15
1
10
2
6
5
0
100
250
400
550
Ejemplo método de Ward (distancia
Cabra
1
2
3
4
5
6
7
8
Posibles fusiones:
((1,2,3,4)
, , , ) y ((5,6)
, )
análisis jerárquico
D2):
Producción leche Rendimiento quesero
225
10
225
15
210
30
200
35
325
20
375
25
450
40
500
35
45
8
40
35
30
25
4
7
3
5
20
15
1
10
2
6
5
0
100
250
400
550
Ejemplo método de Ward (distancia
Cabra
1
2
3
4
5
6
7
8
Posibles fusiones:
(5,6) y (7,8)
análisis jerárquico
D2):
Producción leche Rendimiento quesero
225
10
225
15
210
30
200
35
325
20
375
25
450
40
500
35
45
8
40
35
30
25
4
7
3
5
20
15
1
10
2
6
5
0
100
250
400
550
Ejemplo método de Ward (distancia
Cabra
1
2
3
4
5
6
7
8
Posibles fusiones:
(1 2 3 4) y (7,8)
(1,2,3,4)
(7 8)
análisis jerárquico
D2):
Producción leche Rendimiento quesero
225
10
225
15
210
30
200
35
325
20
375
25
450
40
500
35
45
8
40
35
30
25
4
7
3
5
20
15
1
10
2
6
5
0
100
250
400
550
Ejemplo método de Ward (distancia
Cabra
1
2
3
4
5
6
7
8
Posibles fusiones:
((1,2,3,4)
, , , ) y ((5,6)
, )
(5,6) y (7,8)
(1 2 3 4) y (7,8)
(1,2,3,4)
(7 8)
análisis jerárquico
D2):
Producción leche Rendimiento quesero
225
10
225
15
210
30
200
35
325
20
375
25
450
40
500
35
45
8
40
35
30
25
4
7
3
5
20
15
1
10
2
6
5
0
100
250
400
550
Ejemplo método de Ward (distancia
Grupos
(1,2,3,4) (5,6)
(5 6) (7
(5,6)
(7,8)
8)
(1,2,3,4) (7,8)
análisis jerárquico
D2):
Producción leche Rendimiento quesero
260,0
22,5
412 5
412,5
30 0
30,0
301,7
27,5
45
40
35
30
25
20
15
10
5
0
100
200
300
400
500
600
Ejemplo método de Ward (distancia
Grupos
(1,2,3,4) (5,6)
(5 6) (7
(5,6)
(7,8)
8)
(1,2,3,4) (7,8)
análisis jerárquico
D2):
Producción leche Rendimiento quesero
260,0
22,5
412 5
412,5
30 0
30,0
301,7
27,5
45
40
35
30
25
20
15
10
5
0
100
200
300
400
500
600
Ejemplo método de Ward (distancia
Grupos
(1,2,3,4) (5,6)
(5 6) (7
(5,6)
(7,8)
8)
(1,2,3,4) (7,8)
análisis jerárquico
D2):
Producción leche Rendimiento quesero
260,0
22,5
412 5
412,5
30 0
30,0
301,7
27,5
45
40
35
30
25
20
15
10
5
0
100
200
300
400
500
600
Ejemplo método de Ward (distancia
Grupos
(1,2,3,4) (5,6)
(5 6) (7
(5,6)
(7,8)
8)
(1,2,3,4) (7,8)
análisis jerárquico
D2):
Producción leche Rendimiento quesero
260,0
22,5
412 5
412,5
30 0
30,0
301,7
27,5
45
40
35
30
25
20
15
10
5
0
100
200
300
400
500
600
Ejemplo método de Ward (distancia
Grupos
(1,2,3,4) (5,6)
(5 6) (7
(5,6)
(7,8)
8)
(1,2,3,4) (7,8)
análisis jerárquico
D2):
Producción leche Rendimiento quesero
260,0
22,5
412 5
412,5
30 0
30,0
301,7
27,5
45
40
35
30
25
20
15
10
5
0
100
200
300
400
500
600
Ejemplo método de Ward (distancia
Grupos
(1,2,3,4) (5,6)
(5 6) (7
(5,6)
(7,8)
8)
(1,2,3,4) (7,8)
análisis jerárquico
D2):
Producción leche Rendimiento quesero
260,0
22,5
412 5
412,5
30 0
30,0
301,7
27,5
45
40
35
30
25
20
15
10
5
0
100
200
300
400
500
600
Ejemplo método de Ward (distancia
Grupos
G
(1,2,3,4) (5,6)
(5,6) (7,8)
(1,2,3,4) (7,8)
D1,2,3,4,5,6
1 2 3 4 5 6 = 26437
-
D1,2,3,4,7,8 = 111625
-
D5,6,7,8 = 103137
análisis jerárquico
Producción
P
d
ió leche
l h Rendimiento
R di i t quesero
260,0
22,5
412,5
30,0
301,7
27,5
Cabra
1
2
3
4
5
6
7
8
-
D2):
Producción leche Rendimiento quesero
225
10
225
15
210
30
200
35
325
20
375
25
450
40
500
35
Ejemplo método de Ward (distancia
Grupos
G
(1,2,3,4) (5,6)
(5,6) (7,8)
(1,2,3,4) (7,8)
D1,2,3,4,5,6
, , , , , = 26437
-
D1,2,3,4,7,8 = 111625
-
D5,6,7,8
5 6 7 8 = 103137
análisis jerárquico
Producción
P
d
ió leche
l h Rendimiento
R di i t quesero
260,0
22,5
412,5
30,0
301,7
27,5
Cabra
1
2
3
4
5
6
7
8
-
D2):
Producción leche Rendimiento quesero
225
10
225
15
210
30
200
35
325
20
375
25
450
40
500
35
análisis jerárquico
El
Elección
ió del
d l método
ét d de
d agrupación
ió jerárquica:
j á
i
-
Sigue planteando interrogantes a resolver
-
Probar varios métodos y comparar los resultados
-
p
Método del vecino más cercano: Tiende a crear pocos
grupos, aunque es muy sensible a outliers
-
Método del
homogéneos
-
Método de Ward: Tiende a grupos muy compactos de
tamaño similar
vecino
más
j
lejano:
Grupos
p
muyy
análisis jerárquico
S l
Selección
ió del
d l número
ú
d conglomerados:
de
l
d
-
Problema que aún plantea dudas.
-
Dos criterios:
-
grupos
p
a unir
Debe detenerse la fusión cuando los g
están a una distancia significativamente mayor de los
que previamente se han fusionado.
-
El investigador debe interpretar adecuadamente cada
grupo de la solución final.
análisis jerárquico
S l
Selección
ió del
d l número
ú
d conglomerados:
de
l
d
-
Distancia de los conglomerados (DC)
-
Tasa de variación del coeficiente de conglomeración
-
( )
Raíz cuadrada de la media de las D.T. del nuevo cluster (RC)
-
R2 semiparcial (R2S)
-
R cuadrado (R2)
análisis jerárquico
Di t
Distancia
i de
d los
l conglomerados
l
d (DC):
(DC)
-
Indica la homogeneidad dentro del nuevo conglomerado.
-
Responde a la distancia utilizada.
-
p q
El valor debe ser pequeño.
Num Cluster
Num.
7
6
5
4
3
2
1
DC
3,6
5,38
5 65
5,65
7,07
11,88
13,5
35,03
análisis jerárquico
T
Tasa
d variación
de
i ió del
d l coeficiente
fi i t de
d conglomeración:
l
ió
El coeficiente de conglomeración refleja la distancia a la que
estaban los grupos fusionados en la etapa
Agglomeration Distance Plot
Ward's Method,Squared Euclidean
100
80
Distaance
-
60
40
20
0
0
2
4
6
Stage
8
10
12
análisis jerárquico
T
Tasa
d variación
de
i ió del
d l coeficiente
fi i t de
d conglomeración:
l
ió
El coeficiente de conglomeración refleja la distancia a la que
estaban los grupos fusionados en la etapa
Agglomeration Distance Plot
Ward's Method,Squared Euclidean
100
80
Distaance
-
60
40
20
0
0
2
4
6
Stage
8
10
12
análisis jerárquico
T
Tasa
d variación
de
i ió del
d l coeficiente
fi i t de
d conglomeración:
l
ió
El coeficiente de conglomeración refleja la distancia a la que
estaban los grupos fusionados en la etapa
Dendrogram
g
Ward's Method,Squared Euclidean
100
80
60
40
20
122
111
9
8
4
100
6
5
3
2
7
0
1
Distan
nce
-
análisis jerárquico
T
Tasa
d variación
de
i ió del
d l coeficiente
fi i t de
d conglomeración:
l
ió
El coeficiente de conglomeración refleja la distancia a la que
estaban los grupos fusionados en la etapa
Dendrogram
g
Ward's Method,Squared Euclidean
100
80
60
40
20
122
111
9
8
4
100
6
5
3
2
7
0
1
Distan
nce
-
análisis jerárquico
T
Tasa
d variación
de
i ió del
d l coeficiente
fi i t de
d conglomeración:
l
ió
El coeficiente de conglomeración refleja la distancia a la que
estaban los grupos fusionados en la etapa
Dendrogram
g
Ward's Method,Squared Euclidean
100
80
60
40
20
122
111
9
8
4
100
6
5
3
2
7
0
1
Distan
nce
-
análisis jerárquico
T
Tasa
d variación
de
i ió del
d l coeficiente
fi i t de
d conglomeración:
l
ió
El coeficiente de conglomeración refleja la distancia a la que
estaban los grupos fusionados en la etapa
Dendrogram
g
Ward's Method,Squared Euclidean
100
80
60
40
20
122
111
9
8
4
100
6
5
3
2
7
0
1
Distan
nce
-
análisis jerárquico
T
Tasa
d variación
de
i ió del
d l coeficiente
fi i t de
d conglomeración:
l
ió
El coeficiente de conglomeración refleja la distancia a la que
estaban los grupos fusionados en la etapa
Dendrogram
g
Ward's Method,Squared Euclidean
100
80
60
40
20
122
111
9
8
4
100
6
5
3
2
7
0
1
Distan
nce
-
análisis jerárquico
T
Tasa
d variación
de
i ió del
d l coeficiente
fi i t de
d conglomeración:
l
ió
El coeficiente de conglomeración refleja la distancia a la que
estaban los grupos fusionados en la etapa
Dendrogram
g
Ward's Method,Squared Euclidean
100
80
60
40
20
122
111
9
8
4
100
6
5
3
2
7
0
1
Distan
nce
-
análisis jerárquico
T
Tasa
d variación
de
i ió del
d l coeficiente
fi i t de
d conglomeración:
l
ió
El coeficiente de conglomeración refleja la distancia a la que
estaban los grupos fusionados en la etapa
Dendrogram
g
Ward's Method,Squared Euclidean
100
80
60
40
20
122
111
9
8
4
100
6
5
3
2
7
0
1
Distan
nce
-
análisis jerárquico
T
Tasa
d variación
de
i ió del
d l coeficiente
fi i t de
d conglomeración:
l
ió
El coeficiente de conglomeración refleja la distancia a la que
estaban los grupos fusionados en la etapa
Dendrogram
g
Ward's Method,Squared Euclidean
100
80
60
40
20
122
111
9
8
4
100
6
5
3
2
7
0
1
Distan
nce
-
análisis jerárquico
T
Tasa
d variación
de
i ió del
d l coeficiente
fi i t de
d conglomeración:
l
ió
El coeficiente de conglomeración refleja la distancia a la que
estaban los grupos fusionados en la etapa
Dendrogram
g
Ward's Method,Squared Euclidean
100
80
60
40
20
122
111
9
8
4
100
6
5
3
2
7
0
1
Distan
nce
-
análisis jerárquico
T
Tasa
d variación
de
i ió del
d l coeficiente
fi i t de
d conglomeración:
l
ió
El coeficiente de conglomeración refleja la distancia a la que
estaban los grupos fusionados en la etapa
Dendrogram
g
Ward's Method,Squared Euclidean
100
80
60
40
20
122
111
9
8
4
100
6
5
3
2
7
0
1
Distan
nce
-
análisis jerárquico
T
Tasa
d variación
de
i ió del
d l coeficiente
fi i t de
d conglomeración:
l
ió
El coeficiente de conglomeración refleja la distancia a la que
estaban los grupos fusionados en la etapa
Dendrogram
g
Ward's Method,Squared Euclidean
100
80
60
40
20
122
111
9
8
4
100
6
5
3
2
7
0
1
Distan
nce
-
análisis jerárquico
T
Tasa
d variación
de
i ió del
d l coeficiente
fi i t de
d conglomeración:
l
ió
-
El coeficiente de conglomeración refleja la distancia a la que
estaban los grupos fusionados en la etapa
Agglomeration Schedule
---------------------Clustering Method: Ward's
Distance Metric: Squared Euclidean
Clusters Combined
Stage
g First Appears
pp
Next
Stage
Cluster 1 Cluster 2
Coefficient
Cluster 1 Cluster 2
Stage
-------------------------------------------------------------------------1
2
3
0,91948
0
0
4
2
5
6
2,27928
0
0
4
3
9
11
3
3,92254
92254
0
0
7
4
2
5
6,44183
1
2
6
5
1
7
9,0135
0
0
8
6
2
10
13,4301
4
0
8
7
8
9
19,2448
0
3
9
8
1
2
25,2716
5
6
10
9
4
8
40,384
0
7
10
10
1
4
60,5273
8
9
11
11
1
12
88,0
10
0
0
--------------------------------------------------------------------------
análisis jerárquico
T
Tasa
d variación
de
i ió del
d l coeficiente
fi i t de
d conglomeración:
l
ió
-
El coeficiente de conglomeración refleja la distancia a la que
estaban los grupos fusionados en la etapa
Agglomeration Schedule
---------------------Clustering Method: Ward's
Distance Metric: Squared Euclidean
Clusters Combined
Stage
g First Appears
pp
Next
Stage
Cluster 1 Cluster 2
Coefficient
Cluster 1 Cluster 2
Stage
-------------------------------------------------------------------------1
2
3
0,91948
0
0
4
2
5
6
2,27928
0
0
4
3
9
11
3
3,92254
92254
0
0
7
4
2
5
6,44183
1
2
6
5
1
7
9,0135
0
0
8
6
2
10
13,4301
4
0
8
7
8
9
19,2448
0
3
9
8
1
2
25,2716
5
6
10
9
4
8
40,384
0
7
10
10
1
4
60,5273
8
9
11
11
1
12
88,0
10
0
0
--------------------------------------------------------------------------
análisis jerárquico
R í cuadrada
Raíz
d d de
d la
l media
di de
d las
l D.T.
D T del
d l nuevo cluster
l t (RC):
(RC)
-
Indica la homogeneidad del nuevo conglomerado.
-
La suma de todas las desviaciones típicas de todas las
observaciones del nuevo conglomerado respecto al centroide.
-
El valor debe ser pequeño.
Num Cluster
Num.
7
6
5
4
3
2
1
DC
3,6
5,38
5 65
5,65
7,07
11,88
13,5
35,03
RC
1,8
2,69
2 82
2,82
3,53
5,22
6,07
14,24
análisis jerárquico
R2 semiparcial
i
i l (R2S):
(R2S)
-
Indica la pérdida de homogeneidad que se produce en la
f ió
fusión.
-
Su cálculo se basa en el ratio entre la pérdida de
homogeneidad en cada fusión (suma de cuadrados tras la
fusión menos la suma de cuadrados de los grupos que se
unen)) y la homogeneidad
g
máxima ((cada observación es un
grupo).
-
El valor debe ser pequeño.
Num. Cluster
7
6
5
4
3
2
1
DC
3,6
5,38
5,65
7,07
11,88
13,5
35,03
RC
1,8
2,69
2,82
3,53
5,22
6,07
14,24
R2S
0
0
0
0
0,04
0,06
0,86
análisis jerárquico
R2 :
-
Indica la heterogeneidad entre conglomerados en cada
f ió
fusión.
-
Ratio entre la heterogeneidad entre conglomerados y la total.
-
El valor debe ser alto.
Num. Cluster
7
6
5
4
3
2
1
DC
3,6
5,38
5,65
7,07
11,88
13,5
35,03
RC
1,8
2,69
2,82
3,53
5,22
6,07
14,24
R2S
0
0
0
0
0,04
0,06
0,86
R2
0,99
0,99
0,98
0,97
0,92
0,86
0
análisis jerárquico
DC
DC:
h
homogeneidad
id d clusters
l t
f i
fusionados
d
P
Pequeño
ñ
T. Var. CC:
pérdida homogeneidad en la fusión
Pequeño
RC:
homogeneidad del nuevo cluster
Pequeño
R2S:
pérdida homogeneidad en la fusión
Pequeño
R2:
heterogeneidad entre clusters
Grande
Num. Cluster
7
6
5
4
3
2
1
DC
3,6
5,38
5,65
7,07
11,88
13,5
35,03
RC
1,8
2,69
2,82
3,53
5,22
6,07
14,24
R2S
0
0
0
0
0,04
0,06
0,86
R2
0,99
0,99
0,98
0,97
0,92
0,86
0
análisis jerárquico
DC
DC:
h
homogeneidad
id d clusters
l t
f i
fusionados
d
P
Pequeño
ñ
T. Var. CC:
pérdida homogeneidad en la fusión
Pequeño
RC:
homogeneidad del nuevo cluster
Pequeño
R2S:
pérdida homogeneidad en la fusión
Pequeño
R2:
heterogeneidad entre clusters
Grande
Num. Cluster
7
6
5
4
3
2
1
DC
3,6
5,38
,
5,65
7,07
11,88
,
13,5
35,03
RC
1,8
2,69
2,82
,
3,53
5,22
6,07
,
14,24
R2S
0
0
0
0
0,04
0,06
,
0,86
R2
0,99
0,99
0,98
,
0,97
0,92
0,86
,
0
análisis jerárquico
40
35
DC
30
RC
25
20
15
10
5
0
0
1
2
3
4
5
6
7
8
1
0,9
0,8
0,7
0,6
R2S
R2
0,5
0,4
,
0,3
0,2
0,1
0
0
1
2
3
4
5
6
7
8
análisis jerárquico
A li
Analizar
e interpretar
i t
t los
l resultados:
lt d
-
ANOVA entre clusters con las variables utilizadas en el
análisis.
áli i
-
ANOVA con las demás variables.
-
Tabla de contingencia
categóricas.
-
Interpretar los resultados con las agrupaciones sucesivas.
entre
clusters
para
variables
análisis no jerárquico
A áli i no jerárquico:
Análisis
j á
i
-
Se conoce a priori el número de k grupos
-
Cada observación es asignada a un grupo
-
g
dentro de los g
grupos
p
Maximiza la homogeneidad
-
Maximiza la heterogeneidad entre grupos
-
Etapas:
1. Determinar los centroides iniciales de los k grupos
2. Formación de los grupos
3. Recalcular los centroides y formar grupos hasta la
estabilidad
análisis no jerárquico
1 Determinar
1.
D t
i
l centroides
los
t id iniciales
i i i l de
d los
l k grupos:
-
Se utilizan las k primeras observaciones del fichero como
centroides
t id de
d partida.
tid
-
Se calculan las distancias entre las k observaciones y se
retiene la correspondiente a las 2 observaciones más
cercanas (O1-O2).
análisis no jerárquico
1 Determinar
1.
D t
i
l centroides
los
t id iniciales
i i i l de
d los
l k grupos:
-
A continuación se determina si alguna de las 2 observaciones
puede
d ser sustituida
tit id en ell centroide
t id por la
l observación
b
ió Ok+1.
Ok+1
-
Si la distancia de Ok+1 a la observación más cercana
perteneciente a las k observaciones centroides es mayor
que la distancia entre las dos observaciones más
cercanas, Ok+1 sustituye
y a O1 o a O2 ((la más cercana).
)
-
Si la distancia de Ok+1 a cualquiera de las k
observaciones centroides (exceptuando la más cercana)
es más grande que la menor distancia de la más cercana
a todas las que integran el centroide, Ok+1 sustituye a Ok
análisis no jerárquico
-
A continuación
ti
ió se determina
d t
i sii alguna
l
d las
de
l 2 observaciones
b
i
puede
d
ser sustituida en el centroide por la observación Ok+1.
-
O1
Si la distancia de Ok+1 a la observación más cercana
perteneciente a las k observaciones centroides es mayor que la
distancia entre las dos observaciones más cercanas, Ok+1
sustituye a O1 o a O2 (la más cercana).
cercana)
O2
Ok
Ok+1
análisis no jerárquico
-
A continuación
ti
ió se determina
d t
i sii alguna
l
d las
de
l 2 observaciones
b
i
puede
d
ser sustituida en el centroide por la observación Ok+1.
-
Si la distancia de Ok+1 a la observación más cercana
perteneciente a las k observaciones centroides es mayor que la
distancia entre las dos observaciones más cercanas, Ok+1
sustituye a O1 o a O2 (la más cercana).
cercana)
O1
Ok
Ok+1
análisis no jerárquico
-
A continuación
ti
ió se determina
d t
i sii alguna
l
d las
de
l 2 observaciones
b
i
puede
d
ser sustituida por en el centroide por la observación Ok+1.
-
O1
Si la distancia de Ok+1 a cualquiera de las k observaciones
centroides (exceptuando la más cercana) es más grande que la
menor distancia de la más cercana a todas las que integran el
centroide Ok+1 sustituye a Ok
centroide,
O2
Ok
Ok+1
análisis no jerárquico
-
A continuación
ti
ió se determina
d t
i sii alguna
l
d las
de
l 2 observaciones
b
i
puede
d
ser sustituida por en el centroide por la observación Ok+1.
-
O1
Si la distancia de Ok+1 a cualquiera de las k observaciones
centroides (exceptuando la más cercana) es más grande que la
menor distancia de la más cercana a todas las que integran el
centroide Ok+1 sustituye a Ok
centroide,
O2
Ok+1
-
El proceso se repite hasta que los k centroides se estabilizan.
estabilizan
análisis no jerárquico
2 Formación
2.
F
ió de
d los
l nuevos grupos:
-
Se calcula distancia de cada observación a los k centroides y
se asigna
i
all más
á cercano.
-
Se recalculan los centroides (etapa 1) y se vuelven a asignar
las observaciones.
observaciones
-
El proceso finaliza cuando las observaciones no cambian
de grupo o cuando se alcanza un determinado número de
iteraciones (marcadas por el investigador)
elección
El
Elección
ió entre
t conglomerado
l
d jerárquico
j á
i o no jerárquico:
j á
i
-
Sigue planteando dudas.
-
Depende de los objetivos del estudio y de las propiedades de
los distintos métodos.
-
Lo ideal sería un enfoque
q jjerárquico
q
inicial y complementario
p
a un enfoque no jerárquico final:
-
El análisis jerárquico inicial determinaría cuál es el
número de grupos y los centroides iniciales del
posterior análisis no jerárquico.
-
El posterior análisis no jerárquico maximiza la
homogeneidad dentro de grupos y la heterogeneidad
entre grupos.
grupos
Descargar