6.3

Anuncio
Cluster / C3 Indices de Agregación.
9
1 Índice de Agregación de salto mínimo (Single linkage):
Dadas A y B, dos clases disjuntas de E y
una disimilaridad d entre elementos de E,
se denomina Índice de Agregación de salto mínimo para las
clases A y B al valor (A,B) dado por:
(A,B) = inf {d(x,y) : xA, yB }
(A,B)
x
A
x
x
x
x
x
B
(A,B) es la menor disimilaridad entre un punto de A y otro de B.
Dos clases serán próximas si algún punto de una clase está
próximo a alguno de la otra clase.
Veamos dos efectos no deseados que pueden aparecer en una
clasificación ascendente jerárquica construida con el criterio del salto
mínimo: Cadena y Bola de nieve.
- i) Efecto no deseado “Bola de nieve”:
Cuanto más grande es una clase A, mejor llega a todas las
zonas del espacio E y más fácil es que (A,B) resulte pequeña.
x
x
x
x
x
x
x
x
x
A
x
x
x
x
x
x
x
x
x
x
x
Como consecuencia de ello, las clases grandes son muy
voraces y es fácil que se produzcan fuertes diferencias de
tamaño entre unas clases y otras,
tanto en sentido de dispersión como de nº de elementos.
Cluster / C3 Indices de Agregación.
10
- ii) Efecto no deseado “Cadena”:
La clase A puede ir incorporando puntos a base de muchos
saltos pequeños encadenados y puedo finalmente alcanzar zonas
de E muy alejadas en lugar de incorporar puntos más
naturalmente próximos.
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
xx
x
x
x
x
x
x
x
x
x
x
x
x
x x
x
x
x
x
x
x
x
x
x
A
B
C
D
Pueden aparecer particiones con clases poco razonables
(como A y B en la figura) en lugar de aparecer otras más
naturales (como C y D)
2 Criterio del diámetro (Complete linkage):
Dadas A y B dos clases disjuntas de E y
una disimilaridad d en E,
se denomina Índice de agregación del diámetro de las clases A y
B al valor  (A,B) dado por:
(A,B) = sup {d(x,y) : xA, yB }
(A,B)
x
A
x
x
x
x
x
x
B
(A,B) es la mayor disimilaridad entre un punto de A y otro de B.
Para que dos clases estén próximas en preciso que todos los
puntos de una clase estén próximos a todos los de la otra.
Cluster / C3 Indices de Agregación.
11
Efectos no deseados que pueden aparecer en una clasificación
ascendente jerárquica con el criterio del diámetro:
- i) Produce el efecto contrario al criterio del salto mínimo:
Resulta muy difícil que aparezcan clases dispersas.
- ii) No distingue “concentraciones de elementos dispersos” en
zonas de baja densidad.
En este ejemplo, la clase B tiene diámetro ligeramente mayor que A.
El criterio del diámetro separa B en dos clases unipuntuales antes que
dividir A (no identifica la “concentración dispersa” B)
3 Criterio del promedio (Average linkage):
Dadas A y B dos clases disjuntas de E con nA y nB elementos y
una disimilaridad d en E,
se denomina Índice de agregación del promedio para las clases
A y B al valor (A,B) dado por:
(A,B) =
1
 d(x,y)
n A n B xA
yB

(A,B) es el promedio de las nAnB disimilaridades
entre un punto de A y otro de B
Es una posición intermedia entre el salto mínimo y el diámetro.
En la práctica se observa una tendencia parecida a la del diámetro,
aunque amortiguada.
Cluster / C3 Indices de Agregación.
12
4 Método del centroide (centro de gravedad):
Dadas A y B dos clases disjuntas de E y
una disimilaridad d en E,
se denomina Índice de agregación del centroide para las clases A
y B al valor (A,B) dado por:
(A,B) = d(gA, gB), donde
1
x es el c. de g. de la clase A;

n A xA
x formado por valores que se puedan promediar.
nA es el número de elementos en la clase A.
gA=
El centroide de la nueva clase (A+B) se computa muy fácilmente
a partir de los centroides anteriores (gA y gB ) y de los tamaños de las
clases (nA y nB) :
gA+B =
n g +n g
nA
nB
1
x A A B B 
gA 
gB

n A +n B xAB
n A +n B
n A +n B
n A +n B
Es una combinación lineal convexa de gA y gB
con pesos proporcionales al tamaño de las clases.
Las clases pequeñas que son absorbidas pierden su identidad.
5 Método de la mediana :
Es una variante del método del centroide.
Aquí el nuevo centroide se computa como el simple promedio
entre gA y gB sin tener en cuenta los tamaños de las clases:
g A +g B
2
De esta forma se evita que una pequeña clase, B, pierda su identidad
y su influencia al juntarse con una clase A de contingente mucho
mayor.
gA+B =
Descargar