Subido por mairaalejandratiquebossio

clustering-jerarquico

Anuncio
Clustering jerárquico
Christopher Expósito Izquierdo
Airam Expósito Márquez
Israel López Plata
Belén Melián Batista
J. Marcos Moreno Vega
{cexposit, aexposim, ilopezpl, mbmelian, jmmoreno}@ull.edu.es
Departamento de Ingenierı́a Informática y de Sistemas
Universidad de La Laguna
Índice
1. CLUSTERING JERÁRQUICO
Procedimientos aglomerativos y divisivos
Medidas de proximidad
Método de Ward
2. BIBLIOGRAFÍA
1
CLUSTERING JERÁRQUICO
Clustering jerárquico
Observaciones
• Una de las mayores dificultades al agrupar elementos es encontrar el
número apropiado de clusters.
• Los métodos jerárquicos construyen una estructura en la que los elementos se agrupan en subconjuntos cada vez mayores hasta que todos
pertenecen al mismo conjunto.
• De esta forma, no se muestra un agrupamiento sino las relaciones de
proximidad que existen entre los elementos.
2
Clustering jerárquico
Procedimientos básicos
• Aglomerativos. Inicialmente se forman clusters individuales, cada
uno de los cuales contiene a un único elemento. En cada iteración se
unen los dos clusters más próximos. El procedimiento finaliza cuando
solo haya un cluster.
• Divisivos. Se parte de un único cluster al que pertenecen todos los
elementos. En cada iteración se escoge un cluster y se divide.
Debe decidirse qué cluster se selecciona para dividir y cómo se divide.
El procedimiento finaliza cuando hayan tanto clusters como elementos.
3
Clustering jerárquico
Dendrograma (i)
• El clustering jerárquico suele representarse a través de un dendograma,
que muestra en qué orden se han unido los cluster y cuál es el grado de
proximidad que tienen los clusters que se unen.
• Los nodos hojas del dendograma se corresponden con los elementos
individuales.
• En el nodo raı́z se representa el cluster al que pertenecen todos los
elementos.
• El resto de nodos se corresponde con los clusters que se van formando.
4
Clustering jerárquico
Dendrograma (ii)
a
b
c
d
e
f
g
h
5
Clustering jerárquico
Dendrograma. Cómo se construye
4,70
Nivel 1
4,30
Nivel 2
Nivel 3
4,00
3,50
Nivel 4
2,25
Nivel 5
1,50
Nivel 6
1,00
Nivel 7
a
b
c
d
e
f
g
h
6
Clustering jerárquico
Dendrograma. Cómo se genera un agrupamiento (i)
• El dendrograma puede usarse para generar diferentes agrupamientos.
• Para ello, se selecciona un nivel y se poda el dendrograma descartando
los hijos de los nodos con nivel igual o superior al nivel seleccionado. Los
nodos hojas del árbol resultante dan el agrupamiento buscado.
• Dependiendo del nivel seleccionado se obtienen agrupamientos con
clusters más o menos compactos.
7
Clustering jerárquico
Dendrograma. Cómo se genera un agrupamiento (ii)
• Nivel seleccionado = 6
Nivel 1
Nivel 2
Nivel 3
Nivel 4
Nivel 5
Nivel 6
Nivel 7
(e, f)
(a, b)
c
d
g
h
8
Clustering jerárquico
Dendrograma. Cómo se genera un agrupamiento (iii)
• Nivel seleccionado = 4
Nivel 1
Nivel 2
Nivel 3
Nivel 4
Nivel 5
(d, e, f)
(a, b, c)
Nivel 6
Nivel 7
g
h
9
Clustering jerárquico
Algorithm 1: Algoritmo aglomerativo básico
Matriz de proximidad
Obtener la proximidad entre cada par de elementos;
repeat
Unir los dos clusters más próximos;
Actualizar la matriz de proximidad;
until Solo hay un cluster ;
10
Clustering jerárquico
Medidas de proximidad entre clusters (i)
• Enlace simple (single link). La proximidad entre dos clusters se
define como la proximidad entre los dos elementos más próximos que
pertenecen a clusters diferentes.
• Enlace completo (complete link). La proximidad entre dos clusters
se define como la proximidad entre los dos elementos menos próximos
que pertenecen a clusters diferentes.
• Promedio del grupo (group average). La proximidad entre dos
clusters se define como la proximidad promedio entre todos los pares de
elementos que pertenecen a clusters diferentes.
11
Clustering jerárquico
Medidas de proximidad entre clusters (ii)
• Proximidad basada en centroides. La proximidad entre dos clusters
se define como la proximidad entre los centroides de cada cluster.
• Tras unir dos clusters debe obtenerse el centroide del nuevo cluster.
Algunas alternativas para ello son:
• Obtener el centroide como el punto central del nuevo cluster.
• Obtener el centroide como la suma ponderada de los centroides de
los clusters que se unen usando la siguiente expresión:
N 1 · x1 + N 2 · y1 N 1 · x2 + N 2 · y2
N 1 · xn + N 2 · yn
c=
,
,...,
N1 + N2
N1 + N2
N1 + N2
con (xi , x2 , . . . , xn ) e (y1 , y2 , . . . , yn ) los centroides de los cluster y N1
e N2 el número de elementos en cada uno de ellos.
12
Clustering jerárquico
Método de Ward
• Método de Ward. La medida de proximidad usada es la suma de
errores al cuadrado.
De esta manera, en cada etapa se unen los dos clusters que dan lugar
al cluster con menor suma de errores al cuadrado.
13
BIBLIOGRAFÍA
Bibliografı́a
Tan, P.-N., Steinbach, M., and Kumar, V.
Introduction to Data Mining.
Addison-Wesley, 2006.
14
Licencia
Esta obra está bajo una licencia de Creative Commons.
Reconocimiento - No comercial - Compartir igual
15
Descargar