Clustering jerárquico Christopher Expósito Izquierdo Airam Expósito Márquez Israel López Plata Belén Melián Batista J. Marcos Moreno Vega {cexposit, aexposim, ilopezpl, mbmelian, jmmoreno}@ull.edu.es Departamento de Ingenierı́a Informática y de Sistemas Universidad de La Laguna Índice 1. CLUSTERING JERÁRQUICO Procedimientos aglomerativos y divisivos Medidas de proximidad Método de Ward 2. BIBLIOGRAFÍA 1 CLUSTERING JERÁRQUICO Clustering jerárquico Observaciones • Una de las mayores dificultades al agrupar elementos es encontrar el número apropiado de clusters. • Los métodos jerárquicos construyen una estructura en la que los elementos se agrupan en subconjuntos cada vez mayores hasta que todos pertenecen al mismo conjunto. • De esta forma, no se muestra un agrupamiento sino las relaciones de proximidad que existen entre los elementos. 2 Clustering jerárquico Procedimientos básicos • Aglomerativos. Inicialmente se forman clusters individuales, cada uno de los cuales contiene a un único elemento. En cada iteración se unen los dos clusters más próximos. El procedimiento finaliza cuando solo haya un cluster. • Divisivos. Se parte de un único cluster al que pertenecen todos los elementos. En cada iteración se escoge un cluster y se divide. Debe decidirse qué cluster se selecciona para dividir y cómo se divide. El procedimiento finaliza cuando hayan tanto clusters como elementos. 3 Clustering jerárquico Dendrograma (i) • El clustering jerárquico suele representarse a través de un dendograma, que muestra en qué orden se han unido los cluster y cuál es el grado de proximidad que tienen los clusters que se unen. • Los nodos hojas del dendograma se corresponden con los elementos individuales. • En el nodo raı́z se representa el cluster al que pertenecen todos los elementos. • El resto de nodos se corresponde con los clusters que se van formando. 4 Clustering jerárquico Dendrograma (ii) a b c d e f g h 5 Clustering jerárquico Dendrograma. Cómo se construye 4,70 Nivel 1 4,30 Nivel 2 Nivel 3 4,00 3,50 Nivel 4 2,25 Nivel 5 1,50 Nivel 6 1,00 Nivel 7 a b c d e f g h 6 Clustering jerárquico Dendrograma. Cómo se genera un agrupamiento (i) • El dendrograma puede usarse para generar diferentes agrupamientos. • Para ello, se selecciona un nivel y se poda el dendrograma descartando los hijos de los nodos con nivel igual o superior al nivel seleccionado. Los nodos hojas del árbol resultante dan el agrupamiento buscado. • Dependiendo del nivel seleccionado se obtienen agrupamientos con clusters más o menos compactos. 7 Clustering jerárquico Dendrograma. Cómo se genera un agrupamiento (ii) • Nivel seleccionado = 6 Nivel 1 Nivel 2 Nivel 3 Nivel 4 Nivel 5 Nivel 6 Nivel 7 (e, f) (a, b) c d g h 8 Clustering jerárquico Dendrograma. Cómo se genera un agrupamiento (iii) • Nivel seleccionado = 4 Nivel 1 Nivel 2 Nivel 3 Nivel 4 Nivel 5 (d, e, f) (a, b, c) Nivel 6 Nivel 7 g h 9 Clustering jerárquico Algorithm 1: Algoritmo aglomerativo básico Matriz de proximidad Obtener la proximidad entre cada par de elementos; repeat Unir los dos clusters más próximos; Actualizar la matriz de proximidad; until Solo hay un cluster ; 10 Clustering jerárquico Medidas de proximidad entre clusters (i) • Enlace simple (single link). La proximidad entre dos clusters se define como la proximidad entre los dos elementos más próximos que pertenecen a clusters diferentes. • Enlace completo (complete link). La proximidad entre dos clusters se define como la proximidad entre los dos elementos menos próximos que pertenecen a clusters diferentes. • Promedio del grupo (group average). La proximidad entre dos clusters se define como la proximidad promedio entre todos los pares de elementos que pertenecen a clusters diferentes. 11 Clustering jerárquico Medidas de proximidad entre clusters (ii) • Proximidad basada en centroides. La proximidad entre dos clusters se define como la proximidad entre los centroides de cada cluster. • Tras unir dos clusters debe obtenerse el centroide del nuevo cluster. Algunas alternativas para ello son: • Obtener el centroide como el punto central del nuevo cluster. • Obtener el centroide como la suma ponderada de los centroides de los clusters que se unen usando la siguiente expresión: N 1 · x1 + N 2 · y1 N 1 · x2 + N 2 · y2 N 1 · xn + N 2 · yn c= , ,..., N1 + N2 N1 + N2 N1 + N2 con (xi , x2 , . . . , xn ) e (y1 , y2 , . . . , yn ) los centroides de los cluster y N1 e N2 el número de elementos en cada uno de ellos. 12 Clustering jerárquico Método de Ward • Método de Ward. La medida de proximidad usada es la suma de errores al cuadrado. De esta manera, en cada etapa se unen los dos clusters que dan lugar al cluster con menor suma de errores al cuadrado. 13 BIBLIOGRAFÍA Bibliografı́a Tan, P.-N., Steinbach, M., and Kumar, V. Introduction to Data Mining. Addison-Wesley, 2006. 14 Licencia Esta obra está bajo una licencia de Creative Commons. Reconocimiento - No comercial - Compartir igual 15