ANÁLISIS CLUSTER

Curso de Postgrado en Herramientas Estadísticas Avanzadas: ANÁLISIS MULTIVARIANTE PARA INVESTIGACIÓN EN SISTEMAS AGROPECUARIOS ANÁLISIS CLUSTER Prof. Dr. José Perea Dpto. Producción Animal ANÁLISIS Á DE CONGLOMERADOS 1. Introducción 2 Medidas de similaridad 2. 3. Análisis jerárquico 4. Análisis no jerárquico 5. Elección entre los distintos tipos p de análisis 6. Caso práctico clasificación Análisis de interdependencias Relación entre variables Métricas componentes principales Relación entre casos Relación entre objetos j análisis cluster escalamiento multidimensional No métricas análisis factorial análisis correspondencias introducción Técnica para clasificar observaciones en grupos: - Cada grupo sea homogéneo respecto a las variables utilizadas para su formación - Que los grupos sean lo más distintos posible unos de otros respectos a las variables consideradas - La composición de los grupos es desconocida a priori (en el análisis discriminante o en la regresión logística se conocen los grupos) introducción - Por ejemplo: - Clasificar los animales de un rebaño según sus características productivas y aptitudes para la explotación ecológica (producción de leche, producción de carne, edad, enfermedades, rusticidad, prolificidad, fertilidad, aplomos, raza, etc.) - Clasificar explotaciones ganaderas según su implicación en funciones no productivas introducción P Pasos d l análisis del áli i cluster: l t - Se tiene información de n casos y k variables - Se establece un indicador que nos diga en qué medida cada par de observaciones se parece entre sí (distancia o similaridad) - Se crean los grupos de acuerdo a la medida de similaridad o distancia anterior. anterior Hay dos tipos de creación de grupos y varios métodos de agrupación - Se describen los grupos obtenidos y se comparan unos con otros - Validación del análisis medidas de similaridad Medidas de similaridad Ejemplo Se tiene información de la producción de leche y del rendimiento quesero de d 8 cabras b Cabra 1 2 3 4 5 6 7 8 Producción leche Rendimiento quesero 225 10 225 15 210 0 30 200 35 325 20 375 25 450 40 500 35 medidas de similaridad 45 40 35 30 25 20 15 10 5 0 100 250 400 550 medidas de similaridad 45 40 35 30 25 20 15 10 5 0 100 250 400 550 medidas de similaridad M did de Medidas d similaridad i il id d para variables i bl métricas ét i - Distancia euclídea (D) entre dos casos: D = √Σ (Xip – Xjp)2 - En el ejemplo: - D12 = √ ((225 – 225))2 + ((15 – 10))2 = 5 - D13 = √ (210 – 225)2 + (30 – 10)2 = 196 Cabra 1 2 3 4 5 6 7 8 Producción leche Rendimiento quesero 225 10 225 15 210 30 200 35 325 20 375 25 450 40 500 35 medidas de similaridad - Di t Distancia i euclídea líd all cuadrado d d (D2) entre t dos d casos: - - Menos exigente que el anterior - D = Σ (Xip – Xjp)2 En el ejemplo: j p - D12 = (225 – 225)2 + (15 – 10)2 = 25 - D13 = (210 – 225)2 + (30 – 10)2 = 38425 Cabra 1 2 3 4 5 6 7 8 Producción leche Rendimiento quesero q 225 10 225 15 210 30 200 35 325 20 375 25 450 40 500 35 medidas de similaridad - - Di t Distancia i de d Minkowski: Mi k ki - M = [Σ (Xip – Xjp)2]1/n - Los dos casos anteriores son un caso particular (n=2) de la distancia de Minkowski Distancia city block o “Manhatan”: - M = Σ (Xip – Xjp) medidas de similaridad 45 40 c 35 30 b 25 20 a 15 10 5 0 100 250 400 550 medidas de similaridad Estandarización de los datos: - Las distancias de similaridad son muy sensibles a las unidades en q que estén medidas las variables. - En el ejemplo (distancia D2): - - D12 = (225 – 225)2 + (15 – 10)2 = 25 - D13 = (210 – 225)2 + (30 – 10)2 = 38.425 - Si la producción de leche la medimos en centilitros: - D12 = (22500 – 22500)2 + (15 – 10)2 = 25 - D13 = (21000 – 22500)2 + (30 – 10)2 = 2.250.400 2 250 400 Lo más común en restar la media a cada observación y dividir por la desviación típica (variables de media cero y d.t. 1) medidas de similaridad M did de Medidas d similaridad i il id d para datos d t binarios bi i - Se utilizan con variables ficticias o con variables dicotómicas ( (p.e. “ ” 0 “si”=1) “no”=0; “ i” 1) - Se utiliza una tabla de doble entrada: Ganadero G d 1 2 3 4 5 Ecológico E ló i 1 0 1 0 1 ATP 1 1 1 0 1 Soltero S lt 0 1 0 0 1 Estudios E t di 0 1 1 1 0 medidas de similaridad Ganadero G d 1 2 3 4 5 Ecológico E ló i 1 0 1 0 1 ATP 1 1 1 0 1 Soltero S lt 0 1 0 0 1 Estudios E t di 0 1 1 1 0 1 2 1 0 1 1 1 0 2 0 medidas de similaridad Ganadero G d 1 2 3 4 5 Ecológico E ló i 1 0 1 0 1 ATP 1 1 1 0 1 Soltero S lt 0 1 0 0 1 Estudios E t di 0 1 1 1 0 1 2 1 0 1 1 1 a c 0 2 0 b d medidas de similaridad M did Medidas: - D2 = b + c - D=√b+c - Diferencia de tamaño = (b–c) (b c)2/(a+b+c+d)2 - Diferencia de configuración = (b (b*c)/(a+b+c+d) c)/(a+b+c+d)2 - Diferencia de forma = [(a+b+c+d) [(a+b+c+d)*(b+c) (b+c)-(b–c) (b c)2]/(a+b+c+d)2 análisis jerárquico F Formación ió de d grupos: - Análisis jerárquico: Inicialmente cada caso es un grupo en síí mismo i y sucesivamente i t se van fusionando f i d grupos cercanos hasta que todos los individuos confluyen en un solo g p grupo. - Análisis no jerárquico: Inicialmente se establece el número de grupos y cada caso se asigna a uno de ellos. Nótese que si elegimos p.e. 3 grupos, en el método jerárquico los grupos proceden de fusionar dos grupos de la anterior combinación de 4 y en el método no jerárquico los 3 grupos se habrán confeccionado para maximizar la heterogeneidad entre grupos y la homogeneidad dentro de grupos. análisis jerárquico Ej Ejemplo: l - 12 casos (explotaciones ecológicas de vacuno lechero) - Agrupar según las siguientes variables: - p ´dedicada a la actividad en ha)) NHT ((superficie - NHT_NHP (superficie en propiedad %) - NVAC (número de vacas) - TREP (tasa de reposición) - TMORT (tasa de mortalidad) - CARGA (carga ganadera UGM/ha) - ITC (índice terneros comerciales) - ILC (índice de litros comerciales) análisis jerárquico Utilizando Utili d ell análisis áli i jerárquico j á i con la l distancia di t i euclídea líd y ell método de Ward: Dendrogram Ward's Method,Squared Euclidean 100 80 60 40 20 12 11 9 8 4 10 6 5 3 2 7 0 1 Disttance - análisis jerárquico Utilizando Utili d ell análisis áli i jerárquico j á i con la l distancia di t i euclídea líd y ell método de Ward: Dendrogram Ward's Method,Squared Euclidean 100 80 60 40 20 12 11 9 8 4 10 6 5 3 2 7 0 1 Disttance - análisis jerárquico - - Utilizando Utili d ell análisis áli i jerárquico j á i con la l distancia di t i euclídea líd y ell método de Ward: - G Grupo I 1, I: 1 3, 3 5, 5 6, 6 7, 7 10 - Grupo II: 4, 8, 9, 11 - Grupo III: 12 Utilizando el análisis no jerárquico con la distancia euclídea: - Grupo I: 1, 1 7, 7 12 - Grupo II: 4, 8, 9, 10 - Grupo III: 2, 3, 5, 6, 11 análisis jerárquico Mét d de Métodos d agrupación ió jerárquica: j á i - Método del centroide - Método del vecino más cercano - j Método del vecino más lejano - Método de la vinculación promedio - Método de Ward análisis jerárquico Mét d del Métodos d l centroide: t id - Comienza cercanas. uniendo las - A continuación, el grupo se sustituye por una observación que lo representa (centroide) y en el que todas las variables toman un valor medio. - Se vuelven a calcular la matriz de distancias (D, (D D2, etc.), se unen otro par de observaciones y se recalcula la matriz. - Así hasta que todas las observaciones quedan en un solo grupo. dos observaciones más análisis jerárquico Métodos del vecino más cercano: - Igual que el método del centroide pero varía el cálculo de la distancia. - Las distancias entre los grupos a fusionar se calculan tomando las observaciones más cercanas de cada grupo (en ( vez del d l valor l medio). di ) 45 40 35 30 25 20 15 10 5 0 100 250 400 550 análisis jerárquico Métodos del vecino más cercano: - Igual que el método del centroide pero varía el cálculo de la distancia. - Las distancias entre los grupos a fusionar se calculan tomando las observaciones más cercanas de cada grupo (en ( vez del d l valor l medio). di ) 45 40 35 30 25 20 15 10 5 0 100 250 400 550 análisis jerárquico Métodos del vecino más cercano: - Igual que el método del centroide pero varía el cálculo de la distancia. - Las distancias entre los grupos a fusionar se calculan tomando las observaciones más cercanas de cada grupo (en ( vez del d l valor l medio). di ) 45 40 35 30 25 20 15 10 5 0 100 250 400 550 análisis jerárquico Métodos del vecino más cercano: - Igual que el método del centroide pero varía el cálculo de la distancia. - Las distancias entre los grupos a fusionar se calculan tomando las observaciones más cercanas de cada grupo (en ( vez del d l valor l medio). di ) 45 40 35 30 25 20 15 10 5 0 100 250 400 550 análisis jerárquico Métodos del vecino más cercano: - Igual que el método del centroide pero varía el cálculo de la distancia. - Las distancias entre los grupos a fusionar se calculan tomando las observaciones más cercanas de cada grupo (en ( vez del d l valor l medio). di ) 45 40 35 30 25 20 15 10 5 0 100 250 400 550 análisis jerárquico Métodos del vecino más cercano: - Igual que el método del centroide pero varía el cálculo de la distancia. - Las distancias entre los grupos a fusionar se calculan tomando las observaciones más cercanas de cada grupo (en ( vez del d l valor l medio). di ) 45 40 35 30 25 20 15 10 5 0 100 250 400 550 análisis jerárquico Métodos del vecino más cercano: - Igual que el método del centroide pero varía el cálculo de la distancia. - Las distancias entre los grupos a fusionar se calculan tomando las observaciones más cercanas de cada grupo (en ( vez del d l valor l medio). di ) 45 40 35 30 25 20 15 10 5 0 100 250 400 550 análisis jerárquico Métodos del vecino más cercano: - Igual que el método del centroide pero varía el cálculo de la distancia. - Las distancias entre los grupos a fusionar se calculan tomando las observaciones más cercanas de cada grupo (en ( vez del d l valor l medio). di ) 45 40 35 30 25 20 15 10 5 0 100 250 400 550 análisis jerárquico Métodos del vecino más cercano: - Igual que el método del centroide pero varía el cálculo de la distancia. - Las distancias entre los grupos a fusionar se calculan tomando las observaciones más cercanas de cada grupo (en ( vez del d l valor l medio). di ) 45 40 35 30 25 20 15 10 5 0 100 250 400 550 análisis jerárquico Métodos del vecino más cercano: - Igual que el método del centroide pero varía el cálculo de la distancia. - Las distancias entre los grupos a fusionar se calculan tomando las observaciones más cercanas de cada grupo (en ( vez del d l valor l medio). di ) 45 40 35 30 25 20 15 10 5 0 100 250 400 550 análisis jerárquico Mét d del Métodos d l vecino i más á lejano: l j - Igual que el método anterior pero utiliza las observaciones más á lejanas l j d cada de d grupo para calcular l l las l distancias. di t i 45 40 35 30 25 20 15 10 5 0 100 250 400 550 análisis jerárquico Mét d del Métodos d l vecino i más á lejano: l j - Igual que el método anterior pero utiliza las observaciones más á lejanas l j d cada de d grupo para calcular l l las l distancias. di t i 45 40 35 30 25 20 15 10 5 0 100 250 400 550 análisis jerárquico Mét d del Métodos d l vecino i más á lejano: l j - Igual que el método anterior pero utiliza las observaciones más á lejanas l j d cada de d grupo para calcular l l las l distancias. di t i 45 40 35 30 25 20 15 10 5 0 100 250 400 550 análisis jerárquico Mét d del Métodos d l vecino i más á lejano: l j - Igual que el método anterior pero utiliza las observaciones más á lejanas l j d cada de d grupo para calcular l l las l distancias. di t i 45 40 35 30 25 20 15 10 5 0 100 250 400 550 análisis jerárquico Mét d del Métodos d l vecino i más á lejano: l j - Igual que el método anterior pero utiliza las observaciones más á lejanas l j d cada de d grupo para calcular l l las l distancias. di t i 45 40 35 30 25 20 15 10 5 0 100 250 400 550 análisis jerárquico Mét d del Métodos d l vecino i más á lejano: l j - Igual que el método anterior pero utiliza las observaciones más á lejanas l j d cada de d grupo para calcular l l las l distancias. di t i 45 40 35 30 25 20 15 10 5 0 100 250 400 550 análisis jerárquico Mét d del Métodos d l vecino i más á lejano: l j - Igual que el método anterior pero utiliza las observaciones más á lejanas l j d cada de d grupo para calcular l l las l distancias. di t i 45 40 35 30 25 20 15 10 5 0 100 250 400 550 análisis jerárquico Mét d del Métodos d l vecino i más á lejano: l j - Igual que el método anterior pero utiliza las observaciones más á lejanas l j d cada de d grupo para calcular l l las l distancias. di t i 45 40 35 30 25 20 15 10 5 0 100 250 400 550 análisis jerárquico Mét d del Métodos d l vecino i más á lejano: l j - Igual que el método anterior pero utiliza las observaciones más á lejanas l j d cada de d grupo para calcular l l las l distancias. di t i 45 40 35 30 25 20 15 10 5 0 100 250 400 550 análisis jerárquico Mét d del Métodos d l vecino i más á lejano: l j - Igual que el método anterior pero utiliza las observaciones más á lejanas l j d cada de d grupo para calcular l l las l distancias. di t i 45 40 35 30 25 20 15 10 5 0 100 250 400 550 análisis jerárquico Mét d de Métodos d la l vinculación i l ió promedio: di - La distancia entre los grupos se obtiene calculando la di t distancia i promedio di entre t t d todos l los pares de d observaciones que pueden formarse entre los dos grupos g p fusionar. 45 40 35 30 25 20 15 10 5 0 100 250 400 550 análisis jerárquico Mét d de Métodos d la l vinculación i l ió promedio: di - La distancia entre los grupos se obtiene calculando la di t distancia i promedio di entre t t d todos l los pares de d observaciones que pueden formarse entre los dos grupos g p fusionar. 45 40 35 30 25 20 15 10 5 0 100 250 400 550 análisis jerárquico Mét d de Métodos d la l vinculación i l ió promedio: di 45 40 35 30 25 20 15 10 5 0 100 250 400 550 análisis jerárquico Mét d de Métodos d Ward: W d - El método de Ward es el más utilizado (maximiza la h homogeneidad id d dentro d t de d los l grupos). ) - Para ello, plantea todas las posibles fusiones en cada etapa concreta y elige la que maximiza la homogeneidad: - Calcula los centroides de los grupos resultantes de las posibles fusiones - A continuación calcula la distancia al centroide de todas las observaciones del grupo (suma de cuadrados total) - La solución con menor suma de cuadrados total es la elegida Ejemplo método de Ward (distancia Cabra 1 2 3 4 5 6 7 8 análisis jerárquico D2): Producción leche Rendimiento quesero 225 10 225 15 210 30 200 35 325 20 375 25 450 40 500 35 45 8 40 35 30 25 4 7 3 5 20 15 1 10 2 6 5 0 100 250 400 550 Ejemplo método de Ward (distancia Cabra 1 2 3 4 5 6 7 8 Posibles fusiones: ((1,2,3,4) , , , ) y ((5,6) , ) análisis jerárquico D2): Producción leche Rendimiento quesero 225 10 225 15 210 30 200 35 325 20 375 25 450 40 500 35 45 8 40 35 30 25 4 7 3 5 20 15 1 10 2 6 5 0 100 250 400 550 Ejemplo método de Ward (distancia Cabra 1 2 3 4 5 6 7 8 Posibles fusiones: (5,6) y (7,8) análisis jerárquico D2): Producción leche Rendimiento quesero 225 10 225 15 210 30 200 35 325 20 375 25 450 40 500 35 45 8 40 35 30 25 4 7 3 5 20 15 1 10 2 6 5 0 100 250 400 550 Ejemplo método de Ward (distancia Cabra 1 2 3 4 5 6 7 8 Posibles fusiones: (1 2 3 4) y (7,8) (1,2,3,4) (7 8) análisis jerárquico D2): Producción leche Rendimiento quesero 225 10 225 15 210 30 200 35 325 20 375 25 450 40 500 35 45 8 40 35 30 25 4 7 3 5 20 15 1 10 2 6 5 0 100 250 400 550 Ejemplo método de Ward (distancia Cabra 1 2 3 4 5 6 7 8 Posibles fusiones: ((1,2,3,4) , , , ) y ((5,6) , ) (5,6) y (7,8) (1 2 3 4) y (7,8) (1,2,3,4) (7 8) análisis jerárquico D2): Producción leche Rendimiento quesero 225 10 225 15 210 30 200 35 325 20 375 25 450 40 500 35 45 8 40 35 30 25 4 7 3 5 20 15 1 10 2 6 5 0 100 250 400 550 Ejemplo método de Ward (distancia Grupos (1,2,3,4) (5,6) (5 6) (7 (5,6) (7,8) 8) (1,2,3,4) (7,8) análisis jerárquico D2): Producción leche Rendimiento quesero 260,0 22,5 412 5 412,5 30 0 30,0 301,7 27,5 45 40 35 30 25 20 15 10 5 0 100 200 300 400 500 600 Ejemplo método de Ward (distancia Grupos (1,2,3,4) (5,6) (5 6) (7 (5,6) (7,8) 8) (1,2,3,4) (7,8) análisis jerárquico D2): Producción leche Rendimiento quesero 260,0 22,5 412 5 412,5 30 0 30,0 301,7 27,5 45 40 35 30 25 20 15 10 5 0 100 200 300 400 500 600 Ejemplo método de Ward (distancia Grupos (1,2,3,4) (5,6) (5 6) (7 (5,6) (7,8) 8) (1,2,3,4) (7,8) análisis jerárquico D2): Producción leche Rendimiento quesero 260,0 22,5 412 5 412,5 30 0 30,0 301,7 27,5 45 40 35 30 25 20 15 10 5 0 100 200 300 400 500 600 Ejemplo método de Ward (distancia Grupos (1,2,3,4) (5,6) (5 6) (7 (5,6) (7,8) 8) (1,2,3,4) (7,8) análisis jerárquico D2): Producción leche Rendimiento quesero 260,0 22,5 412 5 412,5 30 0 30,0 301,7 27,5 45 40 35 30 25 20 15 10 5 0 100 200 300 400 500 600 Ejemplo método de Ward (distancia Grupos (1,2,3,4) (5,6) (5 6) (7 (5,6) (7,8) 8) (1,2,3,4) (7,8) análisis jerárquico D2): Producción leche Rendimiento quesero 260,0 22,5 412 5 412,5 30 0 30,0 301,7 27,5 45 40 35 30 25 20 15 10 5 0 100 200 300 400 500 600 Ejemplo método de Ward (distancia Grupos (1,2,3,4) (5,6) (5 6) (7 (5,6) (7,8) 8) (1,2,3,4) (7,8) análisis jerárquico D2): Producción leche Rendimiento quesero 260,0 22,5 412 5 412,5 30 0 30,0 301,7 27,5 45 40 35 30 25 20 15 10 5 0 100 200 300 400 500 600 Ejemplo método de Ward (distancia Grupos G (1,2,3,4) (5,6) (5,6) (7,8) (1,2,3,4) (7,8) D1,2,3,4,5,6 1 2 3 4 5 6 = 26437 - D1,2,3,4,7,8 = 111625 - D5,6,7,8 = 103137 análisis jerárquico Producción P d ió leche l h Rendimiento R di i t quesero 260,0 22,5 412,5 30,0 301,7 27,5 Cabra 1 2 3 4 5 6 7 8 - D2): Producción leche Rendimiento quesero 225 10 225 15 210 30 200 35 325 20 375 25 450 40 500 35 Ejemplo método de Ward (distancia Grupos G (1,2,3,4) (5,6) (5,6) (7,8) (1,2,3,4) (7,8) D1,2,3,4,5,6 , , , , , = 26437 - D1,2,3,4,7,8 = 111625 - D5,6,7,8 5 6 7 8 = 103137 análisis jerárquico Producción P d ió leche l h Rendimiento R di i t quesero 260,0 22,5 412,5 30,0 301,7 27,5 Cabra 1 2 3 4 5 6 7 8 - D2): Producción leche Rendimiento quesero 225 10 225 15 210 30 200 35 325 20 375 25 450 40 500 35 análisis jerárquico El Elección ió del d l método ét d de d agrupación ió jerárquica: j á i - Sigue planteando interrogantes a resolver - Probar varios métodos y comparar los resultados - p Método del vecino más cercano: Tiende a crear pocos grupos, aunque es muy sensible a outliers - Método del homogéneos - Método de Ward: Tiende a grupos muy compactos de tamaño similar vecino más j lejano: Grupos p muyy análisis jerárquico S l Selección ió del d l número ú d conglomerados: de l d - Problema que aún plantea dudas. - Dos criterios: - grupos p a unir Debe detenerse la fusión cuando los g están a una distancia significativamente mayor de los que previamente se han fusionado. - El investigador debe interpretar adecuadamente cada grupo de la solución final. análisis jerárquico S l Selección ió del d l número ú d conglomerados: de l d - Distancia de los conglomerados (DC) - Tasa de variación del coeficiente de conglomeración - ( ) Raíz cuadrada de la media de las D.T. del nuevo cluster (RC) - R2 semiparcial (R2S) - R cuadrado (R2) análisis jerárquico Di t Distancia i de d los l conglomerados l d (DC): (DC) - Indica la homogeneidad dentro del nuevo conglomerado. - Responde a la distancia utilizada. - p q El valor debe ser pequeño. Num Cluster Num. 7 6 5 4 3 2 1 DC 3,6 5,38 5 65 5,65 7,07 11,88 13,5 35,03 análisis jerárquico T Tasa d variación de i ió del d l coeficiente fi i t de d conglomeración: l ió El coeficiente de conglomeración refleja la distancia a la que estaban los grupos fusionados en la etapa Agglomeration Distance Plot Ward's Method,Squared Euclidean 100 80 Distaance - 60 40 20 0 0 2 4 6 Stage 8 10 12 análisis jerárquico T Tasa d variación de i ió del d l coeficiente fi i t de d conglomeración: l ió El coeficiente de conglomeración refleja la distancia a la que estaban los grupos fusionados en la etapa Agglomeration Distance Plot Ward's Method,Squared Euclidean 100 80 Distaance - 60 40 20 0 0 2 4 6 Stage 8 10 12 análisis jerárquico T Tasa d variación de i ió del d l coeficiente fi i t de d conglomeración: l ió El coeficiente de conglomeración refleja la distancia a la que estaban los grupos fusionados en la etapa Dendrogram g Ward's Method,Squared Euclidean 100 80 60 40 20 122 111 9 8 4 100 6 5 3 2 7 0 1 Distan nce - análisis jerárquico T Tasa d variación de i ió del d l coeficiente fi i t de d conglomeración: l ió El coeficiente de conglomeración refleja la distancia a la que estaban los grupos fusionados en la etapa Dendrogram g Ward's Method,Squared Euclidean 100 80 60 40 20 122 111 9 8 4 100 6 5 3 2 7 0 1 Distan nce - análisis jerárquico T Tasa d variación de i ió del d l coeficiente fi i t de d conglomeración: l ió El coeficiente de conglomeración refleja la distancia a la que estaban los grupos fusionados en la etapa Dendrogram g Ward's Method,Squared Euclidean 100 80 60 40 20 122 111 9 8 4 100 6 5 3 2 7 0 1 Distan nce - análisis jerárquico T Tasa d variación de i ió del d l coeficiente fi i t de d conglomeración: l ió El coeficiente de conglomeración refleja la distancia a la que estaban los grupos fusionados en la etapa Dendrogram g Ward's Method,Squared Euclidean 100 80 60 40 20 122 111 9 8 4 100 6 5 3 2 7 0 1 Distan nce - análisis jerárquico T Tasa d variación de i ió del d l coeficiente fi i t de d conglomeración: l ió El coeficiente de conglomeración refleja la distancia a la que estaban los grupos fusionados en la etapa Dendrogram g Ward's Method,Squared Euclidean 100 80 60 40 20 122 111 9 8 4 100 6 5 3 2 7 0 1 Distan nce - análisis jerárquico T Tasa d variación de i ió del d l coeficiente fi i t de d conglomeración: l ió El coeficiente de conglomeración refleja la distancia a la que estaban los grupos fusionados en la etapa Dendrogram g Ward's Method,Squared Euclidean 100 80 60 40 20 122 111 9 8 4 100 6 5 3 2 7 0 1 Distan nce - análisis jerárquico T Tasa d variación de i ió del d l coeficiente fi i t de d conglomeración: l ió El coeficiente de conglomeración refleja la distancia a la que estaban los grupos fusionados en la etapa Dendrogram g Ward's Method,Squared Euclidean 100 80 60 40 20 122 111 9 8 4 100 6 5 3 2 7 0 1 Distan nce - análisis jerárquico T Tasa d variación de i ió del d l coeficiente fi i t de d conglomeración: l ió El coeficiente de conglomeración refleja la distancia a la que estaban los grupos fusionados en la etapa Dendrogram g Ward's Method,Squared Euclidean 100 80 60 40 20 122 111 9 8 4 100 6 5 3 2 7 0 1 Distan nce - análisis jerárquico T Tasa d variación de i ió del d l coeficiente fi i t de d conglomeración: l ió El coeficiente de conglomeración refleja la distancia a la que estaban los grupos fusionados en la etapa Dendrogram g Ward's Method,Squared Euclidean 100 80 60 40 20 122 111 9 8 4 100 6 5 3 2 7 0 1 Distan nce - análisis jerárquico T Tasa d variación de i ió del d l coeficiente fi i t de d conglomeración: l ió El coeficiente de conglomeración refleja la distancia a la que estaban los grupos fusionados en la etapa Dendrogram g Ward's Method,Squared Euclidean 100 80 60 40 20 122 111 9 8 4 100 6 5 3 2 7 0 1 Distan nce - análisis jerárquico T Tasa d variación de i ió del d l coeficiente fi i t de d conglomeración: l ió El coeficiente de conglomeración refleja la distancia a la que estaban los grupos fusionados en la etapa Dendrogram g Ward's Method,Squared Euclidean 100 80 60 40 20 122 111 9 8 4 100 6 5 3 2 7 0 1 Distan nce - análisis jerárquico T Tasa d variación de i ió del d l coeficiente fi i t de d conglomeración: l ió - El coeficiente de conglomeración refleja la distancia a la que estaban los grupos fusionados en la etapa Agglomeration Schedule ---------------------Clustering Method: Ward's Distance Metric: Squared Euclidean Clusters Combined Stage g First Appears pp Next Stage Cluster 1 Cluster 2 Coefficient Cluster 1 Cluster 2 Stage -------------------------------------------------------------------------1 2 3 0,91948 0 0 4 2 5 6 2,27928 0 0 4 3 9 11 3 3,92254 92254 0 0 7 4 2 5 6,44183 1 2 6 5 1 7 9,0135 0 0 8 6 2 10 13,4301 4 0 8 7 8 9 19,2448 0 3 9 8 1 2 25,2716 5 6 10 9 4 8 40,384 0 7 10 10 1 4 60,5273 8 9 11 11 1 12 88,0 10 0 0 -------------------------------------------------------------------------- análisis jerárquico T Tasa d variación de i ió del d l coeficiente fi i t de d conglomeración: l ió - El coeficiente de conglomeración refleja la distancia a la que estaban los grupos fusionados en la etapa Agglomeration Schedule ---------------------Clustering Method: Ward's Distance Metric: Squared Euclidean Clusters Combined Stage g First Appears pp Next Stage Cluster 1 Cluster 2 Coefficient Cluster 1 Cluster 2 Stage -------------------------------------------------------------------------1 2 3 0,91948 0 0 4 2 5 6 2,27928 0 0 4 3 9 11 3 3,92254 92254 0 0 7 4 2 5 6,44183 1 2 6 5 1 7 9,0135 0 0 8 6 2 10 13,4301 4 0 8 7 8 9 19,2448 0 3 9 8 1 2 25,2716 5 6 10 9 4 8 40,384 0 7 10 10 1 4 60,5273 8 9 11 11 1 12 88,0 10 0 0 -------------------------------------------------------------------------- análisis jerárquico R í cuadrada Raíz d d de d la l media di de d las l D.T. D T del d l nuevo cluster l t (RC): (RC) - Indica la homogeneidad del nuevo conglomerado. - La suma de todas las desviaciones típicas de todas las observaciones del nuevo conglomerado respecto al centroide. - El valor debe ser pequeño. Num Cluster Num. 7 6 5 4 3 2 1 DC 3,6 5,38 5 65 5,65 7,07 11,88 13,5 35,03 RC 1,8 2,69 2 82 2,82 3,53 5,22 6,07 14,24 análisis jerárquico R2 semiparcial i i l (R2S): (R2S) - Indica la pérdida de homogeneidad que se produce en la f ió fusión. - Su cálculo se basa en el ratio entre la pérdida de homogeneidad en cada fusión (suma de cuadrados tras la fusión menos la suma de cuadrados de los grupos que se unen)) y la homogeneidad g máxima ((cada observación es un grupo). - El valor debe ser pequeño. Num. Cluster 7 6 5 4 3 2 1 DC 3,6 5,38 5,65 7,07 11,88 13,5 35,03 RC 1,8 2,69 2,82 3,53 5,22 6,07 14,24 R2S 0 0 0 0 0,04 0,06 0,86 análisis jerárquico R2 : - Indica la heterogeneidad entre conglomerados en cada f ió fusión. - Ratio entre la heterogeneidad entre conglomerados y la total. - El valor debe ser alto. Num. Cluster 7 6 5 4 3 2 1 DC 3,6 5,38 5,65 7,07 11,88 13,5 35,03 RC 1,8 2,69 2,82 3,53 5,22 6,07 14,24 R2S 0 0 0 0 0,04 0,06 0,86 R2 0,99 0,99 0,98 0,97 0,92 0,86 0 análisis jerárquico DC DC: h homogeneidad id d clusters l t f i fusionados d P Pequeño ñ T. Var. CC: pérdida homogeneidad en la fusión Pequeño RC: homogeneidad del nuevo cluster Pequeño R2S: pérdida homogeneidad en la fusión Pequeño R2: heterogeneidad entre clusters Grande Num. Cluster 7 6 5 4 3 2 1 DC 3,6 5,38 5,65 7,07 11,88 13,5 35,03 RC 1,8 2,69 2,82 3,53 5,22 6,07 14,24 R2S 0 0 0 0 0,04 0,06 0,86 R2 0,99 0,99 0,98 0,97 0,92 0,86 0 análisis jerárquico DC DC: h homogeneidad id d clusters l t f i fusionados d P Pequeño ñ T. Var. CC: pérdida homogeneidad en la fusión Pequeño RC: homogeneidad del nuevo cluster Pequeño R2S: pérdida homogeneidad en la fusión Pequeño R2: heterogeneidad entre clusters Grande Num. Cluster 7 6 5 4 3 2 1 DC 3,6 5,38 , 5,65 7,07 11,88 , 13,5 35,03 RC 1,8 2,69 2,82 , 3,53 5,22 6,07 , 14,24 R2S 0 0 0 0 0,04 0,06 , 0,86 R2 0,99 0,99 0,98 , 0,97 0,92 0,86 , 0 análisis jerárquico 40 35 DC 30 RC 25 20 15 10 5 0 0 1 2 3 4 5 6 7 8 1 0,9 0,8 0,7 0,6 R2S R2 0,5 0,4 , 0,3 0,2 0,1 0 0 1 2 3 4 5 6 7 8 análisis jerárquico A li Analizar e interpretar i t t los l resultados: lt d - ANOVA entre clusters con las variables utilizadas en el análisis. áli i - ANOVA con las demás variables. - Tabla de contingencia categóricas. - Interpretar los resultados con las agrupaciones sucesivas. entre clusters para variables análisis no jerárquico A áli i no jerárquico: Análisis j á i - Se conoce a priori el número de k grupos - Cada observación es asignada a un grupo - g dentro de los g grupos p Maximiza la homogeneidad - Maximiza la heterogeneidad entre grupos - Etapas: 1. Determinar los centroides iniciales de los k grupos 2. Formación de los grupos 3. Recalcular los centroides y formar grupos hasta la estabilidad análisis no jerárquico 1 Determinar 1. D t i l centroides los t id iniciales i i i l de d los l k grupos: - Se utilizan las k primeras observaciones del fichero como centroides t id de d partida. tid - Se calculan las distancias entre las k observaciones y se retiene la correspondiente a las 2 observaciones más cercanas (O1-O2). análisis no jerárquico 1 Determinar 1. D t i l centroides los t id iniciales i i i l de d los l k grupos: - A continuación se determina si alguna de las 2 observaciones puede d ser sustituida tit id en ell centroide t id por la l observación b ió Ok+1. Ok+1 - Si la distancia de Ok+1 a la observación más cercana perteneciente a las k observaciones centroides es mayor que la distancia entre las dos observaciones más cercanas, Ok+1 sustituye y a O1 o a O2 ((la más cercana). ) - Si la distancia de Ok+1 a cualquiera de las k observaciones centroides (exceptuando la más cercana) es más grande que la menor distancia de la más cercana a todas las que integran el centroide, Ok+1 sustituye a Ok análisis no jerárquico - A continuación ti ió se determina d t i sii alguna l d las de l 2 observaciones b i puede d ser sustituida en el centroide por la observación Ok+1. - O1 Si la distancia de Ok+1 a la observación más cercana perteneciente a las k observaciones centroides es mayor que la distancia entre las dos observaciones más cercanas, Ok+1 sustituye a O1 o a O2 (la más cercana). cercana) O2 Ok Ok+1 análisis no jerárquico - A continuación ti ió se determina d t i sii alguna l d las de l 2 observaciones b i puede d ser sustituida en el centroide por la observación Ok+1. - Si la distancia de Ok+1 a la observación más cercana perteneciente a las k observaciones centroides es mayor que la distancia entre las dos observaciones más cercanas, Ok+1 sustituye a O1 o a O2 (la más cercana). cercana) O1 Ok Ok+1 análisis no jerárquico - A continuación ti ió se determina d t i sii alguna l d las de l 2 observaciones b i puede d ser sustituida por en el centroide por la observación Ok+1. - O1 Si la distancia de Ok+1 a cualquiera de las k observaciones centroides (exceptuando la más cercana) es más grande que la menor distancia de la más cercana a todas las que integran el centroide Ok+1 sustituye a Ok centroide, O2 Ok Ok+1 análisis no jerárquico - A continuación ti ió se determina d t i sii alguna l d las de l 2 observaciones b i puede d ser sustituida por en el centroide por la observación Ok+1. - O1 Si la distancia de Ok+1 a cualquiera de las k observaciones centroides (exceptuando la más cercana) es más grande que la menor distancia de la más cercana a todas las que integran el centroide Ok+1 sustituye a Ok centroide, O2 Ok+1 - El proceso se repite hasta que los k centroides se estabilizan. estabilizan análisis no jerárquico 2 Formación 2. F ió de d los l nuevos grupos: - Se calcula distancia de cada observación a los k centroides y se asigna i all más á cercano. - Se recalculan los centroides (etapa 1) y se vuelven a asignar las observaciones. observaciones - El proceso finaliza cuando las observaciones no cambian de grupo o cuando se alcanza un determinado número de iteraciones (marcadas por el investigador) elección El Elección ió entre t conglomerado l d jerárquico j á i o no jerárquico: j á i - Sigue planteando dudas. - Depende de los objetivos del estudio y de las propiedades de los distintos métodos. - Lo ideal sería un enfoque q jjerárquico q inicial y complementario p a un enfoque no jerárquico final: - El análisis jerárquico inicial determinaría cuál es el número de grupos y los centroides iniciales del posterior análisis no jerárquico. - El posterior análisis no jerárquico maximiza la homogeneidad dentro de grupos y la heterogeneidad entre grupos. grupos

ANÁLISIS CLUSTER

Documentos relacionados

Productos

Apoyo

ANÁLISIS CLUSTER

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib