Análisis de conglomerados

Anuncio
Tema 3: Análisis multivariante para la agrupación
Objetivo: Encontrar los grupos naturales en los
que se divide la población.
Ejemplo canónico en Biologia:
Taxonomía
Rosa doméstica
Reino:
Plantae (Plantas)
Grupo:
Tracteophyta (planta vascular)
Subgrupo: Pteropsida (planta de helechos y semillas)
Clase:
Dicotyledoneae
Orden:
Rosales
Familia: Rosaceae (Cerezas, ciruelo, espino, rosas y relativos
Género: Rosa
Especia: Galliea (Rosa domestica)
 La clasificicación procede de lo mas nátural a lo mas particular
 Demografía, Medio ambiente (vulnerabilidad de los acuíferos)
La técnica de subdividir una población en distintos
grupos se llama
Cluster Analysis
(Análisis de conglomerados)
¡Malas noticias! El análisis de conglomerados es
altamente empírico. Hay distintos métodos que pueden dar
lugar a muy diferentes grupos.
Además, como los grupos
Son desconocidos a priori es difícil juzgar los resultados
Problema de clasificación
Dada una matriz de datos X correspondiente a n individuos,
el problema consiste en asignar los n individuos a k grupos
siguiendo dos reglas
Regla I: Cada elemento se asigna a un único grupo
Regla II: Cada grupo es homogeneo internamente
¿Cómo medimos la homogeneidad de un grupo?
(similitudes)
Regla III: Distintos grupos son heterogeneos
(distancias)
Similitudes y distancias
Nota:
Para este problema se utiliza la noción de distancia Euclidea. La distancia
de Mahalanobis nos añadiría mas información pero como no sabemos los grupos no
conocemos las correspondientes matrices de varianzas covarianzas.
Matriz de
distancias
Nota II:
Dependiendo del problema nos interesa trabajar con las variables estandarizadas
o no (A veces interesa dar mas peso a las variables con magnitudes mas grandes) . En un
Problema real puede ser conveniente hacer ambas
Nota III:
No siempre lo mas conveniente es usar la distancia Euclidea
(Distancia de Manhattan, Minkowski..)
Nota IV:
Si las variables toman valores en los que las unidades son ficticias
(Variables cualitativas) nos interesa cambiar el concepto de distancia por
El de
Similitudes
Variables binarias (o dicotómicas)
X1
X2
X3
0
hombre
1
mujer
0
fumador
1
No fumador
0
sobrepeso
1
Sin sobrepeso
Similitudes
Supongamos dos observaciones de p-variables binarias
xi
[1,0,0,1,0,1] x j
[1, 0,1, 0, 0,1]
Definiciones
a=Número de veces que ambas observaciones tienen 1
b= Número de veces que la observación i tiene 1 y la j 0
c=Número de veces que la observación j tiene 0 y la i 1
d=Numero de veces que ambas tienen 0
Proporción de
coincidencias
Proporción de
apariciones
Matriz de similitudes
Métodos de agrupación
Métodos jerárquicos: Los grupos van creciendo de mas a menos homogéneos
Métodos no jerárquicos: Se forman grupos homogéneos, pero no se establecen
relaciones dentro de los grupos
Jerarquicos
Los que estudiaremos
De Aglomeración; Parten de elementos individuales y (usando similitudes o
distancias ) las van agregando a grupos
De división
; Parten del total como un único grupo y lo van dividiendo
sucesivamente hasta llegar a los elementos individuales
Descripción del metodo jerárquico de
aglomeración
Punto de Partida: La matriz de similitudes o matriz de distancias.
La matriz de similitudes
N=5
1- Comenzamos con n clusters con un solo elemento
2- Buscamos en la matriz de similitudes (distancias)
el par con mayor similitud (menor distancia) e.g U V
A (Agrostis tenuis) y F(Festuca Rubra)
3- Unimos los cluster es U y V formando uno nuevo UV. Y actualizamos la
Matriz ahora con N-1 clusteres.
4- Repetimos los pasos 2 y 3 hasta quedarnos con un único cluster
¿????
Se comparan
Los mas cerca
nos
Se comparan
Los
Mas lejanos
Se comparan
Los centroides
¡Distintos métodos dan lugar a distintos clusteres!
Park Grass con Encadenamiento simple o vecino mas próximo
=
¡AF y D son los mas cercanos!
Calculamos la nueva matriz de similitudes
Solo nos quedan 3 clusteres,
AFD, B y C
¡AFD y B son los mas cercanos!
Calculamos la nueva matriz de similitudes
Representanciones del algoritmo
jerárquico
I: Historial de Conglomeración
Parte Importante
II: Dendograma
Ejemplos tipos de maiz en venezuela
Variables demográficas
Otros métodos
Vecino mas lejano
Paso I: empezamos con la misma matriz que nos da el mismo cluster AF
Paso II: Ahora el cálculo de la distancia entre clusters es diferente!
Paso III: y asi seguimos --
Resultado
Método de centroides (distancias)
¡ La respuesta es diferente!
Problema:¿ Como decidir cuantos
grupos significativos hay?
Respuesta: Anova, A. Discriminante SENTIDO COMÚN (INFORMACIÓN
EXTERNA), SCDG
Respuesta: Se corta el dendograma en un lugar sensato de manera que los
Clusteres seleccionados tengan alguna significación.
Ejemplos tipos de maiz en venezuela
Métodos no jerarquicos (K-medias)
Paso I: Decidimos cuantos grupos queremos (K)
(despues veremos un criterio)
Paso II: Asignamos aleatoriamente n/K elementos a
cada grupo. Tenemos K grupos
K
1
i
Paso III: Hallamos el centro de cada grupo. Obtenemos
K centros x
i
Paso IV: Para cada elemento x_i hallamos su distancia
(Euclidea) a cada xk y le reasignamos al grupo
que la minimiza. Obtenemos K nuevos grupos
posiblemente distintos
2
Ki
Paso V=Paso III: Repetimos el proceso obteniendo nuevo
grupo
K
3
i
Paso V=Paso III: Repetimos el proceso hasta llegar a
una etapa j tal que
Ki
j
Ki
j 1
Criterio de homogeneidad : Suma del cuadrado de la
distancia entre los
Grupos (SCDG)
 Mide la homogeneidad entre los grupos (los grupos finales minimizan SCDG).
Metodo jerarquico de Ward.
 Criterio para decidir cuantos grupos
 Es un viejo conocido disfrazado
¿Cuántos grupos?
F>10
F<10
K+1 grupos seran mas homogeneos
No interesa hacer grupos mas pequeños
Tortugas I
Tortugas II
Cocodrilos
¿Qué clusters tienen interpretación?
Descargar