Definición de grupos: clasificación

Anuncio
Definición de grupos:
clasificación
Capítulos 10 y 11 de
McCune y Grace 2002
Clasificar
• Proceso natural humano para interpretar
el mundo
• Pero estamos acostumbrados a sólo
observar pocas dimensiones
• Más complejo cuando intentamos
clasificar objetos de muchas dimensiones
como los datos de composición
Opciones generales
• Clasificación jerárquica o no-jerárquica
– Jerárquica: grupos se componen de otros grupos
– No-jerárquica: los grupos no tienen relacion entre
ellos
• Clasificación politética o monotética
– Politética: usa > una variable para definir grupos
– Monotética: usa una variable
• Clasificación aglomerativa o divisiva
– Aglomerativa: primer grupo formado por los 2 objetos
mas parecidos
– Divisiva: primer grupo es el conjunto de todos los
objetos
Clasificación jerárquica
aglomerativa
• Pasos:
– Calcular la matriz de distancias (o similaridades)
– Unir 2 elementos de acuerdo a algún criterio de
distancia mínima
– Combinar los atributos de las entidades en ambos
grupos
– Desactivar los elementos del primer grupo y evaluar
ese grupo con los demas elementos
– Formar los próximos 2 grupos, etc.
• Los resultados se pueden presentar en un
dendrograma
Ejemplo
Método de enlace sencillo (o de
vecino más cercano)
Matriz
de
similaridades
Subgráfica conectada
Dendrograma
Dendrogramas
Dendrogramas
• La escala en el dendrograma se puede
expresar por:
– Similaridad según la medida utilizada
– Función objetiva:
• % de información restante:
¿Dónde podar el dendrograma?
• Los criterios dependen de los objetivos
– Homogeneidad dentro de grupos
– Número de grupos vs número de elementos
• Pocos grupos pueden ser muy heterogéneos
• Muchos grupos derrotan el propósito de clasificar
Tres métodos de enlace
recomendados para datos de
comunidades
UPGMA, Ward y Beta flexible
UPGMA: “Unweighted Pair-Group
Mathematical Average”
UPGMA
Enlace sencillo vs. UPGMA
Método de Ward
Método de Ward
Método de Beta flexible
¿UPGMA, Ward o Beta flexible?
• UPGMA:
– Bastante conservador de espacio
– Pero tiende al encadenamiento
• Ward:
– Conservador de espacio
– Pero incompatible con distancias por proporción
• Beta flexible:
– Encadenamiento es alto cuando beta se acerca a +1
– Contrae el espacio cuando beta se acerca a -1
– Resultados más aceptables cuando beta ~ -0.25
Ventajas y desventajas de
clasificación jerárquica aglomerativa
• El resultado en multiniveles puede sugerir
relaciones entre grupos
• Puede haber agrupaciones incorrectas
porque las fusiones subsiguientes
dependerán de las anteriores.
• Para datos bien heterogéneos puede ser
conveniente subdividir en grupos más
manejables y luego analizar con
ordenaciones.
Métodos no jerárquicos
• Este tipo de clasificación asigna las
unidades en un número de grupos que
uno decida inicialmente.
• Bien útil cuando el conjunto de datos es
bien grande.
Evaluación de la calidad de la
clasificación
• Grado de encadenamiento
• Interpretabilidad
• Comparación con algún atributo
independiente
Grado de encadenamiento
Interpretabilidad
• ¿Hace sentido el dendrograma?
• ¿Son los grupos el resultado de algún
proceso biológico interesante?
Comparar con atributo
independiente
• ¿Son los miembros de un grupo similares
según los valores de alguna variable (no
incluida en los datos analizados) pero
distintos en esa variable a los miembros
de otros grupos?
¿Qué informar?
• Medida de distancia utilizada
• Método de enlazar
• Si se buscaron elementos clasificados
erróneamente, cómo se hizo y cómo se
corrigieron.
• Dendrograma y cuál medida se utilizó en la
escala
• Criterios para podar el dendrograma (mencionar
la cantidad de información retenida a ese nivel).
Ejercicio
• Generar una clasificación manualmente
por enlace sencillo con los datos de
Oak_t_6x5r
• Comparar con UPGMA, Ward y Beta
flexible
Descargar