Definición de grupos: clasificación Capítulos 10 y 11 de McCune y Grace 2002 Clasificar • Proceso natural humano para interpretar el mundo • Pero estamos acostumbrados a sólo observar pocas dimensiones • Más complejo cuando intentamos clasificar objetos de muchas dimensiones como los datos de composición Opciones generales • Clasificación jerárquica o no-jerárquica – Jerárquica: grupos se componen de otros grupos – No-jerárquica: los grupos no tienen relacion entre ellos • Clasificación politética o monotética – Politética: usa > una variable para definir grupos – Monotética: usa una variable • Clasificación aglomerativa o divisiva – Aglomerativa: primer grupo formado por los 2 objetos mas parecidos – Divisiva: primer grupo es el conjunto de todos los objetos Clasificación jerárquica aglomerativa • Pasos: – Calcular la matriz de distancias (o similaridades) – Unir 2 elementos de acuerdo a algún criterio de distancia mínima – Combinar los atributos de las entidades en ambos grupos – Desactivar los elementos del primer grupo y evaluar ese grupo con los demas elementos – Formar los próximos 2 grupos, etc. • Los resultados se pueden presentar en un dendrograma Ejemplo Método de enlace sencillo (o de vecino más cercano) Matriz de similaridades Subgráfica conectada Dendrograma Dendrogramas Dendrogramas • La escala en el dendrograma se puede expresar por: – Similaridad según la medida utilizada – Función objetiva: • % de información restante: ¿Dónde podar el dendrograma? • Los criterios dependen de los objetivos – Homogeneidad dentro de grupos – Número de grupos vs número de elementos • Pocos grupos pueden ser muy heterogéneos • Muchos grupos derrotan el propósito de clasificar Tres métodos de enlace recomendados para datos de comunidades UPGMA, Ward y Beta flexible UPGMA: “Unweighted Pair-Group Mathematical Average” UPGMA Enlace sencillo vs. UPGMA Método de Ward Método de Ward Método de Beta flexible ¿UPGMA, Ward o Beta flexible? • UPGMA: – Bastante conservador de espacio – Pero tiende al encadenamiento • Ward: – Conservador de espacio – Pero incompatible con distancias por proporción • Beta flexible: – Encadenamiento es alto cuando beta se acerca a +1 – Contrae el espacio cuando beta se acerca a -1 – Resultados más aceptables cuando beta ~ -0.25 Ventajas y desventajas de clasificación jerárquica aglomerativa • El resultado en multiniveles puede sugerir relaciones entre grupos • Puede haber agrupaciones incorrectas porque las fusiones subsiguientes dependerán de las anteriores. • Para datos bien heterogéneos puede ser conveniente subdividir en grupos más manejables y luego analizar con ordenaciones. Métodos no jerárquicos • Este tipo de clasificación asigna las unidades en un número de grupos que uno decida inicialmente. • Bien útil cuando el conjunto de datos es bien grande. Evaluación de la calidad de la clasificación • Grado de encadenamiento • Interpretabilidad • Comparación con algún atributo independiente Grado de encadenamiento Interpretabilidad • ¿Hace sentido el dendrograma? • ¿Son los grupos el resultado de algún proceso biológico interesante? Comparar con atributo independiente • ¿Son los miembros de un grupo similares según los valores de alguna variable (no incluida en los datos analizados) pero distintos en esa variable a los miembros de otros grupos? ¿Qué informar? • Medida de distancia utilizada • Método de enlazar • Si se buscaron elementos clasificados erróneamente, cómo se hizo y cómo se corrigieron. • Dendrograma y cuál medida se utilizó en la escala • Criterios para podar el dendrograma (mencionar la cantidad de información retenida a ese nivel). Ejercicio • Generar una clasificación manualmente por enlace sencillo con los datos de Oak_t_6x5r • Comparar con UPGMA, Ward y Beta flexible