Cluster / C1 Introducción. Una visión general. 1 CLASIFICACIÓN AUTOMÁTICA / ANÁLISIS CLUSTER 1) INTRODUCCIÓN El Análisis Cluster recibe otros nombres en diferentes entornos: RECONOCIMIENTO DE PATRONES TAXONOMÍA NUMÉRICA MORFOMÉTRICA CLASIFICACIÓN NO SUPERVISADA (Machine Learning) Objetivo: Agrupar objetos similares utilizando sus características. Para: - Reducir la dimensión de los datos (número de individuos). Tener una visión descriptiva (análisis de datos) Buscar grupos naturales, objetos parecidos. Buscar patrones en los datos y construir leyes o modelos que los expliquen. - Generar hipótesis. - Buscar esquemas de clasificación de o plantas o animales (taxonomía) o enfermedades a partir de sus características. Los diferentes propósitos que se persiguen en muy diversos campos hacen surgir gran cantidad de técnicas de clasificación automática: - Good (ya en 1977) cataloga los diferentes métodos cluster existentes basándose en 45 criterios (si-no) 245 tipos de métodos de clasificación. - 1000 publicaciones/año en revistas de investigación años 80. Campos de aplicación: - arqueología - antropología - economía - educación - geología - lingüística - medicina - ciencias políticas - psiquiatría - sociología - análisis de mercados ... - agricultura - geografía - genética - psicología Cluster / C1 Introducción. Una visión general. 2 Evolución histórica: - - Explosión de métodos en los años 60 con la llegada de las computadoras. Búsqueda de algoritmos eficientes en los años 70. Falta de unanimidad de opiniones o estudiaremos varios métodos de clasificación o analizaremos sus puntos fuertes y débiles. Resurgimiento y auge explosivo con la aparición del fenómeno big data, favorecido por la generalización del uso de internet, y el desarrollo de las capacidades de almacenamiento y proceso de datos (última década). 1.1) Tipos de datos: 1- Vectores de datos p-dimensionales. 2- Matrices de proximidad nxn. 3- Datos ordenados o “colocados” ... que siempre se pueden convertir en datos de proximidad. A partir de estos datos de proximidad construyo clusters de objetos que son similares o están próximos unos de otros. Datos Tipo 1. Vectores de datos p-dimensionales: Provienen de tomar medidas u observar p características en n objetos individuales; estas variables que se observan pueden ser cuantitativas, cualitativas, textuales… : Variables cuantitativas (discretas / continuas) Variables cualitativas (ordinales / nominales) Nota. Al definir la medida de proximidad entre individuos hay que ser cuidadoso con las variables que se manejan y analizar el significado de sus diferentes valores. Por ejemplo, conviene a veces tratar de forma especial ciertas variables dicotómicas (0/1 si/no presencia/ausencia de una característica), puesto que: Cluster / C1 Introducción. Una visión general. 3 i) La presencia es en algunas ocasiones mucho más relevante que su ausencia: Ejs.: Padece enfermedad terminal? Le ha tocado la lotería este año? Está embarazada? ii) La categoría “presente” a veces se subdivide más en términos cuantitativos o cualitativos (variables condicionales) Ej.: ¿Practica algún deporte? ¿Cuál? ¿Cuánto tiempo semanal? Cualesquiera que sean los códigos utilizados para las variables cualitativas, los datos de cada individuo i se pueden presentar finalmente como un vector p-dimensional xi. Después se agrupan en una matriz de datos X, con filas xit: X= x t 1 _ [(xij)] = t xi _ t x n = [x1|...|xj|...|xp] El objetivo del análisis cluster es presentar/idear un esquema de clasificación de los xi elementos en k clusters (grupos, tipos, clases ...) A diferencia con el Análisis Discriminante (Clasificación supervisada en Machine Learning), en Clasificación Automática las características de los cluster (y en muchos casos el nº de ellos) va a ser determinado por los propios datos. Datos Tipo 2. Matrices de proximidad nxn: - medidas de similaridad (crs) - medidas de disimilaridad (drs) entre los sujetos r y s. d(x,y) 1 2 3 4 5 1 0 7 1 9 8 2 7 0 6 3 5 3 1 6 0 8 7 Son tablas de doble entrada con datos de proximidad ó lejanía entre individuos 4 9 3 8 0 4 5 8 5 7 4 0 Cluster / C1 Introducción. Una visión general. 4 1.2) Tipos de procedimientos Procedimientos Tipo 1. MÉTODOS JERÁRQUICOS: - ASCENDENTES ó AGLOMERATIVOS - DESCENDENTES ó DIVISIVOS Los cluster o clases son agrupados en otros mayores. El proceso se repite a diferentes niveles. Forman un “árbol de clusters”. Se puede construir - de abajo hacia arriba: Técnicas aglomerativas consistentes en fusiones sucesivas. - de arriba hacia abajo: Métodos de división sucesiva de clases. Las particiones son cada vez más finas El gráfico del árbol se llama “dendograma”: T ree Diagram for 5 V ariables S ingle Linkage Dis s imilarities from matrix V A R1 V A R3 V A R2 V A R4 V A R5 0 1 2 3 4 5 6 7 Linkage Dis tanc e Tipo 2. MÉTODOS NO JERÁRQUICOS (Seber Cap. 7.5): Producen una sola partición en un predeterminado nº de clases que no se solapan. Los Tipos 1 y 2 se pueden combinar de formas diferentes y dan lugar a los procedimientos conocidos como “métodos mixtos” Tipo 3. CLUSTERS SOLAPADOS (Seber Cap. 7.6): Se permite cierto grado de solapamiento entre clases.