CLASIFICACIÓN AUTOMÁTICA / ANÁLISIS CLUSTER

Anuncio
Cluster / C1 Introducción. Una visión general.
1
CLASIFICACIÓN AUTOMÁTICA / ANÁLISIS CLUSTER
1) INTRODUCCIÓN
El Análisis Cluster recibe otros nombres en diferentes entornos:
RECONOCIMIENTO DE PATRONES
TAXONOMÍA NUMÉRICA
MORFOMÉTRICA
CLASIFICACIÓN NO SUPERVISADA (Machine Learning)
Objetivo:
Agrupar objetos similares utilizando sus características.
Para:
-
Reducir la dimensión de los datos (número de individuos).
Tener una visión descriptiva (análisis de datos)
Buscar grupos naturales, objetos parecidos.
Buscar patrones en los datos y construir leyes o modelos que los
expliquen.
- Generar hipótesis.
- Buscar esquemas de clasificación de
o plantas
o animales (taxonomía)
o enfermedades
a partir de sus características.
Los diferentes propósitos que se persiguen en muy diversos campos
hacen surgir gran cantidad de técnicas de clasificación automática:
- Good (ya en 1977) cataloga los diferentes métodos cluster
existentes basándose en 45 criterios (si-no)  245 tipos de
métodos de clasificación.
- 1000 publicaciones/año en revistas de investigación años 80.
Campos de aplicación:
- arqueología
- antropología
- economía
- educación
- geología
- lingüística
- medicina
- ciencias políticas
- psiquiatría
- sociología
- análisis de mercados
...
- agricultura
- geografía
- genética
- psicología
Cluster / C1 Introducción. Una visión general.
2
Evolución histórica:
-
-
Explosión de métodos en los años 60 con la llegada de las computadoras.
Búsqueda de algoritmos eficientes en los años 70.
Falta de unanimidad de opiniones 
o estudiaremos varios métodos de clasificación
o analizaremos sus puntos fuertes y débiles.
Resurgimiento y auge explosivo con la aparición del fenómeno big data, favorecido por
la generalización del uso de internet, y el desarrollo de las capacidades de
almacenamiento y proceso de datos (última década).
1.1) Tipos de datos:
1- Vectores de datos p-dimensionales.
2- Matrices de proximidad nxn.
3- Datos ordenados o “colocados”
... que siempre se pueden convertir en datos de proximidad.
A partir de estos datos de proximidad construyo clusters de
objetos que son similares o están próximos unos de otros.
Datos Tipo 1. Vectores de datos p-dimensionales:
Provienen de tomar medidas u observar p características en n
objetos individuales; estas variables que se observan pueden ser
cuantitativas, cualitativas, textuales… :
Variables cuantitativas (discretas / continuas)
Variables cualitativas (ordinales / nominales)
Nota. Al definir la medida de proximidad entre individuos hay que
ser cuidadoso con las variables que se manejan y analizar el significado
de sus diferentes valores. Por ejemplo, conviene a veces tratar de forma
especial ciertas variables dicotómicas (0/1 si/no presencia/ausencia de una
característica), puesto que:
Cluster / C1 Introducción. Una visión general.
3
i) La presencia es en algunas ocasiones mucho más relevante que su
ausencia:
Ejs.:
Padece enfermedad terminal?
Le ha tocado la lotería este año?
Está embarazada?
ii) La categoría “presente” a veces se subdivide más en términos
cuantitativos o cualitativos (variables condicionales)
Ej.:
¿Practica algún deporte?
¿Cuál?
¿Cuánto tiempo semanal?
Cualesquiera que sean los códigos utilizados para las variables
cualitativas, los datos de cada individuo i se pueden presentar finalmente
como un vector p-dimensional xi.
Después se agrupan en una matriz de datos X, con filas xit:
X=
x t 
 1
_ 
[(xij)] =  t 
 xi 
 
_ 
 t 
 x n 
= [x1|...|xj|...|xp]
El objetivo del análisis cluster es presentar/idear un esquema de
clasificación de los xi elementos en k clusters (grupos, tipos, clases ...)
A diferencia con el Análisis Discriminante (Clasificación
supervisada en Machine Learning), en Clasificación Automática las
características de los cluster (y en muchos casos el nº de ellos) va a ser
determinado por los propios datos.
Datos Tipo 2. Matrices de proximidad nxn:
- medidas de similaridad (crs)
- medidas de disimilaridad (drs)
entre los sujetos r y s.
d(x,y)
1
2
3
4
5
1
0
7
1
9
8
2
7
0
6
3
5
3
1
6
0
8
7
Son tablas de doble entrada
con datos de proximidad ó lejanía entre individuos
4
9
3
8
0
4
5
8
5
7
4
0
Cluster / C1 Introducción. Una visión general.
4
1.2) Tipos de procedimientos
Procedimientos Tipo 1.
MÉTODOS JERÁRQUICOS:
- ASCENDENTES ó AGLOMERATIVOS
- DESCENDENTES ó DIVISIVOS
Los cluster o clases son agrupados en otros mayores.
El proceso se repite a diferentes niveles.
Forman un “árbol de clusters”.
Se puede construir
- de abajo hacia arriba: Técnicas aglomerativas
consistentes en fusiones sucesivas.
- de arriba hacia abajo: Métodos de división sucesiva de
clases. Las particiones son cada vez más finas
El gráfico del árbol se llama “dendograma”:
T ree Diagram for 5 V ariables
S ingle Linkage
Dis s imilarities from matrix
V A R1
V A R3
V A R2
V A R4
V A R5
0
1
2
3
4
5
6
7
Linkage Dis tanc e
Tipo 2.
MÉTODOS NO JERÁRQUICOS (Seber Cap. 7.5):
Producen una sola partición en un predeterminado nº de clases
que no se solapan.
Los Tipos 1 y 2 se pueden combinar de formas diferentes y dan lugar
a los procedimientos conocidos como “métodos mixtos”
Tipo 3. CLUSTERS SOLAPADOS (Seber Cap. 7.6):
Se permite cierto grado de solapamiento entre clases.
Descargar