Clasificación Automática

Anuncio
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
Clasificación Automática
CIMPA-UCR
“Cluster analysis”
Análisis de conglomerados
Análisis tipológico
Análisis de grupos
Arboles
aditivos
Jerárquicos
Piramidales
No disjuntos
Difusos
Particionamiento
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
Método de nubes dinámicas
CIMPA-UCR
Forgy (1965)
Mc Queen (1967) “k - means”
Diday (1969) → MND
• Da una partición inicial al azar: P.
• calcula los centros
• Asigna los individuos al centro más cercano:
ciclos
forma c1 ,..., ck nueva
• Recalcula los centros g1 ,..., g k
Hasta alcanzar una estabilización.
Clasificación Automática
Método de nubes dinámicas
CIMPA-UCR
Forgy (1965) : esquema básico
Diday (1969) : esquema general
• Una clase se representa por un núcleo o prototipo
Cl
Nl
• A partir de una representación inicial en núcleos, se iteran:
- se hacen clasificaciones por asignación de los objetos al
al núcleo más cercano
- se representan las clases mediante el cálculo de los
núcleos
Clasificación Automática
Ejemplos de núcleos
CIMPA-UCR
• Caso euclídeo: centro de gravedad
(punto u objeto promedio)
• Caso no euclideano: una muestra
(objetos más representativos)
• Caso explicativo: rectas de regresión
*
Clasificación Automática
Ejemplos de núcleos
CIMPA-UCR
• Reconocimiento de formas: métricas o distancias adaptativas
Una sola métrica
*
*
Una métrica por clase:
*
*
*
Clasificación Automática
Etapas en el MND
CIMPA-UCR
Asignación
xi → Cl si
d ( xi , N l ) ≤ d ( xi , N h ) para h ∈ {1,..., k }
ie: d ( xi , N l ) ≤ mín d ( xi , N h )
h
En caso de igualdad, se asigna xi a la clase de índice menor
Representación
Nl es núcleo de cl si el criterio W es mínimo con Nl
Caso euclídeo: Nl = gl , el centro de gravedad
Teorema de Huygens
I a (Cl ) = I gl (Cl ) + µ g l − a
I a (Cl ) =
∑ pi xi − a
xi ∈Cl
2
2
Clasificación Automática
MND: núcleos son centros de gravedad
CIMPA-UCR
Forgy 1965, Diday 1967, Mac Queen 1967
d : distancia Euclídea clásica (cuadrática)
x j : cuantitativas
k
W ( P, L ) = ∑
xi − N l
∑p
i
2
l =1 xi ∈Cl
k
=∑
∑p
i
xi − g l
2
+ Cl g l − N l
2
l =1 xi ∈C l
Núcleo que minimiza: centro de gravedad gl
k
W ( P, L ) = W = ∑
2
∑ pi xi − gl :
l =1 xi ∈Cl
Inercia intra-clases
Clasificación Automática
MND: núcleos son centros de gravedad
CIMPA-UCR
Forgy 1965, Diday 1967, Mac Queen 1967
Algoritmo:
1. Escoger k individuos: (al azar o con experticia) g1( 0 ) , g 2( 0) ,..., g k( 0)
(t )
g
2. Para i = 1 hasta n: asignar xi al centro l
tal que:
{
xi − g l( t ) = Mín xi − g l( t )
l =1... k
}
(caso de igualdad: menor índice)
Se forman clases C1( t ) , C2( t ) ,..., Ck(t )
3. Calcular núcleos: para l = 1 hasta k
g l(t ) =
1
(t −1)
µl
∑ pi xi
xi ∈Cl( t −1 )
con
µ l(t −1) =
∑p
xi ∈Cl( t −1 )
4. Hasta que ningún individuo cambia de clase
i
(t = t + 1)
Clasificación Automática
MND: convergencia
CIMPA-UCR
W decrece en cada iteración del MND
ASIG: i) Sean P = (C1 ,..., Ck ), L = (g1 ,..., g k ), f (L ) : partición alrededor
de los gl
k
W ( L, P ) = ∑
∑ pi xi − gl
2
l =1 xi ∈Cl
k
W (L, f (L )) = ∑
2
∑ pi xi − g l ,
con f (L ) = (D1 ,..., Dk )
l =1 xi ∈Dl
Sea z ∈ Ω: z ∈ Cj z ∈Dh
por definición de Dh:
z − gh < z − g j
⇒ pz z − g h
2
≤ pz z − g j
2
Razonando ∀ z ∈ Ω: W (L, f (L )) ≤ W (L, P )
Clasificación Automática
DESCRIPCIÓN DE UNA PARTICIÓN (1)
CIMPA-UCRM:
daigonal
R ≈ 1 ⇒ Buena Clasificación
si
Indice global:
si R ≈ 0 ⇒ Mala Clasificación
Contribución de las variables:
B
R=
I
( )
j
var x
x → cor ( j ) =
var x j
j
( )
j
con : x medidas de x j en cada
clase
Descripción de las clases:
var (x )
B(l ) =
:
j
l
B
p
W (l ) = ∑
(
posición de Cl respecto a g B( l ) ↑ ⇒ Cl es
excéntrico
)
2
∑ pi xij − glj :
j =1 xi ∈Cl
concentración de la clase W( l ) ↓
⇒ Cl está concentrado
Clasificación Automática
DESCRIPCIÓN DE UNA PARTICIÓN (2)
CIMPA-UCR
Descripción de las clases por variable:
x j ≈ Cl : cor ( j , l ) =
(
j
l
µl x − x
)
j 2
( )
var x j
cor ( j , l ) ↑: x j es homogénea sobre Cl
Ej: R = 94%
cor (1) = 96.7% → discrimina
cor (2) = 89.8%
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Clasificación Automática
CIMPA-UCR
Descargar