6.4

advertisement
Cluster / C4 Criterio de la inercia de Ward.
13
6 Criterio de la Inercia o Varianza ( Criterio de WARD)
Busco clases compactas, formadas por individuos con características similares
Datos:
En muchas ocasiones, cada observación xi es un punto de un
espacio euclídeo p-dimensional…
Típicamente, los valores de p variables cuantitativas:
cada observación xi es un punto de Rp
Peso , Talla , Edad, Pres. Art. max, Pres.Art. min
xi = ( 78.2 , 173.5 , 25.3 ,
14.1
,
8.2
)
t
xi es en este caso un punto de R5
Distancia:
... empleo en este espacio euclídeo una distancia# d para valorar la
separación entre dos puntos…
Centros de gravedad:
… en estos espacios también puedo calcular promedios (C. de G.)
Inercia:
… a partir de los C. de G y la distancia d, puedo medir la calidad de
una partición mediante inercias:
1. inercia intraclases.
Mide el parecido de los individuos
dentro de cada clase.
Una partición será tanto mejor
cuanto menor sea esta inercia intra
clases.
2. inercia interclases.
Mide la separación entre clases.
Una partición será tanto mejor
cuanto mayor sea esta inercia inter
clases.
_______________________
# En un espacio euclídeo disponemos un producto escalar de vectores xty, a partir
del cuál se define la distancia d como d2(x,y) = (x-y)t(x-y)
En el caso más frecuente trabajamos en el espacio Rp con la distancia euclídea
unitaria d [ d2(x,y) =i(xi-yi)2 ], asociada al producto escalar habitual xty=ixiyi
Cluster / C4 Criterio de la inercia de Ward.
14
Cálculo de inercias
para definir la inercia en una partición  de los elementos de E
E={ x1, x2, … xn }
={ C1/ C2/ ... /Ck }
necesitamos las distancias entre individuos y los pesos:
d(xi, xj)
distancia entre dos puntos xi y xj de E.
pi , p(xi)
peso del individuo i (en el caso más simple pi=1 i).
a partir de ellos, calculamos el peso de cada clase y su centro:
pA, p(A) peso de la clase A
pA =
p
iA
i
(si los pi son todos 1, pA= nº de individuos en A)
g
centro de gravedad general de la nube de n puntos:
1
g=
x i pi

p
 i iE
iE
gA, g(A)
centro de gravedad de la clase A:
1
gA =
 x i pi
p(A) iA
IA, I(A)
inercia dentro de la clase A
IA =
 p(x) d2(x, gA)
xA
A partir de la inercia dentro de cada clase, IA, defino la
inercia intraclases para una partición :
={ C1/ C2/ ... /Ck }
I= IC1+ IC2+ ... + ICk
como suma de las inercias intra de las clases que la componen
Cluster / C4 Criterio de la inercia de Ward.
15
Para cada partición de E en k clases C1, C2, ... Ck , tenemos
los correspondientes k centros
g1, g2, ... gk
los k pesos
p1, p2, ... pk
las k inercias I1, I2, ... Ik
y defino:
- Inercia intraclases: IW= I1+ I2+ ... + Ik (a minimizar)
k
- Inercia interclases:
IB =
p
i
d 2 (gi ,g)
(a maximizar)
i=1
Objetivo de una buena clasificación (jerárquica o no):
IW pequeña y/o IB grande
...pero el Teorema de Huygens asegura que:
Ambos objetivos se alcanzan de forma simultánea puesto que
en toda partición, la suma de las dos cantidades IW e IB es constante,
igual a la inercia total de la nube, I:
IW + IB = I
(intenta demostrarlo)
Al fundir las clases U y V en una clase Z la inercia se modifica:
 IW aumenta (pretendemos que IW sea pequeña).
 IB disminuye (pretendemos que IB sea grande).
... pero en la misma cantidad :
 =IW (Z) – [IW (U)+ IW (V)]= [IB (U)+ IB (V)]- IB (Z) = (#)
p p
= U V d 2 (g U ,g V ) (es la forma rápida de computar 
p U +pV
En cada paso de una clasificación jerárquica con el índice de
Ward, uniremos aquellas dos clases que hacen crecer Iw en menor
medida (menor ).
El paquete de programas SPAD (fue creado para el análisis de
grandes tablas de datos) utiliza siempre el criterio de WARD y
además lo hace sobre las variables artificiales resultantes de un
análisis factorial (toma como datos los primeros factores principales
resultantes de un ACP o AC previo sobre los datos originales)
_________
#
intenta demostrarlo
Cluster / C4 Criterio de la inercia de Ward.
16
n
Sea I=
#1)
 d (xi ,g) ;
demostar que I=
2
i1
I=
n
 d (xi ,g) =
2
i1
n
n
 (xi -g)'(x i -g) =
1
2n
n
 d (x ,x )
2
i
j
i , j1
n
 (x -x +x -g)'(x -x +x -g) =
i1
i
j
j
i
j
j
i1
n
n
n
i1
n
i1
n
i1
n
i1
n
i1
i1
i1
i1
=  (x i -x j )'(x i -x j ) +  (x i -x j )'(x j -g) +  (x j -g)'(x i -x j ) +  (x j -g)'(x j -g) =
=  (x i -x j )'(x i -x j ) +  (x i -x j )'(x j -g) +  (x j -g)'(x i -x j ) +  (x j -g)'(x j -g) j=1…n.
sumo en j:
nI=
n
(x i -x j )'(x i -x j ) + (ng-nx )'(x -g) + (x -g)'(ng-nx ) + n (x -g)'(x -g) ] =
 
i1
n
[
j
j
j
j
j
j
j1
=
=
n
n
n
n
i , j1
j1
j1
j1
 (xi -x j )'(xi -x j ) - n (x j -g)'(x j -g) - n (x j -g)'(x j -g) + n (x j -g)'(x j -g) =
n
 (x -x )'(x -x ) - nI - nI + nI
i
j
i
j
i , j1
1
y ya tenemos que I =
2n
#2)
#3)
n
 d (x ,x )
2
i
j
i , j1
Demostrar que en cualquier partición se cumple que IW+IB=I (Th Huygens)
Demostrar que  p U pV d 2 (g U ,g V )
p U +pV
Descargar