Cluster / C4 Criterio de la inercia de Ward. 13 6 Criterio de la Inercia o Varianza ( Criterio de WARD) Busco clases compactas, formadas por individuos con características similares Datos: En muchas ocasiones, cada observación xi es un punto de un espacio euclídeo p-dimensional… Típicamente, los valores de p variables cuantitativas: cada observación xi es un punto de Rp Peso , Talla , Edad, Pres. Art. max, Pres.Art. min xi = ( 78.2 , 173.5 , 25.3 , 14.1 , 8.2 ) t xi es en este caso un punto de R5 Distancia: ... empleo en este espacio euclídeo una distancia# d para valorar la separación entre dos puntos… Centros de gravedad: … en estos espacios también puedo calcular promedios (C. de G.) Inercia: … a partir de los C. de G y la distancia d, puedo medir la calidad de una partición mediante inercias: 1. inercia intraclases. Mide el parecido de los individuos dentro de cada clase. Una partición será tanto mejor cuanto menor sea esta inercia intra clases. 2. inercia interclases. Mide la separación entre clases. Una partición será tanto mejor cuanto mayor sea esta inercia inter clases. _______________________ # En un espacio euclídeo disponemos un producto escalar de vectores xty, a partir del cuál se define la distancia d como d2(x,y) = (x-y)t(x-y) En el caso más frecuente trabajamos en el espacio Rp con la distancia euclídea unitaria d [ d2(x,y) =i(xi-yi)2 ], asociada al producto escalar habitual xty=ixiyi Cluster / C4 Criterio de la inercia de Ward. 14 Cálculo de inercias para definir la inercia en una partición de los elementos de E E={ x1, x2, … xn } ={ C1/ C2/ ... /Ck } necesitamos las distancias entre individuos y los pesos: d(xi, xj) distancia entre dos puntos xi y xj de E. pi , p(xi) peso del individuo i (en el caso más simple pi=1 i). a partir de ellos, calculamos el peso de cada clase y su centro: pA, p(A) peso de la clase A pA = p iA i (si los pi son todos 1, pA= nº de individuos en A) g centro de gravedad general de la nube de n puntos: 1 g= x i pi p i iE iE gA, g(A) centro de gravedad de la clase A: 1 gA = x i pi p(A) iA IA, I(A) inercia dentro de la clase A IA = p(x) d2(x, gA) xA A partir de la inercia dentro de cada clase, IA, defino la inercia intraclases para una partición : ={ C1/ C2/ ... /Ck } I= IC1+ IC2+ ... + ICk como suma de las inercias intra de las clases que la componen Cluster / C4 Criterio de la inercia de Ward. 15 Para cada partición de E en k clases C1, C2, ... Ck , tenemos los correspondientes k centros g1, g2, ... gk los k pesos p1, p2, ... pk las k inercias I1, I2, ... Ik y defino: - Inercia intraclases: IW= I1+ I2+ ... + Ik (a minimizar) k - Inercia interclases: IB = p i d 2 (gi ,g) (a maximizar) i=1 Objetivo de una buena clasificación (jerárquica o no): IW pequeña y/o IB grande ...pero el Teorema de Huygens asegura que: Ambos objetivos se alcanzan de forma simultánea puesto que en toda partición, la suma de las dos cantidades IW e IB es constante, igual a la inercia total de la nube, I: IW + IB = I (intenta demostrarlo) Al fundir las clases U y V en una clase Z la inercia se modifica: IW aumenta (pretendemos que IW sea pequeña). IB disminuye (pretendemos que IB sea grande). ... pero en la misma cantidad : =IW (Z) – [IW (U)+ IW (V)]= [IB (U)+ IB (V)]- IB (Z) = (#) p p = U V d 2 (g U ,g V ) (es la forma rápida de computar p U +pV En cada paso de una clasificación jerárquica con el índice de Ward, uniremos aquellas dos clases que hacen crecer Iw en menor medida (menor ). El paquete de programas SPAD (fue creado para el análisis de grandes tablas de datos) utiliza siempre el criterio de WARD y además lo hace sobre las variables artificiales resultantes de un análisis factorial (toma como datos los primeros factores principales resultantes de un ACP o AC previo sobre los datos originales) _________ # intenta demostrarlo Cluster / C4 Criterio de la inercia de Ward. 16 n Sea I= #1) d (xi ,g) ; demostar que I= 2 i1 I= n d (xi ,g) = 2 i1 n n (xi -g)'(x i -g) = 1 2n n d (x ,x ) 2 i j i , j1 n (x -x +x -g)'(x -x +x -g) = i1 i j j i j j i1 n n n i1 n i1 n i1 n i1 n i1 i1 i1 i1 = (x i -x j )'(x i -x j ) + (x i -x j )'(x j -g) + (x j -g)'(x i -x j ) + (x j -g)'(x j -g) = = (x i -x j )'(x i -x j ) + (x i -x j )'(x j -g) + (x j -g)'(x i -x j ) + (x j -g)'(x j -g) j=1…n. sumo en j: nI= n (x i -x j )'(x i -x j ) + (ng-nx )'(x -g) + (x -g)'(ng-nx ) + n (x -g)'(x -g) ] = i1 n [ j j j j j j j1 = = n n n n i , j1 j1 j1 j1 (xi -x j )'(xi -x j ) - n (x j -g)'(x j -g) - n (x j -g)'(x j -g) + n (x j -g)'(x j -g) = n (x -x )'(x -x ) - nI - nI + nI i j i j i , j1 1 y ya tenemos que I = 2n #2) #3) n d (x ,x ) 2 i j i , j1 Demostrar que en cualquier partición se cumple que IW+IB=I (Th Huygens) Demostrar que p U pV d 2 (g U ,g V ) p U +pV