I. PRIMERA PARTE Introducción a los métodos de clasificación Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°1 1. ¿QUÉ SIGNIFICA CLASIFICAR UN CONJUNTO DE UNIDADES DE OBSERVACIÓN? ✔ Aplicar un método de clasificación a un conjunto dado de unidades de observación, significa definir en ese conjunto las clases entre las cuales se distribuyen los elementos del conjunto. ✔ Existen dos grandes familias de métodos estadísticos que permiten clasificar un conjunto dado de unidades de observación : a) Los métodos de clasificación propiamente dichos. Fraccionan un conjunto dado de unidades de observación en subconjuntos homogéneos. b) Los procedimientos de clasificación o de partición. Distribuyen o asignan los elementos de un conjunto dado de unidades de observación entre clases preestablecidas. Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°2 2. CLASES, CLASES «EMPÍRICAS» Y CLASIFICABILIDAD DE UN CONJUNTO DE UNIDADES DE OBSERVACIÓN Los métodos de clasificación y de partición son procedimientos automáticos destinados a definir «clases de individuos» lo más semejantes posibles. 2.1. Las «clases» de individuos semejantes Si los n individuos sobre los cuales se observaron p características están representados en un espacio de p dimensiones.... Ejemplo en R 2 : p = 2 se llaman «clases» a los subconjuntos de individuos de ese espacio de representación que son identificables porque : ✔ en ciertas zonas del espacio existe una gran densidad de individuos. ✔ en las zonas del espacio que separa esos subconjuntos existe una baja densidad de individuos. Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°3 2.2. Clasificabilidad de los elementos de una tabla observada ✘ Ä No se puede postular la existencia de clases en un conjunto de observaciones. Los elementos de una tabla T(n,p) cualquiera no son necesariamente clasificables.... Ejemplo en R 2 Es necesario explorar previamente la información disponible, antes de seleccionar un algoritmo de clasificación. Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°4 ✘ Ä Sólo podemos verificar la existencia de niveles de síntesis significativos correspondientes a la organización de los objetos en clases y subclases «empíricas». La significación de los niveles de síntesis establecidos por un algoritmo de clasificación depende de : ø la selección de una distancia adecuada para evaluar la semejanza entre los elementos y grupos de elementos a comparar ø la selección de un algoritmo adecuado de clasificación. Ejemplos de configuraciones de nubes de puntos en dos «clases». Problemas ligados a la selección del algoritmo de clasificación adecuado Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°5 II. SEGUNDA PARTE PRESENTACIÓN DE ALGUNOS MÉTODOS DE CLASIFICACIÓN Y DE PARTICIÓN DE UN CONJUNTO DE OBJETOS Clasificación de los objetos en línea de una tabla T(n, p), con p variables cuantitativas Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°6 1. ETAPAS DE APLICACIÓN DE UN MÉTODO DE CLASIFICACIÓN ➧ Disponemos de una tabla resumen de tipo T(n,p) [n líneas/individuos descriptos por p caracteres] ➧ Los elementos de T(n,p) presentan una estructura de grupo o de jerarquía de grupos encajados. La aplicación se desarrolla en tres etapas : PRIMERA ETAPA : se crea una tabla D(n,n) que presenta el grado de semejanza de cada individuo i con respecto a cada individuo j de T(n,p), tomando en cuenta los p caracteres observados. SEGUNDA ETAPA : algoritmo de clasificación jerárquica. 1. Se comienza con una partición del conjunto de los n individuos de manera tal que cada uno sea el único elemento de cada una de las clases de una partición en un número de clases igual al número de individuos. 2. Se reúnen en una clase única las dos clases más parecidas (semejantes) de la etapa anterior. El número de clases restantes disminuye de una unidad. 3. Se prosigue así hasta no disponer más que de una sola clase que reúne todas las clases (y en consecuencia todos los individuos). TERCERA ETAPA : se describen los contenidos de los subconjuntos de clases obtenidos en cada etapa y se evalúa la calidad de la clasificación obtenida. Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°7 Pero... Para poner en acción un algoritmo de clasificación jerárquica debemos resolver dos problemas: ❶ ¿Cómo definir y evaluar la semejanza entre « clases » compuestas de un individuo (subconjuntos de cardinal 1)...? ❷ ¿Cómo definir y evaluar la semejanza entre «clases» de individuos que son subconjuntos de cardinal superior a 1...? Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°8 2. SEMEJANZA ENTRE «INDIVIDUOS» DE UNA TABLA T(n, p) 2.1. Índices de similaridad La semejanza entre dos individuos i y j puede ser definida matemáticamente por una función s ij — a valores reales — de las observaciones correspondientes a las líneas i y j de T(n,p). Existen diferentes funciones s ij que varían en relación con el nivel de medida de las p variables de T(n,p) . ✘ La semejanza entre los individuos i y j está definida por una función simétrica : Siendo: sij = s ji ∀i ; ∀j sij ≤ sii = s jj En ese caso, s ij es un índice de similaridad. En general : 0 ≤ sij ≤ 1 Pero, por ejemplo, el índice de correlación : − 1 ≤ Programa PRESTA - 1999 - Eduardo CRIVISQUI sij ≤ 1 . Tr. N°9 2.2. Índices de disimilaridad Para evaluar la «similaridad» entre los individuos de T(n,p) se definen «índices de disimilaridad» que varían a la inversa de los índices de similaridad. Sea sij un índice de similaridad 0 Entonces : d ij = 1 − sij d ij = d ji ∀i ; ∀j naturalmente : si en particular : en general : ≤ sij ≤ 1 . es un índice de disimilaridad. d ii = d jj ; y 0 ≤ d ij ≤ 1 sij = 1 ⇒ d ij = 0 . sii = 1 ⇒ d ii = 0 . sij = 1 ⇒ d ij = 0 si y solamente si las líneas i y j de T(n,p) son indénticas. Además : si sij = 1 y d ij = 0 ⇒ d ik = d jk ∀k . Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°10 2.3. Distancias Llamamos «distancia» a todo índice de disimilaridad que satisfaga las siguientes propiedades : 1. d ij = 0 si y solamente si i coincide con j. d ii = 0 ; d jj = 0 ∀i ; ∀j la tabla D(n,n) tiene diagonal nula. 2. d ij = d ji ∀i ; ∀j 3. d ij ≤ d ik + d jk ∀i ; ∀j y ∀k la tabla D(n,n) es simétrica. esta propiedad es llamada «desigualdad triangular». ✔ Si d ij satisface la 3° propiedad ⇒ d ij es una «distancia». ✔ Si d ij es una distancia, entonces las semejanzas entre los individuos i y j (para todo i y para todo j) pueden ser representadas en un espacio euclídeo. Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°11 2.4. Distancia ultramétrica Si d ij es una distancia y además satisface a la siguiente «desigualdad ultramétrica», d ij ≤ max(dik ; d kj ) ∀i ; ∀j y ∀k entonces d ij es una distancia ultramétrica. ✔ La relación entre tres individuos forma, entonces, un triángulo isósceles. ✔ Toda ultramétrica es una distancia... pero toda distancia no es necesariamente una ultramétrica. Programa PRESTA - 1999 - Eduardo CRIVISQUI Tr. N°12 2.5. Selección de una distancia entre los objetos a clasificar ✔ Siendo T(n, p) una tabla de medidas : n x.k = ∑ xik i =1 n 1 xk = ∑ xik n i =1 n 2 1 2 sk = ∑ (xik − xk ) n i =1 ✔ Distancias más usuales : 1. d = ∑ (xik − x jk ) p 2 ij 2 k =1 p 2. d ij2 = ∑ (x k =1 ik − x jk ) sk2 : distancia euclidiana. 2 : distancia euclidiana reducida. t 3. 4. 5. 6. xik − x jk d =∑ skt k =1 p x − x ik jk 2 d ij = ∑ sk k =1 2 p (x − x ) jk d ij2 = ∑ ik 2 k =1 (xik + x jk ) p x − x ik jk 2 = d ij ∑ k =1 xik + x jk 2 ij p Programa PRESTA - 1999 - Eduardo CRIVISQUI : distancia de Minkowski. : distancia de city-blocks. : divergencia. : distancia de Camberra. Tr. N°13