Máster en Técnicas Estadísticas Análisis Multivariante. Año 2008 2009. Profesor: César Sánchez Sellero. Tema 10. Técnicas de formación de grupos 10.1. Introducción. En este tema haremos una breve introducción a los procedimientos de formación de grupos. Lo primero que destacamos es la amplitud y diversidad de estos métodos, tanto en sus objetivos como en los procedimientos que emplean. El aspecto común a todos ellos es el propósito de formar grupos que todavía no están denidos. En esto se diferencia del análisis discriminante, en el cual los grupos están perfectamente denidos y el propósito es clasicar a un individuo en alguno de los grupos. Como decimos, las técnicas de formación de grupos pretenden formar grupos, reconocer patrones o estructuras dentro de la población general, en base a cierto tipo de observaciones. Podemos plantear una clasicación de las técnicas de formación de grupos en: También se conocen como métodos de taxonomía numérica, pues tienen mucha semejanza con la taxonomía de los seres vivos en Biología. Partiendo de una matriz de distancias entre individuos, el objetivo es construir un árbol de clasicación en distintos niveles. En el nivel más bajo estarían grupos de individuos muy próximos o semejantes (por ejemplo, las especies). A niveles superiores se crean grupos como resultado de la agregación de los grupos de nivel inferior (por ejemplo, familias, tipos o reinos). Métodos jerárquicos Al contrario de los métodos jerárquicos, los métodos de particionamiento sólo pretenden una división de los individuos en un conjunto de grupos, todos al mismo nivel, que constituyen una partición de la población original. Métodos de particionamiento Los métodos que estudiaremos en este tema no establecen suposiciones sobre el modelo estadístico que generó los datos, y en este sentido se deben interpretar como métodos descriptivos que ayudan a la comprensión sobre las propiedades que presenta un conjunto de datos multivariantes. Además, como cualquier método descriptivo, puede servir como punto de partida que sugiere propiedades de la población, que merezcan un análisis más detallado. Aún así, existen también métodos de formación de grupos, que están basados en un modelo estadístico, que reeja propiedades previsibles sobre cómo están constituidos los grupos, por ejemplo, la normalidad de la distribución. En este contexto, se pueden adoptar métodos de inferencia para la construcción de los grupos. No trataremos aquí estos métodos basados en el modelo, y nos restringiremos a los métodos más conocidos de formación de grupos. 95 Máster en Técnicas Estadísticas 96 10.2. Métodos jerárquicos. Como ya se expresó en la introducción, los métodos jerárquicos parten de una matriz de distancia entre individuos, y en base a ella pretenden un agrupamiento de los individuos a distintos niveles. En el nivel más bajo cada grupo estaría formado por individuos, mientras que los grupos a niveles superiores serían el resultado de agregar grupos de niveles inferiores. Los algoritmos que se emplean para crear esta jerarquía pueden ser de dos tipos: Partiendo de los individuos, se construyen grupos formados por individuos, para después construir grupos, mediante la agregación de los grupos ya formados en etapas anteriores. Aglomerativos Partiendo del grupo total formado por todos los individuos, se genera una división en subgrupos (generalmente en dos), que más adelante vuelven a ser subdivididos. Divisivos Nos centraremos en los algoritmos aglomerativos, que son los más comunes. El algoritmo constaría de los siguientes pasos: Paso 1 (Comienzo): Se denen los grupos o clusters C1 , . . . , Cn , que está formados cada uno por un individuo. Paso 2: Se buscan los dos grupos Ci y Cj que estén más próximos, se juntan y consecuentemente se reduce el número de grupos. Paso 3: Se recalculan las distancias de todos los demás grupos al nuevo grupo, formado al juntar Ci y Cj . Paso 4: Si el número de grupos es uno, se detiene el algoritmo. En otro caso, se vuelve al paso 2. En este algoritmo queda por determinar cómo se efectúa el paso 3. De hecho, bajo esta misma estructura del algoritmo aglomerativo, los métodos concretos se diferencian en cómo resuelven este paso. Hay variadas formas de hacerlo, pero vamos a mencionar las tres que consideramos principales. Consiste en denir d(Ck , Ci ∪ Cj ) = min{d(Ck , Ci ), d(Ck , Cj )}, donde d(Cr , Cs ) denota la distancia del grupo Cr al grupo Cs . Esto es equivalente a denir la distancia entre dos grupos así: Método del mínimo: d(Cr , Cs ) = min i∈Cr ,j∈Cs dij siendo dij la distancia entre los individuos i y j , que en este caso pertenecen a los grupos Cr y Cs , respectivamente. Consiste en denir d(Ck , Ci ∪ Cj ) = max{d(Ck , Ci ), d(Ck , Cj )}. En este caso es equivalente a denir la distancia entre dos grupos como la mayor distancia entre sus individuos: d(Cr , Cs ) = max dij Método del máximo: i∈Cr ,j∈Cs Análisis Multivariante 97 n j i d(Ck , Ci ) + ni +n d(Ck , Cj ), Consiste en denir d(Ck , Ci ∪ Cj ) = nin+n j j siendo ni y nj el número de individuos en los grupos Ci y Cj , respectivamente. Es equivalente a denir la distancia entre dos grupos como el promedio de las distancias entre sus individuos: X 1 d(Cr , Cs ) = dij nr ns Método del promedio: i∈Cr ,j∈Cs Vamos a aplicar los métodos de agrupamiento jerárquico sobre un conjunto de países, en base a datos de esperanza de vida. Se dispone de las esperanzas de vida al nacer y a otras edades que se han considerado, y se distingue también entre hombres y mujeres. Los datos y la ejecución del procedimiento en lenguaje R, se encuentran en el chero "ejemplo10.1.R". Ejemplo 10.1 10.3. Métodos de particionamiento. Los métodos de particionamiento, según ya se dijo en la introducción, pretenden una partición de los individuos de la muestra en k grupos, en base a los valores de las variables observadas en cada individuo. Por supuesto, los grupos se formarán por proximidad en el espacio d-dimensional, siendo d el número de variables. Un criterio natural para la formación de los grupos, consistiría en elegir la partición en grupos que haga mínima la variabilidad dentro de cada grupo, medida por la suma de cuadrados intra-grupo. El criterio parece sencillo pero el problema será la imposibilidad de recorrer todas las particiones posibles de n individuos en k grupos. Sólo n = 15 datos y k = 3 grupos son sucientes para generar más de dos millones de posibles particiones. Con valores de n y k algo más grandes, el número de particiones crece de manera desorbitada. Ante esta situación, es preciso adoptar un algoritmo que partiendo de una solución inicial razonable, llegue a una solución mejor de acuerdo con el criterio, mediante pasos que aporten mejoras sucesivas. Nótese que, a pesar de existir muchas particiones, la inmensa mayoría son absurdas como solución del problema, pues carecen de sentido todos los grupos que se formen tomando observaciones "salteadas" en el espacio. Vamos a considerar únicamente el algoritmo de las k -medias, del que hay múltiples versiones, aunque su forma más sencilla podría constar de los pasos siguientes. Paso 1: Crear una partición inicial en k grupos. Paso 2: Asignar cada individuo al grupo cuyo centro, que denominaremos centroide, le quede más próximo. Recalcular los centroides en base a los grupos modicados. Paso 3: Repetir el paso 2 hasta que no haya más reasignaciones. El primer paso se puede obtener proporcionando k centroides iniciales escogidos adecuadamente a la vista de la muestra. De hecho, pueden ser individuos de la muestra. También es posible conformar la partición inicial, aplicando una técnica de agrupamiento jerárquico, y escogiendo el nivel de agrupamiento en el cual se generan k grupos. 98 Máster en Técnicas Estadísticas El paso 2 admite muchas variantes dependiendo del algoritmo concreto. Planteado en términos generales, la idea es considerar posibles cambios de algunos individuos de un grupo a otro. Serían candidatos a cambiar de grupo los individuos que ocupan posiciones fronterizas. Para cada posible cambio, se evalúan las consecuencias que tendría sobre el criterio (por ejemplo, suma de cuadrados intra-grupo), y se efectúa el cambio que más contribuye a mejorar el criterio. Se detiene el algoritmo cuando no hay cambios que redunden en mejoras apreciables del criterio. Los algoritmos de las k -medias presentan ciertas limitaciones, como puede ser la dependencia de la partición inicial que se escoja, así como la tendencia a formar grupos esféricos, ya que la distancia que se considera es la distancia euclídea usual. Existen muchas propuestas de otros métodos que permiten superar estas limitaciones y que se adaptan a propósitos diversos. En cualquier caso, el algoritmo de las k -medias es un punto de referencia inicial, que se debe tener presente dentro de los métodos de particionamiento. En este ejemplo trabajaremos con datos simulados. Vamos a generar un primer grupo de datos con distribución normal bivariante de media (10, 10) y matriz de covarianzas diagonal con los valores 16 y 1 en la diagonal, esto es, las dos variables son incorrelacionadas y sus desviaciones típicas son 4 y 1 respectivamente. Ejemplo 10.2 El segundo grupo tendrá distribución normal bivariante de media (10, 20), las variables serán incorrelacionadas y con desviaciones típicas 1 y 4 respectivamente. Generaremos 20 datos de cada grupo, los representaremos con códigos de colores para identicar el grupo de procedencia. Después aplicaremos el procedimiento de las k-medias que viene implementado en el lenguaje R mediante la función kmeans. La función kmeans de R permite escoger entre varios métodos de las k -medias. Si no se indica el método, por defecto aplica el algoritmo de Hartigan y Wong (1979). Bibliografía. Cuadras, C.M. (1991). Métodos de análisis multivariante. PPU. Everitt, B. (2005). An R and S-Plus companion to multivariate analysis. Springer. Hartigan, J.A. y Wong, M.A. (1979). A K-means clustering algorithm. Applied Statistics, 100108. 28, Johnson, R.A. y Wichern, D.W. (2007). Applied multivariate statistical analysis. Pearson Education.