Tema 10. Técnicas de formación de grupos

Anuncio
Máster en Técnicas Estadísticas
Análisis Multivariante. Año 2008 2009. Profesor: César Sánchez Sellero.
Tema 10. Técnicas de formación de grupos
10.1. Introducción.
En este tema haremos una breve introducción a los procedimientos de formación de grupos. Lo
primero que destacamos es la amplitud y diversidad de estos métodos, tanto en sus objetivos
como en los procedimientos que emplean. El aspecto común a todos ellos es el propósito de
formar grupos que todavía no están denidos. En esto se diferencia del análisis discriminante,
en el cual los grupos están perfectamente denidos y el propósito es clasicar a un individuo
en alguno de los grupos. Como decimos, las técnicas de formación de grupos pretenden formar
grupos, reconocer patrones o estructuras dentro de la población general, en base a cierto tipo de
observaciones.
Podemos plantear una clasicación de las técnicas de formación de grupos en:
También se conocen como métodos de taxonomía numérica, pues tienen
mucha semejanza con la taxonomía de los seres vivos en Biología. Partiendo de una matriz
de distancias entre individuos, el objetivo es construir un árbol de clasicación en distintos
niveles. En el nivel más bajo estarían grupos de individuos muy próximos o semejantes (por
ejemplo, las especies). A niveles superiores se crean grupos como resultado de la agregación
de los grupos de nivel inferior (por ejemplo, familias, tipos o reinos).
Métodos jerárquicos
Al contrario de los métodos jerárquicos, los métodos de particionamiento sólo pretenden una división de los individuos en un conjunto de grupos, todos
al mismo nivel, que constituyen una partición de la población original.
Métodos de particionamiento
Los métodos que estudiaremos en este tema no establecen suposiciones sobre el modelo estadístico
que generó los datos, y en este sentido se deben interpretar como métodos descriptivos que
ayudan a la comprensión sobre las propiedades que presenta un conjunto de datos multivariantes.
Además, como cualquier método descriptivo, puede servir como punto de partida que sugiere
propiedades de la población, que merezcan un análisis más detallado.
Aún así, existen también métodos de formación de grupos, que están basados en un modelo
estadístico, que reeja propiedades previsibles sobre cómo están constituidos los grupos, por
ejemplo, la normalidad de la distribución. En este contexto, se pueden adoptar métodos de
inferencia para la construcción de los grupos. No trataremos aquí estos métodos basados en el
modelo, y nos restringiremos a los métodos más conocidos de formación de grupos.
95
Máster en Técnicas Estadísticas
96
10.2. Métodos jerárquicos.
Como ya se expresó en la introducción, los métodos jerárquicos parten de una matriz de distancia
entre individuos, y en base a ella pretenden un agrupamiento de los individuos a distintos niveles.
En el nivel más bajo cada grupo estaría formado por individuos, mientras que los grupos a
niveles superiores serían el resultado de agregar grupos de niveles inferiores. Los algoritmos que
se emplean para crear esta jerarquía pueden ser de dos tipos:
Partiendo de los individuos, se construyen grupos formados por individuos,
para después construir grupos, mediante la agregación de los grupos ya formados en etapas
anteriores.
Aglomerativos
Partiendo del grupo total formado por todos los individuos, se genera una división
en subgrupos (generalmente en dos), que más adelante vuelven a ser subdivididos.
Divisivos
Nos centraremos en los algoritmos aglomerativos, que son los más comunes. El algoritmo constaría de los siguientes pasos:
Paso 1 (Comienzo): Se denen los grupos o clusters C1 , . . . , Cn , que está formados cada uno
por un individuo.
Paso 2: Se buscan los dos grupos Ci y Cj que estén más próximos, se juntan y consecuentemente
se reduce el número de grupos.
Paso 3: Se recalculan las distancias de todos los demás grupos al nuevo grupo, formado al juntar
Ci y Cj .
Paso 4: Si el número de grupos es uno, se detiene el algoritmo. En otro caso, se vuelve al paso
2.
En este algoritmo queda por determinar cómo se efectúa el paso 3. De hecho, bajo esta misma
estructura del algoritmo aglomerativo, los métodos concretos se diferencian en cómo resuelven
este paso. Hay variadas formas de hacerlo, pero vamos a mencionar las tres que consideramos
principales.
Consiste en denir d(Ck , Ci ∪ Cj ) = min{d(Ck , Ci ), d(Ck , Cj )}, donde
d(Cr , Cs ) denota la distancia del grupo Cr al grupo Cs . Esto es equivalente a denir la
distancia entre dos grupos así:
Método del mínimo:
d(Cr , Cs ) =
min
i∈Cr ,j∈Cs
dij
siendo dij la distancia entre los individuos i y j , que en este caso pertenecen a los grupos
Cr y Cs , respectivamente.
Consiste en denir d(Ck , Ci ∪ Cj ) = max{d(Ck , Ci ), d(Ck , Cj )}. En este
caso es equivalente a denir la distancia entre dos grupos como la mayor distancia entre
sus individuos:
d(Cr , Cs ) = max dij
Método del máximo:
i∈Cr ,j∈Cs
Análisis Multivariante
97
n
j
i
d(Ck , Ci ) + ni +n
d(Ck , Cj ),
Consiste en denir d(Ck , Ci ∪ Cj ) = nin+n
j
j
siendo ni y nj el número de individuos en los grupos Ci y Cj , respectivamente. Es equivalente a denir la distancia entre dos grupos como el promedio de las distancias entre sus
individuos:
X
1
d(Cr , Cs ) =
dij
nr ns
Método del promedio:
i∈Cr ,j∈Cs
Vamos a aplicar los métodos de agrupamiento jerárquico sobre un conjunto de
países, en base a datos de esperanza de vida. Se dispone de las esperanzas de vida al nacer y a
otras edades que se han considerado, y se distingue también entre hombres y mujeres. Los datos
y la ejecución del procedimiento en lenguaje R, se encuentran en el chero "ejemplo10.1.R".
Ejemplo 10.1
10.3. Métodos de particionamiento.
Los métodos de particionamiento, según ya se dijo en la introducción, pretenden una partición
de los individuos de la muestra en k grupos, en base a los valores de las variables observadas en
cada individuo. Por supuesto, los grupos se formarán por proximidad en el espacio d-dimensional,
siendo d el número de variables.
Un criterio natural para la formación de los grupos, consistiría en elegir la partición en grupos que
haga mínima la variabilidad dentro de cada grupo, medida por la suma de cuadrados intra-grupo.
El criterio parece sencillo pero el problema será la imposibilidad de recorrer todas las particiones
posibles de n individuos en k grupos. Sólo n = 15 datos y k = 3 grupos son sucientes para
generar más de dos millones de posibles particiones. Con valores de n y k algo más grandes, el
número de particiones crece de manera desorbitada.
Ante esta situación, es preciso adoptar un algoritmo que partiendo de una solución inicial razonable, llegue a una solución mejor de acuerdo con el criterio, mediante pasos que aporten mejoras
sucesivas. Nótese que, a pesar de existir muchas particiones, la inmensa mayoría son absurdas
como solución del problema, pues carecen de sentido todos los grupos que se formen tomando
observaciones "salteadas" en el espacio.
Vamos a considerar únicamente el algoritmo de las k -medias, del que hay múltiples versiones,
aunque su forma más sencilla podría constar de los pasos siguientes.
Paso 1: Crear una partición inicial en k grupos.
Paso 2: Asignar cada individuo al grupo cuyo centro, que denominaremos centroide, le quede
más próximo. Recalcular los centroides en base a los grupos modicados.
Paso 3: Repetir el paso 2 hasta que no haya más reasignaciones.
El primer paso se puede obtener proporcionando k centroides iniciales escogidos adecuadamente
a la vista de la muestra. De hecho, pueden ser individuos de la muestra. También es posible
conformar la partición inicial, aplicando una técnica de agrupamiento jerárquico, y escogiendo
el nivel de agrupamiento en el cual se generan k grupos.
98
Máster en Técnicas Estadísticas
El paso 2 admite muchas variantes dependiendo del algoritmo concreto. Planteado en términos
generales, la idea es considerar posibles cambios de algunos individuos de un grupo a otro.
Serían candidatos a cambiar de grupo los individuos que ocupan posiciones fronterizas. Para
cada posible cambio, se evalúan las consecuencias que tendría sobre el criterio (por ejemplo,
suma de cuadrados intra-grupo), y se efectúa el cambio que más contribuye a mejorar el criterio.
Se detiene el algoritmo cuando no hay cambios que redunden en mejoras apreciables del criterio.
Los algoritmos de las k -medias presentan ciertas limitaciones, como puede ser la dependencia
de la partición inicial que se escoja, así como la tendencia a formar grupos esféricos, ya que la
distancia que se considera es la distancia euclídea usual. Existen muchas propuestas de otros
métodos que permiten superar estas limitaciones y que se adaptan a propósitos diversos. En
cualquier caso, el algoritmo de las k -medias es un punto de referencia inicial, que se debe tener
presente dentro de los métodos de particionamiento.
En este ejemplo trabajaremos con datos simulados. Vamos a generar un primer
grupo de datos con distribución normal bivariante de media (10, 10) y matriz de covarianzas
diagonal con los valores 16 y 1 en la diagonal, esto es, las dos variables son incorrelacionadas y
sus desviaciones típicas son 4 y 1 respectivamente.
Ejemplo 10.2
El segundo grupo tendrá distribución normal bivariante de media (10, 20), las variables serán
incorrelacionadas y con desviaciones típicas 1 y 4 respectivamente.
Generaremos 20 datos de cada grupo, los representaremos con códigos de colores para identicar el grupo de procedencia. Después aplicaremos el procedimiento de las k-medias que viene
implementado en el lenguaje R mediante la función kmeans.
La función kmeans de R permite escoger entre varios métodos de las k -medias. Si no se indica
el método, por defecto aplica el algoritmo de Hartigan y Wong (1979).
Bibliografía.
Cuadras, C.M. (1991). Métodos de análisis multivariante. PPU.
Everitt, B. (2005). An R and S-Plus companion to multivariate analysis. Springer.
Hartigan, J.A. y Wong, M.A. (1979). A K-means clustering algorithm. Applied Statistics,
100108.
28,
Johnson, R.A. y Wichern, D.W. (2007). Applied multivariate statistical analysis. Pearson
Education.
Descargar