Introducción a los métodos de clasificación

Anuncio
I. PRIMERA PARTE
Introducción a los
métodos de clasificación
Programa PRESTA - 1999 - Eduardo CRIVISQUI
Tr. N°1
1. ¿QUÉ SIGNIFICA CLASIFICAR UN
CONJUNTO DE UNIDADES DE
OBSERVACIÓN?
✔
Aplicar un método de clasificación a un conjunto dado de
unidades de observación, significa definir en ese conjunto las
clases entre las cuales se distribuyen los elementos del
conjunto.
✔
Existen dos grandes familias de métodos estadísticos que
permiten clasificar un conjunto dado de unidades de
observación :
a) Los métodos de clasificación propiamente dichos.
Fraccionan un conjunto dado de unidades de
observación en subconjuntos homogéneos.
b) Los procedimientos de clasificación o de partición.
Distribuyen o asignan los elementos de un
conjunto dado de unidades de observación
entre clases preestablecidas.
Programa PRESTA - 1999 - Eduardo CRIVISQUI
Tr. N°2
2. CLASES, CLASES «EMPÍRICAS» Y
CLASIFICABILIDAD DE UN CONJUNTO
DE UNIDADES DE OBSERVACIÓN
Los métodos de clasificación y de partición son procedimientos
automáticos destinados a definir «clases de individuos» lo más
semejantes posibles.
2.1. Las «clases» de individuos semejantes
Si los n individuos sobre los cuales se observaron p
características están representados en un espacio de p
dimensiones....
Ejemplo en R 2 : p = 2
se llaman «clases» a los subconjuntos de individuos de ese
espacio de representación que son identificables porque :
✔ en ciertas zonas del espacio existe una gran densidad de
individuos.
✔ en las zonas del espacio que separa esos subconjuntos
existe una baja densidad de individuos.
Programa PRESTA - 1999 - Eduardo CRIVISQUI
Tr. N°3
2.2. Clasificabilidad de los elementos
de una tabla observada
✘
Ä
No se puede postular la existencia de clases en un conjunto
de observaciones.
Los elementos de una tabla T(n,p) cualquiera no son
necesariamente clasificables....
Ejemplo en R 2
Es necesario explorar previamente la información disponible,
antes de seleccionar un algoritmo de clasificación.
Programa PRESTA - 1999 - Eduardo CRIVISQUI
Tr. N°4
✘
Ä
Sólo podemos verificar la existencia de niveles de síntesis
significativos correspondientes a la organización de los
objetos en clases y subclases «empíricas».
La significación de los niveles de síntesis establecidos por
un algoritmo de clasificación depende de :
ø la selección de una distancia adecuada para evaluar la
semejanza entre los elementos y grupos de elementos a
comparar
ø la selección de un algoritmo adecuado de clasificación.
Ejemplos de
configuraciones de nubes
de puntos en dos «clases».
Problemas ligados a la
selección del algoritmo de
clasificación adecuado
Programa PRESTA - 1999 - Eduardo CRIVISQUI
Tr. N°5
II. SEGUNDA PARTE
PRESENTACIÓN DE ALGUNOS
MÉTODOS DE CLASIFICACIÓN
Y DE PARTICIÓN
DE UN CONJUNTO DE OBJETOS
Clasificación de los objetos en línea de una
tabla T(n, p), con p variables cuantitativas
Programa PRESTA - 1999 - Eduardo CRIVISQUI
Tr. N°6
1. ETAPAS DE APLICACIÓN DE UN MÉTODO
DE CLASIFICACIÓN
➧
Disponemos de una tabla resumen de tipo T(n,p)
[n líneas/individuos descriptos por p caracteres]
➧
Los elementos de T(n,p) presentan una estructura de grupo
o de jerarquía de grupos encajados.
La aplicación se desarrolla en tres etapas :
PRIMERA ETAPA : se crea una tabla D(n,n) que presenta el grado
de semejanza de cada individuo i con respecto
a cada individuo j de T(n,p), tomando en
cuenta los p caracteres observados.
SEGUNDA ETAPA : algoritmo de clasificación jerárquica.
1. Se comienza con una partición del conjunto de los n individuos
de manera tal que cada uno sea el único elemento de cada una
de las clases de una partición en un número de clases igual al
número de individuos.
2. Se reúnen en una clase única las dos clases más parecidas
(semejantes) de la etapa anterior. El número de clases restantes
disminuye de una unidad.
3. Se prosigue así hasta no disponer más que de una sola clase
que reúne todas las clases (y en consecuencia todos los
individuos).
TERCERA ETAPA : se describen los contenidos de los subconjuntos
de clases obtenidos en cada etapa y se evalúa
la calidad de la clasificación obtenida.
Programa PRESTA - 1999 - Eduardo CRIVISQUI
Tr. N°7
Pero...
Para poner en acción un algoritmo de
clasificación jerárquica debemos resolver
dos problemas:
❶
¿Cómo definir y evaluar la semejanza entre
« clases »
compuestas de un individuo
(subconjuntos de cardinal 1)...?
❷
¿Cómo definir y evaluar la semejanza entre
«clases» de individuos que son subconjuntos
de cardinal superior a 1...?
Programa PRESTA - 1999 - Eduardo CRIVISQUI
Tr. N°8
2. SEMEJANZA ENTRE «INDIVIDUOS»
DE UNA TABLA T(n, p)
2.1. Índices de similaridad
La semejanza entre dos individuos i y j puede ser definida
matemáticamente por una función s ij
— a valores reales —
de las
observaciones correspondientes a las líneas i y j de T(n,p).
Existen diferentes funciones s ij que varían en relación con el
nivel de medida de las p variables de T(n,p) .
✘
La semejanza entre los individuos i y j está definida por
una función simétrica :
Siendo:
sij = s ji ∀i ; ∀j
sij ≤ sii = s jj
En ese caso, s ij es un índice de similaridad.
En general : 0
≤ sij ≤ 1
Pero, por ejemplo, el índice de correlación : − 1 ≤
Programa PRESTA - 1999 - Eduardo CRIVISQUI
sij ≤ 1 .
Tr. N°9
2.2. Índices de disimilaridad
Para evaluar la «similaridad» entre los individuos de T(n,p)
se definen «índices de disimilaridad» que varían a la inversa de
los índices de similaridad.
Sea sij un índice de similaridad 0
Entonces :
d ij = 1 − sij
d ij = d ji ∀i ; ∀j
naturalmente : si
en particular :
en general :
≤ sij ≤ 1 .
es un índice de disimilaridad.
d ii = d jj
;
y
0 ≤ d ij ≤ 1
sij = 1 ⇒ d ij = 0 .
sii = 1 ⇒ d ii = 0 .
sij = 1 ⇒ d ij = 0
si y solamente si las
líneas i y j de T(n,p)
son indénticas.
Además : si
sij = 1
y
d ij = 0 ⇒ d ik = d jk ∀k .
Programa PRESTA - 1999 - Eduardo CRIVISQUI
Tr. N°10
2.3. Distancias
Llamamos «distancia» a todo índice de disimilaridad que
satisfaga las siguientes propiedades :
1.
d ij = 0
si y solamente si i coincide con j.
d ii = 0 ; d jj = 0 ∀i ; ∀j
la tabla D(n,n) tiene diagonal
nula.
2.
d ij = d ji ∀i ; ∀j
3.
d ij ≤ d ik + d jk ∀i ; ∀j y ∀k
la tabla D(n,n) es simétrica.
esta propiedad es llamada «desigualdad triangular».
✔ Si d ij satisface la 3° propiedad
⇒ d ij es una «distancia».
✔ Si d ij es una distancia, entonces las semejanzas entre los
individuos i y j (para todo i y para todo j) pueden ser
representadas en un espacio euclídeo.
Programa PRESTA - 1999 - Eduardo CRIVISQUI
Tr. N°11
2.4. Distancia ultramétrica
Si d ij es una distancia y además satisface a la siguiente
«desigualdad ultramétrica»,
d ij ≤ max(dik ; d kj ) ∀i ; ∀j
y
∀k
entonces d ij es una distancia ultramétrica.
✔ La relación entre tres individuos forma, entonces, un triángulo isósceles.
✔ Toda ultramétrica es una distancia... pero toda distancia no
es necesariamente una ultramétrica.
Programa PRESTA - 1999 - Eduardo CRIVISQUI
Tr. N°12
2.5. Selección de una distancia entre
los objetos a clasificar
✔ Siendo T(n, p) una tabla de medidas :
n
x.k = ∑ xik
i =1
n
1
xk = ∑ xik
n i =1
n
2
1
2
sk = ∑ (xik − xk )
n i =1
✔ Distancias más usuales :
1.
d = ∑ (xik − x jk )
p
2
ij
2
k =1
p
2.
d ij2 = ∑
(x
k =1
ik
− x jk )
sk2
: distancia euclidiana.
2
: distancia euclidiana reducida.
t
3.
4.
5.
6.
xik − x jk
d =∑
skt
k =1
p x − x
ik
jk
2
d ij = ∑
sk
k =1
2
p (x − x )
jk
d ij2 = ∑ ik
2
k =1 (xik + x jk )
p x − x
ik
jk
2
=
d ij ∑
k =1 xik + x jk
2
ij
p
Programa PRESTA - 1999 - Eduardo CRIVISQUI
: distancia de Minkowski.
: distancia de city-blocks.
: divergencia.
: distancia de Camberra.
Tr. N°13
Descargar