Scatter/Gather: Un enfoque basado en Clustering para navegar

Anuncio
Scatter/Gather: Un enfoque
basado en Clustering para navegar
grandes colecciones de documentos
Mauro J. Gómez L.
Clustering para mejorar búsqueda y
recuperación de documentos
„
Estrategia basada en la hipótesis del clustering:
Dado un clustering de una colección, si el usuario está interasado
en un documento d entonces es probable que esté interesado en
otros miembros del cluster al que pertenece d.
de esta
manera
„
La determinación de grupos de documentos similares
(clustering) puede usarse para mejorar el recall, ampliando
los resultados de una consulta.
Clustering para mejorar búsqueda y
recuperación de documentos
consulta
consulta
¿corte?
no
Clusters
más
similares
¿rama?
¿corte?
no
¿rama?
¿corte?
si
Particiones planas
Jerárquico
?
Clustering para mejorar búsqueda y
recuperación de documentos
„
Estas estrategias son variaciones de la búsqueda por similaridad, y
suelen ser comparadas con ésta en términos de precisión y recall.
„
No obstante, no tuvieron éxito.
Razones:
„
no significativamente superiores a la búsqueda por similaridad y a
veces inferiores.
„
algoritmos de clustering de documentos son costosos en tiempo
(O(n2)).
Scatter/Gather: Idea
„
¿Pero por qué no usar clustering como un método de acceso a
documentos por sí mismo (y NO como una herramienta para
mejorar la búsqueda por similaridad)?
Scatter/Gather
Características generales del método:
„
utiliza clustering de documentos como operación primitiva.
„
apropiado para accesos a la información con objetivos NO
específicos, sirviendo como complemento a técnicas más
enfocadas/directas.
Búsqueda Vs. Navegación
2 formas extremas de acceder a una colección de documentos:
Búsqueda de un documento
particular a partir de su título
específico
Amplitud del criterio de
correspondencia
amplio
?
Sesión de navegación con
objetivo poco definido
„
El usuario puede no
estar familiarizado con
el vocabulario que
describe el tópico de
interés.
„
La necesidad de
información en sí puede
ser vaga.
Scatter/Gather: Descripción básica del método
Scatter
Gather
usuario
Colección de documentos
Sub-colección
Scatter/Gather: Descripción básica del método
Scatter/Gather: Requerimientos
Scatter/Gather requiere de la existencia de 2 facilidades: ?
„
Un algoritmo que permita hacer el clustering de una gran
cantidad de documentos dentro de un tiempo tolerable para
la interacción con el usuario.
„
Un método para obtener automáticamente una breve
descripción del contenido de un cluster.
Requerimientos: Descripción del contenido
de un cluster ?
„
En lugar de considerar los documentos centrales de un
cluster, se pueden considerar las palabras centrales, es
decir, aquellas que aparecen más frecuentemente en el
grupo de documentos.
„
Se define tw(C), las palabras del tópico de C, como las w
términos que aparecen con más frecuencia en C.
„
Luego se usará tw(C) como descripción para C.
Scatter/Gather: Requerimientos
Requerimientos
Clustering de colección
de documentos
gran cant.
de docs.
método para obtener
resumen de un cluster
pocos
clusters
clustering inicial
(off line)
clustering sesión
interactiva
(on line)
preciso
tiempo
tolerable
términos más
frecuentes
(tw(C))
Clasificación de Algoritmos de Clustering
Aglomerativos
(bottom-up)
Jerárquicos
?
Divisivos
(top-down)
Algoritmos de
Clustering
Relocación
Particionamiento
(particiones planas)
Basados en
función objetivo
Densidad
ej: k-means
Scatter/Gather: Requerimientos
Buck shot
encontrar k centroides
iniciales
2
algs.
usan
Fractionation
Alg. de
pasos asignar documentos
Particionamiento
a centroides
con Relocación
refinamiento
Subrutina
de
clustering
Encotrar k centroides iniciales: Buck shot
Se desea hacer en tiempo del O(kn)
„
Seleccionar aleatoriamente
una muestra de documentos
de tamaño sq_root(kn)
„
Aplicar la subrutina de
clustering (orden cuadrático)
„
Calcular y retornar los centros
de los clusters.
Scatter/Gather: Algoritmo de Clustering
Buck shot
encontrar k centroides
iniciales
2
usan
algs.
Fractionation
Alg. de
pasos asignar documentos
Particionamiento
a centroides
con Relocación
Assign to Nearest
calcular centroides
y luego
refinamiento
iterar
Subrutina
de
clustering
Split
Join
Operación de Refinamiento: Split
Split divide cada cluster Ci de una partición P en 2 nuevos subclusters
Ci1 y Ci2. Esto puede lograrse, por ejemplo, aplicando Buckshot
clustering sobre Ci con k=2.
„
Problema:
?
No siempre es apropiado dividir un cluster en dos.
„
Solución/Mejora: ?
Sólo dividir aquellos grupos que tienen un nivel de cohesión bajo.
„
Una posible medida de la cohesión de un cluster C es la medida
de similaridad de C consigo mismo (s(C,C))
Scatter/Gather: Algoritmo de Clustering
Buck shot
encontrar k centroides
iniciales
2
usan
algs.
Fractionation
Alg. de
pasos asignar documentos
Particionamiento
a centroides
con Relocación
Assign to Nearest
calcular centroides
y luego
refinamiento
iterar
Subrutina
de
clustering
Split
Join
Operación de Refinamiento: Join
Unir clusters cuyas descripciones se parecen mucho.
„
Una forma práctica y rápida de determinar si 2 descripciones se
parecen mucho es considerando T(C1,C2) = |tw (C1)
tw(C2)|.
Concretamente, se unirá C1 y C2 si T(C1,C2) > p, para algún p, 0<p<=w.
Scatter/Gather: Requerimientos
Requerimientos
Clustering de colección
de documentos
gran cant.
de docs.
método p/ obtener
resumen de un cluster
pocos
clusters
clustering inicial
(off line)
clustering sesión
interactiva
(on line)
preciso
tiempo
tolerable
Fractionation, Assign-to-nearest,
(Split + Join + Assign-to-nearest)*
términos más
frecuentes
(tw(C))
Buckshot, Assign-to-nearest,
(Assign-to-nearest)2
Sistema de Acceso a la Información completo
Formado por 2 componentes:
„
El método de navegación Scatter/Gather
„
Uno o más métodos de búsqueda tradicionales (ej: búsqueda por
similaridad)
Operación básica del sistema
El usuario utiliza Scatter/Gather hasta que:
„
„
se encuentra viendo directamente documentos individuales.
o
basado en los términos usados para describir clusters, formula una
consulta y utiliza alguno de los métodos de búsqueda tradicionales
para resolverla.
FIN
Descargar