Scatter/Gather: Un enfoque basado en Clustering para navegar grandes colecciones de documentos Mauro J. Gómez L. Clustering para mejorar búsqueda y recuperación de documentos Estrategia basada en la hipótesis del clustering: Dado un clustering de una colección, si el usuario está interasado en un documento d entonces es probable que esté interesado en otros miembros del cluster al que pertenece d. de esta manera La determinación de grupos de documentos similares (clustering) puede usarse para mejorar el recall, ampliando los resultados de una consulta. Clustering para mejorar búsqueda y recuperación de documentos consulta consulta ¿corte? no Clusters más similares ¿rama? ¿corte? no ¿rama? ¿corte? si Particiones planas Jerárquico ? Clustering para mejorar búsqueda y recuperación de documentos Estas estrategias son variaciones de la búsqueda por similaridad, y suelen ser comparadas con ésta en términos de precisión y recall. No obstante, no tuvieron éxito. Razones: no significativamente superiores a la búsqueda por similaridad y a veces inferiores. algoritmos de clustering de documentos son costosos en tiempo (O(n2)). Scatter/Gather: Idea ¿Pero por qué no usar clustering como un método de acceso a documentos por sí mismo (y NO como una herramienta para mejorar la búsqueda por similaridad)? Scatter/Gather Características generales del método: utiliza clustering de documentos como operación primitiva. apropiado para accesos a la información con objetivos NO específicos, sirviendo como complemento a técnicas más enfocadas/directas. Búsqueda Vs. Navegación 2 formas extremas de acceder a una colección de documentos: Búsqueda de un documento particular a partir de su título específico Amplitud del criterio de correspondencia amplio ? Sesión de navegación con objetivo poco definido El usuario puede no estar familiarizado con el vocabulario que describe el tópico de interés. La necesidad de información en sí puede ser vaga. Scatter/Gather: Descripción básica del método Scatter Gather usuario Colección de documentos Sub-colección Scatter/Gather: Descripción básica del método Scatter/Gather: Requerimientos Scatter/Gather requiere de la existencia de 2 facilidades: ? Un algoritmo que permita hacer el clustering de una gran cantidad de documentos dentro de un tiempo tolerable para la interacción con el usuario. Un método para obtener automáticamente una breve descripción del contenido de un cluster. Requerimientos: Descripción del contenido de un cluster ? En lugar de considerar los documentos centrales de un cluster, se pueden considerar las palabras centrales, es decir, aquellas que aparecen más frecuentemente en el grupo de documentos. Se define tw(C), las palabras del tópico de C, como las w términos que aparecen con más frecuencia en C. Luego se usará tw(C) como descripción para C. Scatter/Gather: Requerimientos Requerimientos Clustering de colección de documentos gran cant. de docs. método para obtener resumen de un cluster pocos clusters clustering inicial (off line) clustering sesión interactiva (on line) preciso tiempo tolerable términos más frecuentes (tw(C)) Clasificación de Algoritmos de Clustering Aglomerativos (bottom-up) Jerárquicos ? Divisivos (top-down) Algoritmos de Clustering Relocación Particionamiento (particiones planas) Basados en función objetivo Densidad ej: k-means Scatter/Gather: Requerimientos Buck shot encontrar k centroides iniciales 2 algs. usan Fractionation Alg. de pasos asignar documentos Particionamiento a centroides con Relocación refinamiento Subrutina de clustering Encotrar k centroides iniciales: Buck shot Se desea hacer en tiempo del O(kn) Seleccionar aleatoriamente una muestra de documentos de tamaño sq_root(kn) Aplicar la subrutina de clustering (orden cuadrático) Calcular y retornar los centros de los clusters. Scatter/Gather: Algoritmo de Clustering Buck shot encontrar k centroides iniciales 2 usan algs. Fractionation Alg. de pasos asignar documentos Particionamiento a centroides con Relocación Assign to Nearest calcular centroides y luego refinamiento iterar Subrutina de clustering Split Join Operación de Refinamiento: Split Split divide cada cluster Ci de una partición P en 2 nuevos subclusters Ci1 y Ci2. Esto puede lograrse, por ejemplo, aplicando Buckshot clustering sobre Ci con k=2. Problema: ? No siempre es apropiado dividir un cluster en dos. Solución/Mejora: ? Sólo dividir aquellos grupos que tienen un nivel de cohesión bajo. Una posible medida de la cohesión de un cluster C es la medida de similaridad de C consigo mismo (s(C,C)) Scatter/Gather: Algoritmo de Clustering Buck shot encontrar k centroides iniciales 2 usan algs. Fractionation Alg. de pasos asignar documentos Particionamiento a centroides con Relocación Assign to Nearest calcular centroides y luego refinamiento iterar Subrutina de clustering Split Join Operación de Refinamiento: Join Unir clusters cuyas descripciones se parecen mucho. Una forma práctica y rápida de determinar si 2 descripciones se parecen mucho es considerando T(C1,C2) = |tw (C1) tw(C2)|. Concretamente, se unirá C1 y C2 si T(C1,C2) > p, para algún p, 0<p<=w. Scatter/Gather: Requerimientos Requerimientos Clustering de colección de documentos gran cant. de docs. método p/ obtener resumen de un cluster pocos clusters clustering inicial (off line) clustering sesión interactiva (on line) preciso tiempo tolerable Fractionation, Assign-to-nearest, (Split + Join + Assign-to-nearest)* términos más frecuentes (tw(C)) Buckshot, Assign-to-nearest, (Assign-to-nearest)2 Sistema de Acceso a la Información completo Formado por 2 componentes: El método de navegación Scatter/Gather Uno o más métodos de búsqueda tradicionales (ej: búsqueda por similaridad) Operación básica del sistema El usuario utiliza Scatter/Gather hasta que: se encuentra viendo directamente documentos individuales. o basado en los términos usados para describir clusters, formula una consulta y utiliza alguno de los métodos de búsqueda tradicionales para resolverla. FIN