Distributed Search Engines

Anuncio
DISTRIBUTED SEARCH
ENGINES
Rodrigo Toro Icarte
Motores de Búsqueda Centralizados
Motores de Búsqueda Centralizados
• ¿Qué son?
• Nuestra ventana a Internet
• Permiten encontrar información
• Características
• Input: query
• Output: urls relacionadas
• Ejercito de servidores
• ¿Qué tienen de centralizado?
• El dueño
Motores de Búsqueda Centralizados
• Imaginemos un motor de búsqueda P2P
• Idea: ¿Cómo funciona?... Yo no lo sé, pero apuesto que
otro peer sí
• ¿Alguna ventaja?
1- Gasto Energético
• Alto consumo eléctrico
en un solo edificio
• Sistema P2P
distribuye gasto entre
sus pares
2- Privacidad
• Nula.
• Espían tus datos y te
llenan de spam
• En P2P me piden mi
información, pero no
sé el destinatario final
3- Censura
• Es muy simple eliminar
una página del sistema
• En un Sistema P2P es
imposible la censura
Problema de fondo
Motores de Búsqueda Distribuidos
• Cada peer es un ‘motor de búsqueda’
• Me comunico con otros peers para obtener urls que
busco
• Cada peer puede agregar URLs que quiera al sistema
• Ejemplo practico: Yacy
• Buscador totalmente descentralizado
• Más de 1.4 billones de documentos ingresados
• Más de 130.000 preguntas diarias
• Gratis! versiones para Windows, Linux, Mac
Estructura red
HDT… ¿Pastry?
Sistema completo
Agregar página web
• Cualquier peer puede agregar una página al sistema
• Ingresa URL y elije profundidad hasta que analizará la
página
• Profundidad infinita significa que toda sub URL queda
disponible (incluyendo links ocultos)
Agregar página web
Agregar página web
• Realizo análisis del texto de cada URL
• Creo índices para realizar búsquedas
• Los agrego a una ‘tabla de índice inverso’
Agregar página web
Agregar página web
Agregar página web
• Calculo una función de hash por cada índice mediante la
URL y las palabras encontradas
• Entrego a los peers que corresponda parte del índice
• Debe existir redundancia
Agregar página web
Agregar página web
Agregar página web
• Listo! URL agregada
• Solo falta ver cómo realizar búsquedas
Búsquedas
• A partir de términos obtiene Hash
• Mediante Hash llega a los peers con las tablas de índices
que necesito
• Ordena las respuestas según “Preferencias del usuario”
Agregar página web
Búsquedas
Preferencias
• ¿Es mejor que google? ¿Qué es ser mejor?
• Google ordena resultados según “popularidad” del link
• Yacy permite que cada peer ajuste los resultados de sus
búsquedas a sus necesidades
Comentarios Finales
• También permite crear buscador local (útil en trabajos de
investigación)
• Posee API para agregar Yacy a tu página web
• Es lento… básicamente porque tratamos con otros
computadores de escritorio y no con súper servidores
¿Preguntas?
Descargar