Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Recuperación de Información en el Web Máster en Sistemas Inteligentes José Luis Alonso Berrocal1 Carlos G. Figuerola1 Rodríguez1 Ángel Zazo 1 Departamento de Informática y Automática Grupo de Investigación REINA Universidad de Salamanca http://reina.usal.es Salamanca, 2009 José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Índice 1 Introducción 2 Caracterísiticas de la Web 3 Líneas de estudio de la Web 4 Recolección de la Web 5 El grafo Web 6 Posicionamiento 7 Web Spam José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Introducción Métodos de RI en el web Las técnicas de RI empleadas en el web proceden de los SRI tradicionales. Por ello surgen grandes problemas pues el entorno de trabajo no es el mismo y las características de los datos almacenados difieren considerablemente. Hay nuevos problemas como el spamming o el enorme tamaño de los índices, haciendo difícil su adecuada gestión con los modelos tradicionales. José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam RI Web: Diferencias con la RI tradicional En el web, búsqueda y anuncios están estrechamente conectados. El web es enorme. La colección de documentos web cambia rápidamente. Spam → necesitamos RI con adversario. Tal vez la diferencia más importante con la RI tradicional. Una interfaz para necesidades muy diferentes. Consultas tradicionales, mapas, cotizaciones de acciones, conversiones de moneda. Contextualización. Ejemplo: búsquedas geográficas cuyos resultados dependan de la direccióon IP. Personalizacion. Ejemplo: búsquedas geográficas cuyos resultados dependan de un perfil personal. José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam RI clásica vs. RI Web Volumen Calidad de datos Ratio modificación datos Accesibilidad datos Diversidad formatos Documentos n0. Resultados Técnicas RI RI Clásica Grande Limpia Infrecuente RI Web Enorme Mucho ruido En flujo constante Accesible Parcialmente accesible Ampliamente diversos HTML Muchísimos Basada en enlaces Homogéneos Texto Pocos Basada tenidos José Luis Alonso Berrocal en con- Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Caracterísiticas de la Web I José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Caracterísiticas de la Web II La web mundial 120 millones de servidores web ¿Más de 20 mil millones de páginas estáticas? Muchas más páginas dinámicas (URL/Contenido) Más de 600 mil millones de archivo Inglés es el idioma de más de la mitad de ellas Muy heterogénea, redundante y desorganizada José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Caracterísiticas de la Web III José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Caracterísiticas de la Web IV José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Localizar patrones web Vista macroscópica: estructura general. Vista Microscópica: nodos. Vista mesoscópica: regiones José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Vista macroscópia (Bow-tie) [Broder et al., 2000] José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Vista macroscópia (Bow-tie migración) [Baeza-Yates and Poblete, 2006] José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Vista macroscópia (Jellyfish) [Tauro et al., 2001] - Internet Autonomous Systems (AS) Topology José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Vista macroscópia (Jellyfish) José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Vista microscópia (Grado) [Barabási, 2002] and others José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Vista mesoscópica (Hop-plot) José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Vista mesoscópica (Hop-plot) José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Resumen vistas José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Recolección de Información Crawler (Recolector -Carlos Castillo) Los crawlers son programas que de forma automática permiten rastrear el web. Inician el rastreo a partir de una dirección URL y se siguen los enlaces contenidos en esa URL. Otras denominaciones que han tenido son: Knowbots: programados para localizar referencias hipertexto dirigidas hacia un documento. Permiten evaluar el impacto de las diferentes aportaciones de áreas del conocimiento Wanderers (vagabundos): Encargados de realizar estadísticas Worms (gusanos): Encargados de la duplicación de directorios ftp WebAnts (hormigas): Conjunto de robots, alejados físicamente, que cooperan José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Primeros crawlers RBSE spider - tamaño del Web: 100,000 páginas Internet archive crawler - www.archive.org Webcrawler - primer motor de búsqueda desarrollado por un Web crawler Las páginas son un recurso escaso José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Segunda generación Mercator, SPHINX - crawlers temáticos Lycos, Excite, Google - crawlers de large-scale Crawlers en paralelo Problema de abundancia Recolectores Web (Wikipedia por Carlos Castillo) José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Taxonomía de crawlers Castillo, 2004 José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Arquitectura básica motor de búsqueda Modificado de: Castillo C. Effective Web Crawling. PhD Thesis, Dept. of Computer Science, University of Chile. November 2004 José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Arquitectura básica de un crawler José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Arquitecturas avanzadas José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Arquitectura crawler Wire José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Modos de recolección Breadth-first: por defecto la mayoría de los crawlers [Najork and Wiener, 2001] Backlink-count: prioriza las páginas altamente enlazadas OPIC: estrategia de ponderar el no de enlaces recibidos [Abiteboul et al., 2003] Batch-Pagerank: El cálculo del pageRank se ejecuta sobre un subconjunto de páginas conocidas [Cho et al., 1998] Partial-Pagerank: Asignación temporal de un valor de PageRank Larger-queue-first: Evitar tener demasiadas páginas pendientes de las sedes web [Castillo et al., 2004] José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Páginas Web a recolectar José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Dos modos de recorrer-Ejemplo José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Especial atención-Contenido dinámico La mayor parte de los contenidos dinámicos son ignorados por los crawlers. Es demasiado para indizarlo todo. El contenido estático es normalmente más importante que el dinámico?. Spider traps Actualmente, parte del contenido “estático” se genera al vuelo (asp, php etc.: headers, date, ads etc) José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Especial atención-Exclusión de robots Exclusión en Servidor Fichero robots.txt en raíz del servidor: Di s a l l ow : / cgi-b i n Exclusión en Página <meta name=’r o b o t s ’ c o n t e n t=’no i n de x . n o f o l l ow , nocache’> José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam La Web como un grafo José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Matrices José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Un grafo Web José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Posicionamiento Técnicas de ranking Finalmente, un aspecto importante es el ranking, es decir, el orden en el que se presentan los resultados al usuario, en función de la relevancia de los documentos respecto a la pregunta realizada. Esta discriminación por relevancia permite que aparezcan en primer lugar los documentos más relevantes, facilitando el acceso a la información. Se desconoce como se hacen estas tareas en la mayoría de los motores. José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Posicionamiento Técnicas de ranking Existen dos grandes variantes en los algoritmos de ranking: Variantes del modelo vectorial o booleano Los que siguen el principio de extensión de los enlaces De la primera variante hay tres métodos. Booleano extendido Vectorial extendido Más citado De la segunda variante hay tres métodos. WebQuery HITS PageRank José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Posicionamiento WebQuery WebQuery toma un conjunto de páginas web (por ejemplo, la respuesta a una pregunta) y calcula los rangos basándose en cómo están conectadas: José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Posicionamiento HITS Este algoritmo desarrollado por Kleinberg depende de la consulta y considera el conjunto de páginas S que apuntan a o son apuntadas por la respuesta. Páginas que tienen muchos links que apuntan a ellas en S son llamadas autoridades (authorities) Páginas que tienen muchos links de salida son llamadas conectores (hubs) Mejores páginas authorities vienen de links de entrada desde buenos conectores (hubs) y buenos hubs vienen de enlaces de salida de buenas authorities. José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam HITS José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Posicionamiento PageRank El PageRank simula un usuario que navega aleatoriamente en la Web, quien salta a una página aleatoria con probabilidad q o que sigue un hyperlink aleatorio (en la página actual) con probabilidad 1 - q. Este proceso es modelado como una cadena de Markov, donde la probabilidad estacionaria de estar en cada página puede ser calculada. La importancia de una página viene dada por la importancia de las páginas que la enlazan. José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam PageRank Básico José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam PageRank Avanzado José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Matriz para calcular PageRank José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Iteraciones PageRank José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Web Spam La diferencia con otros spam está que en la Web, por el mismo paradigma de que es el usuario el que solicita la página al servidor antes de que el servidor entregue la página, no es posible para un spammer enviarnos directamente su publicidad, como pasa en el correo electrónico. El spam en la Web toma una forma ligeramente distinta. Lo que los spammers hacen es tratar de engañar a las máquinas de búsqueda para que, indirectamente, ellas lleven a más usuarios a sus sitios. Esto se conoce como spamdexing (una combinación de spamming e indexing). Spamdexing Keyword stuffing (relleno) Link farms (granjas) Spam blogs (splogs) Cloaking José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Ejemplo de texto oculto José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Ejemplo granja de links José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Cloaking José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam Redirección José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam SEO vs. Spam I Optimización para Máquinas de Búsqueda (S.E.O. por sus siglas en inglés) tiene que ver con asegurarse que un sitio sea encontrable por los buscadores. Los servicios que ofrecen los spammers incluyen la creación de miles o millones de páginas falsas que tienen como propósito el engañar a las máquinas de búsqueda y a sus usuarios. En cualquier caso, la relación entre el administrador de un sitio Web que intenta tener un alto posicionamiento y el administrador de la máquina de búsqueda es una relación entre adversarios en un juego de suma cero . Cada ganancia inmerecida de ranking para una página es una pérdida de precisión para la máquina de búsqueda. Técnicas SEO legítimas (≈ técnicas de sombrero blanco) José Luis Alonso Berrocal Recuperación de Información en el Web Introducción Caracterísiticas de la Web Líneas de estudio de la Web Recolección de la Web El grafo Web Posicionamiento Web Spam SEO vs. Spam II Objetivo: aparecer en lo más alto cuando un cliente está buscándolos (en contraposición a una página elaborada por personas que odian a su cliente) Más eficaz: Pregunta a los sitios web legítimos para vincularse al cliente Spam (≈ técnicas de sombrero blanco) Crear lotes artificiales de los sitios web que enlazan a una página que promueve un producto (e.g., Viagra) Es una línea de separación muy delgada. José Luis Alonso Berrocal Recuperación de Información en el Web Apéndice Bibliografía Bibliografía I Amati, G., Ounis, I., and V., P. (2003). The dynamic absorbing model for the web. Technical Report TR-2003-137, Department of Computing Science, University of Glasgow. Baeza–Yates, R. and Castillo, C. (2004). Crawling the infinite Web: five levels are enough. In Proceedings of the third Workshop on Web Graphs (WAW), volume 3243 of Lecture Notes in Computer Science, pages 156–167, Rome, Italy. Springer. Baeza-Yates, R. and Castillo, C. (2001). Relating Web characteristics with link based Web page ranking. In Proceedings of String Processing and Information Retrieval, pages 21–32, Laguna San Rafael, Chile. IEEE CS Press. José Luis Alonso Berrocal Recuperación de Información en el Web Apéndice Bibliografía Bibliografía II Barabási, A.-L. (2001). The physics of the web. PhysicsWeb.ORG, online journal. Barabási, A.–L. (2002). Linked: the new science of networks. Perseus Publishing. Becchetti,L. Castillo, C. Donato, D. Baeza-Yates, R. and Leonardi, S. Link Analysis for Web Spam Detection. ACM Transactions on the Web, Vol. 2, No. 1, Art. 2, 2008. ACM Press. José Luis Alonso Berrocal Recuperación de Información en el Web Apéndice Bibliografía Bibliografía III Brewington, B., Cybenko, G., Stata, R., Bharat, K., and Maghoul, F. (2000). How dynamic is the web? In Proceedings of the Ninth Conference on World Wide Web, pages 257–276, Amsterdam, Netherlands. Broder, A., Kumar, R., Maghoul, F., Raghavan, P., Rajagopalan, S., Stata, R., Tomkins, A., and Wiener, J. (2000). Graph structure in the web: Experiments and models. In Proceedings of the Ninth Conference on World Wide Web, pages 309–320, Amsterdam, Netherlands. José Luis Alonso Berrocal Recuperación de Información en el Web Apéndice Bibliografía Bibliografía IV Castillo C. (2004) Effective Web Crawling. PhD Thesis, Dept. of Computer Science, University of Chile. November 2004 Castillo, C., Marin, M., Rodriguez, A., and Baeza-Yates, R. (2004b). Scheduling algorithms for Web crawling. In Latin American Web Conference (WebMedia/LA-WEB), Riberao Preto, Brazil. IEEE CS Press. Chakrabarti, S., van den Berg, M., and Dom, B. (1999). Focused crawling: a new approach to topic-specific web resource discovery. Computer Networks, 31(11–16):1623–1640. José Luis Alonso Berrocal Recuperación de Información en el Web Apéndice Bibliografía Bibliografía V Cho, J. and Garcia-Molina, H. (2003). Estimating frequency of change. ACM Transactions on Internet Technology, 3(3). Cho, J., Garcia-Molina, H., and Page, L. (1998). Efficient crawling through URL ordering. In Proceedings of the seventh conference on World Wide Web, Brisbane, Australia. Craswell, N., Crimmins, F., Hawking, D., and Moffat, A. (2004). Performance and cost tradeoffs in web search. In Proceedings of the 15th Australasian Database Conference, pages 161–169, Dunedin, New Zealand. José Luis Alonso Berrocal Recuperación de Información en el Web Apéndice Bibliografía Bibliografía VI Davison, B. D. (2000). Topical locality in the web. In Proceedings of the 23rd annual international ACM SIGIR conference on research and development in information retrieval, pages 272–279. ACM Press. Edwards, J., McCurley, K. S., and Tomlin, J. A. (2001). An adaptive model for optimizing performance of an incremental web crawler. In Proceedings of the Tenth Conference on World Wide Web, pages 106–113, Hong Kong. Elsevier Science. José Luis Alonso Berrocal Recuperación de Información en el Web Apéndice Bibliografía Bibliografía VII Eiron, N., McCurley, K. S., and Tomlin, J. A. (2004). Ranking the web frontier. In Proceedings of the 13th international conference on World Wide Web, pages 309–318. ACM Press. Haveliwala, T. H. (2002). Topic-sensitive pagerank. In Proceedings of the Eleventh World Wide Web Conference, pages 517–526, Honolulu, Hawaii, USA. ACM Press. Kleinberg, J. M. (1999). Authoritative sources in a hyperlinked environment. Journal of the ACM, 46(5):604–632. José Luis Alonso Berrocal Recuperación de Información en el Web Apéndice Bibliografía Bibliografía VIII Koster, M. (1996). A standard for robot exclusion. http://www.robotstxt.org/wc/exclusion.html. Lawrence, S. and Giles, C. L. (2000). Accessibility of information on the web. Intelligence, 11(1):32–39. Lyman, P. and Varian, H. R. (2003). How much information. http://www.sims.berkeley.edu/how-much-info-2003. Najork, M. and Wiener, J. L. (2001). Breadth-first crawling yields high-quality pages. In Proceedings of the Tenth Conference on World Wide Web, pages 114–118, Hong Kong. Elsevier Science. José Luis Alonso Berrocal Recuperación de Información en el Web Apéndice Bibliografía Bibliografía IX Page, L., Brin, S., Motwani, R., and Winograd, T. (1998). The Pagerank citation algorithm: bringing order to the web. In Proceedings of the seventh conference on World Wide Web, Brisbane, Australia. Shkapenyuk, V. and Suel, T. (2002). Design and implementation of a high-performance distributed web crawler. In Proceedings of the 18th International Conference on Data Engineering (ICDE), pages 357–368, San Jose, California. IEEE CS Press. José Luis Alonso Berrocal Recuperación de Información en el Web