Recuperación de Información en el Web - OCW Usal

Anuncio
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Recuperación de Información en el Web
Máster en Sistemas Inteligentes
José Luis Alonso Berrocal1 Carlos G. Figuerola1
Rodríguez1
Ángel Zazo
1
Departamento de Informática y Automática
Grupo de Investigación REINA
Universidad de Salamanca http://reina.usal.es
Salamanca, 2009
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Índice
1
Introducción
2
Caracterísiticas de la Web
3
Líneas de estudio de la Web
4
Recolección de la Web
5
El grafo Web
6
Posicionamiento
7
Web Spam
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Introducción
Métodos de RI en el web
Las técnicas de RI empleadas en el web proceden de los SRI
tradicionales. Por ello surgen grandes problemas pues el entorno
de trabajo no es el mismo y las características de los datos
almacenados difieren considerablemente.
Hay nuevos problemas como el spamming o el enorme tamaño
de los índices, haciendo difícil su adecuada gestión con los
modelos tradicionales.
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
RI Web: Diferencias con la RI tradicional
En el web, búsqueda y anuncios están estrechamente
conectados.
El web es enorme.
La colección de documentos web cambia rápidamente.
Spam → necesitamos RI con adversario.
Tal vez la diferencia más importante con la RI tradicional.
Una interfaz para necesidades muy diferentes.
Consultas tradicionales, mapas, cotizaciones de acciones,
conversiones de moneda.
Contextualización.
Ejemplo: búsquedas geográficas cuyos resultados dependan de la
direccióon IP.
Personalizacion.
Ejemplo: búsquedas geográficas cuyos resultados dependan de un
perfil personal.
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
RI clásica vs. RI Web
Volumen
Calidad de datos
Ratio modificación
datos
Accesibilidad datos
Diversidad
formatos
Documentos
n0. Resultados
Técnicas RI
RI Clásica
Grande
Limpia
Infrecuente
RI Web
Enorme
Mucho ruido
En flujo constante
Accesible
Parcialmente accesible
Ampliamente diversos
HTML
Muchísimos
Basada en enlaces
Homogéneos
Texto
Pocos
Basada
tenidos
José Luis Alonso Berrocal
en
con-
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Caracterísiticas de la Web I
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Caracterísiticas de la Web II
La web mundial
120 millones de servidores web
¿Más de 20 mil millones de páginas estáticas?
Muchas más páginas dinámicas (URL/Contenido)
Más de 600 mil millones de archivo
Inglés es el idioma de más de la mitad de ellas
Muy heterogénea, redundante y desorganizada
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Caracterísiticas de la Web III
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Caracterísiticas de la Web IV
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Localizar patrones web
Vista macroscópica: estructura general.
Vista Microscópica: nodos.
Vista mesoscópica: regiones
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Vista macroscópia (Bow-tie)
[Broder et al., 2000]
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Vista macroscópia (Bow-tie migración)
[Baeza-Yates and Poblete, 2006]
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Vista macroscópia (Jellyfish)
[Tauro et al., 2001] - Internet Autonomous Systems (AS) Topology
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Vista macroscópia (Jellyfish)
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Vista microscópia (Grado)
[Barabási, 2002] and others
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Vista mesoscópica (Hop-plot)
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Vista mesoscópica (Hop-plot)
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Resumen vistas
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Recolección de Información
Crawler (Recolector -Carlos Castillo)
Los crawlers son programas que de forma automática permiten
rastrear el web. Inician el rastreo a partir de una dirección URL y
se siguen los enlaces contenidos en esa URL.
Otras denominaciones que han tenido son:
Knowbots: programados para localizar referencias hipertexto
dirigidas hacia un documento. Permiten evaluar el impacto de las
diferentes aportaciones de áreas del conocimiento
Wanderers (vagabundos): Encargados de realizar estadísticas
Worms (gusanos): Encargados de la duplicación de directorios ftp
WebAnts (hormigas): Conjunto de robots, alejados físicamente,
que cooperan
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Primeros crawlers
RBSE spider - tamaño del Web: 100,000 páginas
Internet archive crawler - www.archive.org
Webcrawler - primer motor de búsqueda desarrollado por un
Web crawler
Las páginas son un recurso escaso
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Segunda generación
Mercator, SPHINX - crawlers temáticos
Lycos, Excite, Google - crawlers de large-scale
Crawlers en paralelo
Problema de abundancia
Recolectores Web (Wikipedia por Carlos Castillo)
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Taxonomía de crawlers
Castillo, 2004
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Arquitectura básica motor de búsqueda
Modificado de: Castillo C. Effective Web Crawling. PhD Thesis, Dept.
of Computer Science, University of Chile. November 2004
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Arquitectura básica de un crawler
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Arquitecturas avanzadas
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Arquitectura crawler Wire
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Modos de recolección
Breadth-first: por defecto la mayoría de los crawlers [Najork and
Wiener, 2001]
Backlink-count: prioriza las páginas altamente enlazadas
OPIC: estrategia de ponderar el no de enlaces recibidos
[Abiteboul et al., 2003]
Batch-Pagerank: El cálculo del pageRank se ejecuta sobre un
subconjunto de páginas conocidas [Cho et al., 1998]
Partial-Pagerank: Asignación temporal de un valor de
PageRank
Larger-queue-first: Evitar tener demasiadas páginas
pendientes de las sedes web [Castillo et al., 2004]
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Páginas Web a recolectar
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Dos modos de recorrer-Ejemplo
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Especial atención-Contenido dinámico
La mayor parte de los contenidos dinámicos son ignorados por
los crawlers.
Es demasiado para indizarlo todo.
El contenido estático es normalmente más importante que el
dinámico?.
Spider traps
Actualmente, parte del contenido “estático” se genera al vuelo
(asp, php etc.: headers, date, ads etc)
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Especial atención-Exclusión de robots
Exclusión en Servidor
Fichero robots.txt en raíz del servidor:
Di s a l l ow : / cgi-b i n
Exclusión en Página
<meta name=’r o b o t s ’ c o n t e n t=’no i n de x . n o f o l l ow ,
nocache’>
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
La Web como un grafo
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Matrices
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Un grafo Web
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Posicionamiento
Técnicas de ranking
Finalmente, un aspecto importante es el ranking, es decir, el
orden en el que se presentan los resultados al usuario, en
función de la relevancia de los documentos respecto a la
pregunta realizada.
Esta discriminación por relevancia permite que aparezcan en
primer lugar los documentos más relevantes, facilitando el
acceso a la información. Se desconoce como se hacen estas
tareas en la mayoría de los motores.
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Posicionamiento
Técnicas de ranking
Existen dos grandes variantes en los algoritmos de ranking:
Variantes del modelo vectorial o booleano
Los que siguen el principio de extensión de los enlaces
De la primera variante hay tres métodos.
Booleano extendido
Vectorial extendido
Más citado
De la segunda variante hay tres métodos.
WebQuery
HITS
PageRank
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Posicionamiento
WebQuery
WebQuery toma un conjunto de páginas web (por ejemplo, la
respuesta a una pregunta) y calcula los rangos basándose en
cómo están conectadas:
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Posicionamiento
HITS
Este algoritmo desarrollado por Kleinberg depende de la
consulta y considera el conjunto de páginas S que apuntan a o
son apuntadas por la respuesta.
Páginas que tienen muchos links que apuntan a ellas en S son
llamadas autoridades (authorities)
Páginas que tienen muchos links de salida son llamadas
conectores (hubs)
Mejores páginas authorities vienen de links de entrada desde
buenos conectores (hubs) y buenos hubs vienen de enlaces de
salida de buenas authorities.
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
HITS
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Posicionamiento
PageRank
El PageRank simula un usuario que navega aleatoriamente en la
Web, quien salta a una página aleatoria con probabilidad q o que
sigue un hyperlink aleatorio (en la página actual) con
probabilidad 1 - q.
Este proceso es modelado como una cadena de Markov, donde
la probabilidad estacionaria de estar en cada página puede ser
calculada.
La importancia de una página viene dada por la importancia de
las páginas que la enlazan.
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
PageRank Básico
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
PageRank Avanzado
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Matriz para calcular PageRank
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Iteraciones PageRank
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Web Spam
La diferencia con otros spam está que en la Web, por el mismo
paradigma de que es el usuario el que solicita la página al servidor
antes de que el servidor entregue la página, no es posible para un
spammer enviarnos directamente su publicidad, como pasa en el
correo electrónico. El spam en la Web toma una forma ligeramente
distinta. Lo que los spammers hacen es tratar de engañar a las
máquinas de búsqueda para que, indirectamente, ellas lleven a más
usuarios a sus sitios. Esto se conoce como spamdexing (una
combinación de spamming e indexing).
Spamdexing
Keyword stuffing (relleno)
Link farms (granjas)
Spam blogs (splogs)
Cloaking
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Ejemplo de texto oculto
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Ejemplo granja de links
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Cloaking
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
Redirección
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
SEO vs. Spam I
Optimización para Máquinas de Búsqueda (S.E.O. por sus siglas
en inglés) tiene que ver con asegurarse que un sitio sea
encontrable por los buscadores. Los servicios que ofrecen los
spammers incluyen la creación de miles o millones de páginas
falsas que tienen como propósito el engañar a las máquinas de
búsqueda y a sus usuarios.
En cualquier caso, la relación entre el administrador de un sitio
Web que intenta tener un alto posicionamiento y el administrador
de la máquina de búsqueda es una relación entre adversarios en
un juego de suma cero . Cada ganancia inmerecida de ranking
para una página es una pérdida de precisión para la máquina de
búsqueda.
Técnicas SEO legítimas (≈ técnicas de sombrero blanco)
José Luis Alonso Berrocal
Recuperación de Información en el Web
Introducción
Caracterísiticas de la Web
Líneas de estudio de la Web
Recolección de la Web
El grafo Web
Posicionamiento
Web Spam
SEO vs. Spam II
Objetivo: aparecer en lo más alto cuando un cliente está
buscándolos
(en contraposición a una página elaborada por personas que odian
a su cliente)
Más eficaz: Pregunta a los sitios web legítimos para vincularse al
cliente
Spam (≈ técnicas de sombrero blanco)
Crear lotes artificiales de los sitios web que enlazan a una página
que promueve un producto (e.g., Viagra)
Es una línea de separación muy delgada.
José Luis Alonso Berrocal
Recuperación de Información en el Web
Apéndice
Bibliografía
Bibliografía I
Amati, G., Ounis, I., and V., P. (2003).
The dynamic absorbing model for the web.
Technical Report TR-2003-137, Department of Computing
Science, University of Glasgow.
Baeza–Yates, R. and Castillo, C. (2004).
Crawling the infinite Web: five levels are enough.
In Proceedings of the third Workshop on Web Graphs (WAW),
volume 3243 of Lecture Notes in Computer Science, pages
156–167, Rome, Italy. Springer.
Baeza-Yates, R. and Castillo, C. (2001).
Relating Web characteristics with link based Web page ranking.
In Proceedings of String Processing and Information Retrieval,
pages 21–32, Laguna San Rafael, Chile. IEEE CS Press.
José Luis Alonso Berrocal
Recuperación de Información en el Web
Apéndice
Bibliografía
Bibliografía II
Barabási, A.-L. (2001).
The physics of the web.
PhysicsWeb.ORG, online journal.
Barabási, A.–L. (2002).
Linked: the new science of networks.
Perseus Publishing.
Becchetti,L. Castillo, C. Donato, D. Baeza-Yates, R. and
Leonardi, S.
Link Analysis for Web Spam Detection.
ACM Transactions on the Web, Vol. 2, No. 1, Art. 2, 2008. ACM
Press.
José Luis Alonso Berrocal
Recuperación de Información en el Web
Apéndice
Bibliografía
Bibliografía III
Brewington, B., Cybenko, G., Stata, R., Bharat, K., and Maghoul,
F. (2000).
How dynamic is the web?
In Proceedings of the Ninth Conference on World Wide Web,
pages 257–276, Amsterdam, Netherlands.
Broder, A., Kumar, R., Maghoul, F., Raghavan, P., Rajagopalan,
S., Stata, R., Tomkins, A., and Wiener, J. (2000).
Graph structure in the web: Experiments and models.
In Proceedings of the Ninth Conference on World Wide Web,
pages 309–320, Amsterdam, Netherlands.
José Luis Alonso Berrocal
Recuperación de Información en el Web
Apéndice
Bibliografía
Bibliografía IV
Castillo C. (2004)
Effective Web Crawling.
PhD Thesis, Dept. of Computer Science, University of Chile.
November 2004
Castillo, C., Marin, M., Rodriguez, A., and Baeza-Yates, R.
(2004b).
Scheduling algorithms for Web crawling.
In Latin American Web Conference (WebMedia/LA-WEB),
Riberao Preto, Brazil. IEEE CS Press.
Chakrabarti, S., van den Berg, M., and Dom, B. (1999).
Focused crawling: a new approach to topic-specific web resource
discovery.
Computer Networks, 31(11–16):1623–1640.
José Luis Alonso Berrocal
Recuperación de Información en el Web
Apéndice
Bibliografía
Bibliografía V
Cho, J. and Garcia-Molina, H. (2003).
Estimating frequency of change.
ACM Transactions on Internet Technology, 3(3).
Cho, J., Garcia-Molina, H., and Page, L. (1998).
Efficient crawling through URL ordering.
In Proceedings of the seventh conference on World Wide Web,
Brisbane, Australia.
Craswell, N., Crimmins, F., Hawking, D., and Moffat, A. (2004).
Performance and cost tradeoffs in web search.
In Proceedings of the 15th Australasian Database Conference,
pages 161–169, Dunedin, New Zealand.
José Luis Alonso Berrocal
Recuperación de Información en el Web
Apéndice
Bibliografía
Bibliografía VI
Davison, B. D. (2000).
Topical locality in the web.
In Proceedings of the 23rd annual international ACM SIGIR
conference on research and development in information retrieval,
pages 272–279. ACM Press.
Edwards, J., McCurley, K. S., and Tomlin, J. A. (2001).
An adaptive model for optimizing performance of an incremental
web crawler.
In Proceedings of the Tenth Conference on World Wide Web,
pages 106–113, Hong Kong. Elsevier Science.
José Luis Alonso Berrocal
Recuperación de Información en el Web
Apéndice
Bibliografía
Bibliografía VII
Eiron, N., McCurley, K. S., and Tomlin, J. A. (2004).
Ranking the web frontier.
In Proceedings of the 13th international conference on World
Wide Web, pages 309–318. ACM Press.
Haveliwala, T. H. (2002).
Topic-sensitive pagerank.
In Proceedings of the Eleventh World Wide Web Conference,
pages 517–526, Honolulu, Hawaii, USA. ACM Press.
Kleinberg, J. M. (1999).
Authoritative sources in a hyperlinked environment.
Journal of the ACM, 46(5):604–632.
José Luis Alonso Berrocal
Recuperación de Información en el Web
Apéndice
Bibliografía
Bibliografía VIII
Koster, M. (1996).
A standard for robot exclusion.
http://www.robotstxt.org/wc/exclusion.html.
Lawrence, S. and Giles, C. L. (2000).
Accessibility of information on the web.
Intelligence, 11(1):32–39.
Lyman, P. and Varian, H. R. (2003).
How much information.
http://www.sims.berkeley.edu/how-much-info-2003.
Najork, M. and Wiener, J. L. (2001).
Breadth-first crawling yields high-quality pages.
In Proceedings of the Tenth Conference on World Wide Web,
pages 114–118, Hong Kong. Elsevier Science.
José Luis Alonso Berrocal
Recuperación de Información en el Web
Apéndice
Bibliografía
Bibliografía IX
Page, L., Brin, S., Motwani, R., and Winograd, T. (1998).
The Pagerank citation algorithm: bringing order to the web.
In Proceedings of the seventh conference on World Wide Web,
Brisbane, Australia.
Shkapenyuk, V. and Suel, T. (2002).
Design and implementation of a high-performance distributed
web crawler.
In Proceedings of the 18th International Conference on Data
Engineering (ICDE), pages 357–368, San Jose, California. IEEE
CS Press.
José Luis Alonso Berrocal
Recuperación de Información en el Web
Descargar