Web traffic: analysis of navigation data and modeling at single user

Anuncio
Web traffic: analysis of navigation data
and modeling at single user level.
José Javier Ramasco
1
de
9
Santander Octubre 2006
Marta Sánchez de La Lama
Outline
  Internet and the Web
  Navigation traces
  Data analysis at an aggregate level
  Individual-level data: navigation trees
  Models of Web navigation
2
de
9
Santander Octubre 2006
Marta Sánchez de La Lama
Internet and the WWW (Web)
3
de
9
Santander Octubre 2006
Marta Sánchez de La Lama
Internet and the WWW (Web)
4
de
9
Santander Octubre 2006
Marta Sánchez de La Lama
Internet and the Web
Friendster.com
5
de
9
Santander Octubre 2006
Marta Sánchez de La Lama
Internet and the Web
6
de
9
Santander Octubre 2006
Marta Sánchez de La Lama
Web navigation & navigation traces
http://www.a.edu
http://www.b.edu
7
de
9
Santander Octubre 2006
Marta Sánchez de La Lama
Navigation traces
8
de
9
Santander Octubre 2006
Marta Sánchez de La Lama
Navigation traces (Web requests)
9
• 
• 
Source MAC: 03:5a:66:17:90:5e
Dest. MAC: 10:99:19:3f:51:2f
• 
• 
Source IP: 192.168.39.190
Dest. IP: 127.100.251.3
• 
• 
Source Port: 9421
Dest. Port: 80
• 
• 
• 
• 
GET /index.html HTTP/1.1
Agent: SuperCrawler-2009/beta
Referer: http://www.grumpy-puppy.com/
Host: www.happy-kitty.com
de
9
Santander Octubre 2006
Marta Sánchez de La Lama
Why to study navigation traces?
10
de
9
Santander Octubre 2006
Marta Sánchez de La Lama
Why to study navigation traces?
11
de
9
Santander Octubre 2006
Marta Sánchez de La Lama
Databases
Emory University
• Students:
• Faculty:
12,300
~ 3,200
Population: 70 k
5,6
Indiana University, Bloomington
• Students:
12
• Faculty:
42,000
~ 5,000
Population of the metro area: 5,6 million
de
9
Santander Octubre 2006
Marta Sánchez de La Lama
Databases (Emory University)
•  The database is formed by the weblogs of Emory University from Apr. 1st
2005 to Jan. 17th 2006 (41 weeks).
•  Each click in a web of the university is registered at the time resolution of 1
second.
13
de
9
Santander Octubre 2006
Marta Sánchez de La Lama
Databases (Indiana University)
•  The database is formed by the Web requests from a dorm of the University.
•  Data collected from March 5, 2008 through May 3, 2008
•  408 million HTTP requests
•  1083 unique MAC addresses (Computers).
•  29.8 million page requests
•  967 unique users
•  630,000 Web servers
•  110,000 referring hosts
14
de
9
Santander Octubre 2006
Marta Sánchez de La Lama
Aggregate results
15
de
9
Santander Octubre 2006
Marta Sánchez de La Lama
Aggregate results
16
de
9
Santander Octubre 2006
Marta Sánchez de La Lama
Aggregate results
17
de
9
Santander Octubre 2006
Marta Sánchez de La Lama
Aggregate results
18
de
9
Santander Octubre 2006
Marta Sánchez de La Lama
Aggregate results
19
de
9
Santander Octubre 2006
Marta Sánchez de La Lama
Aggregate results
20
de
9
Santander Octubre 2006
IP 
Marta Sánchez de La Lama
www.x.emory.edu/*
Individual users results
21
de
9
Santander Octubre 2006
Marta Sánchez de La Lama
Individual users results (Sessions)
22
de
9
Santander Octubre 2006
Marta Sánchez de La Lama
Models: PageRank
23
de
9
Santander Octubre 2006
Marta Sánchez de La Lama
Models: BookRank
24
de
9
Santander Octubre 2006
Marta Sánchez de La Lama
Models: bookmarks + topicality (ABC)
25
de
9
Santander Octubre 2006
Marta Sánchez de La Lama
Simulation vs empirical data
26
de
9
Santander Octubre 2006
Marta Sánchez de La Lama
Simulation vs empirical data
27
de
9
Santander Octubre 2006
Marta Sánchez de La Lama
Simulation vs empirical data
28
de
9
Santander Octubre 2006
Marta Sánchez de La Lama
Simulation vs empirical data
29
de
9
Santander Octubre 2006
Marta Sánchez de La Lama
Conclusions
  We have studied the Web navigation traces of
a large number of users.
  Some of the features seem to be relatively
universal despite natural user-user variability.
  We have proposed a family of models able to
reproduce deeper and deeper characteristics
of the users’ navigation patterns.
  How far should we go? Do this last simple
model implement topicality satisfactorily?
30
And what about real time dynamics? …
de
9
Santander Octubre 2006
Marta Sánchez de La Lama
Collaborators & papers
31
de
9
Santander Octubre 2006
Marta Sánchez de La Lama
Descargar