关于网页流量的理论
周涛  |  2008-04-23  |  科学网  |  433次阅读

昨天读了一篇名为《A theory of web traffic》的论文。虽然发表在《欧洲物理快报》上,但一看引文,就知道作者不是物理圈子里面的人。不过正是如此,加上文章题目很大,所以读了一下。

 

文章对一些网页的流量进行了统计分析,发现了突然性的尖峰现象。他们把这种尖峰解释为由级联引起的,可以和自组织临界系统关联起来。

 

模型非常之简单,一个网页,平均每天有常态的访问,是一个均值为Nc的泊松分布。所有访问的人,又一个很小的概率r会把这个网页的URL放在自己的博客或者链接到其他什么古怪地方,如果他这样做了,这个新链接平均会吸引N个人(假设都在第二天到达)。于是乎,这个问题就变成幼儿园大班的问题了——套用经典的Branching process理论,Nr=1临界,Nr<1就game over,Nr大于1就暴涨不停(如果地球人无限的话)。

 

作者做了一些数值模拟,看起来似乎和真实web traffic时间序列有的像,其实统计上差别很大。只需要用肉眼,就知道真实的陡得多。Sornette 04年有一篇很诡异的文章[PRL, 93, 228701],提出了把对一个对象日访问的次数的时间序列中的大波动区分成内生的和外生的两种情况(方法非常粗糙),在今年还没有印出来的一篇PNAS也应用了这个方法。两篇文章有着明显不同的解释,因为对于Sornette来说,暴涨是来自于外生的因素,但是我说的这篇EPL显示,暴涨也可能来自于内生的因素(经由cascading)。其实我觉得Sornette的想法基本上是不对的,虽然他的思路有很多先进的地方。我们用delicious的数据和Sornette交换他的Youtube数据(PNAS08,arXiv:0803.2189),他还专门写了一个协议,说明他保证不会用我们的数据做和我们相关的研究,也希望我们不用他的数据做“内生-外生波动”的研究,以免大家在一块小蛋糕上恶性竞争。不知道是他担心被comment还是性格使然,反正挺古怪的。

 

用物理的方法,包括网络动力学,扩散方程,级联动力学(自组织临界)等等研究Internet和www的世界,现在看起来是越来越红火了(确实既有趣又具有挑战性)。今年要进三个博士生,准备让两个人专门搞这个方向。




文章原载于作者的科学网文章,所述内容属作者个人观点,不代表本平台立场。
本文经过系统重新排版,阅读原内容可点击 阅读原文