这是一篇针对Michael Szell 2012年在Scientific Reports所发表论文的读后感[1],包括论文结论的简单介绍和我们进一步想做的工作分析。本来是发给几位同事的,因为觉得内容有趣,干脆整理出来,或许对同行有帮助。各位读者有兴趣的,也可以研究我们建议的问题,这不算剽窃,因为问题得以解决最重要,而不一定非要被我们解决——当然,如果记得致谢我们,就更高兴了。
这篇文章还没有正式印出来我就注意到了,当时只是看了题目摘要。后来Michael看到我们arXiv的论文[2]后写信向我介绍他的工作,并说他曾经提出了类似的问题,我才在他的论文不起眼处看到了几句相关的话(一会儿讲),所以又把主要的图看了一遍。直到这几天才真正打印出来仔仔细细地看了一遍。
有一些学者认为,在线游戏可以作为我们研究真实社会经济现象的一个很好的试验地[3]。想想也有道理,毕竟在里面玩的都是人,虽然环境虚拟,但是挣钱打怪升级的梦想和现实如出一辙,恐怕要比通过蚂蚁蜜蜂猴子猩猩的社会实验来理解推断人更加贴近。Michael一直在做这方面的研究工作,前期的主要工作集中在在线游戏所形成的社会网络的分析上[4,5],本文则是转战在线虚拟世界中游戏者空间移动行为。
Michael所分析的是一个叫做Pardus的游戏,其中有20个区域(可以看成国家)和400个城市,有些城市之间能够直接到达,有些不行。数据记录了每个用户每天第一次登陆时所在的城市,游戏中可以旅行到其他城市,这些中间信息不记录。分析时选择了1458个活跃了1000天以上的用户。注意,这个数据除了毕竟不是真实世界以外,还有一个重大的缺陷,就是事实上没有任何真正的几何概念,所有的距离都是拓扑距离!
Michael通过分析数据发现,位移距离分布是指数的(拟合一坨屎),而在同一个地点停留的时间分布是幂律的(幂指数2.2,拟合很好),而且用户有很明显的倾向停留在同一个区域。Michael认为是单一的移动模式造成了指数距离分布,而混合交通模式才会形成幂律分布。我们的工作[2]正好是通过大量实证和麦克斯韦-波尔兹曼统计得到了同样的结论。所以Michael写信给我的时候我很惊讶,因为他所分析的只是拓扑距离,而且是一个游戏,完全没有任何支持他得到这个结论的证据,纯粹就是瞎猜(他自己文章中也用了related to, might be这样推测性的语气)——我只能说,这个家伙直觉不错的。
文章真正比较精彩的地方是,他认为人类空间移动存在memory效应,但这种memory主要在局部起作用。他提出了一种方法,刻画用户当前访问的地点正好是k天前(最小k)访问过的地方的概率,发现这个概率随k幂律递减,幂指数是1.3。回想一下Song的探索-优先返回模型[6],优先返回的时候返回某地点的概率和这个地方被访问过的次数成正比——这他妈的实际上是一个记忆无穷长模型,因为一切以前的访问都被记录了。反过来,Michael提出了一个有限记忆模型,主要根据p(k)来确定是返回到哪一个节点——如果p(k)抽样出来一个k=2,那么今天就回到上前天访问过的地方。Michael文章显示,他的模型更符合实际。这个思路很有趣,而且里面藏着大问题和全新的理解!!
我最近毙掉了很多Scientific Reports的submissions,Michael运气好,文章没有到我这里,否则的话,虽然他引用我们的文章又做我感兴趣的方向,但是模型存在一个逻辑上的巨大漏洞!因为Song的模型除了优先返回以外,还有一个由Heaps定律引致而出的探索新地点的方式,而Michael直接用了以1-v的概率探索新地方,v的概率到一个老地方。Michael至始至终没有检查过Heaps定律的问题,因此实际上不知道问题是出在Song模型优先返回的机制上,还是在Heaps定律上——细节太烦不提,大家看[1][6]模型的差异就知道了。当然,我个人是相信Michael的结果,但是相信不等于当前Michael的文章逻辑完整。
文章读到这里,说说我觉得还可以继续做的几个方向——这部分本来是纯粹隐私的合作者之间的信件,但是放在博客中,也是希望有同行能够一起做好玩的问题。
[1] 虚拟空间行为的Predictability如何,和真实系统相比更大还是更小?因为Song等人分析Predictability的时候[7],是从Fano编码不等式出发的,因此只是一个序列的可预测性,并没有用到这个序列所对应的具体空间位置信息或者网络拓扑信息——而几何或者拓扑距离更近的空间位置之间更容易发生移动。那么,我想知道,几何和拓扑的信息对于预测有什么价值,或者说价值有多大?我们现在实现和发展了决策树、神经网络和隐马尔科夫链的各种预测方法,我觉得可以对这些问题有较深入的认识。
[2] Michael所提出的power-law decaying的memory模型(他称其为time order memory (TOM)模型)以及最近的一些相关工作[8],是否在某种意义上接近或者描摹一种名为temporal motif的新分析方法,如果我们能够把节点(或者链路,方法略有不同)进行分类,譬如分成频繁访问的/偶有访问的 或者 距离几何中心近的/距离几何中心远的,然后把连续变量离散化之后,就可以得到temporal motifs了。
[3] 到底哪些时候Song模型更合适,哪些时候Michael的模型更合适,还是两者都无法刻画个性行为?Heaps定律到底成立吗,如果成立,是一个特别重要的规律吗(建模中起至关重要的作用吗)?这些问题通过简单的实证分析就能得到答案,因为我们能够很容易测量Heaps定律[9],很容易测量preferential attachment的强度[10],也很容易测量Michael建议的decaying强度。光是大范围(10个左右不同数据集)测量这些规律就有非常重要的价值,因为现在很多实证都是乱七八糟的。
[1] M. Szell, R. Sinatra, G. Petri, S. Thurner, V. Latora, Understanding mobility in a social petri dish, Sci. Rep. 2 (2012) 457.
[2] X.-Y. Yan, X.-P. Han, B.-H. Wang, T. Zhou, Diversity of Individual Mobility Patterns, arXiv: 1211.2874.
[3] W. Bainbridge, The scientific research potential of virtual worlds, Science 317 (2007) 472.
[4] M. Szell, S. Thurner, Measuring social dynamics in a massive multiplayer online game, Social networks 32 (2010) 313-329.
[5] M. Szell, R. Lambiotte, S. Thurner, Multirelational organization of large-scale social networks in an online world, PNAS 107 (2010) 13636.
[6] C. Song, T. Koren, P. Wang, A.-L. Barabasi, Modeling the scaling property of human mobility, Nature Physics 6 (2010) 818.
[7] C. Song, Z. Qu, N. Blumm, A.-L. Barabasi, A Limits of predictability in human mobility, Science 327 (2010) 1018.
[8] R. Sinatra, D. Condorelli, V. Latora, Networks of motifs from sequences of symbols, Phys. Rev. Lett. 105 (2010) 178702.
[9] L. Lu, Z.-K. Zhang, T. Zhou, Zipf's Law Leads to Heaps' Law: Analyzing Their Relation in Finite-Size Systems, PLoS ONE 5 (2010) e14139.
[10] H. Jeong, Z. Neda, A.-L. Barabasi, Measuring preferential attachment in evolving networks, Europhys. Lett. 61 (2003) 567.