Zipf定律是Zipf在1949年的一本关于人类定位的最小作用原理的书中首先提出的,其中最令人难忘的例子是在人类语言中,如果以单词出现的频次将所有单词排序,用横坐标表示序号,纵坐标表示对应的频次,可以得到一条幂函数曲线。这个定律被发现适用于大量复杂系统。Heaps定律是Heaps在1978年一本关于信息挖掘的专著中提出的。事实上,他观察到在语言系统中,不同单词的数目与文本篇幅(所有出现的单词累积数目)之间存在幂函数的关系,其幂指数小于1。
很多复杂系统同时满足Zipf定律和Heaps定律,但是对于两者关系,学术界存在长期争论。通过一些随机过程模型,有些学者(Baeza-Yates, Navarro, Leijenhorst, Weide, Serrano, Flammini, Menczer)认为Zipf定律是本质的,Heaps定律是衍生的,可以从Zipf定律推出;有些学者(Zanette, Moutemurro)认为Heaps定律是本质的,Zipf定律是衍生的;有的学者认为这两种定律相互独立。我们不依赖于任何随机过程,证明了Zipf定律更本质,而Heaps定律是衍生律。进一步地,我们证明了以前的两个定律指数之间的解析关系,只是在Zipf指数远大于1或远小于1或系统规模无穷大的时候的一种渐进解。遗憾的是,真实系统不满足三种条件中的任何一种。我们提出了新的解析方法,得到了更精确的解析结果,在35个真实数据中进行验证,发现有34个数据新结果都好于以前的结果。
这篇文章提供了对于复杂系统演化规律的有价值的见解,厘清了两个著名定律之间的因果关系。本文的结果有非常广泛的应用,对很多重要的现象提出了有力的解释。例如可以从全新的观点解释无标度网络加速增长的原因——无标度网络要保持标度指数的稳定必须采用加速增长的方式(具体参考论文)。这篇文章原创性的想法由琳媛提出,经我改良,由琳媛完成所有解析推导,子柯收集并处理分析所有真实数据,我程序实现随机过程模型进行验证。文章结构经大家讨论后,由我执笔完成撰写。
论文信息:Linyuan Lü, Zi-Ke Zhang, Tao Zhou, “Zipf’s Law Leads to Heaps’ Law: Analyzing Their Relation in Finite-Size Systems”, PLoS ONE 5 (2010) e14139.
全文可通过链接 http://www.plosone.org/article/info:doi/10.1371/journal.pone.0014139 获取。