序列,特别是时间序列(如果每个点出现都有时间戳,我们往往称之为时间序列),是刻画自然界和社会经济系统常见的一种数据形态。为了分析序列中紧邻项的取值之间有没有关系,我们可以将一个长度为N的序列拆成两个长度为N-1的序列(1到N-1和2到N),然后对齐计算这两个序列的Pearson相关系数。这个算出来的值被叫做记忆强度。根据Pearson相关系数的定义,这个记忆强度的取值范围应该是从-1到+1。如果记忆强度大于0,则说明这个序列里面一旦出现一个大数,后面更可能紧跟着一个大数;一旦出现一个小数,后面更可能紧跟着一个小数。反之如果记忆强度小于0,则大数后面容易接小数,小数后面容易接大数。
问题来了,Pearson相关系数能够用来刻画所有的序列吗?我们注意到Pearson相关系数的定义中,分母是用了序列中所有元素值的方差,如果这个方差发散,那么Pearson相关系数还能用吗?而且,已经有一些学者同时用序列值方差的“发散程度”和记忆强度来刻画一个序列的特征[1],如果这两者之间存在约束关系,那么我们就需要更认真地审视原来的一些结果到底是独立有价值的结果,还是仅仅源于约束条件本身。
我们首先考虑了序列中元素值服从幂律分布的典型情况(当幂指数小于等于3的时候,方差发散),因为这类序列在自然界和社会经济系统中比比皆是[2]。经过略微有些繁复的推导(这部分内容有兴趣的读者可以参考正文,部分方法和思路来自于25年前的一个序列极值的工作[3]),我们解析地得到了元素值服从幂函数律的序列的记忆强度的上下界[4]:有趣的是,这个上下界并不是平凡的-1和+1。事实上,当幂指数在1-3之间的时候,下界为0,而随着幂指数从1到3变化,上界从0增长到1(和你们想的不一样吧!!)。而当幂指数大于3的时候,上界变成了平凡上界1,而下界随着幂指数从3变到无穷大,从0开始慢慢往-1靠近。
我们还考察了Gamma分布,Student分布,Weiball分布,Log-Normal分布等等,也观察到了类似的现象。
这个结果定性上不出人意料,但是定量化获得它还是很有价值的。特别地,它能够提醒我们,在处理一个元素值分布很广的序列时,要认真思考所得到的记忆值的意义,例如一个幂指数很小(小于3甚至接近1)的幂律序列,如果算出来记忆强度大于0,不代表是在序列所有置换中倾向于大数后面紧跟大数,小数后面紧跟小数。相反,只要符合这样的分布,基本上都是“大数后面紧跟大数,小数后面紧跟小数”,而当前处理的序列,虽然记忆强度大于0,很可能在所有可能的元素排列中,还更加倾向于“大数后面接小数,小数后面接大数”。
这个方法可以推广到网络中(更复杂一些),得到网络相关系数的界[5]。另外,我们这个工作可以看作对Karsai等人观察[6]的一个正面和定量化的回应!
[1] Goh, K. I., & Barabási, A. L. (2008). Burstiness and memory in complex systems. EPL (Europhysics Letters), 81(4), 48002.
[2] Clauset, A., Shalizi, C. R., & Newman, M. E.(2009). Power-law distributions in empirical data. SIAM Review, 51(4), 661-703.
[3] Hallin, M., Melard, G., & Milhaud, X. (1992).Permutational extreme values of autocorrelation coefficients and a Pitman test against serial dependence. The Annals of Statistics, 20(1), 523-534.
[4] Guo, F., Yang, D., Yang, Z., Zhao, Z. D., & Zhou,T. (2017). Bounds of memory strength for power-law series. Physical Review E, 95, 052314.
[5] Yang, D., Pan, L., & Zhou, T. (2017). Lower boundof assortativity coefficient in scale-free networks. Chaos: An Interdisciplinary Journal of Nonlinear Science, 27(3), 033113.
[6] Karsai, M., Kaski, K., Barabási, A. L., & Kertész,J. (2012). Universal features of correlated bursty behaviour. Scientific Reports, 2, 397.