纵观历史,从古代的先知到现代的科学家,人类都在尝试各种各样的预测——从天体运行、气候环境到人类的移动轨迹;从纯理论分析到基于大数据的预测方法。人工智能的发展又为预测增添了羽翼,各种纷繁复杂的算法被提出并不断刷新预测的准确率。一个基础性的问题自然而起:给定任务下的最高的预测准确率是多少呢?
可预测性是一种新兴的指标,可量化给定时间序列的最高预测准确率[1],被广泛用于评估已知的预测算法和描述人类行为的内在规律。了解可预测性能够认识预测任务的可行性,让研究者更好地有的放矢。但是,最近越来越多的批评针对可预测性的估计不准确,不精准的可预测性缺少实际的使用价值,而这是原始基于熵方法的缺陷造成的。
最近,西北工业大学普适与智能计算研究所徐恩博士、於志文教授与孙卓教授,与电子科技大学大数据研究中心周涛教授在《欧洲物理快报》上联合发表题为“Equivalence between Time Series Predictability and Bayes Error Rate”的研究论文[2],徐恩与周涛为共同第一作者,周涛与於志文为共同通讯作者。该论文严格证明了时间序列的可预测性等同于一个看似不相关的指标,即贝叶斯错误率[3],后者量化了分类问题中不可避免的最低错误率。这个证明连接了两个独立发展的领域,因此每个领域都可以立即从另一个领域受益。例如借助贝叶斯错误率估计可以在很大程度上解决可预测性评估不准的问题。
可预测性指给定时间序列的预测准确率极限。探索这样的度量非常重要。一方面,根据给定的数据,它可以用来评估表现,并估计现有算法的潜在改进空间。另一方面,它描述了时间序列的内在规律,从而加深了对相关现象的理解。例如,可预测性变化揭示了灾难后人类移动模式的改变[4],量化行为相似性和社会关系对人类移动预测的贡献[5],揭示模型结构和社会网络异质性在预测传染性疾病疫情的预测中所发挥的作用[6],等等。
Song等人2010年在《科学》期刊上提出了一个熵框架来计算可预测性(Π)[1]。这种开创性的方法有两个明显的缺点:(i)它建立在潜在的马尔可夫性质之上,而一些时间序列表现出长程相关性;(ii)对时间序列的长度敏感,而实时序列通常太短而不能满足要求。因此,上述方法通常是不准确的,有时很大程度上高估了可预测性,有时又被设计良好的算法超越[7]。
贝叶斯错误率(Bayes error rate,R)[2]是给定数据在分类中不可避免的最低错误率,该指标被广泛应用于特征选择、特征或行为的中间表示、安全防御的质量评估、机器学习的可行性估计等方面。与可预测性的萌芽相反,对贝叶斯错误率的研究已经持续了半个多世纪,因此提出了许多复杂的方法来计算R或估计R的上下界。徐恩等人的论文证明了上述两个看似不相关的度量,可预测性和贝叶斯错误率之间的数学等价性,其数学关系为:Π=1-R。
了解可预测性的直接价值是决定是否值得改进当前的预测器。不幸的是,基于熵的方法通常会失败,因为它在很大程度上高估了真实的可预测性。性能不理想的部分原因是近似只考虑了具有最大下一时刻发生概率的状态的熵。但这种近似也是保证计算可行性不可缺少的一部分。因此,在熵框架中很难克服观察到的缺点。徐恩等人的论文揭示了可预测性和一个看似不相关的度量贝叶斯错误率之间的等价性,并立即提供了一种新的方法来提高可预测性的估计——应用贝叶斯错误率相关的方法。如下图所示,受贝叶斯错误率启发的方法明显更好。在子图B和D中,红色线是受贝叶斯错误率启发方法的表现,蓝色线是基于熵的方法,虚线表示真值,越接近虚线评估偏差越小。
徐恩等人的论文为两个独立发展的领域建立了桥梁,为两领域的借鉴学习奠定了基础。
参考文献:
[1] C. Song, Z. Qu, N. Blumm, A.-L. Barabasi, Limits of predictability in human mobility, Science 327 (2010) 1018-1021.
[2] E. Xu, T. Zhou, Z. Yu, Z. Sun, B. Guo, Equivalence between time series predictability and Bayes error rate, EPL 141 (2023) 61003.
[3] T. Cover, P. Hart, Nearest neighbor pattern classification[J]. IEEE transactions on information theory 13 (1967) 21-27.
[4] X. Lu, L. Bengtsson, P. Holme, PNAS 109 (2012) 11576-11581.
[5] Z. Chen, S. Kelty, A. G. Evsukoff, B. F. Welles, J. Bagrow, R. Menezes, G. Ghoshal, Contrasting social and non-social sources of predictability in human mobility, Nature Communications 13 (2022) 1922.
[6] S. V. Scarpino, G. Petri, Nature Communications 10 (2019) 898.
[7] P. Xu, L. Yin, Z. Yue, T. Zhou, On predictability of time series, Physica A 523 (2019) 345-351.
论文信息:
E. Xu, T. Zhou, Z. Yu, Z. Sun, B. Guo, Equivalence between time series predictability and Bayes error rate, EPL 141 (2023) 61003.
论文链接:
https://iopscience.iop.org/article/10.1209/0295-5075/acc19e
免费下载: