零行列式策略:博弈论领域正在兴起的革命
周涛  |  2014-07-02  |  科学网  |  482次阅读

在过去的近一个世纪中,博弈论深深的改变了人们对于世界的理解和思维模式[1]。事实上,博弈论几乎覆盖了人类交互研究的方方面面,对经济学、政策科学与国际关系、人工智能、计算机与通信、生物演化[2]等学科均有重大的影响。博弈论每次的革新与发展,都带动了诸多相关学科的进步。目前,一共有十位博弈论学家获得了诺贝尔经济学奖。

   动态的重复博弈是博弈论研究的最前沿,也是最艰深方向之一[3]。重复博弈研究的对象是人与人间的长期交互关系。在重复博弈理论框架下,参与博弈的任何一方的期望收益是由各方参与者的行为共同决定的, 为单方参与者寻找一种简单的最优策略,是一个困难的问题。但是在2012年,普利斯顿大学的Freeman Dyson教授和得克萨斯大学的WIlliam Press教授合作发表于PNAS的一篇文章《Iterated Prisoner’s Dilemma contains strategies that dominate any evolutionaryopponent》指出[4],在任何的两人重复博弈中都存在这样一种“零行列式策略”:这类策略强大到无论对方如何抗争如何变化,总能做到比对方更胜一筹;或者能够凭借一己之力,单方面将对手的收益控制在一个固定的数值上。这类策略比几十年来博弈论领域所公认的经典策略,如冷酷策略、以牙还牙、赢留输去等,具有更强的控制力和更好的表现。Press和Dyson的这一科学发现彻底颠覆了人们的传统观念,为博弈论的基础策略研究创立了新的研究范式,并在该领域内引发了新一次的研究热潮[5]。最近的研究显示,这种单方面的控制在多人博弈中也存在,也就是说,一个游戏者在条件合适的情况下可以控制多人[6]。

   零行列式策略的发现,秉承了科学研究中“由现象到本质”这一过程。先是美国科学院院士WilliamPress在博弈实验中发现了特殊的现象,此后由理论物理学家、量子电动力学奠基人FreemanDyson针对这一现象,使用随机矩阵理论进行推导诠释,从而创建了“零行列式策略”的理论雏形。Press和Dyson关于“零行列式策略”的研究框架,不仅仅适用于博弈论,其对于马尔可夫过程和复杂系统均有重要的借鉴价值。Press和Dyson的工作得到了诸多经济学家、博弈论学家、物理学家和进化动力学家的跟进和讨论,如Kail Sigmund、Martin Nowak、Drew Fudenberg、Joshua Plotkin等诸多知名学者,都参与了该论文的讨论,或扩展了这一革命性研究成果。在Press和Dyson的文章发表后的短短一年之内,就有40余篇相关文章发表在PNAS和NatureCommunication等顶级学术期刊上。最近的综述回顾了Press和Dyson工作的领域背景,对其理论框架和数学推导进行了精炼而直观的阐述,并对诸多的相关领域的文章进行了总结归纳[7]。

 

[1] Axelrod R 1984 The Evolution ofCooperation (New York: Basic Book).

[2] Nowak M A 2006 Science 314, 156

[3] Mailath G and Samuelson L 2006 RepeatedGames and Reputations: Long-Run Relationships (New York: Oxford UniversityPress).

[4] Press W H and Dyson F J 2012 PNAS 109,10409.

[5] Stewart A J and Plotkin J B 2012 PNAS 109,10134.

[6] Pan L, Hao D, Rong Z and Zhou T arXiv:1402.3542.

[7] Hao D, Rong Z and Zhou T 2014 Chinese Physics B, 23, 078905.





文章原载于作者的科学网文章,所述内容属作者个人观点,不代表本平台立场。
本文经过系统重新排版,阅读原内容可点击 阅读原文