师说 | 网络名师博客群 of 电子科技大学

零行列式策略：博弈论领域正在兴起的革命

周涛 | 2014-07-02 | 科学网 | 823次阅读

在过去的近一个世纪中，博弈论深深的改变了人们对于世界的理解和思维模式[1]。事实上，博弈论几乎覆盖了人类交互研究的方方面面，对经济学、政策科学与国际关系、人工智能、计算机与通信、生物演化[2]等学科均有重大的影响。博弈论每次的革新与发展，都带动了诸多相关学科的进步。目前，一共有十位博弈论学家获得了诺贝尔经济学奖。

动态的重复博弈是博弈论研究的最前沿，也是最艰深方向之一[3]。重复博弈研究的对象是人与人间的长期交互关系。在重复博弈理论框架下，参与博弈的任何一方的期望收益是由各方参与者的行为共同决定的, 为单方参与者寻找一种简单的最优策略，是一个困难的问题。但是在2012年，普利斯顿大学的Freeman Dyson教授和得克萨斯大学的WIlliam Press教授合作发表于PNAS的一篇文章《Iterated Prisoner’s Dilemma contains strategies that dominate any evolutionaryopponent》指出[4]，在任何的两人重复博弈中都存在这样一种“零行列式策略”：这类策略强大到无论对方如何抗争如何变化，总能做到比对方更胜一筹；或者能够凭借一己之力，单方面将对手的收益控制在一个固定的数值上。这类策略比几十年来博弈论领域所公认的经典策略，如冷酷策略、以牙还牙、赢留输去等，具有更强的控制力和更好的表现。Press和Dyson的这一科学发现彻底颠覆了人们的传统观念，为博弈论的基础策略研究创立了新的研究范式，并在该领域内引发了新一次的研究热潮[5]。最近的研究显示，这种单方面的控制在多人博弈中也存在，也就是说，一个游戏者在条件合适的情况下可以控制多人[6]。

零行列式策略的发现，秉承了科学研究中“由现象到本质”这一过程。先是美国科学院院士WilliamPress在博弈实验中发现了特殊的现象，此后由理论物理学家、量子电动力学奠基人 FreemanDyson针对这一现象，使用随机矩阵理论进行推导诠释，从而创建了“零行列式策略”的理论雏形。Press和Dyson关于“零行列式策略”的研究框架，不仅仅适用于博弈论，其对于马尔可夫过程和复杂系统均有重要的借鉴价值。Press和Dyson的工作得到了诸多经济学家、博弈论学家、物理学家和进化动力学家的跟进和讨论，如Kail Sigmund、Martin Nowak、Drew Fudenberg、Joshua Plotkin等诸多知名学者，都参与了该论文的讨论，或扩展了这一革命性研究成果。在Press和Dyson的文章发表后的短短一年之内，就有40余篇相关文章发表在PNAS和NatureCommunication等顶级学术期刊上。最近的综述回顾了Press和Dyson工作的领域背景，对其理论框架和数学推导进行了精炼而直观的阐述，并对诸多的相关领域的文章进行了总结归纳[7]。

[1] Axelrod R 1984 The Evolution ofCooperation (New York: Basic Book).

[2] Nowak M A 2006 Science 314, 156

[3] Mailath G and Samuelson L 2006 RepeatedGames and Reputations: Long-Run Relationships (New York: Oxford UniversityPress).

[4] Press W H and Dyson F J 2012 PNAS 109,10409.

[5] Stewart A J and Plotkin J B 2012 PNAS 109,10134.

[6] Pan L, Hao D, Rong Z and Zhou T arXiv:1402.3542.

[7] Hao D, Rong Z and Zhou T 2014 Chinese Physics B, 23, 078905.

文章原载于作者的科学网文章，所述内容属作者个人观点，不代表本平台立场。

本文经过系统重新排版,阅读原内容可点击阅读原文

热榜

大数据与人工智能的伦理挑战（1）

磨刀不误砍柴工