博弈论大师约翰·纳什的去世,再一次引起了大众对于博弈论的探讨。在诸多数学分支中,博弈论往往能吸引大众的关注,这是因为博弈论在宏观的社会行为和微观的个人动机间,建立了坚实的桥梁,用美丽的数学解释并解决了个体及社会的交互问题[1,2,3]。目前,包括去年的让·梯若尔在内,博弈论及相关领域的研究者,已经7次获得诺贝尔经济学奖[4-7]。而在纳什、泽尔滕、海萨尼、谢林和欧曼之后,动态博弈[1,3]已经成为博弈论研究的最艰深、前沿方向之一,博弈论的研究核心也逐渐由纳什均衡(Nash Equilibrium)、子博弈完美均衡(Subgame Perfect Equilibrium)、贯序均衡(Sequential Equilibrium)逐渐精炼、发展到马尔可夫均衡(Markov Equilibrium)以及有限状态均衡(Finite State Equilibrium)。
个体间的长期关系是任何社会形成与发展的基石,它普遍存在于自然界、生物系统、人类社会、政治经济等领域中。动态博弈(Dynamic Game)理论是研究个体间长期关系的最重要理论,它系统化地阐述了在个体的长期交互过程中,竞争与合作的涌现、维持、发展、演化的内在机理,从数学范式上刻画了动态策略(Dynamic Strategies)、合作促进(Cooperation Enforcing)、声望(Reputation)、社会规范(Social Norm)、奖惩(Reward and Punishment)等现实世界中普遍存在的重要概念,因此成为了博弈论研究的最前沿之一 [1,2,3]。正如一些经济学家所表示:下一个在博弈论领域诞生的诺贝尔奖,更可能出现在动态博弈和声望研究中[1]。
然而,不同于数学模型的理想状态和实验环境的完美情况,现实世界中,个体间的交互往往会含有噪音、错误与不确定性,这是因为不论是观察的误差、行为的不精确性、生物的突变抑或是其他随机事件,都会对个体间的交互产生噪声和扰动。动态博弈中一个重要的未解决问题就是:在纷繁冗杂、充满不确定性的现实世界中,对他人的控制、勒索、以及占便宜现象的数学解释是什么?分析带有噪声的动态博弈,是整个博弈论领域的本质问题之一。互联网科学中心郝东、荣智海、周涛提出了在含有噪声的动态博弈中,对于他人及自身收益的控制策略,实现了对Press和Dyson在PNAS工作的[8,9]一般化,从而从数学上解析了现实的长期交互关系中,控制、勒索、剥削、占便宜行为的产生条件及内在机理。本文的研究成果意图为生物演化、社会规范、多智能体系统、网络通信等领域中的长期关系研究及应用提供理论支撑。
原文见:
Dong Hao, Zhihai Rong, and Tao Zhou. Extortionunder uncertainty: Zero-determinant strategies in noisy games. Phys. Rev. E 91,052803, May 2015.
http://journals.aps.org/pre/abstract/10.1103/PhysRevE.91.052803
References:
[1] Mailath G. and Samuelson L. Repeated Games and Reputation: Long-RunRelationships. Oxford University Press, 2006.
[2] Fudenberg D. and TiroleJ.. Game theory. MIT Press,1991.
[3] BasarT.and OlsderG.J. Dynamic Noncooperative Game Theory, 2nd edition, SIAM Classics,1999.
[4] Nash J. F., Equilibrium points in n-persongames, Proceedings of the nationalacademy of sciences, vol.36(1), pp. 48-49.1950.
[5] HarsanyiJ. C.and SeltenR., A GeneralizedNash Solution for Two-Person Bargaining Games with Incomplete Information,Management Science, INFORMS, vol. 18(5-Part-2), pages 80-106,January.1972.
[6] Thomas C. Schelling. Micromotives andMacrobehavior, W. W. Norton and Co., 1978.
[7] Tabarrok A. What is Mechanism Design? Explainingthe research that won the 2007 Nobel Prize in Economics.Reason Magazine. Retrieved2007.
[8] Press W.H, Dyson F.J. Iterated Prisoner’s Dilemma containsstrategies that dominate any evolutionary opponent[J]. Proceedings of theNational Academy of Sciences, 109(26): 10409-10413.2012.
[9] Dong Hao (郝东),Zhi-Hai Rong (荣智海) and Tao Zhou (周涛):Zero-determinant strategy: An underway revolution in game theory. ChinesePhys. B 23 078905, 2014.