什么是纳什均衡理论?

什么是纳什均衡理论?,第1张

纳什均衡又称非合作博弈均衡,是博弈论中的一个重要术语,以约翰·纳什的名字命名。在博弈过程中,无论对方的战略选择是什么,一方都会选择一定的战略,这就叫主导战略。如果两个博弈者的战略组合构成各自的主导战略,则该组合被定义为纳什均衡。

当每个球员的平衡策略是达到其预期收益的最大值时,一个策略组合被称为纳什均衡,同时,所有其他球员遵循这一策略。

扩展资料;

纳什均衡可分为两类:纯战略纳什均衡和混合战略纳什均衡。

要解释纯策略纳什均衡和混合策略纳什均衡,首先要解释纯策略和混合策略。

所谓纯策略,就是为玩家提供一个完整的游戏定义。特别是,纯粹的策略决定了在任何情况下都要进行的运动,策略集合是玩家可以执行的纯策略集合。

混合策略是通过给每一个纯策略分配一个概率而形成的策略,混合策略允许玩家随机选择纯策略,在混合策略博弈的均衡中,由于每个策略都是随机的,当达到一定的概率时,就可以得到最优支付。由于概率是连续的,即使策略集是有限的,也会有无限的混合策略。

当然,严格地说,每个纯策略都是一个“退化”混合策略,一个特定纯策略的概率为1,另一个为0。

因此,“纯战略纳什均衡”是指所有参与者都玩纯战略,而相应的“混合战略纳什均衡”则是指至少有一个参与者玩混合战略。并不是每一个博弈都会有纯战略纳什均衡,比如“硬币问题”只有混合战略纳什均衡,而不是纯战略纳什均衡。

然而,仍有许多博弈具有纯战略纳什均衡(如协调博弈、囚徒困境博弈和鹿博弈)。甚至,有些游戏可以同时拥有纯策略和混合策略平衡。

参考资料来源;百度百科——纳什平衡

第1节 纳什:天才还是疯子?
《美丽心灵》是一部非常经典的影片,它再现了伟大的数学天才约翰·纳什的传奇经历,影片本身以及背后的人物原型都深深地打动了人们。这部影片上演后接连获得了第59届金球奖的5项大奖,以及2002年第74届奥斯卡奖的4项大奖。纳什是一位数学天才,他提出的“纳什均衡”是博弈论的理论支柱。同时,他还是诺贝尔经济学奖获得者。但这并不是他的全部,只是他传奇人生中辉煌的一面。我们在讲述“纳什均衡”之前,先来了解这位天才的传奇人生。纳什于1928年出生在美国西弗吉尼亚州。他的家庭条件非常优越,父亲是工程师,母亲是教师。纳什小时候性格孤僻,不愿意和同龄孩子一起玩耍,喜欢一个人在书中寻找快乐。当时纳什的数学成绩并不好,但还是展现出了一些天赋。比如,老师用一黑板公式才能证明的定理,纳什只需要几步便可完成,这也时常会让老师感到尴尬。

1948年,纳什同时被4所大学录取,其中便包括普林斯顿、哈佛这样的名校,最终纳什选择了普林斯顿。当时的普林斯顿学术风气非常自由,云集了爱因斯坦、冯·诺依曼等一批世界级的大师,并且在数学研究领域一直独占鳌头,是世界的数学中心。纳什在普林斯顿如鱼得水,进步非常大。

1950年,纳什发表博士论文《非合作博弈》,他在对这个问题继续研究之后,同年又发表了一篇论文《n人博弈中的均衡点》。这两篇论文不过是几十页纸,中间还掺杂着一些纳什画的图表。但就是这几十页纸,改变了博弈论的发展,甚至可以说改变了我们的生活。他将博弈论的研究范围从合作博弈扩展到非合作博弈,应用领域也从经济领域拓展到几乎各个领域。可以说“纳什均衡”之后的博弈论变成了一种在各行业各领域通用的工具。

发表博士论文的当年,纳什获得数学博士学位。1957年他同自己的女学生阿丽莎结婚,第二年获得了麻省理工学院的终身学位。此时的纳什意气风发,不到30岁便成为了闻名遐迩的数学家。1958年,《财富》杂志做了一个评选,纳什被评选为当时数学家中最杰出的明星。上帝喜欢与天才开玩笑,处于事业巅峰时期的纳什遭遇到了命运的无情打击,他得了一种叫作“妄想型精神分裂症”的疾病。这种精神分裂症伴随了他的一生,他常常看到一些虚幻的人物,并且开始衣着怪异,上课时会说一些毫无意义的话,常常在黑板上乱写乱画一些谁都不懂的内容。这使得他无法正常授课,只得辞去了麻省理工大学教授的职位。

辞职后的纳什病情更加严重,他开始给政治人物写一些奇怪的信,并总是幻觉自己身边有许多苏联间谍,而他被安排发掘出这些间谍的情报。精神和思维的分裂已经让这个曾经的天才变成了一个疯子。

他的妻子阿丽莎曾经深深被他的才华折服,但是现在面对着精神日益暴躁和分裂的丈夫,为了保护孩子不受伤害,她不得不选择同他离婚。不过,他们的感情并没有就此结束,她一直在帮他恢复。1970年,纳什的母亲去世,他的姐姐也无力抚养他,当纳什面临着露宿街头的困境时阿丽莎接收了他,他们又住到了一起。阿丽莎不但在生活中细致入微地照顾纳什,还特意把家迁到僻静的普林斯顿,远离大城市的喧嚣,她希望曾经见证纳什辉煌的普林斯顿大学能重新唤起纳什的才情。

妻子坚定的信念和不曾动摇过的爱深深地感动了纳什,他下定决心与病魔做斗争。最终在妻子的照顾和朋友的关怀下,20世纪80年代纳什的病情奇迹般地好转,并最终康复。至此,他不但可以与人沟通,还可以继续从事自己喜欢的数学研究。在这场与病魔的斗争中,他的妻子阿丽莎起了关键作用。走出阴影后的纳什成为1985年诺贝尔经济学奖的候选人,依据是他在博弈论方面的研究对经济的影响。但是最终他并没有获奖,原因有几个方面,一方面当时博弈论的影响和贡献还没有被人们充分认识;另一方面瑞典皇家学院对刚刚病愈的纳什还不放心,毕竟他患精神分裂症已经将近30年了,诺贝尔奖获得者通常要在颁奖典礼上进行一次演说,人们担心纳什的心智没有完全康复。

等到了1994年,博弈论在各领域取得的成就有目共睹,机会又一次靠近了纳什。但是此时的纳什没有头衔,瑞典皇家学院无法将他提名。这时纳什的老同学、普林斯顿大学的数理经济学家库恩出马,他先是向诺贝尔奖评选委员会表明:纳什获得诺贝尔奖是当之无愧的,如果以身体健康为理由将他排除在诺贝尔奖之外的话,那将是非常糟糕的一个决定。同时库恩从普林斯顿大学数学系为纳什争取了一个“访问研究合作者”的身份。这些努力没有白废,最终纳什站在了诺贝尔经济学奖高高的领奖台上。

当年,同时获得诺贝尔经济学奖的还有美国经济学家约翰·海萨尼和德国波恩大学的莱茵哈德·泽尔腾教授。他们都是在博弈论领域做出过突出贡献的学者,这标志着博弈论得到了广泛的认可,已经成为经济学的一个重要组成部分。

经过几十年的发展,“纳什均衡”已经成为博弈论的核心,纳什甚至已经成了博弈论的代名词。看到今天博弈论蓬勃地发展,真的不敢想象没有约翰·纳什的博弈论世界会是什么样子。

第2节 解放博弈论
我们一直在说纳什在博弈论发展中所占的重要地位,但是感性的描述是没有力量的,下面我们将从博弈论的研究和应用范围具体谈一下纳什的贡献,看一下“纳什均衡”到底在博弈论中占有什么地位。

前面我们已经介绍过了,博弈论是由美籍匈牙利数学家冯·诺依曼创立的。创立之初博弈论的研究和应用范围非常狭窄,仅仅是一个理论。1944年,随着《博弈论与经济行为》的发表,博弈论开始被应用到经济学领域,现代博弈论的系统理论开始逐步形成。

直到1950年纳什创立“纳什均衡”以前,博弈论的研究范围仅限于二人零和博弈。我们前面介绍过博弈论的分类,按照博弈参与人数的多少,可以分为两人博弈和多人博弈;按照博弈的结果可以分为正和博弈、零和博弈和负和博弈;按照博弈双方或者多方之间是否存在一个对各方都有约束力的协议,可以分为合作博弈和非合作博弈。

纳什之前博弈论的研究范围仅限于二人零和博弈,也就是参与者只有两方,并且两人之间有胜有负,总获利为零的那种博弈。

两人零和博弈是游戏和赌博中最常见的模式,博弈论最早便是研究赌博和游戏的理论。生活中的二人零和博弈没有游戏和体育比赛那么简单,虽然是一输一赢,但是这个输赢的范围还是可以计算和控制的。冯·诺依曼通过线性运算计算出每一方可以获取利益的最大值和最小值,也就是博弈中损失和赢利的范围。计算出的利益最大值便是博弈中我们最希望看到的结果,而最小值便是我们最不愿意看到的结果。这比较符合一些人做事的思想,那就是“抱最好的希望,做最坏的打算”。

二人零和博弈的研究虽然在当时非常先进和前卫,但是作为一个理论来说,它的覆盖面太小。这种博弈模式的局限性显而易见,它只能研究有两人参与的博弈,而现实中的博弈常常是多方参与,并且现实情况错综复杂,博弈的结局不止有一方获利另一方损失这一种,也会出现双方都赢利,或者双方都没有占到便宜的情况。这些情况都不在冯诺依曼当时的研究范围内。

这一切随着“纳什均衡”的提出全被打破了。1950年,纳什写出了论文《n人博弈中的均衡点》,其中便提到了“纳什均衡”的概念以及解法。当时纳什带着自己的观点去见博弈论的创始人冯·诺依曼,遭到了冷遇,之前他还遭受过爱因斯坦的冷遇。但是这并不能影响“纳什均衡”带给人们的轰动。

从纳什的论文题目《n人博弈中的均衡点》中可以看出,纳什主要研究的是多人参与,非零和的博弈问题。这些问题在他之前没人进行研究,或者说没人能找到对于各方来说都合适的均衡点。就像找出两条线的交汇点很容易,如果有的话,但是找出几条线的共同交汇点则非常困难。找到多方之间的均衡点是这个问题的关键,找不到这个均衡点,这个问题的研究便会变得没有意义,更谈不上对实践活动有什么指导作用。而纳什的伟大之处便是提出了解决这个难题的办法,这把钥匙便是“纳什均衡”,它将博弈论的研究范围从“小胡同”里引到了广阔天地中,为占博弈情况大多数的多人非零和博弈找到意义。纳什的论文《n人博弈中的均衡点》就像惊雷一样震撼了人们,他将一种看似不可能的事情变成了现实,那就是证明了非合作多人博弈中也有均衡,并给出了这种均衡的解法。“纳什均衡”的提出,彻底改变了人们以往对竞争、市场,以及博弈论的看法,它让人们明白了市场竞争中的均衡同博弈均衡的关系。

“纳什均衡”的提出奠定了非合作博弈论发展的基础,此后博弈论的发展主要便是沿着这条线进行。此后很长一段时间内,博弈论领域的主要成就都是对“纳什均衡”的解读或者延伸。甚至有人开玩笑说,如果每个人引用“纳什均衡”一次需要付给纳什一美元的话,他早就成为最富有的人了。

不仅是在非合作博弈领域,在合作博弈领域纳什也有突出的贡献。合作型博弈是冯·诺依曼在《博弈论与经济模型》一书中建立起来的,非合作型博弈的关键是如何争取最大利益,而合作型博弈的关键是如何分配利益,其中分配利益过程中的相互协商是非常重要的,也就是双方之间你来我往的“讨价还价”。但是冯·诺依曼并没有给出这种“讨价还价”的解法,或者说没有找到这个问题的解法。纳什对这个问题进行了研究,并提出了“讨价还价”问题的解法,他还进一步扩大范围,将合作型博弈看做是某种意义上的非合作性博弈,因为利益分配中的讨价还价问题归根结底还是为自己争取最大利益。

除此之外,纳什还研究博弈论的行为实验,他就曾经提出,简单的“囚徒困境”是一个单步策略,若是让参与者反复进行实验,就会变成一个多步策略。单步策略中,囚徒双方不会串供,但是在多步策略模式中,就有可能发生串供。这种预见性后来得到了验证,重复博弈模型在政治和经济上都发挥了重要作用。

纳什在博弈论上做出的贡献对现实的影响得到越来越多的体现。20世纪90年代,美国政府和新西兰政府几乎在同一时间各自举行了一场拍卖会。美国政府请经济学家和博弈论专家对这场拍卖会进行了分析和设计,参照因素就是让政府获得更多的利益,同时让商家获得最大的利用率和效益,在政府和商家之间找到一个平衡点。最终的结局是皆大欢喜,拍卖会十分成功,政府获得巨额收益,同时各商家也各取所需。而新西兰举行的那场拍卖会却是非常惨淡,关键原因是在机制设计上出现了问题,最终大家都去追捧热门商品,导致最后拍出的价格远远高于其本身的价值;而一些商品则无人问津,甚至有几种商品只有一个人参与竞拍,以非常低的成交价就拍走了。

正是因为对现实影响的日益体现,所以1994年的诺贝尔经济学奖被授予了包括纳什在内的三位博弈论专家。

我们最后总结一下纳什在博弈论中的地位,中国有句话叫“天不生仲尼,万古长如夜”。意思是老天不把孔子派到人间,人们就像永远生活在黑夜里一样。我们如果这样说纳什同博弈论的关系的话,就会显得夸张。但是纳什对博弈论的开拓性发展是任何人都无可比拟的,在他之前的博弈论就像是一条逼仄的胡同,而纳什则推倒了胡同两边的墙,把人们的视野拓展到无边的天际。

1pure-strategy NE={(T,L,E),(B,L,W),(B,R,E)}
2subgame-perfect NE={(B,LW),(B,R,E),(B,μ2,μ3)} μ2=(4/5L,1/5R) μ3=(2/5W,3/5E)

试用反应函数法找出囚徒困境的纳什均衡
“囚徒困境”博弈是完全信息静态博弈的典型例子,被认为是上策纳什均衡,具有必 然性,但在现实中非纳什均衡也同样出现。本文就“囚徒困境”中非纳什均衡出现的问题, 对博弈的前提假设完全理性、完全信息以及概率进行了分析,得出的结论是:完全理性中的 整体思维方式和概率为零的事件的发生以及完全信息等于一致信念时引起的不确定性,都可 能导致非纳什均衡出现,而其出现的可能性则取决于采取
整体思维方式的人的比例。 关键词:囚徒困境;完全理性;概率;完全信息;整体思维方式 the analysis about the probability and reasons of non-nash equilibrium in prisoners’ dilemma “囚徒困境”博弈是图克(tucker)1950 年提出的一个著名的博弈模型,是完全信息静态博 弈的典型例子。 一、 “囚徒困境”博弈及其纳什均衡 囚徒困境博弈的基本情况如下:警察抓住了两个合伙犯罪的罪犯,但却缺乏足够的证据指证 他们所犯的罪行。 如果其中至少有一人供认犯罪, 就能确认罪名成立。 为了得到所需的口供, 警察将这两名罪犯分别关押以防止他们串供或结成攻守同盟,并给他们同样的选择机会;如 果他们两人都拒不认罪,则他们会被以较轻的妨碍公务罪各判 1 年徒刑;如果两人中有一人 坦白认罪,则坦白者从轻认罪,立即释放,而另一人则将重判 8 年徒刑;如果两人同时坦白 认罪,则他们将被各判 5 年监禁。 如果分别用-1、-5 和-8 表示罪犯被判刑 1 年、5 年和 8 年的得益,用 0 表示罪犯被立即 释放的得益,则两囚徒的得益矩阵如下: 囚 徒2 坦白 不坦白 囚徒 1 坦白 -5,-5 0,-8 不坦白 -8,0 -1,-1 在上图中, “囚徒 1” 、 “囚徒 2”分别代表本博弈中的两个博弈方,也就是两个罪犯;他们各 自都有“不坦白”和“坦白”两种可选择的策略;因为这两个囚徒被隔离开,其中任何一人 在选择策略时都不可能知道另一人的选择是什么,因此不管他们决策的时间是否真正相同, 我们都可以把他们的决策看作是同时做出的。其中矩阵中第一个数字代表决策结果后囚徒 1 的得益,第二个数字代表决策结果后囚徒 2 的得益。 博弈的结果是:由于这两个囚徒之间不能串通,并且各人都追求自己的最大利益而不会顾及 同伙的利益,双方又都不敢相信或者说指望对方有合作精神,因此只能实现对他们都不理想 的结果 (各判 5 年) , 并且这个结果具有必然性, 很难摆脱, 因此这个博弈被称为 “囚徒困境” 。 [1] 二、 非纳什均衡出现的可能性及其原因分析 1、完全理性与非纳什均衡 囚徒困境博弈的一个假设是博弈方具有完全理性的行为能力。完全理性来源于经济学中的理 性人假设,即博弈方都以个体利益最大化为目标,且有准确的判断选择能力,也不会“犯错 误” 。以个体利益最大为目标被称为“个体理性” ,有完美的分析判断能力和不会犯选择行为 的错误称为“完全理性” 。具体地说来,完全理性包括追求最大利益的理性意识、分析推理能 力、识别判断能力、记忆能力和准确行为能力等多方面的完美性要求,其中任何一方面不完 美就不属于完全理性。 [1]我们可以看出,这是一个要求非常严格的假设。即便如此,完全 理性仍在一个方面没有做出规定(至少是没有意识到或明确地规定出来) ,就是思维方式,也 即是博弈方是以将问题分解的方式来思考问题呢,还是以系统的整体的方式来思考问题的。 我引用《第五项修炼》上的一段话来表达这两种思维方式的不同。 自幼我们就被教导把问题加以分解,把世界拆成片片段段来理解。这显然能够使复杂的问题
容易处理,但是无形中,我们却付出了巨大的代价——全然失掉对“整体”的连属感,也不 了解自身行动所带来的一连串后果。于是,当我们想一窥全貌时,便努力重整心中的片段, 试图拼凑所有的碎片。但是就如物理学家鲍姆(david bohm)所说的,这只是白费力气;就 像试着重新组合一面破镜子的碎片,想要看清镜中的真像。经过一阵子努力,我们甚至干脆 放弃一窥全貌的意图。 现在我们以系统的整体的思维方式来重新分析囚徒困境博弈。警察的目的是获得证据,以使 囚徒获得应有的惩罚,囚徒的目的是“获取”最少的惩罚。双方的这种矛盾使得囚徒有串通 的倾向,为了离间两个囚徒,警察确立了模型中的规则(且不论这些规则和设置合不合理) 。 对每个囚徒来说,要想达到自身的目的,而不考虑整个模型设置的让双方都坦白的目的,很 显然是不行的。囚徒该如何选择呢?答案是不坦白。如果囚徒看出了该模型的目的,若选择 坦白,以自推人,对方也会选择坦白,必然落入警察的圈套,此所谓鹬蚌相争,渔翁得利。 当两博弈方都用整体思维来考虑这个问题时,相互配合 是其最好的选择,因为在完全理性 假设前提下,自己选择坦白而另一方选择不坦白,这种机会是没有的,这种饶幸心理也是取 不得的,剩余的只有要不都坦白,要不都不坦白,所以相互配合是其最好的选择,结果一定 是不坦白。此所谓兄弟阋于墙,外御其侮,这也是空城记能够唱成的原因。如果任何博弈方 不是采用系统的思维方式来思虑这个问题的,因为一方用分解的思维方式来思考囚徒困境, 他会选择坦白,那么另一方不管用什么思维方式来思考这个问题,选择坦白都是最好的,因 此其结果必然是都坦白。 为什么分解思维方式在这儿会犯错误呢?问题在于 1+1=2。1+1=2 大家不会有任何的质疑, 依照逻辑,n 个 1 相加等于 n,大家也一样不会有疑问。举个例子,把一块砖放在另一块砖的 上面,这是大家很容易接受也很容易办到的事情,但万丈高楼却不是一块砖一块砖地盖起来 的,大家首先需要的是整体设计。我们回来说 1+1=2,在数学方面这是没有质疑的,但把它 运用到经济学领域,其逻辑是否就一定像在数学领域一样可靠?这其实要回到斯密,斯密当 年做出理性人的假设,从理论建设的角度来说,他是为了他的观点的成立。依靠这个大家从 不质疑的逻辑,他完成了他的看不见的手,但是市场失灵出现了,问题的原因一定程度上是 由于这个逻辑的可靠性。 从概率方面来说, 符合逻辑是一种可能, 不符合逻辑也是一种可能, 掷筛子(随机)同样是一种可能。斯密的理性人假设是为了把符合逻辑变成唯一的可能。但 当符合逻辑变成唯一的可能后,市场失灵仍然会出现。在《第五项修炼》上有一个啤酒的实 验例子,当情人啤酒的需求增长一倍后,大家(零售商、批发商和厂家)的理性反应却弄出来 一个痛苦的结局:情人啤酒堆积如山,不得不低价出售。这说明当符合逻辑变成唯一的可能 后,市场失灵仍然会出现。因此,1+1=2 的逻辑在经济学领域缺乏完全的可靠性。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/12697400.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-27
下一篇 2023-05-27

发表评论

登录后才能评论

评论列表(0条)

保存