随着互联网、物联网、传感网、社交网络等信息系统所构成的泛在网络不断发展,网络终端设备数量呈指数级上升。这为企业进行终端设备资产清点和统一管控带来了巨大挑战,同时也引发了一系列安全问题,网络攻击与防御的博弈从单边代码漏洞发展到了大数据对抗阶段,网络空间搜索引擎应运而生。
搜索引擎是指从互联网搜集信息,经过一定整理以后,提供给用户进行查询的系统。传统搜索引擎对我们来说并不陌生,像Google百度等,每天我们几乎都会用它们来搜索消息。与传统搜索引擎相比,网络空间搜索引擎有很大不同,其搜索目标为全球的IP地址,实时扫描互联网和解析各种设备,对网络中的设备进行探测识别和指纹分析,并将其扫描的目标信息进行分布式存储,供需求者检索使用。传统的网络空间搜索模型框架一般由五部分组成:扫描和指纹识别、分布存储、索引、U界面以及调度程序随着互联网、物联网、传感网、社交网络等信息系统所构成的泛在网络不断发展,网络终端设备数量呈指数级上升。这为企业进行终端设备资产清点和统一管控带来了巨大挑战,同时也引发了一系列安全问题,网络攻击与防御的博弈从单边代码漏洞发展到了大数据对抗阶段,网络空间搜索引擎应运而生。
搜索引擎是指从互联网搜集信息,经过一定整理以后,提供给用户进行查询的系统。传统搜索引擎对我们来说并不陌生,像Google百度等,每天我们几乎都会用它们来搜索消息。与传统搜索引擎相比,网络空间搜索引擎有很大不同,其搜索目标为全球的IP地址,实时扫描互联网和解析各种设备,对网络中的设备进行探测识别和指纹分析,并将其扫描的目标信息进行分布式存储,供需求者检索使用。传统的网络空间搜索模型框架一般由五部分组成:扫描和指纹识别、分布存储、索引、U界面以及调度程序
博弈论(game theory)对人的基本假定是:人是理性的(rational,或者说自私的),理性的人是指他在具体策略选择时的目的是使自己的利益最大化,博弈论研究的是理性的人之间如何进行策略选择的。
纳什(John Nash)编制的博弈论经典故事"囚徒的困境",说明了非合作博弈及其均衡解的成立,故称"纳什平衡"。
所有的博弈问题都会遇到三个要素。在囚徒的故事中,两个囚徒是当事人(players)又称参与者;当事人所做的选择策略 (strategies)是承认了杀人事实,最后两个人均赢得(payoffs)了中间的宣判结果。如果两个囚徒之中有一个承认杀人,另外一个抵赖,不承认杀人,那么承认者将会得到减刑处理,而抵赖者将会得到最严厉的死刑判决,在纳什故事中两个人都承认了犯罪事实,所以两个囚徒得到的是中间的结果。
类似的: 我们也能从“自私的基因”等理论中看到“纳什平衡”的体现。
在互联网这个原始丛林中:最优策略是如何产生的呢?
一、 博弈中最优策略的产生
艾克斯罗德(Robert Axelrod)在开始研究合作之前,设定了两个前提:一、每个人都是自私的;二、没有权威干预个人决策。也就是说,个人可以完全按照自己利益最大化的企图进行决策。在此前提下,合作要研究的问题是:第一、人为什么要合作;第二、人什么时候是合作的,什么时候又是不合作的;第三、如何使别人与你合作。
社会实践中有很多合作的问题。比如国家之间的关税报复,对他国产品提高关税有利于保护本国的经济,但是国家之间互提关税,产品价格就提高了,丧失了竞争力,损害了国际贸易的互补优势。在对策中,由于双方各自追求自己利益的最大化,导致了群体利益的损害。对策论以著名的囚犯困境来描述这个问题。
A和B各表示一个人,他们的选择是完全无差异的。选择C代表合作,选择D代表不合作。如果AB都选择C合作,则两人各得3分;如果一方选C,一方选D,则选C的得零分,选D的得5分;如果AB都选D,双方各得1分。
显然,对群体来说最好的结果是双方都选C,各得3分,共得6分。如果一方选C,一方选D,总体得5分。如果两人都选D,总体得2分。
对策学界用这个矩阵来描述个体理性与群体理性的冲突:每个人在追求个体利益最大化时,就使群体利益受损,这就是囚徒困境。在矩阵中,对于A来说,当对方选C,他选D得5分,选C只得3分;当对方选D,他选D得1分,选C得零分。因此,无论对方选C或D,对A来说,选D都得分最多。这是A单方面的优超策略。而当两个优超策略相遇,即A,B都选D时,结果是各得1分。这个结果在矩阵中并非最优。困境就在于,每个人采取各自的优超策略时,得出的解是稳定的,但不是帕累托最优的,这个结果体现了个体理性与群体理性的矛盾。在数学上,这个一次性决策的矩阵没有最优解。
如果博弈进行多次,只要对策者知道博弈次数,他们在最后一次肯定采取互相背叛的策略。既然如此,前面的每一次也就没有合作的必要,因此,在次数已知的多次博弈中,对策者没有一次会合作。
如果博弈在多人间进行,而且次数未知,对策者就会意识到,当持续地采取合作并达成默契时,对策者就能持续地各得3分,但如果持续地不合作的话,每个人就永远得1分。这样,合作的动机就显现出来。多次对局下,未来的收益应比现在的收益多一个折现率W,W越大,表示未来的收益越重要。在多人对策持续进行下去,且W比较大,即未来充分重要时,最优的策略是与别人采取的策略有关的。假设某人的策略是,第一次合作,以后只要对方不合作一次,他就永不合作。对这种对策者,当然合作下去是上策。假如有的人不管对方采取什么策略,他总是合作,那么总是对他采取不合作的策略得分最多。对于总是不合作的人,也只能采取不合作的策略。
艾克斯罗德做了一个实验,邀请多人来参加游戏,得分规则与前面的矩阵相同,什么时候结束游戏是未知的。他要求每个参赛者把追求得分最多的策略写成计算机程序,然后用单循环赛的方式将参赛程序两两博弈,以找出什么样的策略得分最高。
第一轮游戏有14个程序参加,再加上艾克斯罗德自己的一个随机程序(即以50%的概率选取合作或不合作),运转了300次。结果得分最高的程序是加拿大学者罗伯布写的"一报还一报"(tit for tat)。这个程序的特点是,第一次对局采用合作的策略,以后每一步都跟随对方上一步的策略,你上一次合作,我这一次就合作,你上一次不合作,我这一次就不合作。艾克斯罗德还发现,得分排在前面的程序有三个特点:第一,从不首先背叛,即"善良的";第二,对于对方的背叛行为一定要报复,不能总是合作,即" 可激怒的";第三,不能人家一次背叛,你就没完没了的报复,以后人家只要改为合作,你也要合作,即"宽容性"。
为了进一步验证上述结论,艾氏决定邀请更多的人再做一次游戏,并把第一次的结果公开发表。第二次征集到了62个程序,加上他自己的随机程序,又进行了一次竞赛。结果,第一名的仍是"一报还一报"。艾氏总结这次游戏的结论是:第一,"一报还一报"仍是最优策略。第二,前面提到的三个特点仍然有效,因为63人中的前15名里,只有第8名的哈灵顿程序是"不善良的",后15名中,只有1个总是合作的是"善良的"。可激怒性和宽容性也得到了证明。此外,好的策略还必须具有的一个特点是"清晰性",能让对方在三、五步对局内辨识出来,太复杂的对策不见得好。"一报还一报"就有很好的清晰性,让对方很快发现规律,从而不得不采取合作的态度。
二、 合作的进行过程及规律
"一报还一报"的策略在静态的群体中得到了很好的分数,那么,在一个动态的进化的群体中,这种合作者能否产生、发展、生存下去呢?群体是会向合作的方向进化,还是向不合作的方向进化?如果大家开始都不合作,能否在进化过程中产生合作?为了回答这些疑问,艾氏用生态学的原理来分析合作的进化过程。
假设对策者所组成的策略群体是一代一代进化下去的,进化的规则包括:一,试错。人们在对待周围环境时,起初不知道该怎么做,于是就试试这个,试试那个,哪个结果好就照哪个去做。第二,遗传。一个人如果合作性好,他的后代的合作基因就多。第三,学习。比赛过程就是对策者相互学习的过程,"一报还一报"的策略好,有的人就愿意学。按这样的思路,艾氏设计了一个实验,假设63个对策者中,谁在第一轮中的得分高,他在第二轮的群体中所占比例就越高,而且是他的得分的正函数。这样,群体的结构就会在进化过程中改变,由此可以看出群体是向什么方向进化的。
实验结果很有趣。"一报还一报"原来在群体中占1/63,经过1000代的进化,结构稳定下来时,它占了24%。另外,有一些程序在进化过程中消失了。其中有一个值得研究的程序,即原来前15名中唯一的那个"不善良的"哈灵顿程序,它的对策方案是,首先合作,当发现对方一直在合作,它就突然来个不合作,如果对方立刻报复它,它就恢复合作,如果对方仍然合作,它就继续背叛。这个程序一开始发展很快,但等到除了"一报还一报"之外的其它程序开始消失时,它就开始下降了。因此,以合作系数来测量,群体是越来越合作的。
进化实验揭示了一个哲理:一个策略的成功应该以对方的成功为基础。"一报还一报"在两个人对策时,得分不可能超过对方,最多打个平手,但它的总分最高。它赖以生存的基础是很牢固的,因为它让对方得到了高分。哈灵顿程序就不是这样,它得到高分时,对方必然得到低分。它的成功是建立在别人失败的基础上的,而失败者总是要被淘汰的,当失败者被淘汰之后,这个好占别人便宜的成功者也要被淘汰。
那么,在一个极端自私者所组成的不合作者的群体中,"一报还一报"能否生存呢?艾氏发现,在得分矩阵和未来的折现系数一定的情况下,可以算出,只要群体的 5%或更多成员是"一报还一报"的,这些合作者就能生存,而且,只要他们的得分超过群体的总平均分,这个合作的群体就会越来越大,最后蔓延到整个群体。反之,无论不合作者在一个合作者占多数的群体中有多大比例,不合作者都是不可能自下而上的。这就说明,社会向合作进化的棘轮是不可逆转的,群体的合作性越来越大。艾克斯罗德正是以这样一个鼓舞人心的结论,突破了"囚犯困境"的研究困境。
在研究中发现,合作的必要条件是:第一、关系要持续,一次性的或有限次的博弈中,对策者是没有合作动机的;第二、对对方的行为要做出回报,一个永远合作的对策者是不会有人跟他合作的。
那么,如何提高合作性呢?首先,要建立持久的关系,即使是爱情也需要建立婚姻契约以维持双方的合作。(火车站的小贩为什么要骗人?为什么工作中要形成小组制度?换防的时候一方总是要小小地进攻一下的,在中越前线就是这样)第二、要增强识别对方行动的能力,如果不清楚对方是合作还是不合作,就没法回报他了。第三、要维持声誉,说要报复就一定要做到,人家才知道你是不好欺负的,才不敢不与你合作。第四、能够分步完成的对局不要一次完成,以维持长久关系,比如,贸易、谈判都要分步进行,以促使对方采取合作态度。第五、不要嫉妒人家的成功,"一报还一报"正是这样的典范。第六、不要首先背叛,以免担上罪魁祸首的道德压力。第七、不仅对背叛要回报,对合作也要作出回报。第八、不要耍小聪明,占人家便宜。
(打桥牌和打麻将的区别)
艾克斯罗德在《合作的进化》一书结尾提出几个结论。第一、友谊不是合作的必要条件,即使是敌人,只要满足了关系持续,互相回报的条件,也有可能合作。比如,第一次世界大战期间,德英两军在战壕战中遇上了三个月的雨季,双方在这三个月中达成了默契,互相不攻击对方的粮车给养,到大反攻时再你死我活地打。这个例子说明,友谊不是合作的前提。第二、预见性也不是合作的前提,艾氏举出生物界低等动物、植物之间合作的例子来说明这一点。但是,当有预见性的人类了解了合作的规律之后,合作进化的过程就会加快。这时,预见性是有用的,学习也是有用的。
当游戏中考虑到随机干扰,即对策者由于误会而开始互相背叛的情形时,吴坚忠博士经研究发现,以修正的"一报还一报",即以一定的概率不报复对方的背叛,和 "悔过的一报还一报",即以一定的概率主动停止背叛。群体所有成员处理随机环境的能力越强,"悔过的一报还一报"效果越好,"宽大的一报还一报"效果越差。
三、 艾克斯罗德的贡献与局限性
艾克斯罗德通过数学化和计算机化的方法研究如何突破囚徒困境,达成合作,将这项研究带到了一个全新境界,他在数学上的证明无疑是十分雄辩和令人信服的,而且,他在计算机模拟中得出的一些结论是非常惊人的发现,比如,总分最高的人在每次博弈中都没有拿到最高分。(刘邦和项羽的战争)
艾氏所发现的"一报还一报"策略,从社会学的角度可以看作是一种"互惠式利他",这种行为的动机是个人私利,但它的结果是双方获利,并通过互惠式利他有可能覆盖了范围最广的社会生活,人们通过送礼及回报,形成了一种社会生活的秩序,这种秩序即使在多年隔绝,语言不通的人群之间也是最易理解的东西。比如,哥伦布登上美洲大陆时,与印地安人最初的交往就开始于互赠礼物。有些看似纯粹的利他行为,比如无偿损赠,也通过某些间接方式,比如社会声誉的获得,得到了回报。研究这种行为,将对我们理解社会生活有很重要的意义。
囚徒困境扩展为多人博弈时,就体现了一个更广泛的问题——"社会悖论",或"资源悖论"。人类共有的资源是有限的,当每个人都试图从有限的资源中多拿一点儿时,就产生了局部利益与整体利益的冲突。人口问题、资源危机、交通阻塞,都可以在社会悖论中得以解释,在这些问题中,关键是通过研究,制定游戏规则来控制每个人的行为。
艾克斯罗德的一些结论在中国古典文化道德传统中可以很容易地找到对应,"投桃报李"、"人不犯我,我不犯人"都体现了"tit for tat"的思想。但这些东西并不是最优的,因为"一报还一报"在充满了随机性的现实社会生活里是有缺陷的。对此,孔子在几千年前就说出了"以德报德,以直报怨"这样精彩的修正策略,所谓"直",就是公正,以公正来回报对方的背叛,是一种修正了的"一报还一报",修正的是报复的程度,本来会让你损失5分,现在只让你损失3分,从而以一种公正审判来结束代代相续的报复,形成文明。
但是,艾氏对博弈者的一些假设和结论使其研究不可避免地与现实脱节。首先,《合作的进化》一书暗含着一个重要的假定,即,个体之间的博弈是完全无差异的。现实的博弈中,对策者之间绝对的平等是不可能达到的。一方面,对策者在实际的实力上有差异,双方互相背叛时,可能不是各得1分,而是强者得5分,弱者得0 分,这样,弱者的报复就毫无意义。另一方面,即使对局双方确实旗鼓相当,但某一方可能怀有赌徒心理,认定自己更强大,采取背叛的策略能占便宜。艾氏的得分矩阵忽视了这种情形,而这种赌徒心理恰恰在社会上大量引发了零和博弈。因此,程序还可以在此基础上进一步改进。
其次,艾氏认为合作不需预期和信任。这是他受到质疑颇多之处。对策者根据对方前面的战术来制定自己下面的战术,合作要求个体能够识别那些曾经相遇过的个体并且记得与其相互作用的历史,以便作出反应,这些都暗含着"预期"行为。在应付复杂的对策环境时,信任可能是对局双方达成合作的必不可少的环节。但是,预期与信任如何在计算机的程序中体现出来,仍是需要研究的。
最后,重复博弈在现实中是很难完全实现的。一次性博弈的大量存在,引发了很多不合作的行为,而且,对策的一方在遭到对方背叛之后,往往没有机会也没有还手之力去进行报复。比如,资本积累阶段的违约行为,国家之间的核威慑。在这些情况下,社会要使交易能够进行,并且防止不合作行为,必须通过法制手段,以法律的惩罚代替个人之间的"一报还一报",规范社会行为。这是艾克斯罗德的研究对制度学派的一个重要启发。
演化博弈论不再将人模型化为超级理性的博弈方,而是认为人类通常是通过试错的方法达到博弈均衡的,与生物进化原理具有共性,所选择的均衡是达到均衡的均衡过程的函数,因而历史、制度因素以及均衡过程的某些细节均会对博弈的多重均衡的选择产生影响。
“博弈论”原本是数学的一个分支,但由于它较好地解决了对竞争等问题的可 *** 作性分析,成为经济学中激荡人心的一个研究领域。可以说,“博弈论”已经改变了经济学的传统轮廓线。从对“博弈论”简要、通俗的介绍中可以发现,我们身边充满了博弈,或者说,我们身边的许多行为、现象都可用博弈来概括。“博弈论”不仅属于经济学,也理应属于社会学、政治学、心理学、历史学等,这些学科也有理由分享“博弈论”那旖旎的学术风光和精细的分析技巧。
一、博弈及其分类
“博弈论”就是分析博弈行为和博弈决策的一门科学。
今年的诺贝尔经济学奖,已于前不久为“博弈论”研究专家罗伯特奥曼和托马斯谢林所获得,1994年度和1996年度的诺贝尔经济学奖,也分别由纳什、泽尔滕、海萨尼、莫里斯和维克瑞等“博弈论”专家分享。如此众多的“博弈论”研究专家的频频获奖,凸现了“博弈论”在主流经济学中日益重要的地位。
“博弈论”原本是数学的一个分支,但由于它较好地解决了对竞争等问题的可 *** 作性分析,成为经济学中激荡人心的一个研究领域。可以说,“博弈论”已经改变了经济学的传统轮廓线。
“博弈论”的英语原文是Game Theory,直译过来就是游戏论、运动论或竞赛论。譬如在足球比赛中,双方都想在努力巩固防守的同时,积极进攻以置对方于“死地”。这种行为就是一种博弈。“弈”在汉语中是下棋的意思,下棋中的双方行为特征也如同足球比赛中双方的行为。当然,扩展开来讲,企业之间的竞争、国家之间的角力等等,都是“游戏”,只是游戏的内容不同而已。
我国古代有个“田忌赛马”的故事,说的是齐威王与大将田忌各出三匹马,一对一比赛三场,由于齐威王的最优、次优和较差的三匹马分别跑得比田忌的三匹马快,所以田忌总是以0:3告负。后来田忌的谋士孙膑给田忌出主意,让最差的马去与齐威王最快的马比,而让最优的马去赢齐威王次优的马,让次优的马去赢齐威王最差的马,这样便以2:1取胜。但我们还可进一步设想,如果齐威王知道了田忌的花招后,便会在以后的比赛中也更改出马的次序,当然田忌的出马次序也应改动。双方的出马次序怎样才是最合理的呢?这便是“博弈论”更深一层次研究的问题了。
2002年度获奥斯卡大奖的影片《美丽心灵》中主角的原型,便是“博弈论”中纳什均衡的创立者──约翰纳什。影片中有这样一个情节:在美国普林斯顿大学的酒吧里,4个男生正商量着如何去追求一位漂亮女生,当时还正在大学读书的纳什却在朦胧的“博弈论”思维逻辑引导下喃喃自语:“如果他们4个人全部去追求那漂亮女生,那她一定会摆足架子,谁也不睬。然后再去追其他女孩子,别人也不会接受,因为没人愿意当‘次品’。但如果他们先追其他女生,那么漂亮女生就会感到被孤立,这时再追她就会容易得多。”在纳什眼里,追求女生就是一场“博弈”,而“博弈”是要遵循一定规则的,是需要“博弈”策略的。
我们再从经济决策上来看“博弈论”。假如你是一个公司的老总,你在决定是否将自己的产品降价以及降价多少时,必须首先要考虑至少以下几个方面的问题:消费者将会增加购买吗?大概会增加多少购买量呢?其他同种产品的厂家也会降价吗?等等。你只要是理性的话,一定会在对这些问题考虑的基础上来作出你的决策。所以说,“博弈论”主要是研究各相关行为主体的决策行为相互影响、相互作用的假定条件下,理性的行为主体如何决策、以及这种决策的均衡等问题的。在这里,决策均衡是一个经济学概念,意味着最佳决策或最佳决策的组合。因为只要决策是最佳的,相关的行为主体就不会去改变它,从而它处于稳定、均衡的状态。再简而言之,“博弈论”就是分析博弈行为和博弈决策的一门科学。
我们可以从不同角度对博弈进行分类:
一是分为合作博弈与非合作博弈。如果各博弈方能达成某种有约束力的契约或默契,以选择共同的策略,此种博弈就是合作博弈。反之,就属于非合作博弈。企业之间的联合定价就属于合作博弈,而经常挑起价格战的企业采用的便主要是非合作博弈。在合作博弈中往往包含着非合作博弈,如石油输出国组织是合作博弈的产物,但其中为了各自利益的超产和争吵又属于非合作博弈。
二是分为零和博弈、常和博弈与变和博弈。零和博弈指的是所有博弈方的得益总和为零,各种就属于零和博弈。例如4个人参与一场,其中3个人输了总共1000元,那么另外一个人必然赢了1000元。期货交易市场的参与者之间的关系也属于零和博弈。人们平常所说的“损人利己”实际上也包含有零和博弈的意思。常和博弈则是指所有博弈方的得益总和等于非零的常数。例如若干人分配一份总额既定的财产乃典型的常和博弈。变和博弈则是指随着博弈参与者选择的策略不同,各方的得益总和也不同。如在同一个股票市场,面对同样的大盘走势,伴随着投资者的投资策略不同,有可能大部分人赚钱而小部分人亏钱,也有可能小部分人赚而大部分人亏,甚至还有可能所有人都赚或都亏。
三是分为静态博弈与动态博弈。所有博弈方同时或可看作同时选择策略,采取行动的博弈是静态博弈。譬如,在投标活动中,投标人投出标书一般虽有先后,但因为所有投标人在开标前都不知道其他投标人的标价,因此可看作同时选择策略,采取行动。体育竞赛中,双方出场阵容的选择也属于静态博弈。动态博弈则是指博弈方的选择和行动有先后之分,后行者可以根据先行者的策略选择来决定自己的策略。如A企业降价后,B企业也跟着降价;足球比赛中,一方换上一名攻击性前卫后,另一方针对性地换上一名后卫;如此等等。
四是分为完全信息博弈与不完全信息博弈。在前一种博弈中,每一个参与者都拥有全部的相关信息,只拥有部分相关信息的便属于后一种博弈。
二、“博弈论”中的经典案例
“博弈论”中一些经典案例,不仅使专业研究人士如醉如痴,也使一些普通民众兴致盎然。
“博弈论”中有一些由点及面、发人深思的经典案例,这些案例不仅使专业研究人士如醉如痴,也使一些普通民众兴致盎然;不仅成为“博弈论”中的一道亮丽风景,也是整个经济学领域中的学术奇葩。
1、囚徒困境
假设警察局抓住了两个合伙犯罪的嫌疑犯,但获得的证据并不十分确切,对于两者的量刑就可能取决于两者对于犯罪事实的供认。警察局将这两名嫌疑犯分别关押以防他们串供。两名囚徒明白,如果他们都交代犯罪事实,则可能将各被判刑5年;如果他们都不交代,则有可能只会被以较轻的妨碍公务罪各判1年;如果一人交代,另一人不交代,交代者有可能会被立即释放,不交代者则将可能被重判8年。
对于两个囚徒总体而言,他们设想的最好的策略可能是都不交代。但任何一个囚徒在选择不交代的策略时,都要冒很大的风险,一旦自己不交代而另一囚徒交代了,自己就将可能处于非常不利的境地。对于囚徒A而言,不管囚徒B采取何种策略,他的最佳策略都是交代。对于囚徒B而言也是如此。最后两人都会选择交代。因此,囚徒困境反映了个体理性行为与集体理性行为之间的矛盾、冲突。
囚徒困境现象在现实生活中比比皆是。记得姜昆和唐杰忠过去说过一个公共楼道占用问题的相声。住户在公共楼道里堆满了杂物,结果大家都极不方便,以致即将分娩的妇女都没法及时被送往医院。但你如果不占用公共楼道,别人也会占用。每一居住面积狭小的住户从自我利益最大化出发,都会选择占用。但占用的结果却最终损害了大家的利益。
前几年,我国彩电市场上,生产厂家基于自我利益选择大幅降价,但由此引发的价格战使所有生产厂家都遭受重创,这也是一种囚徒困境。
2、智猪博弈
假设猪圈里有一大一小两只猪,猪圈的一头有一个猪食槽,另一头有一个控制猪食供应的按钮,揿一下按钮会有10个单位的猪食进槽。若小猪去揿,大猪先吃,大猪可吃到9个单位,小猪揿好后奔过来,则只能吃到1个单位;若大猪去揿,小猪先吃,小猪可吃到6个单位,大猪吃到4个单位;若同时去揿,奔过来再同时吃,大猪可吃到7个单位,小猪吃到3个单位。在这种情况下,不论大猪采取何种策略,小猪的最佳策略是等待,即在食槽边等待大猪去揿按钮,然后坐享其成。而由于小猪总是会选择等待,大猪无奈之下只好去揿按钮。这种策略组合就是名闻遐迩的“纳什均衡”。它指的是,在给定一方采取某种策略的条件下,另一方所采取的最佳策略(此处为大猪揿按钮)。
智猪博弈现象在日常生活中也是司空见惯的。如大股东行使监督上市公司的职责,而小股东则坐享这种监督带来的利益,即所谓“搭便车”;爱清洁的人经常打扫公共楼道,其他人搭便车;山村中出外跑运输、做生意的人掏钱修路,其他村民走修好的路;等等。
3、斗鸡博弈
两只公鸡面对面争斗,继续斗下去,两败俱伤,一方退却便意味着认输。在这样的博弈中,要想取胜,就要在气势上压倒对方,至少要显示出破釜沉舟、背水一战的决心来,以迫使对方退却。但到最后的关键时刻,必有一方要退下来,除非真正抱定鱼死网破的决心。
这类博弈也不胜枚举。如两人反向过同一独木桥,一般来说,必有一人选择后退。在该种博弈中,非理性、非理智的形象塑造往往是一种可选择的策略运用。如那种看上去不把自己的生命当回事的人,或者看上去有点醉醺醺、傻乎乎的人,往往能逼退独木桥上的另一人。还有夫妻争吵也常常是一个“斗鸡博弈”,吵到最后,一般地,总有一方对于对方的唠叨、责骂装聋作哑,或者干脆妻子回娘家去冷却怒火。冷战期间,美苏两大军事集团的争斗也是一种“斗鸡博弈”。在企业经营方面,在市场容量有限的条件下,一家企业投资了某一项目,另一家企业便会放弃对该项目的觊觎。
当然,“博弈论”中还有其他一些著名案例,这里无法一一加以剖析。上述的三大案例、尤其是前两大案例,已经成为经济学中的专用名词,成为经济学中对许多问题进行分析的分析支架。
三、博弈策略
博弈策略的成功运用须依赖一定的环境、条件,在一定的博弈框架中进行。
谈到博弈策略问题,可以说在我国传统文化中,包含有许多精妙的博弈策略。许多成语及成语典故,就是对博弈策略的令人叫绝的运用和归纳。如围魏救赵、背水一战、暗渡陈仓、釜底抽薪、狡兔三窟、先发制人、借鸡生蛋等等。当然,博弈策略的成功运用须依赖一定的环境、条件,在一定的博弈框架中进行。
在博弈中,人们经常采用威胁策略,但其他博弈方也会采取对威胁的辨别和反威胁策略。经济学家泽尔腾就将不可置信的威胁剔除出去,解决了一个博弈中可能存在多个“纳什均衡”的问题,从而使人们能方便地预测博弈的结果。举一个通俗的例子来说,父母不同意女儿所交的男友,威胁女儿说:“如果你再同他交往,我们就与你断绝关系。”但这样的威胁往往是不可信的。对爱情执着的聪明女儿会置父母的不可置信的威胁于不顾,继续与男友交往甚至最终与之结婚,父母最后也会承认那个当初他们并不喜欢的女婿。这个结果便是剔除了不可置信的威胁后的“纳什均衡”,“博弈论”中称其为“子博弈精炼纳什均衡”。
“博弈论”研究还发现,在重复博弈中,如果博弈的次数是无限的,博弈方会选择相互合作的策略。因为如果一家企业采取不合作的低价倾销策略,其他企业也会采取相同的策略进行报复性竞争,长期下去,这些企业都将完蛋。企业深谙此理后,便会在相互默契中将价格维持在一个合适水平,尽量避免长期性、大规模的低价杀伤战。美国水表生产的四大巨头企业(班琪表业等)在长达几十年的时期内都维持了这种定价方面的良好合作关系,成为“博弈论”中经常被提及的案例。
但如果重复博弈的次数较少,则合作就不可能实现。如生产彩电的某企业已决定转产而不再生产彩电,它就不会与其他彩电企业继续价格方面的合作,而可能对库存品低价甩卖,因为别的彩电企业对它没有报复的机会了。一些人在快调离原单位或快退休时的拙劣表现,也属此列(包括所谓的“59岁现象”)。
再举一个生活中的例子:如果你去菜场买菜,当你对某种菜的质量、口味等有疑虑时,卖菜的阿姨常会讲:“你放心,我一直在这儿卖呢!”这句朴实的话中其实包含了华丽的“博弈论”思想:我卖与你们买是一个次数无限的重复博弈,我今天骗了你,你们今后就不会再来我这儿买了,所以我不会骗你的,菜的质量、口味肯定没问题。而你在听了阿姨的上述一句话后,常常也会打消疑虑,买菜回家。
在博弈中,人们掌握的信息经常是不完全的,这就需要在博弈进行过程(即动态博弈)中不断地收集信息、积累知识、修正判断。成语故事“黔驴技穷”实际上就包含了一个不完全信息动态博弈。毛驴刚到贵州时,老虎摸不准这个大动物究竟有多大本领,因而躲在树林里偷偷观察,这在老虎当时拥有的信息条件下是一种最优策略选择。过了一阵子,老虎走出树林,逐渐接近毛驴,就是想获得有关毛驴的进一步信息。一天,毛驴大叫一声,老虎吓了一跳,急忙逃走,这也是最优策略选择。又过了一些天,老虎又来观察,并对毛驴挨得很近,往毛驴身上挤碰,故意挑衅它。毛驴在忍无可忍的情况下,就用蹄子踢老虎,除此之外,别无它法。老虎最终了解到毛驴的真实本领后,就扑过去将它吃了。在这个故事里,老虎通过观察毛驴的行为逐渐修正对毛驴的看法,直到看清它的真面目。事实上,毛驴的策略也是正确的,它知道自己的技能有限,总想掩藏自己的真实技能。老虎吃掉毛驴的策略,在“博弈论”中就是所谓的“精炼贝叶斯均衡”。
人们常提到的“上有政策、下有对策”,其实是对管理者与被管理者之间的动态博弈的一种描述,面对上边的政策,下边寻求对策是正常的、必然的。从“博弈论”的角度讲,上边的政策制定必须在考虑到下边可能会有的对策的基础上进行,否则,政策就不会是科学、合理的。
从以上对“博弈论”简要、通俗的介绍中可以发现,我们身边充满了博弈,或者说,我们身边的许多行为、现象都可用博弈来概括。“博弈论”不仅属于经济学,也理应属于社会学、政治学、心理学、历史学等,这些学科也有理由分享“博弈论”那旖旎的学术风光和精细的分析技巧。
以上就是关于网络攻击与防御的博弈从单边代码漏洞发展到了大数据对抗阶段,网络空间搜索引擎是什么全部的内容,包括:网络攻击与防御的博弈从单边代码漏洞发展到了大数据对抗阶段,网络空间搜索引擎是什么、什么叫博弈、求用vensim解决演化博弈问题的模型,仿真程序等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)