博弈论-囚徒困境与重复囚徒困境的启示

博弈论-囚徒困境与重复囚徒困境的启示,第1张

博弈论-囚徒困境与重复囚徒困境的启示

“囚徒困境”

囚徒困境(prisoner’s dilemma):讨论的是两个被捕的囚徒之间的一种博弈,它阐明了为什么“在合作对双方都有利时,保持合作也是困难的”。

囚徒困境的故事讲的是,两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里接受审讯。警察知道两人有罪,但缺乏足够的证据。警察告诉每个人:如果两人都抵赖,各判刑一年;如果两人都坦白,各判八年;如果两人中一个坦白而另一个抵赖,坦白的放出去,抵赖的判十年。于是,每个囚徒都面临两种选择:坦白或抵赖。

             B-坦白      B-抵赖

A-坦白    8  , 8         0, 10

A-抵赖    10, 0         1, 1

然而,不管同伙选择什么,每个囚徒的最优选择是坦白:如果同伙抵赖、自己坦白的话放出去,不坦白的话判一年,坦白比不坦白好;如果同伙坦白、自己坦白的话判八年,不坦白的话判十年,坦白还是比不坦白好。最终的结果,两个嫌疑犯都选择坦白,各判刑八年。

在囚徒困境中,如果两人选择合作,即两人都抵赖,各判一年,显然是最好的结果。但由于大家都优先考虑自己的最优选择,导致了最终整体选择并不是最好的。

囚徒困境所反映出的深刻问题是,个人利益的最大化并不能保证集体利益的最大化,自以为聪明的人可能会作茧自缚。

“重复囚徒困境”与“艾克斯罗德博弈论实验”

囚徒困境是一个一次性的博弈实验,如果增加博弈的次数,让每个参与者都有机会去“惩罚”对方前一个回合的行为,此时每个参与者的决策可能会发生变化。其中最有名的实验莫过于艾克斯罗德的博弈实验。

艾克斯罗德组织了一场计算机竞赛:任何想参加这个计算机竞赛的人都扮演“囚徒困境”案例中一个囚犯的角色。他们把自己的策略编入计算机程序,然后随机的与其他人进行囚徒困境博弈,每次博弈完毕后会获得一定的分数,并且每个人在进行博弈前都能够清楚的知道对方的历史博弈情况,每个参赛选手都会进行200次博弈对决。

博弈分数的设计如下:

                对方-好意    对方-恶意

自己-好意   2,2           0,3

自己-恶意   3,0           1,1

初看会发现,如果这是一个一次性博弈,不管对方选择好意还是恶意,自己选择恶意都是最优的,都将赢得更高的分数。但如果每个人都这么想,每次博弈大家都只增加1分,每个人分数的增长都会非常的缓慢。实验的最终结果是怎么样的呢?采取什么策略会赢得最高的分数呢?

“艾克斯罗德博弈论实验”的结果

艾克斯罗德博弈论实验,计算机竞赛提交上来的程序包含了各种复杂的策略。让人感到吃惊的是, 竞赛的桂冠属于其中最简单的策略:一报还一报(TIT FOR TAT) 。这是多伦多大学心理学家阿纳托拉帕波特提交上来的策略。

一报还一报的策略是这样的:

1)它总是以合作开局

2)但从此以后就采取以其人之道还治其人之身的策略

这个策略永远不先背叛对方,从这个意义上来说它是“善意的”。它会在下一轮中对对手的前一次合作给予回报(哪怕以前这个对手曾经背叛过它),从这个意义上来说它是“宽容的”。但它会采取背叛的行动来惩罚对手前一次的背叛,从这个意义上来说它又是“强硬的”。而且,它的策略极为简单,对手程序一望便知其用意何在,从这个意义来说它又是“简单的”。

为了证明一报还一报策略的胜利不只是一种侥幸,艾克斯罗德又举行了多场竞赛,并邀请了更多的人,但这个策略一次又一次的夺魁,竞赛的结论无可争议。

重复囚徒困境结论

人的一生中会有非常多次的选择,有时候吃亏,有时候占了便宜。善意的决策可能吃亏,又或者恶意的背叛可能占便宜,但所有的过往,都会成为别人今后和你合作时进行决策的依据。

好人,更确切地说,具备以下特点的人,将会成为最终的赢家 :

1) 善意的 :ta不会首先背叛别人

2) 宽容的 :别人曾经背叛过ta,但前一次合作是善意的,ta会原谅别人

3) 强硬的 :前一次合作背叛了ta,ta下一次合作会进行惩罚

4) 简单纯粹的 :简单纯粹的原则让彼此都更加轻松

有个游戏,叫做“ 囚徒困境”

游戏中有两个人,手上分别有两张牌,分别是“合作”牌和“背叛”牌;游戏规则是这样:

双方都打出“合作”牌,则双方都收入300块;

双方都打出“背叛”牌,则双方都罚款10块;

当一方打出“合作”牌,另一方打出“背叛”牌时,“合作”牌的人将罚款100元,“背叛”牌的人将收入500元;

为什么叫“囚徒困境”呢?理论上,只要双方都合作,都可以获得300元,双人的利益是最大化,可是问题是,双方其实是独立个体,也无法沟通,而且即使能沟通,你怎么知道对方会不会骗你。

所以如果对方打出“合作”牌,我为了自己最好的收益应该打出“背叛”牌;如果对方打出“背叛”牌,我减少自己损失也是打出“背叛”牌;也就是说,在这样的博弈之中,最后可能双方会打出“背叛”而面对双输的局面,这就是“囚徒困境”。

有没办法可以跳出这个“囚徒困境”?

在面对一局定胜负的局面,我们可能很难做到。但是我们人生在面对困境不会只有一局的。当你和你发小的博弈,当你和你同学的博弈,当你和伴侣的博弈,我们总会遇到很多次这种应该选择“合作”还是“背叛”的时候,甚至最早我们的祖先就早已面对“合作”还是“背叛”的选择题了。

在面对多局重复的情况,我们则会面对不同的策略;罗伯特·阿克塞尔罗德在《合作的进化》就进行了这个探讨,他利用计算机程序,输入了不同的策略算法:有的策略是每一局都选合作,有的策略是每一局都选背叛;

但有的策略是复杂点,比如我第一次选合作,但是只要遇到对方选一次背叛,我之后会“强烈报复”对他都选背叛;比如我第一次选合作,但是我下局我的选择是“以牙还牙”的和对方上局的出牌一致;还有就是,只要是我背叛而对方是合作的一局,那我下一局就会“内疚”而打出合作;

阿克塞尔罗德进行了两次比赛,把不同的共六十多个策略两两碰对,利用计算机筛选出哪个策略最高分,结果两次都是叫“以牙坏牙”的策略是最高分,也就是我们前面所说的,如果你上局合作,那我下局也会合作,而如果你上局背叛,我下局将会背叛。

这不就和我们现实生活中流行着“ 有恩必报,有仇报仇 ”的现象很一致吗?

有人把“合作为主”看为“ 善 ”,把“背叛为主”看做“ 恶 ”

如果这些善恶的策略进入生存的机制又会怎样呢?于是阿克塞尔罗德把这些策略进行了第三次比赛,而这次比赛不是得分比赛而是“生存”的比赛,而获胜的奖品是自我的复制品。在经历了1000代之后,这些策略的种类和数量慢慢稳定下来,一些“骗子”,“傻瓜”的策略慢慢的的灭绝,活下来的策略,都是“善”的策略为主。

由此我们可以看到:

世界还是会向“善”

善有善报恶有恶报,是人世间的“理”,也是我们人类文化博弈流传下来的“优秀”策略

纯“善”(也就是只会选合作)并不是优秀的策略

不过以上的竞争是基于策略种类丰富而且均衡,各自初始条件平均的基础条件下进行的,而事实上,世界是复杂的。

比如上诉每次都获胜的“以牙还牙”策略,如果遇到周围都是“纯恶”策略(每次背叛)为主的环境,那么“以牙还牙”策略很难获得优势,他第一局就输惨了(以牙还牙的第一局都是选合作),只是后面可以势均力敌。

而被称为“傻子”的“纯善”策略(只会选合作),在“恶”环境为主当然是必死无疑,但是如果在搭上“以牙还牙”这种生存率极高的策略的顺风车,在那1000代之后以“善”为主的策略,这种傻子纯善是能活得很好,这也是“阿甘”我这个时代能被歌颂的原因,但是如果早期的人类社会,可能就没那么好过了。

所以 “环境基础 ”对一个策略的生存也是极为重要,家长为孩子挑选一个良好的环境也是很重要。

当然,人类不会单纯到只有非“善”即“恶”的策略,人性是复杂的,也许会因为环境不同而激发出不同的策略,也许“善”为主的人类只是把“恶”放在隐秘的角落。

但不管怎样,人类至少是总体“ 向善 ”,这是人类长久以来,也许在“智人”时代就已经开始博弈而流传下来的优秀文化,所以我们宣扬“ 爱 ”,宣扬“ 善 ”,惩罚“ 恶 ”,依然需要坚持。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/11999830.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-20
下一篇 2023-05-20

发表评论

登录后才能评论

评论列表(0条)

保存