什么是博弈论中的“囚徒困境”博弈呢？_软件运维

案例研究囚犯两难处境的比赛

假想你正与被关在另一个屋子里的“嫌疑”人进行囚犯两难处境的博弈。而且，再设想这种博弈不是进行一次而是多次。你博弈最后的得分是你被监禁的总年数。你希望使这种得分尽可能地少。你应该用什么战略？你应该从坦白还是保持沉默开始？另一个参与者的行动会如何影响你以后的坦白决策？

多次的囚犯两难处境是极为复杂的博弈。为了鼓励合作，参与者应该相互惩罚不合作行为。但以前描述的杰克和吉尔的水卡特尔的战略——只要另一方违约，一方就永远违约——得不到宽恕。在反复许多次的博弈中，在不合作时期之后，允许参与者回到合作结果的战略，可能是较合人意的。

为了说明哪一种战略最好，政治学家罗伯特?阿克塞尔罗德（Robert Axelrod）进行了一场比赛。人们通过输人为反复进行囚犯的两难处境而设计的电脑程序进入比赛。每个进行博弈的程序都对应于所有其他程序。得到狱中总年数最少的程序的是“赢家”。

赢家结果是被称为一报还一报的简单战略。根据一报还一报，参与者应该从合作开始，然后上一次另一个参与者怎么作自己也怎么做。因此，一报还一报参与者要一直合作到另一方违约时为止；他违约到另一方重新合作时为止。换句话说，这种战略从友好开始，惩罚不友好的参与者，而且，如果对方改变就给予原谅。令阿克塞尔罗德惊讶的是，这种简单的战略比人们输人的所有较复杂的战略都好。

囚徒困境（prisoner's dilemma）是指两个被捕的囚徒之间的一种特殊博弈，说明为什么甚至在合作对双方都有利时，保持合作也是困难的。

在这个博弈中，参与者必须反复地选择他们彼此相关的策略，并且记住他们以前的对抗。阿克塞尔罗德邀请全世界的学术同行来设计计算机策略，并在一个重复囚徒困境竞赛中互相竞争。参赛的程序的差异广泛地存在于这些方面，算法的复杂性、最初的对抗、宽恕的能力等等。

阿克塞尔罗德发现，当这些对抗被每个选择不同策略的参与者一再重复了很长时间之后，从利己的角度来判断，最终“贪婪”策略趋向于减少，而比较“利他”策略更多地被采用。他用这个博弈来说明，通过自然选择，一种利他行为的机制可能从最初纯粹的自私机制进化而来。

囚徒困境的条件：

1、友善

最重要的条件是策略必须“友善”，这就是说，不要在对手背叛之前先背叛。几乎所有的高分策略都是友善的。因此，完全自私的策略仅仅出于自私的原因，也永远不会首先打击其对手。

2、报复

但是，阿克斯洛德主张，成功的策略必须不是一个盲目乐观者。要始终报复。一个非报复策略的例子是始终合作。这是一个非常糟糕的选择，因为“下流”策略将残酷地剥削这样的傻瓜。

3、宽恕

成功策略的另一个品质是必须要宽恕。虽然它们不报复，但是如果对手不继续背叛，它们会一再退却到合作。这停止了报复和反报复的长期进行，最大化了得分点数。

以上内容参考：百度百科—囚徒困境

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/11519950.html

什么是博弈论中的“囚徒困境”博弈呢？

发表评论

评论列表（0条）