博弈论(一)

博弈论(一),第1张

在之前的讨论中,一场游戏只有一个智能体。而在博弈论中,智能体评估它们的决策如何与其他人的决策相互作用以产生不同的结果。

看一个具体的博弈游戏:

这是博弈问题最简单的一种: 两个玩家的零和有限确定性完美信息博弈

在 MDP 中有个名词叫 POLICIES (策略),它是状态到动作的映射。博弈论中有类似的概念,称为 STRATEGIES (策略),它是所有可能的状态到动作的映射。

对于 A 来说 (1→L, 4→L) 就是一个策略。不难看出,在这个特定的游戏中,A 有4个策略,B 有3个策略,如下:(这种策略被称为 纯策略 )

我们可以以表格的形式写出这些策略,并在中间填入最后的得分。(由于B得分是A的相反数,所以这里省略B)

最终可以得到一个矩阵(红框部分),这个矩阵包含了此场博弈的一切信息,即:有了它我们不再需要一开始的博弈树了。

试想这样一个游戏过程:

A 总是最大化得到的分数,而 B 总是试图最小化 A 可以得到的分数。所以得出这样一个结论: A 先手时必须要考虑会遭遇 B 最严酷的反制策略 。所以选择 (L,L) 是非常不明智的。事实上若交换 AB 角色,结论是一样的。

在这个结论的指导下,A 要选择的并不是全局最大值,而是在 B 执行反制策略(找到极小值)后得到尽可能大的值。也就是:极大化极小值。相反,B 要找到极小化极大值。(因为值越小 B 得分越高)

所以正确的博弈过程是这样的:

从这个过程可以得出一个结论:极大化极小值和极小化极大值最终的结果是一样的。

极小极大原理也就是 Von neumann 定理 (冯诺依曼定理)。

前面所述简单博弈具有确定性,现在我们取消这一约束。看一个具体的游戏:

同样的,只需要用概率乘以得分再求和,也可以写出一个博弈矩阵:

前面所述博弈是完美信息,现在我们取消这一约束成为 两个玩家的零和有限隐藏信息博弈 。

看一个具体的游戏:

因为 B 不知道 A 抽到的是什么颜色,故不知道自己处在哪一状态,也就是隐藏信息。

同样的可以得到一个矩阵:

不难看出,在这场博弈中,Von neumann 定理不再有效了,它无法在不同情况下得出一个确定的结果。

混合策略与纯策略的区别就是, 需要指定选择不同策略的概率 。如此看,纯策略是特殊的混合策略,其选择某一策略的概率是100%

令 A 选择留牌的概率是 p,那么当 B 选择弃权时,A 的预计收益是

当 B 选择亮牌时,A 的预计收益是

不难看出这是2个关于p的函数,可以把它画出来:

由于 B 始终希望最小化 A 的奖励,所以 A 实际的奖励函数应该是取最小的部分(下图红色部分),也就是极大化极小值。

同样的,**部分是极小化极大值。他们最终应该选取的点相同。

前面所述博弈是零和的,现在我们再取消这一约束成为 两个玩家的非零和有限隐藏信息博弈 。

同样,先看一个具体的博弈:

类似地,可以表述为一个矩阵。但由于这里不是零和了,因此 AB 双方的得分都需要列出。

显然,相互合作不揭发对于这个犯罪团伙是最好的方案。但实际上并非那么顺利。设想下面的情况:

因此最终他们会互相检举从而均被判刑6个月,这不是想要的最佳方案。这被称为 囚徒困境

NASH 均衡,英文 nash equilibrium ,也被音译为 纳什均衡 。

当且仅当对于所有的 n 个玩家,各自选择的每一项策略都使此玩家效用最大 ,即为 Nash 均衡。

更好理解的解释是:当所有玩家都知道其他玩家的策略,任意选择一名玩家允许他改变策略,他都没有理由改变,因为当前策略可以最大化效用。

Nash 均衡的定义适用于纯策略和混合策略。

对于这个具体博弈,A 选择检举(第二行)总是要比合作(第一行)更有利(0>-1, -6>-9)。可以称为第二行 严格控制 第一行。

这也就意味着如果选择了第一行的任何数据,那么总是应该倾向于选择下一行,因为它更有利。

在囚徒困境中,整个团体无法达成最佳策略。那么对于一个连续的囚徒困境博弈问题,是否可以通过先驱的博弈建立信任从而达到最佳呢?可惜答案也是否定的。

假设连续进行20场博弈,对于最后一场博弈来说,可以认为由于建立了信任,对方一定选择合作,基于最大化自己利益,这正是检举对方的好时机。因为双方都有这种想法,于是再次落入了囚徒困境。

因为第20次博弈结局已知,所以第19次博弈可看做是最后一次,根据归纳法不难看出,每一次博弈都将陷入囚徒困境。

其准确的定义是:一些个人、团队或其他组织,面对一定的环境条件,在一定的规则约束下,依靠所掌握的信息,同时或先后,一次或多次,从各自允许选择的行为或策略进行选择并加以实施,并从中各自取得相应结果或收益的过程。我简单地把它概括为以下几个字:竞争中的选择

博弈论中一个有名的案例是“囚徒困境”, 说的是有两个人,纵火之后逃跑被警察抓住了。因为证据不够充分,法官分别对他们说,如果你招了,他不招,那么你会作为证人而被无罪释放,他将被判15年徒刑;如果你招了,他也招了,你们都被判10年;如果你不招,他招了,他被无罪释放,你被判15年;如果你们都不招,各判一年。这两个人都会做这样一个盘算:假如他招了,我不招,得坐15年监狱,招了才10年,所以招了划算;假如他不招、我不招,坐一年监狱,如果招了,马上获释,也是招了划算。综合以上两种情况考虑,还是招了划算。最终,两个人都选择了招供,结果都被判10年徒刑。

囚徒困境在生活中最常见的表现就是挤公共汽车。从集体理性的角度来看,按次序上车是最有效率的做法,但是你挤我不挤,我就可能上得慢,所以每个人的最优战略都是挤,在竞争中选择的结果就是大家都挤,结果上车就更慢了,原因每个人采取的都是最优的战略,但是结果却是最劣,原因在于个人理性和集体理性的冲突。因此从个人角度出发做出的选择一定并非最佳的选择所以现实中存在好人有心办坏事,而有些人是坏心办好事这实际是信息不对称引起的事与愿违的现象。

现代社会是一个大竞争的时代,在生活和工作等等方面都存在着竞争状态的选择单从个人的角度出发,许多情况就像囚徒困境”(Prisoner,s Dilemma) 的情况一样,就拿商业诚信来讲,我守个人信用,别人不受信用,结果是我被判15年徒刑,别人无罪释放,因此在竞争中个人的选择是我们大家都不守信用,到最后的结果是大家都被判10年徒刑因此现代人的诚信是不会仅用道德和个人素质所能约束出来的,诚信是与竞争中的个体利益密切相关的,诚信只能是监控出来的,个体竞争中的不合作只能是大家的利益都受损, ----是一场没有赢家的战争,除了两败俱伤没有更好的选择,只有合作才能使团体和个体最大利益得到保障因此对内合作,对外竞争是商业博弈中的最好选择。

怎样建立一个商业诚信监控体系,我概括设计出一套五权分制的商业诚信监控体系,何谓五权:五权分别是诚实的经营权,忠实的中介权,真实的购物权,扎实监控权,求实裁判权,这五权涵盖了人们在商业领域活动的基本要素,是吸收中国古老的五行学说,演绎出来一套相生相克的诚信制衡体系,其目的就是博弈中的对手遵循游戏规则,使不守信用者有办法制约,使守信者得到有效的保护,这些就是我为什么策划筹划骗子博物馆的初衷消费者形成一个有机的制衡体系,在保护弱者的前提下,利用五权的相互制衡才能在竞争中的人做出合理的选择商业欺诈还能指望它什么不仅破坏了优胜劣汰的市场机制,更损害了消费者的利益。进一步说商业欺诈的企业如果连国内的公平竞争都做不到,又怎能去参与国际竞争

博弈论中有一个基本的假设,那就是博弈的参与者和行动者是理性的人。其中的理性是指参与者努力运用自己的推理能力使自己的利益最大化。对于这个词,有必要进行深入的阐释。

首先,理性的人一定是自利的。

所谓自利,就是追求自身利益的行为和倾向,经济学和博弈论中的自利和社会学中的自私不是一回事,在博弈论中,自利是一个中性词。博弈论假设参与者都是纯粹理陛的,他们以自身利益最大化为目标。

比如,西方政治家一般以选票数目为自己确立目标,他的理性选择就是采取最佳策略,让自己的选票数目最多,以便当选政府要员;商家一般以销售利润为自己确立目标,他们的理性选择就是运用各种方法,实现企业利润的最优化。

其次,“理性”和“道德”不是一回事。

理性的选择只是最有可能实现自己的目标,而不一定最合乎道德。理性和道德有时会发生冲突,但理性的人也不一定是不道德的。 最后,“理性”和“自由”不一定一致。 这一点,很多人都深有体会。小孩子对学习感到厌倦,但父母却认为只有好好学习,孩子将来才能有出息。于是,家长和孩子之间展开博弈,父母会根据孩子的行动采取各种各样的激励方案,孩子也会根据父母的行动寻找对策。这时,父母和孩子都是理性的,也都是不自由的,因为,父母的自由意愿应该是让孩子幸福快乐,但理性一点考虑,他们宁愿逼迫孩子学习。孩子的自由意愿是玩耍,但是由于知道父母会对其玩耍的行为进行惩罚,所以,理性地选择了为自己所讨厌的学习。这就是理性和自由的悖论。

当然,在现实中,理性的选择和自由的选择也有可能达成一致,这当然是最理想的状态。

理性模式的主要特征就是“目标明确”四个字,博弈的参与者十分清晰、明确地知道自己的目的,并为此而进行各种理性的选择。点击博弈论关键词博弈由很多因素构成,每个博弈至少都包含五个基本要素。

1.参与者

也可以称之为决策主体,或者叫局中人、博弈者。在一场竞赛或博弈中,有两个参与者的博弈现象称为“两人博弈”,而多于两个参与者的博弈现象称为“多人博弈”。博弈中的参与者是游戏中的各种角色。

比如象棋,有这样几种角色:老将、相、士、车、马、炮和小卒子,俨然一支军队。每个角色都是棋局博弈的局中人。当然,比起真实的人生,这个模型过于简单了,但一样可以映射出现实的生活。

2.策略

一局博弈中,每个参与者都有可供选择的、实际可行的、完整的行动方案,即方案不是某阶段的行动方案,而是指导整个行动的一个方案。一个参与者的一个可行的自始至终全局筹划的行动方案,称为这个参与者的一个策略。如果在一个博弈中,参与者都只有有限个策略,则称为“有限博弈”,否则称为“无限博弈”。由于在人生中每个人都随时扮演着参与者的角色,人生也就随时面对各种选择,所以在人生这场大游戏里,策略的选择也就异常重要。一旦选择不慎,则可能出现人生的败局。

3.支付

所谓支付,就是所有参与者真正关心的东西,是参与者的收益或效用,我们—般称之为得失。每个局中人在一局博弈结束时的得失,不仅与该局中人自身所选择的策略有关,而且与全局中人所取定的一组策略有关。所以,一局博弈结束时,每个局中人的“得失”是全体局中人所取定的一组策略的函数,通常称为支付函数。每个人都有自己的支付函数,在整个人生的每一步行动中,其实都为自己简单地计算过支付函数中效用的得失,也就是干—件事情值还是不值。

4.信息

在博弈中,策略选择是手段,效用是目的,而信息则是根据目的采取某种手段的依据。信息是指局中人在做出决策前所了解的关于得失函数,或支付函数的所有知识,包括其他局中人的策略选择给自己带来的收益或损失,以及自己的策略选择给自己带来的收益或损失。在策略选择中,信息自然是最关键的因素,只有掌握了信息,才能准确地判断他人和自己的行动。

两军对垒,知己知彼者必然取胜。在牌桌上,出老千的人每次都赢。公司里都有机密文件,这是商业秘密,绝不能透露,透露一点则可能给公司带来厄运。

5.均衡

均衡是一场博弈最终的结果。均衡是所有局中人选取的最佳策略所组成的策略组合。均衡是平衡的意思,在经济学中,均衡意即相关量处于稳定值。在商品市场的供求关系中,如果在某一价格下,想以此价格买此商品的人均能买到,而想卖的人均能卖出,此时我们就说,该商品的供求达到了均衡。

在上述要素中,参与者、策略、支付和信息规定了一局博弈的游戏规则。均衡是博弈的结果,也是游戏结束的最后结局。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/langs/12163509.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-21
下一篇 2023-05-21

发表评论

登录后才能评论

评论列表(0条)

保存