你应该还没弄清楚什么是混合策略,这里面是包括D和R的,他正规的书写应该是
(3/7U,4/7M,0/7D),(3/7L,4/7M,0/7R)
求不出正确的解?
表示看不懂你说的是什么意思。题目要求你求出什么解?最大化支付法即最大化各个参与人的效用函数。
支付相等法根据前面分析的猜硬币博弈中参与人的策略的思路,每个参与人的混合策略都使其余参与人的任何纯策略的期望支付相等,因此,解混合策略纳什均衡可以令参与人的各个纯策略支付相等,构成方程组求解。(1)如果是完全信息博弈
张三认为李四:左,中,右的策略概率设为p1,p2,1-p1-p2
张三上策略的期望收益为E1=12p1+42p2+42(1-p1-p2)
同理 中:E2=24p1+12p2+60(1-p1-p2)
下:E3=72p1+36p2+42(1-p1-p2)
如果是完全信息博弈,则较优策略为三者相同,即E1=E2=E3
可解得p1=00370 p2=03700 1-p1-p2=05930
同理李四认为张三:上中下的策略概率为q1 q2 (1-q1-q2)
李四的左策略的期望收益为T1=83q1+12q2+47(1-q1-q2)
中策略收益为T2=56q1+42q2+95(1-q1-q2)
右策略的收益为T3=45q1+76q2+59(1-q1-q2)
同理解得q1=06276 q2=00140 (1-q1-q2)=03584
综上所述 在完全信息博弈的情况下张三的混合策略的策略概率为上06276 中00140 下03584
李四的混合策略的策略概率为左00370 中03700 右05930
其中张三的期望收益为408900 李四的期望收益为504516
(2)如果是不完全信息无限重复博弈,开始时双方都是以0333的自然混合概率预测,根据两者的信息背叛不同,回归结果也可不同,此题条件不足但结果是会是纯策略,博弈次数则无法确定
作业2:纯策略纳什均衡的收益为(60,76)混合策略纳什均衡的收益为(408900,504516)
实际中应该是纯策略占优
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)