【论文笔记】MOBA类游戏中的强化学习

【论文笔记】MOBA类游戏中的强化学习,第1张

文章目录
    • 引子
    • 论文列表
    • 用AI打星际争霸(RTS)
      • 整体结构
      • 训练
      • 模型结构
    • 用AI打dota
      • 整体模型
      • 网络结构
      • 值得一提的Surgery技术
    • 用AI打王者荣耀
      • 模型结构
    • 王者荣耀 1v1
      • 系统框架
      • 模型结构
      • reward设计
    • 王者荣耀 5v5
      • 整体结构
      • 网络模型结构
    • 结束

引子


在围棋和扑克被AI攻克后,MOBA游戏成了新的检测强化学习的试验场。

这里主要选择了几篇经典论文,重点讲讲他们的网络/结构设计。不会设计特别深的技术细节。感兴趣请阅读原论文。

论文列表
  • Grandmaster level in StarCraft II using multi-agent reinforcement
  • learning,nature2019 Dota 2 with Large Scale Deep Reinforcement
  • Learning,2018~2019 Hierarchical Macro Strategy Model for MOBA Gam AI,2018
  • Mastering Complex Control in MOBA Games with Deep Reinforcement Learning,AAAI 2020
  • Towards Playing Full MOBA Games with Deep Reinforcement Learning,NIPS2020
用AI打星际争霸(RTS)

Grandmaster level in StarCraft II using multi-agent reinforcement learning

星际争霸虽然不算MOBA游戏,但还是最先讲它,因为他是最出圈的论文,被刊载在Nature2019的封面上。
创新点主要有:

  • 在RTS游戏上超越人类专家
  • 提供了MOBA类游戏的解决思路
  • 用成绩证明了思路的可行性
整体结构


这是整体的逻辑架构。可以说,这个架构为之后的MOBA AI研究提供了范式。

首先是环境部分直接对游戏进行编码,从中提取出小地图、士兵单位等信息作为状态,将这些状态作为神经网络的输入,输出相应的动作,用动作改变环境,如此循环直到游戏结束。

整个架构现在看来中规中矩。有两点值得一提。一个是在状态编码的时候把各个单位独立区分,而不像Atari游戏那样简单粗暴地直接在像素层面卷积;另一个就是在动作评估的时候依次对what、who、where、when next action进行评估,这一部分我不是很理解为什么,可能研究人员也是经过多次试错总结出来的最右方式吧。之后的研究都采用这种讲各个信息分别独立评估的方式。

训练

网络的训练主要分两步,首先是监督学习进行“打基础”,其次用强化学习“提能力”。

监督学习很好理解,就是把人类专家的行为当作是模板,用AI对其动作概率进行预测,用KL散度作为loss,从而使得AI的行动尽可能地接近人类专家行为。

在监督学习取得一定成效后,使用强化学习加强AI的强度。这时的AI对手就是AI自己了,用不断自博弈的方式加强自身。

在强化学习的时候,用到了三个小trick:

  • V-Trace:用于处理off-policy的数据,使得数据的收集和训练更加高效。
  • UPGO(upgoing):在策略迭代的时候,当行为策略采取比平均水平更差的动作时,通过引导,从部分轨迹更新策略,使其回报好于预期
  • TD(λ):减小方差,使得训练收敛更稳定
    具体就不展开了。
模型结构


模型结构从最下方开始看。

左下角是人类玩家打法的特征向量,在训练过程中这个向量始终保持一个定值。加入这个向量的目的是为了防止AI在不断自博弈训练的时候“迷失自我”,确保最后训练出来的策略对人类玩家也是有效的。

右边三个输入分别是 特征、单位、地图,不同的信息用不同的方式进行编码,编码后一起输入上面的LSTM。用LSTM的目的就是为了“记住”过去的信息,这是这种动态序贯博弈中非常常用的方法。

LSTM是整个网络结构的关键,里面不包含人类玩家的特征向量。两者会合后就可以用ValueNet对状态进行Value值估计。另外接上MLP后,网络则是依次考虑 动作类型、动作延迟、动作队列、动作单位、目标单位、动作细节等因素。

有了动作,有了动作价值估计,强化学习的AC方法就可以搞起来了。

用AI打dota

Dota 2 with Large Scale Deep Reinforcement Learning, 2019

这个AI迭代了好几版,网上也有不少相关的PR稿,我这里是以最终2019年论文为准的。

整体模型

整体模型如果抽象出来也是异常简单。

观测到的信息加上编码处理,结合5位英雄的信息处理,一起作为LSTM的输入。LSTM就会输出各个动作以及相对应的价值。

这么说可能比较笼统,来具体看一下LSTM后的细节。

网络结构


左边有三个输入,我们从上往下看。左上角是合法的行动,相当于一个mask。
Unit Embeddings 就是具体单位的信息。
现在可以认为,LSTM中保存了过去的信息、和当前的策略。

对可行的动作ID和LSTM点积,处理后得到选择的动作Chosen Action ID。将选择的动作和单位信息相结合,就得到了目标Target Unit。

此外,利用LSTM和动作参数,经过全连接层也可以评价出各个动作信息的具体值。
也就是第一张图中的Value。

值得一提的Surgery技术

这篇论文很长,也讲了很多技术,但是大多和强化学习在MOBA游戏中的应用没有特别大的关系。其中我觉得最有价值的就是这个Surgery技术,也就是“外科手术”。

这个技术的目的是在网络结构和参数改变的情况下进行Net2Net变换,增加/修改网络结构,同时还保证:

也就是对于任意的观测,新网络会输出和旧网络完全一致的决策。尽管他们网络结构、网络参数不同。

这个技术的目的就是在添加新功能、修改网络结构等情况下,不需要从头开始重新训练。

图中蓝色曲线就是从头到尾的一次训练,每一个黑点就是一次成功的Surgery。右边绿色的曲线就是在所有Suergery结束后,从头开始训练一个网络的训练曲线。

我们发现,Surgery确实没有打断训练的进程。这种技术使得中途改变网络架构成为可能。

用AI打王者荣耀

Hierarchical Macro Strategy Model for MOBA Game AI,2018

这篇文章参考的技术其实是dota2那篇文章的前身。虽然正式发布时间比dota2那篇文章早,但技术上蛮多都是直接借鉴的。

这篇文章主要是解决用AI打MOBA游戏的三个痛点:

  • 仅靠微观的策略很难训练得到好的“大局观”
  • 宏观策略过度依赖手工设计公式
  • 队友之间合作不紧密,没有考虑显示合作

文章的做法就是提出“attention”进行策略的宏观调控。
事先说明一下,这里的attention和深度学习中的注意力机制没有关系。

图中深红色的地方,就是英雄“attention”集中的地方,也就是英雄们要去的地方。可以看到,作为开局分配来说,这个行动方式是合理的。

模型结构


那这种attention是怎么训练出来的呢?用监督学习的方式。

在上面Task1中,使用手工编码的信息,比如大龙、男爵出现的时机,要求他们在对应时间把attention放到“对的位置”上,输出的label就是他们的attention。训练取得成效后,用完全一样的网络结构训练其他时候的attention,以此方式来体现出AI的大局观。

在实际游戏的时候,AI们会互相传递他们的attention,这样他们互相之间都能够知道队友接下来要做什么,以此来达到“显式的合作”。

王者荣耀 1v1

Mastering Complex Control in MOBA Games with Deep Reinforcement Learning,AAAI2020
提出了一个深度强化学习框架,从系统和算法的角度来解决这个问题。提出的算法包括几种新颖的策略,包括control dependency decoupling,action mask,target action和dual-clip PPO,借助这些策略,可以在系统中有效地训练提出的actor-critic网络。经过MOBA游戏《王者荣耀》的测试,训练有素的AI agent可以在完整的1v1游戏中击败顶尖的职业人类玩家。

系统框架


系统框架也没有什么特别的地方,走的也是 环境编码-内存池-RL 的套路。和dota2一样,对单位、小地图等进行独立的编码,输出的也是多头结构——每个头对应一个可行的动作。

模型结构


左半边是编码,右半边是策略和动作。

其中相比dota2,比较新颖的地方就是加入了上面提到的“attention”。虽然这是1v1的情形,但是用attention还是可以作为一个手工训练的引导,让AI尽可能在正确的时间关注正确的位置。

顺带一提,中间的Value也是直接LSTM过一层线性层直接计算得到的。

reward设计

这就是纯手工设计的了。目的是解决奖励函数“过于稀疏”的问题,毕竟20000帧出一个reward是谁都受不了的。

在设计时还要考虑到这些reward是否稀疏。具体的设计原则论文中也没有详细说明,这里贴出来大家品一品。

王者荣耀 5v5

Towards Playing Full MOBA Games with Deep Reinforcement Learning

整体结构

模型训练的时候,采用了三步走战略。个人理解的核心步骤是第二步的策略蒸馏。

第一步,根据固定阵容提取出大量的英雄池,基本属于5v5且五五开的组合。这些专家数据都是从人类高手对局中得到的。用强化学习、监督学习的方式,得到了N个策略作为Teacher策略。存入一个replay buffer中。

第二步,将N个teacher的策略蒸馏出一个student model。这里用的就是模型蒸馏这一块的方法了。最后,成功地将N个老师的策略提取出来,让student model将它们融会贯通。论文中指出,作者们“经验性地发现”,模型大概2天就训好了,而且得到的结果和阵容不太相关。自然而然想到追加第三步。

第三步,英雄池变动。随机选择英雄池,这样一来,AI就可以像人类玩家一样,在不同的英雄配队的情况下愉快地玩耍了。

网络模型结构


这部分主要是 student model的结构,整体框架都是大同小异。这里面也有attention的机制(毕竟是同一帮人搞的)。

我加了两条橙色的线加以划分,三个区域分别是:状态编码、值估计、动作选择

结束

终于写完了,整体总结花了不少功夫,有什么不足的地方请大家指出。谢谢!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/789897.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-05
下一篇 2022-05-05

发表评论

登录后才能评论

评论列表(0条)

保存