对多智能体强化学习算法MADDPG的理解

对多智能体强化学习算法MADDPG的理解,第1张

MADDPG的架构

MADDPG采用的是“中心化训练+去中心化执行”的架构,是一种Actor-Critic方法。其中每个智能体都有一个价值网络和策略网络。

价值网络和策略网络

第i号价值网络(Critic)
输入:全局状态s、所有智能体的动作a(因为需要结合队友、对手的观测及动作才知道自身当前的动作好不好)
输出:一个实数(表示基于全局状态s,第i号智能体执行动作ai的好坏程度,可以指导第i号策略网络作出改进)
训练方式:TD算法
训练第i号价值网络需要用四元组,具体来说用到了下一时刻的全局状态St+1,所有智能体的策略网络,t时刻的奖励以及第i号智能体的价值网络.

第i号策略网络(Actor)
输入:第i号智能体的观测oi
输出:第i号智能体的动作ai
训练方式:DPG
训练第i号策略网络需要用四元组,具体来说用到了全局状态St,所有智能体的策略网络以及第i号价值网络.


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/2991916.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-09-23
下一篇 2022-09-23

发表评论

登录后才能评论

评论列表(0条)

保存