MADDPG采用的是“中心化训练+去中心化执行”的架构,是一种Actor-Critic方法。其中每个智能体都有一个价值网络和策略网络。
价值网络和策略网络第i号价值网络(Critic)
输入:全局状态s、所有智能体的动作a(因为需要结合队友、对手的观测及动作才知道自身当前的动作好不好)
输出:一个实数(表示基于全局状态s,第i号智能体执行动作ai的好坏程度,可以指导第i号策略网络作出改进)
训练方式:TD算法
训练第i号价值网络需要用四元组
第i号策略网络(Actor)
输入:第i号智能体的观测oi
输出:第i号智能体的动作ai
训练方式:DPG
训练第i号策略网络需要用四元组
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)