深度强化学习极简入门(二)——使用马尔可夫决策过程(MDP)描述强化学习

深度强化学习极简入门(二)——使用马尔可夫决策过程(MDP)描述强化学习,第1张

【引言】强化学习技术历经几十年的发展,理论严谨,应用广泛;而强化学习与深度学习相结合而形成的深度强化学习技术在视频游戏、即时战略游戏、围棋等领域达到了人类顶尖水平。上一篇博客介绍了强化学习的发展历史,这篇博客将介绍一个用于描述强化学习过程的强有力的工具——马尔可夫决策过程, 然后介绍强化学习智能体的构成要素。(参考文献见本系列第一篇博客)

希望读者能有以下方面的基础知识:

  • 概率论
  • 随机过程

目录
  • 中英文术语对照表
  • 1. 强化学习是一个马尔可夫决策过程
    • 1.1 状态和状态空间
    • 1.2 动作和动作空间
    • 1.3 状态转移函数

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/1294654.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-10
下一篇 2022-06-10

发表评论

登录后才能评论

评论列表(0条)

保存