深度强化学习极简入门（二）——使用马尔可夫决策过程(MDP)描述强化学习

银行面试问题 • 2022-6-10 • python • 阅读 178

【引言】强化学习技术历经几十年的发展，理论严谨，应用广泛；而强化学习与深度学习相结合而形成的深度强化学习技术在视频游戏、即时战略游戏、围棋等领域达到了人类顶尖水平。上一篇博客介绍了强化学习的发展历史，这篇博客将介绍一个用于描述强化学习过程的强有力的工具——马尔可夫决策过程，然后介绍强化学习智能体的构成要素。（参考文献见本系列第一篇博客）

希望读者能有以下方面的基础知识：

概率论

随机过程

中英文术语对照表
1. 强化学习是一个马尔可夫决策过程
- 1.1 状态和状态空间
- 1.2 动作和动作空间
- 1.3 状态转移函数

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/langs/1294654.html

强化学习马尔可夫决策过程状态空间动作空间奖励函数

打赏

微信扫一扫

支付宝扫一扫

银行面试问题一级用户组

0 0

【SDU青山】前端-移动端技术选型与问题-项目实训记录（2）

上一篇 2022-06-10

From AlphaGo Zero to 2048论文分享

下一篇 2022-06-10

发表评论

登录后才能评论

深度强化学习极简入门（二）——使用马尔可夫决策过程(MDP)描述强化学习

发表评论

评论列表（0条）