-
深度强化学习极简入门(二)——使用马尔可夫决策过程(MDP)描述强化学习
【引言】强化学习技术历经几十年的发展,理论严谨,应用广泛;而强化学习与深度学习相结合而形成的深度强化学习技术在视频游戏、即时战略游戏、围棋等领域达到了人类顶尖水平。上一篇博客介绍了强化学习的发展历史,这篇博客将介绍一个用于描述强化学习过程的
【引言】强化学习技术历经几十年的发展,理论严谨,应用广泛;而强化学习与深度学习相结合而形成的深度强化学习技术在视频游戏、即时战略游戏、围棋等领域达到了人类顶尖水平。上一篇博客介绍了强化学习的发展历史,这篇博客将介绍一个用于描述强化学习过程的