莫烦强化学习科普视频注解1:Q-learning_python

这篇文章是对莫烦python强化学习科普的注解

因为那个视频：

什么是 Q Learning (Reinforcement Learning 强化学习)_哔哩哔哩_bilibili

我是真的看不懂，于是去查CSDN

一，Q学习

Q学习是强化学习的经典算法，伪代码如下：

但是吧，我相信像我这样对于英文不好又对算法不太熟悉的人第一眼看这个伪代码是一脸懵逼的

我一直相信图形语言是比文字语言更加易懂的，所以我根据算法画了个方块图：

简单地说就是行动决策靠Q表，得到反馈靠环境，修正Q表靠优化器

Q表本身很简单：

在莫烦视频里环境很简单，两个行动，两个状态：

Q表的数值写明了所有状态下对应行动的期望收益（不是实际收益）

二，我曾经看不懂的地方

那么Q学习的奥妙就在于这个优化器了：

和所有的优化器一样，优化的终点的是收敛到一个平衡态。

也就是说在Q表的最终状态是：

1.Q表的优化方法

1.视频中说是现实收益

和

2.视频中说是估计收益（s1表示未行动，要采取行动a2）

相等

对于1来说：

R是这一步的收益，那么另一项是什么呢？

答案就是它的是一种期望收益，为啥有个最大值呢？因为Q表会选择收益最高的行动，所以默认智能体会按照收益最大行动，也就是说优化器的优化目标是：

这一步的期望收益=这一步的真实收益+后面所有步骤的期望收益

我曾经没看懂的第一个点就在这里，因为莫烦说（这一步的收益+后面所有步骤的期望收益）表示现实收益，其实我认为不完全是，而是我给出的等式

2.γ的意义

第二个看不懂的点就是后面的:

我看完的第一反应是：

这tmd是啥？本来只有s1，s2，为啥突然冒出来这么多s和r？

这个问题我是看了CSDN上的这个才明白的：

Q学习（Q-learning）入门小例子及python实现_葭月丶拾玖的博客-CSDN博客_q学习

也就是说类似于上面房间的例子：

这个Q表的1，2可以看作是空间尺度

而视频中的s1-s4-。

。

则是时间尺度的状态表征，表示以后会去的所有步骤，这个眼镜的作用是预测未来，或者说看到未来要去到的地方，而不是看向所处空间的其他地方。

三，声明（求放过）

声明：可能对于类似于我这种理解能力不太强的人需要看这个注解。

如果原视频一看就看懂了，也可以把我当个笑话，但请别喷太狠

四，代码实现

等我实现完后我会写上我的代码复现

欢迎分享，转载请注明来源：内存溢出

莫烦强化学习科普视频注解1:Q-learning