- 前言
- ε-贪心算法
- 总结
初学者对于贪心算法总是会模棱两可,不懂ε具体代表含义,以至于写代码的时候弄淆概念,特此记录下正确算法概念ε-贪心算法
ε-贪心的意思是说,我们有 1 − ε 的概率会按照 Q 函数来决定动作,通常 ε 就设一个很小的值,1 − ε
可能是 90%,也就是 90% 的概率会按照 Q 函数来决定动作,但是你有 10% 的机率是随机的。通常在实现上 ε 会随着时间递减。在最开始的时候。因为还不知道哪个动作是比较好的,所以你会花比较大的力气在做探索。接下来随着训练的次数越来越多。已经比较确定说哪一个 Q 是比较好的。你就会减少你的探索,你会把 ε 的值变小,主要根据 Q 函数来决定你的动作,比较少随机决定动作,这是 ε-贪心。
利用:1 − ε 90%
探索:ε 10%
通常 ε 就设一个很小的值,且 ε 会随着时间递减,即探索越来越小
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)