强化学习的目标是找到最大化收益的策略,找寻策略的一个重要途径是找到马可夫决策模型上的价值函数
马尔可夫- 用于在系统状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报
- 当一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件概率分布仅依赖于当前状态,即符合马尔可夫性质
求解价值函数有三种方法:
- 蒙特卡洛方法,方程:V(s)←V(s)+α(Gt−V(s))
- 动态规划方法,贝尔曼方程(相对于对于确定的环境):V(s)←Eπ[Rt+1+γV(s′)]
- 结合蒙特卡洛方法和动态规划方法的时间差分法:V(s)←V(s)+α(Rt+1+γV(s′)−V(s)),其中 Rt+1+γV(s′)被称为TD目标, δt=Rt+1+γV(s′)−V(s) 称为TD偏差。核心是把蒙特卡洛方法中估计的Gt替换成了TD目标
注:Q learning和Sarsa learning都是采用了时间差分法
方法分类强化学习百度百科:智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题
关键词:环境、交互过程、策略
Model-Free:不去理解环境,环境给予什么反馈就是什么
Model-Based:理解了环境,并且能用模型来模拟环境,Model-Free的改进
根据交互的过程中更新的时间点可以分成回合更新和单步更新
回合更新: 游戏开始后,等游戏结束,再总结全部转折点,再更新行为准则
单步更新: 游戏中每一步都在更新,能够边玩边学习
Policy-Based:根据动作的概率分布来进行选择,每个行为都有可能被选中,只是概率不同
Value-Based:基于动作的价值来进行选择,只选择价值最高的动作
结合两者的Actor-Critic,Actor会基于概率做出动作,而Critic会对做出的动作给出动作的价值
On-Policy:更新值函数的策略与选择动作的策略一致
Off-Policy:更新值函数的策略与选择动作的策略不一致
QLearning是Off-Policy
Sarasa是On-Policy
QLearning和Sarasa的源代码只有值函数的更新不一样
QLearning选择动作采用的是epsilon-greedy,而做决策采用的是greedy,即贪心算法
Sarsa选择动作和更新值函数采用的都是epsilon-greedy,epsilon-greedy理解成选择性贪心,就是它每次都选价值最大的,但是也有一定概率不做这个选择
学习记录–引用自学长的微信朋友圈笔记加上自己的理解
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)