部分可见马尔可夫决策过程(POMDP)(一)

部分可见马尔可夫决策过程(POMDP)(一),第1张

现实世界中,智能体往往智能观察到部分信息。每个智能体智能感知它周围的环境状态,并不了解系统的状态。部分可见可尔科夫决策过程(POMDP)比MDP更接近一般的决策过程。POMDP可以看成MDP的拓展,状态空间包括对应于MDP的状态集合上的概率分布。

通常,使用一个七元组 描述POMDP,其中S,A,T,r, 与MDP一致。此外:

在POMDP中,智能体不能确定自己处于哪个状态,因此对下一步动作选择的决策基础是当前所处状态的概率。智能体不断收集环境信息,更新自己所处状态的可信度。“信息收集”不能直接把智能体导向目标,而是作为缓冲,让智能体先运动到临近位置,利用临近位置上的环境信息来提高智能体对自己所处状态的可信度。只有非常确定自己的状态,智能体做出的决策才是更加有效的。因此, 在每个时间周期,智能体无法准确得知自己的环境状态,但是可以通过观察得到状态的不完整信息。通过观察和动作的历史来作决策 。在t时刻观察和行为的历史定义为:

对于历史的描述会消耗很大存储空间,为解决这一问题,需要对历史进行压缩,即采用 较短的历史代替所有的观察和行为

非周期性的马尔可夫链才是我们想要的,它是构成遍历的马尔可夫链的必要条件。

马尔可夫链是概率论和数理统计中具有马尔可夫性质且存在于离散的指数集和状态空间内的随机过程。适用于连续指数集的马尔可夫链被称为马尔可夫过程,但有时也被视为马尔可夫链的子集,即连续时间马尔可夫链,与离散时间马尔可夫链相对应,因此马尔可夫链是一个较为宽泛的概念 。

马尔可夫链可通过转移矩阵和转移图定义,除马尔可夫性外,马尔可夫链可能具有不可约性、常返性、周期性和遍历性。一个不可约和正常返的马尔可夫链是严格平稳的马尔可夫链,拥有唯一的平稳分布。遍历马尔可夫链(ergodic MC)的极限分布收敛于其平稳分布 。

马尔可夫链可被应用于蒙特卡罗方法中,形成马尔可夫链蒙特卡罗,也被用于动力系统、化学反应、排队论、市场行为和信息检索的数学建模。此外作为结构最简单的马尔可夫模型,一些机器学习算法,例如隐马尔可夫模型、马尔可夫随机场和马尔可夫决策过程以马尔可夫链为理论基础。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/10379002.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-08
下一篇 2023-05-08

发表评论

登录后才能评论

评论列表(0条)

保存