OMSCS-RL课程笔记09-Partially Observable MDPs
这个系列是Gatech OMSCS 强化学习课程(CS 7642: Reinforcement Learning)的同步课程笔记。课程内容涉及强化学习算法的理论和相关应用,本节主要介绍部分可观察MDP。
POMDPs
部分可观察MDP(partially observable MDP, POMDP)是对标准MDP的推广,基于POMDP的框架我们可以去讨论一些非马尔科夫的环境下智能体的决策问题。在POMDP中环境仍然是一个标准的MDP,但智能体无法直接获得系统的状态而是通过一个观测函数

State Estimation
显然在POMDP中智能体的核心问题在于如何估计自身的状态。记
这里需要注意的是即使状态空间


Value Iteration in POMDP
我们可以对价值迭代进行推广,使用估计





RL for POMDP
在价值迭代的基础上我们接下来讨论POMDP中的强化学习问题。

Learning a POMDP
最直接的处理方法是首先学习一下环境,然后在学习得到的环境上进行训练。某种意义上讲,这样的学习方法也类似于EM算法。

Bayesian RL
实际上我们还可以基于POMDP来考虑RL的问题。当智能体对环境一无所知时我们可以假定一系列可能的环境,此时的最优策略可以通过求解POMDP来进行计算:

在这种观察下我们可以认为RL实际上是POMDP中的规划(planning)问题。

Predictive State Representation


