OMSCS-RL课程笔记09-Partially Observable MDPs

这个系列是Gatech OMSCS 强化学习课程(CS 7642: Reinforcement Learning)的同步课程笔记。课程内容涉及强化学习算法的理论和相关应用,本节主要介绍部分可观察MDP。

POMDPs

部分可观察MDP(partially observable MDP, POMDP)是对标准MDP的推广,基于POMDP的框架我们可以去讨论一些非马尔科夫的环境下智能体的决策问题。在POMDP中环境仍然是一个标准的MDP,但智能体无法直接获得系统的状态而是通过一个观测函数\(O\)来获得对状态\(s\)的观测\(z\)。在很多情况下系统状态\(s\)和观测\(z\)之间的关系是不确定的,它们的概率可记为\(P(z \vert s) = O(s, z)\)。

State Estimation

显然在POMDP中智能体的核心问题在于如何估计自身的状态。记\(b(s)\)为智能体位于状态\(s\)的概率称为信念(belief),通过行为\(a\)和观测\(z\)我们可以对信念进行更新:

\[\begin{aligned} b(s') &= P(s' \vert b, a, z) = \sum_s P(s \vert b, a, z) \cdot P(s' \vert b, a, z, s) \\ &= \sum_s b(s) P(s' \vert a, z, s) \\ &= \sum_s b(s) \cdot \frac{P(z \vert s', a, s) P(s' \vert a, s)}{P(z \vert a, s)} \\ &= \frac{\sum_s b(s) O(s', z) T(s, a, s')}{\sum_{s'} \sum_s b(s) O(s', z) T(s, a, s')} \end{aligned}\]

这里需要注意的是即使状态空间\(S\)是有限的,信念空间\(B\)仍然是无限的。实际上信念空间\(B\)包含任意可行的状态分布概率。

Value Iteration in POMDP

我们可以对价值迭代进行推广,使用估计\(b\)来代替状态\(s\)得到POMDP中的价值迭代算法。实际上这样进行更新得到的价值函数还具有分片线性和凸性(piecewise linear & convex)

RL for POMDP

在价值迭代的基础上我们接下来讨论POMDP中的强化学习问题。

Learning a POMDP

最直接的处理方法是首先学习一下环境,然后在学习得到的环境上进行训练。某种意义上讲,这样的学习方法也类似于EM算法。

Bayesian RL

实际上我们还可以基于POMDP来考虑RL的问题。当智能体对环境一无所知时我们可以假定一系列可能的环境,此时的最优策略可以通过求解POMDP来进行计算:

在这种观察下我们可以认为RL实际上是POMDP中的规划(planning)问题。

Predictive State Representation