OMSCS-RL课程笔记09-Partially Observable MDPs

Created in June 27, 2022

2022 · CS7642-RL · OMSCS

这个系列是Gatech OMSCS 强化学习课程(CS 7642: Reinforcement Learning)的同步课程笔记。课程内容涉及强化学习算法的理论和相关应用，本节主要介绍部分可观察MDP。

POMDPs

部分可观察MDP(partially observable MDP, POMDP)是对标准MDP的推广，基于POMDP的框架我们可以去讨论一些非马尔科夫的环境下智能体的决策问题。在POMDP中环境仍然是一个标准的MDP，但智能体无法直接获得系统的状态而是通过一个观测函数 $O$ 来获得对状态 $s$ 的观测 $z$ 。在很多情况下系统状态 $s$ 和观测 $z$ 之间的关系是不确定的，它们的概率可记为 $P (z | s) = O (s, z)$ 。

State Estimation

显然在POMDP中智能体的核心问题在于如何估计自身的状态。记 $b (s)$ 为智能体位于状态 $s$ 的概率称为信念(belief)，通过行为 $a$ 和观测 $z$ 我们可以对信念进行更新：

\begin{aligned} b (s^{'}) & = P (s^{'} | b, a, z) = \sum_{s} P (s | b, a, z) \cdot P (s^{'} | b, a, z, s) \\ = \sum_{s} b (s) P (s^{'} | a, z, s) \\ = \sum_{s} b (s) \cdot \frac{P (z | s^{'}, a, s) P (s^{'} | a, s)}{P (z | a, s)} \\ = \frac{\sum_{s} b (s) O (s^{'}, z) T (s, a, s^{'})}{\sum_{s^{'}} \sum_{s} b (s) O (s^{'}, z) T (s, a, s^{'})} \end{aligned}

这里需要注意的是即使状态空间 $S$ 是有限的，信念空间 $B$ 仍然是无限的。实际上信念空间 $B$ 包含任意可行的状态分布概率。

Value Iteration in POMDP

我们可以对价值迭代进行推广，使用估计 $b$ 来代替状态 $s$ 得到POMDP中的价值迭代算法。实际上这样进行更新得到的价值函数还具有分片线性和凸性(piecewise linear & convex)。

RL for POMDP

在价值迭代的基础上我们接下来讨论POMDP中的强化学习问题。

Learning a POMDP

最直接的处理方法是首先学习一下环境，然后在学习得到的环境上进行训练。某种意义上讲，这样的学习方法也类似于EM算法。

Bayesian RL

实际上我们还可以基于POMDP来考虑RL的问题。当智能体对环境一无所知时我们可以假定一系列可能的环境，此时的最优策略可以通过求解POMDP来进行计算：

在这种观察下我们可以认为RL实际上是POMDP中的规划(planning)问题。

Predictive State Representation