OMSCS-RL课程笔记04-Convergence
这个系列是Gatech OMSCS 强化学习课程(CS 7642: Reinforcement Learning)的同步课程笔记。课程内容涉及强化学习算法的理论和相关应用,本节讨论TD learning的收敛性。
Bellman Equations with Actions
对于不考虑智能体决策行为的情况,Bellman方程给出了价值函数的递归关系:
\[V(s) = R(s) + \gamma \sum_{s'} T(s, s') V(s')\]而TD(0)则给出了价值函数的在线估计方法:
\[V_t(s_{t-1}) = V_{t-1}(s_{t-1}) + \alpha_t \bigg[ r_t + \gamma V_{t-1} (s_t) - V_{t-1} (s_{t-1}) \bigg]\]我们把TD(0)的思路拓展到需要进行决策的情况,可以得到Q-learning算法:
\[Q(s, a) = R(s, a) + \gamma \cdot \sum_{s'} T(s, a, s') \ \max_{a'} Q(s', a')\] \[Q_t(s_{t-1}, a_{t-1}) = Q_{t-1}(s_{t-1}, a_{t-1}) + \alpha_t \bigg[ r_t + \gamma \cdot \max_{a'} Q_{t-1}(s_t, a') - Q_{t-1}(s_{t-1}, a_{t-1}) \bigg]\]Bellman Operator
实际上我们可以使用算子的角度来认识Bellman方程。我们定义Bellman算子\(B\)是一个价值函数到价值函数的映射:
\[[B \ Q] (s, a) = R(s, a) + \gamma \cdot \sum_{s'} T(s, a, s') \ \max_{a'} Q(s', a')\]利用Bellman算子,我们可以重写Bellman方程和TD(0)更新:
\[Q^* = B \ Q^*\] \[Q_t = B \ Q_{t-1}\]Contraction Mapping
Bellman算子的一个重要性质是它是一个压缩映射(contraction mapping)。所谓压缩映射是指对于任意函数\(F\)和\(G\),存在\(0 \leq \gamma \lt 1\)使得对于算子\(B\)满足:
\[\Vert B \ F - B \ G \Vert_\infty \leq \gamma \Vert F - G \Vert_\infty\]直观理解,压缩映射会不断减少两个函数之间的距离。压缩映射有很多有用的性质,比如说对于压缩映射\(B\)一定存在一个唯一的函数\(F^*\)满足方程:
\[B \ F^* = F^*\]同时,我们可以从任意函数\(F\)开始利用\(B\)进行迭代,最终一定能收敛到\(F^*\)上:
\[F_t = B \ F_{t-1} \Rightarrow F_t \rightarrow F^*\]容易验证Bellman算子满足压缩映射的定义:
\[\begin{aligned} \Vert B \ Q_1 - B \ Q_2 \Vert_\infty &= \max_{s, a} \bigg\vert \gamma \sum_{s'} T(s, a, s') \bigg[ \max_{a'} Q_1(s', a') - \max_{a'} Q_2(s', a') \bigg] \bigg\vert \\ &\leq \gamma \max_{s'} \vert \max_{a'} Q_1(s', a') - \max_{a'} Q_2(s', a') \vert \\ &\leq \gamma \Vert Q_1 - Q_2 \Vert_\infty \end{aligned}\]Convergence
Bellman算子作为一个压缩映射的直接推论是证明价值迭代算法的正确性。实际上存在如下定理保证了使用Bellman算子进行迭代的价值函数一定可以收敛到最优价值函数:
更进一步,我们可以证明TD learning算法能够收敛到最优价值函数:
Generalized MDP
除此之外,我们还可以对MDP以及Bellman方程的概念进行推广: