OMSCS-RL课程笔记04-Convergence
这个系列是Gatech OMSCS 强化学习课程(CS 7642: Reinforcement Learning)的同步课程笔记。课程内容涉及强化学习算法的理论和相关应用,本节讨论TD learning的收敛性。
Bellman Equations with Actions
对于不考虑智能体决策行为的情况,Bellman方程给出了价值函数的递归关系:
而TD(0)则给出了价值函数的在线估计方法:
我们把TD(0)的思路拓展到需要进行决策的情况,可以得到Q-learning算法:

Bellman Operator
实际上我们可以使用算子的角度来认识Bellman方程。我们定义Bellman算子
利用Bellman算子,我们可以重写Bellman方程和TD(0)更新:
Contraction Mapping
Bellman算子的一个重要性质是它是一个压缩映射(contraction mapping)。所谓压缩映射是指对于任意函数
直观理解,压缩映射会不断减少两个函数之间的距离。压缩映射有很多有用的性质,比如说对于压缩映射
同时,我们可以从任意函数

容易验证Bellman算子满足压缩映射的定义:


Convergence
Bellman算子作为一个压缩映射的直接推论是证明价值迭代算法的正确性。实际上存在如下定理保证了使用Bellman算子进行迭代的价值函数一定可以收敛到最优价值函数:

更进一步,我们可以证明TD learning算法能够收敛到最优价值函数:


Generalized MDP
除此之外,我们还可以对MDP以及Bellman方程的概念进行推广:

