OMSCS-RL课程笔记04-Convergence

这个系列是Gatech OMSCS 强化学习课程(CS 7642: Reinforcement Learning)的同步课程笔记。课程内容涉及强化学习算法的理论和相关应用,本节讨论TD learning的收敛性。

Bellman Equations with Actions

对于不考虑智能体决策行为的情况,Bellman方程给出了价值函数的递归关系:

V(s)=R(s)+γsT(s,s)V(s)

而TD(0)则给出了价值函数的在线估计方法:

Vt(st1)=Vt1(st1)+αt[rt+γVt1(st)Vt1(st1)]

我们把TD(0)的思路拓展到需要进行决策的情况,可以得到Q-learning算法

Q(s,a)=R(s,a)+γsT(s,a,s) maxaQ(s,a) Qt(st1,at1)=Qt1(st1,at1)+αt[rt+γmaxaQt1(st,a)Qt1(st1,at1)]

Bellman Operator

实际上我们可以使用算子的角度来认识Bellman方程。我们定义Bellman算子B是一个价值函数到价值函数的映射:

[B Q](s,a)=R(s,a)+γsT(s,a,s) maxaQ(s,a)

利用Bellman算子,我们可以重写Bellman方程和TD(0)更新:

Q=B Q Qt=B Qt1

Contraction Mapping

Bellman算子的一个重要性质是它是一个压缩映射(contraction mapping)。所谓压缩映射是指对于任意函数FG,存在0γ<1使得对于算子B满足:

B FB GγFG

直观理解,压缩映射会不断减少两个函数之间的距离。压缩映射有很多有用的性质,比如说对于压缩映射B一定存在一个唯一的函数F满足方程:

B F=F

同时,我们可以从任意函数F开始利用B进行迭代,最终一定能收敛到F上:

Ft=B Ft1FtF

容易验证Bellman算子满足压缩映射的定义:

B Q1B Q2=maxs,a|γsT(s,a,s)[maxaQ1(s,a)maxaQ2(s,a)]|γmaxs|maxaQ1(s,a)maxaQ2(s,a)|γQ1Q2

Convergence

Bellman算子作为一个压缩映射的直接推论是证明价值迭代算法的正确性。实际上存在如下定理保证了使用Bellman算子进行迭代的价值函数一定可以收敛到最优价值函数:

更进一步,我们可以证明TD learning算法能够收敛到最优价值函数:

Generalized MDP

除此之外,我们还可以对MDP以及Bellman方程的概念进行推广: