OMSCS-RL课程笔记01-Introduction
这个系列是Gatech OMSCS 强化学习课程(CS 7642: Reinforcement Learning)的同步课程笔记。课程内容涉及强化学习算法的理论和相关应用,本节主要介绍强化学习的概念。
Decision Making & Reinforcement Learning
在机器学习课程中我们介绍过各种机器学习算法大致可以分为三类:监督学习(supervised learning)、无监督学习(unsupervised learning)以及强化学习(reinforcement learning)。其中监督学习的目标是从数据中学习到一个样本到目标的映射
Markov Decision Process
Markov决策过程(Markov decision process, MDP)是强化学习的基本理论框架。一个标准的MDP包含以下元素:
- 状态(state)表示智能体所处的状态
; - 模型(model)表示智能体从状态
执行动作 后转移到状态 的概率,即 ; - 动作(action)表示智能体可以执行的行为
; - 奖励(reward)表示环境给予智能体的奖励信号,在不同算法中它可以记为
、 或者 等; - 策略(policy)表示智能体进行决策的函数,它将状态
映射为一个动作 即 ,其中具有最大长期奖励的策略称为最优策略(optimal policy),记为 ;

实际上状态、模型、动作以及奖励定义了整个待求解的问题,而强化学习的目标是求解出这个MDP的最优策略。
Sequences of Rewards
在强化学习中一种常见的情况是考虑无限长序列的累计奖励:
在这种情况下的效用是不收敛的,我们也无法基于效用来比较不同策略的好坏。为了处理这种问题我们需要引入折扣系数
这样就可以保证效用的收敛性:
Policies
我们在上面提到过最优策略是使长期奖励最大的策略。在折扣系数的修正下我们可以更严格地来定义它:
同时,我们定义在策略
这里需要对效用和奖励的概念进行区分:效用
对于最优策略
上式说明在状态
更进一步,我们可以对
上式称为Bellman方程(Bellman equation)。Bellman方程是MDP中最核心的方程,它指出了最优策略下效用函数自身的递归关系。
Finding Policies
显然Bellman方程是一个非线性方程一般无法直接进行求解,但是我们可以通过迭代的方法来计算最优策略对应的效用函数。具体来说,在每一步我们需要进行迭代:
当迭代次数足够多时可以证明
除了价值迭代之外,我们还可以从策略的角度出发来寻找最优策略。具体来说,在每一步我们首先计算当前策略的效用:
然后利用计算出的效用函数来更新策略:
这种先计算当前策略效用函数再对策略进行更新的方法称为策略迭代(policy iteration)。
The Bellman Equations
Bellman方程有很多等价的形式。如果我们把奖励
对上式进行展开可以得到:
我们可以把最外面括号中的内容定义为一个关于状态和动作的函数
如果我们把上式中奖励
这样我们就推导了Bellman方程的三个等价形式,它们之间存在相互转换关系: