OMSCS-ML课程笔记13-Markov Decision Processes
这个系列是Gatech OMSCS 机器学习课程(CS 7641: Machine Learning)的同步课程笔记。课程内容涉及监督学习、无监督学习和强化学习三个部分,本节开始介绍强化学习的相关内容。
强化学习(reinforcement learning)是机器学习的另一个重要组成部分。在强化学习任务中,我们希望智能体(agent)能够通过和环境的互动来学习到如何进行决策并获得最大收益。
Markov Decision Processes
强化学习的基本理论框架是马尔科夫决策过程(Markov decision processes, MDP),这里首先介绍一些相关的概念:
- 智能体自身的状态(state)用
来表示; - 智能体可以采取一些行为(action)来跟外界进行互动,用
来表示; - 当智能体执行了行为
后它自身的状态会发生改变,状态转移(transition)用 来表示 ; - 当智能体的状态发生转移时,外界环境会给予它一定的回报(reward)记为
。
我们假定系统满足马尔科夫性(Markovian property),即状态转移仅与当前状态有关而与转移的历史无关;此外我们还默认环境是稳定的,它在和智能体的互动中不会发生改变。这样我们可以把智能体和环境的互动过程用下图来表示:

强化学习的目标是得到一个最优的策略(policy)使得智能体能够获得尽可能多的回报。所谓「策略」是指行为关于状态的函数
接下来的问题是如何衡量回报的大小。假设智能体的决策序列是无限的,我们需要引入一个折扣系数(discount factor)来计算回报序列的效用(utility):
其中
Bellman Equation
对于给定的策略
上式可以理解为从
显然最优策略
它在状态
上式是求解MDP问题最重要的方程,称为Bellman方程(Bellman equation)。
Finding Policies
Value Iteration
本节最后的问题是如何来求解Bellman方程。由于Bellman方程是非线性的,我们很难显式地进行求解,一般需要采用迭代的方法:
式中
Policy Iteration
除了价值迭代外另一种常用的求解方法为策略迭代(policy iteration)。对于任意给定的策略
然后我们选择具有最大效用的行为来改进它:
如此反复迭代即可得到最优策略。类似于价值迭代,我们同样可以证明无论初始策略如何采用策略迭代一定会收敛到最优策略。