OMSCS-ML课程笔记08-Bayesian Learning and Inference
这个系列是Gatech OMSCS 机器学习课程(CS 7641: Machine Learning)的同步课程笔记。课程内容涉及监督学习、无监督学习和强化学习三个部分,本节主要介绍监督学习中贝叶斯学习理论的相关内容。
Bayesian Learning
Bayes’ Theorem
在正式介绍贝叶斯学习前首先来回顾一下贝叶斯定理(Bayes theorem)。对任意事件
其中条件概率
MAP and MLE
在贝叶斯学习理论中我们取事件
显然我们希望求解得到的假设
上式说明后验概率取决于假设
因此贝叶斯学习的基本框架是首先根据domain knowledge来设置先验
Least-Squared Error Hypothesis
尽管在很多时候我们无法显式计算后验概率,但我们仍然可以利用贝叶斯法则来理解很多问题。以回归问题为例,假设存在一个函数
其中噪声
由于样本是独立同分布的,似然函数为它们概率的乘积:
通过取对数得到累加的形式:
如果我们假设
等式右端与最小二乘法的优化目标相同,这说明贝叶斯视角下的最小二乘法实际上就是对高斯噪声下的数据进行极大似然估计。
Minimum Description Length Principle
先验
从信息论的角度上看对任意随机事件
Bayesian Classification
贝叶斯学习理论除了可以选择假设还可以对新的数据进行预测。假设在数据集
上式说明数据
对于分类问题可以令
满足上式的分类器称为贝叶斯最优分类器(Bayes optimal classifier),它是在相同假设空间和先验条件下的最优分类器。同时贝叶斯最优分类器的输出等于假设空间中每个假设输出的加权求和,对应的权重是相应假设的后验概率。
Bayesian Inference
Bayesian Networks
贝叶斯理论在机器学习中另一个重要应用是进行推断(inference)。所谓「推断」是指在给定一些已知条件(evidence)的前提下计算其它随机变量条件概率的过程,但在介绍推断前我们需要引入贝叶斯网络(Bayesian networks)的相关知识。贝叶斯网络是一种结构化表示概率的方法,它利用随机变量间的条件独立性将联合概率分布(joint distribution)分解为一系列条件概率的乘积。以下图为例,图中所示随机变量的联合概率可以表示为:

有了联合概率后利用边缘化(marginalization)将无关的变量约掉并计算给定已知条件下的概率分布,也就是在贝叶斯网络上进行推断。
对于高维随机变量显式进行推断往往是比较困难的,实际应用中可以通过采样(sampling)的方式来进行近似推断。通过采样可以生成大量的样本来表示贝叶斯网络的联合概率,通过这些样本来计算条件概率会比直接进行边缘化要容易很多。
Naive Bayes
本节最后介绍了朴素贝叶斯(naive bayes)分类器的相关知识。对于分类问题我们假定样本的各个属性在给定样本类别条件下是相互独立的,也就是说样本属性满足如下图所示的贝叶斯网络:

此时样本的联合概率为:
因此给定样本属性预测样本类别的分类问题等价于在贝叶斯网络上对类别节点进行推断,利用贝叶斯公式可以表示为:
也就是说给定样本属性条件下样本类别的后验概率正比于类别的先验乘以样本属性的似然函数。根据最大后验估计,我们只需要选择给出最大后验概率的类别作为分类器输出即可。
和其他分类算法相比,朴素贝叶斯分类器的参数非常少而且进行推断的代价也很小。同时,朴素贝叶斯的学习过程非常容易,我们只需要在训练数据上计算类别先验以及每个属性的条件概率即可。但需要注意的是朴素贝叶斯分类器中样本属性条件独立的假设过于强了,实际中的数据基本不会满足这样的假设。尽管如此,朴素贝叶斯分类器仍然是非常强大的机器学习模型,在很多实际问题中都有大量的应用。
Reference
- Chapter 6: BAYESIAN LEARNING, Machine Learning, Tom Mitchell, McGraw Hill, 1997.