OMSCS-ML课程笔记02-Regression
这个系列是Gatech OMSCS 机器学习课程(CS 7641: Machine Learning)的同步课程笔记。课程内容涉及监督学习、无监督学习和强化学习三个部分,本节主要介绍监督学习中回归问题的相关内容。
Linear Regression
监督学习是利用给定的数据(特征)
其中

线性回归的目标是求解出合适的组合系数
上式说明误差
求解方程最后得到
其中
从矩阵的角度上看

Polynomial Regression
在某些情况下因变量
我们称此时的回归问题为多项式回归(polynomial regression)。对于多项式回归同样可以按线性回归进行求解,只需要重新构造数据特征矩阵
需要主要的是使用多项式回归时需要对特征的次数
Cross Validation
本节最后来简单介绍下交叉验证(cross validation)的内容。我们可以把数据集上的样本看做是从某个总体分布中进行抽样的结果,显然我们希望能在已有的数据集上去估计模型在总体分布上的性能。交叉验证提供了通过已有数据估计模型泛化能力的方法,其中比较常用的方法是k-fold交叉验证(k-fold cross-validation):把训练数据随机打乱并均分为k份,然后每次训练选择其中的一份来测试模型性能其他的用来训练,最后不断轮换测试数据并取模型在轮换性能的平均值作为模型的性能。

k-fold交叉验证的一种极端情况是取k为训练数据总数,此时每次只在一个数据点上进行验证并需要对整个数据集进行遍历。称这种交叉验证方法为留一法(leave-one-out cross-validation):

通过交叉验证我们可以从有限的数据中获得尽可能多的有效信息,从而最大限度地利用已有的数据。同时我们可以通过交叉验证来选择模型的超参数从而避免出现过拟合等问题。