线性回归是一种监督学习算法,即给定一个训练集,去学习一个假设函数,用来尽量精确地预测每个样本对应的输出。从输出变量的离散程度来看,监督学习算法可以分为两类。线性回归属于回归算法,其输出变量连续;而另一类监督学习算法是分类算法,其输出变量离散。
对于线性回归代价函数的求解,有两种可选方法:梯度下降与正规方程。
梯度下降主要可以分为两类:批量梯度下降和随机梯度下降:
随机梯度下降的一种优化形式是⼩批量梯度下降,利⽤矩阵并行运算,一次处理小批量的样本点,有时可以⽐随机梯度下降速度更快。
选择梯度⽅向的原因是它是使代价函数减小(下降)最⼤的⽅向,我们可以利用柯⻄不等式对这一结论进行证明:
本节将介绍⼀种特殊的线性回归算法:局部加权线性回归。
对于传统的线性回归,特征的选择极为重要,对于下面三幅图,我们称第一幅图的模型是欠拟合,第三幅图的模型则是过拟合(之后的笔记中会详细介绍)。
可以看出,找到一个全局的线性模型去拟合整个训练集,并不是一件简单的事情,往往会引起欠拟合或是过拟合的发生。对于这种情况之后会给出解决方案,而这里我们提出了另外一种思路,即局部线性加权回归,这种方案可以使特征的选择的重要性降低。
局部加权线性回归本质上是一种非参数学习算法,而传统的线性回归是一种参数学习算法。
两者的区别在于:
非参数学习导致的结果:为了表达假设 而保存的数据将随着训练集的大小而线性增长。