导读:在线性回归问题中,我们定义了损失函数
,但是为什么用最小二乘(而不是三次方等)作为损失函数?
我们来尝试解决一个完整的线性回归问题:
设:
训练样本(x,y),其中x是输入特征,y是目标变量
回归方程的形式是:
(1)
我们假设误差项:
服从独立同分布的高斯分布(
),即
(2)
(这里对误差项服从的分布的假设,直观地理解,就是误差在越接近0的地方出现的概率越大,越远离0的地方出现的概率越小,在0两边出现的概率对称,并且误差服从的分布总是让多次测量的均值成为对真值最好的估计。至于为什么符合这些直观感受的误差的概率密度函数恰好是(2)式?敬请期待下一篇文章)
接下来我们对似然函数(3)进行极大似然估计
(3)
对(3)两边取对数
(4)
对取对数后,单调性不变,所以让取得最大值,等价于令(4)中损失函数
(5)
取最小值。
到这里,最小二乘法就得到了解释。并且这个结论与我们假设的
没有关系。
接下来,我们继续我们的目标,寻找使损失函数
最小的
:
寻找
通常有两种方法,一种是求解析解
,求解过程这里暂不做展开。
我们重点说明第二种方法:梯度下降法。
梯度下降的过程是:
Step 1 给定
的初始值,计算
;
Step 2 在
的基础上减去
在该点的梯度,得到新的
,计算
;
Step 3 重复以上步骤,直到
取到局部最小值;
Step 4 再次选择
的初始值,重复以上步骤,直到取到
的所有局部最小值。
梯度方向是
(6)
的反方向,因此用梯度下降法迭代
的过程可以写为:
(7)
观察用梯度下降法迭代
的过程,迭代效果的好坏对
初始值的选择、迭代步长
有很高的依赖,在工程上对线性回归的优化通常是基于这两点展开。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。