开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >线性回归的高斯假设

线性回归的高斯假设

原创

张洁

修改于 2017-10-18 09:41:00

3.9K0

修改于 2017-10-18 09:41:00

举报

文章被收录于专栏：张洁的专栏张洁的专栏

导读：在线性回归问题中，我们定义了损失函数

，但是为什么用最小二乘（而不是三次方等）作为损失函数？

我们来尝试解决一个完整的线性回归问题：

设：

训练样本(x,y)，其中x是输入特征，y是目标变量

回归方程的形式是：

(1)

我们假设误差项：

服从独立同分布的高斯分布(

)，即

(2)

（这里对误差项服从的分布的假设，直观地理解，就是误差在越接近0的地方出现的概率越大，越远离0的地方出现的概率越小，在0两边出现的概率对称，并且误差服从的分布总是让多次测量的均值成为对真值最好的估计。至于为什么符合这些直观感受的误差的概率密度函数恰好是（2）式？敬请期待下一篇文章）

接下来我们对似然函数(3)进行极大似然估计

(3)

对(3)两边取对数

(4)

对取对数后，单调性不变，所以让取得最大值，等价于令(4)中损失函数

(5)

取最小值。

到这里，最小二乘法就得到了解释。并且这个结论与我们假设的

没有关系。

接下来，我们继续我们的目标，寻找使损失函数

最小的

：

寻找

通常有两种方法，一种是求解析解

，求解过程这里暂不做展开。

我们重点说明第二种方法：梯度下降法。

梯度下降的过程是：

Step 1 给定

的初始值，计算

；

Step 2 在

的基础上减去

在该点的梯度，得到新的

，计算

；

Step 3 重复以上步骤，直到

取到局部最小值；

Step 4 再次选择

的初始值，重复以上步骤，直到取到

的所有局部最小值。

梯度方向是

(6)

的反方向，因此用梯度下降法迭代

的过程可以写为：

(7)

观察用梯度下降法迭代

的过程，迭代效果的好坏对

初始值的选择、迭代步长

有很高的依赖，在工程上对线性回归的优化通常是基于这两点展开。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

评论

登录后参与评论

0 条评论

热度

最新

LV.