线性回归的高斯假设

导读:在线性回归问题中,我们定义了损失函数

,但是为什么用最小二乘(而不是三次方等)作为损失函数?

我们来尝试解决一个完整的线性回归问题:

设:

训练样本(x,y),其中x是输入特征,y是目标变量

回归方程的形式是:

(1)

我们假设误差项:

服从独立同分布的高斯分布(

),即

(2)

(这里对误差项服从的分布的假设,直观地理解,就是误差在越接近0的地方出现的概率越大,越远离0的地方出现的概率越小,在0两边出现的概率对称,并且误差服从的分布总是让多次测量的均值成为对真值最好的估计。至于为什么符合这些直观感受的误差的概率密度函数恰好是(2)式?敬请期待下一篇文章)

接下来我们对似然函数(3)进行极大似然估计

(3)

对(3)两边取对数

(4)

对取对数后,单调性不变,所以让取得最大值,等价于令(4)中损失函数

(5)

取最小值。

到这里,最小二乘法就得到了解释。并且这个结论与我们假设的

没有关系。

接下来,我们继续我们的目标,寻找使损失函数

最小的

寻找

通常有两种方法,一种是求解析解

,求解过程这里暂不做展开。

我们重点说明第二种方法:梯度下降法。

梯度下降的过程是:

Step 1 给定

的初始值,计算

Step 2 在

的基础上减去

在该点的梯度,得到新的

,计算

Step 3 重复以上步骤,直到

取到局部最小值;

Step 4 再次选择

的初始值,重复以上步骤,直到取到

的所有局部最小值。

梯度方向是

(6)

的反方向,因此用梯度下降法迭代

的过程可以写为:

(7)

观察用梯度下降法迭代

的过程,迭代效果的好坏对

初始值的选择、迭代步长

有很高的依赖,在工程上对线性回归的优化通常是基于这两点展开。

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

张洁的专栏

1 篇文章1 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏文武兼修ing——机器学习与IC设计

Deep-compression阅读笔记基本步骤相关分析总结

以上是Deep compression中所述的神经网络压缩方法,主要包括三个步骤:

602
来自专栏大数据文摘

利用 Scikit Learn的Python数据预处理实战指南

1645
来自专栏ATYUN订阅号

一文带你认识深度学习中不同类型的卷积

卷积(convolution)现在可能是深度学习中最重要的概念。靠着卷积和卷积神经网络(CNN),深度学习超越了几乎其它所有的机器学习手段。 ? 这篇文章将简要...

3699
来自专栏企鹅号快讯

机器学习算法实战

目 录 逻辑回归算法步骤简述 选择输入函数:sigmoid函数 选择优化算法:梯度上升法 观察数据集 批梯度上升训练 随机梯度上升训练 推荐阅读时间: 10m...

1905
来自专栏人工智能LeadAI

TensorFlow从0到1 | 第十四章:交叉熵损失函数——防止学习缓慢

通过上一篇 13 驯兽师:神经网络调教综述,对神经网络的调教有了一个整体印象,本篇从学习缓慢这一常见问题入手,根据Michael Nielsen的《Neural...

3477
来自专栏PPV课数据科学社区

机器学习算法基础概念学习总结

1.基础概念 (1) 10折交叉验证:英文名是10-fold cross-validation,用来测试算法的准确性。是常用的测试方法。将数据集分成10份。轮...

3404
来自专栏机器之心

前沿 | UC Berkeley提出特征选择新方法:条件协方差最小化

3409
来自专栏人工智能LeadAI

零基础入门深度学习 | 第五章: 循环神经网络

无论即将到来的是大数据时代还是人工智能时代,亦或是传统行业使用人工智能在云上处理大数据的时代,作为一个有理想有追求的程序员,不懂深度学习这个超热的技术,会不会感...

4107
来自专栏人工智能LeadAI

零基础入门深度学习 | 第四章:卷积神经网络

无论即将到来的是大数据时代还是人工智能时代,亦或是传统行业使用人工智能在云上处理大数据的时代,作为一个有理想有追求的程序员,不懂深度学习这个超热的技术,会不会感...

4287
来自专栏数据派THU

从零开始教你训练神经网络(附公式、学习资源)

来源:机器之心 作者:Vitaly Bushaev 本文长度为8900字,建议阅读15分钟 本文从神经网络简单的数学定义开始,沿着损失函数、激活函数和反向传播等...

18610

扫码关注云+社区