前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >最小二乘法:背后的假设和原理(前篇)

最小二乘法:背后的假设和原理(前篇)

作者头像
double
发布2018-04-02 15:27:58
9370
发布2018-04-02 15:27:58
举报
文章被收录于专栏:算法channel算法channel

总结了一些最基本的机器学习概念,比如特征,训练集,维数,假设空间,通过一个例子说明什么是机器学习的泛化能力,再阐述了什么是归纳偏好。是时候开始进一步体会机器学习算法了,我们先从最基本但很典型的线性回归算法之OLS说起吧,它背后的假设和原理您了解吗?本系列带来细细体会OLS这个算法涉及的相关理论和算法。

1 线性回归的例子

我们接下来要预测房屋的价值,其中考虑的特征包括房屋的面积,和房屋的已使用年限。如下图所示的4条样本:

房屋面积

使用年限

房屋价值

85.17

5

68

120

12

130

102

6

104

59

3

49

现在,一个房屋面积为78,使用年限为4年的房屋,根据上表提示的数据预测下这个房屋的价值,这是我们的目标。

考虑:房屋面积和使用年限都会影响房屋的价值,不过我们现在还不知道它们各自对价值有多大的影响?

此时我们预测的房屋价值是一个连续值,因此回归得到的是一个值,这是一个典型的二元回归问题,如果要从线性回归入手,就是二元线性回归。通俗点说就是找到一个面(x1, x2)能很好的拟合(y房屋价值)以上4个样本。

2 建立模型

先从最简单的线性回归思路出发,这也是机器学习的基本思路,从最简单的模型入手。

假设θ

1 是房屋面积的权重参数,θ

2 是使用年限的权重参数,那么拟合的平面便可以表示为:

要习惯用矩阵的表达,上面这个求和公式用矩阵表达为:

其中 ,θ表示为

x 表示为

3 完整求解思路

3.1 求解误差

在假设了以上的模型后,接下来最重要的是求解方程中的3个参数,其中第一个参数为偏置项。

我们知道预测值和真实值之间一般是存在误差的,误差值用ε 表示,公式如下所示:

其中,y(i) 是第 i 个样本的真实值,注意这种标记方法,这是很重要的。

问题来了,误差的分布情况可以是任意的吗,还是需要满足某种分布规律才行?

3.2 误差分布假定

以上这个问题是非常重要的,如果误差分布没有满足某个规律,这个就很难做出预测了,因为它没有规律啊!

所以我们假设任何一个样本的误差项满足独立同分布,并且服从均值为0方差为一定值的高斯分布。

至于什么是独立,什么是高斯分布,大家可以参考本公众号推送的知识储备系列,公式如下:

在做出这个假定,分布服从高斯分布后,我们就可以将误差项直接带入一维高斯分布的公式中。

然后将 误差项:

带入上式,可得:

上式中的 x 和 y,方差都是已知量,f为概率的取值,那么,由这个公式该如何求解参数θ 呢?

3.3 似然函数求参数

是的,似然函数的确是求解类似问题的常用解决方法,包括以后的解决其他模型的参数,也有可能用到似然函数。

如果对似然函数无感觉,那么也请看一下明天推送的知识储备系列文章,一看您就明白了。

预知借助似然函数的相关理论求解权重参数,请看明天的推送,谢谢您的阅读。

主要推送关于算法的分析过程及应用的消息。培养思维能力,注重过程,挖掘背后的原理,刨根问底。本着严谨和准确的态度,目标是撰写实用和启发性的文章,欢迎您的关注。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-11-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 程序员郭震zhenguo 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档