前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >北大陈浩然笔记:特征缩放和泛化能力(亮点)

北大陈浩然笔记:特征缩放和泛化能力(亮点)

作者头像
double
发布2018-07-31 17:32:28
9430
发布2018-07-31 17:32:28
举报
文章被收录于专栏:算法channel

1多变量线性回归

如果数据中属性是一个多维向量

, 那么该回归模型称为多变量线性回归。也就是一般意义上的线性回归模型。

我们先定义符号,

代表第 i 个数据的属性值,它是一个向量,

表示第 i 个数据的第 j 个属性,它是一个实数,yi 是第 i 个数据的标签值,也是实数。f是我们学习到的模型,

即我们对第 i 个数据的预测值。我们建立的模型为:

我们的目标是,求得适当的

和 b,使得 S 最小,其中 S 是预测值和真值的差距平方和,亦称为代价函数,当然代价函数还有很多其他的形式。

2特征缩放

由于 x 具有很多维的特征,每一维的特征大小可能相差甚多,这样会大大影响学习的速度。假如房价范围 0-10000000,房子大小范围 1-200,那么这两个特征学习到的系数大小会差很多倍,而学习率必须按照最小的系数来进行设定,则大系数的收敛会非常慢。

为了避免这种情况,我们使用了特征缩放将每个特征的值进行处理,使之在[-1,1]之间,当然,原本范围就于此在一个数量级的特征,也可以不进行处理。处理公式如下:

或者

其中 σ 为数据标准差。

3正规方程法

对于多元线性回归而言,正规方程法是一种准确的方法,就像最小二乘法对于单变量线性回归一样。 为了使形式更加简化,我们做以下符号设定

由此,我们可以将S写成另一种形式,定义如下

请注意,

和S的区别仅仅在于它没有的系数,而该系数是一个定值,故最小化的目标和过程是一样的,我们在此要将

最小化。

同理,我们将

视为 w 的函数,对于 w 求导数,得到取得最小值时的 w 的值,便是我们得到的结果,记为

该方法得到了为准确值,即在我们给定条件下的最优解,但是该方法有两个弊端:

  • 需要计算,相对于矩阵规模n而言,算法复杂度是O(n^3), n非常大时, 计算非常慢,甚至根本无法完成。
  • 可能出现矩阵不可逆的情况,在这里不进行数学上的分析,但是可以说明,以下两种情况容易导致矩阵不可逆。
    • 我们使用了冗余的特征,例如我们选取的两个特征始终保持倍数关系,则这两个特征向量线性相关。此时应该去除冗余的向量。
    • 我们使用了太多的特征(特征的数量超过了样本的数量).,也可以理解为样本的数量太少,对于这种情况我们可以删掉一些特征或者使用正则化(在下一篇文章中会讲到)。

4梯度下降法

此处的梯度下降法和之前一元线性回归的梯度下降法基本相同,无非是一元线性回归只有两个需要求的参数,而多元线性回归中有多个待求参数。其余的只需要将导数项换掉即可。最终得到的式子如下:

与正规方程法相比,梯度下降法当有大量特征时, 也能正常工作,仍可以在可接受的时间内完成。

5泛化

之前我们提到过,线性模型并不是只能进行线性分类,它具有很强的泛化能力,如果仅仅使用在此之前的单元和多元线性回归,我们只能得到多维空间的高维平面,为了进一步增强泛化能力,我们可以引入幂次项

比如我们原来有只有一个特征 x1,我们现在令

就人为的引入了第二个特征,拥有更强的拟合能力。我们还可以引入两个特征的交叉项,使得线性模型更强大。

例如,我们原本只有一个模型:

我们引入

,人为引入三个变量,我们的模型变为:

也就是说,很多复杂的模型都可以转化为线性模型进行建模。

但是,我们也要防范过拟合问题,过多的人为特征很容易导致过拟合,我们将在下一个章节详细讨论。

6校验

那么,我们写好算法进行运行之后,如何检验我们的算法是否正常运行呢?一个办法就是看他的 S(总误差)随时间变化的图像。

正常情况下,S应该随着算法的运行逐渐降低,降低的速度越来越小,但是如果算法错误,或者学习率不适宜,那么可能出现S反而增大或者抖动的现象,如下图所示:

7总结

线性模型以其简单和可解释性在众多模型中脱颖而出,至今仍是经常使用的回归算法之一,在机器学习中仍然具有重要应用,如趋势线,流行病学预测,金融经济等。

作者:陈浩然,北京大学专业智能科学。想了解她的更多文章,请访问: 博客:https://braverychr.github.io/ 知乎专栏:https://zhuanlan.zhihu.com/MLstudy

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-07-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 程序员郭震zhenguo 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档