最小二乘法的6个假设 (上篇)

我们曾经在“一步一步走向锥规划 - LS”里面详细介绍了最小二乘法的由来和几何解释。 并且, 在“回归分析中的问题和修正的探讨”中谈到了经典最小二乘法OLS的局限性, 这里想深入讨论一下最小二乘法的6个假设。

1. 经典最小二乘法 OLS的6个假设:

A1. 线性参数(一次参数)的表达式,不能有参数平方项等等

A2. 条件均值必须为0

A3.没有多重共线性

A4.没有球度误差, 例如异方差和自相关

异方差

自相关

A5.可选假设,误差项符合正态分布

A6. 抽样假设, 随机的样本观测值。

2 违反线性参数 A1

违反了线性参数, 那么肯定就是非线性最小二乘法了, 在“一步一步走向锥规划 - 最小二乘法 ” 详细推导了非线性二乘法Non-linear Least Squares, NLS 的表达式。 这里进一步理解一下。

2.1 高斯-牛顿法

正所谓, 在最小二乘法的领域里, 言必有高斯, 这里这个非线性最小二乘法, 最经典的求解被总结为高斯-牛顿法。

如果化解前面我们推导的非线性最小二乘法的结果:

这样, 在做完近似替换之后, 我们得到牛顿法递推公式, 牛顿法本身是求解曲线与x轴的交点的, 用在优化算法中, 就是要求解导数为0,也就是导函数与x轴的交点。 这样,就有一次导数与二次导数的比值取负为更新值。

牛顿法:一次导数与二次导数的比值取负为更新值

上面这个过程,是根据高斯定义的残差平方和的一阶导数和二阶导数求近似的结果。

一阶导数 梯度 和 二阶导数 海森矩阵

2.2 直观对比牛顿法和高斯牛顿法

那么这种近似影响有多大?由于忽略更为小的调整, 使得高斯牛顿法比经典牛顿法在做非线性最小二乘法的时候收敛更快。 这也是为什么高斯-牛顿法是经典的理由。

高斯牛顿法收敛更快

2.3 直观理解莱文贝格-马夸特方法 Levenberg–Marquardt

这样, 我们大概知道了, 对于非线性二乘法里面, 高斯-牛顿法的大致情况了。 除此之外还有经典的梯度下降方法, 和莱文贝格-马夸特方法 Levenberg–Marquardt, LM方法。 某种意义上, LM方法是加了正则化的高斯-牛顿法。

Levenberg–Marquardt方法: 加正则化的过程

“66天写的逻辑回归” 引 里面详细介绍了正则化的好处, 这里也是同样的, 会引入一定的偏差, 但是带来算法的有效和稳定性。

加了正则化之后会引入偏差,但是带来有效性和稳定性的提高

2.4 非线性数据

很多时候, 如果数据本身是非线性的,就需要做替换或者数据变换。 更多细节可以参考“数据变换”。

其实这种数据替换的思想, 往深了发展就是以后一段时间横行机器学习的核方法Kernel Method。只是把研究的目的从线性关系变到了线性可分性。

3 违反满秩矩阵,(有多重共线性) A3

回归分析中的问题和修正的探讨(上篇)里面详细说明了多重共线性的情况,和必须要使用最小二乘法的数据修正思路。

除了必须使用经典最小二乘法而去修正数据, 还可以试试修正的最小二乘法, 这里是正则化的最小二乘法 Regularized least squares,RLS。正则化的最小二乘法, 对应到回归分析里面,有了Ridge Regression, Lasso Regression 这些前几年风靡的关键词。

其实, 这种算法的修正和数据的修正有着天然的联系, 根据特征“特征选择, 经典三刀”, 分别对应了特征选择里面的前两刀, Filter F刀和 Embedded E刀, 有兴趣的可以细看下下。 所以扩展了说:

最小二乘法 + Embedded (Regularization) = RLS

最小二乘法 + 特征选择 >= RLS

既然我们引入特征选择, 那么是不是还可以引入特征抽取?是的, 我们知道PCA是经典的特征抽取方法之一。有一个算法叫偏最小二乘法Partial least squares regression。 就是把PCA思想进行了结合。 细节就不展开了, 只是进行了引述。

最小二乘法 + PCA (Parital) = PLS

最小二乘法 + 特征抽取 >= PLS

PLS过程

PLS和PCA的类比

更进一步,还有把特征抽取和特征提取一股脑全堆上,虽然不知道意义有多大, 但是对于扩大脑洞还是有意义的。

最小二乘法 + 特征抽取 + 特征抽取 > RPLS

这样, 我们除了数据修正之外, 补充了最小二乘法算法修正。 另外, 这里进一步描述一下,既然无解, 直观上, 如果不使用最小二乘法,就好了。

再回顾下, 我们知道对于线性情况下, 在不违反满秩矩阵的情况下, 存在如下解:

但是存在多重共线性直接导致解不存在了。

那么可以考虑最大似然估计和矩估计了, 但是很多情况下, 最大似然估计要求的密度函数表达式并不存在。 因此很多时候只能转向矩估计了。

小结

我们对最小二乘法6大假设的2个最基本假设:参数线性,矩阵满秩有解(多重共线性)进行了天马行空的扩展。下期, 继续对其他假设进行胡说八道。

关键词:

NLS

Gauss-Newton Method

Levenberg–Marquardt Method

Kernel Method

RLS

Ridge Regression

Lasso Regression

PLS

Filter Method

Wrapper Method

Embedded Method

参考:

https://www.albert.io/blog/key-assumptions-of-ols-econometrics-review/

原文发布于微信公众号 - AI2ML人工智能to机器学习(mloptimization)

原文发表时间:2017-05-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

深度学习贝叶斯,这是一份密集的6天速成课程(视频与PPT)

多数讲师和助教都是贝叶斯方法研究团队的成员以及来自世界顶级研究中心的研究者。很多讲师曾经在顶级国际机器学习会议例如 NIPS、ICML、ICCV、CVPR、IC...

18510
来自专栏JasonhavenDai

统计学习方法之朴素贝叶斯1.概述2.基础知识3.基本方法4.参数估计5.简单实现

1.概述 朴素贝叶斯分类是贝叶斯分类器的一种,贝叶斯分类算法是统计学的一种分类方法,利用概率统计知识进行分类,其分类原理就是利用贝叶斯公式根据某对象的先验概率计...

41180
来自专栏人工智能

自然语言处理的神经网络模型初探

深度学习(Deep Learning)技术对自然语言处理(NLP,Natural Language Processing)领域有着巨大的影响。

1.2K110
来自专栏灯塔大数据

塔说 | 如何理解深度神经网络中的泛化理论?

前言 近年来的深度神经网络研究进展往往都重方法而轻理论,但理论研究能够帮助我们更好地理解深度学习成功背后的真正原因,并有望为进一步的研究指明方向。近日,普林斯顿...

41260
来自专栏自学笔记

机器学习可行性与VC dimension

在银行评估贷款申请人的授信请求前,会进行风险评估。符合申请则通过,反之驳回。长时间的数据和申请使得银行从中找到了一些规律并开始learning,所以风险评估就是...

34440
来自专栏AI科技评论

大会 | 优必选悉尼AI研究院AAAI 2018顶会论文一览

AI 科技评论按:第 32 届人工智能顶级会议 AAAI 2018 在美国新奥尔良召开。在今年的 AAAI 上,优必选悉尼 AI 研究院共有 5 篇论文入选,其...

10630
来自专栏机器学习算法工程师

《机器学习》笔记-聚类(9)

17650
来自专栏云时之间

对于多重共线性的简单理解

各位小伙伴们劳动节快乐,利用假期的这几天的时间,在王者荣耀游戏时间之余研究了一下一直困扰我很久的多重共线性,所以今天能够用一篇文章来讲一讲我理解的多重共线性,并...

34070
来自专栏决胜机器学习

循环神经网络(五) ——Bean搜索、bleu评分与注意力模型

20360
来自专栏机器之心

为什么XGBoost在机器学习竞赛中表现如此卓越?

27750

扫码关注云+社区

领取腾讯云代金券