最小二乘法的4种求解

我们曾经在“一步一步走向锥规划 - LS”里面详细介绍了最小二乘法的由来和几何解释。 并且, 在“回归分析中的问题和修正的探讨”中谈到了经典最小二乘法OLS的局限性,其中我们知道在多重共线性情况下, 经典最小二乘法是无解的, 这里我们在有解的情况下, 讨论求解形式。

引言

孔乙己, 和阿Q一样是鲁迅塑造的最成功的人物, 对茴香豆的茴字有四种写法颇有研究! 在码农界也是存在类似的, 譬如快速排序的3种写法。 这里,并不是想强调最小二乘法OLS的4种求解, 而是强调OLS的博大精深, 就算是解法中, 也可以分为适合高中生学习的, 适合本科生学习的, 和适合研究生学习的。

2种解的解读

在前面我们表述过, 最小二乘法的目标, 直观上理解,就是求解每个点到直线竖直距离的正方形的加和面积最小。 (参考 “ 一步一步走向锥规划 - 最小二乘法 ”)

在OLS有解的情况下, OLS的解可以有两种解读方式, 一种是方程求解, 伪逆的理解。 另外一种是协方差比值, 协方差的理解。

伪逆的理解

伪逆Pseudoinverse,最早是用在线性方程求解上的, 因为矩阵非方阵, 无法直接求逆矩阵。 那么通过如下化解, 就可以求解矩阵。

那么, 从线性求解的角度直观理解最小二乘法就是求一个近似解, 然后套上上面求解过程就是最小二乘法的解。

而这个过程也正是, 最小二乘法解的几何解释的来源, 详细解释可以参考 “ 一步一步走向锥规划 - 最小二乘法 ”。

协方差的理解

协方差定义如下, 化解到离散情况下,有如下表达式

我们如果单纯看 b1 的形式,就是一个协方差的比值

其中: 也可以利用上面的形式Cov(X, Y) = E(X, Y) - E(X)*E(Y) 表示如下:

如果我们进一步按伪逆求解的方式来化解:

我们可以看到矩阵形式的, 协方差表示的b矩阵是怎么样的:

至此, 我们对2种解分布进行了形式和公式上的理解。

4种求解过程

1. 凑平方

其实高中的知识足以求解最小二乘法了, 把x, y可以凑成如下3部分平方的乘积相加之和, 如果前两部分为0, 那么就是极小值了。 当然,这个过程并不容易。

接下来的推导过程就比较简单了。

其实这个凑平方的方法里面已经蕴含了对上面讲过的几何空间投影最短的代数解释。

2. 代数的极值求导

其实求极值, 最好原始的思想还是来自费马的思想。

费马引理告诉我们:

他和罗尔中值定理, 拉格朗日中值定理都是类似的思想。 但是费马是这个方面的先驱。 根据这些定理, 那么极值和导数为零有着特定条件下的等价关系。

那么就直接求偏导数让目标在每个自由量的方向上的导数都为0:

有了这2个未知量和2个等式, 那么求解过程还是比较直观明了的。

3. 矩阵表示的代数的极值求导

如果把上述过程的开始和结束部分利用矩阵来表示, 那么就是一个矩阵形式了。 所以整个过程可以看成求导是代数形式, 表示是矩阵形式。

上诉两种方法, 要使用导数和极值的关系, 基本上需要大学的知识。

4. 矩阵的极值求导

如果全程是矩阵形式, 那么就是线性代数求导的部分, 需要使用研究生的知识了。

然后再进一步化解, 很容易就得到了矩阵伪逆的形式了。

小结:

这里把回归的最小二乘法和孔乙己的茴香豆一样, 又写了4次, 希望通过这个求解过程的解释, 对最小二乘法的解从线性空间的伪逆,和相关性出发的协方差,有更为深刻的了解。

原文发布于微信公众号 - AI2ML人工智能to机器学习(mloptimization)

原文发表时间:2017-05-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏云时之间

对于多重共线性的简单理解

各位小伙伴们劳动节快乐,利用假期的这几天的时间,在王者荣耀游戏时间之余研究了一下一直困扰我很久的多重共线性,所以今天能够用一篇文章来讲一讲我理解的多重共线性,并...

33670
来自专栏Vamei实验室

概率论06 连续分布

在随机变量中,我提到了连续随机变量。相对于离散随机变量,连续随机变量可以在一个连续区间内取值。比如一个均匀分布,从0到1的区间内取值。一个区间内包含了无穷多个实...

23880
来自专栏AI研习社

干货 | 张宇伦:基于残差密集网络的图像超分辨率(CVPR 2018 亮点论文)

AI 研习社按:图像超分辨率技术作为底层计算机视觉任务,有着广泛的应用场景,比如:手机图像增强,视频监控,医疗影像,卫星图像,低分辨率人脸识别。因此,图像超分辨...

19710
来自专栏机器之心

深度 | 最优解的平坦度与鲁棒性,我们该如何度量模型的泛化能力

29960
来自专栏PPV课数据科学社区

【干货】机器学习常见算法分类汇总

作者|王萌 转自|IT经理网 (www.ctocio.com) 机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法...

29860
来自专栏AI科技评论

干货 | 张宇伦:基于残差密集网络的图像超分辨率(CVPR 2018 亮点论文)| 分享总结

AI 科技评论按:图像超分辨率技术作为底层计算机视觉任务,有着广泛的应用场景,比如:手机图像增强,视频监控,医疗影像,卫星图像,低分辨率人脸识别。因此,图像超分...

21020
来自专栏机器之心

入门 | 一文概览视频目标分割

39380
来自专栏数据科学与人工智能

【陆勤阅读】贝叶斯、概率分布与机器学习

一. 简单的说贝叶斯定理: 贝叶斯定理用数学的方法来解释生活中大家都知道的常识 形式最简单的定理往往是最好的定理,比如说中心极限定理,这样的定理往往会成为某一个...

24460
来自专栏应用案例

机器学习中常见4种学习方法、13种算法和27张速查表!

-免费加入AI技术专家社群>> 机器学习的算法很多。很多时候困惑人们都是,很多算法是一类算法,而有些算法又是从其他算法中延伸出来的。这里,我们从两个方面来给大家...

1.6K70
来自专栏机器学习算法与Python学习

支持向量机(SVM)之Mercer定理与损失函数----5

任何时代,大部分人的研究所得都不过是基于前人的研究成果,前人所做的是开创性工作,而这往往是最艰难最有价值的,他们被称为真正的先驱。牛顿也曾说过,他不过是站在巨人...

1.1K70

扫码关注云+社区

领取腾讯云代金券