线性回归

文章来源：企鹅号 - OpeSource

本节介绍最小二乘法回归、主成份回归、正则化回归和偏最小二乘法回归。

针对OLS的问题，在变量选择方面有三种扩展的方法：

（1）子集选择：这是传统的方法，包括逐步回归和最优子集法等，对可能的部分子集拟合线性模型，利用判别准则（如AIC,BIC,Cp,调整R2 等）决定最优的模型。

（2）收缩方法（shrinkage method）：收缩方法又称为正则化（regularization）。主要是岭回归（ridge regression）和lasso回归。通过对最小二乘估计加入罚约束，使某些系数的估计为0。

（3）维数缩减：主成分回归（PCR）和偏最小二乘回归（PLS）。把p个预测变量投影到m维空间(m

一、最小二乘法回归

左图为零模型:预测值为均值，误差记为SSt

中间图为最小二乘法模型：预测值与原值的平方和最小，误差记为SSr

右图为两模型的差：SSm=SSt-SSr

利用方差分析ANOVA，可以判断两模型的差异是否有统计意义即F=SSm(坏模型-好模型)/SSr(好模型)

而回归系数的统计学意义，就是通过T检验，判读系数与0相等的原假设是否成立

二、主成份回归

利用pca降维后的数据进行回归

最大方差理论

对于高维：最好的K维特征是将N维样本点转换到K维后，每一维上的样本方差都很大

对于二维：如左图中红点投射到蓝线上量，原点至蓝点的方差最大

右图显示了二维降至一维时，P1是好的投影（绿点所在直线），符合最大方差理论，而P2是坏的投影（红点所在直线），蓝点为原始点。

三、正则化回归

1.1正则化

正则化转化为数学问题就是求解两个最小化目标函数

一是为了更好地拟合训练数据，由最小二乘法要求预测值与原值的平方和最小得来，对应代价函数

二是为了保持系数值为0（L1范数）或约等于0（L2范数），对应正则化项

L1范数的正则项最小时，可以使得每个变量的系数都等于0

L2范数的正则项最小时，可以使得每个变量的系数都很小，都接近于0

λ的作用就是为了平衡好两个不同的目标的关系

1.2正则化辅助理解图

我们假如对θ3和θ4进行正则化，λ=1000时。新的代价函数如上所示，所以，当我们最小化这个新的代价函数时，我们将使θ3的值等于0或接近于0，同样θ4的值也等于0或接近于0，就像我们忽略了这两个值一样。如果我们做到这一点（θ3和θ4接近0），那么我们将得到一个近似的二次函数。

1.3梯度下降法

而梯度下降法是求解正则化回归系数θ的实现方法

四、偏最小二乘法回归

PLSR是一种多因变量Y对多自变量X的回归建模方法，该算法在建立回归的过程中，既考虑了尽量提取Y和X中的主成分（PCA—Principal Component Analysis，主成分分析的思想），又考虑了使分别从X和Y提取出的主成分之间的相关性最大化（CCA的思想）。简单的说，PLSR是PCA、CCA和多元线性回归这三种基本算法组合的产物。下面将进一步探讨PLSR的算法原理。

发表于: 2018-02-042018-02-04 12:26:21
原文链接：http://kuaibao.qq.com/s/20180204G0D7V800?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

线性回归

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐