首页
学习
活动
专区
工具
TVP
发布

线性回归

本节介绍最小二乘法回归、主成份回归、正则化回归和偏最小二乘法回归。

针对OLS的问题,在变量选择方面有三种扩展的方法:

(1)子集选择: 这是传统的方法,包括逐步回归和最优子集法等,对可能的部分子集拟合线性模型,利用判别准则 (如AIC,BIC,Cp,调整R2 等)决定最优的模型。

(2)收缩方法(shrinkage method):收缩方法又称为正则化(regularization)。主要是岭回归(ridge regression)和lasso回归。通过对最小二乘估计加入罚约束,使某些系数的估计为0。

(3)维数缩减:主成分回归(PCR)和偏最小二乘回归(PLS)。把p个预测变量投影到m维空间(m

一、最小二乘法回归

左图为零模型:预测值为均值,误差记为SSt

中间图为最小二乘法模型:预测值与原值的平方和最小,误差记为SSr

右图为两模型的差:SSm=SSt-SSr

利用方差分析ANOVA,可以判断两模型的差异是否有统计意义 即F=SSm(坏模型-好模型)/SSr(好模型)

而回归系数的统计学意义,就是通过T检验,判读系数与0相等的原假设是否成立

二、主成份回归

利用pca降维后的数据进行回归

最大方差理论

对于高维:最好的K维特征是将N维样本点转换到K维后,每一维上的样本方差都很大

对于二维:如左图中红点投射到蓝线上量,原点至蓝点的方差最大

右图显示了二维降至一维时,P1是好的投影(绿点所在直线),符合最大方差理论,而P2是坏的投影(红点所在直线),蓝点为原始点。

三、正则化回归

1.1正则化

正则化转化为数学问题就是求解两个最小化目标函数

一是为了更好地拟合训练数据,由最小二乘法要求预测值与原值的平方和最小得来,对应代价函数

二是为了保持系数值为0(L1范数)或约等于0(L2范数),对应正则化项

L1范数的正则项最小时,可以使得每个变量的系数都等于0

L2范数的正则项最小时,可以使得每个变量的系数都很小,都接近于0

λ的作用就是为了平衡好两个不同的目标的关系

1.2正则化辅助理解图

我们假如对θ3和θ4进行正则化,λ=1000时。新的代价函数如上所示,所以,当我们最小化这个新的代价函数时,我们将使θ3的值等于0或接近于0,同样θ4的值也等于0或接近于0,就像我们忽略了这两个值一样。如果我们做到这一点(θ3和θ4接近0),那么我们将得到一个近似的二次函数。

1.3梯度下降法

而梯度下降法是求解正则化回归系数θ的实现方法

四、偏最小二乘法回归

PLSR是一种多因变量Y对多自变量X的回归建模方法,该算法在建立回归的过程中,既考虑了尽量提取Y和X中的主成分(PCA—Principal Component Analysis,主成分分析的思想),又考虑了使分别从X和Y提取出的主成分之间的相关性最大化(CCA的思想)。简单的说,PLSR是PCA、CCA和多元线性回归这三种基本算法组合的产物。下面将进一步探讨PLSR的算法原理。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180204G0D7V800?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券