本节介绍最小二乘法回归、主成份回归、正则化回归和偏最小二乘法回归。
针对OLS的问题,在变量选择方面有三种扩展的方法:
(1)子集选择: 这是传统的方法,包括逐步回归和最优子集法等,对可能的部分子集拟合线性模型,利用判别准则 (如AIC,BIC,Cp,调整R2 等)决定最优的模型。
(2)收缩方法(shrinkage method):收缩方法又称为正则化(regularization)。主要是岭回归(ridge regression)和lasso回归。通过对最小二乘估计加入罚约束,使某些系数的估计为0。
(3)维数缩减:主成分回归(PCR)和偏最小二乘回归(PLS)。把p个预测变量投影到m维空间(m
一、最小二乘法回归
左图为零模型:预测值为均值,误差记为SSt
中间图为最小二乘法模型:预测值与原值的平方和最小,误差记为SSr
右图为两模型的差:SSm=SSt-SSr
利用方差分析ANOVA,可以判断两模型的差异是否有统计意义 即F=SSm(坏模型-好模型)/SSr(好模型)
而回归系数的统计学意义,就是通过T检验,判读系数与0相等的原假设是否成立
二、主成份回归
利用pca降维后的数据进行回归
最大方差理论
对于高维:最好的K维特征是将N维样本点转换到K维后,每一维上的样本方差都很大
对于二维:如左图中红点投射到蓝线上量,原点至蓝点的方差最大
右图显示了二维降至一维时,P1是好的投影(绿点所在直线),符合最大方差理论,而P2是坏的投影(红点所在直线),蓝点为原始点。
三、正则化回归
1.1正则化
正则化转化为数学问题就是求解两个最小化目标函数
一是为了更好地拟合训练数据,由最小二乘法要求预测值与原值的平方和最小得来,对应代价函数
二是为了保持系数值为0(L1范数)或约等于0(L2范数),对应正则化项
L1范数的正则项最小时,可以使得每个变量的系数都等于0
L2范数的正则项最小时,可以使得每个变量的系数都很小,都接近于0
λ的作用就是为了平衡好两个不同的目标的关系
1.2正则化辅助理解图
我们假如对θ3和θ4进行正则化,λ=1000时。新的代价函数如上所示,所以,当我们最小化这个新的代价函数时,我们将使θ3的值等于0或接近于0,同样θ4的值也等于0或接近于0,就像我们忽略了这两个值一样。如果我们做到这一点(θ3和θ4接近0),那么我们将得到一个近似的二次函数。
1.3梯度下降法
而梯度下降法是求解正则化回归系数θ的实现方法
四、偏最小二乘法回归
PLSR是一种多因变量Y对多自变量X的回归建模方法,该算法在建立回归的过程中,既考虑了尽量提取Y和X中的主成分(PCA—Principal Component Analysis,主成分分析的思想),又考虑了使分别从X和Y提取出的主成分之间的相关性最大化(CCA的思想)。简单的说,PLSR是PCA、CCA和多元线性回归这三种基本算法组合的产物。下面将进一步探讨PLSR的算法原理。
领取专属 10元无门槛券
私享最新 技术干货