多元线性回归
多元线性回归存在的问题
给出自变量、因变量和误差项的实例数据,假设 现在不知道回归方程中的参数,运用最小二乘法求解三个参数,得出 β=11.292,β1=11.307,β2=-6.591,这与原参数天差地别。。。
岭回归
当X的某些列之间的线性相关性比较大时,
的行列式接近于0,也就是接近奇异, 当
接近奇异矩阵时,计算
的 逆 误差会很大,怎么办呢。
—–随着k的增大,B(k)中各元素bi(k)的绝对值均趋于不断变小,它们相对于正确值bi的偏差也越来越大。k趋于无穷大时,B(k)趋于0。b(k)随k的改变而变化的轨迹,就称为岭迹。实际计算中可选非常多的k值,做出一个岭迹图,看看这个图在取哪个值的时候变稳定了,那就确定k值了。
附:岭回归选择变量的原则: (1)在岭回归中设计矩阵X已经中心化和标准化了,这样可以直接比较标准化岭回归系数癿大小。可以剔除掉标准化岭回归系数比较稳定且绝对值很小癿自变量。 (2)随着k癿增加,回归系数丌稳定,震动趋于零癿自变量也可以剔除。 (3)如果依照上述去掉变量癿原则,有若干个回归系数丌稳定,究竟去掉几个,去掉哪几个,这幵无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析癿效果来确定。
岭回归运用实例(摘自 炼数成金):
由图中看出,当k=0.20时岭迹大体上达到稳定。按照岭迹法,应取k=0.2。
ps.岭回归和lasso都涉及到了惩罚函数的问题,现在还不是太明白,等整明白之后再补充。 . ..其实做现在做回归分析一般都不需要亲自动手计算了,不管是matlab还是R语言,都提供了对回归分析很好的支持,(对两者我都属于大白菜一个,所以暂时不能贴出具体的操作代码和效果图了,希望以后可以补全)亦然能踩着巨人的肩膀走的更快,那为什么不呢。。。