我正在使用"House Sales in King County“数据集,比较线性回归、岭和套索的系数。
我首先进行训练/测试拆分,然后标准化数据,然后训练三个模型并比较系数。对于大多数训练/测试拆分随机种子,三个模型的系数在相同的尺度上,我可以比较它们。但是对于一些随机的种子,一些线性回归的系数“爆炸”,从大约10^4-10^5的值跳到大约10^18。
这只发生在线性回归模型中的几个系数上,脊线和套索的系数不受影响。
我不确定为什么会发生这种情况,有什么建议或建议吗?
发布于 2020-09-24 19:06:19
愚蠢的我,“爆炸”是由于多重共线性。我在其中有以下变量:
的basement
显然,sqft_living = sqft_above + sqft_below。多重共线性导致这3个变量的系数非常不稳定。这就是为什么添加正则化会有所帮助。
关于多重共线性的危险的很好的警示故事!
https://stackoverflow.com/questions/64026902
复制相似问题