首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >VIF,共线相关性理解「建议收藏」

VIF,共线相关性理解「建议收藏」

作者头像
全栈程序员站长
发布2022-09-01 15:19:14
发布2022-09-01 15:19:14
1.6K0
举报

大家好,又见面了,我是你们的朋友全栈君。

多重共线性是指在变量空间中,存在自变量可以近似地等于其他自变量的线性组合

如果将所有自变量用于线性回归或逻辑回归的建模,将导致模型系数不能准确表达自变量对Y的影响。

比如:如果X1和X2近似相等,则模型Y = X1 + X2 可能被拟合成Y = 3 X1 – X2,原来 X2 与 Y 正向相关被错误拟合成负相关,导致模型没法在业务上得到解释。

在评分卡建模中,可能将很多相关性很高的变量加入到建模自变量中,最终得到的模型如果用变量系数去解释自变量与目标变量的关系是不合适的。

相关矩阵是指由样本的相关系数组成的矩阵,自变量相关系数过大意味着存在共线性,同时会导致信息冗余,维度增加。

设置相关系数的阈值,当大于threshold时,删除IV值较小的变量。

VIF(variance inflation factors)VIF =1/(1-R^2) 式中,R^2是以xj为因变量时对其它自变量回归的复测定系数。

VIF越大,该变量与其他的变量的关系越高,多重共线性越严重。如果所有变量最大的VIF超过10,删除最大VIF的变量。

参考:

多重共线性:python中利用statsmodels计算VIF和相关系数消除共线性_ab1112221212的博客-CSDN博客

https://www.cnblogs.com/wqbin/p/11109650.html(可决系数)

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/141970.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022年5月2,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档