首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何计算具有虚拟变量的随机森林和Logistic回归最重要的特征?

如何计算具有虚拟变量的随机森林和Logistic回归最重要的特征?
EN

Stack Overflow用户
提问于 2022-09-09 01:37:00
回答 1查看 24关注 0票数 0

我的df有很多分类变量,所以我使用了

pd.get_dummies()

能够训练我的Random ForestLogistic Regression模型。一切都很好,然后我问自己:哪些组件对模型预测影响最大?我考虑使用PCA,但我有虚拟二进制变量,所以我不知道它是否具有可解释性,因为我有很多变量是虚拟的。我还试着用

RF.feature_importances_

但这是一样的;我只有数千列的数据,每个列的影响很小,失去了数据的可解释性。有什么方法来计算每个变量的重要性吗?我见过一些关于堆叠溢出的讨论。一些人说PCA可以使用,另一些人说它失去了可解释性。我不寻找提出方法的文件。如果有解决方案,我希望在python中使用它。

EN

回答 1

Stack Overflow用户

发布于 2022-09-09 03:05:38

一般来说,我会非常小心地传递特性敏感性的意义(经典的相关性不是因果论),但是一个主要的问题是您的类别是一个热点编码和扩展,所以您需要把它们拿回来。如何做到这一点在一定程度上取决于数据,以及您是否试图获得整个类别的重要性或跨类别出现的标签的重要性。

我不能写任何代码,因为你没有给出任何代码。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/73656495

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档