首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何使用机器学习模型(或其特征系数)来解释这些特性是否与特定类相关?

如何使用机器学习模型(或其特征系数)来解释这些特性是否与特定类相关?
EN

Stack Overflow用户
提问于 2015-04-22 13:44:43
回答 1查看 1K关注 0票数 1

我有一个数据集的特点,如教育,经验,月加入等,我的预测是一个人是否接受邀请。我用sk-学习支持向量机、随机森林等建立了一些模型。我的目标是了解哪些特征在决定人是否加入的过程中起着至关重要的作用。我认为这是一个分类问题。

在创建模型之后,我获得了model.coeffc_ (如sklearn ),它给出了每个特性的系数值。假设12月我得到0.0028,我怎么能解释这个月对一个人是否加入有影响。它可能会影响,加入的人,比拒绝更多。有可能,对吧?那么,每个特性的这些系数值如何确定类(特别是哪个类)?

在回归中,我们可以说,12月份的0.028值对价值的增长有影响,而-0.028对价值的降低有影响。但是,这个想法怎么能被用来分类呢?请给我一些有价值的见解。

EN

Stack Overflow用户

发布于 2015-04-22 15:38:21

回归和分类之间没有很大的区别。正值总是与越来越多的被分类为正类的可能性相关,而负值则可能成为负样本(我假设所有的特性都是正的,否则就失去了的任何意义)。但是要小心,在分类和回归中,如果一个权重大于另一个权重,那么一个特性就是更重要的,这不是真正的。影响这一行为的因素很多,特别是特征值的尺度、方差、广义特征值的分布。

总之。如果您的特性是正值,则特性的符号显示与哪个类的thich特性更相关。线性模型(如线性支持向量机,而不是RF)的一般分类步骤是:

代码语言:javascript
运行
复制
cl(x) = sign( SUM_i coef_i x_i )

所以你可以看到,如果x_i是正的,那么coef_i的符号要么上升(对于正的),要么降低(负的) cl(x) = 1的几率。但是,如果有coef_1 = 1coef_2=180,并不意味着第二个特征更重要,这可能是因为第二个特征值很小,例如,特征1可能是以厘米为单位的人的身高(例如180厘米),而另一个特征是二进制的(0或1),所以

代码语言:javascript
运行
复制
x_1 * coef_1 = 180 * 1 = 180 = 1 * 180 = x_2 * coef_2

每个特征的实际重要性是机器学习社区中的一个研究领域,称为“特征重要性”或“特征选择方法”。这样的方法有几十种,但没有一种是“最好的”。

票数 2
EN
查看全部 1 条回答
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/29799524

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档