首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >阶级不平衡策略

阶级不平衡策略
EN

Data Science用户
提问于 2018-06-15 07:29:49
回答 1查看 115关注 0票数 3

在处理二进制分类器中的类不平衡问题时,我知道有三种解决方法:过采样、欠采样和使用成本敏感的方法。

在这些方法中是否有任何准则、经验规则或一般策略可供选择?一个可能的答案是:当正数类有超过100个实例时(我刚刚编出来),就会出现过抽样。

EN

回答 1

Data Science用户

发布于 2018-06-22 13:12:23

这类方法很难有一个通用的规则,它们严重依赖于手头的数据。您应该了解每种方法的优缺点,尝试所有方法,看看哪些方法在验证集上表现最好。记住:

  • 过采样次数较少的类会在数据中带来大量重复,因为您只是复制了观察结果。
  • 采样不足可能是不好的,因为您在最频繁的类中丢弃信息,因此可能会丢失性能。

混合方法的性能往往优于两者,参见击打玫瑰

例如,SMOTE从少数类(从真实样本中派生的合成观测)生成新信息,也从多数类样本下生成新信息(您选择两者的最终比率)。

同样,您需要测试数据的最佳解决方案。

票数 4
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/33188

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档