首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >训练集平衡策略

训练集平衡策略
EN

Stack Overflow用户
提问于 2013-05-17 03:36:11
回答 1查看 513关注 0票数 0

如果您有一个包含不同类的实例的培训集,并且它是高度不平衡的。你会用什么策略来平衡它?

关于现实世界人口的信息:7类,其中最小的占5%。

关于训练集的信息:频率与人群频率相差很大。

以下是两种选择:

  • 把它偏向于人群的等级频率。
  • 把它偏向于均匀分布。

有了偏见,我打算像击打或成本敏感的分类。

我不确定该遵循哪种策略。我也愿意听取其他建议。你如何评价这一战略的成功?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-05-17 08:20:11

正如您所提到的,对于培训,您有两个选择。或者平衡你的数据集(如果你有大量的数据和/或少量的特性,那么扔掉一些样本不会影响学习),或者根据不同的班级使用不同的权重。后者通常很简单,但取决于您选择的方法和库。

一旦你接受了分类器的训练(在你的训练集之前),你可以很容易地更新预测概率,如果你的前科改变(在训练和人口中的不同频率)。有一个很好的概览,如何替换先前的信息,这比我在短文章中解释得更好。看一看组合概率,第3节(替换先前的信息)。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/16600993

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档