如果您有一个包含不同类的实例的培训集,并且它是高度不平衡的。你会用什么策略来平衡它?
关于现实世界人口的信息:7类,其中最小的占5%。
关于训练集的信息:频率与人群频率相差很大。
以下是两种选择:
有了偏见,我打算像击打或成本敏感的分类。
我不确定该遵循哪种策略。我也愿意听取其他建议。你如何评价这一战略的成功?
发布于 2013-05-17 08:20:11
正如您所提到的,对于培训,您有两个选择。或者平衡你的数据集(如果你有大量的数据和/或少量的特性,那么扔掉一些样本不会影响学习),或者根据不同的班级使用不同的权重。后者通常很简单,但取决于您选择的方法和库。
一旦你接受了分类器的训练(在你的训练集之前),你可以很容易地更新预测概率,如果你的前科改变(在训练和人口中的不同频率)。有一个很好的概览,如何替换先前的信息,这比我在短文章中解释得更好。看一看组合概率,第3节(替换先前的信息)。
https://stackoverflow.com/questions/16600993
复制相似问题