假设我们有2标签: 0和1。
带有标签0的数据编号是1000,而使用标签1的数据只是100。
在这种情况下,对分类的训练将是对标签0的偏差。
在这种情况下可以做些什么?
可以手动生成样本与标签1对应的吗?
如果我们可以这样做,如何通过properties/characteristics验证生成的样本是否与原始数据具有相同的properties/characteristics?
发布于 2018-09-29 05:02:35
见这个圆锥花序。这是一种名为SMOTE的方法,它代表合成少数群体过采样技术.基本上,如果你有像这样分布的数据(少量红色点,更多绿色点):

你围绕现有样本合成新样本:

这种方法是常用的方法之一,在上面链接的文章中有更详细的描述。还有其他更简单的方法,比如从多数类中删除一些数据点,或者复制少数类中的一些方法。
这些照片是从这篇文章中取下来的。
https://stackoverflow.com/questions/52565174
复制相似问题