文章/答案/技术大牛

发布

社区首页 >问答首页 >如何处理分类中样本数量不均匀的问题？

问如何处理分类中样本数量不均匀的问题？
EN

Stack Overflow用户

提问于 2018-09-29 04:41:28

回答 1查看 100关注 0票数 0

假设我们有2标签: 0和1。

带有标签0的数据编号是1000，而使用标签1的数据只是100。

在这种情况下，对分类的训练将是对标签0的偏差。

在这种情况下可以做些什么？

可以手动生成样本与标签1对应的吗？

如果我们可以这样做，如何通过properties/characteristics验证生成的样本是否与原始数据具有相同的properties/characteristics？

classification

sample

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-09-29 05:02:35

见这个圆锥花序。这是一种名为SMOTE的方法，它代表合成少数群体过采样技术.基本上，如果你有像这样分布的数据(少量红色点，更多绿色点)：

你围绕现有样本合成新样本：

这种方法是常用的方法之一，在上面链接的文章中有更详细的描述。还有其他更简单的方法，比如从多数类中删除一些数据点，或者复制少数类中的一些方法。

这些照片是从这篇文章中取下来的。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/52565174

复制

相似问题

问如何处理分类中样本数量不均匀的问题？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何处理分类中样本数量不均匀的问题？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何处理分类中样本数量不均匀的问题？
EN