首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何处理分类中样本数量不均匀的问题?

如何处理分类中样本数量不均匀的问题?
EN

Stack Overflow用户
提问于 2018-09-29 04:41:28
回答 1查看 100关注 0票数 0

假设我们有2标签: 01

带有标签0的数据编号是1000,而使用标签1的数据只是100

在这种情况下,对分类的训练将是对标签0的偏差

在这种情况下可以做些什么?

可以手动生成样本与标签1对应的吗?

如果我们可以这样做,如何通过properties/characteristics验证生成的样本是否与原始数据具有相同的properties/characteristics

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-09-29 05:02:35

这个圆锥花序。这是一种名为SMOTE的方法,它代表合成少数群体过采样技术.基本上,如果你有像这样分布的数据(少量红色点,更多绿色点):

你围绕现有样本合成新样本:

这种方法是常用的方法之一,在上面链接的文章中有更详细的描述。还有其他更简单的方法,比如从多数类中删除一些数据点,或者复制少数类中的一些方法。

这些照片是从这篇文章中取下来的。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52565174

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档