首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >关于折叠变量和过采样少数类的问题

关于折叠变量和过采样少数类的问题
EN

Data Science用户
提问于 2023-02-08 15:32:07
回答 1查看 21关注 0票数 0

我有9个类组成的不平衡数据,我计划将它们合并成两个类。我根据这九个班在测试、验证和训练集之间进行分层(比例)抽样。现在,当我对训练数据进行过采样时,是在折叠前对这九个类进行过采样,还是应该先折叠它们,然后再过采样?

一般来说,我相信过度抽样然后崩溃会更好,但培训数据中的一些课程很小(5例),而另一些则相当大(1000例)。因此,我将重复对同一5种情况- 1,000例-进行抽样,这似乎很奇怪。另一方面,如果我崩溃然后过度采样,那么最小的类很有可能甚至不会被重放。

有什么建议吗?谢谢!

EN

回答 1

Data Science用户

发布于 2023-02-08 16:07:31

首先,欢迎来到数据科学堆栈交换。关于是否在减少班级数量之前或之后执行少数群体抽样的问题:好问题。

通过之前的过度抽样,您将确保在这九个类的上下文中,每个类是平衡的。然后,通过将它们分解成两个类,我们可能会再次造成阶级不平衡。因此,我的总体建议是先分解为两个类别,然后对数据进行少数群体过度抽样,使样本最少的类获得更多的人工示例,以等于多数类的数量。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/118385

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档