我有9个类组成的不平衡数据,我计划将它们合并成两个类。我根据这九个班在测试、验证和训练集之间进行分层(比例)抽样。现在,当我对训练数据进行过采样时,是在折叠前对这九个类进行过采样,还是应该先折叠它们,然后再过采样?
一般来说,我相信过度抽样然后崩溃会更好,但培训数据中的一些课程很小(5例),而另一些则相当大(1000例)。因此,我将重复对同一5种情况- 1,000例-进行抽样,这似乎很奇怪。另一方面,如果我崩溃然后过度采样,那么最小的类很有可能甚至不会被重放。
有什么建议吗?谢谢!
发布于 2023-02-08 16:07:31
首先,欢迎来到数据科学堆栈交换。关于是否在减少班级数量之前或之后执行少数群体抽样的问题:好问题。
通过之前的过度抽样,您将确保在这九个类的上下文中,每个类是平衡的。然后,通过将它们分解成两个类,我们可能会再次造成阶级不平衡。因此,我的总体建议是先分解为两个类别,然后对数据进行少数群体过度抽样,使样本最少的类获得更多的人工示例,以等于多数类的数量。
https://datascience.stackexchange.com/questions/118385
复制相似问题