在处理二进制分类器中的类不平衡问题时,我知道有三种解决方法:过采样、欠采样和使用成本敏感的方法。
在这些方法中是否有任何准则、经验规则或一般策略可供选择?一个可能的答案是:当正数类有超过100个实例时(我刚刚编出来),就会出现过抽样。
发布于 2018-06-22 13:12:23
这类方法很难有一个通用的规则,它们严重依赖于手头的数据。您应该了解每种方法的优缺点,尝试所有方法,看看哪些方法在验证集上表现最好。记住:
混合方法的性能往往优于两者,参见击打或玫瑰。
例如,SMOTE从少数类(从真实样本中派生的合成观测)生成新信息,也从多数类样本下生成新信息(您选择两者的最终比率)。
同样,您需要测试数据的最佳解决方案。
https://datascience.stackexchange.com/questions/33188
相似问题