我有一个不平衡的数据集X。我把它分为数据和标签,然后标准化数据。然后使用train_test_split对训练数据和测试数据进行分割,并输出结果。
现在,我想比较一下,如果我用smote来提升少数类的话,我会得到什么,但是我想保持比较的意义。为了做到这一点,我保留了和以前一样的测试数据,并且我只将新的合成样本添加到训练数据中。我该如何处理标准化工作?
我该不该
我得到了非常不同的结果做这三种技术,什么是最好的方式得到一个有意义的结果和比较?
发布于 2016-07-31 23:48:47
解决方案1和3看起来非常相似,但是当我考虑编程范例时,我会选择1。
将分类看作是一条使用标准化、平衡和分类的大管道,人们不希望在平衡中重新标准化。此外,1中所作的假设是正确的。
以一种实用的方式,您可以使用不平衡API提供的管道来使用学习正规化器
https://datascience.stackexchange.com/questions/12928
复制相似问题