我质疑过著名的克利夫兰心脏病数据集将其对象命名为here的方式
此数据集非常不平衡(“无疾病”类的许多对象)。我注意到,使用此数据集的许多论文用于组合所有其他类,并将其简化为二进制分类(疾病与无疾病)。
是否有其他方法来处理这个不平衡的类问题,而不是减少类的数量以获得一个分类器的好结果?
发布于 2019-07-23 13:10:28
一般来说,在处理非平衡数据集时,应该采用无监督的学习方法.
您可以使用多元正态分布。在您的情况下,如果一个类中有许多元素,而另一个类中很少有元素,那么监督学习方法是不合适的。因此,多元正态分布是一种无监督的机器学习方法。该算法从数据中学习并找到定义数据的值(即数据的最重要部分,这里是“无疾病”的情况)。一旦输出这些值,就可以搜索不适合它们的元素,这些元素就是所谓的“异常元素”或“异常元素”。在你的例子中,这些是“疾病”个体。
第二种解决方案是平衡你的数据集,并使用初始的监督学习算法。您可以使用以下技术来做到这一点。这些语句通常都很好,但它们在很大程度上取决于您所拥有的数据(请注意,我无法访问您的输入数据!),所以您应该测试它们,看看哪一个最适合您的目的。
https://stackoverflow.com/questions/57171886
复制相似问题