首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >克利夫兰数据集分类的平衡问题

克利夫兰数据集分类的平衡问题
EN

Stack Overflow用户
提问于 2019-07-23 20:41:55
回答 1查看 72关注 0票数 0

我质疑过著名的克利夫兰心脏病数据集将其对象命名为here的方式

此数据集非常不平衡(“无疾病”类的许多对象)。我注意到,使用此数据集的许多论文用于组合所有其他类,并将其简化为二进制分类(疾病与无疾病)。

是否有其他方法来处理这个不平衡的类问题,而不是减少类的数量以获得一个分类器的好结果?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-07-23 21:10:28

一般来说,在处理非平衡数据集时,应该采用无监督的学习方法.

您可以使用多元正态分布。在您的情况下,如果一个类中有许多元素,而另一个类中很少有元素,那么监督学习方法是不合适的。因此,多元正态分布是一种无监督的机器学习方法。该算法从数据中学习并找到定义数据的值(即数据的最重要部分,这里是“无疾病”的情况)。一旦输出这些值,就可以搜索不适合它们的元素,这些元素就是所谓的“异常元素”或“异常元素”。在你的例子中,这些是“疾病”个体。

第二种解决方案是平衡你的数据集,并使用初始的监督学习算法。您可以使用以下技术来做到这一点。这些语句通常都很好,但它们在很大程度上取决于您所拥有的数据(请注意,我无法访问您的输入数据!),所以您应该测试它们,看看哪一个最适合您的目的。

  1. 用几个元素为类收集更多的元素。
  2. 用较少的元素复制类中的元素,以便为两个类获取相同数量的数据,就像对于具有更多数组的类一样。这个解决方案有一个问题,在两个类之间输入数据量有很大差异的情况下,您使用了一个神经网络,因为具有重复元素的类不会有很大的变量,而神经网络只有在使用大量变量数据进行训练时才能提供良好的结果。
  3. 在类中使用较少的数据,以便使两个类中的元素数量与类中的元素数相同。在这里,使用神经网络也可能会出现问题,因为用较少的数据进行训练可能不会带来好的效果。也要小心,以便有更多的输入元素,而不是功能,否则它将无法工作。
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/57171886

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档