如何在机器学习数据集中打击不平衡的类

在机器学习数据集中打击不平衡的类是一个常见的问题，可以通过以下几种方法来解决：

重采样方法：通过增加少数类样本或减少多数类样本来平衡数据集。常见的重采样方法包括欠采样和过采样。欠采样是随机删除多数类样本，使其数量与少数类样本相当。过采样是通过复制或生成新的少数类样本来增加其数量。腾讯云提供的相关产品是数据增强工具包，可以用于生成新的样本数据。
类别权重调整：通过为不平衡的类别分配不同的权重，使得模型更关注少数类样本。在训练模型时，可以使用加权损失函数或样本权重来实现。腾讯云提供的相关产品是深度学习工具包，可以用于模型训练和调整权重。
集成方法：通过组合多个分类器的预测结果来提高模型性能。常见的集成方法包括投票法、平均法和堆叠法。腾讯云提供的相关产品是模型集成工具包，可以用于构建集成模型。
生成合成样本：通过生成合成的少数类样本来增加其数量。常见的生成方法包括SMOTE（Synthetic Minority Over-sampling Technique）和ADASYN（Adaptive Synthetic Sampling）。这些方法通过在少数类样本之间进行插值来生成新的合成样本。腾讯云提供的相关产品是数据增强工具包，可以用于生成合成样本。
特征选择和提取：通过选择和提取与少数类样本相关的特征，提高模型对少数类样本的识别能力。常见的特征选择和提取方法包括卡方检验、信息增益和主成分分析。腾讯云提供的相关产品是特征选择和提取工具包，可以用于选择和提取相关特征。

以上是一些常见的方法来解决机器学习数据集中不平衡类的问题。具体选择哪种方法取决于数据集的特点和需求。腾讯云提供了一系列相关产品和工具包，可以帮助用户解决不平衡类问题，并提供了相应的产品介绍链接地址供参考。

不平衡数据集的定义是什么？

、

我有数千个数据源，从类似类型的硬件中生成数据。然而，不同的来源在数据集中产生了不同的动态！尽管这些特性是相同的，但是数据集具有非常不同的特性。我正在研究一个多类分类问题，试图了解可以使用多少特定的模型来处理该领域。不同数据源上的类数不同，因此需要建立不同的模型。这意味着，在最后，我有许多不同的模型要评估。类似的输入，但在输出时要预测的类数是不同的。由于这是一个多类分类问题，所以使用了混淆矩阵和多条ROC曲线。现在，我正试图在更多的细节中，看看在最糟糕的模型中，是什么导致了糟糕的表现。通常的原因是:1.测量不够；2.严重不平衡的数据集；3. 1和2的组合问题是，对于多类问题(什么是不

浏览 0提问于2019-12-09得票数 3

3回答

Smote无法进行过采样

我刚刚使用DMwR包中包含的Smote在我的数据集中进行了过采样。我的数据集由两个类组成。最初的分布是12比62。因此，我对过采样进行了编码： newData <- SMOTE(Score ~ ., data, k=3, perc.over = 400,perc.under=150) 现在，分布是60对72。然而，当我显示'newData‘数据集时，我发现SMOTE是如何进行过采样的，并且有一些样本是重复的。例如，样本号24显示为24.1、24.2和24.3。这是正确的吗？这直接影响到分类，因为分类器将学习包含测试中出现的数据的模型，因此这在分类中是不合法的。编辑:我想

浏览 5提问于2014-06-08得票数 2

2回答

我应该重新整理数据集吗？

、

我拥有的数据集是由路径名组成的一些文本数据。我正在使用TF-国防军向量器和决策树。数据集中的类严重不平衡。有几个大类的样本数超过500个，而其他一些小类的样本数少于100个。有些甚至更小(不到20)。这是实际收集的数据，因此模型在实际实现中看到次要类的可能性也很小。我现在遇到的问题是，模型大部分时间预测小班为主修班，使我的准确率一直在45%左右。如果我重新整理数据，我认为由于模型学习主修班的能力降低，准确性会更差。因此，我想问一问，我是否应该考虑重新整理我的数据，或有人对如何提高我的模型的准确性有任何建议？任何帮助都是非常感谢的。

浏览 0提问于2021-07-14得票数 0

1回答

基于过去值和未来值的每个时间序列步骤的二进制分类

、、、

我目前正面临一个机器学习问题，我已经到了需要一些帮助才能继续工作的地步。我有各种时间序列的位置(x，y，z)数据跟踪传感器。我开发了更多的功能。例如，我对整个3D空间进行了栅格化，并计算了每个时间步骤的cell_x、cell_y和cell_z。时间序列本身具有可变的长度。我的目标是建立一个模型，用标签0或1 (基于过去和未来值的二进制分类)对每个时间步骤进行分类。因此，我有很多培训时间序列，其中标签已经设置。有一件事可能很成问题，那就是数据中很少有1's标签(例如，800个样本中只有3个用1标记)。如果有人能在正确的方向上帮助我，那就太好了，因为有太多可能的问题：错误的超参数

浏览 0提问于2018-05-08得票数 9

4回答

不平衡数据集分类的训练、测试分割

、、

我有一个做二进制分类的模型。我的数据集是高度不平衡的，所以我认为在训练模型之前，我应该用不适当的抽样来平衡它。因此，平衡数据集，然后随机分割它。这条路对吗？还是应该平衡测试和训练数据集？我只试着平衡整个数据集，我获得了80%的训练精度，但是在测试集上，我得到了30%的准确率。这看起来不对？但我也不认为我应该平衡测试集，因为它可以被认为是偏见。怎样才是正确的方法？谢谢更新:我有40万个样本，10%是1s，90%是0。我无法获得更多的数据。我试着保存整个数据集，但我不知道如何将其分割成训练集和测试集。在列车和测试数据集中是否需要相同的分布？

浏览 0提问于2018-06-08得票数 20

回答已采纳

1回答

数据少、稀疏、不平衡时的特征选择

、、、

当我有较少、稀疏和不平衡的数据时，有什么方法来选择这些特性吗？大约90%的样本是顺序的，10%是数值的。特征数量:200个样本数:约1000个

浏览 1提问于2017-02-01得票数 0

2回答

机器学习分类问题中如何处理小而不平衡的数据集

、、

我正在处理一个非常具有挑战性的分类问题，其中我有三个问题:一个小的数据集(大约800个样本)，不平衡的数据集(4个类，每个类有1-600个样本，2/3/4-50个样本)，以及其中一个特征中缺少的数据。我一直在考虑的一些事情：生成合成数据，例如使用SMOTE (合成少数群体过采样技术). 将这一分类转变为少数群体和多数群体之间的二元分类。结合不同的分类器，给负样本更多的权重(万一我变成二进制分类器)。通过在成本函数中应用特定的权重进行成本敏感的学习(有点类似于前面的，但使用了所有4个类)。我打算作为分类器，朴素贝叶斯，支持向量机，随机森林和神经网络和2倍交叉验证

浏览 4提问于2015-11-19得票数 4

2回答

多分类模型中的抽样大小是否重要？

、、、、

我正在研究一个多类分类模型，其中很少有类与其他类相比拥有更少的数据。我使用随机抽样技术从人口中创建一个样本，使每个类别的比例与人口的比例相等。例如，A类在总体中有400条记录，B类在总体中有100条记录，然后在进行随机抽样时，我正在创建一个样本，其中A类和B类的记录比例为4:1。我观察到的趋势是通过改变某一类的样本大小(保持类间比例不变)，导致模型性能(准确性、精确性、召回性)发生变化。无论样本大小如何，我需要应用什么技术才能使我的模型稳定？

浏览 0提问于2019-11-27得票数 3

1回答

具有不平衡类的Tensorflow Resnet

、、、、

我使用Resnet和Tensorflow来训练一个有20个类的模型。我的问题是，我有6-7个班级，有很多样本，大约有相同数量的班级，有中等数量的样本，其余的班级有很少的样本。有了这个给定的分布，我的模型有太强的趋势来预测具有较大样本的类别而不是较小的样本。我试图通过减少大班级的样本数量来平衡我的班级，这有助于在预测期间给小班级留出一席之地，但现在我已经到了一个点，我无法提高我的模型超过90%的准确率，我觉得在大班级中削减样本会丢失很多有价值的信息。所以，在我去买更多的样本之前，我想知道是否有一种方法来处理不平衡的类，该模型的逻辑变得非常好，可以识别较大的类是否存在(因为它有太多的样本，所以

浏览 3提问于2020-01-04得票数 1

3回答

列车组和测试组的不平衡数据

、、、

我已经有两个数据集了。一个用于训练，另一个用于测试。这两个数据集都是不平衡的(百分比相似)，大约有90%的标签1。如果测试集是非常不平衡的，那么平衡数据会有用吗？标签0的实例(即10%)仍然足够。如果有必要的话，我最终会使用过度抽样。我的是一个tripAdvisor审查数据集，在这种情况下最好的技术是什么？有没有使用过采样和过采样的混合技术？还是没什么意义？

浏览 0提问于2023-03-08得票数 2

1回答

非图像数据增强

、、

我正在寻找关于数据增强的算法和教程，但它们都属于图像增强，是否可以在其他数据集中做到这一点？我正在研究帕金森数据集(https://archive.ics.uci.edu/ml/datasets/parkinsons)，我想用python创建一个数据aug的例子，这可能吗？或者我应该像mnist/fmnist一样使用smt？

浏览 54提问于2020-03-16得票数 1

回答已采纳

1回答

Keras不对称数据糖尿病视网膜病变的检测

、、、

我正试图为建立一个预测模型。比赛数据集包括hy图像不对称，分为5类:正常-25807图像-73.48%；轻度-2442图像-6.96%；中度-5291-15.07%；重度-873图像-2.48%和增生性-708图像- 2.01%。为此，我使用带有Theano后端的Keras框架(用于CUDA组合)。对于图像增强，我使用了ImageDataGenerator (代码如下)。我已经将图像大小调整为299x299，并相应地将它们分为5个文件夹--它们的类： train_datagen=ImageDataGenerator(rescale=1./255, rotation_range=40, zoo

浏览 2提问于2017-01-29得票数 3

2回答

对不平衡的数据加权CNN回归？

、、、、

我有一个CNN的回归，采取一个图像和输出浮点0-10。我的模型做得很好，但是我有一个严重的不平衡数据的问题，使我的模型对几乎所有的图像进行6-8的预测，但是实现了一个相当好的均方误差。我知道人们根据数据集的不平衡程度来加权他们的类。那么，有办法用回归模型来做到这一点吗？如果有帮助的话，我的输出就是一个浮点，但是我的所有数据都在0-10范围内间隔0.5，所以在某种程度上有20个不同的类。这是我的数据标签的分布情况。据我所知，还有其他方法，例如：对少数群体进行了过度抽样。使用数据增强来复制少数群体的数据。优化不同的性能度量。(不知道那会是什么) 有什么建议吗？

浏览 0提问于2019-07-30得票数 4

2回答

再论Logistic回归

、

我正在开发一个数据集，它有一个二元变量，但包含98%的0's和2%的1's，我试图用Logistic回归来预测产品的购买。但由于0's人数众多，模型预测效果不佳，得到了大量的假阳性结果。请建议我如何处理这件事。

浏览 0提问于2018-03-12得票数 0

回答已采纳

2回答

scikit了解用于交叉验证的不平衡数据的欠采样

、、

如何在scikit-learn中生成用于交叉验证的随机折叠？假设我们有一个类的20个样本，另一个类的80个样本，我们需要生成N个训练集和测试集，每个训练集的大小为30，在每个训练集中，我们有50%的类1和50%的类2。我找到了这个讨论()，但我不明白如何获得折叠。理想情况下，我认为我需要这样一个函数： cfolds = np.cross_validation.imaginaryfunction( [list(itertools.repeat(1,20)), list(itertools.repeat(2,80))], n_iter=100, test_size=0.70) 我遗漏了什么？

浏览 3提问于2013-12-21得票数 6

1回答

模型由于数据不平衡而倾斜

、

在生活中，一些事件是罕见的，大多数情况是正常的。因此，我想知道，为了发现罕见的案例，我们是否应该使用一个不平衡的数据集，其中包含更多的历史罕见案例？以德国信用数据为例。它包含关于20个变量的数据，以及对1000名贷款申请者来说申请人是否被视为良好或不良信用风险的分类。70%是好的。30%坏蛋使用这个原始数据集，我假设模型将倾向于更好地识别正常情况(因为数据中有更多的正常情况)。如果使用一个平衡的数据集，即好信用的数量等于坏信用的数量，那么最后一个模型将很好地预测“好”和“坏”。但是，如果我们想使用机器学习来识别罕见的事件，例如在这种情况下，不良信贷客户。我们是否应该使用一个不平衡的数据

浏览 0提问于2020-11-06得票数 0

回答已采纳

2回答

带偏置数据集的训练决策树

、、

我对数据挖掘很陌生，我正在尝试训练决策树，但是我选择的数据集非常偏颇，因此我得到的结果也是有偏差的。我已经在网上搜索过了，并以平衡的准确性找到了答案。我对结果不满意。如果我对我的数据集进行抽样，使其与1000例YES和1000例NO相同，这会是个好主意吗？

浏览 1提问于2016-04-17得票数 1

回答已采纳

1回答

python中MLP分类器中的不平衡数据集

、、、

我正在处理不平衡的数据集，我试图建立一个使用MLP分类器的预测模型。不幸的是，该算法将所有观察值从测试集分类到"1“类，因此分类报告中的f1评分和回忆值为0。有人知道怎么处理吗？ model= MLPClassifier(solver='lbfgs', activation='tanh') model.fit(X_train, y_train) score=accuracy_score(y_test, model.predict(X_test), ) fpr, tpr, thresholds = roc_curve(y_test, model.predi

浏览 0提问于2017-06-18得票数 8

回答已采纳

3回答

不平衡类-如何最大限度地减少虚假否定？

、、、

我有一个具有二进制类属性的数据集。其中623例为+1级(癌阳性)，101 671例为1级(癌阴性)。我尝试过各种算法(朴素贝叶斯、随机森林、AODE、C4.5)，它们都有不可接受的假负比。随机森林总体预测准确率最高(99.5%)，假阴性率最低，但仍漏报79% (即未能检测到79%的恶性肿瘤)。有什么办法可以改善这种情况吗？谢谢!

浏览 0提问于2015-11-12得票数 13

3回答