不平衡数据集分类的步骤是什么？

不平衡数据集分类的步骤如下：

数据理解和预处理：首先，对不平衡数据集进行数据理解，包括了解数据集的特征、标签分布情况等。然后，进行数据预处理，包括数据清洗、特征选择、特征变换等操作。
采样策略选择：选择适合不平衡数据集的采样策略，常见的策略包括欠采样和过采样。欠采样是通过减少多数类样本数量来平衡数据集，过采样是通过增加少数类样本数量来平衡数据集。还可以使用组合采样策略，如SMOTE（Synthetic Minority Over-sampling Technique）等。
模型选择和训练：选择适合不平衡数据集的分类模型，常见的模型包括决策树、支持向量机、逻辑回归、随机森林等。在训练模型时，可以使用交叉验证等技术来评估模型性能，并进行调参优化。
模型评估和调整：使用评估指标（如准确率、召回率、F1值等）对模型进行评估，判断模型在不平衡数据集上的性能。如果模型表现不佳，可以尝试调整模型参数、改变采样策略等方法来改善模型性能。
结果解释和应用：对模型的结果进行解释和分析，理解模型对不平衡数据集的分类效果。根据实际应用需求，将模型应用到实际场景中，进行预测和决策。

腾讯云相关产品和产品介绍链接地址：

数据处理和分析：腾讯云数据湖分析（https://cloud.tencent.com/product/dla）
机器学习平台：腾讯云机器学习平台（https://cloud.tencent.com/product/tiia）
深度学习框架：腾讯云AI Lab（https://cloud.tencent.com/product/ai-lab）
自然语言处理：腾讯云智能语音交互（https://cloud.tencent.com/product/asr）
图像识别和处理：腾讯云智能图像处理（https://cloud.tencent.com/product/tii）
数据库：腾讯云云数据库（https://cloud.tencent.com/product/cdb）
服务器运维：腾讯云云服务器（https://cloud.tencent.com/product/cvm）
云原生：腾讯云容器服务（https://cloud.tencent.com/product/tke）
网络通信：腾讯云云联网（https://cloud.tencent.com/product/ccn）
网络安全：腾讯云云安全中心（https://cloud.tencent.com/product/ssc）
音视频处理：腾讯云云点播（https://cloud.tencent.com/product/vod）
人工智能：腾讯云人工智能（https://cloud.tencent.com/product/ai）
物联网：腾讯云物联网开发平台（https://cloud.tencent.com/product/iotexplorer）
移动开发：腾讯云移动开发平台（https://cloud.tencent.com/product/mpp）
存储：腾讯云对象存储（https://cloud.tencent.com/product/cos）
区块链：腾讯云区块链服务（https://cloud.tencent.com/product/bcs）
元宇宙：腾讯云元宇宙（https://cloud.tencent.com/product/mu）

逻辑回归训练数据集真假比

、、、

我正在做一个分类器，通过逻辑回归，基于Spark ML。我想知道我是否应该训练相同数量的数据来表示真和假。我的意思是，当我想把人分为男性或女性时，用100个男性数据+ 100个女性数据训练一个模型是可以的吗？网民可能40%是男性，60%是女性，但这个百分比是基于过去预测的，所以它可以改变(比如30%女性，70%男性) 在这种情况下。我应该训练多少女性/男性百分比的数据？这与过度拟合有关吗？当我训练一个40%女性+60%男性的模型时，对由70%female+30%male组成的领域数据进行分类是无用的？火花分类样本数据中有43个为假，57个为真。 logisticregression回归

浏览 2提问于2015-10-31得票数 1

1回答

一组训练中有多少不平衡是个问题？

、

在一个简单的二元分类问题中，多数阶级到少数群体阶级在什么时候变得显着性？直觉地说，我认为3:1的比例不是问题，甚至不是10:1的比例。但是，100:1的比例确实需要一些行动。这个截止点可能是什么？作为后续行动，除了过抽样和过抽样之外，可能会出现什么潜在的解决方案？

浏览 0提问于2021-03-12得票数 2

回答已采纳

1回答

IBA在分类报告中的含义是什么？

、、、

imblearn是一个用于处理不平衡数据的python库。下面给出了生成分类报告的代码。 import numpy as np from imblearn.metrics import classification_report_imbalanced y_true = [0, 1, 2, 2, 2] y_pred = [0, 0, 2, 2, 1] target_names = ['class 0', 'class 1', 'class 2'] print(classification_report_imbalanced(y_true, y_

浏览 0提问于2021-01-21得票数 3

回答已采纳

1回答

当使用过抽样和简历对模型进行培训时，我是否需要使用AUPRC报告不平衡数据集的分类结果？

、、、、

我正在研究一个二进制分类问题，其中数据集有大约5%的正类样本。我拆分了数据集，70%用于培训，30%用于测试。我只使用了一次测试数据来报告模型的性能。由于这种不平衡，我在培训数据集中使用了SMOTE对少数族裔类进行重采样。此外，我还根据如何提升样本、简历和网格搜索的建议，使用CV和网格搜索来优化模型性能，以避免数据泄漏。假设我正确地处理了培训过程，我想知道如何在测试数据中报告分类结果。我的理解是，对于不平衡的数据集，您应该使用AUPRC (参见不错的解释这里)。那么，如果我解决了培训中的不平衡问题，我是否需要用AUPRC报告结果，还是使用传统的中华民国？谢谢你提前帮忙。

浏览 0提问于2022-08-17得票数 0

1回答

为什么通过子集选择方法在此数据集中选择的特征太少？

、、、、

我有一个包含148个输入特性的分类数据集(其中20个是二进制的，其余的在0，1范围内是连续的)。数据集有66171个负示例，只有71个正示例。 dataset (arff文本文件)可以从dropbox链接：下载。在Weka套件中，当我使用CfsSubsetEval和GreedyStepwise ( setSearchBackwards()设置为true，还有false)时，所选的功能集只包含两个特性(即79和140)！这两个特性的分类性能可能是非常糟糕的，这一点可能是不言而喻的。使用ConsistencySubsetEval (也是在Weka中)导致了零特性的选择！当使用特征排序方法并选择

浏览 3提问于2015-09-08得票数 1

2回答

不平衡数据集的定义是什么？

、

我有数千个数据源，从类似类型的硬件中生成数据。然而，不同的来源在数据集中产生了不同的动态！尽管这些特性是相同的，但是数据集具有非常不同的特性。我正在研究一个多类分类问题，试图了解可以使用多少特定的模型来处理该领域。不同数据源上的类数不同，因此需要建立不同的模型。这意味着，在最后，我有许多不同的模型要评估。类似的输入，但在输出时要预测的类数是不同的。由于这是一个多类分类问题，所以使用了混淆矩阵和多条ROC曲线。现在，我正试图在更多的细节中，看看在最糟糕的模型中，是什么导致了糟糕的表现。通常的原因是:1.测量不够；2.严重不平衡的数据集；3. 1和2的组合问题是，对于多类问题(什么是不

浏览 0提问于2019-12-09得票数 3

4回答

如果大多数类是负的，那么使用所有极端不平衡的数据来训练二进制分类器可以吗？

、、

我正在训练一个神经网络作为文本分类的二进制分类器。数据非常不平衡，其中真:假的比率约为100:10000。直觉上，使用所有的负样本会阻止分类器学习无效模式(例如，可能使用欠采样来学习)。我是否低估了不平衡对分类器性能的影响？

浏览 0提问于2019-05-31得票数 1

1回答

如果数据集在现实生活中是不平衡的，我是否应该在不平衡的数据集上对我的机器学习模型进行培训？

、、

我有一个数据集，其中大约20%的数据是正类，80%的数据是负类。当我在平衡数据集上对分类器进行欠采样和训练，并在平衡数据集上进行测试时，结果非常好。但是，如果我在平衡数据集上进行培训，并在复制现实世界(80-20分离)的不平衡数据集上进行测试，那么度量标准就不太好了。如果我想让原始的不平衡数据集在同样不平衡的真实世界测试数据上表现良好，我应该在原始不平衡数据集上训练它吗？

浏览 0提问于2020-01-21得票数 1

回答已采纳

1回答

不平衡类处理方法的分类

、、、、

什么是最好的分类方法，已发展的方法，以处理不平衡的阶级问题？此文章将它们分类为：预处理:包括过采样、欠采样和混合方法，成本敏感学习:包括直接学习和元学习，后者进一步分为阈值学习和抽样学习，集成技术:包括成本敏感的集成和数据预处理与集成学习。第二分类：数据预处理:包括分布变化和数据空间加权.单班学习被认为是分布变化. 特殊目的学习方法预测后处理:包括阈值法和成本敏感的后处理。混合方法：第三文章: 数据级方法算法级方法混合方法最后一种分类也认为产出调整是一种独立的方法。提前谢谢。

浏览 0提问于2018-06-08得票数 8

1回答

损失是坏的，但准确性增加了？

、、

我对图像有多个分类问题。有5个(不平衡)类，我使用不同的类权重。一般来说，每堂课只有几张训练图像：~56-238。为了对它们进行分类，我使用了一个具有大量数据增强的神经网络。我有一个验证集，它的分布与火车集相同(但它每个类只有大约30%的图像)。由此产生的丢失/准确性图表看起来有点奇怪(编辑:第二个图表包含术语“测试丢失”，但它是“验证损失”)： 📷 📷 我不知道如何解释这两幅图像:验证精度cleary增加，但验证损失没有太大变化。有人能帮我解释这些图表吗？非常感谢

浏览 0提问于2018-11-20得票数 1

回答已采纳

1回答

为什么过采样后高度不平衡的数据集的准确性会降低？

、、、、

我创建了一个合成数据集，其中一个类中有20个样本，另一个类中有100个，因此创建了一个不平衡的数据集。平衡前的数据分类准确率为80%，而平衡后的分类准确率为60% (即两个类别的100个样本)。可能的原因是什么？

浏览 0提问于2018-02-23得票数 7

回答已采纳

1回答

哪一种ML算法对文本数据最有效，背后的原因是什么？另外，哪些度量用于测试模型的性能？

、、、

我正在做一个项目--“tweets.‘的情感分析”。有五种不同的情绪-极端消极，消极，中立，积极和极端积极。因此，这基本上是NLP问题，因为我必须处理文本数据。哪种算法对这些数据最有效，背后的原因是什么。另外，我可以使用哪些分类度量来检查模型的性能以及选择特定度量的原因？

浏览 0提问于2021-09-25得票数 1

1回答

有哪种仿生方法可以自动确定不平衡类问题，特别是在多类场景中？

、

如果目标类比例不相等，并且通常存在严重的偏倚，则数据是不平衡的。但是，这种大偏差的精确测量是什么呢？在应用不平衡技术(SMOTE、ADASYN、Tree分类器等)之前，我希望自动检测问题是否属于不平衡类问题。

浏览 0提问于2021-02-23得票数 0

1回答

如何处理生物数据集中的不平衡类？

、、

当处理不平衡的阶级，哪个更好，过抽样/过抽样的类别或从训练数据集中随机选取相同数目的正样本和负样本，结合训练样本，将不平衡分类问题转化为多个平衡数据分类问题。他们中的一个比另一个有优势吗？如果是，是哪一个？我要求的是一个广义的观点。如果您有一个不平衡的数据集，您会选择哪个选项，1还是2？

浏览 0提问于2018-07-20得票数 0

回答已采纳

1回答

如何处理标签数量差异较大的二进制分类

、

我觉得可能有人问过这个问题，但我不知道如何搜索它。基本上，我正在使用随机森林构建一个二进制分类器，并且有很多积极的结果，而不是消极的结果(2k vs ~20)。准确率当然是非常好的，因为测试集通常有0-1个负样本和超过1000个正样本。如果机器学习对于这种情况仍然可行，那么处理如此少量的负面情况的最佳方法是什么？或者数据只是无用的？

浏览 13提问于2018-07-23得票数 0

回答已采纳

3回答

对于不平衡的分类，是否应该平衡验证数据集？

、、

我正在为不平衡的数据建立一个二进制分类模型(例如，90%的Pos类和10%的Neg类)。我已经平衡了我的训练数据集，以反映一个50/50的类分割，而我的保留(训练数据集)保持与原始数据分布相似(即90%比10%)。我的问题是关于在CV超参数过程中使用的验证数据。在每次迭代折叠过程中，应： 1)平衡训练和考试两部分。或 2)训练褶皱应保持平衡，验证褶皱应保持不平衡，以反映原始数据分布和持久化数据集。我目前正在使用第一个选项来优化我的模型；但是，考虑到延迟数据集和验证数据集有不同的分布，这种方法有效吗？

浏览 0提问于2020-06-15得票数 10

回答已采纳

3回答

数据分布不平衡的影响

、、

我在谷歌的ML网站上看到，如果我有分类数据集，一个分类数据集的比率为90%，而另一个分类数据数据的比率为10%。在这种情况下，我是否应该对每种分类使用完全相同的数据百分比？也就是说，删除大约80%的数据集，使其为每种分类10%。原因是谷歌说，ML模型将学习，然后它更有可能有一个90%的分类，这将无法提供良好的预测。(即)预测可能倾向于单一标签/特征。我的数据集是90%到10%，但这确实是实际比率，它更有可能有90%的分类。我应该删除80%的数据还是保持原样，让ML知道它确实更有可能对90%的数据进行分类？

浏览 0提问于2019-09-18得票数 0

回答已采纳

1回答

如何处理极不平衡的时间序列数据集

、、、

我需要分类一个相对较小的时间序列数据集。训练集维度是5087行(分类)由3197列(时间样本)组成，这些列(或据我所理解)是模型的特征。我还不知道每个样本是否重要，稍后我会考虑下采样/滤波/傅里叶变换。不幸的是，dataset是非常不平衡的: 5087行中只有37行(0.7%)是“正”。你会怎么处理这个？我将不得不使用Scikit-学习图书馆。因为这是我使用Scikit的第一种方法--学习，我想尝试一个非常简单的分类器，只有很少的超参数，并在那里建立起来。首先，选择分类器: logistic回归，因为这是我能想到的最简单的一个，这只是一个测试。第二，通过调整网格选择正则化参数第三，选择

浏览 0提问于2020-05-11得票数 1

回答已采纳

1回答

正反两类的比例应该是多少，才能使训练集产生无偏斜的分类器？

、、

我的培训数据集包含一个类的46071个例子和另一个类的33606个示例。这会导致一个倾斜的分类器吗？我使用支持向量机，但不想使用支持向量机的选项来处理扭曲的数据。

浏览 0提问于2014-10-02得票数 0

1回答

选择ROC/AUC还是精确/召回曲线？

、、、

我试图清楚地了解各种分类指标，包括知道什么时候选择ROC/AUC，而不是选择精确/召回曲线。我正在阅读Aurélien Géron的手-使用Scikit的机器学习-学习和TensorFlow的书 (第92页)，其中说明如下：由于中华民国的曲线与查准率/召回(或PR)曲线是如此相似，你可能想知道如何决定使用哪条曲线。作为一个经验法则，你应该更喜欢PR曲线时，积极类是罕见的，或当你更关心假阳性，而不是假阴性。这本书演示了一个不平衡的二进制分类问题的ROC和PR曲线，其中目标类大约是90% 0和10% 1。它显示了PR曲线和ROC曲线，其中反映了上述ROC对不平衡数据集的偏差: ROC对模型性

浏览 0提问于2021-12-28得票数 4

回答已采纳

1回答

解释高精度和很低的回忆得分

、

我在一个非常不平衡的数据集上训练模型，两个班的比例为80:20。数据集有数千行，我使用 DeccisionTreeClassifier(class_weight='balanced') 我在测试中得到的精确性和回忆是非常奇怪的。 Test set precision : 0.987767 Test set recall : 0.01432 我无法解释结果。这说明了我的分类器是什么？

浏览 0提问于2020-06-01得票数 1

2回答

关于不平衡的多标签数据集

、、

我在python language.The数据集中做多标签新闻分类，我有两个文件。第一个CSV包含每一行的文章。第二，CSV包含每一篇文章的相应标签。以下是标签文件的快照 📷 这是dropbox链接.https://www.dropbox.com/s/7huzh41je735oqn/labelset.csv?dl=0 数据集是否不平衡？如何正确地将此数据集分发到培训集、验证集和测试集？注:我的意思是，这个不平衡的数据集在培训、验证和测试集中能被划分成适当的比例吗？

浏览 0提问于2019-06-12得票数 1

1回答

罕见事件建模中显示的性能较差

、

我正在研究一个罕见的事件分类问题。我有95%的数据为多数类，5%的数据为少数类。我使用分类树算法。我用混淆矩阵来衡量模型的优劣。由于我的少数类只占总数据的5%，即使我对少数类的预测性能接近70%，总错误数也很高。例如，这是我的混淆矩阵。213812 0 213812 7008 1 29083 16877 虽然少数民族阶级(一级)的预测是正确的16877倍(70%，错误分类仅为30% )，但错误分类的绝对值很高(29083)，而正确预测的小分类(16877)。这使得解决方案对业务的可用性降低。在如此罕见的事件模型中，对于处理这类问题，有什么想法吗？注意:在应用分类树之前，我已经用平滑算法

浏览 0提问于2015-06-08得票数 1

回答已采纳

3回答

如何处理股票市场预测问题中的不平衡类？

、、、、

我正在研究一个预测模型，以预测在n的日子里一只股票是应该卖出、持有还是买进。每天(或dataset中的行)，我根据百分比变化来分类是否应该出售、持有或购买，并将创建一个新列来指示该特定日期的操作是什么。在培训我的模型时，我应该如何处理数据集中的不平衡分类？这列火车是这样的： 1 1401 0 835 -1 413 # 1 is buy, 0 is hold, -1 is sell 从阅读开始，平衡取决于问题。我需要平衡我的数据来进行股票市场预测分类吗？提前谢谢。 PS:我正在使用支持向量机和朴素贝叶斯。

浏览 0提问于2021-09-26得票数 1

2回答

不平衡数据集的性能较差

、、

考虑一个dataset A，它有关于二进制分类问题的训练示例。由于数据集高度不平衡，我使用了支持向量机，并应用了加权方法( MATLAB)。我把权重与每堂课的数据频率成反比。这是在训练中完成的。我使用了10倍交叉验证进行培训。经过培训，我得到了A上的混淆矩阵： 80025 1 0 140 其中，第一行用于多数类，第二行用于少数类。只有一个假阳性(FP)，所有的少数类样本都被正确分类，真阳性(TP) = 140。问题:我再次使用更多的数据点进行训练。然后，我在一个新的未见测试数据集B上运行经过训练的模型，这是在培训期间从未见过的。这是在B上测试的混淆矩阵。 50075 0 100 0 可以看出

浏览 0提问于2018-12-12得票数 1

2回答

分类器性能评价

、、

我有一个不平衡的数据集，共有920个样本，689个属于第一类，222个属于二级。这两门课对我来说都很重要。因此，当建立一个分类器模型，如支持向量机或KNN。我应该考虑什么度量来评估分类器的性能？通常人们使用的是准确性。但在我的例子中，有时我得到了很高的准确度，但是没有任何的特异性，这清楚地表明这个类偏向于大多数类(在我的例子中是第一类)。我被建议使用F评分，它结合了特异性和敏感性.还有AUC。那你有什么建议？

浏览 0提问于2019-04-10得票数 1

回答已采纳

1回答

模型由于数据不平衡而倾斜

、

在生活中，一些事件是罕见的，大多数情况是正常的。因此，我想知道，为了发现罕见的案例，我们是否应该使用一个不平衡的数据集，其中包含更多的历史罕见案例？以德国信用数据为例。它包含关于20个变量的数据，以及对1000名贷款申请者来说申请人是否被视为良好或不良信用风险的分类。70%是好的。30%坏蛋使用这个原始数据集，我假设模型将倾向于更好地识别正常情况(因为数据中有更多的正常情况)。如果使用一个平衡的数据集，即好信用的数量等于坏信用的数量，那么最后一个模型将很好地预测“好”和“坏”。但是，如果我们想使用机器学习来识别罕见的事件，例如在这种情况下，不良信贷客户。我们是否应该使用一个不平衡的数据

浏览 0提问于2020-11-06得票数 0

回答已采纳

2回答

具有大不平衡数据的sklearn

、、、

我一直在使用Sklearn HistGradientBoostingClassifier对一些数据进行分类。我的实验是用单标签预测(20个标签)进行多类分类. 我的经验显示有两种情况。第一种情况是在不增加数据的情况下(大约3,000个样本)测量这些算法的准确性。第二个例子是用数据增强测量精度(约12,000个不平衡样本)。我使用的是默认参数。在第一种情况下，HistGradientBoostingClassifier的准确率约为86.0%。然而，随着数据的增加，结果显示较弱的准确性，约23%。我想知道这种准确性是否来自不平衡的数据集，但是由于Sklearn库中没有为HistGradient

浏览 31提问于2022-11-28得票数 0

回答已采纳

1回答

识别CART中的训练数据集是否不平衡

、、

我是机器学习领域的新手。我想为数据的二进制分类构建一个分类树。我有269条培训数据集，其中56条属于“是”类，213条属于“否”类。对于构建购物车模型，这种数据是否不平衡？我需要少取“不”类记录吗？另外，从基尼指数、卡方和信息增益等方面看，哪一种算法最适合于节点分割？ P.S.:-我不能进一步增加数据集的大小。

浏览 0提问于2018-01-13得票数 1

回答已采纳

1回答

为什么要调整类的权重而不是简单地找到最佳的阈值？

、

在一种二进监督分类中，1类和0类在训练中有不同的样本数，对于不平衡的数据集，通常会找到关于调整类权值、反复采样和欠采样的教程。在两个类都有足够的样本(例如，不是异常检测)的情况下，如果最终必须调整阈值，为什么要调整类的权重或平衡训练数据？

浏览 0提问于2020-06-21得票数 1

回答已采纳

4回答

你把阳性样本和阴性样本的比例称为什么？

、、

我正在使用二进制分类器，我想用度量来表示训练数据的“平衡”或“偏斜”。我想在一份报告中反映这一比率，如下： Accuracy: 80% Recall: 78% Precision: 62% *The Ratio of Positive to Negative Samples*: 62% 我觉得可能有一个标准的名称来表示“阳性样本与阴性样本的比率”。我的主要问题是:这个度量的名称是什么？ (此问题假定此度量有一个标准名称。) 额外信息：以下是度量的一些示例值及其解释： 1.0 = The sample (of training data) is balanced. 0.5 = There

浏览 0提问于2019-11-25得票数 0

回答已采纳

2回答

如何提高生物数据集的准确性？

、、、、

我有一个生物不平衡数据集，我已经应用了深入学习，支持向量机(所有的核心函数)和人工神经网络的多类分类(大小:139个样本，5个属性)在python。不幸的是，准确度不超过55%。怎样做才能提高准确度？如果数据集不能超过这种平均精度，那么解决方案是什么？

浏览 0提问于2017-08-01得票数 1

回答已采纳

3回答

如何改进递归神经网络文本(新闻文章)的二值分类模型？

、、

我尝试使用带有字嵌入的递归神经网络对新闻文章进行二进制分类。以下是该模型的参数： Data: 8000 labelled news articles (Sports:Non-sports::15:85) Parameters: embedding size = 128 vocabulary size = 100000 No. of LSTM cell in each layer = 128 No. of hidden layers = 2 batch size = 16 epochs = 10000 Result: AUC o

浏览 0提问于2017-01-31得票数 2

回答已采纳

1回答

用不平衡和平衡的数据比较训练时的模型精度

、、、

所以我最近做了一个数据科学项目，这是一个多类分类。这个项目可以找到https://www.kaggle.com/c/otto-group-product-classification-challenge。数据集是一个不平衡的数据集，具有93个特征和9个可能的结果(目标)。由于我们不知道这些特性中的任何一个是什么，所以我们不知道目标代表什么样的类别，所以我不确定在训练模型之前平衡数据是否有意义。因此，我只是用这两种方法来训练我的每个测试模型，一次用平衡的数据集，一次用不平衡的数据集。我尤其是这样做的：为培训和测试做一个简单的80/20拆分，以创建一个不平衡的数据和培训集 index &

浏览 0提问于2021-10-22得票数 0

回答已采纳

1回答

对于数据不平衡的分类器，要使用哪一种度量？

、、

我正在研究一个分类问题，其中的类是非常不平衡的。为了处理这个问题，我用了过量的抽样和替换.(正如这里所建议的： )。然后将数据集(过采样集)划分为训练集和测试集，并对朴素贝叶斯算法进行了训练。当我想测试的时候，用精度测量可以吗？根据我对低样本类的理解，我有必要添加样本的副本。所以我的test_set包含了火车的精确副本。混淆矩阵是什么意思，在过采样数据集上使用混淆矩阵是什么意思？这是一个很好的练习吗？

浏览 3提问于2016-10-15得票数 1

2回答

加入更多样本后，准确度下降

、、、

我正在处理一个多类文本分类任务(5个类)。我有两种数据集：规则(~22000个样本) 重复数据集(~19000个样本) 我写了一个逻辑把它们都贴上标签。我注意到，在添加了一组额外的数据(在这些数据中使用不同的逻辑代码路径进行标记)之后，val_accuracy不超过67%，而只使用常规数据集，我可以轻松地使用每组数据74%。几个问题：只使用~22000个样本就足以解决这类分类问题了吗？为什么添加更多的样本会损坏val_accuracy (我觉得它应该会增加它)。更多信息我觉得我的用例不够详细：我的目标是将bug分类到相关的所有者组(其中有5个)。一个重复的错误与他的“欺骗”错

浏览 0提问于2022-11-02得票数 0

3回答

什么时候我们应该认为数据集不平衡？

、、、

我所面临的情况是，数据集中的正负示例的数量是不平衡的。我的问题是，有什么经验法则告诉我们什么时候应该分样本大类别，以强制在数据集中某种平衡。示例：如果正数为1,000，负数为10,000，我是应该在完整的数据集上训练我的分类器，还是应该对负数进行分样本？同样的问题也适用于1,000个正面的例子和100,000个否定的例子。同样的问题涉及10,000人和1,000人。等等。

浏览 0提问于2016-05-16得票数 16

回答已采纳

3回答

训练/测试尺寸和偏差

、、

我正在运行一个分类器(logistic回归)。我的数据集上的信息如下： dataset size= 279 observations (第80/20号规则) train size= 233 test size = 56 # of events in train = 31 # of events in test = 8 我想我的分类器和结果可能会因为这个比例不相等而受到影响。有什么办法可以避免偏见问题和提高准确性吗？你个人对这些数据有何看法？

浏览 0提问于2020-08-30得票数 2

回答已采纳

2回答

如何检查weka中该模型的数据是否过多

、

我的原始数据集有500个实例，有10个类，并且存在类不平衡为了减少类不平衡，我使用了过采样技术，我的新数据集有1500个实例和10个类。对于原始数据集，我应用了j48分类器，获得了63%的准确率对于新的样本数据集，我应用了j48分类器，并获得了75%的准确率。我的问题是，我怀疑我的数据对于分类器来说是过度拟合的。如何检查数据是否过拟合以及如何减少过拟合

浏览 0提问于2013-08-22得票数 0

4回答

极不平衡数据集的Tensorflow分类

、、

我正在使用TensorFlow LinearClassifier和DNN来对两类数据集进行分类。然而，问题是数据集包含96%的正输出和4%的负输出，并且我的程序总是将预测返回为正。当然，在这种情况下，我将达到96%的准确率，但这完全没有意义。处理这种情况的好方法是什么？

浏览 0提问于2015-12-29得票数 5

3回答

在哪种情况下，我们应该认为数据集不平衡？

、、、

在对数据集进行分类时，我面临一个问题。目标变量是二进制变量(有2个类，0和1)。我在训练数据集中有8161个样本。每堂课我都有： 0类: 6,008份样品，占总数的73.6%。第1类:2 153个样本，26.4% 我的问题是：在这种情况下，是否应该考虑用作不平衡数据集的数据集？如果是的话，我应该在使用RandomForest进行预测之前处理这些数据吗？如果不是不平衡的数据集，有人能告诉我在什么情况下(比如每个类的比率)，我可以认为数据集不平衡吗？

浏览 0提问于2021-01-14得票数 1

1回答

平衡数据集的分类是否会导致任何问题？

、、、、

所以我遇到了一个生物信息学论文，在那里我找到了一条线，上面写着：在交叉验证中使用具有相同数量的正负示例的培训集的一个潜在问题是，它可以人为地夸大性能估计，因为假阳性分类的数量与分类的示例数成正比。因此，将这些方法应用于生物体中的所有蛋白质，可能会导致大量的假阳性鉴定。我无法理解如何分类平衡数据集是一个问题。有人能给我解释一下吗？

浏览 0提问于2018-03-27得票数 2

回答已采纳

2回答

创建数据集-不平衡还是不平衡？

、、、

我试图建立一个图像分类模型，我有5个类别- A，B，C，D，E。我们的目标是获得最高的分类精度。我有一个图像数据库，我正在为我的模型的每个类选择图像的数量。如果可用数据的分布如下所示，我试图为每个类选择多少图像。为了避免班级不平衡，我应该随机地为每个班级选择8000张图片吗？或者，我是否应该在每堂课上使用同样多的图片？每个类可获得的图像： A- 100,000 B-70 000 C-40 000 D- 10,000 电子- 8,000

浏览 0提问于2020-08-29得票数 0

1回答

文本分类:多文本分类与多类文本分类

、、

我有一个关于处理多标签分类问题的方法的问题。在文献综述的基础上，我发现最常用的方法之一是问题转换方法.它将多标号问题转化为多个单标号问题，分类结果只是每个单标签分类器的简单结合，采用二进制相关的方法。由于单个标签问题可以被描述为二进制分类(如果有两个标签)或多类分类问题(如果有多个标签，即labels>2)，目前的转换方法似乎都将多标签问题转化为多个二进制问题。但这将导致数据不平衡的问题，因为负类可能比正类有更多的文档。因此，我的问题，为什么不转化为多类问题，然后应用直接多类分类算法，以避免数据不平衡问题。在这种情况下，对于一个测试文档，每个经过训练的单标签多类分类器将预测是否分配

浏览 5提问于2016-03-02得票数 1

1回答

分类测试集准确率低于验证

、、

我的验证集具有很高的分类准确率。但由于数据不平衡，测试数据较低。请在这里推荐。在验证集上获得高精度，但在测试集上获得低精度的原因可能是什么？

浏览 0提问于2020-03-07得票数 0

1回答

像SMOTE/UP/DOWN这样的采样可以应用于验证集吗？

、、、、

我正试图预测分类问题。为此，我使用了游侠、Xgboost和朴素的bayes。我的反应课不平衡。92:8比率。我的积极反应只占全部数据的8%。由于阶级不平衡，我得到了更多的FP / FN。我在训练集上尝试了不同的抽样，并用原始集进行了预测，得到了更多的FP。我可以做这样的事情吗?：-将数据分割成火车和测试--分别在列车上和测试上应用抽样方法--并使用抽样测试来预测。谢谢。

浏览 0提问于2020-01-24得票数 2

2回答

两个类之间有多少差异可以算作一个不平衡的数据集？

、、

我正在建立一个二进制分类模型，其中17K值作为A类，10K值作为B类。我想知道数据集什么时候可以面对“不平衡数据集”的问题？

浏览 0提问于2019-06-17得票数 3

回答已采纳

2回答

是什么使验证集成为测试集的良好代表？

、、、

我正在开发一个使用不平衡数据集的分类模型。我试图使用不同的抽样技术来提高模型的性能。对于我的基线模型，我定义了如下所示的AdaBoost模型： from sklearn.model_selection import KFold kf = KFold(n_splits=5, shuffle=False) ada = AdaBoostClassifier(n_estimators=100, random_state=42) params = { 'n_estimators': [50, 100, 200],

浏览 0提问于2020-09-29得票数 0

回答已采纳

1回答

如何提高低召回价值？

、、、

我正在处理的人力资源消耗数据是高度不平衡的。我使用了平衡技术，比如SMOTE来生成合成数据，然后使用高斯朴素Bayes对自然损耗进行分类。在绘制混淆矩阵之后，我发现它具有很高的精确度，但召回率却很低。准确度和F1评分(击打后)也很低。有人能建议如何提高回忆价值吗？

浏览 0提问于2020-05-11得票数 -1

1回答

创建分类数据集，一个好的数据集应该达到多大的平衡？

、、、

我正在创建一个有4个类的数据集，其中有50K行，我已经获得了86%的准确率，0.85的预测，0.86的召回和0.71的F1-分数支持向量机上的80,20分裂。我必须在一篇研究论文中公布这个数据集，但我关心的是班级百分比的年龄分布。例如，类1比类4有更多的数据。(数据集注释已经完成) Dataset是从Twitter上刮来的，从技术上讲，我不能强迫用户专门发布关于第4类的内容，但另一方面，我认为扭曲的发行版会/可能影响结果，评审人员可能会提到它。那么，在这种情况下，我该怎么办呢？删除一些行并使数据均匀分布？每人25% 或放手吧，就像已经过去一样。数据科学家应该怎么做？(考虑到我是这个领

浏览 0提问于2022-01-06得票数 0