如何通过过采样来解决时间序列数据中的类不平衡问题？

文章/答案/技术大牛

发布

1回答

python、pandas、classification、oversampling

我有一个每小时频率的时间序列和每天的标签。我想通过过采样来修复类的不平衡，同时保留每一天的序列。理想情况下，我可以使用ADASYN或其他比随机过采样更好的方法。下面是数据的样子： import pandas as pdfrom datetime import dateti

浏览 46提问于2019-02-02得票数 1

3回答

Xgboost处理不平衡分类数据

r、xgboost

我有一个大约20000个训练样本的数据集，我想对其进行二进制分类。问题是数据集严重不平衡，只有大约1000个属于正类。我正在尝试使用xgboost (in R)来做我的预测。我尝试过过采样和欠采样，无论我做什么，不知何故，预测总是导致将所有东西归类为多数类。我试着阅读了这篇关于如何在xgboost中调优参数的文章。但它只提到了

浏览 2提问于2016-12-05得票数 8

回答已采纳

1回答

如何解释用非常好到完美的结果替换过采样？

machine-learning、resampling、precision-recall

我有非常不平衡的数据(100:1)，其中1部分是我感兴趣的(少数)类。我听说过过采样(在其他技术中)是一种“处理”不平衡数据的方法。因此，我所做的是通过以一定的比率(例如，2:1)替换重采样来对少数类进行过采样。然后我将这个新形成的(重新)样本分成训练集和测试集，性能大大提高

浏览 2提问于2016-03-01得票数 0

3回答

在Auto-Sklearn中处理多类分类的不平衡数据集的最佳方法

python、machine-learning、scikit-learn、multiclass-classification

我正在使用Auto-Sklearn，并且有一个包含42个严重不平衡的类的数据集。处理这种不平衡的最好方法是什么？据我所知，在机器学习中存在两种处理不平衡数据的方法。要么使用重采样机制，如过采样或欠采样(或两者的组合)，要么在算法级别上通过选择需要深入了解Auto-Sklearn中使用的算法的归

浏览 2提问于2020-02-21得票数 2

2回答

再论Logistic回归

classification、logistic-regression

我正在开发一个数据集，它有一个二元变量，但包含98%的0's和2%的1's，我试图用Logistic回归来预测产品的购买。但由于0's人数众多，模型预测效果不佳，得到了大量的假阳性结果。请建议我如何处理这件事。

浏览 0提问于2018-03-12得票数 0

回答已采纳

2回答

具有子类的过采样数据

machine-learning、classification、training、class-imbalance

过度采样代表不足的数据是消除阶级不平衡的一种方法。例如，如果我们有一个由A类100个数据点和B类1000个数据点组成的训练数据集，我们可以对100 A数据进行过采样(可能采用一些复杂的过采样方法)来生成1000 A数据，以缓解数据的不平衡。现在，假设我们有1

浏览 0提问于2019-04-01得票数 2

2回答

不超过(/under)采样不平衡的数据集会引起问题吗？

classification、class-imbalance、imbalanced-data

我阅读了很多关于如何专门为不平衡的数据集使用不同的度量(例如，存在两个类，但80%的数据是一个类)，以及如何处理不平衡数据集的问题。一个技巧是过采样，因此获取更多(甚至重复一些)属于未充分表示的类的数据。我尝试过这一点，并取得了更好的结果(

浏览 0提问于2021-04-29得票数 5

回答已采纳

2回答

用smote和OSS解决多类不平衡分类问题

multiclass-classification、class-imbalance、smote

我试图解决一个多类不平衡的分类问题。为此，我使用SMOTE表示过采样，而OSS用于过采样.但我有一个疑问，因为我正在研究多类，所以我必须把它转换成二进制分类。所以我们可以用OVA/OAA来转换它。那么，如何使用OVA/OAA同时对同一数据集进行过采样和欠采样？

浏览 0提问于2019-01-28得票数 2

1回答

PySpark流水线中的交叉验证过采样

python、pyspark、cross-validation、oversampling、smote

我正在一个PySpark二进制分类管道上工作，我想在其中使用过采样阶段执行CrossValidation (我的数据集不平衡)。问题是过采样阶段也是在测试数据集上执行的。我查看了spark文档和源代码，没有办法跳过PipelineModel中的一个阶段。我的解决方案是覆盖原始类的_transform方法，以便跳过卵子采样阶段。当

浏览 1提问于2019-11-16得票数 1

3回答

200多个类中高度不平衡的数据集

machine-learning、multiclass-classification、class-imbalance、sampling

我有一个文本数据集，在这里，我需要训练一个分类器来将标题分类。数据集形状超过575000。这里有256个目标类。问题是数据集是高度不平衡的。考虑目标值计数是按递减顺序排列的。为了处理不平衡的数据集，对多类(比如3类)进行过采样和欠采样。但在我的例子中，有256个类<

浏览 0提问于2019-09-28得票数 2

1回答

支持向量机SVC:不平衡数据参数优化的度量

classification、svm、class-imbalance、libsvm

我在一个向下采样(因此也是平衡的)数据集上训练了一个带有RBF核的多类SVC。现在我想执行网格搜索，以找到最佳的成本和伽马。我有一个高度不平衡的测试集。不同类的实例数之间可能存在超过100的因素。我是分类的3D点(汽车，外观，人类)-所以我认为一个人可以分配同等的重量，所有的类别。

浏览 0提问于2020-02-22得票数 0

回答已采纳

1回答

对于XGBoost来说，处理不平衡数据的最佳方法是什么？

classification、r、xgboost、multilabel-classification、class-imbalance

处理类不平衡数据的方法有很多，如过采样、过采样、改变成本函数等。machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/ 这是关于他们所有人的帖子我正在处理一个不平衡的多类分类问题，并试图用XGBoost算法来解决</

浏览 0提问于2018-02-25得票数 5

1回答

模型由于数据不平衡而倾斜

machine-learning、data

在生活中，一些事件是罕见的，大多数情况是正常的。因此，我想知道，为了发现罕见的案例，我们是否应该使用一个不平衡的数据集，其中包含更多的历史罕见案例？使用这个原始数据集，我假设模型将倾向于更好地识别正常情况(因为数据中有更多的正常情况)。如果使用一个平衡的数据集，即好信用的数量等于坏信用的

浏览 0提问于2020-11-06得票数 0

回答已采纳

1回答

非常低的val_accuracy与准确性-文本分类(多类)

python、pandas、tensorflow、machine-learning、keras

我已经为一个bug分类项目工作了一段时间了。我的目标是：“给定一个新的bug，我想预测哪个‘最终所有者组’它将被分配给(6个标签作为目标)”自由textdescription texthas_errors下面是我如何制作模型的代码：embedding_dim = 16trunc_type='post' padding_type='

浏览 6提问于2021-07-23得票数 1

2回答

列车/测试分割前后信用卡欺诈检测的欠采样

classification、class-imbalance、sampling

我有一个信用卡数据集，98%的交易是非欺诈，2%是欺诈.我的问题是：我是否应该在分裂成训练和测试之前少采样，这会不会扰乱数据集的分布，而不是真实世界的代表？还是上述逻辑仅适用于过

浏览 0提问于2021-02-09得票数 2

回答已采纳

1回答

如何下载\向上的样本文本？

text-classification、text

我有5566个样本的数据集--一列是食谱描述的文本，另一列是什么税种。我的数据有很大的不平衡：在处理这类数据时，有什么好方法呢？如何降低样本或上采样？据我所知，SMOT是行不通的。

浏览 0提问于2022-03-27得票数 1

1回答

当使用过抽样和简历对模型进行培训时，我是否需要使用AUPRC报告不平衡数据集的分类结果？

machine-learning、classification、class-imbalance、performance、imbalanced-learn

我正在研究一个二进制分类问题，其中数据集有大约5%的正类样本。我拆分了数据集，70%用于培训，30%用于测试。我只使用了一次测试数据来报告模型的性能。由于这种不平衡，我在培训数据集中使用了SMOTE对少数族裔类进行重采样。此外，我还根据如何提升样本、简历和网格搜索的建议，使用CV和网格搜索来优化模型性能，以避免数据</e

浏览 0提问于2022-08-17得票数 0

1回答

使用传感器的时间序列预测故障的最佳模型

python、classification、lstm、recurrent-neural-network、prediction

我正在与一家公司合作一个项目，开发用于预测性维护的ML模型。我们拥有的数据是日志文件的集合。在每个日志文件中，我们都有来自传感器(温度、压力、MototSpeed等)的时间序列。和一个变量，我们在其中记录发生的故障。这里的目标是构建一个模型，该模型将使用日志文件作为其输入(时间序列)并预测是否会出现故障。为此，我有一些问题: 1)能够做到这一点的最佳模型是什么?2

浏览 4提问于2020-06-02得票数 0

3回答

平衡列车组预测不平衡预测集

classification、predictive-modeling、class-imbalance

对不平衡集进行分类预测分析的方法之一是对多数类进行欠采样(其他方法包括:对多数类进行欠采样，合成新的少数类.)。下面假设我们使用这些解决方案中的任何一个，然后用新生成的数据集来训练算法。这个经过训练的算法是否有助于预测来自这个系统的进一步数据，而这个系统通常是不平衡

浏览 0提问于2016-09-01得票数 6

1回答

传统大型多类分类问题的最佳神经网络体系结构

deep-learning、neural-network、architecture

我对深度学习很陌生(我刚刚读完了用pytorch进行深度学习的文章)，我想知道我的案例中最好的神经网络体系结构是什么。我有一个大的多类分类问题(用户识别问题)，大约有1000个类，其中每个类都是一个用户。经过一次热编码和清洗后，我为每个用户提供了大约2000项功能.数据是高度不平衡的，但我总是可以使用过采样/下采样技术。我想知道为我<

浏览 1提问于2021-08-11得票数 0

点击加载更多