如何保存随机欠采样的数据？_如何应用欠采样数据均衡，设置参数？_具有相对比而不是绝对比的随机欠采样 - 腾讯云开发者社区

、、

我试图通过使用多数类的随机欠采样来平衡数据帧。它已经成功了，但是，我也想将从数据帧(欠采样)中删除的数据保存到一个新的数据帧中。我该如何做到这一点？这是我用来对数据帧进行欠采样的代码 from imblearn.under_sampling import RandomUnde

浏览 29提问于2021-08-09得票数 0

回答已采纳

1回答

列车试验分裂后不平衡数据的欠采样

、、

我是机器学习的新手，目前正在从事一个数据不平衡的项目。我想用随机抽样来平衡数据。我很困惑是应该在测试列车分裂后进行欠采样，还是应该先进行欠采样，然后再进行列车测试分割？我的方法是: 1.我用火车测试拆分得到: X_train，y_train用于培训，X_test和y_test用于测试。2.将X_train和y_train合并为一个数据集，进行欠采样。3.在

浏览 1提问于2020-05-22得票数 5

1回答

在python中使用图像数据进行欠采样

、、、

欠采样的主要思想是随机删除具有足够观察值的类别，以便两个类别的比较比率在我们的数据中具有显着意义。那么，如何在python中对图像数据进行欠采样呢？请帮帮我：( 我从Kaggle那里获取了眼底图像数据。有5个类别的35127张图片。25810类数据，1类: 2443数据，2类: 5292数据，3类: 873数据

浏览 4提问于2020-01-11得票数 0

1回答

平衡XGboost仍然倾向于多数类

、、、

对于多类分类，我有不平衡的数据集，我尝试在XGboost中使用类权重选项，而分类器仍然倾向于支持大多数类。我不确定我是否需要调整其他的东西，或者我应该如何处理这个问题。如果阿尔戈预测的地方到处都是，我仍然能理解，但不确定为什么它仍然偏向于多数阶级。有什么指示吗？更新:我的意思是大部分的预测仍然是针对主修班的，在测试和训练中，这个比例大约是30%。

浏览 0提问于2019-03-11得票数 2

1回答

不平衡的学习问题-样本外与验证

、

我正在训练三个班级，其中一个占主导地位的班级约占80%，其他两个班级甚至。我能够使用欠采样/过采样技术来训练模型，以获得67%的验证准确率，这对于我的目的来说已经相当不错了。问题是这种性能只存在于平衡的验证数据上，一旦我用不平衡的数据对样本外进行测试，它似乎就偏向于甚至类预测。我也尝试过使用加权损失函数，但在样本之外也没有什么乐趣。有没有好的方法来确保验证性能的转换？我曾

浏览 6提问于2019-07-10得票数 0

1回答

如何在非平衡数据的二分类问题中选择合适的神经网络？

、

但是我的数据是不平衡的。我有2个特征列和1个输出列(1/0)。我有10000的数据。在输出1中只有20个结果中，所有其他结果都是0。然后我将数据大小扩展到40000。由于数据是不平衡的(0支配1)，哪个神经网络更适合进行正确的预测？

浏览 0提问于2018-11-01得票数 0

1回答

为图表选择代表性样本的算法

、

示例：我有100个特定时间段的样本。但是我只能使用10个值来绘制折线图。如果我使用所有100个精确的样本来绘制图表，我可以使用什么算法来计算这10个代表值，使图表看起来类似。计算每10个样本的平均值的朴素算法不能很好地反映图表中的峰值。

浏览 5提问于2012-03-18得票数 4

回答已采纳

1回答

在smote之后调整预测概率

、、、

我有一个不平衡的数据集，我使用smote对少数类进行过采样，而对多数类进行欠采样。现在，我想使用模型的predict_proba检查测试AUC。2.我如何校正它(欠采样和过采样的组合！)

浏览 40提问于2019-11-22得票数 0

1回答

使用pytorch python的欠采样和过采样的不平衡分类

、、、

我想一起使用过采样和欠采样技术我有6个类，样本数如下:类0 250000类1 48000类2 40000类3 38000类4 35000类5 7000我想使用smot来使所有类平衡且大小相等类0 40000类1 40000类2 40000类3 40000类4 40000类5 40000我知道如何对所有数据进行过采样或欠采样，但如何将它们与多类分类一起使用

浏览 124提问于2021-08-24得票数 0

4回答

如何在R中平衡不平衡分类1:1和SMOTE

、、

我正在做二进制分类，我当前的目标类由:坏: 3126好:25038组成示例1：smoted_data <- SMOTE(targetclass~., data,

浏览 3提问于2016-04-15得票数 6

1回答

随机森林模型的训练误差小于测试误差

、、

我一直在研究机器学习模型，我很困惑该选择哪种模型，或者是否有其他我应该尝试的技术。我正在使用随机森林来预测使用高度不平衡的数据集进行转换的倾向。目标变量的类平衡如下所示。UpSampling，然后使用欠采样。下面是我用于上采样和欠采样的代码tra

浏览 3提问于2018-11-22得票数 1

1回答

weka上烟尘与欠采样的组合

、、

根据chawla等人(2002)撰写的论文，平衡数据的最佳效果是将欠采样与平滑相结合。在weka有重采样，以减少多数阶级。在重采样的biasToUniformClass中有一个属性--是否对一个统一的类使用偏向。值0使类分布保持原样，值

浏览 4提问于2015-01-14得票数 2

2回答

机器学习分类问题中如何处理小而不平衡的数据集

、、

我正在处理一个非常具有挑战性的分类问题，其中我有三个问题:一个小的数据集(大约800个样本)，不平衡的数据集(4个类，每个类有1-600个样本，2/3/4-50个样本)，以及其中一个特征中缺少的数据。我一直在考虑的一些事情：将这一分类转变为少数群体和多数群体之间的二元分类。我打算作为分类器，朴素贝叶斯，支持

浏览 4提问于2015-11-19得票数 4

3回答

Smote无法进行过采样

我刚刚使用DMwR包中包含的Smote在我的数据集中进行了过采样。newData <- SMOTE(Score ~ ., data, k=3, perc.over = 400,perc.under=150) 现在，分布是60对72。然而，当我显示'newData‘数据集时，我发现SMOTE是如何进行过采样

浏览 5提问于2014-06-08得票数 2

2回答

如何编写bigquery SQL来对多数类的行进行欠采样，同时保留少数类的所有样本？

、

我正在尝试为一个二进制分类问题获取数据。数据集严重不平衡。我可以下载数据并执行多数类的欠采样，但我想知道如何使用BigQuery SQL直接执行此操作？换句话说，我希望选择目标列为1的所有样本，如果目标列为0，则忽略大量数据。样本数据集 id feat_1 feat_2 target2 x_2 y_4 1 3

浏览 30提问于2021-04-05得票数 0

2回答

scikit了解用于交叉验证的不平衡数据的欠采样

、、

如何在scikit-learn中生成用于交叉验证的随机折叠？假设我们有一个类的20个样本，另一个类的80个样本，我们需要生成N个训练集和测试集，每个训练集的大小为30，在每个训练集中，我们有50%的类1和50%的类2。我找到了这个讨论()，但我不明白如何获得折叠。

浏览 3提问于2013-12-21得票数 6

1回答

python中MLP分类器中的不平衡数据集

、、、

我正在处理不平衡的数据集，我试图建立一个使用MLP分类器的预测模型。不幸的是，该算法将所有观察值从测试集分类到"1“类，因此分类报告中的f1评分和回忆值为0。有人知道怎么处理吗？

浏览 0提问于2017-06-18得票数 8

回答已采纳

1回答

如何使用Python中的"imblearn“库为每个类指定精确的欠采样/过采样数量？

、、、、

我正在使用"imblearn“库进行欠采样。我的数据集中有四个类，每个类有20、30、40和50个样本数据(因为它是一个不平衡的类)。选择这些样本数是为了方便地描述问题，这些样本数在实际应用中并不是有效的数量。我想对每个有10个样本数据的类进行欠采样。有没有可能我可以用"imblearn“来做呢？目前，我正在使用以下代码对每个类进行欠采样，使

浏览 28提问于2020-06-01得票数 1

回答已采纳

1回答

应用欠采样技术训练和测试数据

、

假设您对培训数据应用了有针对性的欠采样技术(如TomekLinks )，以使模型能够更好地识别\单独的类。问题:如果要使用该模型对测试集进行预测，是否也对测试集执行相同的欠采样技术，还是仅在培训集上使用欠采样来帮助模型澄清类边界。然后将经过训练的模型应用于完整的测试集.

浏览 0提问于2021-11-04得票数 1

回答已采纳

2回答

Pytorch -如何使用加权随机采样器进行欠采样

、、、

我有一个不平衡的数据集，并希望对类进行欠采样，即overrepresented.How do I go。我想使用称重随机采样器，但我也对其他建议持开放态度。到目前为止，我假设我的代码必须像下面这样的结构。但我不知道该怎么做。

浏览 2提问于2020-02-20得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云