如何随机地对所有类别的数据进行采样？

、

我有一些数据和对应的标签，如下所示： data = [img1, img2, img3, ...] # total num of labels is 10 我想创建一个新的子数据集，其中一个类别有1000个样本，其他类别分别有100个样本。因此，子数据集中的总数据量将为1900。(1000 vs 900) (我的意图是为二进制分类创建子数据集) 因此，我需要以相同的数量随机采样所有每个类别的数据。

浏览 21提问于2019-12-08得票数 1

回答已采纳

1回答

在python中使用图像数据进行欠采样

、、、

欠采样的主要思想是随机删除具有足够观察值的类别，以便两个类别的比较比率在我们的数据中具有显着意义。那么，如何在python中对图像数据进行欠采样呢？请帮帮我：( 我从Kaggle那里获取了眼底图像数据。有5个类别的35127张图片。25810类数据，1类: 2443数据，2类: 5292数据，

浏览 4提问于2020-01-11得票数 0

1回答

R- randomForest中的上采样

、、

我有一个高度不平衡的数据，并希望对少数类进行上采样以提高准确性(少数类是感兴趣的对象)。有没有人可以建议一种在R中运行随机森林的方法，通过对少数类进行上采样(使用"

浏览 6提问于2013-02-15得票数 1

1回答

not NC无助于对我的混合连续/分类数据集进行过采样。

、、

当我使用SMOTE对四类分类问题中的三类进行过采样时，针对少数类的Prec、Recall和F1度量仍然很低(~3%)。我的数据集中有32个分类变量和30个连续变量。所有的分类变量已被转换为二进制列使用一热编码。此外，在进行过采样处理之前，我将使用Iterativeimputer计算所有缺失的值。关于分类器，我使用的是logistic回归，随机森林和XGboost。能告诉我你

浏览 0提问于2019-08-09得票数 0

1回答

基于朴素贝叶斯的Twitter情感分析只返回“中性”标签

、

我已经将我的代码包含在下面，因为我对任何机器学习都不是很有经验，所以我将非常感谢任何帮助。我尝试过使用不同的tweet集合来进行分类，即使指定了一个搜索关键字，比如“happy”，它仍然会返回“中立”。

浏览 25提问于2019-05-19得票数 0

回答已采纳

1回答

Python SkLearn梯度提升分类器Sample_Weight澄清

、、、

我使用的设置是选择随机样本(随机)。对其中一个二进制类(结果= 0)使用sample_weight 1，对另一个类(结果= 1)使用20。我的问题是，这些权重是如何在“外行术语”中应用的。在每次迭代中，模型将从样本中为0结果选择x行，为1结果选择y行，然后sample_weight设置将生效并保留所有x，但将y (1)结果过度采样20倍？在文档中，我不清楚sample_weight > 1是否是过采样。我知道c

浏览 3提问于2018-08-30得票数 0

回答已采纳

2回答

如何判断下采样对模型性能是否有帮助

、

对不平衡数据进行逻辑分类器的拟合。我的目标变量是5% 1 95% 0。因此，我认为最好使用PR-AUC来评估模型，而不是使用ROC-AUC。我得到了0.1的PR-AUC，这总比什么都没有好。另一种可能提高性能的方法是降低对多数类的采样(或者对少数类或某些组合进行上采样，但让我们坚持向下采样)。问题是，如何判断下采样是否确实有助于模型的性能？与ROC-AUC (<

浏览 0提问于2022-01-12得票数 0

回答已采纳

2回答

Tensorflow负采样

、

softmax_biases, 现在我了解到第二个语句是用于采样负标签的但问题是，它如何知道负面标签是什么？我提供的第二个函数是当前输入及其对应的标签，以及我想(负)采样的标签的数量。是否存在从输入集本身进行采样的风险？这是完整的示例：

浏览 4提问于2016-06-07得票数 11

回答已采纳

2回答

Pyspark中的过采样或SMOTE

、、、

我有7个类，记录总数是115，我想对这些数据运行随机森林模型。但由于数据不足以获得较高的准确率。因此，我希望对所有类应用过采样，以使多数类本身获得更高的计数，然后相应地少数类。

浏览 1提问于2018-12-27得票数 6

2回答

极小数据集的二进制分类(<40个样本)

、、

我试图在一个非常小的数据集上进行二进制分类，包括3个负样本和36个正样本。我一直在测试不同的模型从科学学习(逻辑回归，随机森林，svc，mlp)。我读过使用玫瑰或各种口味的打击炮的过度采样技术，但也读到过采样会导致过度适合或不会提高性能。我尝试过过采样训练集，根据数据如何分割成火车/测试，不同的模型都能够正确地分类未见的数据(日志记录除外)。当不过度采样和仅仅执行特征选择时，调优超参数(例

浏览 0提问于2022-07-14得票数 2

回答已采纳

1回答

平衡XGboost仍然倾向于多数类

、、、

对于多类分类，我有不平衡的数据集，我尝试在XGboost中使用类权重选项，而分类器仍然倾向于支持大多数类。我不确定我是否需要调整其他的东西，或者我应该如何处理这个问题。

浏览 0提问于2019-03-11得票数 2

2回答

多类训练示例(行)在熊猫数据中按指定值重复和在样本下进行

、、、

我想让一个多级别的熊猫数据更加平衡的训练。Es))下随机选择少数类(Es)，然后将少数类(Es)随机转换为每个类指定的值，以获得更平衡的数据。问题是，我在网上可以找到的所有熊猫教程，或者是关于堆栈溢出的其他问题，都是关于随机过采样少数类到多数级(例如：)的问题，或者是随机抽取多数类到少数类级别的问题。例如, 如

浏览 5提问于2021-07-16得票数 3

回答已采纳

3回答

在数据集上应用随机过采样的时间

、、、、

然而，当该人进行过度抽样时，他会在整个数据集上进行。我知道过采样只能应用于训练数据集。weighted avg 0.86 0.75 0.78 1208 因此，我想知道我是否正确地将过度抽样应用于培训数据</

浏览 0提问于2022-09-05得票数 4

2回答

不平衡数据集的定义是什么？

、

我有数千个数据源，从类似类型的硬件中生成数据。然而，不同的来源在数据集中产生了不同的动态！不同数据源上的类数不同，因此需要建立不同的模型。这意味着，在最后，我有许多不同的模型要评估。类似的输入，但在输出时要预测的类数是不同的。现在，我正试图在更

浏览 0提问于2019-12-09得票数 3

4回答

不平衡类:星火MLLib中ML算法的class_weight

、、、

在python学习中，有多种算法(例如回归、随机森林.等)具有处理不平衡数据的class_weight参数的。谢谢!

浏览 0提问于2016-12-07得票数 8

1回答

重复行的随机抽样

、、

2列的唯一方法是对行进行采样。我需要随机采样50 x 1行、50 x 2行、50 x 3行、50 x 4行等等，直到59行。理想情况下，每个样本集输出为一个数据帧。因此，我最终得到了59组随机采样的数据。本质上，这与创建数据的随机子集是相同的。例如，我有这个代码，它产生10个随机采样行的df。sample_df<-df[sample.int(nrow(df

浏览 1提问于2018-06-04得票数 0

1回答

应用洞察中的抽样度量数据

、

Azure应用程序Insight的抽样提到了以下内容：这是否意味着度量数据(性能计数器)总是被传输？在所有其他类型之前对度量进行采样不是很有意义吗？

浏览 5提问于2017-06-24得票数 0

回答已采纳

3回答

200多个类中高度不平衡的数据集

、、、

我有一个文本数据集，在这里，我需要训练一个分类器来将标题分类。数据集形状超过575000。这里有256个目标类。问题是数据集是高度不平衡的。为了处理不平衡的数据集，对多类(比如3类)进行过采样和欠采样。但在我的例子中，有256个类。如何在这种情况下对数据集进行采样？如何以一种方式对数据

浏览 0提问于2019-09-28得票数 2

1回答

使用pytorch python的欠采样和过采样的不平衡分类

、、、

我想一起使用过采样和欠采样技术我有6个类，样本数如下:类0 250000类1 48000类2 40000类3 38000类4 35000类5 7000我想使用smot来使所有类平衡且大小相等类0 40000类1 40000类2 40000类3 40000类4 40000类5 40000我知道<

浏览 124提问于2021-08-24得票数 0

1回答

随机选择要包含在group BY中的组值

、

我有一个相当大的表，所以我想对用户的整个表执行group by，但只返回随机抽样的10%用户的数据。我知道如何统一地对行进行采样，但是有没有一种简单的方法可以在用户字段中随机决定将哪些用户包括在组中？

浏览 2提问于2016-08-31得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在python中使用图像数据进行欠采样

R- randomForest中的上采样

not NC无助于对我的混合连续/分类数据集进行过采样。

基于朴素贝叶斯的Twitter情感分析只返回“中性”标签

Python SkLearn梯度提升分类器Sample_Weight澄清

如何判断下采样对模型性能是否有帮助

Tensorflow负采样

Pyspark中的过采样或SMOTE

极小数据集的二进制分类(<40个样本)

平衡XGboost仍然倾向于多数类

多类训练示例(行)在熊猫数据中按指定值重复和在样本下进行

在数据集上应用随机过采样的时间

不平衡数据集的定义是什么？

不平衡类:星火MLLib中ML算法的class_weight

重复行的随机抽样

应用洞察中的抽样度量数据

200多个类中高度不平衡的数据集

使用pytorch python的欠采样和过采样的不平衡分类

随机选择要包含在group BY中的组值

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐