使用sklearn.model_selection拆分不平衡数据集_多类数据集不平衡_使用Keras深度学习的不平衡数据集 - 腾讯云开发者社区

scikit-learn、hyperparameters、gridsearchcv

因为我所处理的数据是非常不平衡的，所以我需要“选择”算法分割训练/测试集的方式，以确保在这两个集合中都存在代表不足的点。通过阅读scikit的文档，我认为为GridSearch设置拆分策略是可能的，但我不确定是如何实现的，也不确定是否如此。如果有人能帮我做这件事，我将非常感激。

浏览 19提问于2021-12-08得票数 0

1回答

指定在使用sklearn中的train_test_split时类中的最大项目数

python、scikit-learn、scipy

我正在处理高度不平衡的数据集，并使用来自sklearn.model_selection的train_test_split 我在这个数据集中有10000个项目，类的比率大约是10/2/2/1，我要寻找的是一种平衡train拆分的方法，当最大的类达到最大数量时，我希望停止向其添加元素。有没有可能限制项目的数量，我知道拆分后可以删除多余的项目，但我想知道是否有这样的选项？

浏览 1提问于2018-09-05得票数 0

1回答

使用sklearn.model_selection拆分不平衡数据集

python、machine-learning、scikit-learn、dataset

我使用以下代码将我的数据集分割为训练/val/测试集。from sklearn.model_selection import train_test_split train_test_splitX_val, y_test, y_val = train_test_split(X_test, y_test, test_size=0.5, random_state=42) 问题是我的<e

浏览 11提问于2019-05-07得票数 0

回答已采纳

2回答

是什么使验证集成为测试集的良好代表？

python、scikit-learn、cross-validation、class-imbalance

我正在开发一个使用不平衡数据集的分类模型。我试图使用不同的抽样技术来提高模型的性能。我从以前的一个问题中了解到，数据从训练集泄漏到验证集，在拆分数据之前对数据进行过采样可能会导致这种情况。但还有其他明显的原因吗？有些分类问题可能在目标类的分布上表现

浏览 0提问于2020-09-29得票数 0

回答已采纳

1回答

在Keras中，使用validation_split (在"fit“方法中)和model.evaluate函数之间的最佳选择是什么？

python、tensorflow、keras

在Keras中，有两种方法(至少)来分割数据和显示丢失/准确性：在Keras函数中，有一个validation_split选项，允许将数据集拆分为训练和测试集，并在培训期间显示丢失/准确性值。拆分数据的另一种方法是在代码开始时将其拆分(例如使用train_test_split函数)，使用培训集对数据进行培训，然后使用model.evalu

浏览 0提问于2021-02-08得票数 0

回答已采纳

3回答

对于分类问题，对数据集进行分割的正确步骤是什么？

python、machine-learning、lstm、train-test-split

我有一个大小为(302, 100, 5)的数据集，(95,100,5)属于class 1.我想使用LSTM执行分类(从，序列数据) 由于这些类没有相同的分布集，我如何分割用于培训的数据集？选项2 :将两个类数据集平分[(95,100,5) - class 0 & (95,100,5) - class 1]，对其进行洗牌，train_test_split，继续训练。For refere

浏览 0提问于2019-07-22得票数 0

回答已采纳

1回答

不平衡数据集分类的步骤是什么？

python、machine-learning、classification

我想使用SVM、随机森林和深度神经网络(DNN)对两个不同的数据集进行分类。我的一个数据集是平衡的，另一个数据是高度不平衡的。下面是我的数据集的图像，它对于分类是不平衡的。 ? 我想要比较用于这两个数据的所有机器学习的分类结果。哪个数据集产生更好的分类结果。对于平衡数据集，我没有问题，因为可以正常处理它，但对于不平

浏览 20提问于2019-04-12得票数 0

1回答

scikit学习的训练-测试分离导致在训练数据中只有一个唯一值的特征

pandas、scikit-learn、linear-regression、train-test-split

我有一个名为'main‘的数据集。该数据集中类别变量很少。我简化了分类变量。假设虚拟后得到的列是A、B、C、D等。现在，当我试图在这个主数据集上运行训练测试拆分时，这样获得的训练数据集在其中一列中只有0值。我怎样才能克服这个问题。我使用的代码是：对于训练-测试拆分： from sklearn.model_selection import train_test_split np.rand

浏览 7提问于2019-01-24得票数 1

2回答

train_test_split在分层数据上未按预期工作

python、machine-learning、scikit-learn

我试图以分层的方式拆分我的数据。我认为来自sklearn的train_test_split在不平衡的数据集上不能以预期的方式工作。下面是一个示例： from sklearn.model_selection import train_test_split y = [7我是不是缺少了一些东西来正确地进行这种拆分？

浏览 12提问于2019-04-05得票数 1

1回答

分层训练/测试拆分，保证包含强不平衡数据集上的小类

python、scikit-learn、train-test-split

我正在处理大规模的、不平衡的数据集，其中我需要选择一个分层的训练集。然而，即使数据集是严重不平衡的，我仍然需要确保至少每个标签类至少包括在训练集中一次。下面是一个示例： import numpy as np [48 49]

浏览 32提问于2021-01-09得票数 0

3回答

不平衡数据集拆分

validation、machine-learning、classification

什么是不平衡dataset的最佳技术？如何拆分dataset以进行测试(在技术之前或之后)？

浏览 0提问于2018-07-15得票数 0

1回答

关于不平衡类的辅助权值

class-imbalance、weighted-data

考虑一个将被拆分为训练和测试的数据集。该模型将使用火车组学习，并使用未见测试集进行评估。现在，数据集是不平衡的--它包含了更多属于特定类的示例。在这种情况下，平衡它的方法之一(除了这里提到的方法：不平衡数据集分类的训练、测试分割)是根据样本分配权重。分配权重的正确方法是什么？我是否应该在整个数据集上分配权重，然后分割成训练和测试？

浏览 0提问于2019-11-24得票数 1

回答已采纳

1回答

高度不平衡的分类步骤。我应该上采样和下采样数据，还是只上采样不平衡的类

python-3.x、imbalanced-data、smote

我有一个高度不平衡的二进制(是/否)分类数据集。数据集当前有appx 0.008% 'yes‘。我遇到了两种方法来处理这种不平衡。undersample)]x_scaled_s, y_s = pipeline.fit_resample(X_scaled, y) 这导致数据集的

浏览 3提问于2020-05-14得票数 0

1回答

如何使用自定义类层来学习kFold？

python、scikit-learn、cross-validation、k-fold

我正在阅读这篇关于如何对非常不平衡的数据集执行适当的KFold的article。在最后一个示例中，它展示了如何将数据集拆分为2折，50/50训练/测试。这一切都很酷也很有趣。然而，我想知道如何进行拆分，同时还可以控制每个文件夹中的类分布，例如50/50 class0/class1 (也称为欠采样/过采样)。=8, 1=8, 有没有什么方法可以用sklearn.model_selection方法实现这一

浏览 9提问于2020-04-16得票数 0

1回答

分列列车/准确行数测试

python、dataframe、scikit-learn

有大约6,000,000行的数据集。我使用以下代码将数据集拆分为火车集和测试集：train, test = train_test_split(df, test_size=0.3, random_state=42) 我想要的是将测试集精确地拆分到一定数量的行上，例如，测试集的5

浏览 3提问于2021-02-09得票数 4

回答已采纳

1回答

不平衡数据的首选方法

classification、class-imbalance、smote、imbalanced-learn

我正在建立一个目标变量不平衡的二进制分类模型(13%的1级和87%的0级)。我正在考虑以下三种方法来处理数据不平衡 Option1:创建一个平衡的训练数据集，其中目标变量的分割率为50% / 50%。备选方案2:将数据集采样为-is(即87% / 13%拆分)，并使用过采样方法(例如SMOTE)将目标变量平衡为50% / 50%拆分。选项3:使用具有适当超参数的学习方法

浏览 0提问于2020-04-14得票数 1

1回答

scikit学习CV出错

python、scikit-learn、cross-validation

当我尝试在Python中执行以下操作时但是当我尝试定义KFold时 kf=KFold(33,10, shuffle=

浏览 0提问于2017-08-10得票数 0

1回答

当使用过抽样和简历对模型进行培训时，我是否需要使用AUPRC报告不平衡数据集的分类结果？

machine-learning、classification、class-imbalance、performance、imbalanced-learn

我正在研究一个二进制分类问题，其中数据集有大约5%的正类样本。我拆分了数据集，70%用于培训，30%用于测试。我只使用了一次测试数据来报告模型的性能。由于这种不平衡，我在培训数据集中使用了SMOTE对少数族裔类进行重采样。此外，我还根据如何提升样本、简历和网格搜索的建议，使用CV和网格搜索来优化模型性能，以避免数据泄漏。假设我正确地处理了培训过程，我想知道如何在测试数据</

浏览 0提问于2022-08-17得票数 0

2回答

不平衡数据集上的GridSearch

machine-learning、scikit-learn、hyperparameter-tuning、imbalance

我试图使用网格搜索为我的模型找到最佳参数。在进行交叉验证时，我知道必须执行Nearmise欠采样方法，在使用交叉验证之前，我是否应该将网格搜索与我的低采样数据集(无论在抽样技术下是哪种数据集)或我的整个培训数据集(整个数据集)进行匹配？

浏览 0提问于2021-02-16得票数 0

1回答

具有阈值的多输出图像分类的分割数据集

python、scikit-learn、split

我使用sklearn.model_selection中的StratifiedShuffleSplit来拆分数据集。但它只适用于1个标签。那么，如何对两个标签进行分层拆分，并为每个标签中每个类别中的样本数量添加阈值？对不起，我的英语不好。from sklearn.model_selection import StratifiedShuffleSplit split = StratifiedShuffleSplit(n_splits=1,

浏览 0提问于2021-10-12得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

是否可以为GridSearchCv设置拆分策略？

指定在使用sklearn中的train_test_split时类中的最大项目数

使用sklearn.model_selection拆分不平衡数据集

是什么使验证集成为测试集的良好代表？

在Keras中，使用validation_split (在"fit“方法中)和model.evaluate函数之间的最佳选择是什么？

对于分类问题，对数据集进行分割的正确步骤是什么？

不平衡数据集分类的步骤是什么？

scikit学习的训练-测试分离导致在训练数据中只有一个唯一值的特征

train_test_split在分层数据上未按预期工作

分层训练/测试拆分，保证包含强不平衡数据集上的小类

不平衡数据集拆分

关于不平衡类的辅助权值

高度不平衡的分类步骤。我应该上采样和下采样数据，还是只上采样不平衡的类

如何使用自定义类层来学习kFold？

分列列车/准确行数测试

不平衡数据的首选方法

scikit学习CV出错

当使用过抽样和简历对模型进行培训时，我是否需要使用AUPRC报告不平衡数据集的分类结果？

不平衡数据集上的GridSearch

具有阈值的多输出图像分类的分割数据集

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐