train_test_split在分层数据上未按预期工作

train_test_split是机器学习领域常用的一个函数，用于将数据集划分为训练集和测试集。然而，在分层数据上，train_test_split可能无法按预期工作。

分层数据是指数据集中的样本按照某个特征进行分层，确保每个层级中的样本比例与整体数据集中的比例相似。这种分层的目的是为了保持数据集的代表性，以便更好地评估模型的性能。

train_test_split函数在默认情况下是随机划分数据集的，它会将数据集中的样本按照一定比例划分为训练集和测试集。然而，在分层数据上，train_test_split可能无法保持每个层级中样本的比例，导致训练集和测试集的分布不一致。

为了解决这个问题，可以使用StratifiedShuffleSplit函数来进行分层划分。StratifiedShuffleSplit函数会根据指定的特征进行分层，并在每个层级中随机选择样本，以保持每个层级中样本的比例。

腾讯云提供了一系列与机器学习相关的产品，其中包括腾讯云机器学习平台（Tencent Machine Learning Platform，TMLP）。TMLP提供了丰富的机器学习算法和工具，可以帮助用户进行数据处理、模型训练和性能评估等任务。您可以通过以下链接了解更多关于TMLP的信息：腾讯云机器学习平台

另外，为了更好地处理分层数据并进行模型评估，您还可以考虑使用交叉验证（cross-validation）的方法。交叉验证将数据集划分为多个子集，每次使用其中一部分作为测试集，其余部分作为训练集，多次重复这个过程以获得更稳定的模型性能评估结果。

总结起来，train_test_split在分层数据上未按预期工作时，可以考虑使用StratifiedShuffleSplit函数进行分层划分，或者使用交叉验证方法进行模型评估。腾讯云提供了机器学习平台（TMLP）等相关产品，可以帮助用户进行机器学习任务的处理和评估。

关于滑雪的StratifiedShuffleSplit的问题

machine-learning、python、scikit-learn、statistics

我正在阅读Aurélien Géron著的“用Scikit进行机器学习-学习和Tensorflow”一书。在一个关于加州房价的回归项目中，他研究了分层抽样的概念。我想我理解他的解释：“人口被划分为同质的亚组，称为地层，每个阶层抽样正确的实例数，以保证测试集代表整个人口。” 所以用我自己的话说，简单地用sklearn的train_test_split分割数据集就会使训练和测试集很容易被错误地反映出分类变量的比率(即总体有40%的类别，60%的类别，但是这些类别的训练/测试集的比率是完全不同的)，所以分层确保样本是‘随机的’，但是在测试和训练分割中仍然保持适当的比率。如果我错了，请纠正我。以下

浏览 0提问于2019-04-30得票数 6

回答已采纳

1回答

如何从交叉验证的数据创建学习曲线？

validation、machine-learning、artificial-intelligence、neural-network、cross-validation

我有一个算法，使用10倍交叉验证。在训练集中，我使用其中一个折叠来验证训练模型，然后再使用折叠上的学习模型进行测试。我想创建一个学习曲线，这意味着我需要改变训练集的大小。这是否意味着我也会随着培训数据而改变验证集的大小？这是否意味着我也需要改变测试集的大小(除了训练和验证折叠之外)？

浏览 1提问于2015-04-15得票数 1

回答已采纳

6回答

Weka中的交叉验证

validation、weka、fold

从我所读到的情况来看，我一直认为交叉验证是这样执行的：在k次交叉验证中，将原始样本随机分成k个子样本.在k个子样本中，保留一个子样本作为模型测试的验证数据，其余的k−1子样本作为训练数据。然后交叉验证过程被重复k次(褶皱)，每个k个子样本精确地使用一次作为验证数据。从褶皱中得到的k值可以被平均(或以其他方式组合)来产生一个单一的估计。因此，建立了k个模型，最后一个模型是这些模型的平均值。在Weka中，指南写道，每个模型总是使用所有的数据集来构建的。那么Weka中的交叉验证是如何工作的呢？模型是根据所有数据建立的，而“交叉验证”是否意味着创建k折叠，然后对每个折叠进行评估，最终的输出结果就

浏览 8提问于2012-05-03得票数 29

回答已采纳

2回答

如何将数据划分为训练集和测试集？

database、machine-learning、weka

有没有其他方法可以将数据分成训练集和测试集？ **例如，我有一个包含20个属性和5000个对象的数据。因此，我将12个属性和1000个对象作为我的训练数据，并将12个属性中的3个属性作为测试集。这种方法正确吗？

浏览 1提问于2014-04-17得票数 2

2回答

测量分类算法的性能

artificial-intelligence、machine-learning、nlp、classification、bayesian

我手头有一个分类问题，我想用机器学习算法来解决这个问题(贝叶斯或马尔可夫，这个问题与要使用的分类器无关)。在给定大量训练实例的情况下，我正在寻找一种方法来衡量实现的分类器的性能，同时考虑到数据过拟合问题。也就是说:给定N1..100个训练样本，如果我在每个样本上运行训练算法，并使用这些完全相同的样本来测量适应度，它可能会陷入数据过拟合问题-the分类器将知道训练实例的确切答案，而没有太多的预测能力，导致适应度结果无用。一个显而易见的解决方案是将手工标记的样本分成训练样本和测试样本；我想了解选择统计上有意义的样本进行训练的方法。白皮书，书籍指针，和PDF非常感谢！

浏览 3提问于2009-01-02得票数 8

回答已采纳

3回答

如何将不平衡数据集分割和重采样成列车、验证和测试

python、classification、scikit-learn、class-imbalance、imbalanced-learn

我想了解如何用二进制目标变量分割不平衡的数据集，其中87%的样本为负，13%的样本为正。现在，我知道，在进行任何类型的重采样以避免信息泄漏之前，您应该始终将数据分割成训练和测试集，但是怎样才能提供更好的结果--随机train_test_split或StratifiedShuffleSplit？普遍的看法是，在数据集不平衡的情况下，后者的表现似乎优于前者。顺便问一下，StratifiedShuffleSplit是如何工作的？此外，如何考虑交叉验证集和如何处理它？它是否还应包含相同数量的阳性和阴性样本，按照在培训集上进行的抽样？

浏览 0提问于2019-10-10得票数 4

回答已采纳

2回答

如何评价和分析机器学习算法的性能？

machine-learning、analysis、evaluation

抱歉如果我的问题听起来太天真了..。我是真正的机器学习和回归的新手，我最近加入了一个机器学习实验室作为一个硕士学生。我的教授想让我在实验室即将提交的一篇关于他们开发的回归算法的论文中写一篇“实验分析”部分。问题是，我不知道该怎么做，他说算法是稳定和完整的，他们写了论文的第一部分，我需要写评价部分。我真的不知道该怎么办。我参与了算法的编码，我非常理解它，但我不知道我必须完成哪些任务才能评估和分析它的性能。-where我能得到数据吗？-what是测试过程？-what是要做的分析？我刚开始研究和写论文，真的不知道该怎么做。我最近读了很多论文，但是我没有分析ML算法的经验。请您指导我，并解释(新手级)

浏览 8提问于2014-03-18得票数 1

回答已采纳

1回答

要求澄清分类器的准确性

machine-learning

我正在使用MATLAB中的分类学习者。在训练模型时，一些分类器的精度较高，而另一些分类器的精度较低。由于我是机器学习的新手，所以我想问一问，我们应如何从这一点出发，即我们是否只需要考虑精度最高的分类器？

浏览 4提问于2020-05-20得票数 0

回答已采纳

3回答

如何分割等类比例的训练/测试数据集

scikit-learn、pandas、predictive-modeling、training

我想知道如何将以下等号除法 Target 0 1586 1 318 为了使数据集中的0和1类所占的比例相同，如果我的数据集被称为df，并且包含10列，包括数值列和分类列。我会考虑以下几点 y=df['Target'] X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.1, stratify=y) 所以，做一个分层，但我不知道这是否正确，我希望你能确认它或提供一个替代的做法。数据样本 Fin Eco Target High percentag

浏览 0提问于2020-10-11得票数 9

回答已采纳

1回答

基于交叉验证的模型选择和超参数整定工作流程

machine-learning、cross-validation、model-selection

我一直试图教自己机器学习，并希望确保我对模型选择、超参数优化和交叉验证有正确的想法。因此，给定一个数据集，我的理解是，这是一般的工作流程。1.分成训练和测试2。在训练集上使用交叉验证来选择模型3。在选择模型后，用交叉验证进行超参数调整。对吗？另外，对于步骤3，应该使用整个数据集还是只使用测试集来进行调优？

浏览 0提问于2020-05-11得票数 -1

2回答

是什么使验证集成为测试集的良好代表？

python、scikit-learn、cross-validation、class-imbalance

我正在开发一个使用不平衡数据集的分类模型。我试图使用不同的抽样技术来提高模型的性能。对于我的基线模型，我定义了如下所示的AdaBoost模型： from sklearn.model_selection import KFold kf = KFold(n_splits=5, shuffle=False) ada = AdaBoostClassifier(n_estimators=100, random_state=42) params = { 'n_estimators': [50, 100, 200],

浏览 0提问于2020-09-29得票数 0

回答已采纳

2回答

数据集随机样本上超参数整定的缺点

machine-learning、bigdata、sampling、hyperparameter-tuning

我经常使用非常大的数据集，在构建机器学习模型时检查所有相关的超参数组合是不切实际的。我正在考虑随机采样数据集，然后使用该示例执行超参数调优。然后，我将使用所选的超参数使用完整的数据集来训练/测试模型。这种方法的缺点是什么？

浏览 0提问于2019-01-16得票数 1

回答已采纳

1回答

在GridSearchCV中对测试集进行预处理的问题

python、machine-learning、scikit-learn、cross-validation

我使用20%的数据集作为我的测试集，并使用GridSearchCV来实现K折交叉验证来调优超参数。通过使用管道，我们可以将列转换器和机器学习算法一起放入GridSearchCV中。如果我为GridSearchCV设置了5折交叉验证，该函数将使用5个不同的训练和验证集来训练和验证每个超参数组合。据我所知，GridSearchCV使用5折分数的平均值来选择最好的模型。那么我的问题是，它是如何转换测试集的？我对此感到非常困惑，因为为了避免数据泄漏，我们应该只使用训练集来拟合转换器，但在本例中，我们有5个不同的训练集，而我不知道GridSearchCV函数使用哪一个来拟合和转换验证和测试集。我

浏览 10提问于2021-11-17得票数 0

3回答

是否有必要将数据分成三个部分:训练、评估和测试？

python、tensorflow、keras、scikit-learn、conv-neural-network

描述了测试、训练和验证集的区别。在大多数关于训练神经网络的文档中，我发现这三个集合是使用的，但是它们通常是预先定义的。我有一个相对较小的数据集(总共906张3D图像，分布是平衡的)。在我的模型中，我使用sklearn.model_selection.train_test_split函数来拆分火车和测试集中的数据，并使用X_test和y_test作为验证数据。 X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=1) ... history = AD_model.fit(

浏览 4提问于2020-01-09得票数 1

回答已采纳

2回答

术语.分类任务的交叉验证试验和验证集

classification、cross-validation、matlab、terminology

( Confusion1)如果k=10，那么这是否意味着90%用于培训，10%用于测试？所以我们总是有k%来测试吗？在下面的代码中，我使用了10倍的交叉验证来训练支持向量机( Confusion2)。一般来说，数据集将分为(a)训练集、meas(trainIdx,:) (b)测试集、meas(testIdx,:) c)验证集。在交叉验证方法中，我通过在循环中进行训练和验证来构建支持向量机学习者。根据我的理解，验证数据必须与培训和测试完全不同。但是，在许多在线资源中，据说经过交叉验证后，必须对整个数据集进行重新培训，在本例中，该数据集将是meas(:,1:end)。如果是这样的话，那么交叉验证

浏览 0提问于2018-06-25得票数 2

回答已采纳

1回答

交叉验证后的Scikitlearn得分数据集

python、machine-learning、scikit-learn

我正在学习如何使用scikit- learning ()进行交叉验证。我的代码： from sklearn.cross_validation import train_test_split from sklearn.cross_validation import cross_val_score from sklearn import datasets from sklearn import svm iris = datasets.load_iris() # prepare sets x_train, x_test, y_train, y_test = train_test_split(i

浏览 1提问于2017-02-06得票数 1

回答已采纳

1回答

train_test_split对StratifiedShuffleSplit中的分层论证

scikit-learn、train-test-split

在sklearn的stratify函数中使用train_test_split参数与StratifiedShuffleSplit函数有什么区别？他们不是也这么做吗？

浏览 0提问于2020-04-19得票数 5

回答已采纳

5回答

如何不用交叉验证检查机器学习的准确性

python、machine-learning、scikit-learn、neural-network、random-forest

我有训练样本X_train，Y_train训练和X_estimated。我的任务是让我的分类器尽可能准确地学习，然后在X_estimated上预测结果向量，以得到接近Y_estimated的结果(我现在已经知道了，而且我必须尽可能精确)。如果我把我的训练数据分割成75/25来训练和测试，我可以使用sklearn.metrics.accuracy_score和混淆矩阵来获得准确性。但我失去了25%的样本，这将使我的预测更加准确。有什么办法，我可以通过使用100%的数据学习，仍然能够看到准确性评分(或百分比)，所以我可以预测它多次，并保存最佳(%)的结果？我使用的随机森林有500个估计，通常得到

浏览 12提问于2019-11-20得票数 2

回答已采纳

1回答

最终模型拟合-子集与整个训练数据

classification、hyperparameter-tuning、hyperparameter

如果我将整个可用培训数据的子集用于模型优化和超级参数选择，那么是否应该将最终模型与子集培训数据集或整个可用的培训数据相匹配？例如，如果我有1万个可用的样本，并且我将一个100 K的随机样本作为测试保留，而200 K的随机样本作为模型调优的训练数据集，那么用于在1) 200 K训练数据集上拟合最终模型的调优超级参数，还是2) 900 K可用数据(不包括测试保留)？换句话说，超参数可以推广到整个种群吗？我假设持久化数据集和训练数据集都是随机选择的，并遵循原始数据中的类分布。

浏览 0提问于2020-06-24得票数 0

回答已采纳

1回答

交叉验证过程

matlab、neural-network

我正在研究一种声音变形系统。我有源语音信号(分为测试、训练和验证)和目标语音信号(分为测试、训练和验证数据)。现在我正在设计一个具有三重交叉验证的径向基神经网络来寻找变形的语音小波系数。我需要用源和目标训练数据初始化网络，并使用训练和验证样本执行3折交叉验证。我认为根据交叉验证，我需要将我的数据集划分为3个部分，然后使用其中的2个用于训练，另一个用于测试。(对所有折叠重复此过程)。现在的问题是，我想知道我是否需要将我的源训练数据分成3部分或目标训练...？？因此，我需要知道如何应用交叉验证？有没有人能为我详细解释一下这个过程？

浏览 0提问于2012-02-23得票数 2

回答已采纳

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

train_test_split在分层数据上未按预期工作

相关·内容

关于滑雪的StratifiedShuffleSplit的问题

如何从交叉验证的数据创建学习曲线？

Weka中的交叉验证

如何将数据划分为训练集和测试集？

测量分类算法的性能

如何将不平衡数据集分割和重采样成列车、验证和测试

如何评价和分析机器学习算法的性能？

要求澄清分类器的准确性

如何分割等类比例的训练/测试数据集

基于交叉验证的模型选择和超参数整定工作流程

是什么使验证集成为测试集的良好代表？

数据集随机样本上超参数整定的缺点

在GridSearchCV中对测试集进行预处理的问题

是否有必要将数据分成三个部分:训练、评估和测试？

术语.分类任务的交叉验证试验和验证集

交叉验证后的Scikitlearn得分数据集

train_test_split对StratifiedShuffleSplit中的分层论证

如何不用交叉验证检查机器学习的准确性

最终模型拟合-子集与整个训练数据

交叉验证过程

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐