如何按账号拆分训练数据和测试数据(单变量)_按特定变量拆分训练和测试数据_如何将可迭代数据集拆分为训练数据集和测试数据集？ - 腾讯云开发者社区

python、split、logistic-regression

我想按帐户划分训练和测试数据(一个不起作用的变量)。我希望将它们按帐户拆分，并且每个帐户可以有很多变量。例如，80%的帐户将进行培训，20%的帐户将进行测试。我尝试过以下方法，但这段代码只给了我80%的训练和20%的随机测试。然后在训练数据中，它会给我一些帐户，但在测试数据中，它也会给我准确的帐户，只是不同的变量。这不是我想要的。

浏览 12提问于2019-05-29得票数 0

回答已采纳

1回答

CreateDataPartition不工作

r、cross-validation、r-caret、lme4

我正在尝试将数据划分为训练集和测试集，以便进行交叉验证。我使用以下行来拆分表示状态的因子变量上的数据，该变量具有多个级别。，并预测测试数据的值，但它总是说我在测试数据中有新的水平。我比较了训练数据集和测试数据集的状态级别，它们是相同的，因此似乎在训练数据和测试数据中都应该存在一个变量<

浏览 1提问于2015-02-14得票数 2

1回答

TreeBagger() (MATLAB)和不同数量的训练和测试集上的变量

matlab、machine-learning、random-forest

当测试数据的变量数量与训练数据的变量数量不同时，它会给出错误。我被告知，变量选择应该只在训练数据上进行，而不是在测试数据上，这样测试数据上就没有偏见。因此，在将初始数据集(50个变量)拆分为训练集和测试集后，我对训练集执行变量选择(独立性的卡方检验)。因此，训练集由37个<

浏览 0提问于2015-12-20得票数 1

2回答

按特定变量拆分训练和测试数据

python、logistic-regression、training-data

我正在尝试这个代码，将数据拆分成逻辑回归的训练和测试： ""“ from sklearn.model_selection import train_test_split X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=10) ""“ 在拆分列车和测试时，我想将其拆分

浏览 22提问于2021-01-23得票数 0

1回答

如何在RandomizedSearchCV中使用交叉验证拆分数据

scikit-learn、cross-validation、hyperparameters

我正在尝试使用RandomizedSearchCV将我的模型从单次运行转移到超参数调优。这是正确的方法吗？我的问题是:我如何访问剩余的33%的train_input以将其提

浏览 6提问于2018-02-10得票数 0

回答已采纳

1回答

训练和测试数据集是否应该使用相同的计算机系数？

scikit-learn、imputation、train-test-split

我正在学习如何准备数据，构建估计器，并使用训练/测试数据拆分进行检查。我的问题是如何正确地准备测试数据集。我将我的数据分成测试和训练集。('imputer', SimpleImputer(strategy="median")), ]) 在训练</

浏览 19提问于2019-08-21得票数 0

1回答

GATE工具中的机器学习

machine-learning、svm、gate

在使用GATE工具对训练数据运行机器学习算法(SVM)后，我想在测试数据上对其进行测试。我的问题是，我是否应该使用相同的训练数据进行测试，同时，模型如何从测试数据中提取实体，而测试数据没有使用训练数据中学习到的注释进行注释。我遵循了这个链接上的教程，但在最后，当它谈到将数据集拆分为训练和测试时，它有点令人困惑。

浏览 2提问于2014-08-28得票数 0

2回答

python如何选择每个用户的最新样本作为测试数据？

pandas、dataframe、machine-learning、pyspark

我的数据如下。我想按时间戳排序，并使用每个userid的最新样本作为测试数据。我应该如何做训练和测试分离？我尝试的是使用pandas来sort_values时间戳，然后按“userid”分组。得到测试数据的数据帧后，如何拆分数据？显然，我不能使用sklearn的train_test_split。

浏览 3提问于2019-11-13得票数 1

2回答

查找没有y_test的分类器的错误率

python、classification

我的测试数据没有标签，这意味着我只有x_train、y_train和x_test。有没有一种方法可以在没有准确度的情况下计算错误率？提前谢谢你！

浏览 17提问于2020-02-04得票数 0

1回答

交叉验证是否需要事先对数据进行分割/改组和拟合？

python、scikit-learn

我想知道在使用cross_validate_predict时是否需要在处理数据之前对数据进行洗牌，以及是否需要在使用之前对数据进行拟合：X_train

浏览 0提问于2021-06-16得票数 1

2回答

在机器学习算法的特征准备中何时去除离群点

data-cleaning、outlier

我有一个数值变量(价格)，它在训练和测试数据集中都有一个长尾。我发现，如果删除这个变量在训练和测试数据集中的最高值1%，那么这个变量的直方图和测试数据集看起来基本相同。见下图。📷 我的问题是:我仍然需要使用训练数据(包括特性和标签)对测试数据进行预测(仅使用特性)。在这种情况下，我应该如何处理这个特性变

浏览 0提问于2018-03-06得票数 5

回答已采纳

1回答

如何在使用inverse_transform进行训练和测试后，为训练和测试数据分配回分类变量？

machine-learning、scikit-learn、feature-engineering

如何在使用inverse_transform进行训练和测试后，为训练和测试数据分配回分类变量？像训练和测试一样，数据将有编码的数值。那么，如何在训练和测试之后为这些变量分配回分类值来训练和测试数据集呢？请帮我处理这个。

浏览 0提问于2020-07-31得票数 0

2回答

我的训练和测试数据集的每一行都有图像中像素的强度值，最后一列的标签告诉图像中表示哪个数字；该标签可以是训练集中从0到9的任何数字，并且总是？在测试集上。我在Weka Explorer上加载了训练数据集，通过NumericalToNominal过滤器传递数据，并使用RemovePercentage过滤器将数据按70:30的比例拆分，其中30%的文件用作交叉验证集然后，我加载了测试数据，其中？针对每一行

浏览 4提问于2013-01-17得票数 0

回答已采纳

1回答

将电影数据拆分成训练验证测试数据集

python、bayesian、precision-recall、recommender-systems

我非常有信心我的模型能够很好地学习我提供的数据，但现在是时候找出确切的模型超参数了，并尽量避免过度拟合。由于movielens数据集只为我提供了5倍的训练测试数据集，而没有验证集，因此我想自己拆分原始数据集来验证我的模型。由于movielens数据集包含943个用户数据，每个用户保证至少有20部电影排名，因此我正在考虑拆分数据，以便训练和测试数据集都包含相同数量的

浏览 5提问于2020-10-04得票数 0

1回答

如何使用PyTorch将数据从一个目录拆分为训练集和测试集？

python、neural-network、pytorch、training-data、torchvision

我有一个数据文件夹，它没有将数据拆分到训练和测试文件夹中。如何将数据拆分成训练集和测试集？标签来自文件的名称，因此任何按该顺序进行的更改都必须包括标签。我想在使用ImageFolder之前拆分数据，这样就可以在训练和测试数据集上完成不同的转换。

浏览 50提问于2020-05-04得票数 0

1回答

支持向量机-在GridSearchCV之前处理图像数据吗？

scikit-learn、svm、grid-search、gridsearchcv

我有不同的图像数据集，其中大部分是按类排序的，其他数据已经混合了。对于每个数据集，我想训练一个支持向量机(用Python Learn)，在每种情况下，超参数都是使用GridSearchCV进行优化的。一些有序的数据集仍然需要分成训练数据和测试数据，这些数据在使用train_test_split之后将以混合的形式出现，据我所知，在使用GridSearchCV之前不必再次混合。其他有序的数据</

浏览 0提问于2019-07-30得票数 2

1回答

正态回归和生存回归的预测限

linear-regression、cross-validation、survival-analysis、cox-regression

我拥有的最新泄漏数据是2017年发生的泄漏，该管道是在2009年安装的。我知道，我建立的普通ML模型无法很好地预测2009年后安装的管道的泄漏持续时间。我这么说的原因是因为我首先根据他们的“安装年”对数据进行了排序，然后做了一个训练测试拆分，看看它如何在预测测试数据集中发挥作用，我得到了%93R平方，但当我在火车测试拆分中关闭了混洗功能时(这意味着与正常的火车测试拆分不同，子集是随机选择的，数据将按第一个%80<em

浏览 0提问于2019-01-28得票数 0

1回答

Orange:如何确保相同的PCA同时应用于训练数据集和测试数据集？

orange

在Orange中，我可以将数据集附加到PCA以进行降维。通常，在代码中，我会在将经过训练的PCA与训练数据进行拟合后，将其应用于测试数据。有没有一种方法可以在测试数据的训练数据上运行PCA转换？

浏览 72提问于2020-02-22得票数 0

回答已采纳

5回答

数据科学中的训练数据和测试数据

data-science

我是python中相对较新的数据科学，在探索一些关于数据科学的竞争时，我对“训练数据集”和“测试数据集”感到困惑。一些项目合并了这两个项目，另一些项目则保持分离。拥有两个数据集的基本原理是什么？

浏览 1提问于2017-04-25得票数 0

2回答

如何进行训练测试拆分，以使Python中的每个类都有足够的训练和测试数据？

python、pandas、scikit-learn

我有一个数据集，它有5个类，分布如下： ? 从发行版中可以明显看出，类1的样本非常少。如何对这些数据进行训练-测试拆分，以便Python中的每个类别都有足够的训练和测试数据？

浏览 12提问于2019-05-25得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云