在训练/测试拆分之前还是之后对列进行因子分解？

我有一个60-20-20的训练，验证和测试集。我用XGboost得到了大约76%的准确率。我将我的数据转换为时间序列，并应用LSTM/1-D Convnet，准确率约为60%。我的数据集是否太小，无法进行深度学习？其次，可以在每个训练上应用SMOTE，测试和验证集(在拆分数据之后)我知道在将数据拆分到训练/测试/验证之前</

浏览 34提问于2019-09-04得票数 0

2回答

前处理前与后处理前的列车、试验分车的区别

、

我在预处理方面有点困惑。一般来说，场景1:我将数据集分解为训练、测试和验证，并应用诸如列车上的fit_transform和测试上的转换。场景2:另一种方法是首先对整个数据集应用转换，然后将数据集拆分为训练、测试和验证。在预处理和特征工程之前，或者在预处理和特征工程之后，我对数据的选择、划分有些困惑。寻找一个很好的答案与效果和棺材。

浏览 0提问于2019-03-07得票数 4

回答已采纳

3回答

是否在分割训练和测试数据之前或之后对数据进行标准化？

、、、、

我想将我的数据分成训练集和测试集，我应该在拆分之前还是之后对数据进行归一化？在构建预测模型时会有什么不同吗？

浏览 0提问于2018-03-23得票数 51

回答已采纳

2回答

Logistic岭回归预测ROC/ AUC及R精度检验编码

我正在尝试拟合Logistic Ridge回归，并开发了如下模型；我需要帮助进行编码，以测试其准确性和带有阈值的ROC/AUC曲线。100, lambda.min.ratio=0.0001)best.lambda <- cv.out$lambda.min[1] 5.109392y.pred <- as.matrix(ridge.mod,newx=newx, type="cl

浏览 0提问于2017-09-29得票数 0

2回答

最好在拆分为训练集和验证集之前或拆分后将MinMaxScaler应用于数据集

、

我真的很困惑什么时候应该对我的数据集应用MinMaxScaler或scaling，无论是在拆分到train_test_split之前还是拆分到训练和验证拆分之后，然后在X_train上进行拟合和变换，在X_test上进行变换。我真的很困惑在应用这个时的一般经验法则是什么…

浏览 0提问于2020-07-31得票数 0

4回答

如果测试数据中存在新的因子水平，则R中的随机森林包在预测()期间显示错误。有什么方法可以避免这个错误吗？

、

在我的训练数据中，我有30个预测因子水平。在我的测试数据中，同样的预测因子也有30个因子水平，但有些水平是不同的。除非这些水平完全相同，否则randomForest不会预测。它显示错误。表示，predict.randomForest(模型、测试)中的错误训练数据中不存在新的因子水平

浏览 2提问于2013-06-12得票数 4

回答已采纳

1回答

我知道，估算缺失的值正是它听起来的样子，我说的是用列的平均值来估算它。通常，在将数据分解为训练和测试之前，我会计算丢失的值，但随后我看到了这样的：警告:如果您想将它用于机器学习/数据科学:从数据科学的角度来看，首先替换NA然后分裂成火车和测试是错误的。你必须先分裂成火车和测试，然后用火车上的平均值替换NA，然后应用这个有状态的预处理模型进行测试，请看下面涉及滑雪的答案！- Fabian Werner 28

浏览 4提问于2020-02-23得票数 1

回答已采纳

1回答

何时使用scikit学习的train_test_split

、、、、

现在我需要做缺失值补充，然后使用scikit的OneHOtEncoder对分类变量进行编码，然后运行机器学习算法。我的问题是，我应该在使用split的train_test_split方法做上述所有事情之前拆分这个数据集，还是应该首先拆分成训练和测试，然后对每组数据进行缺失值和编码。我担心的是，如果我首先拆分，然后对得到的两个集合进行缺失值和其他编码，当对测

浏览 0提问于2015-05-05得票数 6

1回答

在生成文档术语矩阵之前或之后分成测试和训练集？

、、、

我感到困惑的是，在分裂成测试和训练集之前，我是否需要生成文档项矩阵，还是应该在拆分成测试和训练之后生成文档项矩阵？我尝试了这两种方法，发现在生成文档项矩阵之前，当I对数据进行拆分时，准确性会略高一些。但对我来说，这是毫无意义的。准确性不应该一样吗？这些操作的顺序有什么不同吗？

浏览 1提问于2020-03-12得票数 2

回答已采纳

1回答

特征归一化分类(SVM)

、

我有一些关于归一化的问题:当你提取特征时，你想在分类之前对特征进行归一化。你如何对特征进行标准化(例如，你拥有的两个类)？1-你分别对每个类进行标准化吗？还是将两个类一起归一化?2-在拆分、trianing和测试之前，是否对整个数据进行归一化？或者你先标准化训练，然后分别标准化每个新的测试样本? 3-有什么参考吗？书还是

浏览 4提问于2018-06-20得票数 0

1回答

列车测试分裂前后时间序列特征丰富？

、、、、

我正在处理一个时间序列，它表示在Azure虚拟机上注册的CPU使用情况。历史数据包括19个月，其粒度为10分钟1( CPU使用级别已注册的每10分钟)。我的主要目标是对趋势进行长期(提前一周)预测.在乞讨时，我的原始数据集中只有一个列- usageLevel可用。当然，在尝试任何预测模型之前(我将测试XGBoost、LSTM、变压器等)。通常的做法是进行广泛的功能丰富。有多种策略和想法推荐--其中一些包括移动平均功能和日历功能。我已

浏览 0提问于2022-12-11得票数 0

1回答

在培训、测试和生产过程中如何准备数据？

、、、、

有时，我们还会在输入特性列以训练模型之前对其进行标准化/规范化。我的第一个问题是如何在这个分裂的数据集中进行特性工程？我们是使用未分割特征的全局平均值来替换训练和测试集中这些特征的缺失值，还是应该使用这些集合的本地均值？就像上面的问题，我们如何对火车，测试数据集进行规范化？

浏览 0提问于2020-12-16得票数 4

1回答

使用数据集B的参数缩放数据集A

、

我有一个数据集，我已经将其拆分为训练集和测试集。这意味着当我对它们进行缩放时，我应该将数据值缩放到训练集，然后使用相同的缩放比例来缩放测试集。特别是，我只想缩放这两个集合中的两个列。在Python中，我可以使用scaling类来实现这一点--我只需在训练集上调用fit_transform，然后在测试集上调用transform。但在R中，我不确定最简单的方法。我可以

浏览 9提问于2018-12-19得票数 1

回答已采纳

2回答

使用验证、培训和测试集之间的顺序

、、

在中，这似乎意味着顺序应该是：将

浏览 1提问于2019-01-10得票数 1

回答已采纳

1回答

火车测试分裂后使用LabelEncoder在分类变量中编码未见/新标签？

、

我的老师解释说，为了防止数据泄漏，在列车测试拆分之后对分类变量进行编码是很重要的，并通过一个使用LabelEncoder (来自sklearn)的示例演示了这些变量，但是当我试图在另一个包含了列中超过1000个不同标签/对象(datatype: object)的数据文件上做同样的操作时，我遇到了一个问题：为了解决这个问题，我在火车测试分裂之前</e

浏览 1提问于2021-06-27得票数 1

回答已采纳

1回答

支持向量机-在GridSearchCV之前处理图像数据吗？

、、、

对于每个数据集，我想训练一个支持向量机(用Python Learn)，在每种情况下，超参数都是使用GridSearchCV进行优化的。一些有序的数据集仍然需要分成训练数据和测试数据，这些数据在使用train_test_split之后将以混合的形式出现，据我所知，在使用GridSearchCV之前不必再次混合。其他有序的数据集已经分为训练数据和测试数据，因此我将直接应用GridSearchCV。现在我

浏览 0提问于2019-07-30得票数 2

1回答

编码前还是火车后测试分裂？

、、、、

我对ML很陌生，并且使用大量具有高度基数的分类变量的数据集。我可以检查一下为什么要这样做吗？为什么我们不能在火车测试分裂之前就应用编码？这有什么区别？

浏览 0提问于2022-02-01得票数 5

回答已采纳

1回答

带训练和测试集的removeSparseTerms

、

当我使用tm包进行文本挖掘时，我通常会遵循一个非常类似的工作流：data(crude)crude = tm_mapspl) 基本上，我对语料库进行预处理，构建文档项矩阵，删除稀疏项，然后分割成一个训练和测试集。虽然这在tm包中非常容易，但我不喜欢的一点是，它隐式地使用培训和测试集来确定包含哪些术语(也称为removeSparseTerms，然后再分解成培训和测试集

浏览 2提问于2013-12-22得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云