交叉验证-管道中未应用的定标器方法

文章/答案/技术大牛

发布

1回答

scikit-learn、pipeline、cross-validation

在使用Scikit Learn进行一些交叉验证时，我遇到了一个问题。我已经构建了一个包含2个元素的管道:一个缩放器和一个回归模型。我的问题是，我发现我在管道中配置的定标器方法在计算过程中没有被应用(即，考虑在内)。请检查一下我的笔记本，看看哪里出了问题。usp=sharing 下面是我使用的数据集的链接：https:/

浏览 16提问于2021-09-07得票数 0

2回答

在LassoCV、RidgeCV中使用缩放器

python、machine-learning、scikit-learn

我想使用scikit LassoCV/RidgeCV，同时在每个折叠训练集上应用'StandardScaler‘。我不想在交叉验证之前应用定标器以避免泄漏，但我不知道如何使用LassoCV/RidgeCV来做到这一点。非常感谢。

浏览 2提问于2016-09-13得票数 1

1回答

Scikit -规模与网格搜索相结合

python、scikit-learn、cross-validation、grid-search

我是新的科学工具包，有两个轻微的问题，结合一个数据规模和网格搜索。有效定标器 classifi

浏览 1提问于2015-12-03得票数 9

回答已采纳

1回答

混合特征的Sklearn管道:数值和(倾斜)分类

machine-learning、scikit-learn、kaggle

管道由一个包含两个组件的ColumnTransformer组成:一个组件包含一个应用于数值和序号特征的标准定标器；第二个组件有一个用于其余特征集的一个热编码器。所以，我试着调整惩罚项的系数。问题是，一些单一的热编码功能是高度倾斜的计数，主要是在一个类别。当GridSearchCV试图运行交叉验证时，它会引发一个错误，说明在验证模型时发现了未知类别。我认为这是因为在安装单热编码器时，

浏览 0提问于2020-03-18得票数 2

回答已采纳

1回答

进行数据分析的顺序？

data-mining、predictive-modeling、class-imbalance

我有一个4700条记录的数据集，这是一个分类问题。班级比例分别为33 %和67%1)这一比例是否将数据集定性为不平衡？2)我是否应该进行交叉验证，然后申请(超过/低于或低于抽样)，或者我应该首先通过这些抽样技术平衡我的样本，然后进行交叉验证？ 3)为什么倾向分数匹配仅用于医疗保健相关研究，而不用于其他应用？

浏览 0提问于2019-12-09得票数 1

回答已采纳

2回答

用K-折叠交叉验证将数据标准化

python、machine-learning、pipeline、cross-validation

我使用的是StratifiedKFold，所以我的代码如下所示 scores=[]train_model(X_train,y_train,X_test,repeted_folds,lr) 现在，在训练模型之前，我想对数据进行标准化，那么哪种方法是正确的print('CV mean score: {0:.4f}, std: {1:.4f

浏览 2提问于2019-11-19得票数 1

回答已采纳

1回答

什么是正确的方式使用标准化/标准化结合K-折叠交叉验证？

python、normalization、cross-validation、k-fold、standardization

所以我要做的是：scaler.fit_transform(X_train)现在，如果我要在新数据上使用这个模型，我只需保存“scaler”并将其加载到任何新脚本中。这是最好的做法是重新调整和改变每一个折叠的定标器？我可以理解这在构建模型时是如何工作的，但是如果以后我想使用这个模型，该怎么办呢？我应该存哪个定价器？此外，我想将其扩展到时间序列数据。我明白k-折叠是如何为时间序列工作<

浏览 5提问于2020-10-15得票数 2

回答已采纳

1回答

我如何知道数据分割是在我的定标器使用scikit之前还是之后完成的-学习

python、machine-learning、scikit-learn、decision-tree

但是，我也想使用cross_val_score()方法。model = sklearn.tree.DecisionTreeClassifier() 我把它们加到我的管道里：最后，将管道输入到cross_val_score()中。sklearn.model_selection.c

浏览 7提问于2022-07-25得票数 3

回答已采纳

2回答

交叉验证在不使用火花-毫升管道的情况下更快吗？

pyspark、pipeline、cross-validation、apache-spark-ml

假设我在我的特性工程中有很多步骤:我会有很多变压器在我的管道中。我想知道，在管道交叉验证过程中，星火如何处理这些变压器:它们是否在每一次折叠中执行？在交叉验证模型之前，应用变压器会更快吗？这些工作流中哪一个是最快的(或者有更好的解决方案)： 1.管道上的交叉验证</e

浏览 0提问于2018-07-24得票数 2

2回答

对三维数据使用标准标度器

python、scikit-learn

我试图使用scikit学习标准定标器来扩展具有多个特性和时间序列数据的数据集。目前，我正在为每个功能创建一个独立的定标器：scale_feat2 = StandardScaler()是否有办法单独使用一个定标器来扩展所有功能？另外，为所有特性保存定标器并将其应用于验证数据集的最简单方法是什么？编辑: Standards

浏览 1提问于2018-12-20得票数 3

回答已采纳

1回答

解释不平衡数据集交叉验证的pipe_line方法背后的逻辑

class-imbalance、pipelines、imbalanced-learn、methodology、oversampling

how-to-do-cross-validation-when-upsampling-data.htmlX_train, X_test, y_train, y_test = train_test_split(X, y, random_state=45)grid_imba.

浏览 0提问于2022-01-01得票数 0

2回答

在分割数据之前使用单个StandardScaler正确吗？

machine-learning、scikit-learn

我看到了一些使用两个不同StandardScaler的实验，如下所示：train_sc = scaler_1.transformfit_transform(X_all) 此外，我想知道这个案例是如何扩展到KFold交叉验证的

浏览 1提问于2020-07-22得票数 3

回答已采纳

1回答

科奇学习管道是否将StandardScaler应用于y？

python、scikit-learn、pipeline

考虑到我的管道然后我调用pipe.fit(X_train, y_train)，管道是将定标器应用于特性和目标，还是只应用于特性？如果不是，y参数在StandardScaler的fit_transform方法中起什么作用？这些文档确

浏览 0提问于2019-03-21得票数 4

回答已采纳

2回答

如何使用GridSearchCV测试嵌套流水线中的预处理组合？

python、machine-learning、pipeline、logistic-regression、grid-search

我一直在研究这个分类问题，使用sklearn的管道将预处理步骤(scaling)和交叉验证步骤(GridSearchCV)结合使用Logistic回归。在尝试了所有这些之后，选择产生最佳度量(即准确性)的缩放方法。因为它不是管道的超参数(与‘log_reg_C’不同，它是来自LogisticRegression()的超参数，而不是GridSearchCV可以访问的超参数)。但是，相反，它是ColumnTransfor

浏览 1提问于2020-09-02得票数 1

1回答

在应用交叉验证之前对特征进行预处理而不会泄漏

cross-validation、h2o、feature-extraction

我想做一些带有交叉验证的预处理(缩放，特征工程，例如目标编码)。我知道最好的和理论上正确的方法是为交叉验证的每个训练/测试步骤分别预处理数据。但是，我使用的是H2O，除非我弄错了，否则它不允许我创建预处理管道。提供了一种解决方法，以避免从训练折叠到验证折叠的泄漏：“目标平均值是根据折叠外数据计算的，以防止过度拟合。”

浏览 12提问于2018-08-23得票数 0

回答已采纳

1回答

验证集的验证过程-非k次交叉验证

machine-learning、scikit-learn、data-science、cross-validation、supervised-learning

或者我把初始数据分割成列车数据和测试数据，然后将列车数据分割成k个折叠，然后进行交叉验证，然后对未见的测试数据进行准确性测试？在k-折叠交叉验证过程中如何选择最佳参数？cross_val_score在返回分数列表后，是否在验证步骤中应用最佳参数，在验证步骤中准确性最好？通过使用gridsearchcv之类的方法？在我的例子中</em

浏览 2提问于2019-05-23得票数 1

1回答

使用scikit learn在python中进行管道和交叉验证

python、scikit-learn、pipeline、cross-validation、polynomials

我对交叉验证有一个普遍的怀疑。在模块2的笔记本中，提到应该使用管道进行交叉验证，以防止数据泄漏。我理解为什么，但是对流水线函数有疑问：如果我想在一个管道中使用三个函数：MinMaxScaler()，PolynomialFeatures(用于多个度数)和最后的A Ridge (用于多个Alpha值由于我希望在使用多个参数值后找到最佳模型，因此我将使用GridSearchCV()函数，该函数进行交叉

浏览 12提问于2020-07-08得票数 1

1回答

为什么我要在cv循环中进行目标编码？

cross-validation、overfitting、categorical-encoding、target-encoding

我真的不明白为什么有必要在交叉验证循环中将其作为sklearn管道中的一个步骤吗？然而，看看我下面的结果，这不说明是否过份合适吗？ 📷

浏览 0提问于2020-12-07得票数 0

1回答

基于嵌套CV的滑雪板管道目标编码

python、scikit-learn

我正在为我的专栏做目标编码，使用嵌套交叉验证方法(以避免泄漏)，正如前面提到的、和。如果我必须包括我的目标编码(通过自定义转换器)，在sklearn管道，我需要不同的转换功能与火车集和测试集。这是因为，对于列车折叠，编码是使用列车数据的进一步k折叠分割来计算的。而对于测试褶皱，编码是火车的平均值。我知道sklearn管道将对cv中的列车和测试分

浏览 13提问于2022-08-21得票数 1

回答已采纳

1回答

提高已知未标记测试集的性能

machine-learning、machine-learning-model、cross-validation

我对我的交叉验证的结果相当满意，但希望通过使用我将要使用的测试集的信息来进一步改进它。为了解释更多:我有一个带有500未标记样本的未标记测试集，我知道这是我的模型需要执行的测试集。我想知道是否有一些技术允许基于某种标准对特征进行加权，例如，它们在测试集中是否有意义(或者，找到火车集中的哪些样本与测试集中的样本“接近”，并试图使它们比另一个更远的

浏览 0提问于2020-05-05得票数 0

点击加载更多