腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
交叉
验证
-
管道
中
未
应用
的
定标器
方法
scikit-learn
、
pipeline
、
cross-validation
在使用Scikit Learn进行一些
交叉
验证
时,我遇到了一个问题。我已经构建了一个包含2个元素
的
管道
:一个缩放器和一个回归模型。我
的
问题是,我发现我在
管道
中
配置
的
定标器
方法
在计算过程
中
没有被
应用
(即,考虑在内)。 请检查一下我
的
笔记本,看看哪里出了问题。usp=sharing 下面是我使用
的
数据集
的
链接:https:/
浏览 16
提问于2021-09-07
得票数 0
2
回答
在LassoCV、RidgeCV中使用缩放器
python
、
machine-learning
、
scikit-learn
我想使用scikit LassoCV/RidgeCV,同时在每个折叠训练集上
应用
'StandardScaler‘。我不想在
交叉
验证
之前
应用
定标器
以避免泄漏,但我不知道如何使用LassoCV/RidgeCV来做到这一点。非常感谢。
浏览 2
提问于2016-09-13
得票数 1
1
回答
Scikit -规模与网格搜索相结合
python
、
scikit-learn
、
cross-validation
、
grid-search
我是新
的
科学工具包,有两个轻微
的
问题,结合一个数据规模和网格搜索。有效
定标器
classifi
浏览 1
提问于2015-12-03
得票数 9
回答已采纳
1
回答
混合特征
的
Sklearn
管道
:数值和(倾斜)分类
machine-learning
、
scikit-learn
、
kaggle
管道
由一个包含两个组件
的
ColumnTransformer组成:一个组件包含一个
应用
于数值和序号特征
的
标准
定标器
;第二个组件有一个用于其余特征集
的
一个热编码器。所以,我试着调整惩罚项
的
系数。问题是,一些单一
的
热编码功能是高度倾斜
的
计数,主要是在一个类别。当GridSearchCV试图运行
交叉
验证
时,它会引发一个错误,说明在
验证
模型时发现了未知类别。我认为这是因为在安装单热编码器时,
浏览 0
提问于2020-03-18
得票数 2
回答已采纳
1
回答
进行数据分析
的
顺序?
data-mining
、
predictive-modeling
、
class-imbalance
我有一个4700条记录
的
数据集,这是一个分类问题。班级比例分别为33 %和67%1)这一比例是否将数据集定性为不平衡?2)我是否应该进行
交叉
验证
,然后申请(超过/低于或低于抽样),或者我应该首先通过这些抽样技术平衡我
的
样本,然后进行
交叉
验证
? 3)为什么倾向分数匹配仅用于医疗保健相关研究,而不用于其他
应用
?
浏览 0
提问于2019-12-09
得票数 1
回答已采纳
2
回答
用K-折叠
交叉
验证
将数据标准化
python
、
machine-learning
、
pipeline
、
cross-validation
我使用
的
是StratifiedKFold,所以我
的
代码如下所示 scores=[]train_model(X_train,y_train,X_test,repeted_folds,lr) 现在,在训练模型之前,我想对数据进行标准化,那么哪种
方法
是正确
的
print('CV mean score: {0:.4f}, std: {1:.4f
浏览 2
提问于2019-11-19
得票数 1
回答已采纳
1
回答
什么是正确
的
方式使用标准化/标准化结合K-折叠
交叉
验证
?
python
、
normalization
、
cross-validation
、
k-fold
、
standardization
所以我要做
的
是:scaler.fit_transform(X_train)现在,如果我要在新数据上使用这个模型,我只需保存“scaler”并将其加载到任何新脚本
中
。这是最好
的
做法是重新调整和改变每一个折叠
的
定标器
?我可以理解这在构建模型时是如何工作
的
,但是如果以后我想使用这个模型,该怎么办呢?我应该存哪个定价器? 此外,我想将其扩展到时间序列数据。我明白k-折叠是如何为时间序列工作<
浏览 5
提问于2020-10-15
得票数 2
回答已采纳
1
回答
我如何知道数据分割是在我
的
定标器
使用scikit之前还是之后完成
的
-学习
python
、
machine-learning
、
scikit-learn
、
decision-tree
但是,我也想使用cross_val_score()
方法
。model = sklearn.tree.DecisionTreeClassifier() 我把它们加到我
的
管道
里:最后,将
管道
输入到cross_val_score()
中
。sklearn.model_selection.c
浏览 7
提问于2022-07-25
得票数 3
回答已采纳
2
回答
交叉
验证
在不使用火花-毫升
管道
的
情况下更快吗?
pyspark
、
pipeline
、
cross-validation
、
apache-spark-ml
假设我在我
的
特性工程中有很多步骤:我会有很多变压器在我
的
管道
中
。我想知道,在
管道
交叉
验证
过程
中
,星火如何处理这些变压器:它们是否在每一次折叠
中
执行?在
交叉
验证
模型之前,
应用
变压器会更快吗?这些工作流
中
哪一个是最快
的
(或者有更好
的
解决方案): 1.
管道
上
的
交叉
验证</e
浏览 0
提问于2018-07-24
得票数 2
2
回答
对三维数据使用标准标度器
python
、
scikit-learn
我试图使用scikit学习标准
定标器
来扩展具有多个特性和时间序列数据
的
数据集。目前,我正在为每个功能创建一个独立
的
定标器
:scale_feat2 = StandardScaler()是否有办法单独使用一个
定标器
来扩展所有功能?另外,为所有特性保存
定标器
并将其
应用
于
验证
数据集
的
最简单
方法
是什么? 编辑: Standards
浏览 1
提问于2018-12-20
得票数 3
回答已采纳
1
回答
解释不平衡数据集
交叉
验证
的
pipe_line
方法
背后
的
逻辑
class-imbalance
、
pipelines
、
imbalanced-learn
、
methodology
、
oversampling
how-to-do-cross-validation-when-upsampling-data.htmlX_train, X_test, y_train, y_test = train_test_split(X, y, random_state=45)grid_imba.
浏览 0
提问于2022-01-01
得票数 0
2
回答
在分割数据之前使用单个StandardScaler正确吗?
machine-learning
、
scikit-learn
我看到了一些使用两个不同StandardScaler
的
实验,如下所示:train_sc = scaler_1.transformfit_transform(X_all) 此外,我想知道这个案例是如何扩展到KFold
交叉
验证
的
浏览 1
提问于2020-07-22
得票数 3
回答已采纳
1
回答
科奇学习
管道
是否将StandardScaler
应用
于y?
python
、
scikit-learn
、
pipeline
考虑到我
的
管道
然后我调用pipe.fit(X_train, y_train),
管道
是将
定标器
应用
于特性和目标,还是只
应用
于特性?如果不是,y参数在StandardScaler
的
fit_transform
方法
中
起什么作用?这些文档确
浏览 0
提问于2019-03-21
得票数 4
回答已采纳
2
回答
如何使用GridSearchCV测试嵌套流水线
中
的
预处理组合?
python
、
machine-learning
、
pipeline
、
logistic-regression
、
grid-search
我一直在研究这个分类问题,使用sklearn
的
管道
将预处理步骤(scaling)和
交叉
验证
步骤(GridSearchCV)结合使用Logistic回归。在尝试了所有这些之后,选择产生最佳度量(即准确性)
的
缩放
方法
。因为它不是
管道
的
超参数(与‘log_reg_C’不同,它是来自LogisticRegression()
的
超参数,而不是GridSearchCV可以访问
的
超参数)。但是,相反,它是ColumnTransfor
浏览 1
提问于2020-09-02
得票数 1
1
回答
在
应用
交叉
验证
之前对特征进行预处理而不会泄漏
cross-validation
、
h2o
、
feature-extraction
我想做一些带有
交叉
验证
的
预处理(缩放,特征工程,例如目标编码)。我知道最好
的
和理论上正确
的
方法
是为
交叉
验证
的
每个训练/测试步骤分别预处理数据。但是,我使用
的
是H2O,除非我弄错了,否则它不允许我创建预处理
管道
。 提供了一种解决
方法
,以避免从训练折叠到
验证
折叠
的
泄漏:“目标平均值是根据折叠外数据计算
的
,以防止过度拟合。”
浏览 12
提问于2018-08-23
得票数 0
回答已采纳
1
回答
验证
集
的
验证
过程-非k次
交叉
验证
machine-learning
、
scikit-learn
、
data-science
、
cross-validation
、
supervised-learning
或者我把初始数据分割成列车数据和测试数据,然后将列车数据分割成k个折叠,然后进行
交叉
验证
,然后对未见
的
测试数据进行准确性测试? 在k-折叠
交叉
验证
过程
中
如何选择最佳参数?cross_val_score在返回分数列表后,是否在
验证
步骤
中
应用
最佳参数,在
验证
步骤
中
准确性最好?通过使用gridsearchcv之类
的
方法
?在我
的
例子
中</em
浏览 2
提问于2019-05-23
得票数 1
1
回答
使用scikit learn在python中进行
管道
和
交叉
验证
python
、
scikit-learn
、
pipeline
、
cross-validation
、
polynomials
我对
交叉
验证
有一个普遍
的
怀疑。 在模块2
的
笔记本
中
,提到应该使用
管道
进行
交叉
验证
,以防止数据泄漏。我理解为什么,但是对流水线函数有疑问: 如果我想在一个
管道
中使用三个函数:MinMaxScaler(),PolynomialFeatures(用于多个度数)和最后
的
A Ridge (用于多个Alpha值由于我希望在使用多个参数值后找到最佳模型,因此我将使用GridSearchCV()函数,该函数进行
交叉
浏览 12
提问于2020-07-08
得票数 1
1
回答
为什么我要在cv循环中进行目标编码?
cross-validation
、
overfitting
、
categorical-encoding
、
target-encoding
我真的不明白为什么有必要在
交叉
验证
循环中将其作为sklearn
管道
中
的
一个步骤吗?然而,看看我下面的结果,这不说明是否过份合适吗? 📷
浏览 0
提问于2020-12-07
得票数 0
1
回答
基于嵌套CV
的
滑雪板
管道
目标编码
python
、
scikit-learn
我正在为我
的
专栏做目标编码,使用嵌套
交叉
验证
方法
(以避免泄漏),正如前面提到
的
、和。 如果我必须包括我
的
目标编码(通过自定义转换器),在sklearn
管道
,我需要不同
的
转换功能与火车集和测试集。这是因为,对于列车折叠,编码是使用列车数据
的
进一步k折叠分割来计算
的
。而对于测试褶皱,编码是火车
的
平均值。我知道sklearn
管道
将对cv
中
的
列车和测试分
浏览 13
提问于2022-08-21
得票数 1
回答已采纳
1
回答
提高已知
未
标记测试集
的
性能
machine-learning
、
machine-learning-model
、
cross-validation
我对我
的
交叉
验证
的
结果相当满意,但希望通过使用我将要使用
的
测试集
的
信息来进一步改进它。 为了解释更多:我有一个带有500
未
标记样本
的
未
标记测试集,我知道这是我
的
模型需要执行
的
测试集。我想知道是否有一些技术允许基于某种标准对特征进行加权,例如,它们在测试集中是否有意义(或者,找到火车集中
的
哪些样本与测试集中
的
样本“接近”,并试图使它们比另一个更远
的
浏览 0
提问于2020-05-05
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券