腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
应用
交叉
验证
之前
对
特征
进行
预处理
而
不会
泄漏
、
、
我想做一些带有
交叉
验证
的
预处理
(缩放,
特征
工程,例如目标编码)。我知道最好的和理论上正确的方法是为
交叉
验证
的每个训练/测试步骤分别
预处理
数据。但是,我使用的是H2O,除非我弄错了,否则它不允许我创建
预处理
管道。在
浏览 12
提问于2018-08-23
得票数 0
回答已采纳
1
回答
如何
进行
实时数据的
特征
工程?
、
、
、
、
我用以下步骤建立了一个很好的线性回归模型: 我的问题是,如果我们在生产环境中使用这个模型,那么我们如何
进行
实时数据的
特征
工程,因为这个模型是用
特征
归一化和缩放的来建立的,那么如何
对
实时数据
进行
规范化和缩放以得到一个很好的预测呢?对于
交叉
验证
和测试步骤,我们不需要显式的
浏览 2
提问于2017-03-01
得票数 0
1
回答
K折叠
交叉
验证
和数据
泄漏
、
、
、
我想做K折叠
交叉
验证
,我也想
对
每个折叠
进行
规范化或功能缩放。假设我们有k个折叠。
在
每一步,我们采取一倍作为
验证
集,其余的k-1倍作为训练集。现在,我想
对
该培训集
进行
功能缩放和数据填充,然后
对
该
验证
集
应用
相同的转换。我想
对
每一步都这么做。我尽量避免数据
泄漏
,同时增加我的
验证
集,以获得更好的结果。 我怎样才能用几行代码来完成这个任务呢?因为我不认为很
浏览 0
提问于2020-12-23
得票数 1
1
回答
在
特征
选择
之前
或之后采样
、
、
、
我
对
特征
选择、采样和
交叉
验证
的顺序感到困惑,我的数据集有468行和23000列,其中269个属于I类,199个属于II类,当拆分训练和测试时,训练.Due中的数据有215个I类和159个II类,以减少样本数量我不得不对训练数据
应用
或者我应该在这里
应用
采样,这会导致数据丢失,从而导致更小的样本。I)先
应用
过采样,然后
应用
特征
选择技术,然后
进行
交叉
验证
:
在
交叉
浏览 133
提问于2020-08-12
得票数 1
1
回答
使用scikit-learn对文本文档
进行
分类的
交叉
验证
、
、
在
使用scikit-learn对文本文档
进行
分类时,您是先
进行
交叉
验证
,然后再
进行
特征
提取,还是采用其他方式?FeatureExtractor()), ], n_jobs = -1) 我用下面的方法来做,但是我想知道我是否应该首先提取
特征
并
进行
交叉
验证
在
本例中,X是文档列表,y是标签。
浏览 2
提问于2015-09-23
得票数 0
1
回答
为什么k-折叠
交叉
验证
(CV)外套?或者为什么简历和测试集之间会出现差异?
、
五重
交叉
验证
的方法如下,迭代地
在
4组上拟合一个模型,并在rest集上测试性能。谢谢!添加:如果您所拥有的数据并不代表您要预测的数据,则
交叉
验证
对外部数据的性能
浏览 0
提问于2017-03-01
得票数 9
3
回答
过度安装滑雪板管道-为什么?
、
、
、
大多数人
对
kaggle
进行
培训和测试,然后对数据
进行
预处理
,这似乎
在
得分时提供了很好的结果,但我认为这是数据
泄漏
和在现实世界解决方案中执行的不正确过程。我的问题是,如果我把定标器放进管道中,简历的每一倍的比例尺都会发生变化,如果我
在
进行
超参数调整
之前
预先
对
整个数据集
进行
标度,结果就会大相径庭。
浏览 0
提问于2020-02-17
得票数 2
1
回答
两种方案中哪一种更适合模型优化: 1)套式CV错误平均内部CV评分。2) X_all上连续两次简历。阿尔特恩特?
、
、
、
、
目的:比较
预处理
方法、模型和超参数,
而
不
泄漏
到最终的泛化估计,
应用
交叉
验证
(cv),即不使用任何固定的训练/测试分割。到目前为止发现的“嵌套cv":在外部cv中
对
不同的超参数(来自内部SearchCVs)的分数
进行
平均,并选择最佳得分。此外,我如何在搜索中包括不同的
预处理
方法,因为
预处理
定义了X(必须在分割X
之前
完成)? 整个数据集X_all上的连续cvs
浏览 0
提问于2023-02-25
得票数 1
2
回答
Scikit-Learn:避免
交叉
验证
期间的数据
泄漏
、
、
我刚刚阅读了k-折
交叉
验证
,并意识到我在当前的
预处理
设置中无意中
泄漏
了数据。我真的应该根据80%的训练来推算这20%
浏览 9
提问于2018-01-28
得票数 11
1
回答
自动
特征
选择-避免数据
泄漏
的最佳实践?
、
、
、
、
这个问题通常与所有自动
特征
选择方法有关。
在
我的特定场景中,我们有一个称为茶鲜和多类分类的python包。我想实现什么?
在
正式的档多类选择文档之后,一个合理的做法是
在
使
浏览 0
提问于2022-06-20
得票数 1
1
回答
插入符号
交叉
验证
中的
预处理
、
对于需要澄清的数据
预处理
,我有一个问题。据我所知,当我们通过
交叉
验证
来调优超参数和评估模型性能时,
而
不是
对
整个数据集
进行
预处理
时,我们需要在
交叉
验证
中这样做。换句话说,
在
交叉
验证
中,我们
对
训练褶皱
进行
预处理
,然后使用相同的
预处理
参数
对
测试褶皱
进行
处理和预测。 在下面的示例代码
浏览 0
提问于2018-05-11
得票数 5
2
回答
新数据的
预处理
步骤是否需要与列车/测试数据的
预处理
步骤相同?
、
我已经对数据
进行
了
预处理
,
对
其
进行
了培训/测试,并在测试
之前
运行了一个具有
交叉
验证
的模型。我
在
预处理
过程中遵循的步骤概述如下:通过使用nth根来移除倾斜(对于每一列,n是不同的,我绘制了数据并做了任何看起来最能减少倾斜的事情),从而转换了一些列。训练/测试分割数据我将步骤4中的转换
应用</
浏览 0
提问于2022-08-18
得票数 1
回答已采纳
1
回答
用于
交叉
验证
的高级
特征
提取方法
、
、
给定一个包含1000个数据样本的样本数据集,假设我想对数据
进行
预处理
以获得10000行数据,因此每一行原始数据将导致10个新的样本。此外,
在
培训我的模型时,我也希望能够执行
交叉
验证
。评分函数我使用原始数据来计算分数,所以我希望
交叉
验证
评分也能处理原始数据,
而
不是生成的数据。由于我将生成的数据提供给训练器(我使用的是RandomForestClassifier),所以我不能依靠
交叉
验证
来根据原始样本正确地分割数据。我想
浏览 2
提问于2013-06-03
得票数 0
回答已采纳
2
回答
前处理前与后处理前的列车、试验分车的区别
、
我
在
预处理
方面有点困惑。一般来说, 场景1:我将数据集分解为训练、测试和
验证
,并
应用
诸如列车上的fit_transform和测试上的转换。场景2:另一种方法是首先
对
整个数据集
应用
转换,然后将数据集拆分为训练、测试和
验证
。
在
预处理
和
特征
工程
之前
,或者
在
预处理
和
特征
工程之后,我对数据的选择、划分有些困惑。寻找一个很好的答案与效果和棺材。
浏览 0
提问于2019-03-07
得票数 4
回答已采纳
1
回答
GridsearchCV的
预处理
、
、
、
、
我使用GridsearchCV来调优超参数,现在我想在训练和
验证
step.But时做一个min Normalization(StandardScaler()),我想我不能这样做。问题是: 如果我用滑雪
浏览 2
提问于2019-04-15
得票数 4
回答已采纳
1
回答
如何使用scikit的
预处理
/规范化以及
交叉
验证
?
、
作为一个没有任何
预处理
的
交叉
验证
的例子,我可以这样做: from sklearn.linear_modelGridSearchCV clf.fit(x_train, y_train) 我想使用以下方法
对
我的数据
进行
预处
浏览 2
提问于2015-09-16
得票数 14
回答已采纳
1
回答
与Orange python库的
交叉
验证
、
、
、
我尝试使用python包"Orange“
进行
交叉
验证
。这个库看起来很不错,但我
对
它有一些问题。在这里,如您所知,
在
交叉
验证
循环中处理离散化和
特征
选择是很重要的。换句话说,对于每个
交叉
验证
浏览 6
提问于2016-12-07
得票数 1
1
回答
编码和
交叉
验证
、
、
最近,我一直
在
考虑如何在
交叉
验证
方案中正确使用编码。通常建议的编码
特征
的方式是: 将数据分割成火车和测试(等待)集。有人声称这样做是为了防止任何数据
泄漏
。然而,
在
交叉
验证
过程中,这似乎经常被忽略。假设我在前面提到的火车集合上执行
交叉
验证
。如果我编码训练集,然后执行
交叉
验证
,它并不真正模仿上面的步骤。那么,编码不应该在
交叉
验证
中执行吗?例如,假设我
浏览 0
提问于2020-08-17
得票数 3
1
回答
交叉
验证
中的信息
泄漏
、
可以说,
特征
选择/提取、降维、核、分类器已经得到了广泛的
应用
。所以我不想尝试这些。
在
每个子数据集x上,我执行10次
交叉
验证
(使用主数据集X的所有样本)。我
在
Y上训练一个分类器,同时遵循
交叉
验证
规则.令人惊讶的是,我可以预测
浏览 2
提问于2014-09-01
得票数 2
1
回答
分类变量处理过程中的数据
泄漏
?
、
、
、
、
我
对
机器学习相当陌生。我偶然发现了数据
泄漏
的概念。这篇文章说,
在
执行
预处理
步骤
之前
,总是对数据
进行
拆分。我的问题是,诸如离散化、将类别分组为单一类别以减少基数、将范畴变量转换为二进制变量等步骤是否会导致数据
泄漏
?
在
应用
这些步骤
之前
,我是否应该将数据分割成训练和测试集?另外,为了避免数据
泄漏
,我真正需要谨慎的主要
预处理
步骤是什么?
浏览 12
提问于2021-05-15
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
机器学习的心腹大患:数据泄漏
3,sklearn的一般流程
如何自动化机器学习工作流程
只需一根“管道”,你就可以将机器学习中的复杂步骤串联起来
sklearn中文文档上线!
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券