腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
训练
/
测试
拆分
之前
还是
之后
对
列
进行
因子
分解
?
、
、
我有一个包含text id
列
的数据集,我使用pandas.factorize()函数将字符串id转换为int。1 HMP29SK 3 VPP29SK 1500 0JP2FAB.. .. .. .. .. 1501 ZJP29AK 1501 我想在大约80%的数据上
训练
我的模型,并在剩下的20%上
浏览 16
提问于2020-07-12
得票数 1
回答已采纳
1
回答
将WoE应用于预测:缺少真/假需要的值
、
更确切地说,我根据我的
训练
数据的分裂来计算证据的权重,当我想要替换未知数据中的不幸时,我会收到一个错误。但让我一步一步地来。在下面,将首先准备原始数据。然后,
在
准备未知数据
之前
对
WoE模型
进行
训练
,并使用WoE
进行
训练
。
对
每一个只发生一次的i
浏览 1
提问于2018-02-03
得票数 1
1
回答
使用小数据集和SMOTE
进行
深度学习
、
、
、
、
我有一个60-20-20的
训练
,验证和
测试
集。我用XGboost得到了大约76%的准确率。我将我的数据转换为时间序列,并应用LSTM/1-D Convnet,准确率约为60%。我的数据集是否太小,无法
进行
深度学习? 其次,可以
在
每个
训练
上应用SMOTE,
测试
和验证集(
在
拆分
数据
之后
)我知道
在
将数据
拆分
到
训练
/
测试
/验证
之前</
浏览 34
提问于2019-09-04
得票数 0
2
回答
前处理前与后处理前的列车、试验分车的区别
、
我
在
预处理方面有点困惑。一般来说, 场景1:我将数据集
分解
为
训练
、
测试
和验证,并应用诸如列车上的fit_transform和
测试
上的转换。场景2:另一种方法是首先
对
整个数据集应用转换,然后将数据集
拆分
为
训练
、
测试
和验证。
在
预处理和特征工程
之前
,或者
在
预处理和特征工程
之后
,我对数据的选择、划分有些困惑。寻找一个很好的答案与效果和棺材。
浏览 0
提问于2019-03-07
得票数 4
回答已采纳
3
回答
是否
在
分割
训练
和
测试
数据
之前
或
之后
对数据
进行
标准化?
、
、
、
、
我想将我的数据分成
训练
集和
测试
集,我应该在
拆分
之前
还是
之后
对数据
进行
归一化?
在
构建预测模型时会有什么不同吗?
浏览 0
提问于2018-03-23
得票数 51
回答已采纳
2
回答
Logistic岭回归预测ROC/ AUC及R精度检验编码
我正在尝试拟合Logistic Ridge回归,并开发了如下模型;我需要帮助
进行
编码,以
测试
其准确性和带有阈值的ROC/AUC曲线。100, lambda.min.ratio=0.0001)best.lambda <- cv.out$lambda.min[1] 5.109392y.pred <- as.matrix(ridge.mod,newx=newx, type="cl
浏览 0
提问于2017-09-29
得票数 0
2
回答
最好在
拆分
为
训练
集和验证集
之前
或
拆分
后将MinMaxScaler应用于数据集
、
我真的很困惑什么时候应该
对
我的数据集应用MinMaxScaler或scaling,无论是
在
拆分
到train_test_split
之前
还是
拆分
到
训练
和验证
拆分
之后
,然后
在
X_train上
进行
拟合和变换,
在
X_test上
进行
变换。我真的很困惑
在
应用这个时的一般经验法则是什么…
浏览 0
提问于2020-07-31
得票数 0
4
回答
如果
测试
数据中存在新的
因子
水平,则R中的随机森林包在预测()期间显示错误。有什么方法可以避免这个错误吗?
、
在
我的
训练
数据中,我有30个预测
因子
水平。
在
我的
测试
数据中,同样的预测
因子
也有30个
因子
水平,但有些水平是不同的。除非这些水平完全相同,否则randomForest不会预测。它显示错误。表示,predict.randomForest(模型、
测试
)中的错误
训练
数据中不存在新的
因子
水平
浏览 2
提问于2013-06-12
得票数 4
回答已采纳
1
回答
机器学习中用
列
均值计算缺失值
、
、
我知道,估算缺失的值正是它听起来的样子,我说的是用
列
的平均值来估算它。通常,
在
将数据
分解
为
训练
和
测试
之前
,我会计算丢失的值,但随后我看到了这样的: 警告:如果您想将它用于机器学习/数据科学:从数据科学的角度来看,首先替换NA然后分裂成火车和
测试
是错误的。你必须先分裂成火车和
测试
,然后用火车上的平均值替换NA,然后应用这个有状态的预处理模型
进行
测试
,请看下面涉及滑雪的答案!- Fabian Werner 28
浏览 4
提问于2020-02-23
得票数 1
回答已采纳
1
回答
何时使用scikit学习的train_test_split
、
、
、
、
现在我需要做缺失值补充,然后使用scikit的OneHOtEncoder对分类变量
进行
编码,然后运行机器学习算法。我的问题是,我应该在使用split的train_test_split方法做上述所有事情
之前
拆分
这个数据集,
还是
应该首先
拆分
成
训练
和
测试
,然后
对
每组数据
进行
缺失值和编码。我担心的是,如果我首先
拆分
,然后
对
得到的两个集合
进行
缺失值和其他编码,当
对
测
浏览 0
提问于2015-05-05
得票数 6
1
回答
在生成文档术语矩阵
之前
或
之后
分成
测试
和
训练
集?
、
、
、
我感到困惑的是,
在
分裂成
测试
和
训练
集
之前
,我是否需要生成文档项矩阵,
还是
应该在
拆分
成
测试
和
训练
之后
生成文档项矩阵?我尝试了这两种方法,发现在生成文档项矩阵
之前
,当I对数据
进行
拆分
时,准确性会略高一些。但对我来说,这是毫无意义的。准确性不应该一样吗?这些操作的顺序有什么不同吗?
浏览 1
提问于2020-03-12
得票数 2
回答已采纳
1
回答
特征归一化分类(SVM)
、
我有一些关于归一化的问题:当你提取特征时,你想在分类
之前
对
特征
进行
归一化。你如何
对
特征
进行
标准化(例如,你拥有的两个类)?1-你分别对每个类
进行
标准化吗?
还是
将两个类一起归一化?2-
在
拆分
、trianing和
测试
之前
,是否
对
整个数据
进行
归一化?或者你先标准化
训练
,然后分别标准化每个新的
测试
样本? 3-有什么参考吗?书
还是
浏览 4
提问于2018-06-20
得票数 0
1
回答
列车
测试
分裂前后时间序列特征丰富?
、
、
、
、
我正在处理一个时间序列,它表示
在
Azure虚拟机上注册的CPU使用情况。历史数据包括19个月,其粒度为10分钟1( CPU使用级别已注册的每10分钟)。我的主要目标是
对
趋势
进行
长期(提前一周)预测.
在
乞讨时,我的原始数据集中只有一个
列
- usageLevel可用。当然,
在
尝试任何预测模型
之前
(我将
测试
XGBoost、LSTM、变压器等)。通常的做法是
进行
广泛的功能丰富。有多种策略和想法推荐--其中一些包括移动平均功能和日历功能。 我已
浏览 0
提问于2022-12-11
得票数 0
1
回答
在
培训、
测试
和生产过程中如何准备数据?
、
、
、
、
有时,我们还会在输入特性
列
以
训练
模型
之前
对
其
进行
标准化/规范化。我的第一个问题是如何在这个分裂的数据集中
进行
特性工程?我们是使用未分割特征的全局平均值来替换
训练
和
测试
集中这些特征的缺失值,
还是
应该使用这些集合的本地均值? 就像上面的问题,我们如何对火车,
测试
数据集
进行
规范化?
浏览 0
提问于2020-12-16
得票数 4
1
回答
使用数据集B的参数缩放数据集A
、
我有一个数据集,我已经将其
拆分
为
训练
集和
测试
集。这意味着当我
对
它们
进行
缩放时,我应该将数据值缩放到
训练
集,然后使用相同的缩放比例来缩放
测试
集。特别是,我只想缩放这两个集合中的两个
列
。
在
Python中,我可以使用scaling类来实现这一点--我只需
在
训练
集上调用fit_transform,然后
在
测试
集上调用transform。但在R中,我不确定最简单的方法。我可以
浏览 9
提问于2018-12-19
得票数 1
回答已采纳
2
回答
使用验证、培训和
测试
集之间的顺序
、
、
在
中,这似乎意味着顺序应该是: 将
浏览 1
提问于2019-01-10
得票数 1
回答已采纳
1
回答
火车
测试
分裂后使用LabelEncoder
在
分类变量中编码未见/新标签?
、
我的老师解释说,为了防止数据泄漏,
在
列车
测试
拆分
之后
对分类变量
进行
编码是很重要的,并通过一个使用LabelEncoder (来自sklearn)的示例演示了这些变量,但是当我试图
在
另一个包含了
列
中超过1000个不同标签/对象(datatype: object)的数据文件上做同样的操作时,我遇到了一个问题: 为了解决这个问题,我
在
火车
测试
分裂
之前</e
浏览 1
提问于2021-06-27
得票数 1
回答已采纳
1
回答
支持向量机-
在
GridSearchCV
之前
处理图像数据吗?
、
、
、
对于每个数据集,我想
训练
一个支持向量机(用Python Learn),
在
每种情况下,超参数都是使用GridSearchCV
进行
优化的。一些有序的数据集仍然需要分成
训练
数据和
测试
数据,这些数据
在
使用train_test_split
之后
将以混合的形式出现,据我所知,
在
使用GridSearchCV
之前
不必再次混合。其他有序的数据集已经分为
训练
数据和
测试
数据,因此我将直接应用GridSearchCV。现在我
浏览 0
提问于2019-07-30
得票数 2
1
回答
编码前
还是
火车后
测试
分裂?
、
、
、
、
我
对
ML很陌生,并且使用大量具有高度基数的分类变量的数据集。我可以检查一下为什么要这样做吗?为什么我们不能在火车
测试
分裂
之前
就应用编码?这有什么区别?
浏览 0
提问于2022-02-01
得票数 5
回答已采纳
1
回答
带
训练
和
测试
集的removeSparseTerms
、
当我使用tm包
进行
文本挖掘时,我通常会遵循一个非常类似的工作流:data(crude)crude = tm_mapspl) 基本上,我
对
语料库
进行
预处理,构建文档项矩阵,删除稀疏项,然后分割成一个
训练
和
测试
集。虽然这在tm包中非常容易,但我不喜欢的一点是,它隐式地使用培训和
测试
集来确定包含哪些术语(也称为removeSparseTerms,然后再
分解
成培训和
测试
集
浏览 2
提问于2013-12-22
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
创建具有业务影响的数据科学项目:用R预测流失
R语言笔记11:两个重要函数——用来分解数据框的split和用来查看对象的str
一文读懂FM算法优势,并用python实现!
把酱油瓶放进菜篮子:UC Berkeley提出高度逼真的物体组合网络Compositional GAN
数据分享|R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券