腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如果
我
只
关心
特征
重要性
,
我
是否
应该
将我
的
数据
分成
测试
和
训练
?
、
基本问题,但我有一些
数据
,并试图了解在预测目标变量
的
结果时,哪些
特征
是最重要
的
。
我
没有计划用这些
数据
进行预测。鉴于此,
我
是否
应该
将
数据
划分为
训练
和
测试
,
如果
是,为什么?谢谢!
浏览 16
提问于2020-02-09
得票数 0
1
回答
获取
数据
帧字典
的
特征
重要性
、
、
、
、
我
目前正在做一个使用RandomForestRegressor
的
用例。为了分别获得基于一个列
的
训练
和
测试
数据
,假设是Home,
数据
帧被
分成
字典。几乎完成了建模,但坚持获取字典中每个键
的
特征
重要性
(键
的
数量= 21)。importance in zip(feature_list, list(rf.feature_importances_)): print(n
浏览 14
提问于2019-01-17
得票数 0
1
回答
随机森林
的
特征
重要性
、
、
我
有一个有11个
特征
的
数据
集,
我
注意到操作这些
特征
(例如删除其中一个或一些)不会影响
训练
和
测试
数据
的
错误分数,所以我不得不检查这些特性
的
重要性
。以下是以下内容:正如注意到
的
那样,第一个特性具有很高
的
一致性。然而,其余
的
都是无关紧要
的
。因此,
我
尝试
只
使用
浏览 0
提问于2021-02-23
得票数 1
2
回答
特征
选择
和
交叉验证
、
、
、
、
我
想
训练
一个回归模型,为了做到这一点,
我
使用随机森林模型。然而,
我
也需要进行
特征
选择,因为
我
的
数据
集中有太多
的
特征
,
我
担心
如果
我
使用了所有的
特征
,
我
就会过度拟合。1-
如果
我
将
数据
分成
两半,在前半部分进行
特征
选择,并使用这些选择
的</
浏览 1
提问于2013-10-29
得票数 5
2
回答
训练
数据
召回率高,但分类问题中
测试
数据
召回率很低
、
我
是ML
的
新手,
我
正在尝试为现实生活中
的
一个问题构建一个用于不平衡二进制类
的
分类器。
我
尝试了各种模型,如Logistic回归、随机森林、ANN等,但每次
训练
数据
的
准确率
和
召回率都非常高(约94%),而
测试
或验证
数据
的
准确率
和
召回率非常低(约1%)。
我
有53个
特征
和
97094个
数据</e
浏览 0
提问于2020-03-09
得票数 2
1
回答
在LightGBM python API中调用feature_importance时遇到分段错误
、
我
使用
的
是LightGBM 2.0.6 Python API。
我
的
训练
数据
有大约80K个样本
和
400个
特征
,
我
正在
训练
一个大约2000次迭代
的
模型,该模型用于多类分类(#classes = 10)。当
训练
模型时,当我调用model.feature_importance()时,
我
遇到了分段错误。
我
尝试生成用于
测试
的人工
数据
浏览 1
提问于2017-08-28
得票数 1
3
回答
如何在神经网络中确定
特征
的
重要性
?
、
、
、
、
我
有一个神经网络来解决一个时间序列预测问题。这是一个序列对序列
的
神经网络,目前它是
训练
样本,每一个有十个
特征
。模型
的
性能是平均
的
,
我
想研究添加或删除特性
是否
会提高性能。
我
用keras构造了神经网络。
我
所包括
的
特点如下:按季滞后
的
历史
数据
系列(4个系列)四个时不变
特征
平铺延长了序列
的</em
浏览 0
提问于2019-01-27
得票数 16
回答已采纳
1
回答
在
训练
SVM时,
是否
需要单独
的
验证
和
测试
集?
给定从
训练
数据
集中提取
的
一组
特征
,这些
特征
用于
训练
SVM。使用k折交叉验证来选择SVM参数(例如,c,γ),例如,
训练
数据
集被
分成
5折,其中一个被选为验证集。完成了折叠
的
旋转,并使用平均精度来选择最佳参数。 那么,
我
是否
应该
有另一组
测试
集(Test set)并报告(就像在纸质出版物中一样)?
我
的
理解是,由于验证
浏览 1
提问于2015-01-02
得票数 0
1
回答
如何在python中根据xgboost
的
变量
重要性
来绘制前k个变量?
、
、
在python中,如何根据variableI
重要性
绘制前k个变量?
我
知道
我
可以从xgb_model.get_score()中提取变量
重要性
,它返回一个存储对(
特征
,
重要性
浏览 128
提问于2018-04-27
得票数 0
回答已采纳
1
回答
列车
测试
数据
的
预处理
、
我
把X numpy array作为
我
的
特性,把y numpy array作为
我
的
目标。
我
把它们
分成
训练
数据
和
测试
数据
。
我
从许多QnA中读到,他们
只
说preprocess
训练
和
测试
是分开
的
。
我
假设
我
只对
我
的
浏览 0
提问于2020-03-15
得票数 0
1
回答
训练
和
测试
数据
集
是否
应该
使用相同
的
计算机系数?
、
、
我
正在学习如何准备
数据
,构建估计器,并使用
训练
/
测试
数据
拆分进行检查。
我
的
问题是如何正确地准备
测试
数据
集。
我
将我
的
数据
分成
测试
和
训练
集。,
我
想在
测试
数据
上使用
我
训练
过
的
估计
浏览 19
提问于2019-08-21
得票数 0
1
回答
SVM
的
参数选择
、
、
我
有一个
数据
集,
我
用libSVM在Matlab中进行分类。
数据
集由4个类组成。 对于支持向量机
的
参数选择,可以进行嵌套交叉验证。问题是,
我
最终也需要最佳参数
的
值。在完成嵌套交叉验证并具有最终
的
准确性之后,
我
需要最佳参数
的
值。然后,
我
将为每个类别(1-VS-All)
训练
一个支持向量机( SVM ),其中包含选择最重要
特征
的
最佳参数(根据最高度<em
浏览 2
提问于2015-06-18
得票数 1
回答已采纳
1
回答
DNN算法中基于树
的
降维算法
、
、
我
的
问题很简单:在使用DNN算法
训练
数据
集之前,
是否
可以使用基于树
的
降维方法,例如嵌入在随机森林中
的
特征
重要性
? 换句话说,使用基于树
的
特征
重要性
会阻止使用不同于树/随机林
的
训练
算法吗?
浏览 2
提问于2020-07-17
得票数 0
回答已采纳
1
回答
两种相似机器学习模型
的
特征
重要性
差异
、
、
、
、
情景1:
我
训练
了一个文本分类模型(模型1),它给了我一个真实类别的概率为X。
我
还
训练
了一个分类模型(模型2),
只
使用分类和数字
数据
。这两个模型都用于预测同一个真正
的
类;只是特性不同。
我
对模型1
和
模型2返回
的
概率(以它们作为输入
特征
)使用了随机林分类器,并得到了类似的性能度量(准确性、精确召回)。模型1
和
模型2
的
特征
重要性
分别为
浏览 0
提问于2021-01-05
得票数 0
回答已采纳
2
回答
用于
特征
选择
的
数据
有多少?
、
、
在
我
的
硕士论文上工作,这是一个
我
找不到好资源
的
问题。
我
正在处理18个参与者
的
数据
,他们要么是主动
的
,要么是被动
的
。每个试验有100个
数据
点,但不能与试验分开使用(因为这是脑电图时代)。
我
的
数据
由579个特性组成,所以我需要一些特性选择,因为文献显示它们中
的
大多数都是无关
的
,但是
我
想使用自下而上
的</e
浏览 0
提问于2019-01-14
得票数 2
回答已采纳
1
回答
R型回归林
的
特征
选择与预测精度
、
、
、
我
试图解决一个回归问题,其中输入
特征
集
的
大小为54。
我
的
数据
集有14500条条目。
我
把它
分成
了9:
浏览 1
提问于2017-08-29
得票数 0
1
回答
如何利用线性支持向量机权值进行
特征
选择
、
、
我
使用以下代码为两类类(1
和
0)建立了SVM线性模型:
我
使用以下代码提取了
训练
集
的
权重.svm.model$coefs) %
浏览 3
提问于2018-01-08
得票数 5
回答已采纳
3
回答
spark ml :如何找到
特征
重要性
、
、
、
我
是ml
的
新手,
我
正在使用Spark ML构建一个预测系统。
我
读到
特征
工程
的
一个主要部分是找到每个
特征
在进行所需预测时
的
重要性
。在
我
的
问题中,
我
有三个分类
特征
和
两个字符串
特征
。
我
使用OneHotEncoding技术来转换分类
特征
,使用简单
的
HashingTF机制来转换字符串<
浏览 1
提问于2016-08-22
得票数 1
1
回答
时间序列预测中滤波前后
的
特征
选择
、
、
、
、
我
根据前一天
的
气象变量
和
臭氧值预测臭氧浓度。
我
使用savitzky golay滤波器来去除时间序列
数据
集中
的
噪声.使用XGBOOST,这是筛选器之前<
浏览 0
提问于2019-08-05
得票数 1
回答已采纳
1
回答
使用TfIdfVectorizer生成
测试
数据
、
、
我
已经
将我
的
数据
分成
了
训练
部分
和
测试
部分。
我
的
数据
表有一个'text‘列。考虑一下,
我
还有另外十列表示数字
特征
。
我
已经使用TfidfVectorizer
和
训练
数据
来生成术语矩阵,并将其与数字
特征
相结合来创建
训练
数据
框架。colle
浏览 29
提问于2020-04-10
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券