腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(6578)
视频
沙龙
1
回答
如何
使用
插入
符
号为
分类
变量
选择
预测
模型
的
特征
?
、
、
、
我发现R中
的
插入
符
包对查看建模
的
重要性
变量
非常有帮助。但是,我
的
数据集中有所有
分类
变量
,在本例中,'varImp‘命令返回因子
变量
的
每个标签
的
变量
重要性。我只想确定重要
的
不同
变量
列表,而不是标签。
浏览 16
提问于2019-06-18
得票数 0
2
回答
为什么连续
特征
在决策树
模型
中比
分类
特征
更重要?
、
、
、
、
我
的
预测
模型
中既有
分类
特征
,也有连续
特征
,我希望
选择
(和排序)最重要
的
特征
。 我
使用
一个热编码将所有的
分类
变量
转换为虚拟
变量
(为了更好地解释我
的
logistic回归
模型
)。一方面,我
使用
LogisticRegression (sklearn),并通过
使用
它们
的
系数对最重要<e
浏览 0
提问于2020-01-15
得票数 9
回答已采纳
4
回答
使用
chi2测试进行具有连续
特征
的
特征
选择
(Scikit Learn)
、
、
、
我正在尝试从许多连续
的
特征
中
预测
一个二元(
分类
)目标,并希望在进入
模型
拟合之前缩小您
的
特征
空间。我注意到SKLearn
的
特征
选择
包中
的
SelectKBest类在虹膜数据集上有以下示例(它也是从连续
的
特征
中
预测
一个二元目标): from sklearn.datasets import load_irischi2测试来确定应该在
模型
浏览 0
提问于2018-04-16
得票数 5
3
回答
神经网络中
的
特征
重要性
、
、
、
、
你好,我正在
使用
keras开发一个神经网络
模型
,我有一个45个数值
预测
变量
的
数据,两个
分类
目标将被
预测
,每一个都有一个不同
的
模型
。正如我所发现
的
,在keras中没有
特征
重要性
模型
。我可以
使用
三个选项:
变量
之间
的
相关比、kendals秩系数值和lasso调节。你认为哪一个适合用于神经网络中
的
特征
浏览 0
提问于2020-05-22
得票数 1
回答已采纳
1
回答
Matlab
模型
设计后
的
重用降维
、
、
、
、
一些降维方法,如逐步回归报告最佳
特征
,所以我将
使用
这些
特征
作为我
的
分类
模式和另一种方法,如PCA转换数据到一个新
的
空间,例如,我
使用
60%
的
最佳报告列(
特征
)。关键问题是在
使用
最终
模型
的
阶段。例如,我
使用
过去一年和两年前
的
财务数据作为今天
的
财务状况。所以现在我想用过去和今天
的
数据来
预测
明年。我
浏览 3
提问于2014-03-27
得票数 0
回答已采纳
1
回答
每类多值范畴
特征
的
Logistic回归
模型
、
、
、
我正在研究一个保险用例,以构建一个逻辑回归
分类
器来
预测
保单是否会失效。该数据集具有超过20个策略
的
分类
功能。每个
分类
特性本身可以有多个值,其中每次只有一个适用于策略。在此之后,我为所有这些
变量
创建了虚拟
变量
(0或1),并试图
使用
.corr()函数在熊猫中找到相关性。该操作有助于识别一些虚拟
特征
,如产品类型
的
特定值、更新类型、业务来源等与目标
特征
高度相关。利用这些虚拟
特征
变量
浏览 0
提问于2019-12-22
得票数 2
2
回答
二值
分类
问题中小样本
分类
数据
的
处理
、
、
、
、
我有一个疾病
的
数据集,大约有37个
特征
,所有这些都是
分类
变量
,除了两个是“年龄”和"Age_onset“。参赛人数为219人。我正在开发一个二元
分类
模型
来
预测
病人是否患有这种疾病。目前我面临
的
问题是
如何
选择
合适
的
模型
,给出我
的
数据
的
分类
性质和数量。 现在
的
范畴
变量
不是高基数,即使采用
浏览 3
提问于2022-01-02
得票数 0
回答已采纳
4
回答
哪一个首先:算法基准,
特征
选择
,参数调整?
、
在尝试进行
分类
时,我目前
的
方法是
使用
所选
的
特性和算法优化参数 然而,如果其他算法都具有最佳
的
参数/最合适
的
特征
,我常常无法说服自己,可能会有比所选
的
算法更好
的
算法。对正确
的
方法/顺序有什么建议吗?
浏览 0
提问于2016-03-06
得票数 11
回答已采纳
1
回答
是否可以
使用
特征
重要性来解释“为什么以及哪个
特征
对
模型
预测
有贡献”?
、
、
、
、
我有一个XGBoost(
分类
)
模型
,
使用
N个
变量
和
模型
的
特征
重要性列表,准确率约为75%。我
的
问题是-对于给定
的
行和
预测
分数-我能解释哪些
特征
导致了1或0
预测
吗?
浏览 18
提问于2021-09-29
得票数 0
1
回答
Python sklearn.linear_model: LinearRegression() ValueError发生在.predict()
、
、
、
、
我
的
训练矩阵X有形状( 5182,19231),y是长度为5182
的
1s和0
的
列表。我
的
测试矩阵有形状(496,5477)。我把它们保存在单独
的
泡菜文件里。这是我
的
代码: f=open(pklFile1, 'rb') f.close() return
浏览 4
提问于2016-05-25
得票数 1
回答已采纳
1
回答
用于
特征
选择
的
LightGBM
、
、
我正在研究一个二进制
分类
问题,我
的
训练数据有数百万条记录和2000个
变量
。我运行lightGBM进行
特征
选择
,并
使用
从lightGBM中
选择
的
特性运行神经网络(
使用
Keras)
模型
进行
预测
。关于我所遵循
的
方法,我有几个问题。 当
使用
lightGBM进行特性
选择
时,我正在进行超参数调优。这是基于我
的
理解,随着超参数
的</e
浏览 7
提问于2020-07-07
得票数 2
1
回答
回归-不平衡范畴
特征
、
、
我有一个数据集,它有一些不平衡
的
分类
特征
。我想要建立一个回归
模型
来
预测
标签
使用
机器学习(ML)。
如何
处理
分类
变量
中
的
数据不平衡,以避免ML回归
模型
中
的
任何偏差?
浏览 0
提问于2019-01-28
得票数 1
2
回答
如何
优化XGBoost性能精度?
、
我有数据集
预测
客户退出(是,否),有5个数字
特征
和2个
分类
特征
。我对数值数据应用了一个定标器,并将
分类
特征
转换为虚拟
变量
,创建了29个
特征
。我
的
数据集有6552行和34个
特征
的
形状。优化XGBClassifier参数
的
推荐方法是什么,因为我
使用
默认值(即model=XGBClassifier() )创建了
模型
。在找到最优
预测
值之
浏览 0
提问于2018-03-14
得票数 4
回答已采纳
1
回答
分类
预测
出错和偏差问题
、
、
、
、
我在
分类
预测
方面有个问题。最初,我有一个大小为19670
的
数据框,包含115个
变量
(数字和
分类
)。类
变量
BiClass (由"0“和"1”类组成),我在
模型
中有13540个"0“类和6130个"1”类。“1”是感兴趣
的
。
使用
ranger在训练集上训练随机森林
分类
模型
,并在测试集上进行
预测
。我得到
的
预测
结果如
浏览 18
提问于2020-06-05
得票数 0
2
回答
pandas数据和scikit学习
、
、
我有一个熊猫数据集,其中有300多个
预测
值,它们既是连续
的
,也是
分类
的
。目标
变量
是
分类
变量
,值为0或1。我将执行逻辑回归,并希望
使用
scikit learn模块中
的
递归
特征
选择
来获得
预测
因子
的
候选列表。我知道
如何
在rfe.fit(x,y)函数中分配目标
变量
。
如何
将所有其他
变量
分配给x矩阵? 谢
浏览 2
提问于2016-03-08
得票数 1
1
回答
数据集
特征
之间没有关联
、
我正试图建立一个
分类
模型
来
预测
纽约出租车出行
的
价格(2018年)。数据源页面 由于原始文件非常大(112 234 626行),所以我构建了较小
的
示例文件(1000行)来进行第一次探索性分析。通过
使用
这个示例文件,我构建了热图图来显示数据集
特征
之间
的
相关性。发现
模型
的
因
变量
(fare_amount)仅与trip_distance
变量
相关。其他独立
变量
之间没有明显<e
浏览 0
提问于2019-06-04
得票数 0
3
回答
如何
在具有
分类
特征
和数值
特征
的
数据集上进行
特征
选择
?
、
、
我正在处理一个30列
的
数据集(29列,1个非序数
分类
)。我热编码
的
分类
功能,并达到35列。为了提高培训效率,我希望在我
的
数据集上执行
特征
选择
。但是,我对
如何
处理包含
分类
和数值特性
的
数据集感到困惑。我读到,在假人身上应用PCA是不合理
的
,因为它们是离散
的
。首先将PCA应用于数值
特征
,然后将它们与假人连接起来,这是否合理? 我试图通过交叉验证(RFECV)实现对整个<
浏览 0
提问于2020-07-15
得票数 7
1
回答
当数据集没有目标
变量
时,
如何
从所有特性中
选择
最佳特性?
、
、
、
、
我
的
数据集有200个功能和500行。因此,我必须为销售
预测
模型
选择
最好
的
30个可以在
模型
中
使用
的
特性,而不是所有200个特性,但是特性
的
重要性可能会随着时间
的
推移而改变。有趣
的
是,数据集没有目标
变量
。 当数据集没有目标
变量
时,
如何
从所有
特征
中
选择
最佳
特征
来确定
预测
模型
浏览 5
提问于2022-10-19
得票数 -1
1
回答
斯坦福最大
分类
预测
、
、
、
我正在尝试
使用
stanford maxent
分类
来
使用
4个
特征
来对数据进行
分类
,第五个
特征
是类。当我提供测试数据时,准确率是99%,这似乎几乎是不可能
的
。当我检查
预测
的
标签时,它们与数据本身完全相同。但后来我更改了数据中
的
标签,
预测
的
标签也发生了变化。我认为
使用
分类
器
模型
的
预测
不应该考虑数据中
浏览 3
提问于2015-04-03
得票数 0
2
回答
机器学习-基于算法
的
特征
排序
、
、
、
我有一个包含大约30个
特征
的
数据集,我想找出哪些特性对结果
的
贡献最大。我有5个算法: 我读过很多关于信息获取技术
的
文章,它似乎是独立于
使用
的
机器学习算法。这就像一种预处理技术。我
的
问题如下:是对每个算法执行
特征
重要性
的
最佳实践是依赖于还是只
使用
信息增益。如果是的话,每个人都
使用
什么技术?
浏览 0
提问于2019-01-04
得票数 3
回答已采纳
点击加载更多
相关
资讯
R语言组lasso改进逻辑回归变量选择分析高血压、易感因素、2型糖尿病和LDL可视化
创建具有业务影响的数据科学项目:用R预测流失
Python数据建模-回归分析
机器学习中的概率统计应用实践|更新完结
机器学习模型训练全流程!
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券