腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
随机森林
特征
选择
的
Pearson相关或
特征
重要性
、
我有一个数据集,其中一个
特征
显示了与目标变量
的
最小显着性关系;然而,在评估了
特征
重要性之后,它显示了与目标变量
的
最显著关系,如图像所示。在下面的图像中,名为"diff“
的
变量是目标,称为”小时“
的
变量是独立
的
特征
。
基于
Pearson
相关性
的
特征
是否有可能表现出最小
的
显着性关系,而
基于
特征
重要性
的
<em
浏览 3
提问于2022-02-03
得票数 0
2
回答
SHAP值可以解释,对吗?
、
、
、
、
我在使用SHAP value来解释
基于
树
的
模型时遇到了一个问题。首先,我输入了大约30个
特征
,我有2个
特征
,它们之间有很高
的
正
相关性
。在此之后,我训练了XGBoost模型(Python),并查看了2个
特征
的
Shap值,Shap值具有负
相关性
。 你们能给我解释一下,为什么两个
特征
之间
的
输出SHAP值不具有与输入相关相同
的
相关性
吗?我能不能相信SHAP
浏览 11
提问于2019-11-25
得票数 0
2
回答
特征
选择对决策树算法有影响吗?
、
、
背景:目前,我正在从事我
的
论文项目,即建立
基于
树
的
集成方法,用于在一个大数据集上进行分类。在我开始建模之前,我花了大量
的
时间在
特征
选择上,使用
基于
相关性
的
标准来选择一个
特征
子集,这样这些选择
的
特征
与响应变量有很高
的
相关性
,并且彼此之间
的
相关性
很低。然而,我
的
一位主管问我为什么花那么多时间在
特征
浏览 0
提问于2019-05-08
得票数 9
1
回答
稀疏非平衡高维数据
的
特征
选择
、
、
我有一个高度不平衡
的
数据和非常稀少
的
正面标签。数据是非常高维
的
。最重要
的
是,我
的
功能也非常稀疏。有什么建
浏览 4
提问于2014-07-23
得票数 0
1
回答
验证输出
我正在努力寻找十大有用
的
项目
推荐
。将项目分为类别,然后计算每个类别中
的
top10。有六个
特征
,根据这些
特征
,每个项目都分配一个分数,然后按递减顺序排序,以获得前十名。我不确定这些是否是最好
的
顶级商品?如何验证输出?我需要看看哪个
特征
在计算分数时占主导地位? 我已经计算了
相关性
,还有其他统计指标吗?
浏览 0
提问于2016-02-04
得票数 2
3
回答
Java中
的
特征
值及其对应
的
EigenVector
、
、
、
给定一个矩阵,我感兴趣
的
是
特征
值和相应
的
特征
向量。你能给我
推荐
一下这样做
的
方法吗?谢谢:) 我正试图寻找一个被认可
的
答案,但现在,根据我所做
的
实验和观察,
特征
向量和evigenValues似乎是对
浏览 0
提问于2012-12-20
得票数 1
回答已采纳
2
回答
形状值可以解释对吗?
、
、
、
、
在使用SHAP值解释
基于
树
的
模型时,我遇到了一个问题。(https://github.com/slundberg/shapsd) 请大家向我解释一下,为什么两个特性之间
的
输出SHAP值不具有与输入
相关性
相同
的
相
浏览 0
提问于2019-11-26
得票数 4
回答已采纳
2
回答
互信息概念
、
选择
特征
的
互信息概念是什么?有人能用简单
的
方式解释吗? 除非你能向你祖母解释,否则你不会真正理解什么。阿尔伯特·爱因斯坦
浏览 0
提问于2018-11-22
得票数 2
1
回答
为什么在执行交叉验证之前,
基于
预测变量和因变量之间低
相关性
的
预测值下降是不正确
的
?
、
、
我检查了预测因子与Y之间
的
相关性
,以及与Y
相关性
较低
的
下降预测因子。现在,我使用Y和剩下
的
预测因子之间
的
交叉验证来训练一个logistic回归模型。 这种方法有什么问题?
浏览 2
提问于2016-07-11
得票数 1
回答已采纳
1
回答
提高
特征
与结果
相关性
的
特征
工程
、
、
、
如何改进
特征
和结果之间
的
相关性
,以便实现回归模型?我知道使用pandas .corr()函数可以看到
相关性
,回归模型
的
最佳
特征
是最接近1或-1
的
特征
。但是如果所有的
特征
都接近于0,我应该怎么做?有没有一种方法可以实现某种
特征
工程,这样我就可以改善这种
相关性
?
浏览 2
提问于2019-12-17
得票数 0
1
回答
使用方差通货膨胀因子自动删除高度相关
的
特征
?
、
、
我希望能够自动删除高度相关
的
功能。我正在使用一组20-30个特性来执行分类问题,其中一些可能是相关
的
。另一方面,当一个模型中包含了三个或多个高度相关
的
变量时,就更难检测多个变量。(参考在这里)9.7
浏览 0
提问于2019-05-24
得票数 1
1
回答
基于
词到标签
相关性
的
情感分析
特征
选择
、
、
在我对194k个带有标签(类别1-5)
的
评论文本
的
数据集进行情感分析时,我试图减少
基于
单词到标签
相关性
的
特征
(单词),通过这些
特征
可以训练分类器。使用带有默认参数化
的
sklearn.feature_extraction.text.CountVectorizer,我得到了86,7k
的
特性。遗憾
的
是,大小为(194339,86719)
的
数组会导致内存错误。我想我需要它在数据框中,以便计算与df.corr
浏览 26
提问于2020-09-16
得票数 0
回答已采纳
1
回答
选择k均值聚类模型
的
适当相似性度量
、
、
、
我使用k-means算法对我
的
数据进行聚类。我有5000个样本……(我
的
每个样本都是关于一个客户
的
。为了分析客户价值,我将
基于
4个行为
特征
对它们进行聚类。)距离是使用欧几里德度量和皮尔逊
相关性
计算
的
。我不知道欧几里德距离是计算距离
的
正确方法还是皮尔逊
相关性
?我正在使用轮廓来验证我
的
聚类。当我使用皮尔逊
相关性
时,轮廓值比我使用欧几里德度量时要多。这是否意味着皮尔逊
相关性
浏览 4
提问于2014-08-04
得票数 0
1
回答
Java中用于回归
的
机器学习
特征
排名/评分
、
、
、
对于类值为连续数字而不是二进制
的
回归数据集,Java中是否有可用
的
特征
评分方法? ML-Lib 似乎只适用于分类数据集。
浏览 1
提问于2015-12-22
得票数 0
4
回答
如何比较
特征
选择方法
的
性能?
、
、
有几种特性选择/变量选择方法(例如,请参见Guyon和Elisseeff,2003年,年;刘等人,2010年年):包装方法(例如,前向搜索、爬山搜索),以及比较不同
的
特征
选择算法
浏览 0
提问于2016-12-06
得票数 15
1
回答
分类数据-如何处理
、
、
很少有关于分类数据
的
问题。需要建议/指示:cat和num
特征
之间
的
相关性
如何?我们如何找到目标依赖于组合
的
分类
特征
,但可能不显示与个别
特征
的
相关性
的
情况? 我们能否处理测试数据具有训练数据中不存在
的
分类
特征
值
的
场景?
浏览 0
提问于2020-04-28
得票数 0
1
回答
在建立模型时是否需要
相关性
?
、
、
一些文献报道了在建立模型时
特征
与目标
特征
之间
的
相关性
,有必要检查
特征
与目标
特征
之间
的
相关性
吗?如果功能
的
数量很高,那就不容易了。
浏览 0
提问于2018-03-13
得票数 0
回答已采纳
1
回答
特征
之间
的
相关性
、
在python中,我有以下问题: 我只想在一个
特征
上打印多个
特征
的
相关性
<0.9 (这里:'Volume'):在这种情况下,示例指的是我
的
数据帧 代码: correlation=example.corrmy_features=pd.DataFrame(my_feature) my_feature['Feature']=my_feature.index 因此,我现在有了一个dataFrame,它具有我
的
特征
,即变量'
浏览 16
提问于2020-01-29
得票数 0
1
回答
特征
选择:如果在简历拆分之前泄露信息?
、
目前,我正在做一些简单
的
特征
选择,
基于
特征
和方差在一个
特征
之间
的
相关性
。在创建交叉验证之前,我将此应用于用于建模
的
整个数据集。我现在
的
问题是,这是否是可以接受
的
工作流程,或者是否会显著影响简历统计数据,从而提出一个比实际更好
的
模型? 技术上更好
的
做法是进行简历分割,然后在培训集上选择功能,以避免泄露信息?
浏览 0
提问于2017-05-10
得票数 1
1
回答
使用Weka处理关联规则缺少
的
值
、
、
我有一个数据集,大约有13个特性(都是二进制
的
)。其中一些特性仅适用于一小部分数据。当我使用Weka运行关联规则挖掘时,它
基于
特征
值为0 (0意味着
特征
不适用)来识别属性之间
的
强
相关性
。我希望这种相互关系只被确认为积极
的
特征
。我该怎么做?
浏览 3
提问于2014-06-02
得票数 1
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券