基于相关性特征的推荐 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

随机森林特征选择的Pearson相关或特征重要性

python、machine-learning

我有一个数据集，其中一个特征显示了与目标变量的最小显着性关系；然而，在评估了特征重要性之后，它显示了与目标变量的最显著关系，如图像所示。在下面的图像中，名为"diff“的变量是目标，称为”小时“的变量是独立的特征。基于Pearson相关性的特征是否有可能表现出最小的显着性关系，而基于特征重要性的<em

浏览 3提问于2022-02-03得票数 0

2回答

SHAP值可以解释，对吗？

python、machine-learning、data-science、xgboost、shap

我在使用SHAP value来解释基于树的模型时遇到了一个问题。首先，我输入了大约30个特征，我有2个特征，它们之间有很高的正相关性。在此之后，我训练了XGBoost模型(Python)，并查看了2个特征的Shap值，Shap值具有负相关性。你们能给我解释一下，为什么两个特征之间的输出SHAP值不具有与输入相关相同的相关性吗？我能不能相信SHAP

浏览 11提问于2019-11-25得票数 0

2回答

特征选择对决策树算法有影响吗？

machine-learning、feature-selection、decision-trees

背景:目前，我正在从事我的论文项目，即建立基于树的集成方法，用于在一个大数据集上进行分类。在我开始建模之前，我花了大量的时间在特征选择上，使用基于相关性的标准来选择一个特征子集，这样这些选择的特征与响应变量有很高的相关性，并且彼此之间的相关性很低。然而，我的一位主管问我为什么花那么多时间在特征

浏览 0提问于2019-05-08得票数 9

1回答

稀疏非平衡高维数据的特征选择

sparse-matrix、correlation、pearson

我有一个高度不平衡的数据和非常稀少的正面标签。数据是非常高维的。最重要的是，我的功能也非常稀疏。有什么建

浏览 4提问于2014-07-23得票数 0

1回答

验证输出

regression

我正在努力寻找十大有用的项目推荐。将项目分为类别，然后计算每个类别中的top10。有六个特征，根据这些特征，每个项目都分配一个分数，然后按递减顺序排序，以获得前十名。我不确定这些是否是最好的顶级商品？如何验证输出？我需要看看哪个特征在计算分数时占主导地位？我已经计算了相关性，还有其他统计指标吗？

浏览 0提问于2016-02-04得票数 2

3回答

Java中的特征值及其对应的EigenVector

java、eigenvector、eigenvalue、jama

给定一个矩阵，我感兴趣的是特征值和相应的特征向量。你能给我推荐一下这样做的方法吗？谢谢:) 我正试图寻找一个被认可的答案，但现在，根据我所做的实验和观察，特征向量和evigenValues似乎是对

浏览 0提问于2012-12-20得票数 1

回答已采纳

2回答

形状值可以解释对吗？

machine-learning、python、xgboost、data-science-model、ensemble-modeling

在使用SHAP值解释基于树的模型时，我遇到了一个问题。(https://github.com/slundberg/shapsd) 请大家向我解释一下，为什么两个特性之间的输出SHAP值不具有与输入相关性相同的相

浏览 0提问于2019-11-26得票数 4

回答已采纳

2回答

互信息概念

feature-selection、mutual-information

选择特征的互信息概念是什么？有人能用简单的方式解释吗？除非你能向你祖母解释，否则你不会真正理解什么。阿尔伯特·爱因斯坦

浏览 0提问于2018-11-22得票数 2

1回答

为什么在执行交叉验证之前，基于预测变量和因变量之间低相关性的预测值下降是不正确的？

machine-learning、cross-validation、feature-selection

我检查了预测因子与Y之间的相关性，以及与Y相关性较低的下降预测因子。现在，我使用Y和剩下的预测因子之间的交叉验证来训练一个logistic回归模型。这种方法有什么问题？

浏览 2提问于2016-07-11得票数 1

回答已采纳

1回答

提高特征与结果相关性的特征工程

python、pandas、regression、feature-selection

如何改进特征和结果之间的相关性，以便实现回归模型？我知道使用pandas .corr()函数可以看到相关性，回归模型的最佳特征是最接近1或-1的特征。但是如果所有的特征都接近于0，我应该怎么做？有没有一种方法可以实现某种特征工程，这样我就可以改善这种相关性？

浏览 2提问于2019-12-17得票数 0

1回答

使用方差通货膨胀因子自动删除高度相关的特征？

machine-learning、logistic-regression、correlation

我希望能够自动删除高度相关的功能。我正在使用一组20-30个特性来执行分类问题，其中一些可能是相关的。另一方面，当一个模型中包含了三个或多个高度相关的变量时，就更难检测多个变量。(参考在这里)9.7

浏览 0提问于2019-05-24得票数 1

1回答

在我对194k个带有标签(类别1-5)的评论文本的数据集进行情感分析时，我试图减少基于单词到标签相关性的特征(单词)，通过这些特征可以训练分类器。使用带有默认参数化的sklearn.feature_extraction.text.CountVectorizer，我得到了86,7k的特性。遗憾的是，大小为(194339,86719)的数组会导致内存错误。我想我需要它在数据框中，以便计算与df.corr

浏览 26提问于2020-09-16得票数 0

回答已采纳

1回答

选择k均值聚类模型的适当相似性度量

cluster-analysis、distance、k-means、unsupervised-learning

我使用k-means算法对我的数据进行聚类。我有5000个样本……(我的每个样本都是关于一个客户的。为了分析客户价值，我将基于4个行为特征对它们进行聚类。)距离是使用欧几里德度量和皮尔逊相关性计算的。我不知道欧几里德距离是计算距离的正确方法还是皮尔逊相关性？我正在使用轮廓来验证我的聚类。当我使用皮尔逊相关性时，轮廓值比我使用欧几里德度量时要多。这是否意味着皮尔逊相关性

浏览 4提问于2014-08-04得票数 0

1回答

Java中用于回归的机器学习特征排名/评分

machine-learning、regression、weka、feature-selection

对于类值为连续数字而不是二进制的回归数据集，Java中是否有可用的特征评分方法？ ML-Lib 似乎只适用于分类数据集。

浏览 1提问于2015-12-22得票数 0

4回答

如何比较特征选择方法的性能？

feature-selection、performance、model-selection

有几种特性选择/变量选择方法(例如，请参见Guyon和Elisseeff，2003年，年；刘等人，2010年年)：包装方法(例如，前向搜索、爬山搜索)，以及比较不同的特征选择算法

浏览 0提问于2016-12-06得票数 15

1回答

分类数据-如何处理

categorical-data、categorical-encoding、one-hot-encoding

很少有关于分类数据的问题。需要建议/指示：cat和num特征之间的相关性如何？我们如何找到目标依赖于组合的分类特征，但可能不显示与个别特征的相关性的情况？我们能否处理测试数据具有训练数据中不存在的分类特征值的场景？

浏览 0提问于2020-04-28得票数 0

1回答

在建立模型时是否需要相关性？

machine-learning、predictive-modeling、feature-selection

一些文献报道了在建立模型时特征与目标特征之间的相关性，有必要检查特征与目标特征之间的相关性吗？如果功能的数量很高，那就不容易了。

浏览 0提问于2018-03-13得票数 0

回答已采纳

1回答

特征之间的相关性

python、correlation

在python中，我有以下问题：我只想在一个特征上打印多个特征的相关性<0.9 (这里：'Volume')：在这种情况下，示例指的是我的数据帧代码： correlation=example.corrmy_features=pd.DataFrame(my_feature) my_feature['Feature']=my_feature.index 因此，我现在有了一个dataFrame，它具有我的特征，即变量'

浏览 16提问于2020-01-29得票数 0

1回答

特征选择:如果在简历拆分之前泄露信息？

feature-selection、cross-validation

目前，我正在做一些简单的特征选择，基于特征和方差在一个特征之间的相关性。在创建交叉验证之前，我将此应用于用于建模的整个数据集。我现在的问题是，这是否是可以接受的工作流程，或者是否会显著影响简历统计数据，从而提出一个比实际更好的模型？技术上更好的做法是进行简历分割，然后在培训集上选择功能，以避免泄露信息？

浏览 0提问于2017-05-10得票数 1

1回答

使用Weka处理关联规则缺少的值

data-mining、weka、apriori

我有一个数据集，大约有13个特性(都是二进制的)。其中一些特性仅适用于一小部分数据。当我使用Weka运行关联规则挖掘时，它基于特征值为0 (0意味着特征不适用)来识别属性之间的强相关性。我希望这种相互关系只被确认为积极的特征。我该怎么做？

浏览 3提问于2014-06-02得票数 1

回答已采纳

点击加载更多

随机森林特征选择的Pearson相关或特征重要性

SHAP值可以解释，对吗？

特征选择对决策树算法有影响吗？

稀疏非平衡高维数据的特征选择

验证输出

Java中的特征值及其对应的EigenVector

形状值可以解释对吗？

互信息概念

为什么在执行交叉验证之前，基于预测变量和因变量之间低相关性的预测值下降是不正确的？

提高特征与结果相关性的特征工程

使用方差通货膨胀因子自动删除高度相关的特征？

基于词到标签相关性的情感分析特征选择

选择k均值聚类模型的适当相似性度量

Java中用于回归的机器学习特征排名/评分

如何比较特征选择方法的性能？

分类数据-如何处理

在建立模型时是否需要相关性？

特征之间的相关性

特征选择:如果在简历拆分之前泄露信息？

使用Weka处理关联规则缺少的值

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐