Python中训练RF模型特征的命名与排序

文章/答案/技术大牛

发布

1回答

python、python-3.x、machine-learning、data-science、random-forest

因此，我在一个相当简单的客户数据上训练了一个RandomForest模型。预测要么是1，要么是0，表明客户是否会流失。假设我有10个叫做'f1'，'f2'，'f3‘等等的特性……由于模型已经经过了训练，我又取了一段时间的相似数据来看看模型的表现。但在这些数据中，特征可能会以不同的方式进行混洗。模型是否会查看功能<e

浏览 13提问于2019-12-06得票数 0

回答已采纳

1回答

如何理解不同机器学习模型的性能？

machine-learning、machine-learning-model

我有一个数据集，其中包含处理条件(即42个特征)和一类材料的属性(即1个目标)。为了了解不同机器学习模型的性能，在训练中考虑了不同数量的特征，对五种不同的机器学习模型进行了测试。这些模型分别是线性回归(LR)、贝叶斯岭(BR)、最近邻(NN)、随机森林(RF)和支持向量机(SVM)回归。测试数据集的确定系数(R2)用来表示经过训练的机器学习模型<

浏览 0提问于2020-06-16得票数 1

回答已采纳

1回答

哪些模型隐含地考虑了特性之间的交互？

neural-network、decision-trees

我想更多地了解不同的模型(特别是NN和RF，但还有其他模型)如何考虑表格数据中的特性之间的交互？例如，在训练时，模型是否能得出这样的结论：“虽然特性1可能与响应不直接相关，但当特征1较低时，功能2在预测响应方面非常有效”。因此，经过训练的模型将利用这两个特征之间的相互作用，并对它们进行相应的加

浏览 0提问于2020-05-30得票数 2

2回答

我需要强制我的随机森林模型来学习一个关键的特征之间的关系。我怎样才能做到这一点？

r、random-forest

假设给我的RF模型输入10个独立的特征，当特征1和特征3是100 (或更少)时，我的模型输出必须是5，尽管有其他特性的值。我怎样才能教我的射频模型的关系-所以它将永远服从这一点？我尝试在训练集中添加重复的人工数据点，其中特征1和3小于或等于100，并且输出总是为零，但是RF模型似乎只是基于这一

浏览 0提问于2018-10-24得票数 3

2回答

特征选择和交叉验证

statistics、machine-learning、feature-extraction、feature-selection、cross-validation

我想训练一个回归模型，为了做到这一点，我使用随机森林模型。然而，我也需要进行特征选择，因为我的数据集中有太多的特征，我担心如果我使用了所有的特征，我就会过度拟合。2-执行以下步骤： 1-将数据分成4/5用于训练，1/5用于测试2-将此训练数据(完整数据的4/5 )分成两半: a-)在前半部分训练模型并使用训练后<em

浏览 1提问于2013-10-29得票数 5

1回答

使用CRF模型(CRFSuite)标记项目时处理缺失或未知特征

python、missing-data、crf、missing-features

我正在使用CRFSuite ( python-crfsuite实现)构建一个命名实体提取器，类似于关于的教程训练输入是一个单词序列，每个单词都有许多特性。问题是，对于我的特定用例，我并不总是拥有我试图识别的实体的功能。我希望CRF模型能够根据周围单词的特征来识别实体。然而，当我简单地输入一个空的dict {}作为单词的特征时，命名的实体永远不会被

浏览 6提问于2015-05-20得票数 0

1回答

自动特征选择-避免数据泄漏的最佳实践？

machine-learning、feature-selection、random-forest、cross-validation、feature-extraction

这个问题通常与所有自动特征选择方法有关。在我的特定场景中，我们有一个称为茶鲜和多类分类的python包。到目前为止，已经做了些什么？我使用tsfresh.extract提取特征，而不过滤任何特性。所有这些特征都被输入到RF模型中，并由模型自己来决定重要的特征。模型的性能是测量平均交叉验证与5

浏览 0提问于2022-06-20得票数 1

0回答

训练和测试集中的不同数量的特征-随机森林sklearn Python

python、scikit-learn、random-forest

我正在使用Python中的sklearn包将随机森林回归模型拟合到如下所示的数据：rf=rf.fit(X_train,y_train) 但是，然后我尝试使用训练集中<

浏览 1提问于2017-06-19得票数 1

5回答

在机器学习中合并稀疏和密集数据以提高性能

machine-learning、classification、predictive-modeling、scikit-learn、supervised-learning

我有一些可预测的稀疏特征，也有一些同样具有预测性的稠密特征。我需要将这些特性结合起来，以提高分类器的整体性能。现在，问题是，当我试图将这些组合在一起时，密集的特征往往比稀疏的特征占优势，因此与只有密集特征的模型相比，AUC只提供了1%的改进。有人遇到过类似的问题吗？真的很感激你的投入，有点卡住了。我已经尝试了很多不同的

浏览 0提问于2016-04-06得票数 18

1回答

sagemaker实时预测中的特征提取

amazon-web-services、machine-learning、lambda、amazon-sagemaker、fraud-prevention

我想部署一个实时预测机器学习模型，用于使用sagemaker进行欺诈检测。encode the categorical value)对于推断步骤，我使用了一个lambda函数，该函数调用我的端点来获得每个实时事务的预测

浏览 6提问于2021-05-07得票数 0

1回答

这是什么样的型号/类型？

machine-learning、python

本质上，我想传递一个程序--一些变量，所有这些变量都是从我的站点上的一个用户那里收集来的，并让程序给出用户的真实程度的“分数”。我已经有了大量的数据，已经设置了“分数”，并且希望自己开始创建分数(目前是通过第三方完成的)。在阅读了关于机器学习的文章并询问了一些朋友之后，我选择了python (仍然对想法持开放态度)，但我不确定我要选择哪种类型的算法，有监督的，无监督的，强化

浏览 0提问于2022-06-03得票数 1

1回答

SparkML -创建RandomForestRegressionModel的df(特性，feature_importance)

scala、apache-spark-ml

我正在以下列方式训练随机森林模型：val stringIndexers = categoricalColumns.map { colName =>val cvRFModel = cvRF.fit(training) 我现在想要的是在培训后了解模型中每个特性的</e

浏览 1提问于2018-10-01得票数 0

回答已采纳

3回答

特征越多，线性模型越完善。

machine-learning、linear-algebra

我需要更多地了解特性数量与线性模型回归之间的关系，基于Andreas C.Müller和Sarah Guido所著的“机器学习与Python入门”一书第47页的这一段：它是如何用线性代数来解释<e

浏览 0提问于2018-08-04得票数 0

回答已采纳

2回答

在XGBoost中如何适合成对排序模型？

search、ranking、xgboost、gbm

据我所知，为了训练学习对模型进行排序，您需要在数据集中有三件事：组或查询id例如，微软学习排序数据集使用这种格式(标签、组id和特性)。我正在试用XGBoost，它利用GBM来进行两两排序。他们有一个排序任务的示例，它像上面一样使用C++程序在Microsoft上学习。但是，我正在使用他们的Python包装器，似乎找不到可以输入组id的位置(qid )。我可以仅仅使用<e

浏览 0提问于2016-02-10得票数 26

回答已采纳

1回答

python、machine-learning、data-science、xgboost、shap

我在使用SHAP value来解释基于树的模型时遇到了一个问题。首先，我输入了大约30个特征，我有2个特征，它们之间有很高的正相关性。在此之后，我训练了XGBoost模型(Python)，并查看了2个特征的Shap值，Shap值具有负相关性。你们能给我解释一下，为什么两个特征之间的输出SHAP值不具有与输入相关相同的相关性吗？我能不能相

浏览 11提问于2019-11-25得票数 0

点击加载更多