如果我只关心特征重要性，我是否应该将我的数据分成测试和训练？

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、

基本问题，但我有一些数据，并试图了解在预测目标变量的结果时，哪些特征是最重要的。我没有计划用这些数据进行预测。鉴于此，我是否应该将数据划分为训练和测试，如果是，为什么？谢谢!

浏览 16提问于2020-02-09得票数 0

1回答

获取数据帧字典的特征重要性

、、、、

我目前正在做一个使用RandomForestRegressor的用例。为了分别获得基于一个列的训练和测试数据，假设是Home，数据帧被分成字典。几乎完成了建模，但坚持获取字典中每个键的特征重要性(键的数量= 21)。importance in zip(feature_list, list(rf.feature_importances_)): print(n

浏览 14提问于2019-01-17得票数 0

1回答

随机森林的特征重要性

、、

我有一个有11个特征的数据集，我注意到操作这些特征(例如删除其中一个或一些)不会影响训练和测试数据的错误分数，所以我不得不检查这些特性的重要性。以下是以下内容：正如注意到的那样，第一个特性具有很高的一致性。然而，其余的都是无关紧要的。因此，我尝试只使用

浏览 0提问于2021-02-23得票数 1

2回答

特征选择和交叉验证

、、、、

我想训练一个回归模型，为了做到这一点，我使用随机森林模型。然而，我也需要进行特征选择，因为我的数据集中有太多的特征，我担心如果我使用了所有的特征，我就会过度拟合。1-如果我将数据分成两半，在前半部分进行特征选择，并使用这些选择的</

浏览 1提问于2013-10-29得票数 5

2回答

训练数据召回率高，但分类问题中测试数据召回率很低

、

我是ML的新手，我正在尝试为现实生活中的一个问题构建一个用于不平衡二进制类的分类器。我尝试了各种模型，如Logistic回归、随机森林、ANN等，但每次训练数据的准确率和召回率都非常高(约94%)，而测试或验证数据的准确率和召回率非常低(约1%)。我有53个特征和97094个数据</e

浏览 0提问于2020-03-09得票数 2

1回答

在LightGBM python API中调用feature_importance时遇到分段错误

、

我使用的是LightGBM 2.0.6 Python API。我的训练数据有大约80K个样本和400个特征，我正在训练一个大约2000次迭代的模型，该模型用于多类分类(#classes = 10)。当训练模型时，当我调用model.feature_importance()时，我遇到了分段错误。我尝试生成用于测试的人工数据

浏览 1提问于2017-08-28得票数 1

3回答

如何在神经网络中确定特征的重要性？

、、、、

我有一个神经网络来解决一个时间序列预测问题。这是一个序列对序列的神经网络，目前它是训练样本，每一个有十个特征。模型的性能是平均的，我想研究添加或删除特性是否会提高性能。我用keras构造了神经网络。我所包括的特点如下：按季滞后的历史数据系列(4个系列)四个时不变特征平铺延长了序列的</em

浏览 0提问于2019-01-27得票数 16

回答已采纳

1回答

在训练SVM时，是否需要单独的验证和测试集？

给定从训练数据集中提取的一组特征，这些特征用于训练SVM。使用k折交叉验证来选择SVM参数(例如，c，γ)，例如，训练数据集被分成5折，其中一个被选为验证集。完成了折叠的旋转，并使用平均精度来选择最佳参数。那么，我是否应该有另一组测试集(Test set)并报告(就像在纸质出版物中一样)？我的理解是，由于验证

浏览 1提问于2015-01-02得票数 0

1回答

如何在python中根据xgboost的变量重要性来绘制前k个变量？

、、

在python中，如何根据variableI重要性绘制前k个变量？我知道我可以从xgb_model.get_score()中提取变量重要性，它返回一个存储对(特征，重要性

浏览 128提问于2018-04-27得票数 0

回答已采纳

1回答

列车测试数据的预处理

、

我把X numpy array作为我的特性，把y numpy array作为我的目标。我把它们分成训练数据和测试数据。我从许多QnA中读到，他们只说preprocess训练和测试是分开的。我假设我只对我的

浏览 0提问于2020-03-15得票数 0

1回答

、、、

我试图解决一个回归问题，其中输入特征集的大小为54。我的数据集有14500条条目。我把它分成了9:

浏览 1提问于2017-08-29得票数 0

1回答

如何利用线性支持向量机权值进行特征选择

、、

我使用以下代码为两类类(1和0)建立了SVM线性模型：我使用以下代码提取了训练集的权重.svm.model$coefs) %

浏览 3提问于2018-01-08得票数 5

回答已采纳

3回答

spark ml :如何找到特征重要性

、、、

我是ml的新手，我正在使用Spark ML构建一个预测系统。我读到特征工程的一个主要部分是找到每个特征在进行所需预测时的重要性。在我的问题中，我有三个分类特征和两个字符串特征。我使用OneHotEncoding技术来转换分类特征，使用简单的HashingTF机制来转换字符串<

浏览 1提问于2016-08-22得票数 1

1回答

时间序列预测中滤波前后的特征选择

、、、、

我根据前一天的气象变量和臭氧值预测臭氧浓度。我使用savitzky golay滤波器来去除时间序列数据集中的噪声.使用XGBOOST，这是筛选器之前<

浏览 0提问于2019-08-05得票数 1

回答已采纳

1回答

使用TfIdfVectorizer生成测试数据

、、

我已经将我的数据分成了训练部分和测试部分。我的数据表有一个'text‘列。考虑一下，我还有另外十列表示数字特征。我已经使用TfidfVectorizer和训练数据来生成术语矩阵，并将其与数字特征相结合来创建训练数据框架。colle

浏览 29提问于2020-04-10得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云