为什么随机森林需要更长的时间来拟合带有虚拟变量的数据帧？

、、、

我正在使用fastai Intro to Machine Learning course，在Lesson 1中，他使用了来自Kaggle的Blue Book for Bulldozers dataset上的随机森林。让我感到奇怪的是，讲师没有使用SKlearn的pd.get_dummies()或OneHotEncoder来处理分类数据。取而代之的是，他对所有分类列调用了pd.Series.cat.codes。我注意到当调用fit()方法时，它在使用pd

浏览 15提问于2019-03-21得票数 4

2回答

滑雪场随机森林

、、

我试着用sklearn的随机森林分类器包来拟合随机森林模型。但是，我的数据集由具有字符串值('country')的列组成。这里的随机林分类器不接受字符串值。它需要所有特征的数值。我想用一些虚拟变量来代替这样的列。但是，我搞不懂现在的特色重

浏览 0提问于2016-04-03得票数 0

回答已采纳

1回答

支持向量机需要很长时间来进行参数整定。

、、、

我在上运行支持向量机、Logistic回归和随机森林。我的训练数据集具有形状(454491，30)。F1 score: 0.9999383944188953我选择支持向量机，因为随机森林容易过度拟合我想通过超参数调优来添加regularization。我最初使用的是GridSearchCV，但花了很长时间

浏览 7提问于2020-09-11得票数 0

回答已采纳

3回答

是否需要特征选择？

、、、

我想运行一些机器学习模型，如随机森林，梯度提升，或支持向量机在我的数据集。我的数据集中有超过200个预测变量，我的目标类是一个二进制变量。在模型拟合之前，我需要运行特征选择吗？如果我直接使用所有的预测变量来拟合模型，它会对模型的性能产生显著的影响还是没有多大的差异？

浏览 0提问于2017-01-04得票数 14

回答已采纳

3回答

提高插入符号(R)中的模型训练速度

、、、

我有一个由20个特征和大约300,000个观察值组成的数据集。我使用插入符号来训练带有doParallel和四个内核的模型。对于我尝试过的方法(rf，nnet，adabag，svmPoly)，即使在我10%的数据上训练也要花8个多小时。我用bootstrapping重采样了3次，我的tuneLength是5。我能做些什么来加快这个令人痛苦的缓慢过程吗？有人建议使用底层库可以将我的过

浏览 0提问于2015-10-02得票数 12

回答已采纳

1回答

Scikit学习中的分类数据转换

、、、

我有一个4000万×22的整数数据数组，用于分类任务。大多数功能都是分类数据，使用不同的整数值来表示不同的类别。例如，在列“Color”中，0表示蓝色，1表示红色，依此类推。我已经使用LabelEncoder对数据进行了预处理。是否有必要将这些数据纳入SK-learn中的任何分类模型？我试图将数据拟合成随机森林模型，但精度极差。我也尝试过一次热编码将

浏览 5提问于2015-01-09得票数 2

回答已采纳

2回答

用随机森林和神经网络人工增加回归训练数据

、、、、

我们正在尝试根据它们的属性值来预测销售数量，.We有大约8000条记录用于训练.Is，通过为相同的8000条记录的销售数量添加一些小的变化来增加训练数据是正确的吗？我想准备包含24000(3* 8000 )条记录的新训练集，这8000条记录的销售量为+或-0.1% 例如:与原始数据销售quantity=2一样，新数据将具有相同项目的2、2.1和1.9。

浏览 2提问于2017-08-03得票数 1

2回答

具有两个预测器的随机森林

、、

我使用随机森林来估计一些预测器的重要性(%IncMSE)。然后，我使用除一个之外的所有预测因子的组合，并再次计算它们的重要性。如果我是正确的，这将意味着在每次迭代中，随机森林仅使用两个预测器中的一个来拟合树。如果我只需要做一个只有两个预测因子的模型，随机森林就不会是我的第一选

浏览 4提问于2014-06-26得票数 1

1回答

R分类

、、、

我有一个具有二进制目标的数据集(好客户端与坏客户端)。对于每个客户端，我有一个包含许多变量的行(~150)。我有以下问题：随机森林不支持缺失的值。从技术上讲，我知道如何告诉R来

浏览 1提问于2016-06-12得票数 0

2回答

模型中的过拟合问题

、、、

在模型选择之后，我决定使用随机森林来预测模型。有几个问题让我很感兴趣： ( 1)在整定模型时，我在测试集上所能得到的最佳结果是平均绝对误差大于2200。我也使用了简单的估计量，但是他们在训练和测试中有太多的偏差。我知道，如果我有更多的数据，有一个方法可以摆脱这种过度拟合，但这些数据是我可以从我刮过的页面中获得的最大数据。2)第二个可选问题是:数据

浏览 0提问于2018-06-11得票数 1

2回答

为什么随机森林中的更多特征会显著降低准确率？

、

我使用sklearn的随机森林模块来预测基于50个不同维度的值。当我将维数增加到150时，模型的精度会急剧下降。我希望更多的数据只会使模型更准确，但更多的功能往往会使模型更不准确。我怀疑拆分可能只在一个维度上进行，这意味着在构建树时，实际上更重要的特征得到的关注较少。这可能是原因吗？

浏览 0提问于2019-01-03得票数 0

1回答

寻找连续目标变量“最佳”截止点的方法

、、、

我正在研究一个机器学习场景，其中目标变量是停电持续时间。目标变量的分布严重偏右(你可以想象大多数停电发生并很快就结束了，但还有很多很多异常值可以持续更长时间)随着持续时间越来越长，许多停电的数据变得越来越不“可解释”。这大约是320分钟大关，包含了大约90%的中断。但这完全是主观的，我知道必须有某种程序来确定这个目标变量的“最佳”截止点。理想情

浏览 0提问于2017-01-04得票数 3

2回答

学习随机森林回归:混合两组真值(y)

、、

我用两套“真”y值训练随机森林(经验性的)。我能很容易地分辨出哪一个更好。比如说，生物活动。不同的实验和不同的数据库提供了不同的价值。这是一个简单的示例，在第3列和第4列上显示了两组不同的y值。47.7,30.7 5i9i,5H

浏览 2提问于2019-01-24得票数 0

1回答

scikit学习健身剩余时间

、

是否有一种方法来估计模型拟合时的剩余时间？例如model.fit(x, y) 我有一个相当大的数据集(数百万行)，这需要一些时间，所以我想知道估计的时间，这样我就可以做其他的数据集，并在进程完成后返回。有了像随机森林一样

浏览 6提问于2014-03-03得票数 3

回答已采纳

2回答

随机森林中树数与OOB误差的划分

、

我拟合了一个随机森林模型。我使用过randomForest和ranger软件包。我没有调整森林中的树数，我只留下了默认的编号，即500。现在我想看看是否足够了，也就是错误是否达到了一个平台。因此，我相信我需要提取单个树，随机抽取100,200,300,400，最后500棵树，从它们中提取oob树，并计算出100,200，……的OOB错误。连续的树木。更重要的是，ranger::treeInfo返回5

浏览 6提问于2019-03-04得票数 0

1回答

在使用随机森林和支持向量机的同时使用DataPreparer规范数据之后，为什么我的数据值会变成负值呢？

、、、、

我正在进行预测建模，我需要预测一个在线客户最终是否会在一个网站上购买一个产品，我使用的是随机森林分类器和支持向量机，因为这是一个分类问题。在创建了用于培训、测试和验证集的拟合分块之后，我对数据进行了虚拟、标准化和规范化。然而，当我将集合规范化之后，它们的价值就都变成了负值。有没有办法改变这种状况，为什么会发生这种情况？用于规范拟合集的代码如下： data_preparer = Da

浏览 10提问于2022-06-10得票数 -1

2回答

如何绘制与最佳参数相对应的随机森林树

、、、

Python: 3.6关于兰登森林和眼前的问题，我几乎没有什么问题： rf_random.fit(X_train, y_train) 最好的参数是我的因变量y位于范围中，所有预测变量

浏览 5提问于2020-05-31得票数 4

回答已采纳

1回答

如何实现交叉验证和随机森林分类器给定的特征集作为字典？

、、、、

我已经将我的featuresets作为包含表单中元素的字典： 1: 0.035093167701863354, 2: 0.07453416149068323有人能帮我在Python中使用线性SVC和随机森林分类器实现交叉验证吗？

浏览 2提问于2017-02-26得票数 1

回答已采纳

1回答

R中的模型学习时间

、、

一般来说，我对r和机器学习都很陌生，我正在尝试使用一些数据来训练一些不同的模型。训练数据集由75个变量的4650个观察值组成，其中包括目标。对于虚拟变量，我猜测(我自己没有进行预处理)总共有130个左右的变量。目标是一个具有3个水平的有序因子。使用rattle，我训练一棵树需要1-2秒，训练随机森林需要45-55秒，使用svm大

浏览 0提问于2017-02-26得票数 1

5回答

如何在matlab中提高决策树的精度

、、、

我有一组数据，我在matlab中使用决策树对它们进行分类。我将集合分为两部分:一部分是训练数据(85%)，另一部分是测试数据(15%)。问题是准确率在%90左右，我不知道如何才能提高它。

浏览 1提问于2012-06-06得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

滑雪场随机森林

支持向量机需要很长时间来进行参数整定。

是否需要特征选择？

提高插入符号(R)中的模型训练速度

Scikit学习中的分类数据转换

用随机森林和神经网络人工增加回归训练数据

具有两个预测器的随机森林

R分类

模型中的过拟合问题

为什么随机森林中的更多特征会显著降低准确率？

寻找连续目标变量“最佳”截止点的方法

学习随机森林回归:混合两组真值(y)

scikit学习健身剩余时间

随机森林中树数与OOB误差的划分

在使用随机森林和支持向量机的同时使用DataPreparer规范数据之后，为什么我的数据值会变成负值呢？

如何绘制与最佳参数相对应的随机森林树

如何实现交叉验证和随机森林分类器给定的特征集作为字典？

R中的模型学习时间

如何在matlab中提高决策树的精度

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐