如何在python中训练大数据集上的随机森林？_如何在python中创建具有随机宽度的一行多维数据集_在Python中，如何在某个范围内生成跟随函数输出的随机数据集？ - 腾讯云开发者社区

python、generator、scikit-learn、random-forest

我想知道是否有可能以及如何使用python生成器作为数据输入到scikit learn分类器的.fit()函数？由于有大量的数据，这对我来说似乎是有意义的。具体地说，我即将实现一个随机森林方法。

浏览 3提问于2014-01-06得票数 4

1回答

在scikit-learn中平均多个随机森林模型

python、machine-learning、scikit-learn、random-forest

我有一个非常大的数据集，我想在数据集的分区上训练几个随机的森林模型，然后对这些模型进行平均，以得出我的最终分类器。由于随机森林是一种集成方法，这是一种直观上合理的方法，但我不确定是否可以使用scikit-learn的随机森林分类器。有什么想

浏览 0提问于2017-12-23得票数 1

3回答

梯度增强vs随机林

machine-learning、random-forest、xgboost

根据我的理解，RF随机选择功能，因此很难过火。但是，在滑雪板上，梯度提升也提供了max_features的选项，可以帮助防止过度拟合。那么，为什么有人会使用随机森林？谁能解释什么时候使用梯度增强与随机森林基于给定的数据？任何帮助都是非常感谢的。

浏览 11提问于2017-09-13得票数 3

0回答

WEKA on large training dataset (java代码)

java、classification、weka

我的训练数据集有56000个实例和1253个特征。我正在使用简单的分类算法，如逻辑回归，J48，随机森林随机树等。我只能得到随机森林的结果。在为其他分类器建立训练模型的同时，我的程序持续运行了6-7个小时，但我没有得到任何结果或错误。谁能建议一些更快的方法来在大数据集<em

浏览 7提问于2016-07-10得票数 0

1回答

基于分类列的连续变量预测

pandas、python-3.x

我有一个大的数据集(40百万行，50列)，其中大部分是分类列(有些是数字的)，我使用Python/Pandas。分类栏有多达3000个独特的标签。我正在寻找关于如何处理这个问题的最佳实践。显然，单热编码(OHE)是不可能的。我试着做了较小数量的分类，并以这种方式做OHE，但模型是非常糟糕的，许多信息正在丢失。此外，记忆是一个问题，一切都需要很长时间。在这种情况下，我应该对数据</

浏览 0提问于2022-03-21得票数 0

1回答

对于严重的缺失，对随机森林的可用子集的归责与训练有什么好处？

random-forest、prediction、missing-data、imputation

我想在一个数据集上训练一个随机森林模型。我知道“标准方法”，我们将丢失的数据归算在训练集中，使用相同的估算规则对测试集进行计算，然后在所估算的训练集上训练随机森林模型，并使用相同的模型对测试集进行预测(可能需要多次估算)。我想要理解

浏览 3提问于2020-04-12得票数 1

1回答

机器学习查询

python、validation、machine-learning、hyperparameters

“训练集用于计算机器学习模型的参数，验证数据用于计算同一模型的超参数(我们使用相同的权重，不同的超参数)，测试集用于评估我们的模型”。如果是真的，有人能更详细地解释一下整个过程吗？蒂娅。

浏览 26提问于2018-06-07得票数 -4

回答已采纳

1回答

有可能提取经过训练的ML模型的数学表达式吗？

python、r、machine-learning-model、mathematics

在Python & R中，线性回归模型在学习训练数据后给出了数学表达式，通常以截距、变量系数和p值/t值的形式表示。在训练数据集上对复杂模型进行训练后，可以提取基于决策树、随机森林、XGBoost等复杂模型的数学表示吗？

浏览 0提问于2022-11-11得票数 1

1回答

随机森林回归中的树木数量

machine-learning、random-forest

我正在学习随机森林回归模型。我知道它形成了许多树(模型)，然后我们可以通过平均所有树的结果来预测我们的目标变量。我对决策树回归算法也有一定的了解。我们怎样才能形成最佳的树木数量呢？例如，我有一个数据集，其中我正在预测人员工资，而我只有两个输入变量，分别是“经验年限”和“绩效得分”，那么使用这样的数据集我可以形成多少随机树？随机森林树依赖于输入变量

浏览 127提问于2019-06-08得票数 1

1回答

有没有一种方法可以用决策树/随机森林进行迁移学习？

python、scikit-learn、random-forest、decision-tree

有没有一种方法可以用决策树或随机森林模型进行迁移学习？具体地说，我想知道在Python语言中是否有一种好的简单的方法来实现这一点，使用Scikit-learn训练的模型。我所能想到的就是在原始数据集上训练一个随机森林，当新数据到达时，训练新的树并将其添加到您的模型中<

浏览 340提问于2021-05-11得票数 3

1回答

重复K次交叉验证对随机森林有意义吗？

machine-learning、random-forest、cross-validation

当使用随机森林时，使用常规交叉验证和仅取不同随机状态的多个模型的平均结果会给出与重复的K倍交叉验证相同的结果吗？重复的K倍交叉验证基本上重复交叉验证与多个不同的分裂数据和报告的平均结果。

浏览 0提问于2021-03-23得票数 0

回答已采纳

2回答

如何将分类数据类型用于随机森林分类？

python、scikit-learn、data-mining、random-forest

我需要使用随机森林算法来寻找训练数据集的准确性。但是我的数据集的类型是分类的和数字的。当我试图拟合这些数据时，我得到了一个错误。“'Input包含NaN、无穷大或dtype(‘float32’)太大的值。可能是对象数据类型的问题。如何在不应用RF转换的</

浏览 0提问于2018-01-04得票数 14

回答已采纳

1回答

SageMaker分布式训练能用于非深度学习模式的训练吗？

amazon-web-services、machine-learning、amazon-sagemaker、distributed-training、amazon-machine-learning

我正在跟踪这个页面，以了解SageMaker的分布式培训功能。上面写着：- SageMaker分布式培训库只能通过TensorFlow、PyTorch和HuggingFace框架的AWS深度学习容器在SageMaker培训平台中使用。这是否意味着我们不能使用SageMaker分布式训练来使用传统的机器学习算法(如线性回归、随机森林或XGBoost )来训练机器学习模型？我有一个用例，其中数据集非常大</em

浏览 12提问于2022-09-17得票数 -1

1回答

Netflow异常检测python包

machine-learning、anomaly-detection

是否有人知道任何用于Netflow异常检测的开源/ python包？我在github上找到了一些，但是有更多经验的人。请指点。

浏览 0提问于2017-03-22得票数 6

1回答

随机森林的特征重要性

regression、random-forest、feature-engineering

我有一个有11个特征的数据集，我注意到操作这些特征(例如删除其中一个或一些)不会影响训练和测试数据的错误分数，所以我不得不检查这些特性的重要性。以下是以下内容：正如注意到的那样，第一个特性具有很高的一致性。然而，其余的都是无关紧要的。因此，我尝试只使用第一个特性来运行模型。预期成绩分数不会显着下降，因为其余10个下降的特征具有很低的特征重要性。然而，在只使用

浏览 0提问于2021-02-23得票数 1

4回答

如何避免将大文件重复加载到python脚本中？

python、object、large-file-upload

我已经编写了一个python脚本来获取一个大文件(一个矩阵~50k行X ~500个字节)，并将其用作数据集来训练随机森林模型。我的脚本有两个函数，一个用于加载数据集，另一个用于使用上述数据训练随机森林模型。这两种方法都工作得很好，但文件上传需要大约45秒，每次我想要训练一个微妙的不同模型(在同一数据集<

浏览 33提问于2015-06-24得票数 3

1回答

随机森林分类器Matlab v/s Python

python、matlab、machine-learning、statistics、random-forest

我在Python和MATLAB中使用了随机森林分类器。在10棵树的集合中，我在Python中获得了80%的准确率，在MATLAB中仅获得了30%的准确率。即使MATLAB的随机森林长有100或200棵树，这种差异依然存在。这两种编程语言之间的差异可能是什么原因？

浏览 5提问于2015-05-22得票数 2

回答已采纳

3回答

如何在python中改进现有的机器学习分类器？

machine-learning、python、bigdata、random-forest

我有一个很大的数据集(100万×50)，我想预测一个特定的类。我已经考虑过将数据集分批分离为20k。然后训练一个分类器(例如随机森林或基本支持向量机)。然后如何通过提供额外的数据集来改进该分类器。换句话说，我如何保存在迭代1中创建的随机森林，并将其作为interation i+1中的<

浏览 0提问于2017-03-22得票数 1

回答已采纳

1回答

从TreeBagger类中删除字段以节省内存

matlab

我正在使用Treebagger()在一个相当大的数据集上使用Matlab训练一个随机森林。内存是一个问题，我看到返回的Treebagger类包含了许多我认为对于predict()另一个数据集来说不需要的数据。例如，这个类包含整个训练数据(字段X和Y)，它们使用了大量的内存。那么如何从Treebagger类<em

浏览 2提问于2017-05-16得票数 1

回答已采纳

2回答

什么是随机种子在蔚蓝机器学习？

machine-learning、azure-machine-learning-studio、random-seed、iris-dataset

在一些步骤中，我经常遇到随机种子，什么是随机种子整数？如何从整数值范围内仔

浏览 0提问于2019-07-02得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在scikit-learn中使用python生成器

在scikit-learn中平均多个随机森林模型

梯度增强vs随机林

WEKA on large training dataset (java代码)

基于分类列的连续变量预测

对于严重的缺失，对随机森林的可用子集的归责与训练有什么好处？

机器学习查询

有可能提取经过训练的ML模型的数学表达式吗？

随机森林回归中的树木数量

有没有一种方法可以用决策树/随机森林进行迁移学习？

重复K次交叉验证对随机森林有意义吗？

如何将分类数据类型用于随机森林分类？

SageMaker分布式训练能用于非深度学习模式的训练吗？

Netflow异常检测python包

随机森林的特征重要性

如何避免将大文件重复加载到python脚本中？

随机森林分类器Matlab v/s Python

如何在python中改进现有的机器学习分类器？

从TreeBagger类中删除字段以节省内存

什么是随机种子在蔚蓝机器学习？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐