首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >在scikit-learn中平均多个随机森林模型

在scikit-learn中平均多个随机森林模型
EN

Stack Overflow用户
提问于 2017-12-23 04:17:57
回答 1查看 520关注 0票数 1

我有一个非常大的数据集,我想在数据集的分区上训练几个随机的森林模型,然后对这些模型进行平均,以得出我的最终分类器。由于随机森林是一种集成方法,这是一种直观上合理的方法,但我不确定是否可以使用scikit-learn的随机森林分类器。有什么想法吗?

我也会开放使用来自另一个包的随机森林分类器,只是不确定去哪里找。

EN

Stack Overflow用户

发布于 2017-12-23 05:58:23

下面是我能想到的:

  1. Pandas + Scikit:你可以定制你自己的引导算法,你可以从整个数据集中随机读取一个合理大小的样本,并在上面拟合scikit树(如果你在每个节点上随机化特征,那将是完美的)。然后挑选每一棵树,最后求出它们的平均值,得出你的随机forest.
  2. Graphlab + SFrame Turi有自己的大数据库(SFrame,类似于Pandas)和机器学习库(graphlab,非常类似于scikit)。对于一些人来说,非常漂亮的environment.
  3. Blaze-Dask可能会有一点陡峭的学习曲线,但这将是一个有效的解决方案。
  4. 您也可以使用内存映射的numpy选项,但它将比前三个选项更麻烦,而且我从未这样做过,因此我将在这里保留此选项。

总而言之,我会选择选项2。

票数 2
EN
查看全部 1 条回答
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/47946942

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档