首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >R的记忆约束是什么?

R的记忆约束是什么?
EN

Data Science用户
提问于 2014-05-14 17:48:21
回答 3查看 1.3K关注 0票数 11

在回顾“应用预测建模”a审查员陈述时:

我对统计学习(SL)教学法的一个批评是,在评估不同的建模技术时缺乏计算性能方面的考虑。由于它的重点是引导和交叉验证来优化/测试模型,SL是相当计算密集型的。再加上重新采样技术,比如打包和增强技术,你就有了对大型数据集进行有监督学习的计算地狱的幽灵。事实上,R的内存限制对模型的大小施加了相当严格的限制,这些模型可以通过像随机森林这样的性能最好的方法来适应。尽管SL对小数据集的模型性能进行了很好的校准,但是了解更大数据的性能与计算成本肯定会更好。

R的内存限制是什么,它们是否对随机林等性能最好的模型的大小施加了严格的限制?

EN

回答 3

Data Science用户

回答已采纳

发布于 2014-06-11 16:25:34

正如Konstantin所指出的,R在系统内存(即RAM )中执行其所有计算。因此,RAM容量是R中计算密集型操作的一个非常重要的约束。克服这一限制,数据存储在HDFS系统中,数据没有加载到内存中,而是运行程序,程序进入数据并执行这些操作,从而克服了内存限制。RHadoop (https://github.com/RevolutionAnalytics/RHadoop/wiki)是您要寻找的连接器。

对于计算密集的算法,随机森林/决策树/集成方法对大量数据(根据我的经验至少有5万次观测)占用了大量的内存,而且速度相当慢。为了加速这个过程,并行化是要走的路,而并行化在Hadoop中是固有的!这就是Hadoop非常高效的地方。

因此,如果您要使用计算密集且速度慢的集成方法,那么您可能希望在HDFS系统上进行尝试,它提供了相当大的性能改进。

票数 10
EN

Data Science用户

发布于 2014-05-14 17:58:48

R执行内存中的所有计算,因此不能对大于可用RAM数量的数据集执行操作。然而,有一些库允许使用R进行大数据处理,还有一个流行的大数据处理库(如Hadoop )。

票数 8
EN

Data Science用户

发布于 2014-06-17 09:33:37

这种批评已不再站得住脚:

诚然,大多数标准和最受尊敬的R库仅限于内存中的计算,但处理不适合内存的数据的专门库却越来越多。

例如,对于大型数据集上的随机林,您有库bigrf。更多信息在这里:http://cran.r-project.org/web/packages/bigrf/

另一个增长领域是R与hadoop这样的大数据环境的连接性,这开辟了另一个可能性世界。

票数 3
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/59

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档