首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >RDD中的分区数和Spark中的性能

RDD中的分区数和Spark中的性能
EN

Stack Overflow用户
提问于 2016-03-05 00:13:35
回答 1查看 42.3K关注 0票数 43

在Pyspark中,我可以从一个列表创建一个RDD,并决定有多少个分区:

代码语言:javascript
复制
sc = SparkContext()
sc.parallelize(xrange(0, 10), 4)

我决定对RDD进行分区的分区数量对性能有何影响?这如何依赖于我的机器拥有的内核数量?

EN

回答 1

Stack Overflow用户

发布于 2016-03-05 03:22:32

为了补充javadba的优秀答案,我记得文档建议将您的分区数量设置为集群中CPU核心数量的3倍或4倍,以便在可用的CPU核心之间更均匀地分配工作。这意味着,如果集群中的每个CPU核心只有一个分区,您将不得不等待一个运行时间最长的任务完成,但如果您进一步细分,工作负载将与快速和缓慢运行的任务逐渐结束时更加均匀地平衡。

票数 50
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/35800795

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档