问RDD中的分区数和Spark中的性能
EN

Stack Overflow用户

提问于 2016-03-05 00:13:35

回答 1查看 42.3K关注 0票数 43

在Pyspark中，我可以从一个列表创建一个RDD，并决定有多少个分区：

sc = SparkContext()
sc.parallelize(xrange(0, 10), 4)

我决定对RDD进行分区的分区数量对性能有何影响？这如何依赖于我的机器拥有的内核数量？

performance

apache-spark

pyspark

rdd

回答 1

Stack Overflow用户

发布于 2016-03-05 03:22:32

为了补充javadba的优秀答案，我记得文档建议将您的分区数量设置为集群中CPU核心数量的3倍或4倍，以便在可用的CPU核心之间更均匀地分配工作。这意味着，如果集群中的每个CPU核心只有一个分区，您将不得不等待一个运行时间最长的任务完成，但如果您进一步细分，工作负载将与快速和缓慢运行的任务逐渐结束时更加均匀地平衡。

票数 50

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/35800795

复制

相似问题

问RDD中的分区数和Spark中的性能
EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问RDD中的分区数和Spark中的性能EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问RDD中的分区数和Spark中的性能
EN