问RDD中的分区数和Spark中的性能
EN

Stack Overflow用户

提问于 2016-03-05 00:13:35

回答 1查看 42.3K关注 0票数 43

在Pyspark中，我可以从一个列表创建一个RDD，并决定有多少个分区：

sc = SparkContext()
sc.parallelize(xrange(0, 10), 4)

我决定对RDD进行分区的分区数量对性能有何影响？这如何依赖于我的机器拥有的内核数量？

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/35800795

复制

相似问题

问RDD中的分区数和Spark中的性能EN