在Pyspark中,我可以从一个列表创建一个RDD,并决定有多少个分区:
sc = SparkContext() sc.parallelize(xrange(0, 10), 4)
我决定对RDD进行分区的分区数量对性能有何影响?这如何依赖于我的机器拥有的内核数量?
https://stackoverflow.com/questions/35800795
相似问题