我想了解一下,在下面的代码中,mapPartitions函数是如何运行的。它是否在每次迭代中创建单独的分区并将其分配给节点。或者在迭代中保留分区和分区到节点的映射?
理想情况下,我希望为整个循环保持相同的分区。
for i in range(10):
x = rdd.mapPartitions(fun).reduce(lambda a,b:a+b)
发布于 2015-11-21 23:30:35
那得看情况。如果缓存了rdd
,那么分区将被计算一次,并在迭代中保留,除非出现某种故障,并且任务被重新调度到另一个worker上。否则,将为每次迭代重新计算它。在这种情况下,答案取决于rdd
的血统。如果不涉及混洗,或者使用确定性分区和排序,那么答案是肯定的。否则,您不太可能在每次迭代中看到相同的内容。
如果你关心的是性能,那么缓存就足够了。如果您考虑在mapPartitions
中执行一些副作用,并且希望在迭代之间保留这些副作用,那么您不能依赖于此。
https://stackoverflow.com/questions/33842525
复制相似问题