不太确定这段代码将如何运行,让我们假设我们有12个分区,然后尝试执行df = df.coalesce(24) #increasing the partition
一旦执行
。
发布于 2021-11-02 11:27:36
以下是coalesce函数文档的摘录:
当请求的分区较少时,
返回一个新的数据集,该数据集恰好具有numPartitions分区。如果请求更多的分区,它将保持当前的分区数。
因此,如果df.coalesce(24)有12个分区,则df将返回包含12个分区的数据格式。
你可以用火花壳试一试:
scala> spark.range(100).repartition(12).rdd.getNumPartitions
res0: Int = 12
scala> spark.range(100).repartition(12).coalesce(24).rdd.getNumPartitions
res1: Int = 12https://stackoverflow.com/questions/69809431
复制相似问题