Spark如何保证使用RDD、DataFrame和DataSet的foreach遍历时保证顺序执行

静谧星空TEL

发布于 2021-04-27 14:33:30

2.2K0

发布于 2021-04-27 14:33:30

前言

spark运行模式常见的有 local、yarn、spark standalone cluster 国外流行 mesos 、k8s 即使使用 local 模式，spark也会默认充分利用CPU的多核性能 spark使用RDD、DataFrame、DataSet等数据集计算时，天然支持多核计算但是多核计算提升效率的代价是数据不能顺序计算如何才能做到即使用spark数据集计算时又保证顺序执行？

1、重新分区

.repartition(1).foreach

2、合并分区

.coalesce(1).foreach

3、转换成数组

.collect().foreach

4、设置并行度

val spark = SparkSession.builder().config("spark.default.parallelist","1").getOrCreate()

5、设置单核

val spark = SparkSession.builder().appName("").master("local[1]").getOrCreate()

Spark如何保证使用RDD、DataFrame和DataSet的foreach遍历时保证顺序执行

Spark如何保证使用RDD、DataFrame和DataSet的foreach遍历时保证顺序执行

前言

1、重新分区

2、合并分区

3、转换成数组

4、设置并行度

5、设置单核

推荐使用 repartition，coalesce 和 collect 可能会出现 oom

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐