Spark SQL 自适应执行优化引擎
背景
Adaptive Execution 将可以根据执行过程中的中间数据优化后续执行,从而提高整体执行效率。核心在于两点
spark 2.3 开始试验功能
spark 3.0 正式发布 自适应查询执行(Adaptive Query Execution)
如何设置合适的shuffle partition数量?
spark sql 最佳执行计划
数据倾斜如何处理
spark 能否运行时自动处理join中的数据倾斜
自适应执行架构
基础流程
自适应划分依据
在运行时动态调整join的策略,在满足条件的情况下,即一张表小于Broadcast阈值,可以将SortMergeJoin转化成BroadcastHashJoin。
参考