设置超过40个executor,但未指定分区数,导致多数executor空闲....这是导致executor并行度上不去的罪魁祸首,之所以这样计算是为了尽量避免计算最慢的task决定整个stage的时间,将其设置为总核心的2-3倍,让运行快的task可以继续领取任务计算直至全部任务计算完毕...)
开启spark.sql.auto.repartition=true 自动重新分区
(每个stage[阶段]运行时分区并不尽相同,使用此配置可优化计算后分区数,避免分区数过大导致单个分区数据量过少,每个...task运算分区数据时时间过短,从而导致task频繁调度消耗过多时间)
设置spark.sql.shuffle.partitions=400 提高shuffle并行度
(shuffle read task...并未测试
(Executor 进程除了运行task 也要进行写shuffle 数据,当Executor进程任务过重时,导致GC不能为其他Executor提供shuffle数据时将会影响效率.此服务开启时代替