在--master yarn --deploy-mode cluster中使用spark-submit命令会导致更大的调度程序延迟,而不是使用--master yarn --deploy-mode client。
任务性能结果屏幕截图:

这主要涉及在RDDs上调用collect操作的作业。
在client模式下启动spark应用程序大约需要3-4分钟,而在cluster模式下需要6-7分钟。阶段内每个任务的大小小于100KB。集群有8个数据节点,运行Cloudera Manager 5.9.0
发布于 2019-05-01 16:13:04
这种特殊情况的解决方案。该问题是由群集基础设施中的以太网电缆损坏引起的。更换后,时间大大缩短。
https://stackoverflow.com/questions/40848045
复制相似问题