我在我的一端运行示例作业,spark作业UI显示总正常运行时间为26秒,但当我将作业的持续时间列加起来时,它只有17-18秒,我应该依靠它来确定运行作业执行逻辑的总时间.I不关心启动和停止集群的时间.Is我的spark配置如下所示:
val conf = new SparkConf().setAppName("Metrics").setMaster("spark://
我在AWS Glue中设置了一个ETL作业,设置如下: Glue v.3.0、Pythonv.3、Sparkv.3.1和支持10个工人和作业度量的工人类型G.1X。当我查看作业完成后的作业指标时,我在作业执行中看到:活动执行器、已完成阶段&只显示已完成阶段的数量的最大需要的执行器。火花会话已经根据下面的代码设置。我还将包括内存配置文件和CPU负载的一个片段,以防有帮助。#Solves the issues wi
我正在尝试配置一个spark作业,在Dataproc集群上使用固定资源运行,但是在作业运行6分钟后,我注意到除了7个执行器之外,所有的执行器都被删除了。当我检查作业详细信息中的时间线时,它显示除了7个执行器之外的所有执行器都在6分钟标记时被删除,并显示消息Container [really long number] exited from explicit我正在运行的命令是: gc