我在我的一端运行示例作业,spark作业UI显示总正常运行时间为26秒,但当我将作业的持续时间列加起来时,它只有17-18秒,我应该依靠它来确定运行作业执行逻辑的总时间.I不关心启动和停止集群的时间.Is我的spark配置如下所示:
val conf = new SparkConf().setAppName("Metrics").setMaster("spark:
通常情况下,如果我将Scala用于Spark作业,我将编译一个jarfile并使用gcloud dataproc jobs submit spark提交它,但有时对于非常轻量级的作业,我可能在笔记本中使用未编译的Scala代码,或者使用spark-shell REPL,在这里我假设SparkContext已经可用。对于其中的一些轻量级用例,我可以等效地使用PySpark并与gcloud dataproc jobs submit pyspark一起提交,但有时我需要更容易地访问Scala/Java