版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:[https://blog.csdn.net/boling\_cavalry/article/details/102291920](https://blog.csdn.net/boling_cavalry/article/details/102291920)
在学习Spark的过程中,查看任务的DAG、stage、task等详细信息是学习的重要手段,在此做个小结;
本文对应的环境信息如下:
搭建hadoop、spark、运行耗时任务,请参考以下文章:
经过以上准备,我们就有了一个可以用的Spark集群环境,并且计算任务也准备好了。
~/spark-2.3.2-bin-hadoop2.7/bin/spark-submit \
--class com.bolingcavalry.sparkdemo.app.WikiRank \
--executor-memory 2g \
--total-executor-cores 4 \
/home/hadoop/jars/sparkdemo-1.0-SNAPSHOT.jar \
192.168.121.150 \
8020
此时控制台会有以下提示:
2019-10-07 11:03:54 INFO SparkUI:54 - Bound SparkUI to 0.0.0.0, and started at http://node0:4040
2019-10-07 11:45:29 INFO SparkUI:54 - Stopped Spark web UI at http://node0:4040
job结束后,4040端口提供的webUI服务也停止了,想回看已结束的任务信息需要配置和启动历史任务信息服务:
spark.eventLog.enabled true
spark.eventLog.dir hdfs://node0:8020/var/log/spark
spark.eventLog.compress true
上述配置中,hdfs://node0:8020是hdfs的服务地址。
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://node0:8020/var/log/spark"
上述配置中,hdfs://node0:8020是hdfs的服务地址。
~/hadoop-2.7.7/bin/hdfs dfs -mkdir -p var/log/spark
~/spark-2.3.2-bin-hadoop2.7/sbin/start-history-server.sh
至此,运行时和历史任务的job详情都可以观察到了,可以帮助我们更好的学习和研究spark。