首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >运行星火提交时出现FileNotFound错误

运行星火提交时出现FileNotFound错误
EN

Stack Overflow用户
提问于 2022-07-21 20:11:40
回答 2查看 324关注 0票数 1

我试图在我的Hadoop集群上运行spark-submit命令,这里是我的Hadoop集群的总结:

  • 集群是使用连接在内部网络上的5个VirtualBox VM构建的
  • 创建了1个namenode和4个datanodes。
  • 所有的VM都是由映像构建的

当我运行以下命令时:

spark-submit --class org.apache.spark.examples.SparkPi $SPARK_HOME/examples/jars/spark-examples_2.12-3.0.3.jar 10

我收到以下错误:

java.io.FileNotFoundException: File file:/home/bitnami/sparkStaging/bitnami/.sparkStaging/application_1658417340986_0002/__spark_conf__.zip does not exist

在尝试使用sparkSession创建PySpark时,也会遇到类似的错误:

spark = SparkSession.builder.appName('appName').getOrCreate()

我已经试过/验证了以下几点

  • 环境变量:HADOOP_HOMESPARK_HOMEHADOOP_CONF_DIR已在.bashrc文件中设置
  • SPARK_DIST_CLASSPATHHADOOP_CONF_DIR是在spark-env.sh中定义的。
  • spark.master yarnspark.yarn.stagingDir file:///home/bitnami/sparkStagingspark.yarn.jars file:///opt/bitnami/hadoop/spark/jars/中添加spark-defaults.conf
EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2022-07-22 18:12:49

我认为spark.yarn.stagingDir需要成为一条HDFS路径。

更具体地说,“纱线暂存目录”需要在所有火花执行器上可用,而不仅仅是运行spark-submit的本地文件路径。

未找到的路径是从user集群中报告的,其中可能不存在/home/bitnami,或者运行Spark容器的Unix用户无法访问该路径。

类似地,spark.yarn.jars (或spark.yarn.archive)应该是HDFS路径,因为这些路径将被并行地跨所有执行器下载。

票数 2
EN

Stack Overflow用户

发布于 2022-07-22 07:03:08

由于火花作业应该提交给由纱线管理的Hadoop集群,所以必须设置masterdeploy-mode。来自火花3.3.0文档

代码语言:javascript
运行
复制
# Run on a YARN cluster in cluster deploy mode
export HADOOP_CONF_DIR=XXX
./bin/spark-submit \
  --class org.apache.spark.examples.SparkPi \
  --master yarn \
  --deploy-mode cluster \
  --executor-memory 20G \
  --num-executors 50 \
  /path/to/examples.jar \
  1000

或按计划:

代码语言:javascript
运行
复制
spark = SparkSession.builder().appName('appName').master("yarn").config("spark.submit.deployMode","cluster").getOrCreate()
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/73072114

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档