我在Google dataproc集群版本1.4和spark版本2.4.5中运行spark作业,它从GS存储桶中读取路径中具有正则表达式的文件,并获取以下错误。 Exception in thread "main" org.apache.spark.sql.AnalysisException: Path does not exist: gs://<gs_path>/<file_name>_\d*.dat;
at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$org$
Google Cloud上的Dataproc集群执行的Spark作业在任务PythonRDD.scala:446上卡住
错误日志显示Could not find valid SPARK_HOME while searching .../hadoop/yarn/nm-local-dir/usercache/root/下的路径
问题是,默认情况下应该在dataproc集群上设置SPARK_HOME。其他不使用RDDs的spark作业也能正常工作。
在集群初始化期间,我没有重新安装spark (但我已经尝试过了,我之前认为这是导致问题的原因)。
我还发现,在运行任务一分钟后,我的所有执行器都被删除了