根据这个问题- --files option in pyspark not working,sc.addFiles选项应该适用于访问驱动程序和执行器中的文件。如果我使用--files标志并传递文件,它还会将文件复制到hdfs://路径,该路径可由执行器读取。 这是因为addFile要求文件也存在于本地的executors上。当前readme.txt在</
在开发期间,我一直在“客户端”模式下运行spark作业。我使用"--file“与执行器共享配置文件。驱动程序正在本地读取配置文件。现在我想在“集群”模式下部署作业。我现在很难与驱动程序共享配置文件。例如,我将配置文件名作为extraJavaOptions传递给驱动程序和执行器。我正在使用SparkFiles.get()读取文件
va
sessionIdList的类型为:res19: org.apache.spark.rdd.RDD[String] = MappedRDD[17] at distinct:20:46 ERROR Executor: Exception in task ID 80 at org.apache.spark.rdd.RDD.filter= null)