我的目标是使用elasticsearch-hadoop连接器通过pySpark将数据直接加载到ES中。我对dataproc和pySpark非常陌生,很早就被卡住了。_lock:311 if not SparkContext._gateway:
--> 312 SparkContext._gateway = g
通常情况下,如果我将Scala用于Spark作业,我将编译一个jarfile并使用gcloud dataproc jobs submit spark提交它,但有时对于非常轻量级的作业,我可能在笔记本中使用未编译的Scala代码,或者使用spark-shell REPL,在这里我假设SparkContext已经可用。对于其中的一些轻量级用例,我可以等效地使用PySpark并与gcloud dataproc jobs submit pyspark一起提交,但有时我需要更容易地访问Scala/Java库,例如在映射函数
例如,我有一个文件夹: - test.py该作业被划分为以下列方式激发集群:在test.py中,我想访问我上传的静态文件。logging.info(test_file.read())IOError: [Errno 2] No such file or directory: 'test.yml'
如何<e