FileNotFoundError:在Heroku上运行pyspark命令时，未遇到用于spark-submit的此类文件或目录

python、apache-spark、pyspark

我刚开始使用pyspark，我想在独立的集群中使用一个pyspark程序，我遵循了这个上的步骤，我使用下面的命令午餐了我的程序： bin\spark-submit examples\src\main\python\LSI_MapReduce\LSI.py这里是我的代码中发生错误的部分： # load the dataset rows = np.loadtxt('first.txt') <----- here rows = sc.parallelize(rows) mat = RowMatrix(rows) # compute SVD svd = mat.compu

浏览 3提问于2022-05-21得票数 0

回答已采纳

1回答

将GCS暂存目录用于Spark作业(在Dataproc上)

apache-spark、google-cloud-storage、hadoop-yarn、google-cloud-dataproc

我试图更改Spark暂存目录，以防止员工退役(在google上使用Spark2.4)丢失数据。我想将HDFS阶段切换到阶段。当我运行这个命令时： spark-submit --conf "spark.yarn.stagingDir=gs://my-bucket/my-staging/" gs://dataproc-examples-2f10d78d114f6aaec76462e3c310f31f/src/pyspark/hello-world/hello-world.py 我有一个错误： org.apache.spark.SparkException:应用程序appli

浏览 1提问于2019-06-20得票数 3

2回答

spark-submit和pyspark有什么区别？

python、apache-spark、pyspark

如果我启动pyspark，然后运行以下命令： import my_script; spark = my_script.Sparker(sc); spark.collapse('./data/') 一切都很好。然而，如果我试图通过命令行和spark-submit来做同样的事情，我会得到一个错误： Command: /usr/local/spark/bin/spark-submit my_script.py collapse ./data/ File "/usr/local/spark/python/pyspark/rdd.py", line 352, in f

浏览 0提问于2014-11-04得票数 20

1回答

heroku、pyspark、gunicorn、spark-submit

背景:我构建了一个用于基于内容过滤的XGBClassifier模型和一个用于协同过滤的渐冻人模型(对于渐冻人，我从pyspark.ml导入)，并将这两个模型的评级预测加权总和得出最终评级预测，这些预测按降序排序(前5行对用户显示为前5位推荐)，用于构建一个混合推荐系统，该系统基于抓取的Yelp数据(包含新加坡的咖啡饮用网点)-基本上，我已经构建了一个混合推荐系统，基于Yelp数据向新加坡的咖啡爱好者推荐喝咖啡的网点。我已经成功地在本地jupyter笔记本和虚拟环境中构建并运行了Flask应用程序( jupyter notebook中的代码被复制并粘贴到flaskr.py中，与其附带的静态样

浏览 44提问于2020-05-02得票数 1

1回答

在设置了环境变量之后，我的pyspark在ubuntu中失败了。

bash、apache2、environment-variables

我安装了anaconda的火花放电 $ conda install pyspark 之后，在我的jupyter笔记本中，它工作得很好，但是在教程中提到了https://mortada.net/3-easy-steps-to-set-up-pyspark.html，您必须设置环境变量，如 $ export SPARK_HOME=~/spark-2.2.0-bin-hadoop2.7 $ export PYSPARK_PYTHON=~/anaconda/bin/python 当我试图在我的jupyter笔记本中重新运行pyspark时，会出现下一个错误。 '/home/joga

浏览 0提问于2021-05-09得票数 0

1回答

如何使用spark-submit运行转换为二进制的.py文件(在linux中)

linux、apache-spark、pyspark

我有一个python脚本( .py)，其中有python/pyspark代码，我使用命令spark-submit filename.py来运行它。现在，我想与其他人共享我的文件，但不想让他们知道代码/逻辑。所以我使用pyinstaller将python文件转换为二进制文件，但是现在我在运行代码时遇到了问题。(问题是spark-submit在执行之前需要运行文件，但只能执行二进制文件) 请告诉我，上面的问题有什么解决办法吗？

浏览 57提问于2021-10-07得票数 1

1回答

如何更正我的Spark设置以允许SparkContext在mac上的jupyter笔记本中工作

python-3.x、macos、apache-spark、pyspark、jupyter-notebook

我正在寻找最简单的建议来更正我的Spark安装和设置，以便我可以在jupyter笔记本上正确运行： from pyspark import SparkContext sc = SparkContext() 在jupyter notebook中，我在之前安装spark-2.0.0-bin-hadoop2.7的目录中得到了与file not file错误相关的以下错误。 FileNotFoundError: [Errno 2] No such file or directory: '/Applications/spark-2.0.0-bin-hadoop2.7/./bin/spark-s

浏览 10提问于2019-06-11得票数 1

2回答

有没有一种将PySpark与Hadoop 2.8+结合使用的方法？

apache-spark、hadoop、pyspark

我想在本地运行一个PySpark作业，使用特定版本的Hadoop (假设Hadoop-AWS2.8.5)，因为有一些特性。 PySpark版本似乎与Spark版本相一致。这里我使用的是PySpark 2.4.5，它似乎包装了一个Spark2.4.5。使用PySpark选项spark-submit --local[4] ...提交spark-submit --local[4] ...作业时，遇到以下错误： py4j.protocol.Py4JJavaError: An error occurred while calling o32.sql 除了以下java例外： java.lang.NoC

浏览 7提问于2020-03-21得票数 2

回答已采纳

1回答

如何将文件上传到Amazon？

apache-spark、pyspark、amazon-emr

我的代码如下： # test2.py from pyspark import SparkContext, SparkConf, SparkFiles conf = SparkConf() sc = SparkContext( appName="test", conf=conf) from pyspark.sql import SQLContext sqlc = SQLContext(sparkContext=sc) with open(SparkFiles.get("test_warc.txt")) as f: print("ope

浏览 4提问于2021-04-11得票数 1

回答已采纳

1回答

装载火花-env.sh，火花-提交:没有这样的文件或目录

macos、apache-spark、pyspark

我正试图在我的iMac上安装apache，使用这2页上的说明：在安装过程中，我无法运行酿制木桶安装java 所以我就跑了 brew安装java 我想我成功地安装了所有的东西，包括apache-星火。但是，当我运行命令spark或pyspark时，我经常会遇到以下错误：火花弹外壳： /usr/local/Cellar/apache-spark/3.0.1/libexec/bin/spark-shell:第60行: /usr/local/Cellar/apache-spark/2.0.1/libexecexport/bin/spark-submit:没有这样的文件或目录火星雨：

浏览 1提问于2021-01-18得票数 0

2回答

spark-使用特定的python库提交

python、pyspark、spark-submit

我有一个依赖于第三方库的pyspark代码。我想在我的集群上执行这段代码，它运行在mesos下。我确实有我的python环境的压缩版本，它位于我的集群可访问的http服务器上。我在指定我的spark-submit查询来使用这个环境时遇到了一些麻烦。我既使用--archives加载压缩文件，又使用--conf 'spark.pyspark.driver.python=path/to/my/env/bin/python'加上--conf 'spark.pyspark.python=path/to/my/env/bin/python'来指定内容。这似乎不起作用.

浏览 9提问于2018-02-06得票数 3

3回答

在MacBook上安装火花放电

python、apache-spark、pyspark、homebrew

我在斯卡拉使用星火已经很久了。现在我第一次使用火花放电。这是在Mac上首先，我使用安装了火花放电，然后它安装了pyspark 2.2.0。我使用brew安装apache-spark安装了spark本身，它似乎已经安装了apache 2.2.0 但当我运行火星雨时，它就会喷出。 /Users/me/anaconda/bin/pyspark: line 24: /Users/bruceho/spark-1.6/spark-1.6.2-bin-hadoop2.6/bin/load-spark-env.sh: No such file or directory /Users/me/

浏览 10提问于2017-09-24得票数 2

回答已采纳

2回答

运行./pyspark无法找到本地目录

pyspark、terminal

在安装Spark之后，我尝试从安装文件夹运行PySpark： opt/spark/bin/pyspark 但是我得到了以下错误： opt/spark/bin/pyspark: line 24: /opt/spark/bin/load-spark-env.sh: No such file or directory opt/spark/bin/pyspark: line 68: /opt/spark/bin/spark-submit: No such file or directory opt/spark/bin/pyspark: line 68: exec: /opt/spark/bin/spa

浏览 5提问于2020-04-24得票数 1

1回答

在现有交互式databricks集群的dbfs上执行pyspark代码

apache-spark、pyspark、databricks、azure-databricks

我正在处理Azure Databricks。目前我的Pyspark项目在'dbfs‘上。我配置了一个spark-submit作业来执行我的Pyspark代码(.py文件)。然而，根据Databricks文档，spark-submit作业只能在新的自动化集群上运行(可能是设计出来的)。有没有办法在现有的交互式集群上运行我的Pyspark代码？我还尝试在%sh单元格中的notebook中运行spark-submit命令，但没有使用。

浏览 4提问于2020-05-22得票数 0

2回答

运行星火提交时出现FileNotFound错误

apache-spark、hadoop、pyspark、bitnami

我试图在我的Hadoop集群上运行spark-submit命令，这里是我的Hadoop集群的总结：集群是使用连接在内部网络上的5个VirtualBox VM构建的创建了1个namenode和4个datanodes。所有的VM都是由映像构建的当我运行以下命令时： spark-submit --class org.apache.spark.examples.SparkPi $SPARK_HOME/examples/jars/spark-examples_2.12-3.0.3.jar 10 我收到以下错误： java.io.FileNotFoundException: F

浏览 4提问于2022-07-21得票数 1

回答已采纳

1回答

为什么在我的spark-submit命令中只使用了一个内核而不是32个？

apache-spark、process、core、jobs

嗨，谢谢你的帮助，我知道有很多关于这个问题的话题，我读了很多，尝试了很多解决方案，但是什么都没有发生，我的spark-submit任务仍然只在我的32个可用内核上使用一个内核。使用我的spark-submit命令，我启动了一个Pyspark脚本。这个Pyspark脚本对大量的拼图文件执行spark.sql命令(大约6000个文件，每个文件大约6M，总共有6亿个数据库元组)。我使用一个有32个cpu和128个Go的AWS实例，以及一个2To EBS DD，上面存储了我的parquet文件(它不是hdfs文件系统) 我没有以主服务器的身份启动spark，只是在我的单个EC2实例上的独立解决方

浏览 4提问于2021-03-29得票数 0

4回答

火花可以从火星雨访问蜂巢表，但不能从火花提交。

python、hadoop、apache-spark、pyspark

因此，当从pyspark运行时，我会输入(没有指定任何上下文)： df_openings_latest = sqlContext.sql('select * from experian_int_openings_latest_orc') 。。而且效果很好。但是，当我从spark-submit运行脚本时，就像 spark-submit script.py --我将以下内容放入 from pyspark.sql import SQLContext from pyspark import SparkConf, SparkContext conf = SparkConf().setA

浏览 2提问于2016-04-01得票数 18

回答已采纳

2回答

如何在Pyspark中运行Python脚本

python、pyspark

我正在尝试在cloudera VM上的Pyspark中运行Python脚本首先我运行pyspark $ which pyspark $ pyspark 在启动spark之后，我尝试了： $ spark-submit /home/cloudera/test.py 告诉我“没有定义'spark‘的名字” $ ./bin/spark-submit /home/cloudera/test.py 提示"SyntaxError:无效语法“ 我知道网上有很多类似的问题，但我还是想不通。有人能帮帮忙吗？

浏览 0提问于2017-02-24得票数 0

1回答

使用Python2.7，Java1.8在Windows 10上提供无效的语法错误消息

python、apache-spark

这是一个关于在Windows 10中作为独立安装的Spark的问题，我已经在我的系统中安装了Spark和相关的hadoop类。我正在学习火花，当我通过运行cmd "C:\Spark\bin\pyspark"启动火花交互外壳后，它就启动了。 Spark version 1.6.1 然而，我无法运行火花-提交。命令： C:\Spark\bin\spark-submit --class org.apache.spark.examples.SparkPi --master local \ C:\Spark\lib\spark-exa

浏览 1提问于2017-10-08得票数 2

1回答

TypeError：“JavaPackage”对象不可调用

python、hadoop、apache-spark、pyspark、spark-streaming

我在尝试运行字数统计示例时遇到以下错误。不确定如何继续。下面是我正在运行的命令和错误。 /opt/spark/bin/spark-submit --jars spark-streaming_2.10-2.0.0.jar test_kafka.py broker.txt "localhost:2181:MyTopic" Error: Traceback (most recent call last): File "/home/ubuntu/kafka/libs/test_kafka.py", line 21, in <module

浏览 9提问于2016-08-29得票数 3

1回答

spark-submit适用于Python程序，但pyspark不起作用

pyspark

显而易见的是，我最近在UBUNTU (VMWARE工作站)上安装了SPARK。下面是我的电脑规格。 Windows Dell笔记本电脑(运行windows 10)。已安装VMWARE PRO 12并在其上加载了Ubuntu 15。使用标准脚本安装SPARK 1.6.1 / JAVA 1.7 / Python 2.7和SCALA 2.11.8。我使用spark submit命令运行了一个示例程序，它完成得很好。但是当我尝试登录pyspark shell时，我得到了错误信息"pyspark: command not found“ 似乎是什么问题。我可以看到spark的bin目录中的所有

浏览 0提问于2016-05-07得票数 0

1回答

运行python脚本并在命令行上查看结果

python、pyspark、hortonworks-data-platform

我在pyspark 1.6.2中执行了一个python脚本文件(是的，由于认证培训的原因，一个旧的文件)。 spark-submit --master yarn-cluster s01.py 运行时，它只返回"Application for application_somelongnumber“。我期待的是，它显示了我的脚本命令的输出。这样我才能检查我的发展是否正确。我该怎么做才能得到我想要的？我剧本的内容： #!/usr/bin/python from pyspark.sql import Row from pyspark.sql.functions import * from

浏览 0提问于2017-12-15得票数 0

1回答

如果未设置驱动程序类路径或executor类路径，则“星火提交”命令具有-py-file失败。

apache-spark、pyspark

我有一个主脚本如下所示 from pyspark.sql.session import SparkSession .............. .............. .............. import callmodule as cm <<<--- This is imported from another pyspark script which is in callmod.zip file .............. .............. .............. --当我按照下面的方式提交spark命令时，它会出错:没有名为Callmodu

浏览 0提问于2020-12-22得票数 0

回答已采纳

1回答

运行火花-提交时没有模块错误

python、apache-spark、pyspark、hadoop-yarn

我提交了一个python文件，它依赖于要运行的自定义模块。我试图提交的文件位于project/main.py，我们的模块位于project/ modules /module1.py。我在客户端模式下向Yarn提交，并收到以下错误。 ModuleNotFoundError: No module named 'modules.module1' Main.py中的导入语句： from modules import module1.py 我尝试过压缩模块文件夹并将其传递给-py-文件： spark-submit --master yarn --queue OurQueue --py-f

浏览 2提问于2020-10-13得票数 2

回答已采纳

1回答

将Excel文件存储在flask应用程序中，并使其在部署到heroku时可读

python-3.x、flask、heroku

我的flask应用程序读取本地存储的excel文件，它在本地机器上运行良好。当我在heroku上部署相同的应用程序时，它抛出异常- FileNotFoundError: [Errno 2] No such file or directory: 'C:/QuestionBank_v5.xlsx' 这是有效的，因为heroku部署不能从我的本地计算机读取。有没有办法将这个文件与flask应用程序文件一起存储，并在部署到heroku上时使其可读？

浏览 12提问于2020-02-20得票数 0

2回答

在python中运行PySpark代码

apache-spark、pyspark

我有一个PySpark代码/应用程序。运行它的最佳方法是什么(利用PySpark的最大功率)，使用python interpreter还是使用spark-submit 因此，的回答几乎是相似的，但并没有详细解释。我很想知道为什么？任何帮助都是非常感谢的。提前谢谢。

浏览 1提问于2018-12-20得票数 0

回答已采纳

1回答

在pyspark作业中传送和使用virtualenv

numpy、pyspark、virtualenv

问题:我试图从我的本地机器运行一个spark-submit脚本到一个机器集群。集群所做的工作使用numpy。我目前得到以下错误： ImportError: Importing the multiarray numpy extension module failed. Most likely you are trying to import a failed build of numpy. If you're working with a numpy git repo, try `git clean -xdf` (removes all files not under version

浏览 0提问于2017-09-07得票数 9

回答已采纳

2回答

如何记录我输入的spark-submit命令行？

apache-spark、logging、command-line、pyspark

如何编写一个PySpark脚本，将spark-submit命令行记录到日志输出中？例如，当我运行：spark-submit script.py arg1 arg2 --flag arg3 --out output 除了运行它的任务之外，我还希望这个命令将命令行记录到一个名为output.log的日志文件中，这样我就可以轻松地跟踪我是如何运行它的。

浏览 1提问于2017-07-24得票数 0

2回答

星星之火SQL RDD加载在pyspark中，但没有在SQL中加载-提交："JDBCRDD:关闭连接“

apache-spark、jdbc、pyspark

我有以下简单代码，用于将表从Postgres数据库加载到RDD中。 # this setup is just for spark-submit, will be ignored in pyspark from pyspark import SparkConf, SparkContext from pyspark.sql import SQLContext conf = SparkConf().setAppName("GA")#.setMaster("localhost") sc = SparkContext(conf=conf) sqlContext = SQL

浏览 4提问于2017-02-16得票数 0

1回答

如何控制Heroku运行python的目录？

python、flask、heroku、flask-sqlalchemy、heroku-postgres

我正在尝试在python终端中运行python脚本，该终端运行在我部署的Heroku应用程序上。该脚本有几个pd.read_csv('~/path_to_csv_file')命令，当我在本地python终端中运行该脚本时，这些命令可以正常工作。但是，当我尝试使用heroku run python my_script_name在Heroku应用程序的终端中运行这个脚本时，我得到了以下错误消息： FileNotFoundError: [Errno 2] No such file or directory: '/app/path_to_csv_file' 似乎要添加

浏览 17提问于2021-04-09得票数 1

2回答

如何在木星笔记本中使用PySpark时包含外部火花库

python、apache-spark、pyspark、jupyter-notebook、jupyter

我试图运行以下PySpark流在木星笔记本。下面是我在笔记本中使用的代码的第一部分： from pyspark import SparkContext from pyspark.streaming import StreamingContext from pyspark.streaming.kafka import KafkaUtils sc = pyspark.SparkContext(master='local[*]',appName="PySpark streaming") ssc = StreamingContext(sc, 2) topic = &

浏览 0提问于2018-06-29得票数 1

回答已采纳

2回答

未能找到有效的SPARK_HOME

python、apache-spark、pyspark、pip

在通过pyspark重新安装了pip install pyspark之后，我得到以下错误： > pyspark Could not find valid SPARK_HOME while searching ['/Users', '/usr/local/bin'] /usr/local/bin/pyspark: line 24: /bin/load-spark-env.sh: No such file or directory /usr/local/bin/pyspark: line 77: /bin/spark-submit: No such file

浏览 1提问于2018-04-07得票数 6

回答已采纳

2回答

我们需要启动spark才能运行pyspark吗？

apache-spark、pyspark

这可能是一个新手问题。这是我的场景。我已经在我的机器上安装了一个spark。我还没有启动它(使用sbin/ start -all.sh或sbin文件夹中的任何其他脚本)。然后我打开pyspark (使用bin/pyspark)，它启动时没有任何错误。我尝试运行示例程序： >>> var=sc.textFile('/home/rushikesh/sam.txt') >>> var.count() 它工作正常，没有任何错误。问题1:执行pyspark/ spark -shell程序不需要spark运行吗？问题2:还是只有Spark-su

浏览 271提问于2019-05-06得票数 4

1回答

“火花提交”和“`sc._jsc.addJar(‘myjar.jar’)”在行为上有什么区别？

apache-spark、pyspark

因此，我有一个PySpark程序，它可以很好地运行以下命令： spark-submit --jars terajdbc4.jar,tdgssconfig.jar --master local sparkyness.py 是的，它在本地模式下运行，只在主节点上执行。我希望能够启动我的PySpark脚本，尽管我只想： python sparkyness.py 因此，我在我的PySpark脚本中添加了以下代码行，以方便这一点： import findspark findspark.init() sconf.setMaster("local") sc._jsc.addJa

浏览 1提问于2018-02-01得票数 2

回答已采纳

1回答

VSCode调试器FileNotFoundError

python、visual-studio-code、jupyter

目前，我有几个.py和.ipynb文件存储在Google (G:)上，可以通过我的设备访问。当将.ipynb文件转换为.py，然后在VSCode中运行调试器时，有时会遇到以下问题： Microsoft Windows [Version 10.0.19043.1052] (c) Microsoft Corporation. All rights reserved. G:\My Drive\Code & Programming>C:/Users/Admin/Anaconda3/Scripts/activate (base) G:\My Drive\Code & Progr

浏览 3提问于2021-06-16得票数 1

回答已采纳

1回答

显示执行器和执行器内存的数量

apache-spark、pyspark

我正在使用以下命令运行pyspark作业 spark-submit ./exp-1.py --num-executors 8 --executor-memory 4G 有没有一种方法可以确认这些配置在执行过程中得到了反映？

浏览 1提问于2015-09-02得票数 0

1回答

如何在jar文件中运行pyspark？

apache-spark、pyspark

当我运行pyspark时，我有一个需要附加的jar文件。如何对jar文件运行pyspark？下面是我尝试过的一些代码，我在这里做错了什么？ script.py的python代码类似于。我想将其作为pyspark应用程序运行。 print "Hello world" 下面可以正常运行，但不能在pyspark上运行 spark-submit --jars somejarfile2.1.0.jar script.py 尝试的代码：(运行，但不显示Hello world的输出)。 pyspark --jar somejarfile2.1.0.jar script.py 谢谢!

浏览 1提问于2015-09-24得票数 2

2回答

使用Apache Spark Submit提交Python应用程序

python、apache-spark、pyspark

我正在尝试遵循Apache Spark文档站点上的示例：我启动了一个Spark独立集群，并希望运行示例Python应用程序。我在我的spark-2.0.0-bin-hadoop2.7目录中，运行以下命令 ./bin/spark-submit \ --master spark://207.184.161.138:7077 \ examples/src/main/python/pi.py \ 1000 但是，我得到了这个错误 jupyter: '/Users/MyName/spark-2.0.0-bin- \ hadoop2.7/examples/src/main/python/pi.p

浏览 1提问于2016-09-03得票数 0

1回答

运行星火作业-在整个集群中提交

hadoop、apache-spark、pyspark、emr、amazon-emr

我最近在亚马逊的EMR上建立了一个星火群，有一个主人和两个奴隶。我可以运行pyspark，并使用spark-submit提交作业。但是，当我创建一个独立的作业(如job.py )时，我创建了一个SparkContext，如下所示： sc=SparkContext("local", "App Name") 这似乎不对，但我不知道该放什么。当我提交这份工作时，我确信它没有利用整个集群。如果我想对我的整个集群运行一个作业，假设每个从属程序有4个进程，那么我必须做什么？ a.)作为参数传递给spark-submit b.)在脚本本身中作为参数传递给SparkCo

浏览 1提问于2016-04-01得票数 3

回答已采纳

1回答

Pyspark:在归档文件中运行一个脚本

python、pyspark、hadoop-yarn

我有一个归档文件(基本上是捆绑的conda环境+我的应用程序)，我可以轻松地在纱线主模式下使用pyspark： PYSPARK_PYTHON=./pkg/venv/bin/python3 \ spark-submit \ --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=./pkg/venv/bin/python3 \ --master yarn \ --deploy-mode cluster \ --archives hdfs:///package.tgz#pkg \ app/MyScript.py 这就像预期的一样，这一点也不奇怪。现在，如果M

浏览 1提问于2020-06-17得票数 1

回答已采纳

1回答

Pyspark和Cassandra连接错误

apache-spark、cassandra、pyspark、apache-spark-sql、spark-cassandra-connector

我遇到了一个问题。在编写示例cassandra连接代码时，导入cassandra连接器时会出现错误。我像下面的代码一样启动脚本(它们都出现了错误) ./spark-submit --jars spark-cassandra-connector_2.11-1.6.0-M1.jar /home/beyhan/sparkCassandra.py ./spark-submit --jars spark-cassandra-connector_2.10-1.6.0.jar /home/beyhan/sparkCassandra.py 但是给出下面的错误 import pyspark_cassandr

浏览 3提问于2016-12-15得票数 1

回答已采纳

2回答

修改Pyspark源代码以进行调试

apache-spark、pyspark

我正在尝试修改Pyspark源代码，以便模拟一个不确定的场景，以便测试一些配置更改。具体地说，我将rdd.py更改为休眠一段时间，以模拟工作节点停止，例如保存到s3。当我在Pyspark shell中运行代码时，我可以观察到更改的效果，但当我运行spark-submit时，我无法观察到更改的效果。即使我在本地运行，也会发生这种情况。我不明白在shell中调用Pyspark的方式与通过spark-submit调用Pyspark的方式有什么区别。根据我所看到的，修改后的rdd.py已经部署到$SPARK_HOME/python/pyspark下的位置。有人对此有什么见解吗？我正在运行spark

浏览 1提问于2018-02-01得票数 0

1回答

无法将json文件推送到Heroku进行数据库数据转储。

python、django、heroku

我正在做一个学校项目，我没有任何这方面的经验，并且在建立网站的最后一步中遇到了困难。在某些背景下，前端是用Next.js编写的，后端是利用Django编写的，我已经将后端部署到Heroku (我已经构建了应用程序和数据库(postgreSQL)设置)。我在Udemy上找到了一个教程，它只有大约一年的历史，我已经完成了所有这些。在这个过程中，我遇到了一些问题，但经过一些尝试和错误之后，我终于找到了答案，但这个问题确实给了我一个困难的时刻。因此，在本教程中，他执行一个数据转换并将其放入一个名为"dump.json“的文件中，然后运行以下命令: heroku运行python manage

浏览 5提问于2022-06-25得票数 0

1回答

使用shell脚本为python中的函数收集日志

python、linux、bash、shell

我有一个运行良好的pyspark脚本。这个脚本将从mysql获取数据，并在HDFS中创建单元表。 pyspark脚本在下面。 #!/usr/bin/env python import sys from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext conf = SparkConf() sc = SparkContext(conf=conf) sqlContext = HiveContext(sc) #Condition to specify exact number of argument

浏览 3提问于2017-08-14得票数 1

回答已采纳

2回答

如何在pyspark中指定maven依赖项？

maven、apache-spark、pyspark

在启动spark-submit / pyspark时，我们有一个使用--jars选项指定jar文件的选项。我们如何在pyspark中指定maven依赖项。在运行pyspark应用程序时，我们是否必须一直传递所有的jars，还是有一种更干净的方法？

浏览 3提问于2017-03-23得票数 5

1回答

pyspark -在Python代码中设置spark.driver.extraJavaOptions，而不是spark-submit或spark-defaults

python、apache-spark、pyspark

我喜欢避免使用spark-submit，而是使用python driver_file.py开始我的PySpark代码我们使用spark.driver.extraJavaOptions和spark-submit或spark-defaults配置文件设置了一些代理设置。相反，我希望在Python代码中设置此选项，以便可以使用python driver_file.py运行它但是，由于某些原因，当我尝试使用以下代码执行此操作时，我无法访问我试图访问的资源。但是通过在spark-default中使用相同的选项，我可以做到。我做错了什么？ sconf = SparkConf().set("sp

浏览 88提问于2018-06-22得票数 2

2回答

运行火花作业: python spark.submit

python、apache-spark、pyspark、spark-submit

运行星火作业的常见方法似乎是使用火花-提交，如下所示()： spark-submit --py-files pyfile.py,zipfile.zip main.py --arg1 val1 由于比较新，我想知道为什么第一种方法比从python ()运行它更可取： python pyfile-that-uses-pyspark.py 前一种方法在搜索主题时会产生更多的，但没有明确说明原因。实际上，这里是另一个，下面重复一个答案，专门告诉OP不要使用python方法，但没有给出原因。不要以: python的形式运行py文件，而应使用:submit filename.py filename.p

浏览 1提问于2019-03-19得票数 4

1回答

如何修复FileNotFoundError：[Errno 2]没有这样的文件或目录：？(HEROKU)

django、django-rest-framework、dj-rest-auth

我正试图把我的Django +推给heroku。我在下面的settings.py中为我的静态文件配置了路径 STATICFILES_DIRS = [ os.path.join(BASE_DIR, 'laundryman_frontend/build/static') ] 当我推到heroku时，构建是成功的，但是当我运行heroku run python manage.py collectstatic时，我得到了错误FileNotFoundError: [Errno 2] No such file or directory: '/app/laundryman_f

浏览 12提问于2022-08-01得票数 0

3回答

如何使用sc.addPyFile()在pyspark中导入matplotlib python库？

python、matplotlib、pyspark、python-import、libraries

我在python上使用spark，既迭代地从终端启动命令pyspark，也使用命令spark-submit pythonFile.py启动整个脚本我使用来分析本地csv文件，因此不会执行分布式计算。我想使用库matplotlib来绘制数据帧的列。导入matplotlib时，我得到错误ImportError: No module named matplotlib。然后我遇到了this question，并尝试了sc.addPyFile()命令，但您找不到任何与matplotlib相关的文件，我可以在我的操作系统(OSX)上将其传递给matplotlib。出于这个原因，我创建了一个虚拟环境

浏览 169提问于2018-12-21得票数 0

回答已采纳

1回答