Spark-Submit :无法使用virtualenv运行_如何在virtualenv中为pyspark运行spark-submit？_无法运行"spark-submit“命令 - 腾讯云开发者社区

、、、、

我有一个python应用程序，我想使用spark submit通过虚拟环境运行它。以下是我的命令 PYSPARK_PYTHON=./venv/bin/python spark-submit --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=.现在，当我运行spark-submit命令时，我在控制台上得到以下内容 20/01/28 17:08:12 INFO org.apache.hadoop.yarn.client

浏览 17提问于2020-01-29得票数 3

回答已采纳

2回答

如何在pyspark中提交tar.gz文件

、、、

我在客户端部署模式，我想提交一个包含tar.gz的应用程序，其中包含运行时，代码和库。其目的不是针对特定的python运行时依赖于spark集群(例如，spark集群有Python3.5版本，而我的代码需要3.7版本)或没有安装在集群上的库。

浏览 0提问于2020-09-22得票数 0

1回答

使用virtualenv在yarn/spark集群模式下运行python

、、、

我在yarn/spark上的python应用程序无法识别在工作节点上创建虚拟环境的requirements.txt文件，并继续使用全局环境。任何帮助解决这个问题的人都将不胜感激。Spark版本: 2.0.1/usr/bin/spark-submit --master yarn --deploy-mode client --conf spark.pyspa

浏览 0提问于2017-07-20得票数 1

1回答

在spark-submit之前安装pyspark作业要求

、、、、

我想在Spark集群上运行Python应用程序，通过spark-submit将其发送到那里。应用程序有几个依赖项，比如pandas、numpy、scikit-learn。因为我已经使用了virtualenv进行开发，所以可以很容易地生成requirements.txt。

浏览 1提问于2018-04-19得票数 2

1回答

在pyspark作业中传送和使用virtualenv

、、

问题:我试图从我的本地机器运行一个spark-submit脚本到一个机器集群。集群所做的工作使用numpy。Original error was: cannot import name multiarray$SPARK_HOME/bin/spark-submit \

浏览 0提问于2017-09-07得票数 9

回答已采纳

3回答

需要帮助运行火花-在Apache气流中提交

、、、、

我是Python的一个相对较新的用户，很难让spark-submit在气流任务中运行。时，它成功地运行。我也尝试过使用SparkSubmitOperator(...)在spark-submit ...任务中运行spark-submit ...命令之前，是否必须使用BashOperator(...)进行操作？有办法直接从spark-submit任务运行我的SparkSubmitOperator(...)命令吗？在气流

浏览 0提问于2019-08-28得票数 1

回答已采纳

1回答

在Spark executor节点上安装Python依赖项的最简单方法？

、、、、

我知道你可以使用Python Spark程序将单个文件作为依赖项发送。但是，成熟的库(例如numpy)呢？ Spark有没有办法使用提供的包管理器(例如pip)来安装库依赖项？

浏览 3提问于2015-04-07得票数 37

回答已采纳

2回答

未在PySpark中加载的扩展程序:没有名为elephas.spark_model的模块

、、、、

我试图在集群上分发Keras培训，并为此使用Elephas。但是，当从文档运行基本示例时：rdd = to_simple_rdd(sc, x_train, y_trainI also upload the zip file of the virtual environment and call it within the script: virtualenv

浏览 0提问于2018-03-06得票数 1

回答已采纳

1回答

如何在virtualenv中为pyspark运行spark-submit？

、、

有没有办法在virtualenv中运行spark-submit (从HDP3.1.0开始的spark v2.3.2 )？在virtualenv中有使用python3 (和一些特定库) python文件的情况(以便将库版本与系统的其余部分隔离)。我想用/bin/spark-submit运行这个文件，但尝试这样做时，我得到... [me@airflowetl tests]$ source ../venv/bin/activa

浏览 98提问于2019-12-13得票数 1

回答已采纳

1回答

在Windows 10中运行Spark和Ipython :异常: worker中的Python版本3.4与驱动程序3.5中的版本不同

、、、

当我最终运行代码时warsCount = file.filter(lambda line:"war" in line64行的错误，在主异常中: worker中的"C:\Spark\python\lib\pyspark.zip\pyspark\worker.py"，版本3.4与驱动程序3.5中的版本不同，PySpark无法使用不同的次要版本运行

浏览 0提问于2016-07-08得票数 0

1回答

使用livy向AWS EMR提交虚拟环境中的pyspark作业

、、、、

我已使用以下AWS文档配置创建了EMR集群 "Classification": "livy-conf", "livy.spark.deploy-modepost请求使用livy提交pyspark作业时 'file': self.py_file,'name': self.job_name/

浏览 3提问于2018-10-16得票数 4

1回答

如何按顺序运行spark作业？

、、

一个作业使用一个工人。目前，我一次提交了30个作业，5个作业正在运行，25个作业正在等待。但是，此操作会给服务器带来沉重的负载。(有时无法分配作业端口并发生错误。)是否有可能在一次运行5个部件的情况下减少负载？当前我的运行代码：： ~/spark-submit ~test1.py & ~/spark-submit ~test2.py & ~/spark-submit ~testN.py & ...~

浏览 28提问于2020-11-30得票数 0

回答已采纳

1回答

调度电火花记事本

、、、、

目前，我们正在使用oozie通过色调在Hadoop上运行这些笔记本。这种设置感觉不太理想，我们想知道是否有其他的选择。set -e source /usr/local/virtualenv/py

浏览 4提问于2016-06-17得票数 2

回答已采纳

1回答

无法运行"spark-submit“命令

我已经正确地完成了所有的工作，但是当我尝试运行spark-submit时，我想可能是java出了问题。当我运行以下命令时： (base) C:\SparkCourse>spark-submit ratings-counter.py 我得到了这个错误： Exception in thread "main"

浏览 297提问于2021-10-12得票数 -1

1回答

PySpark找不到卡夫卡的来源

、、、

Usage: spark-submit [options] <app jar | python file | R file> [app arguments] Options:

浏览 30提问于2022-01-23得票数 1

回答已采纳

1回答

在Spark程序中访问Oozie配置

、、

我正在尝试使用Scala中的sys.env()方法通过Spark程序访问它。当我没有Oozie调度时，我能够正确地访问Spark中的环境变量。然而，当我尝试使用Oozie调度我的程序时，程序抛出一个错误，它无法读取环境变量。

浏览 1提问于2020-01-14得票数 0

1回答

在Python中使用restful服务发布Spark

、、

使用此服务，我想用spark-submit调用另一个python脚本，但它不起作用。request.form.get('imageID') if __name__ == '__

浏览 0提问于2018-02-23得票数 3

回答已采纳

2回答

spark-使用特定的python库提交

、、

我想在我的集群上执行这段代码，它运行在mesos下。我确实有我的python环境的压缩版本，它位于我的集群可访问的http服务器上。我在指定我的spark-submit查询来使用这个环境时遇到了一些麻烦。我既使用--archives加载压缩文件，又使用--conf 'spark.pyspark.driver.python=path/to/my/env/bin/python'加上--conf 'spark.pyspark.py

浏览 9提问于2018-02-06得票数 3

1回答

如何在虚拟环境中选择合适的Python版本？

、、、

我创建一个虚拟环境并运行PySpark脚本。如果我在MacOS上执行这些步骤，一切都会很好。但是，如果我在Linux (Ubuntu 16)上运行它们，则会选择不正确的Python版本。PYSPARK_PYTHON=python3 那我就做：pip3 install virtualenv2.4.0-bin-hadoop2.7.tgz tar -xvzf spark-2.4.0-bin-hadoop

浏览 0提问于2018-12-10得票数 0

回答已采纳

1回答

安装烧瓶结构

、、

我遵循的是virtualenv方法，而不是系统范围的安装。我只是不明白virtualenv的结构是什么，以及它和Flask有什么关系。我运行了一个目录中的所有命令。这是否意味着virtualenv、Flask和Jinga2都只能在该目录下运行？这是否意味着我每次在项目目录中启动一个flask项目时都需要设置virtualenv和flask？

浏览 3提问于2012-08-25得票数 1

回答已采纳

点击加载更多