如何使用docker将参数传递给spark-submit

使用Docker将参数传递给spark-submit的步骤如下：

创建Docker镜像：首先，需要创建一个Docker镜像，该镜像包含了Spark和相关依赖。可以使用Dockerfile来定义镜像的构建过程，例如：

FROM openjdk:8-jre

# 安装Spark
RUN wget https://downloads.apache.org/spark/spark-3.2.0/spark-3.2.0-bin-hadoop3.2.tgz && \
    tar -xzf spark-3.2.0-bin-hadoop3.2.tgz && \
    mv spark-3.2.0-bin-hadoop3.2 /spark

# 设置环境变量
ENV SPARK_HOME=/spark
ENV PATH=$PATH:$SPARK_HOME/bin

# 设置工作目录
WORKDIR /app

# 复制应用程序代码到容器中
COPY app.py /app

# 设置启动命令
CMD ["spark-submit", "--master", "local[*]", "app.py"]

在上述Dockerfile中，首先选择了一个基础镜像（openjdk:8-jre），然后下载并安装了Spark，设置了环境变量和工作目录，最后复制了应用程序代码并设置了启动命令。

构建Docker镜像：使用以下命令在Dockerfile所在目录中构建镜像：

docker build -t my-spark-app .

这将会根据Dockerfile构建一个名为my-spark-app的镜像。

运行Docker容器：使用以下命令在Docker容器中运行Spark应用程序：

docker run -it my-spark-app arg1 arg2 arg3

在上述命令中，my-spark-app是之前构建的镜像名称，arg1、arg2、arg3是要传递给Spark应用程序的参数。

在Spark应用程序中获取参数：在Spark应用程序中，可以使用命令行参数解析库（如argparse）来获取传递的参数。以下是一个简单的Python示例：

import argparse

# 创建参数解析器
parser = argparse.ArgumentParser()
parser.add_argument("arg1", help="参数1")
parser.add_argument("arg2", help="参数2")
parser.add_argument("arg3", help="参数3")
args = parser.parse_args()

# 打印参数值
print("参数1:", args.arg1)
print("参数2:", args.arg2)
print("参数3:", args.arg3)

# 在这里编写Spark应用程序的逻辑

在上述示例中，使用argparse库创建了一个参数解析器，并定义了三个参数（arg1、arg2、arg3）。然后使用parse_args()方法解析传递的参数，并在应用程序中使用这些参数。

通过以上步骤，你可以使用Docker将参数传递给spark-submit，并在Spark应用程序中获取这些参数进行处理。

如何使用docker将参数传递给spark-submit

scala、docker、apache-spark

我有一个docker容器在我的笔记本电脑上运行，其中有一个master和三个worker，我可以通过使用如下命令输入master的ip来启动典型的单词计数示例： bash-4.3# spark/binoutput-5中生成的但当我尝试从外部启动该进程时，使用以下命令： docker run --network docker-spark-cluster_spark-network -v /tmp/spark-apps问题是，为什么docker不使用<

浏览 24提问于2019-03-19得票数 1

回答已采纳

2回答

错误:-来自后台进程的错误响应: OCI运行时创建失败: container_linux.go:349:启动容器进程导致“

docker

我使用下面的代码( docker -Apache spark)安装了一个docker和Docker容器。Docker File:- MAINTAINER Getty Images "https://github.com/gettyimages"CMD ["bin/spark-class", "org.apache.spark.deploy.master.Mast

浏览 2提问于2020-07-13得票数 0

2回答

星星之火-提交kubernetes集群

apache-spark、kubernetes、pyspark、minikube

下面是我的spark-submit代码以及抛出的错误。spark-submit --master k8s://https://192.168.99.101:8443 --deploy-mode cluster --name WordCount --classWordCountSample-0.0.1-SNAPSHOT.jar local:///C:/Users/siddh/OneDrive/Desktop/initialData.txt

浏览 6提问于2020-02-11得票数 0

1回答

使用环境变量的入口点并不是新的参数。

docker、dockerfile

我们正在创建一个简单的Dockerfile，该文件的最后一行是script.py是一个简单的吡火花应用程序(对于本讨论来说并不重要)，这个吡火花应用程序接收一些参数，我们正试图使用docker命令传递这些参数，如下所示 docker run --rm my_spark_app_i

浏览 1提问于2017-04-12得票数 2

回答已采纳

2回答

spark-通过文件提交配置

apache-spark、spark-submit

我正在尝试使用spark-submit部署spark job，它有一堆参数，比如我正在寻找一种方法，将所有这些标志放在文件中传递给<

浏览 24提问于2017-03-16得票数 4

回答已采纳

2回答

火花-提交与命名的论点？

scala、apache-spark、distributed-computing

我知道我可以把参数传递给主函数并通过以下方式进行辩论： var city = args(0)但我想知道是否有一条路径可以通过命名的论点，比如：如何在main.scala中获得

浏览 4提问于2017-10-20得票数 6

回答已采纳

4回答

如何将程序参数传递给运行火花提交器的主要功能？

java、apache-spark

我试图使用带有程序参数的main函数(String[] args)运行一个Java类。但是，当我使用spark-submit提交作业并传递程序参数时，我将使用它不读取args我尝试运行的命令是 bin/spark-submit analytics-package.jar --class full.pa

浏览 4提问于2016-03-16得票数 25

回答已采纳

2回答

Javascript onclick和转义

javascript、jquery

如果我的onclick事件看起来像这样：应该对?字符进行转义吗？

浏览 2提问于2010-12-30得票数 1

1回答

火花如何处理HADOOP_CONF_DIR？

apache-spark、hadoop

当我们想从Spark连接HDFS时，我们只是将HADOOP_CONF_DIR设置为而不是将各种参数传递给Spark/usr/hdp/current/spark-client/bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarnexecut

浏览 4提问于2020-08-03得票数 1

1回答

帕拉米科exec_command挂在码头上

python、python-3.x、docker、apache-spark、paramiko

我正在使用Paramiko测试来自外部系统的docker命令(我需要这样做，我不能只构建容器并在本地测试它)，我试图运行的测试用例包括启动Apache并运行其中一个示例，特别是SparkPi。出于某种原因，我的python脚本挂在下面的docker exec ...命令上。但是，以前执行其他停靠执行程序，并且没有出现手动运行所有操作的问题。命令 stdin, stdout, stderr = ssh_client.exec_command(f'docker exec {spark_container_id} ba

浏览 0提问于2019-05-02得票数 1

1回答

在纱线集群模式下运行Spark时出现错误(application returned with exitcode 1)

hadoop、apache-spark、hadoop-yarn

我有一个SPARK作业，它总是返回退出代码1，但我不能弄清楚这个特定的退出代码是什么意思，以及为什么应用程序返回这个代码。这是我在Node Manager日志中看到的-ExitCodeExc

浏览 4提问于2017-07-10得票数 3

回答已采纳

1回答

spark-submit管道模型

apache-spark、docker、apache-spark-ml、spark-submit

我有一个运行在docker上的Apache Spark集群(1个主机+1个工人)，我可以使用spark-submit提交一个适合管道的作业，然后它被保存到(PipelineModel.save(path)).文件保存在我的本地机器上，恰好在我执行spark-submit命令的位置。0.1-alpha.jar --mode=production --file=test/aFolder where --mode=production --file=test/aFolder是我的程序的参数我

浏览 2提问于2017-11-16得票数 2

1回答

有没有办法创建Service Fabric服务并将docker命令参数传递给容器

docker、azure-service-fabric

我正在使用Microsoft Service Fabric来编排我的docker容器，并且我有一个运行docker映像的Service Fabric服务类型。我希望能够在容器启动时将命令参数传递给它。我希望通过CreateServiceAsync每次传递不同的参数来启动1到n个容器实例。我尝试使用FabricClient.ServiceManagementClient.CreateServiceAsync方法来启动每个实例，并将这些参数</em

浏览 5提问于2017-11-02得票数 1

1回答

如何在Azure发布管道任务中动态地向docker-compose.yml提供对接者图像标记？

docker、docker-compose、azure-devops、azure-pipelines、azure-pipelines-release-pipeline

存储库中有docker-compose.yml文件。我在其中一个服务中添加了图像属性，以提取码头映像。我还没有硬编码docker映像和docker标记，并计划在运行时将这些参数传递给docker-compose.yml文件。如何将运行时参数(如IMAGE_TAG=82、IMAGE_NAME=app1 )传递给docker-compose.yml文件？

浏览 1提问于2020-02-27得票数 3

回答已采纳

1回答

要在spark scala中参数化的lit()函数

apache-spark

我在spark代码中的filter转换中使用了lit()函数，如下所示 filter(to_date(df1("process_date"))>=lit("2019-03-21")) 当lit()的参数是如上所示的硬编码时我想将传递给lit()函数的值参数化。有谁能告诉我这是如何实现的，以及参数需要如何在spark-submit中传递。

浏览 434提问于2020-12-03得票数 1

1回答

将在k8s中运行的spark驱动程序日志发送到Splunk

apache-spark、logging、kubernetes、splunk、spark-submit

我正在尝试将spark驱动程序和执行器日志发送到Splunk。spark是否提供了任何配置来执行相同的操作？如何在spark-submit命令中发送Splunk配置，如HEC端点、端口、令牌等？我确实尝试过将它作为args传递给spark驱动程序 --deploy-mode cluster --class org.apache.spark.examples.JavaSparkPi--conf spark.kubernetes.authenticate.d

浏览 0提问于2020-01-24得票数 0

1回答

如何将运行选项传递给停靠者-组合

mongodb、docker、docker-compose

我正在尝试运行使用mongo映像的docker容器，并传递--user参数，如果运行以下命令是可以的但我不知道如何在--user配置中使用docker-compose参数services: image: mongo 如何将码头运行选项传递给</

浏览 7提问于2017-04-02得票数 2

回答已采纳

1回答

如何在没有外部Spark的情况下使用kubernetes部署spark-提交客户端

docker、apache-spark、kubernetes、deployment、kubernetes-helm

我正在尝试对接我的spark作业，并使用k8部署它。Docker文档提供了一种对接spark的方法，我们可以将其用作基础映像，并使用自定义作业更新spark。Refer - Spark documentation 我面临的问题是，在dockerized部署环境之外部署这需要一个spark-submit客户端。 ? 如何将spark-submit客户端包含在K8集群中，然后使用helm和Kubernetes进行部署

浏览 5提问于2021-08-05得票数 0

1回答

Apache Spark: MesosClusterDispatcher可以在Docker容器中运行执行程序吗？

apache-spark、docker、cluster-computing、mesos

我更喜欢为我的Spark executors使用Docker容器，我可以使用spark-submit的客户端模式(使用--master mesos://mesosmaster:5050和--conf spark.mesos.executor.docker.image=myimage:latest)来做到这一点，但我希望能够使用集群模式来做同样的事情。)，但是当我指定一个docker镜像供执行器使用时，似乎调度程序忽

浏览 7提问于2017-08-26得票数 1

2回答

如何在木星笔记本中使用PySpark时包含外部火花库

python、apache-spark、pyspark、jupyter-notebook、jupyter

下面是我在笔记本中使用的代码的第一部分：from pyspark.streaming import StreamingContext9092"如果运行该单元格，将收到以下错误Include the Kafka library and its dependencies with in the

浏览 0提问于2018-06-29得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用docker将参数传递给spark-submit

相关·内容

如何使用docker将参数传递给spark-submit

错误:-来自后台进程的错误响应: OCI运行时创建失败: container_linux.go:349:启动容器进程导致“

星星之火-提交kubernetes集群

使用环境变量的入口点并不是新的参数。

spark-通过文件提交配置

火花-提交与命名的论点？

如何将程序参数传递给运行火花提交器的主要功能？

Javascript onclick和转义

火花如何处理HADOOP_CONF_DIR？

帕拉米科exec_command挂在码头上

在纱线集群模式下运行Spark时出现错误(application returned with exitcode 1)

spark-submit管道模型

有没有办法创建Service Fabric服务并将docker命令参数传递给容器

如何在Azure发布管道任务中动态地向docker-compose.yml提供对接者图像标记？

要在spark scala中参数化的lit()函数

将在k8s中运行的spark驱动程序日志发送到Splunk

如何将运行选项传递给停靠者-组合

如何在没有外部Spark的情况下使用kubernetes部署spark-提交客户端

Apache Spark: MesosClusterDispatcher可以在Docker容器中运行执行程序吗？

如何在木星笔记本中使用PySpark时包含外部火花库

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐