为什么pyspark驱动程序不将jar文件下载到本地存储？

pyspark驱动程序不将jar文件下载到本地存储的原因是为了实现分布式计算和跨集群的灵活性。以下是完善且全面的答案：

Pyspark是一个用于在Python中进行大规模数据处理和分析的开源框架，它是Apache Spark的Python API。在Spark中，驱动程序是负责协调和管理整个应用程序执行的进程。而jar文件是Java语言编译的二进制文件，包含了Spark的核心功能和依赖库。

在分布式计算中，Spark将任务分发给集群中的多个节点进行并行处理。为了实现这种分布式计算，Spark采用了一种称为"分发式缓存"（Distributed Cache）的机制。该机制允许将依赖的文件（如jar文件）分发到集群的每个节点上，以供任务执行时使用。

当使用pyspark编写应用程序时，驱动程序会将jar文件上传到Spark集群的分发式缓存中，而不是下载到本地存储。这样做的好处有以下几点：

节省网络带宽：如果每个驱动程序都将jar文件下载到本地存储，那么对于大规模集群来说，会占用大量的网络带宽。通过将jar文件上传到集群的分发式缓存，可以避免这种带宽消耗。
提高灵活性：将jar文件上传到集群的分发式缓存中，可以实现跨集群的灵活性。不同的集群可能具有不同的配置和环境，直接将jar文件下载到本地存储可能会导致兼容性和依赖性问题。通过分发式缓存，可以确保每个集群都使用相同的jar文件，从而保证应用程序的一致性和可移植性。
提高性能：分发式缓存可以将jar文件存储在集群的本地磁盘上，这样在任务执行时可以直接从本地磁盘加载，而不需要通过网络下载。这样可以减少网络延迟，提高任务执行的性能。

总结起来，pyspark驱动程序不将jar文件下载到本地存储是为了节省网络带宽、提高灵活性和提高性能。通过将jar文件上传到Spark集群的分发式缓存中，可以实现分布式计算和跨集群的灵活性，同时提高任务执行的效率。

页面内容是否对你有帮助？

有帮助

没帮助

为什么pyspark驱动程序不将jar文件下载到本地存储？

、、

/jars/mysql-connector-java-8.0.17.jar \ spark-kubernetes-driver 19/11/0

浏览 16提问于2019-11-06得票数 0

3回答

如果工件不在公共存储库中，如何向maven项目提供这些工件？

、、

这个库依赖于其他一些在任何公共存储库中都找不到的jars。commons-gdx-core: com.gemserk.commons.gdx:commons-gdx-core:jar:0.0.11-SNAPSHOT: com.badlogic.gdx:gdx:jar:0.9.8-SNAPSHOT, com.gemserk.animation4j:anim

浏览 2提问于2013-03-29得票数 1

回答已采纳

1回答

火花放电中的加载数据库csv库

、、、

所有这些都使用PySpark。我启动PySpark并输入：但我得到了这样的答案： Usingspark.executor.extraJavaOptions=-Xbootclasspath/p:/usr/local/share/google/alpn/alpn-boot-8.1.3.v20150130.jarspark.driver.

浏览 1提问于2015-10-27得票数 1

回答已采纳

4回答

Pyspark集成到Pycharm中

、、

我不知道如何配置Pycharm，这样我就可以直接在Pyspark中运行脚本。我在Elasticsearch集群上使用Pyspark，并使用以下代码来运行脚本。当我尝试将pyspark shell配置为解释器时，它使用默认的python解释器运行，但由于错误it I not a valid SDK而无法工作： if __name__ == "__main__&qu

浏览 1提问于2015-07-22得票数 3

3回答

类在Eclipse中的运行时未找到，而Maven依赖项已经包括在内。

、、

我使用maven下载ojdbc.jar依赖项。jar已经出现在Maven依赖项中Eclipse中，我猜它已经准备好使用了。

浏览 0提问于2018-05-10得票数 0

1回答

使用字节数组而不是文件位置安装osgi包？

、、、

现在，我要做的是，在我们的公司中，我们有某种存储方式，存储所有的OSGi包jar。因此，我将这些OSGi包jar下载到某个本地目录中，然后尝试从从我的存储库下载这些包的本地位置安装这些包。下面的方法只接受文件位置，所以我提供了完整的本地文件路径。有没有办法，我可以用byte[]安装它。基本上，我试图避免将jar</e

浏览 1提问于2013-08-22得票数 0

回答已采纳

1回答

在HTTP触发之后，我想从blob存储中读取.csv文件，并将新数据附加到该文件中。并希望将.csv格式的数据保存到blob存储中。content_settings=ContentSettings(content_type='application/CSV')我的问题是在追加数据后，我必须将数据保存到blob存储中因此，我必须将所有数据保存在csv文件中，但出现上述错误。Https触发器不授予我保存csv文件

浏览 1提问于2021-03-25得票数 0

1回答

如何使用Opencv直接从Azure blob存储区读取图像，而不将其下载到本地文件？

、、、

我想使用Python2.7中的opencv 3从Azure blob存储中读取图像。如何在不将blob下载到本地文件的情况下做到这一点？

浏览 7提问于2017-06-16得票数 3

回答已采纳

1回答

使用带ecplise的maven的依赖关系中的问题

、、

因此，我从我的maven项目中进入pom.xml文件，将mysql-连接器-java 5.0.8改为5.1.38版本，保存pom，理论上我的maven应该下载新版本(5.1.38) mysql-连接器-我找不到任何错误，但在我的lib文件夹中只有5.0.8版本的。奇怪的是，当我为构建提供干净的安装时，成功地生成了MyApp-0.0.1-快照/WEB/ lib，生成了mysql-连接器-java-5.0.8-bin.jar文件和mysql-连接器-java-5.1.38.jar。

浏览 4提问于2016-03-01得票数 0

回答已采纳

1回答

解密亚马逊网络服务S3中的对象，而无需将其下载到本地系统

、、、、

我在s3存储桶中有一个加密文件。我想以编程方式解密它，而不是将其下载到我的本地计算机。是否可以在不将加密文件下载到本地计算机的情况下对其进行解密？我用来加密文件的东西: boto3库，用于加密的KMS密钥，aws sdk，python脚本我绝对可以下载这个文件，然后在我的本地机器上解密它，如下所示： with aws_encryption_sdk.streamkms_key

浏览 8提问于2019-04-27得票数 1

1回答

如何在"Windows“(麦德龙)应用程序中包含FolderPicker中的Skydrive文件夹？

、、

我可以看到带有FolderPicker的本地文件夹，但是Skydrive文件夹没有出现。我该怎么把它们包括进去？但是我不能选一个文件夹，所以这没什么帮助。

浏览 2提问于2012-12-22得票数 0

1回答

SparkContext.addFile与spark-submit --文件

我想传递一些属性文件，比如log4j.properties和其他一些客户属性文件。我看到我们可以使用--files，但我还看到在SparkContext中有一个方法addFile。我确实更喜欢使用-- files，而不是编程添加文件，假设这两个选项是相同的？

浏览 1提问于2016-08-11得票数 14

回答已采纳

3回答

maven存储库设置不起作用

、、

我在POM.xml中引用一个存储库来将ojdbc.jar添加到我的项目中，但是Maven (我使用STS插件)一直告诉我它找不到jar。注意，当把vaadin罐子正确地添加到我的项目中时，vaadin工作得很好。

浏览 5提问于2014-03-22得票数 0

回答已采纳

1回答

如何在Spark中为执行器和驱动程序使用自定义log4j属性

、、、、

我希望在不将log4j文件上传到执行器和驱动程序节点的情况下执行此操作。我在应用程序jar中有log4j属性文件。.***.MainApp s3://**/**-jar-with-dependencies.jarImplementation-Title: ###Implementation

浏览 0提问于2016-11-03得票数 0

2回答

用JConnect对Spring应用程序进行单元测试

、、、、

我已经将我的spring配置都设置为使用Sybase dataSource JDBC驱动程序创建JConnect bean。我的问题是，我只能在作为webapp运行应用程序时创建我的bean。applicationContext.xml - webapp -jconn3.jar我可以看到，在构建时，jcont3.jar被复制到目标/类目录中，那么为什么在运行时找不到jar呢？让

浏览 2提问于2013-03-13得票数 0

回答已采纳

4回答

Spark Kubernetes是否支持--py-files参数？

、、

我正在尝试使用Kubernetes运行PySpark作业。主脚本和py文件都托管在Google Cloud存储上。storage.googleapis.com/foo/some_dependencies.zip \然后运行主脚本，但它在依赖项文件中找不到模块我知道我可以复制Docker镜像中的所有文件，但我更喜欢这样做。这个是可能的

浏览 0提问于2019-04-12得票数 1

1回答

如何导入外部库以使用Gradle锁定项目的lib文件夹

我知道，默认情况下，所有所需的jar文件都将自动下载到本地存储库，默认情况下，本地存储库位于USER_HOME/.m2文件夹(我的操作系统是Windows)。是否有方法将所有必需的jar文件导入到另一个指定的文件夹中？我计划将所有jar文件放在'project_name/libs'

浏览 1提问于2014-11-23得票数 0

1回答

如何将图像流到亚马逊S3

、、、

有一个servlet接收图像，其目的是将图像存储在Amazon中。Part filePart = request.getPart("file");如何在不将文件下载到辅助存储的情况下将内容流到s3client.putObject(new PutObjectRequest( bucketName, keyName, f

浏览 2提问于2015-12-02得票数 0

回答已采纳

2回答

带有--文件参数错误的PySpark* spark submit命令*

、、、

我使用以下命令在Spark2.3集群中运行一个PySpark作业。spark-submit --master yarn PySpark_ETL_Job_v0.2.pyconfigFilePath = os.path.join(SparkFiles.getRootDirectory(), 'ET

浏览 0提问于2018-09-16得票数 2

回答已采纳

1回答

SharePoint 2010 Silverlight web部件-从web下载多个文件到文档库

、、、、

需要使用Silverlight4.0 web部件将多个文件从web位置下载到SharePoint 2010文档库。谢谢

浏览 1提问于2011-10-10得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

为什么pyspark驱动程序不将jar文件下载到本地存储？

相关·内容

为什么pyspark驱动程序不将jar文件下载到本地存储？

如果工件不在公共存储库中，如何向maven项目提供这些工件？

火花放电中的加载数据库csv库

Pyspark集成到Pycharm中

类在Eclipse中的运行时未找到，而Maven依赖项已经包括在内。

使用字节数组而不是文件位置安装osgi包？

无法从blobstorage将新数据帧追加到以前的数据帧中

如何使用Opencv直接从Azure blob存储区读取图像，而不将其下载到本地文件？

使用带ecplise的maven的依赖关系中的问题

解密亚马逊网络服务S3中的对象，而无需将其下载到本地系统

如何在"Windows“(麦德龙)应用程序中包含FolderPicker中的Skydrive文件夹？

SparkContext.addFile与spark-submit --文件

maven存储库设置不起作用

如何在Spark中为执行器和驱动程序使用自定义log4j属性

用JConnect对Spring应用程序进行单元测试

Spark Kubernetes是否支持--py-files参数？

如何导入外部库以使用Gradle锁定项目的lib文件夹

如何将图像流到亚马逊S3

带有--文件参数错误的PySpark* spark submit命令*

SharePoint 2010 Silverlight web部件-从web下载多个文件到文档库

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐