首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >火花任务反序列化时间

火花任务反序列化时间
EN

Stack Overflow用户
提问于 2015-07-16 21:50:02
回答 1查看 5.2K关注 0票数 2

我正在运行一个Spark作业,当查看主UI时,任务反序列化时间可能需要12秒,计算时间为2秒。

让我给出一些背景:

1-任务很简单:在PostgreSQL DB中运行一个查询,并在Spark中计算结果。

2-反序列化问题出现在具有2+工作人员(其中一个是驱动程序)的集群上并将任务传送给另一个工作人员时。

3-我必须为Postgres使用JDBC驱动程序,我使用submit运行每个作业。

我的问题:

我是否每次都将打包的jars作为作业的一部分提交,这就是导致大量任务反序列化时间的原因吗?如果是这样的话,我怎样才能把所有的东西都运送给工人一次,然后在以后的工作中就已经有了所需的一切呢?

是否有一种方法可以使作业(火花提交)之间的SparkContext保持存活,从而减少反序列化时间?

不管怎么说,任何能帮你不付钱的事。每次我在集群中运行作业时。

耽误您时间,实在对不起,

干杯

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-07-17 16:29:20

如我所知,refer支持缓存应用程序jars,以便每次应用程序运行时都可以访问它们:请参考属性spark.yarn.jar

为了支持作业之间的共享SparkContext并避免初始化它的开销,有一个用于此目的的项目火花观察者

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/31465114

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档