首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >避免spark广播加入超时

避免spark广播加入超时
EN

Stack Overflow用户
提问于 2019-10-24 16:22:52
回答 1查看 244关注 0票数 0

我有一个小的DF,这是相当昂贵的计算。然后我广播加入小DF和一个大得多的DF。

代码看起来像这样:

代码语言:javascript
复制
    val laregDf = loadLargeDfFromHive()

    // Cached for later re-use
    val smallDf = expensiveComputation().cache()

    val joined = largeDf.as("a").join(broadcast(smallDf.as("b")), $"a.key" === $"b.key", "inner") 

现在,在集群上,我偶尔会超过300s的广播加入超时阈值。我可以增加这个阈值,但是选择一个值是相当随意的,如果集群繁忙,我仍然可能超过超时。

触发诸如smallDf.count之类的操作以使广播不必等待计算smallDf是否更好?这种方法有什么缺点吗?

干杯。

泰瑞

EN

回答 1

Stack Overflow用户

发布于 2019-10-24 16:50:18

您可以使用.count或.reduce来缓存数据帧,这将确保您在进行广播连接时不会进行昂贵的计算

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58537136

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档