文章/答案/技术大牛

发布

社区首页 >问答首页 >避免spark广播加入超时

问避免spark广播加入超时
EN

Stack Overflow用户

提问于 2019-10-24 16:22:52

回答 1查看 244关注 0票数 0

我有一个小的DF，这是相当昂贵的计算。然后我广播加入小DF和一个大得多的DF。

代码看起来像这样：

    val laregDf = loadLargeDfFromHive()

    // Cached for later re-use
    val smallDf = expensiveComputation().cache()

    val joined = largeDf.as("a").join(broadcast(smallDf.as("b")), $"a.key" === $"b.key", "inner")

现在，在集群上，我偶尔会超过300s的广播加入超时阈值。我可以增加这个阈值，但是选择一个值是相当随意的，如果集群繁忙，我仍然可能超过超时。

触发诸如smallDf.count之类的操作以使广播不必等待计算smallDf是否更好？这种方法有什么缺点吗？

干杯。

泰瑞

spark-streaming

scala

apache-spark

apache-spark-sql

回答 1

Stack Overflow用户

发布于 2019-10-24 16:50:18

您可以使用.count或.reduce来缓存数据帧，这将确保您在进行广播连接时不会进行昂贵的计算

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/58537136

复制

相似问题

问避免spark广播加入超时
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问避免spark广播加入超时EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问避免spark广播加入超时
EN