我有一个小的DF,这是相当昂贵的计算。然后我广播加入小DF和一个大得多的DF。
代码看起来像这样:
val laregDf = loadLargeDfFromHive()
// Cached for later re-use
val smallDf = expensiveComputation().cache()
val joined = largeDf.as("a").join(broadcast(smallDf.as("b")), $"a.key" === $"b.key", "inner") 现在,在集群上,我偶尔会超过300s的广播加入超时阈值。我可以增加这个阈值,但是选择一个值是相当随意的,如果集群繁忙,我仍然可能超过超时。
触发诸如smallDf.count之类的操作以使广播不必等待计算smallDf是否更好?这种方法有什么缺点吗?
干杯。
泰瑞
发布于 2019-10-24 16:50:18
您可以使用.count或.reduce来缓存数据帧,这将确保您在进行广播连接时不会进行昂贵的计算
https://stackoverflow.com/questions/58537136
复制相似问题