在那里,我看到spark出于某种原因(没有明确的指令)正在使用带有嵌套连接的广播。我想了解一下: 1)为什么spark使用广播和嵌套join来执行此查询? 2)为什么广播要经过驱动?3)我如何重写我的代码,使spark不会使用广播(因为广播,或它通过驱动程序,似乎是问题的根源)?temp_df_sql_view2)""")
df.explain() 我得到的错误消息是:Total size of serialized results of 79 tasks (2.1 GB) is bigger than <em