不幸的是,我不能广播数据帧,因为它们太大了。首先,我聚合元组的数量以减少数据: val aggregated = df.groupBy("discrete_foo", "discrete_bar").agg(sum("value"))
aggregated.repartition因此,我还尝试通过重新分区来强制执行更多的任务: val materializedAggregated= s
"left join“需要在一个数据帧上使用"spark.sql.crossJoin.enabled=true”或调用"persist()“。SELECT * FROM LHS left join RHS on LHS.R = RHS.R
如何在没有"spark.sql.crossJoin.enabled=true“和持久化数据帧的情况下使”下面的例外发生在Spark 2.3.3和2.4.4中。
当我将--conf spark.driver.maxResultSize=2050添加到我的spark-submit命令时,我得到了以下错误。:205) at org.apache.spark.rpc.RpcEndpointRef.askSync(RpcEndpointRef.scala:92)
at org.apache.