我正在尝试缓存一个基于Pyspark的3列27行的数据帧,这个过程大约需要7-10秒。
有没有什么方法可以加速这项工作?
提前感谢!
发布于 2020-07-21 01:02:16
您可以尝试以下任何一种方法:
df.coalesce(1)
,然后缓存它spark.conf.set("spark.sql.execution.arrow.pyspark.enabled", "true")
spark.conf.set("spark.sql.execution.arrow.enabled", "true")
https://stackoverflow.com/questions/62998750
复制相似问题