开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >有没有办法在pyspark中加速缓存过程？

问有没有办法在pyspark中加速缓存过程？
EN

Stack Overflow用户

提问于 2020-07-20 23:25:51

回答 1查看 57关注 0票数 0

我正在尝试缓存一个基于Pyspark的3列27行的数据帧，这个过程大约需要7-10秒。

有没有什么方法可以加速这项工作？

提前感谢！

EN

回答 1

Stack Overflow用户

发布于 2020-07-21 01:02:16

您可以尝试以下任何一种方法：

将您的数据帧合并到单个分区中，例如。df.coalesce(1)，然后缓存它
由于你的数据帧非常小，你可以加载它作为一个熊猫数据帧，它将在内存中。在这方面，toPandas()可以为您提供帮助。别忘了使用箭头火花设置来使它更快。spark.conf.set("spark.sql.execution.arrow.pyspark.enabled", "true") spark.conf.set("spark.sql.execution.arrow.enabled", "true")

票数 2

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/62998750

复制

相似问题