首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >有没有办法在pyspark中加速缓存过程?

有没有办法在pyspark中加速缓存过程?
EN

Stack Overflow用户
提问于 2020-07-20 23:25:51
回答 1查看 57关注 0票数 0

我正在尝试缓存一个基于Pyspark的3列27行的数据帧,这个过程大约需要7-10秒。

有没有什么方法可以加速这项工作?

提前感谢!

EN

回答 1

Stack Overflow用户

发布于 2020-07-21 01:02:16

您可以尝试以下任何一种方法:

  • 将您的数据帧合并到单个分区中,例如。df.coalesce(1),然后缓存它
  • 由于你的数据帧非常小,你可以加载它作为一个熊猫数据帧,它将在内存中。在这方面,toPandas()可以为您提供帮助。别忘了使用箭头火花设置来使它更快。spark.conf.set("spark.sql.execution.arrow.pyspark.enabled", "true") spark.conf.set("spark.sql.execution.arrow.enabled", "true")
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62998750

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档