首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >如何保存存储桶的DataFrame?

如何保存存储桶的DataFrame?
EN

Stack Overflow用户
提问于 2017-02-03 18:53:09
回答 1查看 6.2K关注 0票数 5

我正在尝试使用bucketBy保存dataFrame

代码语言:javascript
复制
df.write.bucketBy("column").format("parquet").save()

但这会产生错误:

代码语言:javascript
复制
Exception in thread "main" org.apache.spark.sql.AnalysisException: 'save' does not support bucketing right now;

有没有其他方法可以保存bucketBy的结果?

EN

回答 1

Stack Overflow用户

发布于 2017-02-03 20:48:29

到目前为止,spark 2.1save还不支持错误消息中提到的bucketing。

bucketBy方法按给定列对输出进行存储桶操作,如果指定了该方法,则输出将显示在文件系统上,类似于Hive的分批方案。

有一个JIRA正在进行Hive bucketing support [SPARK-19256]的工作。

因此,打包之后唯一可用的操作是saveAsTable,它将DataFrame/Dataset的内容保存为指定的表。

由于spark主要与hive连接,所以实际上您将其保存到hive

因此,在spark中,你实际上是不可能成为什么样子的。

票数 6
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/42022556

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档