问如何保存存储桶的DataFrame？
EN

Stack Overflow用户

提问于 2017-02-03 18:53:09

回答 1查看 6.2K关注 0票数 5

我正在尝试使用bucketBy保存dataFrame

df.write.bucketBy("column").format("parquet").save()

但这会产生错误：

Exception in thread "main" org.apache.spark.sql.AnalysisException: 'save' does not support bucketing right now;

有没有其他方法可以保存bucketBy的结果？

发布于 2017-02-03 20:48:29

到目前为止，spark 2.1，save还不支持错误消息中提到的bucketing。

bucketBy方法按给定列对输出进行存储桶操作，如果指定了该方法，则输出将显示在文件系统上，类似于Hive的分批方案。

有一个JIRA正在进行Hive bucketing support [SPARK-19256]的工作。

因此，打包之后唯一可用的操作是saveAsTable，它将DataFrame/Dataset的内容保存为指定的表。

由于spark主要与hive连接，所以实际上您将其保存到hive。

因此，在spark中，你实际上是不可能成为什么样子的。

票数 6

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/42022556

复制

相似问题

问如何保存存储桶的DataFrame？EN