我正在尝试使用bucketBy保存dataFrame
df.write.bucketBy("column").format("parquet").save()
但这会产生错误:
Exception in thread "main" org.apache.spark.sql.AnalysisException: 'save' does not support bucketing right now;
有没有其他方法可以保存bucketBy的结果?
发布于 2017-02-03 20:48:29
到目前为止,spark 2.1,save
还不支持错误消息中提到的bucketing。
bucketBy
方法按给定列对输出进行存储桶操作,如果指定了该方法,则输出将显示在文件系统上,类似于Hive的分批方案。
有一个JIRA正在进行Hive bucketing support [SPARK-19256]的工作。
因此,打包之后唯一可用的操作是saveAsTable
,它将DataFrame
/Dataset
的内容保存为指定的表。
由于spark主要与hive连接,所以实际上您将其保存到hive
。
因此,在spark中,你实际上是不可能成为什么样子的。
https://stackoverflow.com/questions/42022556
复制相似问题