首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Spark 2.0不推荐使用'DirectParquetOutputCommitter',没有它怎么生活?

Spark 2.0不推荐使用'DirectParquetOutputCommitter',这是因为'DirectParquetOutputCommitter'在写入Parquet文件时存在一些性能和稳定性方面的问题。如果不使用它,我们仍然可以通过其他方式来生活。

一种替代方案是使用默认的'ParquetOutputCommitter'。'ParquetOutputCommitter'是Spark默认的Parquet文件输出提交器,它在写入Parquet文件时提供了更好的性能和稳定性。它使用了一种基于文件的提交方式,将数据写入临时文件夹,然后在任务完成后将临时文件夹移动到最终的输出位置。这种提交方式可以保证数据的一致性和可靠性。

除了使用默认的'ParquetOutputCommitter',还可以考虑使用其他的文件输出提交器,如'HadoopMapReduceCommitProtocol'。这个提交器是基于Hadoop MapReduce的提交协议实现的,可以在写入Parquet文件时提供更好的性能和稳定性。

总结起来,如果不推荐使用'DirectParquetOutputCommitter',我们可以选择使用默认的'ParquetOutputCommitter'或其他适合的文件输出提交器来保证数据的可靠性和性能。在使用Spark进行数据处理和分析时,可以根据具体需求选择合适的提交器。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

没有搜到相关的视频

领券