首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何使用Python和任何支持的压缩编解码器在spark中读写压缩序列文件

如何使用Python和任何支持的压缩编解码器在spark中读写压缩序列文件
EN

Stack Overflow用户
提问于 2018-04-24 20:17:04
回答 1查看 964关注 0票数 1

如何使用Python在Spark中读写压缩的SequenceFile

我正在使用带有Python 2.7的CDH 5.12 Quickstart VM上的Spark 1.6

如下所示找到示例,但无法正常工作。

rdd.saveAsSequenceFile(<path location>, Some(classOf[compressionCodecClass]))

sparkContext.sequenceFile(<path location>, classOf[<class name>], classOf[<compressionCodecClass >]);

需要工作代码来测试。

EN

回答 1

Stack Overflow用户

发布于 2018-04-24 20:26:30

要在Pyspark中读取压缩的sequencefile,请使用以下代码:

代码语言:javascript
运行
复制
`myRDD = sparkcontext.sequenceFile("FILE_PATH")`

在Hadoop中,我们可以在core-site.xml文件中找到各种支持的压缩编解码器。

受欢迎的几个是:

代码语言:javascript
运行
复制
org.apache.hadoop.io.compress.DefaultCodec
org.apache.hadoop.io.compress.GzipCodec
org.apache.hadoop.io.compress.BZip2Codec
org.apache.hadoop.io.compress.DeflateCodec
org.apache.hadoop.io.compress.SnappyCodec
org.apache.hadoop.io.compress.Lz4Codec

要在Pyspark中使用这些压缩编解码器中的任何一个来编写Sequencefile,请使用如下代码(对于GzipCodec):MYrdd.saveAsSequenceFile("FILE_PATH","org.apache.hadoop.io.compress.GzipCodec")

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50001456

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档