文章/答案/技术大牛

发布

社区首页 >问答首页 >如何使用Python和任何支持的压缩编解码器在spark中读写压缩序列文件

问如何使用Python和任何支持的压缩编解码器在spark中读写压缩序列文件
EN

Stack Overflow用户

提问于 2018-04-24 20:17:04

回答 1查看 964关注 0票数 1

如何使用Python在Spark中读写压缩的SequenceFile。

我正在使用带有Python 2.7的CDH 5.12 Quickstart VM上的Spark 1.6

如下所示找到示例，但无法正常工作。

rdd.saveAsSequenceFile(<path location>, Some(classOf[compressionCodecClass]))

sparkContext.sequenceFile(<path location>, classOf[<class name>], classOf[<compressionCodecClass >]);

需要工作代码来测试。

pyspark

compression

sequencefile

回答 1

Stack Overflow用户

发布于 2018-04-24 20:26:30

要在Pyspark中读取压缩的sequencefile，请使用以下代码：

`myRDD = sparkcontext.sequenceFile("FILE_PATH")`

在Hadoop中，我们可以在core-site.xml文件中找到各种支持的压缩编解码器。

受欢迎的几个是：

org.apache.hadoop.io.compress.DefaultCodec
org.apache.hadoop.io.compress.GzipCodec
org.apache.hadoop.io.compress.BZip2Codec
org.apache.hadoop.io.compress.DeflateCodec
org.apache.hadoop.io.compress.SnappyCodec
org.apache.hadoop.io.compress.Lz4Codec

要在Pyspark中使用这些压缩编解码器中的任何一个来编写Sequencefile，请使用如下代码(对于GzipCodec)：MYrdd.saveAsSequenceFile("FILE_PATH","org.apache.hadoop.io.compress.GzipCodec")

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50001456

复制

相似问题

问如何使用Python和任何支持的压缩编解码器在spark中读写压缩序列文件
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用Python和任何支持的压缩编解码器在spark中读写压缩序列文件EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用Python和任何支持的压缩编解码器在spark中读写压缩序列文件
EN