如何使用Python在Spark中读写压缩的SequenceFile。
我正在使用带有Python 2.7的CDH 5.12 Quickstart VM上的Spark 1.6
如下所示找到示例,但无法正常工作。
rdd.saveAsSequenceFile(<path location>, Some(classOf[compressionCodecClass]))
sparkContext.sequenceFile(<path location>,                            classOf[<class name>],                            classOf[<compressionCodecClass >]);
需要工作代码来测试。
发布于 2018-04-24 20:26:30
要在Pyspark中读取压缩的sequencefile,请使用以下代码:
`myRDD = sparkcontext.sequenceFile("FILE_PATH")`在Hadoop中,我们可以在core-site.xml文件中找到各种支持的压缩编解码器。
受欢迎的几个是:
org.apache.hadoop.io.compress.DefaultCodec
org.apache.hadoop.io.compress.GzipCodec
org.apache.hadoop.io.compress.BZip2Codec
org.apache.hadoop.io.compress.DeflateCodec
org.apache.hadoop.io.compress.SnappyCodec
org.apache.hadoop.io.compress.Lz4Codec要在Pyspark中使用这些压缩编解码器中的任何一个来编写Sequencefile,请使用如下代码(对于GzipCodec):MYrdd.saveAsSequenceFile("FILE_PATH","org.apache.hadoop.io.compress.GzipCodec")
https://stackoverflow.com/questions/50001456
复制相似问题