首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >Amazon emr:最佳压缩/文件格式

Amazon emr:最佳压缩/文件格式
EN

Stack Overflow用户
提问于 2014-04-24 01:18:57
回答 1查看 723关注 0票数 1

我们目前在S3服务器上存储了一些文件。这些文件是日志文件(扩展名为.log,但包含纯文本内容),已经过gzipped压缩以减少磁盘空间。但是gzip是不可拆分的,现在我们正在寻找一些好的替代方案来在Amazon EMR上存储/处理我们的文件。

那么,在日志文件上使用的最佳压缩或文件格式是什么?我遇到了avro和SequenceFile,bzip2,LZO和snappy。这有点太多了,我有点不知所措。

因此,我将非常感谢您对这件事的任何见解。

数据将用于pig作业(map/reduce作业)

亲切的问候

EN

回答 1

Stack Overflow用户

发布于 2019-09-14 14:20:43

您好,我们可以根据我们的用例使用以下算法。

  1. GZIP(Algorithm):可拆分(否),压缩比(高),压缩和解压缩Speed(Medium)
  2. SNAPPY(Algorithm) :可拆分(否),压缩比(低),压缩和解压缩速度(非常Speed(Slow)
  3. LZO(Algorithm) :可拆分(是),压缩比(非常高),压缩和解压缩Speed(Slow)
  4. LZO(Algorithm):可拆分(是),压缩比(低),压缩比(低),Speed(Slow)
  5. LZO(Algorithm):可拆分(是),压缩比(低),压缩和解压缩速度(FAST)
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/23251118

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档