我们目前在S3服务器上存储了一些文件。这些文件是日志文件(扩展名为.log,但包含纯文本内容),已经过gzipped压缩以减少磁盘空间。但是gzip是不可拆分的,现在我们正在寻找一些好的替代方案来在Amazon EMR上存储/处理我们的文件。
那么,在日志文件上使用的最佳压缩或文件格式是什么?我遇到了avro和SequenceFile,bzip2,LZO和snappy。这有点太多了,我有点不知所措。
因此,我将非常感谢您对这件事的任何见解。
数据将用于pig作业(map/reduce作业)
亲切的问候
发布于 2019-09-14 14:20:43
您好,我们可以根据我们的用例使用以下算法。
https://stackoverflow.com/questions/23251118
复制相似问题