如何在Hadoop中自动压缩文件？

在Hadoop中自动压缩文件可以通过配置压缩编解码器来实现。以下是一种常见的方法：

在Hadoop配置文件中，找到core-site.xml文件，并添加以下配置：

<property>
  <name>io.compression.codecs</name>
  <value>org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.BZip2Codec,org.apache.hadoop.io.compress.SnappyCodec</value>
</property>

上述配置中，io.compression.codecs属性指定了Hadoop支持的压缩编解码器。默认情况下，Hadoop支持DefaultCodec、GzipCodec、BZip2Codec和SnappyCodec四种编解码器。

在Hadoop配置文件中，找到mapred-site.xml文件，并添加以下配置：

<property>
  <name>mapreduce.map.output.compress</name>
  <value>true</value>
</property>
<property>
  <name>mapreduce.map.output.compress.codec</name>
  <value>org.apache.hadoop.io.compress.SnappyCodec</value>
</property>
<property>
  <name>mapreduce.output.fileoutputformat.compress</name>
  <value>true</value>
</property>
<property>
  <name>mapreduce.output.fileoutputformat.compress.codec</name>
  <value>org.apache.hadoop.io.compress.SnappyCodec</value>
</property>

上述配置中，mapreduce.map.output.compress属性指定了是否对Map任务的输出进行压缩，mapreduce.map.output.compress.codec属性指定了压缩编解码器。同样地，mapreduce.output.fileoutputformat.compress属性指定了是否对最终输出文件进行压缩，mapreduce.output.fileoutputformat.compress.codec属性指定了压缩编解码器。

在Hadoop作业中，使用FileOutputFormat类的静态方法setCompressOutput()来启用输出压缩。例如：

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.io.compress.SnappyCodec;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class MyJob {
  public static void main(String[] args) throws Exception {
    Configuration conf = new Configuration();
    Job job = Job.getInstance(conf, "MyJob");
    job.setJarByClass(MyJob.class);
    
    // 设置输入格式和路径
    job.setInputFormatClass(TextInputFormat.class);
    TextInputFormat.addInputPath(job, new Path("input"));

    // 设置输出格式、路径和压缩编解码器
    job.setOutputFormatClass(TextOutputFormat.class);
    TextOutputFormat.setOutputPath(job, new Path("output"));
    TextOutputFormat.setCompressOutput(job, true);
    TextOutputFormat.setOutputCompressorClass(job, SnappyCodec.class);

    // 设置Mapper和Reducer等其他作业配置

    System.exit(job.waitForCompletion(true) ? 0 : 1);
  }
}

上述示例中，TextOutputFormat.setCompressOutput()方法启用了输出压缩，TextOutputFormat.setOutputCompressorClass()方法指定了压缩编解码器为SnappyCodec。

通过以上配置和代码，Hadoop将自动在Map任务的输出和最终输出文件中进行压缩。压缩可以减少存储空间和网络传输开销，提高性能和效率。

腾讯云相关产品和产品介绍链接地址：

无法正确设置压缩编解码器的mapreduce作业

、、、、

嗨，我有一个MR2作业，它将使用snappy压缩的avro数据作为输入，处理它并将数据输出到一个输出dir到avro格式。人们的期望是，输出的avro数据也应该被快速压缩，但它不是。约伯先生是地图上唯一的工作。我在代码中设置了以下属性 conf.set("mapreduce.map.output.compress", "true"); conf.set("mapreduce.map.output.compress.codec", "org.apache.hadoop.io.compress.SnappyCodec"); 但是输出

浏览 5提问于2015-06-05得票数 1

回答已采纳

2回答

为什么纱线中的压缩会使工作减慢几倍？

、、、

当我在YARN (2.4.0)中使用压缩(snappy)运行作业时，对作业完成时间有很大影响。例如，我运行了以下实验。作业: invertedindex群集: 10个从虚拟机(4个CPU 8 8GB )。未压缩的5 5GB倒排索引作业完成时间(Snappy)：226秒，压缩: 1600s 未压缩的50 of倒排索引作业完成时间(Snappy)：2000秒，压缩:14000秒我在mapred-site.xml中的配置如下： <name>mapreduce.map.output.compress</name> <value>true</valu

浏览 0提问于2014-07-22得票数 2

1回答

当我运行排序MR作业时，压缩不起作用

、、、

我配置hadoop-2.4.0集群来压缩地图输出，我的mapred-site.xml设置如下 <property> <name>mapreduce.map.output.compress</name> <value>true</value> </property> <property> <name>mapreduce.map.output.compress.codec</name> <value>org.apache.hadoop.io.compress.Sn

浏览 2提问于2014-08-23得票数 0

2回答

对snappy文件的hadoop python作业产生0大小的输出。

、、

当我在文本文件上使用hadoop流运行wordcount.py (python )时，它会给出输出，但是当对.snappy文件运行相同的时候，输出将为零。选项尝试： [testgen word_count]# cat mrjob.conf runners: hadoop: # this will work for both hadoop and emr jobconf: mapreduce.task.timeout: 3600000 #mapreduce.max.split.size: 20971520 #mapreduce.input.fi

浏览 5提问于2015-11-11得票数 1

1回答

从现有的管理文件创建单元表

、、

我对Hadoop和Hive很陌生。我正在和hadoop 2.7.0和hive 1.1.1一起工作。我有一些快速格式的文件。我在我的hdfs中复制了它们。我想知道: 1.如何在hdfs中使用这些文件创建一个hive表。2.如何配置hadoop以处理snappy文件。编辑：我尝试了以下操作： 1.改进的core-site.xml <property> <name>io.compression.codecs</name> <value>org.apache.hadoop.io.compress.GzipCodec,

浏览 0提问于2015-09-24得票数 0

2回答

蜂箱压缩Orc

、、、

使用: Amazon Aws Hive (0.13) 尝试:输出具有snappy压缩的orc文件。 create external table output{ col1 string} partitioned by (col2 string) stored as orc location 's3://mybucket' tblproperties("orc.compress"="SNAPPY"); set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode

浏览 4提问于2014-12-09得票数 1

回答已采纳

2回答

Sqoop快速压缩不起作用

、、、

我有以下sqoop脚本，它应该在拼图中获取数据并使用snappy压缩。 sqoop import \ --hive-drop-import-delims \ --fields-terminated-by '\001' \ --connect '<Connection URL>' \ --query 'select * from <db_name>.<table_name> where $CONDITIONS' \ --username <username> \ --password <pas

浏览 10提问于2017-06-27得票数 0

6回答

org.apache.hadoop.util.NativeCodeLoader.buildSupportsSnappy()Z mapreduce: java.lang.UnsatisfiedLinkError: hadoop

、、、、

我正在尝试从map-reduce作业中编写一个快速的块压缩序列文件。我使用的是hadoop 2.0.0-cdh4.5.0和snappy-java 1.0.4.1 下面是我的代码： package jinvestor.jhouse.mr; import java.io.ByteArrayOutputStream; import java.io.IOException; import java.io.OutputStream; import java.util.Arrays; import java.util.List; import jinvestor.jhouse.core.House;

浏览 0提问于2014-03-03得票数 7

1回答

从salesforce提取数据时，只有一个映射任务

、、、

在Datameer (Rapid /BI工具，位于hadoop之上)中的几个提取作业正在从salesforce对象中读取数据。最大的提取值是1.4GB(Task对象)，最小的提取值是96 MB(account对象)。Datameer使用基于REST的连接器，向连接器提供SOQL查询，并相应地获取记录()。 Datameer编译作业并将执行交给执行框架(Tez)。此外，也没有特定于作业的配置。所有saleforce提取作业都与1个Map任务一起运行。但, datameer中还有其他提取作业，它们从sftp服务器上的平面文件(50-200MB)中读取数据，并在3-5个映射任务之间使用。关于S

浏览 4提问于2017-02-03得票数 0

1回答

在sqoop中指定多个泛型参数的正确方法是什么

、、、

查看文档时，我发现可用的泛型参数列表如下： Generic options supported are -conf <configuration file> specify an application configuration file -D <property=value> use value for given property -fs <local|namenode:port> specify a namenode -jt <local|jobtracker:port> specify a

浏览 0提问于2018-03-07得票数 0

1回答

MapReduce工作在oozie失败

、

我有一个只映射作业，它把序列文件(键是文本，值是BytesWritable)作为输入和输出数据到序列文件(键是NullWritable，值是文本)。 Java类 import java.io.*; import java.util.*; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.BytesWritable; import org.apache.hadoop.io.NullWritable; import org.apach

浏览 2提问于2014-01-04得票数 1

1回答

尝试在MapReduce中使用LZO压缩

、、、、

我想在MapReduce中使用LZO压缩，但在运行MapReduce作业时遇到错误。我正在使用带有Java程序的Ubuntu。我只想在我的本地机器上运行它。我最初的错误是 ERROR lzo.GPLNativeCodeLoader: Could not load native gpl library 一直往下走 ERROR lzo.LzoCodec: Cannot load native-lzo without native-hadoop 然后 java.lang.RuntimeException: native-lzo library not available 我遵循了许多关于如何下载和配

浏览 4提问于2015-08-21得票数 3

1回答

使用shell命令将特定的XML文档元素复制到另一个XML文档中。

、、、

我正在通过shell脚本在AWS EMR上安装Kylin。我有一个xml文件，其内容如下，需要将特定的文档元素复制到另一个xml文件中。这是在运行安装shell脚本时使用shell命令自动执行的手动步骤。 /etc/hbase/conf/hbase-site.xml <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <property> &l

浏览 2提问于2020-05-07得票数 2

回答已采纳

1回答

作业跟踪器未运行

我已经在本地机器上安装了单节点hadoop。除作业跟踪器外，所有进程都在运行。我想从Ozzie运行我的作业，因此同样我需要运行job Tracker。 JPS输出 12545 Jps 12371 SecondaryNameNode 12180 DataNode 12046 NameNode start-dfs.sh输出 19/09/15 18:47:24 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where a

浏览 23提问于2019-09-15得票数 0

2回答

使用oozie为mapreduce作业写入多个输出流的正确方式是什么？

、、、

我正在使用新的Hadoop API编写一系列map-reduce作业。我计划使用将所有这些都放在一起，但我似乎找不到一种方法来从工作流中的map-reduce节点执行多个输出流。我遇到过一个讨论在Oozie中使用多个输出的，但是除了创建一个Java任务并将其直接添加到Oozie pipline之外，没有其他解决方案。有没有办法通过workflow.xml中的map-reduce节点来实现这一点编辑： Chris的解决方案确实奏效了，尽管我希望有更好的方法。以下是我所做的确切更改。我在workflow.xml文件中添加了以下内容： <property> <na

浏览 4提问于2012-03-22得票数 5

回答已采纳

1回答

oozie作业中的错误

、

我有一个WordCount MapReduce作业，当它从hadoop运行时，它运行良好，并给出了输出。但是，当我通过oozie运行作业时，它会抛出错误‘java.io.IOException:键入来自map的键不匹配: expected org.apache.hadoop.io.Text，received org.apache.hadoop.io.LongWritable’ 这是代码 package Drivers; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.

浏览 4提问于2016-04-09得票数 0

回答已采纳

2回答

在oozie工作流类中读取avro数据文件时出错，这与新的map API模式不兼容。

、、、

我试图从oozie工作流中运行一个MR作业，并将avro数据文件作为输入和输出。Mapper发布文本和IntWritable。我用的是一个新的。我的工作流定义如下： <workflow-app xmlns="uri:oozie:workflow:0.5" name="map-reduce-wf"> <global> <job-tracker>${jobTracker}</job-tracker> <name-node>${nameNode}</name-node> <

浏览 0提问于2014-08-07得票数 0

回答已采纳

1回答

MAPREDUCE :在接口TaskInputOutputContext<KEYIN、VALUEIN、KEYOUT、VALUEOUT>中写入的方法不能应用于给定类型

、、

package br.edu.ufam.anibrata; import java.io.*; import java.util.ArrayList; import java.util.Collections; import java.util.Iterator; import java.util.List; import java.util.StringTokenizer; import java.util.Arrays; import java.util.HashSet; import org.apache.commons.lang.StringUtils; import org.ap

浏览 4提问于2017-07-12得票数 1

回答已采纳

1回答

Hadoop流程序子进程失败，代码为139

、、、、

我在Amazon EMR上运行了一个Hadoop流媒体程序(用Python编写)，它有一些问题。当我用几千条记录进行测试时，一切都运行得很好，而且我已经在本地测试了很多次，似乎都运行得很好。但是，当我增加到一个完整的数据集(大约8 8GB的URL，我需要请求)时，我会得到以下结果： java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 139 at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(Pi

浏览 3提问于2014-05-13得票数 1

4回答

执行“插入.值”很慢

、、、

我构建了hadoop & hive集群，并尝试进行一些测试。但它真的很慢。表表value_count +--------------------------------------------------------------+--+ | createtab_stmt | +--------------------------------------------------------------+--+ | CREATE TABLE `value_count`(

浏览 30提问于2017-05-31得票数 5

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在Hadoop中自动压缩文件？

相关·内容

无法正确设置压缩编解码器的mapreduce作业

为什么纱线中的压缩会使工作减慢几倍？

当我运行排序MR作业时，压缩不起作用

对snappy文件的hadoop python作业产生0大小的输出。

从现有的管理文件创建单元表

蜂箱压缩Orc

Sqoop快速压缩不起作用

org.apache.hadoop.util.NativeCodeLoader.buildSupportsSnappy()Z mapreduce: java.lang.UnsatisfiedLinkError: hadoop

从salesforce提取数据时，只有一个映射任务

在sqoop中指定多个泛型参数的正确方法是什么

MapReduce工作在oozie失败

尝试在MapReduce中使用LZO压缩

使用shell命令将特定的XML文档元素复制到另一个XML文档中。

作业跟踪器未运行

使用oozie为mapreduce作业写入多个输出流的正确方式是什么？

oozie作业中的错误

在oozie工作流类中读取avro数据文件时出错，这与新的map API模式不兼容。

MAPREDUCE :在接口TaskInputOutputContext<KEYIN、VALUEIN、KEYOUT、VALUEOUT>中写入的方法不能应用于给定类型

Hadoop流程序子进程失败，代码为139

执行“插入.值”很慢

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐