开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

map reduce作业中奇怪/意外的输出(1个额外的输出)

在MapReduce作业中，奇怪/意外的输出通常指的是在作业执行过程中产生的异常结果或不符合预期的输出。这可能是由于以下原因导致的：

数据错误：输入数据中可能存在错误或异常值，导致计算结果异常。解决方法是检查输入数据的质量，并确保数据的准确性和完整性。
程序错误：MapReduce作业中的Map和Reduce函数可能存在错误，导致输出结果异常。解决方法是仔细检查代码逻辑，确保程序正确处理输入数据，并正确执行计算逻辑。
数据倾斜：在MapReduce作业中，如果输入数据的分布不均匀，可能会导致某些Reducer节点负载过重，从而产生奇怪的输出。解决方法包括使用数据预处理技术，如数据分桶或数据采样，以平衡数据分布。
网络问题：在分布式计算环境中，网络通信可能会出现延迟、丢包等问题，导致作业执行过程中产生奇怪的输出。解决方法包括优化网络配置、增加网络带宽等。
硬件故障：在云计算环境中，服务器或存储设备可能发生故障，导致作业执行过程中产生异常输出。解决方法是监控硬件状态，及时检测和修复故障设备。

对于以上问题，腾讯云提供了一系列相关产品和服务来帮助解决：

数据质量管理：腾讯云数据质量管理（Data Quality Management，DQM）提供数据质量评估、数据清洗、数据修复等功能，帮助用户确保输入数据的准确性和完整性。了解更多：腾讯云数据质量管理
代码审查与调试：腾讯云开发者工具（Developer Tools）提供代码审查、调试工具，帮助用户检查和修复MapReduce作业中的程序错误。了解更多：腾讯云开发者工具
数据处理与分析：腾讯云大数据平台（Tencent Cloud Big Data）提供强大的数据处理和分析能力，包括数据预处理、数据分析、数据挖掘等功能，帮助用户解决数据倾斜和异常输出问题。了解更多：腾讯云大数据平台
网络优化：腾讯云网络优化（Network Optimization）提供网络性能监控、网络带宽调整等功能，帮助用户优化网络配置，提高作业执行的稳定性和性能。了解更多：腾讯云网络优化
云服务器监控与故障处理：腾讯云云监控（Cloud Monitor）提供云服务器监控、故障自动处理等功能，帮助用户及时检测和修复硬件故障，提高作业执行的可靠性。了解更多：腾讯云云监控

通过以上腾讯云的产品和服务，用户可以更好地解决MapReduce作业中奇怪/意外的输出问题，并提高作业执行的效率和可靠性。

相关搜索:Map Reduce作业中的NullPointerException array.map的奇怪输出使用oozie的shell脚本中的echo map reduce输出拆分map的结果会返回意外的数组输出在mongo map reduce查询中，有没有办法检查map函数的输出？C: printf中的额外输出 Python 3.6中奇怪的输出 tesseract输出中的奇怪符号 php algorythm中的意外输出 tf.data.Dataset.map()的输出张量形状有些奇怪 C fork调用中奇怪的输出共享内存程序中的意外输出 MacOS中定向按键的意外输出在SQL输出中需要额外的列 NMEA输出中的ublox GPS奇怪字符 Python中自恋数字检查的意外输出多处理中的价值解释？(意外输出)ggplot中的boxplot产生意外的输出如何抑制visual studio代码中的额外输出？分解数字时输出中的额外"0“

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Hive Count Distinct优化

目前，Hive底层使用MapReduce作为实际计算框架，SQL的交互方式隐藏了大部分MapReduce的细节。这种细节的隐藏在带来便利性的同时，也对计算作业的调优带来了一定的难度。未经优化的SQL语句转化后的MapReduce作业，它的运行效率可能大大低于用户的预期。本文我们就来分析一个简单语句的优化过程。

03

MapReduce数据流

MapReduce的输入一般来自HDFS中的文件，这些文件分布存储在集群内的节点上。运行一个MapReduce程序会在集群的许多节点甚至所有节点上运行mapping任务，每一个mapping任务都是平等的：mappers没有特定“标识物”与其关联。因此，任意的mapper都可以处理任意的输入文件。每一个mapper会加载一些存储在运行节点本地的文件集来进行处理（译注：这是移动计算，把计算移动到数据所在节点，可以避免额外的数据传输开销）。

02

重磅：关于hive的join使用必须了解的事情

Hive支持连接表的以下语法：本文主要讲hive的join 编写连接查询时要考虑的一些要点如下，不同版本支持的情况可能会有些许不同： 1，可以编写复杂的链接表达式，如下 SELECT a.* FR

Hadoop专业解决方案-第3章：MapReduce处理数据

前言：非常感谢团队的努力，最新的章节终于有了成果，因为自己的懒惰，好久没有最新的进展了，感谢群里兄弟的努力。

05

MapReduce设计模式

MapReduce设计模式(MapReduce Design Pattern) 整个MapReduce作业的阶段主要可以分为以下四种：　　1、Input-Map-Reduce-Output 2、Input-Map-Output 3、Input-Multiple Maps-Reduce-Output 4、Input-Map-Combiner-Reduce-Output 下面我将一一介绍哪种场景使用哪种设计模式。 Input-Map-Reduce-Output Input➜Map➜Reduce➜Outpu

06

加速MapReduce2

原文链接： Getting MapReduce 2 Up to Speed

01

MapReduce 计数器简介

1、计数器简介在许多情况下，一个用户需要了解待分析的数据，尽管这并非所要执行的分析任务的核心内容。以统计数据集中无效记录数目的任务为例，如果发现无效记录的比例相当高，那么就需要认真思考为何存在如此多无效记录。是所采用的检测程序存在缺陷，还是数据集质量确实很低，包含大量无效记录？如果确定是数据集的质量问题，则可能需要扩大数据集的规模，以增大有效记录的比例，从而进行有意义的分析。计数器是一种收集作业统计信息的有效手段，用于质量控制或应用级统计。计数器还可辅助诊断系统故障。如果需要将日

09

如何在Hadoop中处理小文件-续

Fayson在前面的文章《如何在Hadoop中处理小文件》和《如何使用Impala合并小文件》中介绍了什么是Hadoop中的小文件，以及常见的处理方法。这里Fayson再补充一篇文章进行说明。

08

MapReduce的工作原理

我们知道MapReduce诞生与搜索邻域，主要解决的是海量数据处理扩展性差的问题。

hadoop中的一些概念——数据流

数据流　　首先定义一些属于。MapReduce作业（job）是客户端需要执行的一个工作单元:它包括输入数据、MapReduce程序和配置信息。Hadoop将作业分成若干个小任务（task）来执行，其中包括两类任务，map任务和reduce任务。　　有两类节点控制着作业执行过程，：一个jobtracker以及一系列tasktracker。jobtracker通过调度tasktracker上运行的任务，来协调所有运行在系统上的作业。tasktracker在运行任务的同时，将运行进度报告发送给jobtracker，jobtracker由此记录每项作业任务的整体进度情况。如果其中一个任务失败，jobtracker可以再另外衣tasktracker节点上重新调度该任务。　　Hadoop将MapReduce的输入数据划分成等长的小数据块，称为输入分片（input split）或简称分片。Hadoop为每个分片构建一个map任务，并由该任务来运行用户自定义的map函数从而处理分片中的每条记录。　　拥有许多分片，意味着处理每个分片所需要的时间少于处理整个输入数据所花的时间。因此，如果我们并行处理每个分片，且每个分片数据比较小，那么整个处理过程将获得更好的负载平衡，因为一台较快的计算机能够处理的数据分片比一台较慢的计算机更多，且成一定比例。即使使用相同的机器，处理失败的作业或其他同时运行的作业也能够实现负载平衡，并且如果分片被切分的更细，负载平衡的质量会更好。　　另一方面，如果分片切分的太小，那么管理分片的总时间和构建map任务的总时间将决定着作业的整个执行时间。对于大多数作业来说，一个合理的分片大小趋向于HDFS的一个块的大小，默认是64MB，不过可以针对集群调整这个默认值，在新建所有文件或新建每个文件时具体致死那个即可。　　Hadoop在存储有输入数据（Hdfs中的数据）的节点上运行map任务，可以获得最佳性能。这就是所谓的数据本地化优化。现在我们应该清楚为什么最佳分片大小应该与块大小相同：因为它是确保可以存储在单个节点上的最大输入块的大小。如果分片跨越这两个数据块，那么对于任何一个HDFS节点，基本上不可能同时存储这两个数据块，因此分片中的部分数据需要通过网络传输到map任务节点。与使用本地数据运行整个map任务相比，这种方法显然效率更低。　　map任务将其输出写入本地硬盘，而非HDFS，这是为什么？因为map的输出是中间结果：该中间结果由reduce任务处理后才能产生最终输出结果，而且一旦作业完成，map的输出结果可以被删除。因此，如果把它存储在HDFS中并实现备份，难免有些小题大做。如果该节点上运行的map任务在将map中间结果传送给reduece任务之前失败，Hadoop将在另一个节点上重新运行这个map任务以再次构建map中间结果。　　reduce任务并不具备数据本地化的优势——单个reduce任务的输入通常来自于所有mapper的输出。在下面的李宗中，我们仅有一个reduce任务，其输入是所有map任务的输出。因此，排过序的map输出需要通过网络传输发送到运行reduce任务的节点。数据在reduce端合并，然后由用户定义的reduce函数处理。reduce的输出通常存储在HDFS中以实现可靠存储。对于每个reduce输出的HDFS块，第一个副本存储在本地节点上，其他副本存储在其他机架节点中。因此，reduce的输出写入HDFS确实需要占用网络带宽，但这与正常的HDFS流水线写入的消耗一样。　　一个reduce任务的完成数据流如下：虚线框表示节点，虚线箭头表示节点内部数据传输，实线箭头表示节点之间的数据传输。

02

Hadoop MapReduce 工作过程

一个MapReducer作业经过了input，map，combine，reduce，output五个阶段，其中combine阶段并不一定发生，map输出的中间结果被分到reduce的过程成为shuffle（数据清洗）。

02

一篇文章让你了解Hive调优

老工在职场多年，从事过海量（PB级）数据的关系型数据库数据处理工作，后由于数据平台升级的要求，将数据迁移到Hadoop集群，做了多年的数据研发和数据产品的研发工作，从业务理解、数据模型构建、数据采集、数据清洗，到数据产品前端/服务端的研发都做过，基本涵盖了数据的生命周期。对于Hive调优，老工自有一番理解。下面将从一个过度优化的案例说起。

02

Hadoop阅读笔记（四）——一幅图看透MapReduce机制

本文介绍了Hadoop MapReduce的工作机制，包括代码编写、作业配置、作业提交、Map任务分配、Reduce任务分配、作业完成等过程。主要讲解了MapReduce作业的工作机制，包括如何提交作业、任务分配、作业初始化、Shuffle和排序等过程。通过一幅图来直观地展现MapReduce的工作机制，并介绍了如何提交一个MapReduce作业以及作业初始化、Shuffle和排序等过程。

06

Hadoop（十四）MapReduce原理分析

上一篇我们分析了一个MapReduce在执行中的一些细节问题，这一篇分享的是MapReduce并行处理的基本过程和原理。

02

Hadoop（十四）MapReduce原理分析

前言　　上一篇我们分析了一个MapReduce在执行中的一些细节问题，这一篇分享的是MapReduce并行处理的基本过程和原理。　　Mapreduce是一个分布式运算程序的编程框架，是用户开发“基于hadoop的数据分析应用”的核心框架。　　Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上。一、MapReduce并行处理的基本过程　　首先要说明的是Hadoop2.0之前和Hadoop2.0之后的区别：　　　 2.

09

为什么之前的MapReduce系统比较慢

本文就两个问题进行讨论：1. 相比于Shark，为什么像Hive之类的传统MapReduce框架比较慢? 2. 对于细粒度的任务模型(fine-grained task model)，究竟有些什么优势

04

Hadoop 面试，来看这篇就够了

原文链接 | http://www.jianshu.com/p/c97ff0ab5f49

02

进击大数据系列（六）：Hadoop 分布式计算框架 MapReduce

MapReduce 是一种编程模型（没有集群的概念，会把任务提交到 yarn 集群上跑），用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。

01

【最全的大数据面试系列】Hadoop面试题大全（二）

ZKFailoverController主要职责 1）健康监测：周期性的向它监控的NN发送健康探测命令，从而来确定某个NameNode是否处于健康状态，如果机器宕机，心跳失败，那么zkfc就会标记它处于一个不健康的状态。 2）会话管理：如果NN是健康的，zkfc就会在zookeeper中保持一个打开的会话，如果NameNode同时还是Active状态的，那么zkfc还会在Zookeeper中占有一个类型为短暂类型的znode，当这个NN挂掉时，这个znode将会被删除，然后备用的NN，将会得到这把锁，升级为主NN，同时标记状态为Active。 3）当宕机的NN新启动时，它会再次注册zookeper，发现已经有znode锁了，便会自动变为Standby状态，如此往复循环，保证高可靠，需要注意，目前仅仅支持最多配置2个NN。 4）master选举：如上所述，通过在zookeeper中维持一个短暂类型的znode，来实现抢占式的锁机制，从而判断那个NameNode为Active状态

02

Hadoop MapReduce简介

MapReduce作业（job）通常将输入数据集拆分为独立的块，这些块由map任务（map tasks）以完全并行的方式处理。框架对maps的输出（outputs）排序，然后输入到reduce 任务（reduce tasks）。通常，作业的输入和输出都存储在文件系统中。该框架负责调度任务，监控它们并重新执行失败的任务。

01

Spark性能调优

(2)尽量少对RDD进行算子操作，如果有可能，尽量在一个算子里面实现多个功能；

02

Hadoop-2.4.1学习之Mapper和Reducer

MapReduce允许程序员能够容易地编写并行运行在大规模集群上处理大量数据的程序，确保程序的运行稳定可靠和具有容错处理能力。程序员编写的运行在MapReduce上的应用程序称为作业（job），Hadoop既支持用Java编写的job，也支持其它语言编写的作业，比如Hadoop Streaming（shell、python）和Hadoop Pipes（c++）。Hadoop-2.X不再保留Hadoop-1.X版本中的JobTracker和TaskTracker组件，但这并不意味着Hadoop-2.X不再支持MapReduce作业，相反Hadoop-2.X通过唯一的主ResourceManager、每个节点一个的从NodeManager和每个应用程序一个的MRAppMaster保留了对MapReduce作业的向后兼容。在新版本中MapReduce作业依然由Map和Reduce任务组成，Map依然接收由MapReduce框架将输入数据分割为数据块，然后Map任务以完全并行的方式处理这些数据块，接着MapReduce框架对Map任务的输出进行排序，并将结果做为Reduce任务的输入，最后由Reduce任务输出最终的结果，在整个执行过程中MapReduce框架负责任务的调度，监控和重新执行失败的任务等。

02

Hive重点难点：Hive原理&优化&面试

Hive SQL的执行计划描述SQL实际执行的整体轮廓，通过执行计划能了解SQL程序在转换成相应计算引擎的执行逻辑，掌握了执行逻辑也就能更好地把握程序出现的瓶颈点，从而能够实现更有针对性的优化。此外还能帮助开发者识别看似等价的SQL其实是不等价的，看似不等价的SQL其实是等价的SQL。可以说执行计划是打开SQL优化大门的一把钥匙。

01

二万字讲解HiveSQL技术原理、优化与面试

编译 SQL 的任务是在上节中介绍的 COMPILER（编译器组件）中完成的。Hive将SQL转化为MapReduce任务，整个编译过程分为六个阶段：

01

MapReduce编程模型和计算框架架构原理

Hadoop解决大规模数据分布式计算的方案是MapReduce。MapReduce既是一个编程模型，又是一个计算框架。也就是说，开发人员必须基于MapReduce编程模型进行编程开发，然后将程序通过MapReduce计算框架分发到Hadoop集群中运行。我们先看一下作为编程模型的MapReduce。

03

Python API 操作Hadoop hdfs详解

由于是windows环境（linux其实也一样），只要有pip或者setup_install安装起来都是很方便的

01

HiveSQL技术原理、优化与面试

编译 SQL 的任务是在上节中介绍的 COMPILER（编译器组件）中完成的。Hive将SQL转化为MapReduce任务，整个编译过程分为六个阶段：

01

【大数据名词3】MapReduce

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"，和它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归约）函数，用来保证所有映射的键值对中的每一个共享相同的键组。

04

深入浅出学大数据（四）MapReduce快速入门及其编程实践

此系列主要为我的学弟学妹们所创作，在某些方面可能偏基础。如果读者感觉较为简单，还望见谅！如果文中出现错误，欢迎指正~

04

用通俗易懂的大白话讲解Map/Reduce原理

Hadoop简介 Hadoop就是一个实现了Google云计算系统的开源系统，包括并行计算模型Map/Reduce，分布式文件系统HDFS，以及分布式数据库Hbase，同时Hadoop的相关项目也很丰富，包括ZooKeeper，Pig，Chukwa，Hive，Hbase，Mahout，flume等. 这里详细分解这里面的概念让大家通过这篇文章了解到底是什么hadoop： 1.什么是Map/Reduce，看下面的各种解释： (1)MapReduce是hadoop的核心组件之一，hadoop要分布式包括两

08

Hadoop前世今生

本文从Hadoop（1.0）系统中调度策略的角度展开讨论。这本质还是对Hadoop的集群资源进行管理，主要有四个方面：

04

MapReduce的过程(2)

本文介绍了MapReduce计算框架的编程思想以及MapReduce计算框架的执行过程。主要包括MapReduce计算框架的编程思想、MapReduce计算框架的执行过程、MapReduce计算框架的编程思想以及MapReduce计算框架的执行过程。

05

【硬刚大数据之面试篇】2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇

2021年初的时候，关于Hadoop要退休淘汰的PR文章甚嚣尘上。其中MapReduce思想最为人所诟病，因为其并不友好的写代码方式，高昂的维护成本以及较差的运行效率。

03

Hadoop 版本生态圈 MapReduce模型

-- 特性独有分支 : 很多新特性稳定性很差, 或者不完善, 在这些分支的独有特定很完善之后, 该分支就会并入主干分支;

02

EMR(弹性MapReduce)入门之计算引擎Spark、Tez、MapReduce区别（八）

Spark Core：包含Spark的基本功能；尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上的。

00

Hadoop基础教程-第6章 MapReduce入门（6.1 MapReduce介绍）

MapReduce最早来源于谷歌公司的一篇学术论文，是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法，当时主要是为了解决其搜索引擎中大规模网页数据的并行化处理。但由于MapReduce可以普遍应用于很多大规模数据的计算问题，因此自发明MapReduce以后，Google公司内部进一步将其广泛应用于很多大规模数据处理问题。到目前为止，Google公司内有上万个各种不同的算法问题和程序都使用MapReduce进行处理。

02

Hive重点难点：Hive原理&优化&面试(上)

Hive SQL的执行计划描述SQL实际执行的整体轮廓，通过执行计划能了解SQL程序在转换成相应计算引擎的执行逻辑，掌握了执行逻辑也就能更好地把握程序出现的瓶颈点，从而能够实现更有针对性的优化。此外还能帮助开发者识别看似等价的SQL其实是不等价的，看似不等价的SQL其实是等价的SQL。可以说执行计划是打开SQL优化大门的一把钥匙。

02

MapReduce工作流程最详细解释

MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型，MapReduce的计算过程被封装的很好，我们只用使用Map和Reduce函数，所以对其整体的计算过程不是太清楚，同时MapReduce1.0和MapReduce2.0在网上有很多人混淆。

06

Mapreduce实现原理总结

一.首先，我们从客户端，JobTracker，TaskTracker这个层面来分析整个mapreduce过程

01

0620-5.16.1-如何设置MR作业的Map或Reduce日志级别

在Hadoop集群有大量的MapReduce作业，为了分析定位作业的问题需要考虑输出Map或Reduce的详细日志，通过作业的详细的日志更快速的定位问题并解决，同样也可以通过配置日志输出级别而减少日志量。本篇文章Fayson主要介绍如何通过Cloudera Manager配置MapReduce作业的Map、Reduce、ApplicationMaster的日志级别。

05

Hadoop（十三）分析MapReduce程序

前言　　刚才发生了悲伤的一幕，本来这篇博客马上就要写好的，花了我一晚上的时间。但是刚才电脑没有插电源就没有了。很难受！想哭，但是没有办法继续站起来。　　前面的一篇博文中介绍了什么是MapReduce，这一篇给大家详细的分享一下MapReduce的运行原理。一、写一个MapReduce程序例子 1.1、数据准备　　准备要处理的数据（假定数据已经存放在hdfs的/data目录下）　　　　$> hdfs dfs -ls /data 　　看到测试数据目录。天气数据目录/data/weather,专利数据目

09

MapReduce与批处理------《Designing Data-Intensive Applications》读书笔记14

批处理系统通常也叫脱机系统，需要大量的输入数据，运行一个作业来处理它，并产生一些输出数据。工作通常需要一段较长的时间（从几分钟到几天）。批处理作业通常是周期性地运行的（例如，一天一次）。批处理作业的主要性能度量通常是吞吐量。

03

大数据测试

大数据测试是对大数据应用程序的测试过程，以确保大数据应用程序的所有功能按预期工作。大数据测试的目标是确保大数据系统在保持性能和安全性的同时，平稳无差错地运行。

01

EMR入门学习之MR、Tez、Spark之间的关系（六）

Hadoop MapReduce是一个软件框架，基于该框架能够容易地编写应用程序，这些应用程序能够运行在由上千个商用机器组成的大集群上，并以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集。

02

HBase使用HashTable/SyncTable工具同步集群数据

复制（在上一篇博客文章中介绍）已经发布了一段时间，并且是Apache HBase最常用的功能之一。使集群与不同的对等方复制数据是非常常见的部署，无论是作为DR策略还是简单地作为在生产/临时/开发环境之间复制数据的无缝方式。尽管这是使不同的HBase数据库在亚秒级延迟内保持同步的有效方法，但是复制仅对启用该功能后所摄取的数据进行操作。这意味着复制部署中涉及的所有集群上的所有现有数据仍将需要以其他某种方式在同级之间进行复制。有很多工具可用于同步不同对等集群上的现有数据。Snapshots、BulkLoad、CopyTable是此类工具的知名示例，以前的Cloudera博客文章中都提到了这些示例。HashTable/SyncTable，详细介绍了它的一些内部实现逻辑，使用它的利弊以及如何与上述其他数据复制技术进行比较。

01

流式计算与计算抽象化------《Designing Data-Intensive Applications》读书笔记15

MapReduce作业是独立于其他作业，输入与输出目录通过分布式存储系统串联。MapReduce作业的存在相互的依赖关系，前后相互依赖的作业需要将后面作业的输入目录配置为与之前作业的输出目录，工作流调度器必须在第一个作业完成后才开始第二个作业。

02

MapReduce 原理介绍与开发实战

MapReduce 是一个分布式运算程序的编程框架，核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发地运行在 Hadoop 集群上。

02

怎么进行大数据测试？我们需要具备怎样的测试能力？「建议收藏」

前言：现在大数据这么火，那么作为测试人员，我们应该怎么进行大数据测试？需要具备怎样的测试能力？

04

Hadoop之MapReduce程序分析

摘要：Hadoop之MapReduce程序包括三个部分：Mapper，Reducer和作业执行。本文介绍和分析MapReduce程序三部分结构。关键词：MapReduce Mapper Reducer 作业执行 MapReduce程序包括三个部分，分别是Mapper，Reducer和作业执行。 Mapper 一个类要充当Mapper需要继承MapReduceBase并实现Mapper接口。 Mapper接口负责数据处理阶段。它采用形式为Mapper<K1,V1,K2,V2>的Java泛型。这里的键类和值类分别实现了WritableComparable接口和Writable接口。Mapper接口只有一个map()方法，用于处理一个单独的键值对。map()方法形式如下。 public void map(K1 key, V1 value, OutputCollector<K2,V2> output ,Reporter reporter ) throws IOException 或者 public void map(K1 key, V1 value, Context context) throws IOException, InterruptedException 该函数处理一个给定的键/值对(K1, V1)，生成一个键/值对(K2, V2)的列表（该列表也可能为空）。 Hadoop提供的一些有用的Mapper实现，包括IdentityMapper，InverseMapper，RegexMapper和TokenCountMapper等。 Reducer 一个类要充当Reducer需要继承MapReduceBase并实现Reducer接口。 Reduce接口有一个reduce()方法，其形式如下。 public void reduce(K2 key , Iterator<V2> value, OutputCollector<K3, V3> output, Reporter reporter) throws IOException 或者 public void reduce(K2 key, Iterator<V2> value, Context context) throws IOException, InterruptedException 当Reducer任务接受来自各个Mapper的输出时，它根据键/值对中的键对输入数据进行排序，并且把具有相同键的值进行归并，然后调用reduce()函数，通过迭代处理那些与指定键相关联的值，生成一个列表<K3, V3>（可能为空）。 Hadoop提供一些有用Reducer实现，包括IdentityReducer和LongSumReducer等。作业执行在run()方法中，通过传递一个配置好的作业给JobClient.runJob()以启动MapReduce作业。run()方法里，需要为每个作业定制基本参数，包括输入路径、输出路径、Mapper类和Reducer类。一个典型的MapReduce程序基本模型如下。 public class MyJob extends Configured implements Tool { /* mapreduce程序中Mapper*/ public static class MapClass extends MapReduceBase implements Mapper<Text,Text,Text,Text> { public void map(Text key, Text value, OutputCollector<Text,Text> output, Reporter reporter) throws IOException { //添加Mapper内处理代码 } } /*MapReduce程序中Reducer*/ public static class Reduce exten

02

Hive计算引擎大PK，万字长文解析MapRuce、Tez、Spark三大引擎

Hive从2008年始于FaceBook工程师之手，经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本，Hive从最开始的为人诟病的速度慢迅速发展，开始支持更多的计算引擎，计算速度大大提升。

04

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭