开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >普通MapReduce作业和顺序MapReduce作业有什么不同和相似之处？

问普通MapReduce作业和顺序MapReduce作业有什么不同和相似之处？
EN

Stack Overflow用户

提问于 2014-04-09 07:05:26

回答 1查看 114关注 0票数 0

当我们执行一个普通的字数统计任务时，我们使用一个MapReduce程序来完成。它不是连续的。但是在像大型图的最短路径分析这样的程序中，我们必须设计一个“顺序”的MapReduce作业。这两种MapReduce编程方法的基本区别或相似之处是什么？

EN

回答 1

Stack Overflow用户

发布于 2014-04-10 09:49:09

正如您提到的wordcount作业不是连续的，我假设您使用的是示例wordcount作业，其中键(单词)在map阶段划分，处理(count)在reduce阶段。因此，任务可以在不同的节点中拆分并同时执行。

我建议您阅读本教程：https://developer.yahoo.com/hadoop/tutorial/module4.html，这样您将能够意识到，即使在映射阶段，任务也是分布式的，这取决于可用节点的数量！

关于你的“连续”MapReduce任务。我想你的意思是，没有办法划分处理过程来实现预期的结果。如果是这样的话，我怀疑你不会从Hadoop框架中获得最好的结果，因为你的MapReduce阶段必须发生在一个节点上。但是，如果您进行快速搜索，我相信您将能够找到用于图形处理的算法，例如为MapReduce设计的Dijkstra算法。

干杯，马可

票数 0

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/22955199

复制

相关文章

MapReduce作业调度

mapreduce 编程算法

可以通过设置mapred.job.priority属性或JobClient的setJobPriority()方法来设置优先级（在这两种方法中，可以选VERY_HIGH,HIGH,NORMAL,LOW,VERY_LOW中的任何值作为优先级）。在作业调度器选择要运行的下一个作业时，选择的是优先级最高的作业。然而，在FIFO调度算法中，优先级并不支持抢占，所以高优先级的作业任然受阻于此前已经开始的，长时间运行的低优先级的作业。MR1的默认调度器是最初基于队列的FIFO调度器，还有两个多用户调度器，分别为公平调度器和容量调度器。

加米谷大数据

2018/03/15

6950

【MapReduce】作业调试

javascript yarn node.js hadoop mapreduce

因为yarn集群重启之后，作业的历史运行日志和信息就被清理掉了，对于定位历史任务的错误信息很不友好，所以首先开启History Server用于保存所有作业的历史信息。

十里桃花舞丶

2021/09/10

2660

【MapReduce】配置&作业管理

mapreduce的配置文件为：mapred-site.xml。配置内容分为配置MapReduce运行程序、配置History-Server。

十里桃花舞丶

2021/09/10

3290

技术干货 | MapReduce作业调度

可以通过设置mapred.job.priority属性或JobClient的setJobPriority()方法来设置优先级（在这两种方法中，可以选VERY_HIGH,HIGH,NORMAL,LOW,VERY_LOW中的任何值作为优先级）。在作业调度器选择要运行的下一个作业时，选择的是优先级最高的作业。然而，在FIFO调度算法中，优先级并不支持抢占，所以高优先级的作业任然受阻于此前已经开始的，长时间运行的低优先级的作业。MR1的默认调度器是最初基于队列的FIFO调度器，还有两个多用户调度器，分别为公平调度器

加米谷大数据

2018/04/02

1.3K0

技术干货 | MapReduce作业调度

Hadoop（十七）之MapReduce作业配置与Mapper和Reducer类

　　前面一篇博文写的是Combiner优化MapReduce执行，也就是使用Combiner在map端执行减少reduce端的计算量。

大道七哥

2019/09/10

6390

Hadoop（十七）之MapReduce作业配置与Mapper和Reducer类

Hadoop（十七）之MapReduce作业配置与Mapper和Reducer类

hadoop mapreduce

前言　　前面一篇博文写的是Combiner优化MapReduce执行，也就是使用Combiner在map端执行减少reduce端的计算量。一、作业的默认配置　　MapReduce程序的默认配置　

用户1195962

2018/01/18

8300

Hadoop（十七）之MapReduce作业配置与Mapper和Reducer类

Hadoop MapReduce作业的生命周期

rpc 任务调度

用户提交作业后，由JobClient实例将作业相关信息（jar包、配置文件xml、分片元信息等）上传到HDFS。

星哥玩云

2022/06/30

2510

Hadoop MapReduce作业的生命周期

Hadoop-2.7.3源码分析：MapReduce作业提交源码跟踪

根据文章内容为该文章写一个摘要总结。

程裕强

2018/01/02

1.2K0

Hadoop-2.7.3源码分析：MapReduce作业提交源码跟踪

如何使用hadoop命令向CDH集群提交MapReduce作业

在前面文章Fayson讲过《如何跨平台在本地开发环境提交MapReduce作业到CDH集群》，那对于部分用户来说，需要将打包好的jar包在CDH集群运行，可以使用hadoop或java命令向集群提交MR作业，本篇文章基于前面的文章讲述如何将打包好的MapReduce，使用hadoop命令向CDH提交作业。同时也分为Kerberos和非Kerberos环境提交。

Fayson

2018/03/29

2.2K0

如何使用hadoop命令向CDH集群提交MapReduce作业

Yarn的JobHistory目录权限问题导致MapReduce作业异常

hadoop mapreduce 大数据 jdbc yarn

0: jdbc:hive2://localhost:10000>select count(*) from student;

Fayson

2018/03/29

4.9K0

Yarn的JobHistory目录权限问题导致MapReduce作业异常

Yarn快速系列入门(3) | Yarn和MapReduce的作业提交全过程

yarn node.js mapreduce 容器

除了向应用管理器请求作业进度外, 客户端每5秒都会通过调用waitForCompletion()来检查作业是否完成。时间间隔可以通过mapreduce.client.completion.pollinterval来设置。作业完成之后, 应用管理器和Container会清理工作状态。作业的信息会被作业历史服务器存储以备之后用户核查。

不温卜火

2020/10/28

8490

Yarn快速系列入门(3) | Yarn和MapReduce的作业提交全过程

详解MapReduce（Spark和MapReduce对比铺垫篇）

mapreduce 分布式 vr 视频解决方案数据处理 spark

本来笔者是不打算写MapReduce的，但是考虑到目前很多公司还都在用这个计算引擎，以及后续要讲的Hive原生支持的计算引擎也是MapReduce，并且为Spark和MapReduce的对比做铺垫，笔者今天详细阐述一下MapReduce。鉴于Hadoop1.X已过时，Hadoop3.X目前用的还不多，企业中目前大量运用的还是Hadoop2.X，所以以下都是基于Hadoop2.X版本的MapReduce（后续要讲的HDFS和Yarn也是）。

大数据学习与分享

2020/08/10

7910

详解MapReduce（Spark和MapReduce对比铺垫篇）

MapReduce工作笔记——Job上传普通文件和大文件

jar hive 缓存 linux 编程算法

我们在配置MR Streaming任务的时候，通常会上传mapper、reducer以及其他会用到的一些文件，在MapReduce工作笔记——Hadoop shell 常用文件操作命令中提到过使用put数据上传HDFS。在执行MR Job 的时候，Hadoop会将其配置的文件数据打包成jar，两种上传的目标是不一样的，前者是数据，后者是配置，本文章将主要介绍普通脚本文件的上传以及大文件的上传。

莫斯

2020/09/10

1.1K0

如何跨平台在本地开发环境提交MapReduce作业到CDH集群

在开发Hadoop的MapReduce作业时需要重复的打包并手动传输到集群运行往往比较麻烦，有时我们也需要在本地能够直接调试代码如在Intellij能直接连接到集群提交作业，或者我们需要跨平台的提交MapReduce作业到集群。那么如何实现呢？本篇文章主要讲述如何跨平台在本地开发环境下提交作业到Hadoop集群，这里我们还是分为Kerberos环境和非Kerberos环境。

Fayson

2018/03/29

1.2K0

如何跨平台在本地开发环境提交MapReduce作业到CDH集群

什么是MapReduce

Reduce负责数据合并 reduce: [k2, {v2,…}] → [k3, v3]

云缓缓知我意

2021/04/15

3510

什么是MapReduce？

什么是MapReduce？马克-to-win @ 马克java社区：1）MapReduce是面向大数据并行程序设计的模型和方法，这一点很像我们前面讲的MVC，MVC解决动态网站问题而 MapReduce解决大数据问题，和 2）MapReduce也是一个并行计算软件框架。比如前面我们接触的Spring就是一个开发应用框架。它能在集群节点上自动分配和执行任务（包括我们的业务代码和围绕着我们的核心业务逻辑的其他一些相关的操作，比如排序等），透明化很多系统底层复杂细节，比如分布存储、数据通信、容错处理等，使我们软件开发人员的集中在自己的业务逻辑。

马克java社区

2021/06/24

2060

Hadoop的HDFS和MapReduce

大数据 javascript mapreduce 任务调度

HDFS是一个具有高度容错性的分布式文件系统，适合部署在廉价的机器上，它具有以下几个特点：

星哥玩云

2022/07/03

4570

Hadoop的HDFS和MapReduce

MapReduce快速入门系列(1) | 什么是MapReduce

mapreduce 分布式数据处理大数据

MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。 Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。 Reduce负责“合”，即对map阶段的结果进行全局汇总。这两个阶段合起来正是MapReduce思想的体现。

不温卜火

2020/10/28

4970

MapReduce快速入门系列(1) | 什么是MapReduce

MapReduce Shuffle 和 Spark Shuffle

spark mapreduce linux 数据结构

Shuffle的本意是洗牌、混洗的意思，把一组有规则的数据尽量打乱成无规则的数据。而在MapReduce中，Shuffle更像是洗牌的逆过程，指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据，以便reduce端接收处理。其在MapReduce中所处的工作阶段是map输出后到reduce接收前，具体可以分为map端和reduce端前后两个部分。

大数据真好玩

2020/06/28

2.8K0

大数据不同的瑞士军刀：对比 Spark 和 MapReduce

大数据 spark mapreduce

翻译 | 古月水语来源 | 伯乐在线 Apache 基金会下的 Spark 再次引爆了大数据的话题。带着比 Hadoop MapReduce 速度要快 100 倍的承诺以及更加灵活方便的 API，一些人认为这或许预示着 Hadoop MapReduce 的终结。作为一个开源的数据处理框架，Spark 是如何做到如此迅速地处理数据的呢？秘密就在于它是运行在集群的内存上的，而且不受限于 MapReduce 的二阶段范式。这大大加快了重复访问同一数据的速度。 Spark 既可以单独运行，也可以运行在 Hado

CDA数据分析师

2018/02/24

7180

相似问题

HbaseTestingUtility和MapReduce作业

10

SecondaryNamenode和MapReduce作业

11

MapReduce作业输出排序顺序

41

压缩对MapReduce作业有什么影响？

13

Spring和Apache启动MapReduce作业

15

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例