首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >普通MapReduce作业和顺序MapReduce作业有什么不同和相似之处?

普通MapReduce作业和顺序MapReduce作业有什么不同和相似之处?
EN

Stack Overflow用户
提问于 2014-04-09 07:05:26
回答 1查看 114关注 0票数 0

当我们执行一个普通的字数统计任务时,我们使用一个MapReduce程序来完成。它不是连续的。但是在像大型图的最短路径分析这样的程序中,我们必须设计一个“顺序”的MapReduce作业。这两种MapReduce编程方法的基本区别或相似之处是什么?

EN

回答 1

Stack Overflow用户

发布于 2014-04-10 09:49:09

正如您提到的wordcount作业不是连续的,我假设您使用的是示例wordcount作业,其中键(单词)在map阶段划分,处理(count)在reduce阶段。因此,任务可以在不同的节点中拆分并同时执行。

我建议您阅读本教程:https://developer.yahoo.com/hadoop/tutorial/module4.html,这样您将能够意识到,即使在映射阶段,任务也是分布式的,这取决于可用节点的数量!

关于你的“连续”MapReduce任务。我想你的意思是,没有办法划分处理过程来实现预期的结果。如果是这样的话,我怀疑你不会从Hadoop框架中获得最好的结果,因为你的MapReduce阶段必须发生在一个节点上。但是,如果您进行快速搜索,我相信您将能够找到用于图形处理的算法,例如为MapReduce设计的Dijkstra算法。

干杯,马可

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/22955199

复制
相关文章
MapReduce作业调度
可以通过设置mapred.job.priority属性或JobClient的setJobPriority()方法来设置优先级(在这两种方法中,可以选VERY_HIGH,HIGH,NORMAL,LOW,VERY_LOW中的任何值作为优先级)。在作业调度器选择要运行的下一个作业时,选择的是优先级最高的作业。然而,在FIFO调度算法中,优先级并不支持抢占,所以高优先级的作业任然受阻于此前已经开始的,长时间运行的低优先级的作业。MR1的默认调度器是最初基于队列的FIFO调度器,还有两个多用户调度器,分别为公平调度器和容量调度器。
加米谷大数据
2018/03/15
6950
MapReduce作业调度
【MapReduce】作业调试
因为yarn集群重启之后,作业的历史运行日志和信息就被清理掉了,对于定位历史任务的错误信息很不友好,所以首先开启History Server用于保存所有作业的历史信息。
十里桃花舞丶
2021/09/10
2660
【MapReduce】配置&作业管理
mapreduce的配置文件为:mapred-site.xml。配置内容分为配置MapReduce运行程序、配置History-Server。
十里桃花舞丶
2021/09/10
3290
技术干货 | MapReduce作业调度
可以通过设置mapred.job.priority属性或JobClient的setJobPriority()方法来设置优先级(在这两种方法中,可以选VERY_HIGH,HIGH,NORMAL,LOW,VERY_LOW中的任何值作为优先级)。在作业调度器选择要运行的下一个作业时,选择的是优先级最高的作业。然而,在FIFO调度算法中,优先级并不支持抢占,所以高优先级的作业任然受阻于此前已经开始的,长时间运行的低优先级的作业。MR1的默认调度器是最初基于队列的FIFO调度器,还有两个多用户调度器,分别为公平调度器
加米谷大数据
2018/04/02
1.3K0
技术干货 | MapReduce作业调度
Hadoop(十七)之MapReduce作业配置与Mapper和Reducer类
  前面一篇博文写的是Combiner优化MapReduce执行,也就是使用Combiner在map端执行减少reduce端的计算量。
大道七哥
2019/09/10
6390
Hadoop(十七)之MapReduce作业配置与Mapper和Reducer类
Hadoop(十七)之MapReduce作业配置与Mapper和Reducer类
前言   前面一篇博文写的是Combiner优化MapReduce执行,也就是使用Combiner在map端执行减少reduce端的计算量。 一、作业的默认配置   MapReduce程序的默认配置 
用户1195962
2018/01/18
8300
Hadoop(十七)之MapReduce作业配置与Mapper和Reducer类
Hadoop MapReduce作业的生命周期
用户提交作业后,由JobClient实例将作业相关信息(jar包、配置文件xml、分片元信息等)上传到HDFS。
星哥玩云
2022/06/30
2510
Hadoop MapReduce作业的生命周期
Hadoop-2.7.3源码分析:MapReduce作业提交源码跟踪
根据文章内容为该文章写一个摘要总结。
程裕强
2018/01/02
1.2K0
Hadoop-2.7.3源码分析:MapReduce作业提交源码跟踪
如何使用hadoop命令向CDH集群提交MapReduce作业
在前面文章Fayson讲过《如何跨平台在本地开发环境提交MapReduce作业到CDH集群》,那对于部分用户来说,需要将打包好的jar包在CDH集群运行,可以使用hadoop或java命令向集群提交MR作业,本篇文章基于前面的文章讲述如何将打包好的MapReduce,使用hadoop命令向CDH提交作业。同时也分为Kerberos和非Kerberos环境提交。
Fayson
2018/03/29
2.2K0
如何使用hadoop命令向CDH集群提交MapReduce作业
Yarn的JobHistory目录权限问题导致MapReduce作业异常
0: jdbc:hive2://localhost:10000>select count(*) from student;
Fayson
2018/03/29
4.9K0
Yarn的JobHistory目录权限问题导致MapReduce作业异常
Yarn快速系列入门(3) | Yarn和MapReduce的作业提交全过程
  除了向应用管理器请求作业进度外, 客户端每5秒都会通过调用waitForCompletion()来检查作业是否完成。时间间隔可以通过mapreduce.client.completion.pollinterval来设置。作业完成之后, 应用管理器和Container会清理工作状态。作业的信息会被作业历史服务器存储以备之后用户核查。
不温卜火
2020/10/28
8490
Yarn快速系列入门(3) | Yarn和MapReduce的作业提交全过程
详解MapReduce(Spark和MapReduce对比铺垫篇)
本来笔者是不打算写MapReduce的,但是考虑到目前很多公司还都在用这个计算引擎,以及后续要讲的Hive原生支持的计算引擎也是MapReduce,并且为Spark和MapReduce的对比做铺垫,笔者今天详细阐述一下MapReduce。鉴于Hadoop1.X已过时,Hadoop3.X目前用的还不多,企业中目前大量运用的还是Hadoop2.X,所以以下都是基于Hadoop2.X版本的MapReduce(后续要讲的HDFS和Yarn也是)。
大数据学习与分享
2020/08/10
7910
详解MapReduce(Spark和MapReduce对比铺垫篇)
MapReduce工作笔记——Job上传普通文件和大文件
我们在配置MR Streaming任务的时候,通常会上传mapper、reducer以及其他会用到的一些文件,在MapReduce工作笔记——Hadoop shell 常用文件操作命令中提到过使用put数据上传HDFS。在执行MR Job 的时候,Hadoop会将其配置的文件数据打包成jar,两种上传的目标是不一样的,前者是数据,后者是配置,本文章将主要介绍普通脚本文件的上传以及大文件的上传。
莫斯
2020/09/10
1.1K0
如何跨平台在本地开发环境提交MapReduce作业到CDH集群
在开发Hadoop的MapReduce作业时需要重复的打包并手动传输到集群运行往往比较麻烦,有时我们也需要在本地能够直接调试代码如在Intellij能直接连接到集群提交作业,或者我们需要跨平台的提交MapReduce作业到集群。那么如何实现呢?本篇文章主要讲述如何跨平台在本地开发环境下提交作业到Hadoop集群,这里我们还是分为Kerberos环境和非Kerberos环境。
Fayson
2018/03/29
1.2K0
如何跨平台在本地开发环境提交MapReduce作业到CDH集群
什么是MapReduce
Reduce负责数据合并 reduce: [k2, {v2,…}] → [k3, v3]
云缓缓知我意
2021/04/15
3510
什么是MapReduce
什么是MapReduce?
什么是MapReduce?马 克-to-win @ 马克java社区:1)MapReduce是面向大数据并行程序设计的模型和方法,这一点很像我们前面讲的MVC,MVC解决动态网站问题而 MapReduce解决大数据问题,和 2)MapReduce也是一个并行计算软件框架。比如前面我们接触的Spring就是一个开发应用框架。它能在集群节点上自动分配和执行任务(包括我们 的业务代码和围绕着我们的核心业务逻辑的其他一些相关的操作,比如排序等),透明化很多系统底层复杂细节,比如分布存储、数据通信、容错处理等,使我们软 件开发人员的集中在自己的业务逻辑。
马克java社区
2021/06/24
2060
Hadoop的HDFS和MapReduce
HDFS是一个具有高度容错性的分布式文件系统,适合部署在廉价的机器上,它具有以下几个特点:
星哥玩云
2022/07/03
4570
Hadoop的HDFS和MapReduce
MapReduce快速入门系列(1) | 什么是MapReduce
MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。 Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。 Reduce负责“合”,即对map阶段的结果进行全局汇总。 这两个阶段合起来正是MapReduce思想的体现。
不温卜火
2020/10/28
4970
MapReduce快速入门系列(1) | 什么是MapReduce
MapReduce Shuffle 和 Spark Shuffle
Shuffle的本意是洗牌、混洗的意思,把一组有规则的数据尽量打乱成无规则的数据。而在MapReduce中,Shuffle更像是洗牌的逆过程,指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据,以便reduce端接收处理。其在MapReduce中所处的工作阶段是map输出后到reduce接收前,具体可以分为map端和reduce端前后两个部分。
大数据真好玩
2020/06/28
2.8K0
大数据不同的瑞士军刀:对比 Spark 和 MapReduce
翻译 | 古月水语 来源 | 伯乐在线 Apache 基金会下的 Spark 再次引爆了大数据的话题。带着比 Hadoop MapReduce 速度要快 100 倍的承诺以及更加灵活方便的 API,一些人认为这或许预示着 Hadoop MapReduce 的终结。 作为一个开源的数据处理框架,Spark 是如何做到如此迅速地处理数据的呢?秘密就在于它是运行在集群的内存上的,而且不受限于 MapReduce 的二阶段范式。这大大加快了重复访问同一数据的速度。 Spark 既可以单独运行,也可以运行在 Hado
CDA数据分析师
2018/02/24
7180

相似问题

HbaseTestingUtility和MapReduce作业

10

SecondaryNamenode和MapReduce作业

11

MapReduce作业输出排序顺序

41

压缩对MapReduce作业有什么影响?

13

Spring和Apache启动MapReduce作业

15
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文