首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >在Hadoop中完成Map和Reduce任务的时间

在Hadoop中完成Map和Reduce任务的时间
EN

Stack Overflow用户
提问于 2013-12-28 13:55:00
回答 1查看 1.3K关注 0票数 0

我想知道这两个计数器的真正含义:所有映射占用时隙的总时间(ms)和所有减少占用时隙的总时间(ms)。我刚刚写了MR程序,类似于我得到的字数统计。

**所有映射占用时隙的总时间(毫秒)=15667400

所有减少占用的插槽所花费的总时间(毫秒)=158952

花费的CPU时间(毫秒)=51930

实数7m38.886s**

为什么?第一个计数器有一个非常非常高的值,这实际上是其他三个计数器无法比拟的。请把这个给我弄清楚。

谢谢

关于问候

EN

回答 1

Stack Overflow用户

发布于 2014-01-01 01:33:45

您的输入数据可能需要更多的上下文,但是前两个计数器显示了所有map和reduce任务花费了多少时间。这个数字比其他任何值都大,因为您可能有一个多节点hadoop集群和一个大型输入数据集-这意味着您有大量并行运行的map任务。假设您有1000个映射任务并行运行,每个任务都需要10秒才能完成-在这种情况下,所有映射器的总时间将是1000* 10,10000秒。实际上,map阶段可能只需要10-30秒就可以并行完成,但如果您以串行方式运行它们,则需要10000秒才能完成单个节点、单个map插槽集群。

所花费的CPU时间指的是总时间中有多少是纯CPU处理的-这比其他时间要小,因为您的作业主要是IO受限的(从磁盘读取和写入磁盘,或通过网络)。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/20811525

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档