我想知道这两个计数器的真正含义:所有映射占用时隙的总时间(ms)和所有减少占用时隙的总时间(ms)。我刚刚写了MR程序,类似于我得到的字数统计。
**所有映射占用时隙的总时间(毫秒)=15667400
所有减少占用的插槽所花费的总时间(毫秒)=158952
花费的CPU时间(毫秒)=51930
实数7m38.886s**
为什么?第一个计数器有一个非常非常高的值,这实际上是其他三个计数器无法比拟的。请把这个给我弄清楚。
谢谢
关于问候
发布于 2014-01-01 01:33:45
您的输入数据可能需要更多的上下文,但是前两个计数器显示了所有map和reduce任务花费了多少时间。这个数字比其他任何值都大,因为您可能有一个多节点hadoop集群和一个大型输入数据集-这意味着您有大量并行运行的map任务。假设您有1000个映射任务并行运行,每个任务都需要10秒才能完成-在这种情况下,所有映射器的总时间将是1000* 10,10000秒。实际上,map阶段可能只需要10-30秒就可以并行完成,但如果您以串行方式运行它们,则需要10000秒才能完成单个节点、单个map插槽集群。
所花费的CPU时间指的是总时间中有多少是纯CPU处理的-这比其他时间要小,因为您的作业主要是IO受限的(从磁盘读取和写入磁盘,或通过网络)。
https://stackoverflow.com/questions/20811525
复制相似问题