上任务的运行, 进行统一调度;
-- TaskTracker作用 : 执行具体的 MapReduce 程序;
-- 统一调度方式 : TaskTracker 运行的同时将运行进度发送给 JobTracker...与块大小相同;
数据本地优化 : map 任务运行在 本地存储数据的 节点上, 才能获得最好的效率;
-- 分片 = 数据块 : 一个分片只在单个节点上存储, 效率最佳;
-- 分片 > 数据块...: 分片 大于 数据块, 那么一个分片的数据就存储在了多个节点上, map 任务所需的数据需要从多个节点传输, 会降低效率;
Map任务输出 : Map 任务执行结束后, 将计算结果写入到 本地硬盘,...本地是没有的;
-- 数据合并 : map 任务 输出的结果, 会通过网络传到 reduce 任务节点上, 先进行数据的合并, 然后在输入到reduce 任务中进行处理;
-- 结果输出 : reduce...的输出直接输出到 HDFS中;
-- reduce数量 : reduce数量是特别指定的, 在配置文件中指定;
MapReduce数据流框图解析 :
-- 单个MapReduce的数据流 :