Hadoop核心 MapReduce

MapReduce 简介

MapReduce 是一种编程模型,是一种编程方法,是抽象的理论

Yarn概念ResourceManager

分配和调度资源 启动并监控ApplicationMaster 监控NodeManager

ApplicationMaster

为MR 类型的程序申请资源,并分配给内部任务 负责数据的切分 监控任务的执行与容错

NodeManager

管理单个节点的资源 处理来自ResourceManager 命令 处理来自ApplicationMaster 命令

MapReduce 模型

输入一个大文件,通过 Split 后,将其分为多个分片

每个文件分片由单独的机器去处理,这就是Map 方法

将各个机器计算的结果进行汇总并得到最终的结果,这就是Reduce 方法

实战MapReduce 程序

通过Python 程序演示Map 方法和 Reduce 方法

提交基于MapReduce 模型的WordCount 程序并执行

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180426G1U3J500?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券