MapReduce 简介
MapReduce 是一种编程模型,是一种编程方法,是抽象的理论
Yarn概念ResourceManager
分配和调度资源 启动并监控ApplicationMaster 监控NodeManager
ApplicationMaster
为MR 类型的程序申请资源,并分配给内部任务 负责数据的切分 监控任务的执行与容错
NodeManager
管理单个节点的资源 处理来自ResourceManager 命令 处理来自ApplicationMaster 命令
MapReduce 模型
输入一个大文件,通过 Split 后,将其分为多个分片
每个文件分片由单独的机器去处理,这就是Map 方法
将各个机器计算的结果进行汇总并得到最终的结果,这就是Reduce 方法
实战MapReduce 程序
通过Python 程序演示Map 方法和 Reduce 方法
提交基于MapReduce 模型的WordCount 程序并执行
领取专属 10元无门槛券
私享最新 技术干货