前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >MapReduce 计算框架如何运作

MapReduce 计算框架如何运作

作者头像
Michael阿明
发布2021-09-06 09:59:35
3750
发布2021-09-06 09:59:35
举报
文章被收录于专栏:Michael阿明学习之路

learn from 从0开始学大数据(极客时间)

1. MapReduce 作业启动和运行机制

作业涉及三类关键进程:

  • 大数据应用进程 这类进程是启动 MapReduce 程序的主入口,主要是指定 Map 和 Reduce 类、输入输出文件路径等,并提交作业给 Hadoop 集群(JobTracker 进程)
  • JobTracker 进程 这类进程根据输入数据量,命令下面提到的 TaskTracker 进程启动相应数量的 Map 和 Reduce 进程任务,并管理整个作业生命周期的任务调度和监控 JobTracker 进程在整个 Hadoop 集群全局唯一
  • TaskTracker 进程 负责启动和管理 Map 进程、 Reduce 进程 因为每个数据块都有对应的 map 函数,TaskTracker 进程通常和 HDFS 的 DataNode 进程启动在同一个服务器

JobTracker 进程和 TaskTracker 进程是主从关系

  • 主服务器负责 分配服务器资源、作业执行的调度
  • 从服务器完成具体的计算操作

2. MapReduce 数据合并与连接机制

分布式计算需要将不同服务器上的相关数据合并到一起进行下一步计算,这就是 shuffle

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021/02/23 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. MapReduce 作业启动和运行机制
  • 2. MapReduce 数据合并与连接机制
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档