前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Hadoop总结篇之一------开篇

Hadoop总结篇之一------开篇

作者头像
小端
发布2018-04-16 10:44:43
4730
发布2018-04-16 10:44:43
举报
文章被收录于专栏:java架构师java架构师

从今天开始新的系列:Hadoop总结篇

之前的hadoop学习篇由于是学习过程中随手记下来的一些内容,不具有系统性。所以在这个系列中,将凭着这段时间的研究心得,来记录一些自认为比较重要的东西。

本系列的主要参考书目是《Hadoop技术内幕:深入解析Yarn架构设计与实现原理》

比如作业从提交到执行到写出结果,将有一个从浅到深,逐步深入的过程。另外一些开发过程中使用到的比较零碎的东西,将会以外篇的形式记录。

hadoop版本:2.7.X

由于是第一篇,那么先来个综述吧。

学习hadoop我们到底要学些什么?

在2.x以后,hadoop的体系结构基本按如下三部分划分:

第一部分就是HDFS文件存储系统。就像我们操作系统的任意一种存储系统一样,这个模块决定了文件存在哪里,怎么存取。只不过他被hadoop集成使用。

主要的进程有三个: NameNode  DataNode SecondaryName 这三个类,是有main函数的

第二部分就是计算框架mapreduce,同hadoop1.x里的实现基本一致

第三部分是调度框架yarn 

yarn的作用是什么?调度!这个词是精髓,调度资源,调度任务。

主要进程:resourceManager ApplicationMaster,NodeManager这三个类,也是有main函数的。

我们要学的,主要就是这三部分内容。

下面先概括的说一下执行一个job的基本工作流程:

resourceManager 接到客户端提交的任务,会申请资源(container),本质是在集群中的一台机器上,与其上的NodeManager协调,在资源上启动ApplicationMaster。

然后把job的控制权交给ApplicationMaster。后者接管后,根据任务的描述信息,去向resourceManager 申请运行task的资源。根据resourceManager 的回馈(资源可用情况描述),与可用的节点(NodeManager)协调,启动task任务。

task任务启动,那么就使用计算框架内容执行具体的计算了。

而hdfs文件读取,贯穿于整个job执行阶段。

这里有必要说明一下,Job 和Application的关系,其实两者是一个东西在不同阶段的描述。提交的时候叫Job,提交后,hadoop系统跑起来后,那就是Application了。就好像一个人小时候在家里,家人都叫乳名。上学后,就用正式名字来称呼了。

 下一篇将从资源调度框架yarn开始后讲起。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2016-05-31 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档