首页
学习
活动
专区
工具
TVP
发布

java架构师

专栏成员
99
文章
85201
阅读量
30
订阅数
Hadoop总结篇之二--yarn的概况
在弄清楚yarn是什么之前,先来看一下MRv1。 它的由编程模型+数据处理引擎(map/reduceTask)+运行时环境组成(JobTracker/TaskTracker)。其中JobTracker存在很多问题,如下: 1、JobTracker本身承担了调度和计算的任务,太累了 2、JobTracker是单点的,不好扩展不能支持其他计算框架,还有单点故障风险 3、资源是以槽位的方式来调度。粗粒度,不合理。比如提交了一个特别占用资源的任务,整个节点就被占用了。还有map阶段往往reduce槽位就是闲置,反之
小端
2018-04-16
5910
Hadoop总结篇之一------开篇
从今天开始新的系列:Hadoop总结篇 之前的hadoop学习篇由于是学习过程中随手记下来的一些内容,不具有系统性。所以在这个系列中,将凭着这段时间的研究心得,来记录一些自认为比较重要的东西。 本系列的主要参考书目是《Hadoop技术内幕:深入解析Yarn架构设计与实现原理》 比如作业从提交到执行到写出结果,将有一个从浅到深,逐步深入的过程。另外一些开发过程中使用到的比较零碎的东西,将会以外篇的形式记录。 hadoop版本:2.7.X 由于是第一篇,那么先来个综述吧。 学习hadoop我们到底要学些什么?
小端
2018-04-16
4890
Hadoop学习14--Hadoop之一点点理解yarn
yarn是一个分布式的资源管理系统。 它诞生的原因是原来的MapReduce框架的一些不足: 1、JobTracker单点故障隐患 2、JobTracker承担的任务太多,维护Job状态,Job的ta
小端
2018-04-16
4770
Hadoop总结篇之四---底层通信是怎么做到的
上一篇介绍了一个job的提交过程。期间多次提到通信协议。那么协议是什么? 协议其实就是通信的双方所遵守的一套规范,这套规范规定了通信时传输的数据的固定的格式。 4.1 RPC协议:在hadoop中,我们采用的是RPC协议。 该协议主要包含四个部分: 序列化层:协议中的参数采用Protocol Buffers来序列化/反序列化。 这个Protocol Buffers是一种数据存储格式,可以理解我们按照其语法格式定义一个数据结构类model,然后使用工具(Protocol Buffers编译器)编译为我们所使用
小端
2018-04-16
7470
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档