首页
学习
活动
专区
工具
TVP
发布

卡尼慕

专栏作者
135
文章
94751
阅读量
27
订阅数
Hadoop(二)
分开的分散的部署或布置具有多个不同功能或组件组成一个完整的系统,不同功能和组建搭建或部署到不同的节点。
可爱见见
2019-09-09
5330
解析一下WordCount项目
很显然,首先我们拿到文本不是立刻就送去MapReduce中处理,而是先通过一个叫做TextInputFormat的类,处理好原有文本的数据,用偏移量逐个表识。然后再传入map中处理。然而map只是对单词进行简单的编号(同时编上1),在再进入reduce类之前,先通过迭代器(图中黑色部分,等会会补上),把map的数据简单的处理,如上图的hadoop为例,迭代器的内容就是<hadoop,iterator(1,1)>,那么在reduce类中,我们只要统计好迭代器中的数值就好了。
可爱见见
2019-09-09
4220
继续MapReduce
首先有一个client(客户端),然后由客户端发送一个请求,这里的请求就是我要计算某个数据,把请求发送给ResourceManager。这里ResourceManager下面有两个东西,一个叫做Applications Manager(应用),一个叫Resource Scheduler(资源)。接着由Applications Manager寻找一个节点,并开启这个节点上面的Application Master,开启后,这个App Mstr要计算这个任务需要多少资源,并且把这些需求汇报给ResourceManager中的Applications Manager,接着ResourceManager中的Resource Scheduler就开始在机架中寻找有资源的机器。
可爱见见
2019-09-09
5980
完全分布式的搭建
伪分布式,也就是像我们之前做的那样,把NameNode,DataNode,NodeManager,ResourceManager,SecondaryNameNode部署在同一个机器上,没有所谓的在多台机器上进行真正的分布式计算,故称为"伪分布式"。
可爱见见
2019-09-09
5090
Hadoop HDFS HA 高可用
在Hadoop 1.x 中,Namenode是集群的单点故障,一旦Namenode出现故障,整个集群将不可用,重启或者开启一个新的Namenode才能够从中恢复。
可爱见见
2019-09-09
7060
Hive
由facebook开源的用于解决海量结构化日志的数据统计,后称Apache Hive 的开源项目。
可爱见见
2019-09-09
6260
小项目:WordCount
今天可算是完成了一个小项目,虽然看起来很简单,但麻雀虽小,五脏俱全,这个小项目也就是把整个框架的建构与测试走一遍。具体的话包括:服务器上建立测试文件,在Windows下写代码,Win下测试,上传服务器,在服务器上测试。
可爱见见
2019-09-09
4300
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档