首页
学习
活动
专区
工具
TVP
发布

卡尼慕

专栏作者
135
文章
94983
阅读量
27
订阅数
解析一下WordCount项目
很显然,首先我们拿到文本不是立刻就送去MapReduce中处理,而是先通过一个叫做TextInputFormat的类,处理好原有文本的数据,用偏移量逐个表识。然后再传入map中处理。然而map只是对单词进行简单的编号(同时编上1),在再进入reduce类之前,先通过迭代器(图中黑色部分,等会会补上),把map的数据简单的处理,如上图的hadoop为例,迭代器的内容就是<hadoop,iterator(1,1)>,那么在reduce类中,我们只要统计好迭代器中的数值就好了。
可爱见见
2019-09-09
4220
继续MapReduce
首先有一个client(客户端),然后由客户端发送一个请求,这里的请求就是我要计算某个数据,把请求发送给ResourceManager。这里ResourceManager下面有两个东西,一个叫做Applications Manager(应用),一个叫Resource Scheduler(资源)。接着由Applications Manager寻找一个节点,并开启这个节点上面的Application Master,开启后,这个App Mstr要计算这个任务需要多少资源,并且把这些需求汇报给ResourceManager中的Applications Manager,接着ResourceManager中的Resource Scheduler就开始在机架中寻找有资源的机器。
可爱见见
2019-09-09
5980
Hive
由facebook开源的用于解决海量结构化日志的数据统计,后称Apache Hive 的开源项目。
可爱见见
2019-09-09
6270
hadoop(一)
这段时间不光在复习数据结构,也在学习搭建hadoop,了解hadoop,这是对我来说没有像其它的的推文那样好写,而且这个模块更新的时间间隔会比较长,因为一个新知识是要消化吸收的。我也不可能把错误的知识接受给你们吧,所以一般来说,我会在周末更新数据结构。见谅哈~
可爱见见
2019-09-09
5870
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档