腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

卡尼慕

专栏作者

135

文章

94751

阅读量

27

订阅数

Hadoop（二）

大数据 node.js hadoop 存储分布式

分开的分散的部署或布置具有多个不同功能或组件组成一个完整的系统，不同功能和组建搭建或部署到不同的节点。

2019-09-09

5330

解析一下WordCount项目

mapreduce java hadoop 编程算法

很显然，首先我们拿到文本不是立刻就送去MapReduce中处理，而是先通过一个叫做TextInputFormat的类，处理好原有文本的数据，用偏移量逐个表识。然后再传入map中处理。然而map只是对单词进行简单的编号（同时编上1），在再进入reduce类之前，先通过迭代器（图中黑色部分，等会会补上），把map的数据简单的处理，如上图的hadoop为例，迭代器的内容就是<hadoop,iterator(1,1)>，那么在reduce类中，我们只要统计好迭代器中的数值就好了。

2019-09-09

4220

继续MapReduce

mapreduce hadoop

首先有一个client（客户端），然后由客户端发送一个请求，这里的请求就是我要计算某个数据，把请求发送给ResourceManager。这里ResourceManager下面有两个东西，一个叫做Applications Manager（应用），一个叫Resource Scheduler（资源）。接着由Applications Manager寻找一个节点，并开启这个节点上面的Application Master，开启后，这个App Mstr要计算这个任务需要多少资源，并且把这些需求汇报给ResourceManager中的Applications Manager，接着ResourceManager中的Resource Scheduler就开始在机架中寻找有资源的机器。

2019-09-09

5980

完全分布式的搭建

分布式 xml hadoop node.js

伪分布式，也就是像我们之前做的那样，把NameNode，DataNode，NodeManager，ResourceManager，SecondaryNameNode部署在同一个机器上，没有所谓的在多台机器上进行真正的分布式计算，故称为"伪分布式"。

2019-09-09

5090

Hadoop HDFS HA 高可用

zookeeper 大数据 yarn hadoop node.js

在Hadoop 1.x 中，Namenode是集群的单点故障，一旦Namenode出现故障，整个集群将不可用，重启或者开启一个新的Namenode才能够从中恢复。

2019-09-09

7060

hive mapreduce 大数据 hadoop html

由facebook开源的用于解决海量结构化日志的数据统计，后称Apache Hive 的开源项目。

2019-09-09

6260

小项目：WordCount

jar hadoop java windows 大数据

今天可算是完成了一个小项目，虽然看起来很简单，但麻雀虽小，五脏俱全，这个小项目也就是把整个框架的建构与测试走一遍。具体的话包括：服务器上建立测试文件，在Windows下写代码，Win下测试，上传服务器，在服务器上测试。

2019-09-09

4300

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态