腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据学习笔记

专栏作者

533

文章

736584

阅读量

72

订阅数

Java API访问HA方式的HDFS

xml node.js 大数据

对于namenode是HA高可用集群时，客户端远程访问hdfs有两种实现方法：（1）将所有关于namenode的参数写入Configuration对象中（2）将配置文件core-site.xml和hdfs-site.xml文件复制到项目的src目录下

2022-05-06

9240

两个NameNode都处在StandBy模式

大数据 node.js

今天发现两个NameNode都处在StandBy模式 📷 📷 尝试重启hdfs，两个NameNode依然处在StandBy模式后来发现停止HDFS时，NameNode1不能停止 [root@bigdata01-test hadoop]# stop-dfs.sh Stopping namenodes on [bigdata01-test bigdata02-test] bigdata01-test: no namenode to stop bigdata02-test: stopping namenode

2022-05-06

6110

超简单的Sqoop入门教程

数据库云数据库 SQL Server sql 大数据腾讯云测试服务

http://sqoop.apache.org/ https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.7/

2022-05-06

5570

node.js grep 大数据

（2）hdfs fsck / | egrep -v ‘^.+$’ | grep -v eplica

2022-05-06

5900

Hadoop基础教程-第9章 HA高可用（9.2 HDFS 高可用配置）

xml node.js 大数据面向对象编程 hadoop

因为前面我们已经配置启动了普通的Hadoop相关服务，需要先停止相关服务并清除数据。（1）停止Hadoop服务首先停止YARN

2022-05-06

2520

Hadoop基础教程-第9章 HA高可用（9.1 HDFS 高可用介绍）

hadoop node.js 大数据 zookeeper

HDFS HA(High Availability)高可用配置官方参考网址 http://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html

2022-05-06

7940

Hadoop基础教程-第7章 MapReduce进阶（7.7 MapReduce 全排序）

node.js mapreduce 大数据

MapReduce默认只是保证同一个分区内的Key是有序的，但是不保证全局有序。如果我们将所有的数据全部发送到一个Reduce，那么不就可以实现结果全局有序。所以前文7.6节二次排序已经实现了最终结果有序，也就是全排序。 MapReduce全排序的方法1: 每个map任务对自己的输入数据进行排序，但是无法做到全局排序，需要将数据传递到reduce，然后通过reduce进行一次总的排序，但是这样做的要求是只能有一个reduce任务来完成。

2022-05-06

1780

Hadoop基础教程-第7章 MapReduce进阶（7.6 MapReduce 二次排序）

node.js mapreduce linux 大数据 oracle

MapReduce框架对处理结果的输出会根据key值进行默认的排序，这个默认排序可以满足一部分需求，但是也是十分有限的。在我们实际的需求当中，往往有要对reduce输出结果进行二次排序的需求。所谓二次排序，先按第1个字段进行排序，然后对第1个字段相同的数据，再按第2个字段进行排序。

2022-05-06

1730

Hadoop基础教程-第7章 MapReduce进阶（7.5 MapReduce 连接）

node.js mapreduce 大数据

连接操作，也就是常说的join操作，是数据分析时经常用到的操作。比如有两份数据data1和data2，进行关键词连接是一个很通用的问题，如果数据量比较小，可以在内存中完成连接。如果数据量比较大，在内存进行连接操会发生内存溢出。MapReduce join就是用来解决大数据的连接问题。

2022-05-06

1500

Hadoop基础教程-第7章 MapReduce进阶（7.4 自定义Key类型）

node.js 大数据 mapreduce

原文地址：http://blog.csdn.net/chengyuqiang/article/details/73441493

2022-05-06

1880

Hadoop基础教程-第7章 MapReduce进阶（7.2 MapReduce工作机制）

mapreduce yarn 大数据 node.js jar

原文地址：http://blog.csdn.net/chengyuqiang/article/details/73382034

2022-05-06

1920

Hadoop基础教程-第7章 MapReduce进阶（7.1 MapReduce过程）

vr 视频解决方案编程算法 javascript mapreduce 大数据

一般而言，数据文件都会上传到HDFS上，也就是说HDFS上的文件作为MapReduce的输入。已知block块大小是128M（Hadoop 2.x默认的blockSize是128MB，Hadoop 1.x默认的blockSize是64MB）。MapReduce计算框架首先会用InputFormat的子类FileInputFormat类对输入文件进行切分，形成输入分片（InputSplit）。每个InputSplit分片将作为一个Map任务的输入，输入分片（input split）存储的并非数据本身，而是一个分片长度和一个记录数据的位置的数组。也就是说，InputSplit只是对输入数据进行逻辑上切分，并不会将物理文件切分成片进行存储。

2022-05-06

4310

Hadoop基础教程-第6章 MapReduce入门（6.4 MapReduce程序框架）

mapreduce 分布式 hadoop node.js 大数据

我们知道，从单线程编程到多线程编程，程序结构复杂度增大了。类似的，从单机程序到分布式程序，程序结构的复杂度也增大了。这是问题的复杂环境决定的。所以，很多初学者更接触分布式编程时，望而却步、知难而退了。可事实上，Hadoop是一个很易用的分布式编程框架，经过良好封装屏蔽了很多分布式环境下的复杂问题，因此，对普通开发者来说很容易，容易到可以依照程序模版，照葫芦画瓢。下面代码即是Hadoop的MapReduce程序模版，其中使用了Hadoop辅助类，通过Configured的getConf()方法获取Configuration对象，重写Tool接口的run方法，实现Job提交功能。这样就可以实现代码与配置隔离，修改MapReduce参数不需要修改java代码、打包、部署，提高工作效率。

2022-05-06

2380

Hadoop基础教程-第5章 YARN：资源调度平台（5.5 YARN的调度器）

yarn node.js hadoop 大数据

打个比方，Hadoop相当于一台虚拟计算机（由多台计算机构造的集群），那么HDFS就是这台虚拟计算机的文件系统，管理磁盘资源；而YARN负责管理虚拟计算机的CPU和内存资源。在YARN上跑的MapReduce程序（比如5.4节跑的PI和wordcount两个应用程序）就是在这台虚拟计算机跑的应用程序，需要磁盘、内存和CPU等资源。

2022-05-06

3410

Hadoop基础教程-第5章 YARN：资源调度平台（5.3 YARN集群配置）

xml yarn node.js 大数据

这个文件在《3.4 HDFS集群模式》http://blog.csdn.net/chengyuqiang/article/details/72058013中已经配置过了，这里不再重复配置。需要注意：这个文件是指定子节点的位置，同时也是帮助Yarn指定NodeManager启动的位置。即如果HDFS没有指定slaves的话，将没有DataNode；如果Yarn没有指定slaves的话，将没有NodeManager。

2022-05-06

1860

Hadoop基础教程-第4章 HDFS的Java API（4.6 Java API应用）

java api windows 大数据 node.js

先在本地（客户端）一个文件，比如在D盘下新建一个word2.txt文件，内容随便写

2022-05-06

2010

Hadoop基础教程-第4章 HDFS的Java API（4.4 Windows+Eclipse+HDFS快速入门）

node.js jar windows eclipse 大数据

前面4.1到4.3节的准备工作，本节正式进入HDFS的Java API 部分，将通过一个简单例子演示如何在Windows下通过Eclipse开发Hadoop（HDFS）应用程序，注意此部分不需要hadoop-eclipse-plugin插件。

2022-05-06

3570

Hadoop基础教程-第4章 HDFS的Java API（4.3 pom.xml解析）

xml maven hadoop node.js 大数据

在pom.xml文件里添加hadoop的依赖包hadoop-common, hadoop-client, hadoop-hdfs 在搜索框中输入hadoop-common，单击“Search”按钮

2022-05-06

4710

Hadoop基础教程-第3章 HDFS：分布式文件系统（3.5 HDFS基本命令）（草稿）

node.js hadoop 大数据 c++

HDFS命令官方文档： http://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html

2022-05-06

1960

Hadoop基础教程-第3章 HDFS：分布式文件系统（3.4 HDFS集群模式）

hadoop xml node.js 大数据

【2018-01-27补充】感谢吴家行hang的提醒，这里node2和node3也要进行类似的环境变量配置。

2022-05-06

2120

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态