《快学BigData》--Hadoop总结（D）（37）

小徐

发布于 2019-08-05 14:42:16

5320

发布于 2019-08-05 14:42:16

文章被收录于专栏：Greenplum

Hadoop总结 - - - - - - - - - - - - - - - - - - - - - - - - - - - - 210

概述 - - - - - - - - - - - - - - - - - - - - - - - - - - - - 211

CDH - - - - - - - - - - - - - - - - - - - - - - - - - - - - 211

安装Hadoop2.6.4 非Zookeeper集群版 - - - - - - - - - - - - - - - 211

安装Hadoop2.6.4 Zookeeper集群版 - - - - - - - - - - - - - - - 216

MapReduce整体的流程详解 - - - - - - - - - - - - - - - - - - - - 225

Hadoop HDFS 系统详解 - - - - - - - - - - - - - - - - - - - - - 226

JAVA 操作HDFS - - - - - - - - - - - - - - - - - - - - - - - - 241

Hadoop MapReduce 实例 - - - - - - - - - - - - - - - - - - - - 248

Hadoop 其他总结 - - - - - - - - - - - - - - - - - - - - - - - - 259

Hadoop 优化总结 - - - - - - - - - - - - - - - - - - - - - - - - 259

Hadoop HDFS 系统详解

概述

1、HDFS分为两大角色：Namenode , datanode , Secondary Name

2、nameNode 保存数据的元数据

3、DataNode 负责管理用户的文件的数据块，文件会按照块的大小保存到不同的DataNode ,每一个数据都有很多块的副本，保存在不同的机器上。

4、DataNode 会定期的向namenode汇报保存到数据的情况

5、HDFS的内部工作机制对客户端保持透明，客户端请求访问HDFS都是通过向namenode申请来进行

用户上传文件思路

1、客户端向nameNode发送要上传文件的请求,并把文件分为128M的块

2、nameNode 返回给用户是否能上传数据的状态

3、加入用户端需要上传一个120M的文件，客户端会通过Rpc请求NameNode，并返回需要上传给那些DataNode(分配机器的距离以及空间的大小等),会选择离namenode比较近的机器分配,同机架的有限.

4、客户端请求建立block传输管道chnnel上传数据

5、在上传是datanode会与其他的机器建立连接并把数据块传送到其他的机器上

6、dataNode向namenode汇报自己的储存情况以及自己的信息

7、档第一个快上传完后再去执行其他的快的上传

图例

补充：

它分为两个部分：NameNode和DateNode，NameNode相当于一个领导，它管理集群内的DataNode，当客户发送请求过来后，NameNode会根据情况指定存储到哪些DataNode上，而其本身自己并不存储真实的数据。那NameNode怎么知道集群内DataNode的信息呢？DataNode发送心跳信息给NameNode。

Namenode具备机架感知的能力，可以配置.

用户读取数据的流程

客户端将需要读取的文件的信息发送给namenode,namenode会把文件的元数据返回给用户，用户根据返回的储存block的机器上去请求datanode的信息，最后客户端再把数据库合并成整个数据。

图例

元数据的Checkpoint 过程

1-1）、概念

每隔一段时间secondary namenode 将namenode 上积累的所有的edits和一个最新的fsimage下载到本地，并加载到内存进行merge的过程叫做checkpoit

1-2）、查看元数据的信息

下面是保存edits与fsimage的路径， /usr/local/hadoop-2.6.4/data/name/current/下：

[root@hadoop1 current]# ll

total 2088

-rw-r--r--. 1 root root 270 Sep 2 05:45 edits_0000000000000000001-0000000000000000005

-rw-r--r--. 1 root root 42 Sep 2 08:05 edits_0000000000000000006-0000000000000000007

-rw-r--r--. 1 root root 1048576 Sep 2 08:05 edits_0000000000000000008-0000000000000000008

-rw-r--r--. 1 root root 42 Sep 12 21:14 edits_0000000000000000009-0000000000000000010

-rw-r--r--. 1 root root 42 Sep 12 22:14 edits_0000000000000000011-0000000000000000012

-rw-r--r--. 1 root root 1048576 Sep 12 22:14 edits_inprogress_0000000000000000013

-rw-r--r--. 1 root root 554 Sep 12 21:14 fsimage_0000000000000000010

-rw-r--r--. 1 root root 62 Sep 12 21:14 fsimage_0000000000000000010.md5

-rw-r--r--. 1 root root 554 Sep 12 22:14 fsimage_0000000000000000012

-rw-r--r--. 1 root root 62 Sep 12 22:14 fsimage_0000000000000000012.md5

-rw-r--r--. 1 root root 3 Sep 12 22:14 seen_txid

-rw-r--r--. 1 root root 207 Sep 12 20:45 VERSION

http://hadoop1:50070/dfshealth.html#tab-startup-progress

1-3）、图例

1-4）、checkPoint的附带作用

namenode和secondary namenode的工作目录存储结构完全相同，所以，当namenode故障退出需要重新恢复时，可以从secondary namenode的工作目录中将fsimage拷贝到namenode的工作目录，以恢复namenode的元数据

DataNode 工作机制

1-1）、dataNode 工作机制

Data会定期的向namenode 汇报自己的block储存的信息，被称为心跳，因为储存的信息特别重要，配置选项如下：

<name>dfs.blockreport.intervalMsec</name>

<description>Determines block reporting interval in milliseconds.</description>

</property>

1-2）、namenode 故障判断

Datanode 进程死亡或者网络的原因导致无法与namenode进行通信，namenome并不会马上任务datanome是死亡的，需要经过一点时间，那么这段时间被称为超时时长，HDFS默认的时间为10分钟+30秒，定义超时的时间为timeout，可以通过hdfs.site.xml进行配置，时间的单位为毫秒，如下：

<name>heartbeat.recheck.interval</name>

</property>

<name>dfs.heartbeat.interval</name>

</property>

Hadoop & hadoop fs 常用命令

1-1）、hadoop 常用参数列表

[root@hadoop1 hadoop]# hadoop -help

Usage: hadoop [--config confdir] COMMAND

where COMMAND is one of:

fs run a generic filesystem user client

version print the version

jar <jar> run a jar file

checknative [-a|-h] check native hadoop and compression libraries availability

distcp <srcurl> <desturl> copy file or directories recursively

archive -archiveName NAME -p <parent path> <src>* <dest> create a hadoop archive

classpath prints the class path needed to get the

credential interact with credential providers

Hadoop jar and the required libraries

daemonlog get/set the log level for each daemon

trace view and modify Hadoop tracing settings

CLASSNAME run the class named CLASSNAME

Most commands print help when invoked w/o parameters.

1-2）、 Hadoop fs 的参数列表

[root@hadoop1 hadoop]# hadoop fs -help

Usage: hadoop fs [generic options]

[-appendToFile <localsrc> ... <dst>]

[-cat [-ignoreCrc] <src> ...]

[-checksum <src> ...]

[-chgrp [-R] GROUP PATH...]

[-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...]

[-chown [-R] [OWNER][:[GROUP]] PATH...]

[-copyFromLocal [-f] [-p] [-l] <localsrc> ... <dst>]

[-copyToLocal [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]

[-count [-q] [-h] <path> ...]

[-cp [-f] [-p | -p[topax]] <src> ... <dst>]

[-createSnapshot <snapshotDir> [<snapshotName>]]

[-deleteSnapshot <snapshotDir> <snapshotName>]

[-df [-h] [<path> ...]]

[-du [-s] [-h] <path> ...]

[-expunge]

[-get [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]

[-getfacl [-R] <path>]

[-getfattr [-R] {-n name | -d} [-e en] <path>]

[-getmerge [-nl] <src> <localdst>]

[-help [cmd ...]]

[-ls [-d] [-h] [-R] [<path> ...]]

[-mkdir [-p] <path> ...]

[-moveFromLocal <localsrc> ... <dst>]

[-moveToLocal <src> <localdst>]

[-mv <src> ... <dst>]

[-put [-f] [-p] [-l] <localsrc> ... <dst>]

[-renameSnapshot <snapshotDir> <oldName> <newName>]

[-rm [-f] [-r|-R] [-skipTrash] <src> ...]

[-rmdir [--ignore-fail-on-non-empty] <dir> ...]

[-setfacl [-R] [{-b|-k} {-m|-x <acl_spec>} <path>]|[--set <acl_spec> <path>]]

[-setfattr {-n name [-v value] | -x name} <path>]

[-setrep [-R] [-w] <rep> <path> ...]

[-stat [format] <path> ...]

[-tail [-f] <file>]

[-test -[defsz] <path>]

[-text [-ignoreCrc] <src> ...]

[-touchz <path> ...]

[-usage [cmd ...]]

多看一下帮助详情，对今后的操作有帮助

1-3）、创建文件夹

[root@hadoop1 ~]# hadoop fs -mkdir /mkdirComm

[root@hadoop1 ~]# hadoop fs -ls /

drwxr-xr-x - root supergroup 0 2016-10-05 01:55 /mkdirComm

1-4）、上传文件

把本地/usr/local/hadoop-2.6.4/etc/hadoop/目录下的所有文件上传到/mkdirComm目录下

[root@hadoop1 ~]# hadoop fs -put /usr/local/hadoop-2.6.4/etc/hadoop/* /mkdirComm

[root@hadoop1 ~]# hadoop fs -ls /mkdirComm

Found 29 items

-rw-r--r-- 3 root supergroup 4436 2016-10-05 01:57 /mkdirComm/capacity-scheduler.xml

-rw-r--r-- 3 root supergroup 1335 2016-10-05 01:57 /mkdirComm/configuration.xsl

-rw-r--r-- 3 root supergroup 318 2016-10-05 01:57 /mkdirComm/container-executor.cfg

-rw-r--r-- 3 root supergroup 952 2016-10-05 01:57 /mkdirComm/core-site.xml

****************

1-5）、查看文件

查看全部的数据

[root@hadoop1 ~]# hadoop fs -cat /mkdirComm/capacity-scheduler.xml

<!--

Licensed under the Apache License, Version 2.0 (the "License");

you may not use this file except in compliance with the License.

You may obtain a copy of the License at

***************************

或者用head查看前几行数据

[root@hadoop1 ~]# hadoop fs -cat /mkdirComm/capacity-scheduler.xml | head

<!--

Licensed under the Apache License, Version 2.0 (the "License");

you may not use this file except in compliance with the License.

You may obtain a copy of the License at

1-6）、下载HDFS上的文件

把HDFS上的文件下载到本地的/user文件夹下

[root@hadoop1 ~]# hadoop fs -get /mkdirComm/capacity-scheduler.xml /usr/

[root@hadoop1 usr]# ls

bin capacity-scheduler.xml etc games include lib lib64 libexec local sbin share src tmp

1-7）、重命名文件

把HDFS上的capacity-scheduler.xml重命名为capacity.xml

[root@hadoop1 usr]# hadoop fs -mv /mkdirComm/capacity-scheduler.xml /mkdirComm/capacity.xml

1-8）、删除HDFS上指定的文件

删除HDFS上mkdirComm目录下的capacity-scheduler.xml文件

[root@hadoop1 usr]# hadoop fs -rm /mkdirComm/capacity-scheduler.xml

16/10/05 02:02:43 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 0 minutes, Emptier interval = 0 minutes.

Deleted /mkdirComm/capacity-scheduler.xml

1-9）、删除指定的文件夹

删除HDFS上的mkdirComm夹下的所有的数据

[root@hadoop1 usr]# hadoop fs -rmr /mkdirComm

rmr: DEPRECATED: Please use 'rm -r' instead.

16/10/05 02:04:04 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 0 minutes, Emptier interval = 0 minutes.

Deleted /mkdirComm

1-10）、命令详细

详解请查看：

http://archive.cloudera.com/cdh5/cdh/5/hadoop/hadoop-project-dist/hadoop-common/FileSystemShell.html

A）、Hadoop fs –fs [local | <file system URI>]

Hadoop fs –fs [local | <file system URI>]：声明hadoop使用的文件系统，如果不声明的话，使用当前配置文件配置的，按如下顺序查找：hadoop jar里的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-site.xml。使用local代表将本地文件系统作为hadoop的DFS。如果传递uri做参数，那么就是特定的文件系统作为DFS。

B）、hadoop fs –ls <path>

hadoop fs –ls <path>：等同于本地系统的ls，列出在指定目录下的文件内容，支持pattern匹配。输出格式如filename(full path) <r n> size.其中n代表replica的个数，size代表大小（单位bytes）。

实例：

# hadoop fs -ls /test-20171106/test2.txt

C）、hadoop fs –lsr <path>

hadoop fs –lsr <path>：递归列出匹配pattern的文件信息，类似ls，只不过递归列出所有子目录信息。

实例：

# hadoop fs -lsr /test-20171106/test2.txt

D）、hadoop fs –du <path>

hadoop fs –du <path>：列出匹配pattern的指定的文件系统空间总量（单位bytes），等价于unix下的针对目录的du –sb <path>/*和针对文件的du –b <path> ，输出格式如name(full path) size(in bytes)。

实例：

# hadoop fs -du /test-20171106/test2.txt

E）、hadoop fs –dus <path>

hadoop fs –dus <path>：等价于-du，输出格式也相同，只不过等价于unix的du -sb。

实例：

# hadoop fs -dus /test-20171106/test2.txt

F）、hadoop fs –mv <src> <dst>

hadoop fs –mv <src> <dst>：将制定格式的文件 move到指定的目标位置。当src为多个文件时，dst必须是个目录。

实例：

# hadoop fs -mv /test-20171106/test1.txt /tmp/

G）、hadoop fs –cp <src> <dst>

hadoop fs –cp <src> <dst>：拷贝文件到目标位置，当src为多个文件时，dst必须是个目录。

实例：

# hadoop fs -cp /test-20171106/test1.txt /tmp/

H）、hadoop fs –rm [-skipTrash] <src>

hadoop fs –rm [-skipTrash] <src>：删除匹配pattern的指定文件，等价于unix下的rm <src>。

实例：

# hadoop fs -rm /test-20171106/

I）、hadoop fs –rmr [skipTrash] <src>

hadoop fs –rmr [skipTrash] <src>：递归删掉所有的文件和目录，等价于unix下的rm –rf <src>。

实例：

# hadoop fs -rmr /test-20171106

K）、hadoop fs –rmi [skipTrash] <src>

hadoop fs –rmi [skipTrash] <src>：等价于unix的rm –rfi <src>。

L）、hadoop fs –put <localsrc> … <dst>

hadoop fs –put <localsrc> … <dst>：从本地系统拷贝文件到DFS。

实例：

# hadoop fs -put aaa.txt /test-20171106/

M）、hadoop fs –copyFromLocal <localsrc> … <dst>

hadoop fs –copyFromLocal <localsrc> … <dst>：等价于-put。

N）、hadoop fs –moveFromLocal <localsrc> … <dst>

hadoop fs –moveFromLocal <localsrc> … <dst>：等同于-put，只不过源文件在拷贝后被删除。

实例：

# hadoop fs -moveFromLocal /home/xiaoxu/test2.txt /test-20171106/

O）、hadoop fs –get [-ignoreCrc] [-crc] <src> <localdst>

hadoop fs –get [-ignoreCrc] [-crc] <src> <localdst>：从DFS拷贝文件到本地文件系统，文件匹配pattern，若是多个文件，则dst必须是目录。

实例：

# hadoop fs -get /test-20171106/test1.txt /home

P）、hadoop fs –getmerge <src> <localdst>

hadoop fs –getmerge <src> <localdst>：顾名思义，从DFS拷贝多个文件、合并排序为一个文件到本地文件系统。

实例：

# hadoop fs -getmerge /test-20171106/test1.txt /test-20171106/test2.txt /home/xiao3/aaa.txt

Q）、hadoop fs –cat <src>

hadoop fs –cat <src>：展示文件内容。

实例：

hadoop fs -cat /test-20171106/hive.service.keytab

R）、hadoop fs –copyToLocal [-ignoreCrc] [-crc] <src> <localdst>

hadoop fs –copyToLocal [-ignoreCrc] [-crc] <src> <localdst>：等价于-get。

实例：

# hadoop fs -copyToLocal /test-20171106/hive.service.keytab /home/

S）、hadoop fs –mkdir <path>

hadoop fs –mkdir <path> <path>：在指定位置创建目录，可以制定多个路径。

实例：

# hadoop fs -mkdir /test-20171108 /test-20171107

T）、hadoop fs –setrep [-R] [-w] <rep> <path/file>

hadoop fs -setrep -setrep [-R] [-w] <副本数> <路径>修改副本数量

实例：

# hadoop fs -setrep -R 2 /test-20171106/hive.service.keytab

Replication 2 set: /test-20171106/hive.service.keytab

可以看到已经修改了2个副本

U）、hadoop fs –chmod [-R] <MODE[,MODE]…|OCTALMODE> PATH…

hadoop fs –chmod [-R] <MODE[,MODE]…|OCTALMODE> PATH…：修改文件的权限，-R标记递归修改。MODE为a+r,g-w,+rwx等，OCTALMODE为755这样。

实例：

# hadoop fs -chmod 777 /test-20171106

V）、hadoop fs -chown [-R] [OWNER][:[GROUP]] PATH…

hadoop fs -chown [-R] [OWNER][:[GROUP]] PATH…：修改文件的所有者和组。-R表示递归。

实例：

# hadoop fs -chown -R root:root /test-20171106

W)、hadoop fs -chgrp [-R] GROUP PATH…

hadoop fs -chgrp [-R] GROUP PATH…：等价于-chown … :GROUP …。

实例：

# hadoop fs -chgrp 777 /tmp

X）、hadoop fs –count[-q] <path>

hadoop fs –count[-q] <path>：计数文件个数及所占空间的详情，输出表格的列的含义依次为：DIR_COUNT,FILE_COUNT,CONTENT_SIZE,FILE_NAME或者如果加了-q的话，还会列出QUOTA,REMAINING_QUOTA,SPACE_QUOTA,REMAINING_SPACE_QUOTA。

实例：

# hadoop fs -count /tmp

1068 26788 328166357 /tmp

L）、设置reduce.tasks启动

hadoop jar /root/hadoop-mapreduce-examples-2.7.3.2.6.0.3-8.jar terasort -Dmapred.reduce.tasks=50 /embrace/1T-input /embrace/1T-ouput

1-11）、查看文件的前N行

[root@hadoop1 testData]# tail -n 2 addressess.txt

3673,03,820201,凼仔区,820200

3674,03,820301,路环区,820300

1-12）、查看HDFS上文件的总大小

查看testtbl-data.csv文件夹的总大小

[root@hadoop1 testData]# hadoop fs -du -h -s testtbl-data.csv

10.8 G testtbl-data.csv

1-13）、查看HDFS文件上的前几行的数据

[root@hadoop1 start-single]# hadoop fs -cat /tmpbulkdata/sp_addr_data/sp_address/51cef7aca49a4532b0f5a7099ccea21e|head

DATABLK*_x001D_ÿÿÿÿÿÿÿÿ@*_x0019_1

sp_addressID[8H>110000!1

sp_addressPLACE_CODE[8H>北京市10

sp_addressID[8H>320000"10

1-14）、两个集群之间复制数据

distcp（distribution copy）用来在两个HDFS 之间拷贝数据

实例：

hadoop distcp hdfs://hadoop1:8020/tmpbulkdata/sp_addr_data/sp_address/ hdfs://master1:8020/tmpbulkdata/sp_addr_data/sp_address/

1-15）、查找日志

# yarn logs -applicationId application_1508901525098_0005

1-16）、杀掉进程

# yarn application -kill application_1508901525098_0005

或

hadoop job -kill job_1469693904965_0011

1-17）、hdfs dfsadmin 常用命令

常用命令

# hdfs dfsadmin -safemode get ## 返回安全模式是否开启的信息，返回 Safe mode is OFF/OPEN

# hdfs dfsadmin -safemode enter ## 进入安全模工

# hdfs dfsadmin -safemode leave ## 强制 NameNode 离开安全模式

# hdfs dfsadmin -safemode wait ## 等待，一直到安全模式结束

实例：

#hadoop dfsadmin -report

**********************

详细的信息请查看：http://blog.csdn.net/xfg0218/article/details/78465722

安全模式实例：

进入安全模式，需要超级管理员

退出安全模式

hadoop dfsadmin -safemode leave

进入安全模式

hadoop dfsadmin -safemode enter

1-18）、查看blocks的信息

hadoop fsck

Usage: DFSck <path> [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]]

<path> 检查这个目录中的文件是否完整

-move 破损的文件移至/lost+found目录

-delete 删除破损的文件

-openforwrite 打印正在打开写操作的文件

-files 打印正在check的文件名

-blocks 打印block报告（需要和-files参数一起使用）

-locations 打印每个block的位置信息（需要和-files参数一起使用）

-racks 打印位置信息的网络拓扑图（需要和-files参数一起使用）

A）、查看当前文件的储存路径信息

# hadoop fsck /apps/hive/warehouse/*****.db/station -files -blocks -locations

***********

/apps/hive/warehouse/*****.db/station/station.txt 35 bytes, 1 block(s): OK

0. BP-631917053-172.17.109.151-1505107242047:blk_1074082946_344142 len=35 repl=3 [DatanodeInfoWithStorage[172.17.109.169:1019,DS-93273dbd-5beb-4878-84ba-dda2674690b9,DISK], DatanodeInfoWithStorage[172.17.109.161:1019,DS-88882ffe-de8c-4312-8a4e-f0c20d7d8933,DISK], DatanodeInfoWithStorage[172.17.109.172:1019,DS-1b78dcb6-4a07-4909-9612-35059946aec4,DISK]]

# ssh 172.17.109.169

# find / -name blk_1074082946

B）、查看集群的运行状态

# hadoop fsck /

FSCK started by admin (auth:KERBEROS_SSL) from /172.17.109.153 for path / at Tue Nov 07 17:20:04 CST 2017

**************************

Total size: 11458019104593 B (Total open files size: 209859749 B)

Total dirs: 6684

Total files: 97631

Total symlinks: 0 (Files currently being written: 79)

Total blocks (validated): 166422 (avg. block size 68849185 B) (Total open file blocks (not validated): 54)

Minimally replicated blocks: 166422 (100.0 %)

Over-replicated blocks: 0 (0.0 %)

Under-replicated blocks: 0 (0.0 %)

Mis-replicated blocks: 0 (0.0 %)

Default replication factor: 3

Average block replication: 2.2904844

Corrupt blocks: 0

Missing replicas: 0 (0.0 %)

Number of data-nodes: 20

Number of racks: 1

FSCK ended at Tue Nov 07 17:20:06 CST 2017 in 1453 milliseconds

The filesystem under path '/' is HEALTHY

在以上信息可以看出Default replication factor:3 ：缺省的备份参数3

Corrupt blocks:0 ：破损的block数0

Number of data-nodes:20 ：节点的个数为20个

1-19）、显示文件的尾部

# hadoop fs -tail /test-20171106/test2.txt

1-20）、显示文件系统，文件系统大小，已用空间，可用空间和已使用百分比

# hadoop fs -df -h

Filesystem Size Used Available Use%

hdfs://rdspProCluster 714.1 T 17.7 T 696.3 T 2%

1-21）、archive压缩文件

A）、对文件进行压缩

# hadoop archive -archiveName zoo.har -p /test-20171106/test1.txt /test-20171106

17/11/06 15:30:28 INFO client.AHSProxy: Connecting to Application History server at rdsp-nn-02.test.com/172.17.109.152:10200

******************************

B）、查看数据

# hadoop dfs -ls har:///test-20171106/zoo.har

# hadoop dfs -ls -R har:/test-20171106/zoo.har

并行解压数据

hdfs dfs -cp har:/test-20171106/zoo.har hdfs:/tmp/

1-22）、数据平衡

新加机器后会产生数据节点行数据不平衡的现象，在执行任务时会较低效率，平衡术后便会解决这个现象

详细请查看：

http://blog.csdn.net/xfg0218/article/details/78465274

下载文件：链接: https://pan.baidu.com/s/1nvxHkBv 密码: 71tk 如果无法下载请联系作者

#BigDataBench_V3.2.1_Hadoop_Hive/SearchEngine/Index/nutch-1.2-hadoop1/bin/start-balancer.sh -t 10%

注意：在执行此脚本时最好在一个空闲的机器上执行，避免占用执行任务的资源。如果数据量大建议一天执行一次，数据量小建议一周执行一次，按照自己的集群规模以及数据量的大小来执行数据平衡任务

或者

sh $HADOOP_HOME/bin/start-balancer.sh -t 15%

1-23）、查看Hadoop的版本

# hadoop version

Hadoop 2.7.3.2.6.0.3-8

Subversion git@github.com:hortonworks/hadoop.git -r c6befa0f1e911140cc815e0bab744a6517abddae

Compiled by jenkins on 2017-04-01T21:32Z

Compiled with protoc 2.5.0

From source with checksum a28afaaa6b3713cb3163c88551b1c48

This command was run using /usr/hdp/2.6.0.3-8/hadoop/hadoop-common-2.7.3.2.6.0.3-8.jar

图实例

1-1）、Datanode信息

http://hadoop1:50070/

1-2）、Nodes信息

http://hadoop1:8088/

1-3）、SecondaryNameNode 信息

http://hadoop1:50090/

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2018-03-21，如有侵权请联系 cloudcommunity@tencent.com 删除

node.js

本文分享自河马coding 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度