前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >《快学BigData》--Hadoop总结(D)(37)

《快学BigData》--Hadoop总结(D)(37)

作者头像
小徐
发布2019-08-05 14:42:16
5320
发布2019-08-05 14:42:16
举报
文章被收录于专栏:Greenplum

Hadoop总结 - - - - - - - - - - - - - - - - - - - - - - - - - - - - 210

概述 - - - - - - - - - - - - - - - - - - - - - - - - - - - - 211

CDH - - - - - - - - - - - - - - - - - - - - - - - - - - - - 211

安装Hadoop2.6.4 非Zookeeper集群版 - - - - - - - - - - - - - - - 211

安装Hadoop2.6.4 Zookeeper集群版 - - - - - - - - - - - - - - - 216

MapReduce整体的流程详解 - - - - - - - - - - - - - - - - - - - - 225

Hadoop HDFS 系统详解 - - - - - - - - - - - - - - - - - - - - - 226

JAVA 操作HDFS - - - - - - - - - - - - - - - - - - - - - - - - 241

Hadoop MapReduce 实例 - - - - - - - - - - - - - - - - - - - - 248

Hadoop 其他总结 - - - - - - - - - - - - - - - - - - - - - - - - 259

Hadoop 优化总结 - - - - - - - - - - - - - - - - - - - - - - - - 259

Hadoop HDFS 系统详解

概述

1、HDFS分为两大角色:Namenode , datanode , Secondary Name

2、nameNode 保存数据的元数据

3、DataNode 负责管理用户的文件的数据块,文件会按照块的大小保存到不同的DataNode ,每一个数据都有很多块的副本,保存在不同的机器上。

4、DataNode 会定期的向namenode汇报保存到数据的情况

5、HDFS的内部工作机制对客户端保持透明,客户端请求访问HDFS都是通过向namenode申请来进行

用户上传文件思路

1、客户端向nameNode发送要上传文件的请求,并把文件分为128M的块

2、nameNode 返回给用户是否能上传数据的状态

3、加入用户端需要上传一个120M的文件,客户端会通过Rpc请求NameNode,并返回需要上传给那些DataNode(分配机器的距离以及空间的大小等),会选择离namenode比较近的机器分配,同机架的有限.

4、客户端请求建立block传输管道chnnel上传数据

5、在上传是datanode会与其他的机器建立连接并把数据块传送到其他的机器上

6、dataNode向namenode汇报自己的储存情况以及自己的信息

7、档第一个快上传完后再去执行其他的快的上传

图例

补充:

它分为两个部分:NameNode和DateNode,NameNode相当于一个领导,它管理集群内的DataNode,当客户发送请求过来后,NameNode会根据情况指定存储到哪些DataNode上,而其本身自己并不存储真实的数据。那NameNode怎么知道集群内DataNode的信息呢?DataNode发送心跳信息给NameNode。

Namenode具备机架感知的能力,可以配置.

用户读取数据的流程

客户端将需要读取的文件的信息发送给namenode,namenode会把文件的元数据返回给用户,用户根据返回的储存block的机器上去请求datanode的信息,最后客户端再把数据库合并成整个数据。

图例

元数据的Checkpoint 过程

1-1)、概念

每隔一段时间secondary namenode 将namenode 上积累的所有的edits和一个最新的fsimage下载到本地,并加载到内存进行merge的过程叫做checkpoit

1-2)、查看元数据的信息

下面是保存edits与fsimage的路径, /usr/local/hadoop-2.6.4/data/name/current/下:

[root@hadoop1 current]# ll

total 2088

-rw-r--r--. 1 root root 270 Sep 2 05:45 edits_0000000000000000001-0000000000000000005

-rw-r--r--. 1 root root 42 Sep 2 08:05 edits_0000000000000000006-0000000000000000007

-rw-r--r--. 1 root root 1048576 Sep 2 08:05 edits_0000000000000000008-0000000000000000008

-rw-r--r--. 1 root root 42 Sep 12 21:14 edits_0000000000000000009-0000000000000000010

-rw-r--r--. 1 root root 42 Sep 12 22:14 edits_0000000000000000011-0000000000000000012

-rw-r--r--. 1 root root 1048576 Sep 12 22:14 edits_inprogress_0000000000000000013

-rw-r--r--. 1 root root 554 Sep 12 21:14 fsimage_0000000000000000010

-rw-r--r--. 1 root root 62 Sep 12 21:14 fsimage_0000000000000000010.md5

-rw-r--r--. 1 root root 554 Sep 12 22:14 fsimage_0000000000000000012

-rw-r--r--. 1 root root 62 Sep 12 22:14 fsimage_0000000000000000012.md5

-rw-r--r--. 1 root root 3 Sep 12 22:14 seen_txid

-rw-r--r--. 1 root root 207 Sep 12 20:45 VERSION

http://hadoop1:50070/dfshealth.html#tab-startup-progress

1-3)、图例
1-4)、checkPoint的附带作用

namenode和secondary namenode的工作目录存储结构完全相同,所以,当namenode故障退出需要重新恢复时,可以从secondary namenode的工作目录中将fsimage拷贝到namenode的工作目录,以恢复namenode的元数据

DataNode 工作机制

1-1)、dataNode 工作机制

Data会定期的向namenode 汇报自己的block储存的信息,被称为心跳,因为储存的信息特别重要,配置选项如下:

<property>

<name>dfs.blockreport.intervalMsec</name>

<value>3600000</value>

<description>Determines block reporting interval in milliseconds.</description>

</property>

1-2)、namenode 故障判断

Datanode 进程死亡或者网络的原因导致无法与namenode进行通信,namenome并不会马上任务datanome是死亡的,需要经过一点时间,那么这段时间被称为超时时长,HDFS默认的时间为10分钟+30秒,定义超时的时间为timeout,可以通过hdfs.site.xml进行配置,时间的单位为毫秒,如下:

<property>

<name>heartbeat.recheck.interval</name>

<value>2000</value>

</property>

<property>

<name>dfs.heartbeat.interval</name>

<value>1</value>

</property>

Hadoop & hadoop fs 常用命令

1-1)、hadoop 常用参数列表

[root@hadoop1 hadoop]# hadoop -help

Usage: hadoop [--config confdir] COMMAND

where COMMAND is one of:

fs run a generic filesystem user client

version print the version

jar <jar> run a jar file

checknative [-a|-h] check native hadoop and compression libraries availability

distcp <srcurl> <desturl> copy file or directories recursively

archive -archiveName NAME -p <parent path> <src>* <dest> create a hadoop archive

classpath prints the class path needed to get the

credential interact with credential providers

Hadoop jar and the required libraries

daemonlog get/set the log level for each daemon

trace view and modify Hadoop tracing settings

or

CLASSNAME run the class named CLASSNAME

Most commands print help when invoked w/o parameters.

1-2)、 Hadoop fs 的参数列表

[root@hadoop1 hadoop]# hadoop fs -help

Usage: hadoop fs [generic options]

[-appendToFile <localsrc> ... <dst>]

[-cat [-ignoreCrc] <src> ...]

[-checksum <src> ...]

[-chgrp [-R] GROUP PATH...]

[-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...]

[-chown [-R] [OWNER][:[GROUP]] PATH...]

[-copyFromLocal [-f] [-p] [-l] <localsrc> ... <dst>]

[-copyToLocal [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]

[-count [-q] [-h] <path> ...]

[-cp [-f] [-p | -p[topax]] <src> ... <dst>]

[-createSnapshot <snapshotDir> [<snapshotName>]]

[-deleteSnapshot <snapshotDir> <snapshotName>]

[-df [-h] [<path> ...]]

[-du [-s] [-h] <path> ...]

[-expunge]

[-get [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]

[-getfacl [-R] <path>]

[-getfattr [-R] {-n name | -d} [-e en] <path>]

[-getmerge [-nl] <src> <localdst>]

[-help [cmd ...]]

[-ls [-d] [-h] [-R] [<path> ...]]

[-mkdir [-p] <path> ...]

[-moveFromLocal <localsrc> ... <dst>]

[-moveToLocal <src> <localdst>]

[-mv <src> ... <dst>]

[-put [-f] [-p] [-l] <localsrc> ... <dst>]

[-renameSnapshot <snapshotDir> <oldName> <newName>]

[-rm [-f] [-r|-R] [-skipTrash] <src> ...]

[-rmdir [--ignore-fail-on-non-empty] <dir> ...]

[-setfacl [-R] [{-b|-k} {-m|-x <acl_spec>} <path>]|[--set <acl_spec> <path>]]

[-setfattr {-n name [-v value] | -x name} <path>]

[-setrep [-R] [-w] <rep> <path> ...]

[-stat [format] <path> ...]

[-tail [-f] <file>]

[-test -[defsz] <path>]

[-text [-ignoreCrc] <src> ...]

[-touchz <path> ...]

[-usage [cmd ...]]

多看一下帮助详情,对今后的操作有帮助

1-3)、创建文件夹

[root@hadoop1 ~]# hadoop fs -mkdir /mkdirComm

[root@hadoop1 ~]# hadoop fs -ls /

drwxr-xr-x - root supergroup 0 2016-10-05 01:55 /mkdirComm

1-4)、上传文件

把本地/usr/local/hadoop-2.6.4/etc/hadoop/目录下的所有文件上传到/mkdirComm目录下

[root@hadoop1 ~]# hadoop fs -put /usr/local/hadoop-2.6.4/etc/hadoop/* /mkdirComm

[root@hadoop1 ~]# hadoop fs -ls /mkdirComm

Found 29 items

-rw-r--r-- 3 root supergroup 4436 2016-10-05 01:57 /mkdirComm/capacity-scheduler.xml

-rw-r--r-- 3 root supergroup 1335 2016-10-05 01:57 /mkdirComm/configuration.xsl

-rw-r--r-- 3 root supergroup 318 2016-10-05 01:57 /mkdirComm/container-executor.cfg

-rw-r--r-- 3 root supergroup 952 2016-10-05 01:57 /mkdirComm/core-site.xml

****************

1-5)、查看文件

查看全部的数据

[root@hadoop1 ~]# hadoop fs -cat /mkdirComm/capacity-scheduler.xml

<!--

Licensed under the Apache License, Version 2.0 (the "License");

you may not use this file except in compliance with the License.

You may obtain a copy of the License at

***************************

或者用head查看前几行数据

[root@hadoop1 ~]# hadoop fs -cat /mkdirComm/capacity-scheduler.xml | head

<!--

Licensed under the Apache License, Version 2.0 (the "License");

you may not use this file except in compliance with the License.

You may obtain a copy of the License at

1-6)、下载HDFS上的文件

把HDFS上的文件下载到本地的/user文件夹下

[root@hadoop1 ~]# hadoop fs -get /mkdirComm/capacity-scheduler.xml /usr/

[root@hadoop1 usr]# ls

bin capacity-scheduler.xml etc games include lib lib64 libexec local sbin share src tmp

1-7)、重命名文件

把HDFS上的capacity-scheduler.xml重命名为capacity.xml

[root@hadoop1 usr]# hadoop fs -mv /mkdirComm/capacity-scheduler.xml /mkdirComm/capacity.xml

1-8)、删除HDFS上指定的文件

删除HDFS上mkdirComm目录下的capacity-scheduler.xml文件

[root@hadoop1 usr]# hadoop fs -rm /mkdirComm/capacity-scheduler.xml

16/10/05 02:02:43 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 0 minutes, Emptier interval = 0 minutes.

Deleted /mkdirComm/capacity-scheduler.xml

1-9)、删除指定的文件夹

删除HDFS上的mkdirComm夹下的所有的数据

[root@hadoop1 usr]# hadoop fs -rmr /mkdirComm

rmr: DEPRECATED: Please use 'rm -r' instead.

16/10/05 02:04:04 INFO fs.TrashPolicyDefault: Namenode trash configuration: Deletion interval = 0 minutes, Emptier interval = 0 minutes.

Deleted /mkdirComm

1-10)、命令详细

详解请查看:

http://archive.cloudera.com/cdh5/cdh/5/hadoop/hadoop-project-dist/hadoop-common/FileSystemShell.html

A)、Hadoop fs –fs [local | <file system URI>]

Hadoop fs –fs [local | <file system URI>]:声明hadoop使用的文件系统,如果不声明的话,使用当前配置文件配置的,按如下顺序查找:hadoop jar里的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-site.xml。使用local代表将本地文件系统作为hadoop的DFS。如果传递uri做参数,那么就是特定的文件系统作为DFS。

B)、hadoop fs –ls <path>

hadoop fs –ls <path>:等同于本地系统的ls,列出在指定目录下的文件内容,支持pattern匹配。输出格式如filename(full path) <r n> size.其中n代表replica的个数,size代表大小(单位bytes)。

实例:

# hadoop fs -ls /test-20171106/test2.txt

C)、hadoop fs –lsr <path>

hadoop fs –lsr <path>:递归列出匹配pattern的文件信息,类似ls,只不过递归列出所有子目录信息。

实例:

# hadoop fs -lsr /test-20171106/test2.txt

D)、hadoop fs –du <path>

hadoop fs –du <path>:列出匹配pattern的指定的文件系统空间总量(单位bytes),等价于unix下的针对目录的du –sb <path>/*和针对文件的du –b <path> ,输出格式如name(full path) size(in bytes)。

实例:

# hadoop fs -du /test-20171106/test2.txt

E)、hadoop fs –dus <path>

hadoop fs –dus <path>:等价于-du,输出格式也相同,只不过等价于unix的du -sb。

实例:

# hadoop fs -dus /test-20171106/test2.txt

F)、hadoop fs –mv <src> <dst>

hadoop fs –mv <src> <dst>:将制定格式的文件 move到指定的目标位置。当src为多个文件时,dst必须是个目录。

实例:

# hadoop fs -mv /test-20171106/test1.txt /tmp/

G)、hadoop fs –cp <src> <dst>

hadoop fs –cp <src> <dst>:拷贝文件到目标位置,当src为多个文件时,dst必须是个目录。

实例:

# hadoop fs -cp /test-20171106/test1.txt /tmp/

H)、hadoop fs –rm [-skipTrash] <src>

hadoop fs –rm [-skipTrash] <src>:删除匹配pattern的指定文件,等价于unix下的rm <src>。

实例:

# hadoop fs -rm /test-20171106/

I)、hadoop fs –rmr [skipTrash] <src>

hadoop fs –rmr [skipTrash] <src>:递归删掉所有的文件和目录,等价于unix下的rm –rf <src>。

实例:

# hadoop fs -rmr /test-20171106

K)、hadoop fs –rmi [skipTrash] <src>

hadoop fs –rmi [skipTrash] <src>:等价于unix的rm –rfi <src>。

L)、hadoop fs –put <localsrc> … <dst>

hadoop fs –put <localsrc> … <dst>:从本地系统拷贝文件到DFS。

实例:

# hadoop fs -put aaa.txt /test-20171106/

M)、hadoop fs –copyFromLocal <localsrc> … <dst>

hadoop fs –copyFromLocal <localsrc> … <dst>:等价于-put。

N)、hadoop fs –moveFromLocal <localsrc> … <dst>

hadoop fs –moveFromLocal <localsrc> … <dst>:等同于-put,只不过源文件在拷贝后被删除。

实例:

# hadoop fs -moveFromLocal /home/xiaoxu/test2.txt /test-20171106/

O)、hadoop fs –get [-ignoreCrc] [-crc] <src> <localdst>

hadoop fs –get [-ignoreCrc] [-crc] <src> <localdst>:从DFS拷贝文件到本地文件系统,文件匹配pattern,若是多个文件,则dst必须是目录。

实例:

# hadoop fs -get /test-20171106/test1.txt /home

P)、hadoop fs –getmerge <src> <localdst>

hadoop fs –getmerge <src> <localdst>:顾名思义,从DFS拷贝多个文件、合并排序为一个文件到本地文件系统。

实例:

# hadoop fs -getmerge /test-20171106/test1.txt /test-20171106/test2.txt /home/xiao3/aaa.txt

Q)、hadoop fs –cat <src>

hadoop fs –cat <src>:展示文件内容。

实例:

hadoop fs -cat /test-20171106/hive.service.keytab

R)、hadoop fs –copyToLocal [-ignoreCrc] [-crc] <src> <localdst>

hadoop fs –copyToLocal [-ignoreCrc] [-crc] <src> <localdst>:等价于-get。

实例:

# hadoop fs -copyToLocal /test-20171106/hive.service.keytab /home/

S)、hadoop fs –mkdir <path>

hadoop fs –mkdir <path> <path>:在指定位置创建目录,可以制定多个路径。

实例:

# hadoop fs -mkdir /test-20171108 /test-20171107

T)、hadoop fs –setrep [-R] [-w] <rep> <path/file>

hadoop fs -setrep -setrep [-R] [-w] <副本数> <路径>修改副本数量

实例:

# hadoop fs -setrep -R 2 /test-20171106/hive.service.keytab

Replication 2 set: /test-20171106/hive.service.keytab

可以看到已经修改了2个副本

U)、hadoop fs –chmod [-R] <MODE[,MODE]…|OCTALMODE> PATH…

hadoop fs –chmod [-R] <MODE[,MODE]…|OCTALMODE> PATH…:修改文件的权限,-R标记递归修改。MODE为a+r,g-w,+rwx等,OCTALMODE为755这样。

实例:

# hadoop fs -chmod 777 /test-20171106

V)、hadoop fs -chown [-R] [OWNER][:[GROUP]] PATH…

hadoop fs -chown [-R] [OWNER][:[GROUP]] PATH…:修改文件的所有者和组。-R表示递归。

实例:

# hadoop fs -chown -R root:root /test-20171106

W)、hadoop fs -chgrp [-R] GROUP PATH…

hadoop fs -chgrp [-R] GROUP PATH…:等价于-chown … :GROUP …。

实例:

# hadoop fs -chgrp 777 /tmp

X)、hadoop fs –count[-q] <path>

hadoop fs –count[-q] <path>:计数文件个数及所占空间的详情,输出表格的列的含义依次为:DIR_COUNT,FILE_COUNT,CONTENT_SIZE,FILE_NAME或者如果加了-q的话,还会列出QUOTA,REMAINING_QUOTA,SPACE_QUOTA,REMAINING_SPACE_QUOTA。

实例:

# hadoop fs -count /tmp

1068 26788 328166357 /tmp

L)、设置reduce.tasks启动

hadoop jar /root/hadoop-mapreduce-examples-2.7.3.2.6.0.3-8.jar terasort -Dmapred.reduce.tasks=50 /embrace/1T-input /embrace/1T-ouput

1-11)、查看文件的前N行

[root@hadoop1 testData]# tail -n 2 addressess.txt

3673,03,820201,凼仔区,820200

3674,03,820301,路环区,820300

1-12)、查看HDFS上文件的总大小

查看testtbl-data.csv文件夹的总大小

[root@hadoop1 testData]# hadoop fs -du -h -s testtbl-data.csv

10.8 G testtbl-data.csv

1-13)、查看HDFS文件上的前几行的数据

[root@hadoop1 start-single]# hadoop fs -cat /tmpbulkdata/sp_addr_data/sp_address/51cef7aca49a4532b0f5a7099ccea21e|head

DATABLK*_x001D_ÿÿÿÿÿÿÿÿ@*_x0019_1

sp_addressID[8H>110000!1

sp_addressPLACE_CODE[8H>北京市10

sp_addressID[8H>320000"10

1-14)、两个集群之间复制数据

distcp(distribution copy)用来在两个HDFS 之间拷贝数据

实例:

hadoop distcp hdfs://hadoop1:8020/tmpbulkdata/sp_addr_data/sp_address/ hdfs://master1:8020/tmpbulkdata/sp_addr_data/sp_address/

1-15)、查找日志

# yarn logs -applicationId application_1508901525098_0005

1-16)、杀掉进程

# yarn application -kill application_1508901525098_0005

hadoop job -kill job_1469693904965_0011

1-17)、hdfs dfsadmin 常用命令

常用命令

# hdfs dfsadmin -safemode get ## 返回安全模式是否开启的信息,返回 Safe mode is OFF/OPEN

# hdfs dfsadmin -safemode enter ## 进入安全模工

# hdfs dfsadmin -safemode leave ## 强制 NameNode 离开安全模式

# hdfs dfsadmin -safemode wait ## 等待,一直到安全模式结束

实例:

#hadoop dfsadmin -report

**********************

详细的信息请查看:http://blog.csdn.net/xfg0218/article/details/78465722

安全模式实例:

进入安全模式,需要超级管理员

退出安全模式

hadoop dfsadmin -safemode leave

进入安全模式

hadoop dfsadmin -safemode enter

1-18)、查看blocks的信息

hadoop fsck

Usage: DFSck <path> [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]]

<path> 检查这个目录中的文件是否完整

-move 破损的文件移至/lost+found目录

-delete 删除破损的文件

-openforwrite 打印正在打开写操作的文件

-files 打印正在check的文件名

-blocks 打印block报告 (需要和-files参数一起使用)

-locations 打印每个block的位置信息(需要和-files参数一起使用)

-racks 打印位置信息的网络拓扑图 (需要和-files参数一起使用)

A)、查看当前文件的储存路径信息

# hadoop fsck /apps/hive/warehouse/*****.db/station -files -blocks -locations

***********

/apps/hive/warehouse/*****.db/station/station.txt 35 bytes, 1 block(s): OK

0. BP-631917053-172.17.109.151-1505107242047:blk_1074082946_344142 len=35 repl=3 [DatanodeInfoWithStorage[172.17.109.169:1019,DS-93273dbd-5beb-4878-84ba-dda2674690b9,DISK], DatanodeInfoWithStorage[172.17.109.161:1019,DS-88882ffe-de8c-4312-8a4e-f0c20d7d8933,DISK], DatanodeInfoWithStorage[172.17.109.172:1019,DS-1b78dcb6-4a07-4909-9612-35059946aec4,DISK]]

# ssh 172.17.109.169

# find / -name blk_1074082946

B)、查看集群的运行状态

# hadoop fsck /

FSCK started by admin (auth:KERBEROS_SSL) from /172.17.109.153 for path / at Tue Nov 07 17:20:04 CST 2017

**************************

Total size: 11458019104593 B (Total open files size: 209859749 B)

Total dirs: 6684

Total files: 97631

Total symlinks: 0 (Files currently being written: 79)

Total blocks (validated): 166422 (avg. block size 68849185 B) (Total open file blocks (not validated): 54)

Minimally replicated blocks: 166422 (100.0 %)

Over-replicated blocks: 0 (0.0 %)

Under-replicated blocks: 0 (0.0 %)

Mis-replicated blocks: 0 (0.0 %)

Default replication factor: 3

Average block replication: 2.2904844

Corrupt blocks: 0

Missing replicas: 0 (0.0 %)

Number of data-nodes: 20

Number of racks: 1

FSCK ended at Tue Nov 07 17:20:06 CST 2017 in 1453 milliseconds

The filesystem under path '/' is HEALTHY

在以上信息可以看出Default replication factor:3 : 缺省的备份参数3

Corrupt blocks:0 : 破损的block数0

Number of data-nodes:20 : 节点的个数为20个

1-19)、显示文件的尾部

# hadoop fs -tail /test-20171106/test2.txt

1-20)、显示文件系统,文件系统大小,已用空间,可用空间和已使用百分比

# hadoop fs -df -h

Filesystem Size Used Available Use%

hdfs://rdspProCluster 714.1 T 17.7 T 696.3 T 2%

1-21)、archive压缩文件
A)、对文件进行压缩

# hadoop archive -archiveName zoo.har -p /test-20171106/test1.txt /test-20171106

17/11/06 15:30:28 INFO client.AHSProxy: Connecting to Application History server at rdsp-nn-02.test.com/172.17.109.152:10200

******************************

B)、查看数据

# hadoop dfs -ls har:///test-20171106/zoo.har

# hadoop dfs -ls -R har:/test-20171106/zoo.har

并行解压数据

hdfs dfs -cp har:/test-20171106/zoo.har hdfs:/tmp/

1-22)、数据平衡

新加机器后会产生数据节点行数据不平衡的现象,在执行任务时会较低效率,平衡术后便会解决这个现象

详细请查看:

http://blog.csdn.net/xfg0218/article/details/78465274

下载文件:链接: https://pan.baidu.com/s/1nvxHkBv 密码: 71tk 如果无法下载请联系作者

#BigDataBench_V3.2.1_Hadoop_Hive/SearchEngine/Index/nutch-1.2-hadoop1/bin/start-balancer.sh -t 10%

注意:在执行此脚本时最好在一个空闲的机器上执行,避免占用执行任务的资源。如果数据量大建议一天执行一次,数据量小建议一周执行一次,按照自己的集群规模以及数据量的大小来执行数据平衡任务

或者

sh $HADOOP_HOME/bin/start-balancer.sh -t 15%

1-23)、查看Hadoop的版本

# hadoop version

Hadoop 2.7.3.2.6.0.3-8

Subversion git@github.com:hortonworks/hadoop.git -r c6befa0f1e911140cc815e0bab744a6517abddae

Compiled by jenkins on 2017-04-01T21:32Z

Compiled with protoc 2.5.0

From source with checksum a28afaaa6b3713cb3163c88551b1c48

This command was run using /usr/hdp/2.6.0.3-8/hadoop/hadoop-common-2.7.3.2.6.0.3-8.jar

图实例

1-1)、Datanode信息

http://hadoop1:50070/

1-2)、Nodes信息

http://hadoop1:8088/

1-3)、SecondaryNameNode 信息

http://hadoop1:50090/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-03-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 河马coding 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Hadoop HDFS 系统详解
    • 概述
      • 用户上传文件思路
        • 图例
      • 用户读取数据的流程
        • 图例
      • 元数据的Checkpoint 过程
        • 1-1)、概念
        • 1-2)、查看元数据的信息
        • 1-3)、图例
        • 1-4)、checkPoint的附带作用
      • DataNode 工作机制
        • 1-1)、dataNode 工作机制
        • 1-2)、namenode 故障判断
      • Hadoop & hadoop fs 常用命令
        • 1-1)、hadoop 常用参数列表
        • 1-2)、 Hadoop fs 的参数列表
        • 1-3)、创建文件夹
        • 1-4)、上传文件
        • 1-5)、查看文件
        • 1-6)、下载HDFS上的文件
        • 1-7)、重命名文件
        • 1-8)、删除HDFS上指定的文件
        • 1-9)、删除指定的文件夹
        • 1-10)、命令详细
        • 1-11)、查看文件的前N行
        • 1-12)、查看HDFS上文件的总大小
        • 1-13)、查看HDFS文件上的前几行的数据
        • 1-14)、两个集群之间复制数据
        • 1-15)、查找日志
        • 1-16)、杀掉进程
        • 1-17)、hdfs dfsadmin 常用命令
        • 1-18)、查看blocks的信息
        • 1-19)、显示文件的尾部
        • 1-20)、显示文件系统,文件系统大小,已用空间,可用空间和已使用百分比
        • 1-21)、archive压缩文件
        • 1-22)、数据平衡
        • 1-23)、查看Hadoop的版本
      • 图实例
        • 1-1)、Datanode信息
        • 1-2)、Nodes信息
        • 1-3)、SecondaryNameNode 信息
    相关产品与服务
    大数据
    全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档