如何在非Kerberos环境下对CDH进行扩容

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

1.文档编写目的


Hadoop集群其中一个优点就是可伸缩性(横向扩展),通过增加计算节点使服务容量产生线性增长的能力。可伸缩的应用程序的主要特点是:只需要增加资源,而不需要对应用程序本身进行大量修改。在集群资源紧张的情况下可通过动态的扩容节点来增加集群的计算能力。本篇文章主要介绍如何使用Cloudera Manager在线扩容DataNode节点。

  • 内容概述

1.创建DataNode模板

2.DataNode节点前置准备

3.上线DataNode节点并应用模板

4.执行Balance均衡集群数据

  • 测试环境

1.CM和CDH版本为5.11.2

2.集群未启用Kerberos

3.Redha7.2

4.采用具有sudo权限的ec2-user进行操作

  • 前置条件

1.拥有Cloudera Manager的管理员账号

2.CDH集群已安装成功并正常运行

2.创建DataNode节点主机模板


1.登录Cloudera Manager Web界面,进入“主机模板”界面

2.点击“创建”,创建一个datanode主机模板,并为模板选择角色

3.点击“创建”,完成DataNode模板创建

3.DataNode节点的前置准备


前置准备请参考Fayson之前的文章《CDH安装前置准备》,主要包括以下步骤:

1.确保OS的yum源可以正常使用,通过yum repolist命令可以查看到匹配的OS的所有包

2.确保Cloudera Manager的yum源运行正常

3.hosts文件配置,需要将Gateway节点的IP和hostname加入到CDH集群节点的hosts文件中,并同步到所有机器包括Gateway节点

4.禁用SELinux

5.关闭防火墙

6.设置swap为10

7.关闭透明大页面

8.配置时钟同步

请务必确保以上操作都已完成,并成功配置,否则接下来的增加节点操作会失败!

4.上线DataNode节点


1.点击“所有主机”,进入主机列表

2.点击“向集群添加新主机”

3.点击“经典向导”,进入添加新主机引导页

4.点击“继续”,输入要添加的新主机ip或hostname

点击“搜索”

5.选择需要添加到集群的主机,点击“继续”

6.输入Cloudera Manager Agent的parcel库地址,点击“继续”

勾选Java开发工具包及无限制强度加密策略文件。

7.安装JDK,点击“继续”

8.输入ec2-user用户密码,点击“继续”

向集群添加新主机,等待安装成功。

9.安装完成,点击“继续”

向新主机分发并激活parcel

10.激活成功,点击“继续”

11.主机正确性检查通过,点击“继续”,选择主机模板

12.点击“继续”,启动主机角色

启动成功

13.点击“继续”,部署客户端配置

14.点击“完成”,进入主机列表

至此,向CDH已完成向CDH集群添加数据节点。

节点上线后各服务节点磁盘使用情况

可以看到新添加的DataNode节点,磁盘几乎未使用,说明暂未有数据写入该数据节点。接下来对DataNode节点进行数据平衡操作。

5.执行Balance操作


Balance是为了平衡数据,如果不执行该操作,集群将会把新的数据都存放在新的datanode上,这样会造成数据分布不平衡,影响作业的工作效率。

1.进入HDFS服务,选择“重新平衡”菜单

2.点击“重新平衡”

3.点击“重新平衡”,执行重新平衡操作

4.执行成功

Balance参数说明:

重新平衡阈值:值越低各节点越平衡,但消耗时间也更长,默认为10%

dfs.datanode.balance.max.concurrent.moves:允许同时并发复制的块数

6.查看数据分布情况


通过HDFS的http://hostname:50070界面可以看到在执行了“重新平衡”操作后,新加入的DataNode节点磁盘的使用率和其它节点磁盘使用率相差在10%以内,如果需要降低各节点磁盘使用率差则需要调整“重新平衡阈值”该值越低节点磁盘使用率差越低。

为天地立心,为生民立命,为往圣继绝学,为万世开太平。

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看

原文发布于微信公众号 - Hadoop实操(gh_c4c535955d0f)

原文发表时间:2017-12-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Hadoop实操

如何使用HiBench进行基准测试

1.4K40
来自专栏刘远的专栏

airflow—服务失效监控(5)

因为DAG文件会在调度器和worker执行时加载,如果在DAG中引用了第三方的库或进行了DB操作,则这些操作会在DAG文件加载时被频繁调用。举个例子,如果升级了...

35730
来自专栏Hadoop实操

Cloudera Manager管理控制台

Cloudera Manager管理控制台(Cloudera Manager Admin Console)是一个基于Web的用户界面,用于配置,管理和监控CDH...

1.4K110
来自专栏数说工作室

零基础搭建分布式集群的几个方法

大家好,许久没更新了,这段时间忙着换工作和交接过度(对,换工作了);另一方面,这段时间试着搭建了一下分布式集群,本来打算跟大家详细分享一下,由于是零基础,中间还...

38950
来自专栏分布式系统和大数据处理

安装和配置Hadoop(单节点)

Hadoop生态圈仍处于欣欣向荣的发展态势,不断涌现新的技术和名词。Hadoop的HDFS、YARN、MapReduce仍是最基础的部分,这篇文章记录了如何一步...

90630
来自专栏Hadoop实操

CDSW1.3的新功能

前两天Fayson介绍过《CDH5.14和CM5.14的新功能》,与CDH5.14同时发布的还有CDSW1.3,以下我们具体看看CDSW1.3的新功能。

45760
来自专栏鸿的学习笔记

YARN--大数据的资源管理器

最初,Hadoop主要限于范例MapReduce,其中资源管理由JobTracker和TaskTacker完成。JobTracker将MapReduce任务传播...

20220
来自专栏乐沙弥的世界

Windows 2012配置故障转移(For SQLServer 2014 AlwaysOn)

单击”管理”菜单,选择”添加角色和功能” 单击”下一步”,选择”基于角色或基于功能的安装”,单击”下一步” 选择本地服务器,单击”下一步”,直到功能模块...

18720
来自专栏ml

生成命令行接口--google开源的fire使用体验【python-fire】

在python中,命令行接口常用的argparse 和click,但是相对于python-fire 来说灵活度太缺了,fire可以直接将python中的函数,以...

27020
来自专栏Hadoop实操

Impala动态资源池及放置规则使用

Fayson在前面的文章介绍了《如何启用Impala的动态资源池》。管理员可以通过Impala的动态资源池、放置规则及ACL控制不同的用户对Impala资源使用...

63040

扫码关注云+社区

领取腾讯云代金券