大数据平台CDH搭建

一、概述

Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称“CDH”),基于Web的用户界面,支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop,简化了大数据平台的安装、使用难度。

二、安装部署

序号

IP地址

主机名

系统版本

1

172.20.2.222

cm-server

centos7.3

2

172.20.2.203

hadoop-1

centos7.3

3

172.20.2.204

hadoop-2

centos7.3

4

172.20.2.205

hadoop-3

centos7.3

2.2.1 基础环境部署

a.修改主机名配置hosts

systemctl stop firewalld
hostnamectl set-hostname  cm-server   #更改个主机名
sed -i 's/SELINUX=enforcing/SELINUX=disable/g' /etc/selinux/config
setenforce 0
cat >>/etc/hosts<<EOF    #添加各个节点hosts解析
172.20.2.222    cm-server
172.20.2.203	  hadoop-1
172.20.2.204	  hadoop-2
172.20.2.205	  hadoop-3
EOF

b.配置cm-server免密钥登录其他节点

ssh-keygen -t rsa     #在cm-server生成密钥对
for num in `seq 1 3`;do ssh-copy-id -i /root/.ssh/id_rsa.pub root@hadoop-$num;done

c.在cm-server安装数据库

在cm-server上安装mariadb,用于后期数据存储

yum install mariadb*
systemctl start mariadb
mysql -uroot password "mysqladmin"
登录数据库后我们采用root登录

e.java环境配置

如果系统有安装java环境卸载干净使用oracle的jdk,此处使用jdk-7u80-linux-x64.rpm,在各节点均配置java环境

rpm -ivh jdk-7u80-linux-x64.rpm
cat >/etc/profile.d/java.sh<<EOF
export JAVA_HOME=/usr/java/jdk1.8.0_121
export CLASSPATH=.:\$JAVA_HOME/jre/lib/rt.jar:\$JAVA_HOME/lib/dt.jar:\$JAVA_HOME/lib/tools.jar 
export PATH=\$PATH:\$JAVA_HOME/bin
EOF
source /etc/profile.d/java.sh

f.配置各节点服务器需求

sysctl -w vm.swappiness=10
echo "vm.swappiness=10" >>/etc/sysctl.conf
echo never > /sys/kernel/mm/transparent_hugepage/defrag
echo never > /sys/kernel/mm/transparent_hugepage/enabled

2.2.2 Cloudera Manager安装

a.下载解压相关软件包

mkdir /software && cd /software
wget -c https://archive.cloudera.com/cm5/cm/5/cloudera-manager-centos7-cm5.14.1_x86_64.tar.gz 
wget -c http://archive.cloudera.com/cdh5/parcels/5.14.2/CDH-5.14.2-1.cdh5.14.2.p0.3-el7.parcel
wget -c http://archive.cloudera.com/cdh5/parcels/5.14.2/CDH-5.14.2-1.cdh5.14.2.p0.3-el7.parcel.sha1 -O CDH-5.14.2-1.cdh5.14.2.p0.3-el7.parcel.sha
wget -c http://archive.cloudera.com/cdh5/parcels/5.14.2/manifest.json
wget -c https://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.46.zip
tar -zxvf cloudera-manager-centos7-cm5.14.1_x86_64.tar.gz -C /opt/   #解压cm包
unzip mysql-connector-java-5.1.46.zip  #解压java-mysql连接jar包
cp mysql-connector-java-5.1.46/mysql-connector-java-5.1.46-bin.jar /opt/cm-5.14.1/share/cmf/lib/    #将jar包复制到cm的lib目录下
cp mysql-connector-java-5.1.46/mysql-connector-java-5.1.46-bin.jar 

b.创建用户及初始化数据库

useradd --system --home=/opt/cm-5.14.1/run/cloudera-scm-server/ --no-create-home --shell=/bin/false --comment "Cloudera SCM User" cloudera-scm     #在各个节点均创建用户
vim /opt/cm-5.14.1/etc/cloudera-scm-agent/config.ini将其中的server_host=cm-server     #指向cm-server
usage: /opt/cm-5.14.1/share/cmf/schema/scm_prepare_database.sh [options] (postgresql|mysql|oracle) database username [password]    #使用选项
/opt/cm-5.14.1/share/cmf/schema/scm_prepare_database.sh mysql cmdb -h"cm-server" -uroot -pmysqladmin --scm-host cm-server scm scm scm

c.将文件将cm-server修改完成的文件分发到其他各节点

for i in `seq 1 3`;do scp -r /opt/cm-5.14.1 hadoop-$i:/opt/;done

d.创建本地源

mv CDH-5.14.2-1.cdh5.14.2.p0.3-el7.parcel* manifest.json /opt/cloudera/parcel-repo/

e.启动服务

在cm-server启动server和agent服务,在其他节点启动agent服务

/opt/cm-5.14.1/etc/init.d/cloudera-scm-server start
/opt/cm-5.14.1/etc/init.d/cloudera-scm-agent start

2.2.2 Cloudera Manager的web界面配置

服务器均启动后,可以浏览器访问cm-server的7180端口,用户名/密码为admin/admin

接受协议继续

可以选择适用60天

提示一些涉及许可证的信息

勾选管理的主机继续操作

选择CDH-5.14版本

parcel安装

主机正确性检查

群集设置(选择安装的服务)

自定义角色分配,选择安装在那个节点上

数据库设置

需要提前创建数据库及授权其他节点可以正常连接

审核更改

集群安装

完成安装

后期可添加服务

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Hadoop实操

如何启用Impala的动态资源池

在Cloudera Manager中动态资源池分为Yarn的动态资源池和Impala的动态资源池两种。Fayson在前面有多篇文章介绍了Yarn动态资源池的使用...

5034
来自专栏pangguoming

CentOS 7安装Hadoop 3.0.0

最近在学习大数据,需要安装Hadoop,自己弄了好久,最后终于弄好了。网上也有很多文章关于安装Hadoop的,但总会遇到一些问题,所以把在CentOS 7安装H...

41710
来自专栏码字搬砖

CDH集成Kafka

1.离线 先下载相应版本的kafka http://archive.cloudera.com/kafka/parcels/ 然后放置相应目录,如下图...

2682
来自专栏AILearning

Apache Zeppelin 中 HDFS文件系统 解释器

概述 Hadoop文件系统是hadoop项目的分布式,容错文件系统的一部分,通常用作Hadoop MapReduce和Apache Spark或Allux...

2555
来自专栏分布式系统和大数据处理

安装和配置Hadoop集群(3节点)

在 安装和配置Hadoop(单节点) 这篇文章中,已经进行了Hadoop单机伪集群模式的部署。生产环境中,Hadoop都是以集群方式进行安装和部署的,否则,就不...

2842
来自专栏行者悟空

Spark之集群概述

1523
来自专栏Hadoop实操

如何指定Spark1作业中Driver和Executor使用指定范围内端口

在CDH集群中提交Spark作业,大家也都知道Spark的Driver和Executor之间通讯端口是随机的,Spark会随选择1024和65535(含)之间的...

2366
来自专栏Hadoop实操

如何修改CDH集群的DataNoe节点HOSTNAME

在使用CDH集群的过程中,会涉及到修改集群DataNode的HOSTNAME,在修改HOSTSNAME的时候需要注意什么,如何让新修改HOSTSNAME的CDH...

5555
来自专栏喵了个咪的博客空间

[喵咪大数据]Hadoop单机模式

千里之行始于足下,学习大数据我们首先就要先接触Hadoop,上节介绍到Hadoop分为Hadoop-HDFS,Hadoop-YARN,Hadoop-Mapred...

3286
来自专栏Ken的杂谈

Hadoop高可用集群部署指南

Hadoop是一个由Apache基金会所开发的分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

1673

扫码关注云+社区

领取腾讯云代金券