CDH离线安装文档

CDH5.4.3安装

准备工作 1, 配置hostname vi /etc/sysconfig/network 修改hostname: NETWORKING=yes HOSTNAME=master 通过 service network restart 重启网络服务生效。 vi /etc/hosts ,修改ip与主机名的对应关系

2,所有节点统一安装sunjdk1.7 要求设置 卸载自带的OpenJdk,使用 rpm -qa | grep java 查询java相关的包,使用 rpm -e –nodeps 包名 卸载之。 建立ln -s jdk.path /usr/java/latest/ 或者 rpm -ivh jdk-7u79-linux-x64.rpm 设置JAVA_HOME=/usr/java/latest/

3,建议设置CM server安装机器到其他agent节点的ssh互信

4,需要使用Mysql Server(强烈建议在CM server节点机器上安装一个mysql,用于保存cm的数据库表 yum install mysql-server chkconfig mysqld on service mysqld start mysqladmin -u root password ‘hadoop’ ) mysql -uroot -phadoop 进入mysql命令行,创建以下数据库: hive create database hive DEFAULT CHARSET utf8 COLLATE utf8_general_ci;

activity monitor create database amon DEFAULT CHARSET utf8 COLLATE utf8_general_ci;

设置root授权访问以上所有的数据库: 授权root用户在主节点拥有所有数据库的访问权限 grant all privileges on . to ‘root’@’%’ identified by ‘hadoop’ with grant option; flush privileges;

5,所有节点配置NTP服务 集群中所有主机必须保持时间同步,如果时间相差较大会引起各种问题。 具体思路如下:, master节点作为ntp服务器与外界对时中心同步时间,随后对所有datanode节点提供时间同步服务。 所有datanode节点以master节点为基础同步时间。 所有节点安装相关组件: yum install ntp 。完成后,配置开机启动:chkconfig ntpd on ,检查是否设置成功: chkconfig –list ntpd 其中2-5为on状态就代表成功。 主节点配置 在配置之前,先使用ntpdate手动同步一下时间,免得本机与对时中心时间差距太大,使得ntpd不能正常同步。这里选用202.112.29.82作为对时中心, ntpdate -u 202.112.29.82 。 ntp服务只有一个配置文件 /etc/ntp.conf,配置好了就OK。 这里只给出有用的配置,不需要的配置都用#注掉,这里就不在给出:

driftfile /var/lib/ntp/drift restrict 127.0.0.1restrict -6 ::1restrict default nomodify notrap server 202.112.29.82 prefer includefile /etc/ntp/crypto/pw keys /etc/ntp/keys

配置文件完成,保存退出,启动服务,执行如下命令: service ntpd start 检查是否成功,用ntpstat命令查看同步状态,出现以下状态代表启动成功: synchronised to NTP server () at stratum 2time correct to within 74 ms polling server every 128 s 如果出现异常请等待几分钟,一般等待5-10分钟才能同步。 配置ntp客户端(所有datanode节点)

driftfile /var/lib/ntp/drift restrict 127.0.0.1restrict -6 ::1restrict default kod nomodify notrap nopeer noquery restrict -6 default kod nomodify notrap nopeer noquery 这里是主节点的主机名或者ip server n1 includefile /etc/ntp/crypto/pw keys /etc/ntp/keys

ok保存退出,请求服务器前,请先使用ntpdate手动同步一下时间: ntpdate -u n1 (主节点ntp服务器) 这里可能出现同步失败的情况,请不要着急,一般是本地的ntp服务器还没有正常启动,一般需要等待5-10分钟才可以正常同步。启动服务: service ntpd start

6,关闭防火墙和SELinux 注意: 需要在所有的节点上执行,因为涉及到的端口太多了,临时关闭防火墙是为了安装起来更方便,安装完毕后可以根据需要设置防火墙策略,保证集群安全。 关闭防火墙: service iptables stop (临时关闭) chkconfig iptables off (重启后生效) 关闭SELINUX(实际安装过程中发现没有关闭也是可以的,不知道会不会有问题,还需进一步进行验证): setenforce 0 (临时生效) 修改 /etc/selinux/config 下的 SELINUX=disabled (重启后永久生效)

7,把mysql的jdbc jar包拷贝到所有的机器节点上的/usr/share/java/mysql-connector-java.jar 执行以下命令: mv mysql-connector-java-5.1.32-bin.jar /usr/share/java/mysql-connector-java.jar

8,如果存在部分机器上安装过hadoop或cm,建议先完全卸载掉

Hadoop安装(安装cm节点成为主节点,其他安装hadoop组件节点为子节点)

1.在主节点上下载:Cloudera Manager、CDH5.4.3,manifest.json ClouderaManager http://archive.cloudera.com/cm5/cm/5/cloudera-manager-el6-cm5.4.3_x86_64.tar.gz CDH http://archive.cloudera.com/cdh5/parcels/5.4.3/CDH-5.4.3-1.cdh5.4.3.p0.6-el6.parcel manifest.json http://archive.cloudera.com/cdh5/parcels/5.4.3/manifest.json

2.在主节点上配置 解压CM安装包 cloudera manager的目录默认位置在/opt下,解压: tar xzvf cloudera-manager*.tar.gz 将解压后的cm-5.4.3和cloudera目录放到/opt目录下。 在主节点初始化CM5的数据库: /opt/cm-5.1.3/share/cmf/schema/scm_prepare_database.sh mysql cm -hlocalhost -uroot -pxxxx –scm-host localhost scm scm scm

3.Agent配置 修改/opt/cm-5.4.3/etc/cloudera-scm-agent/config.ini中的server_host为主节点的主机名。 同步Agent到其他节点 scp -r /opt/cm-5.4.3 root@其他节点:/opt/

4.准备Parcels,用以安装CDH5 将CHD5相关的Parcel包放到主节点的/opt/cloudera/parcel-repo/目录中(parcel-repo需要手动创建)。 相关的文件如下: CDH-5.4.3-1.cdh5.4.3.p0.6-el6.parcel CDH-5.4.3-1.cdh5.4.3.p0.6-el6.parcel.sha1 manifest.json 最后将CDH-5.4.3-1.cdh5.4.3.p0.6-el6.parcel.sha1,重命名为CDH-5.4.3-1.cdh5.4.3.p0.6-el6.parcel.sha

5.相关启动脚本 通过 /opt/cm-5.4.3/etc/init.d/cloudera-scm-server start 启动服务端。 通过 /opt/cm-5.4.3/etc/init.d/cloudera-scm-agent start 启动Agent服务。 我们启动的其实是个service脚本,需要停止服务将以上的start参数改为stop就可以了,重启是restart。 查看一下日志没有异常就ok

6、CDH5的安装配置 A)通过浏览器访问主节点的7180端口 http://主节点ip:7180/ (主节点的7180端口) 用户名:admin 密码:admin B)选择免费版 接下来,出现包名,说明本地Parcel包配置无误,直接点继续就可以了。

C)各个Agent节点正常启动后,可以在当前管理的主机列表中看到对应的节点。选择要安装的节点,点继续。 接下来是服务器检查,可能会遇到以下问题:

Cloudera 建议将 /proc/sys/vm/swappiness 设置为 0。当前设置为 60。使用 sysctl 命令在运行时更改该设置并编辑 /etc/sysctl.conf 以在重启后保存该设置。您可以继续进行安装,但可能会遇到问题,Cloudera Manager 报告您的主机由于交换运行状况不佳。以下主机受到影响:

通过 echo 0 > /proc/sys/vm/swappiness 即可解决。 D) 选择自定义服务,只选择hdfs,hive,hue,oozie,yarn,zookeeper,hbase等服务 备:zookeeper选择3个节点,cloudera management service 所有服务安装在主节点

需要再在mysql数据库中新建oozie create database oozie DEFAULT CHARSET utf8 COLLATE utf8_general_ci;

mysql server可以使用cm主节点上的数据库

终于到安装各个服务的地方了

参考资料 1.http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cm_qs_quick_start.html 2.http://www.tuicool.com/articles/ENjmeaY 3.http://www.aboutyun.com/thread-8921-1-1.html

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏闵开慧

ubuntu_hadoop 部署笔记

单机模式部署 一、Jdk安装 命令:sudo apt-get install openjdk-6-jdk 目录:/usr/l...

34090
来自专栏木子昭的博客

Github变身网络硬盘

19560
来自专栏星汉技术

原 Spark On Yarn完全分布式搭

66150
来自专栏xingoo, 一个梦想做发明家的程序员

Spark Client启动原理探索

经过几天闲暇时间的学习,终于又理解的深入了一些,关于Spark Client如何提交作业也更清晰了点。 在整体的流程图上是这样的: ? 大体的思路就是...

361100
来自专栏简单聊聊Spark

Spark内核分析之Spark的HA源码分析

        Spark作业运行的集群环境有两种,分别基于standalone模式和Yarn集群模式。我们知道Yarn集群提供了HA来保证了集群的高可用,而s...

13820
来自专栏Hadoop实操

如何在CDSW上创建Git工程并提交代码

15130
来自专栏有困难要上,没有困难创造困难也要上!

HBase入门-安装

490100
来自专栏杨建荣的学习笔记

mysqlpump的性能测试(r12笔记第89天)

在MySQL 5.7中做逻辑备份恢复有了一个新的工具mysqlpump,如果你掌握了mysqldump,那么使用mysqlpump就是分分钟的事情,因为很多...

35650
来自专栏专注研发

HDFS基础配置

执行步骤:(1)配置集群(2)启动、测试集群增、删、查(3)执行wordcount案例

19230
来自专栏Hadoop实操

如何修改CDSW服务的DNS和HOSTNAME

由于在安装CDSW时域名未统一使用公司的DNS服务,所以这里需要将CDSW服务器的DNS及HOSTNAME做修改。本篇文章主要介绍如何修改CDSW服务的DNS和...

40950

扫码关注云+社区

领取腾讯云代金券