如何在CDH集群外配置Kerberos环境的Spark2和Kafka客户端环境

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

Fayson的github: https://github.com/fayson/cdhproject

提示:代码块部分可以左右滑动查看噢

1.文档编写目的


在前面的文章Fayson介绍了《如何在CDH集群外配置非Kerberos环境的Gateway节点》、《如何在CDH集群外配置Kerberos环境的GateWay节点》和《如何在CDH集群外配置非Kerberos环境的Spark2和Kafka客户端环境》,配置Gateway中并未提到Spark2和Kafka环境的配置,本篇文章Fayson主要介绍如何在CDH集群外配置Spark2和Kafka的客户端环境。

  • 内容概述:

1.部署环境说明

2.配置Spark2和Kafka客户端环境及测试

3.总结

  • 测试环境:

1.CM和CDH版本为5.14.2

2.操作系统为RedHat7.3

3.操作用户root

  • 前置条件:

1.集群外节点与集群网络正常

2.环境说明


集群外节点:

IP地址

HostName

操作系统

172.27.0.5

cdh05.fayson.com

RedHat7.3

集群环境:

IP地址

HostName

操作系统

172.27.0.4

cdh01.fayson.com

RedHat7.3

172.27.0.11

cdh02.fayson.com

RedHat7.3

172.27.0.7

cdh03.fayson.com

RedHat7.3

172.27.0.3

cdh04.fayson.com

RedHat7.3

cdh05.fayson.com节点并未添加到CM中:

3.部署Spark2及Kafka客户端环境


1.将集群的hosts文件同步至该Gateway节点(cdh05.fayson.com)

[root@cdh01 ~]# scp /etc/hosts cdh05.fayson.com:/etc/

(可左右滑动)

2.集群启用了Kerberos,所以需要在(cdh05.fayosn.com)节点安装Kerberos客户端,执行如下命令

[root@cdh05 ~]# yum -y install krb5-libs krb5-workstation

(可左右滑动)

将集群KDC服务器上的/etc/krb5.conf文件拷贝至(cdh05.fayson.com)节点的/etc目录下

[root@cdh01 ~]# scp /etc/krb5.conf cdh05.fayson.com:/etc/

(可左右滑动)

在(cdh05.fayson.com)节点上查看文件是否已拷贝成功

测试Kerberos客户端是否正常使用

[root@cdh05 ~]# kinit fayson
[root@cdh05 ~]# klist

(可左右滑动)

3.登录集群任意节点,将集群的Java目录拷贝至(cdh05.fayson.com)节点的/usr/java目录下

[root@cdh01 conf]# scp -r /usr/java/jdk1.8.0_131/ cdh05.fayson.com:/usr/java/

(可左右滑动)

注意:JDK的安装目录与集群的JDK目录一致。

4.登录CDH集群的任意节点,将/opt/cloudera/parcels目录下的SPARK2和KAFKA目录压缩并拷贝至(cdh05.fayson.com)节点

[root@cdh01 ~]# cd /opt/cloudera/parcels/
[root@cdh01 parcels]# tar -czvf SPARK2-2.2.0.cloudera2-1.cdh5.12.0.p0.232957.tar.gz SPARK2-2.2.0.cloudera2-1.cdh5.12.0.p0.232957
[root@cdh01 parcels]# tar -czvf KAFKA-2.2.0-1.2.2.0.p0.68.tar.gz KAFKA-2.2.0-1.2.2.0.p0.68/

(可左右滑动)

将Spark2和Kafka的压缩包拷贝至cdh05.fayosn.com服务器的/opt/cloudera/parcels目录下:

将/etc目录下spark2和kafka目录压缩

[root@cdh01 etc]# cd /etc/
[root@cdh01 etc]# tar -czvf spark2.tar.gz spark2
[root@cdh01 etc]# tar -czvf kafka.tar.gz kafka/

(可左右滑动)

将spark2.tar.gz和kafka.tar.gz压缩包拷贝至cdh05.fayosn.com的/etc目录下

5.登录(cdh05.fayson.com)节点的服务器上,创建/opt/cloudera/parcels目录,并将cdh.tar.gz解压至该目录下

[root@cdh05 ~]# cd /opt/cloudera/parcels/
[root@cdh05 parcels]# tar -zxvf SPARK2-2.2.0.cloudera2-1.cdh5.12.0.p0.232957.tar.gz
[root@cdh05 parcels]# tar -zxvf KAFKA-2.2.0-1.2.2.0.p0.68.tar.gz

(可左右滑动)

为解压出来的SPARK2和KAFKA目录创建软连

[root@cdh05 parcels]# pwd
[root@cdh05 parcels]# ln -s SPARK2-2.2.0.cloudera2-1.cdh5.12.0.p0.232957 SPARK2
[root@cdh05 parcels]# ln -s KAFKA-2.2.0-1.2.2.0.p0.68 KAFKA

(可左右滑动)

进入到/etc目录下,将spark2.tar.gz和kafka.tar.gz压缩包解压至当前目录

[root@cdh05 parcels]# cd /etc/
[root@cdh05 etc]# tar -zxvf spark2.tar.gz 
[root@cdh05 etc]# tar -zxvf kafka.tar.gz 

(可左右滑动)

分别进入kafka和spark2目录下删除相应的软连接,重新创建新的软连

[root@cdh05 etc]# cd spark2
[root@cdh05 spark2]# rm -rf conf
[root@cdh05 spark2]# ln -s conf.cloudera.spark2_on_yarn/ conf
[root@cdh05 spark2]# ll

(可左右滑动)

[root@cdh05 spark2]# cd ../kafka/
[root@cdh05 kafka]# rm -rf conf
[root@cdh05 kafka]# ln -s conf.cloudera.kafka/ conf

(可左右滑动)

6.在cdh05.fayson.com节点配置Spark2和Kafka的环境变量

修改/etc/profile配置文件,在文件的末尾增加如下配置:

export SPARK2_HOME=/opt/cloudera/parcels/SPARK2
export PATH=$SPARK2_HOME/bin:$PATH

export KAFKA_HOME=/opt/cloudera/parcels/KAFKA
export PATH=$KAFKA_HOME/bin:$PATH

(可左右滑动)

修改后执行如下命令是环境变量生效:

[root@cdh05 ~]# source /etc/profile

4.部署Spark2及Kafka客户端命令验证


1.使用Kerberos账号进行kinit操作

[root@cdh05 ~]# kinit fayson 
[root@cdh05 ~]# klist

(可左右滑动)

2.执行Spark2-shell命令

spark2-shell命令执行成功,通过CM查看Yarn作业

在未执行kinit操作时执行spark2-shell命令提示认证失败错误,如下图:

3.使用spark2-submit命令向集群提交一个spark作业

spark2-submit --class org.apache.spark.examples.SparkPi \
    --master yarn-client --num-executors 4 --driver-memory 2g \
    --driver-cores 1 --executor-memory 2g --executor-cores 1 \
    /opt/cloudera/parcels/SPARK2/lib/spark2/examples/jars/spark-examples_2.11-2.2.0.cloudera2.jar 10

(可左右滑动)

通过Yarn界面查看,作业执行成功

4.测试Kafka命令,列出Kafka的所有topic

[root@cdh05 hadoop]# kafka-topics --list --zookeeper cdh01.fayson.com

(可左右滑动)

命令执行成功。

5.总结


1.本篇文章在前面配置Gateway的文章基础上进行配置,如果为配置Hadoop等相关服务的Gateway则会导致Spark2无法加载Hadoop的依赖包等异常。

2.在使用Spark2-submit提交Spark作业时遇到“Exception running/etc/hadoop/conf.cloudera.yarn/topology.py”异常,由于前面的文章Fayson是直接将Hadoop的相关配置拷贝至/etc/hadoop/conf目录下,需要将与集群的目录配置一致,如下截图:

为避免其他服务也出现该异常,也以同样的方式配置。

3.在kerberos环境下配置客户端环境,需要在集群外节点安装Kerberos客户端并配置/etc/krb5.conf文件。

4.Kerberos环境下要为JDK安装JCE,否则访问集群会报错。

提示:代码块部分可以左右滑动查看噢

为天地立心,为生民立命,为往圣继绝学,为万世开太平。 温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。

原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操

原文发布于微信公众号 - Hadoop实操(gh_c4c535955d0f)

原文发表时间:2018-06-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Hadoop实操

如何使用Nginx实现Impala负载均衡

在使用Impala JDBC连接Impala服务时,默认是不带负载均衡的,但一个Impala Daemon很可能会产生单点的问题,这里我们就需要考虑Impala...

5628
来自专栏LhWorld哥陪你聊算法

【Sqoop篇】----Sqoop从搭建到应用案例

今天开始讲解Sqoo的用法搭建和使用。Sqoop其实功能非常简单。主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进...

1311
来自专栏Hadoop实操

如何在CDH集群中安装Hive2.3.3

6063
来自专栏Hadoop实操

如何在CDH集群外配置非Kerberos环境的Spark2和Kafka客户端环境

2202
来自专栏Hadoop实操

如何通过Cloudera Manager为Kafka启用Kerberos及使用

在CDH集群中启用了Kerberos认证,那么我们的Kafka集群能否与Kerberos认证服务集成呢?本篇文章主要讲述如何通过Cloudera Manager...

6499
来自专栏Spark学习技巧

Spark部署模式另类详解

一, Spark的运行模式讲解 Spark运行模式有很多种,本文主要是将local,Standalone,yarn。因为平时生产中用的最多的也是...

3195
来自专栏Hadoop实操

Spark的HistoryServer不能查看到所有历史作业分析

Spark的HistoryServer能正常查看之前的历史作业日志,但新提交的作业在执行完成后未能在HistoryServer页面查看。

1.4K8
来自专栏Hadoop实操

如何编译适用于CDH的Tez版本并集成Kerberos环境的Hive2

在上一篇文章Fayson介绍了《非Kerberos环境下Hive2.2.0 On Tez集成》,使用Apache官网默认编译好的0.8.5版本的Tez,默认的版...

5662
来自专栏Hadoop实操

如何使用StreamSets实时采集Kafka数据并写入Hive表

8672
来自专栏Hadoop实操

如何在CDH中使用HBase快照

前面Fayson讲过HDFS的快照,参考如何在CDH集群使用HDFS快照,那么HBase的快照呢?HBase快照功能丰富,有很多特征,并且创建时不需要关闭集群。...

5096

扫码关注云+社区

领取腾讯云代金券