专栏首页Hadoop实操如何在CDH中启用Spark Thrift

如何在CDH中启用Spark Thrift

1.文档编写目的


CDH 自带的Spark 不支持Spark Thrift,因为spark-assembly jar中缺少Hive thrift相关的依赖包,导致CDH用户没法使用JDBC的方式连接Spark并使用Spark SQL。Apache Spark 1.6之后spark-assembly jar 中包含了 Hive 相关的依赖包了,而恰好 CDH5.13 的 spark也是 1.6,所以可以直接使用Apache Spark 1.6 之后的spark-assembly jar替换CDH的。

本次测试选用的spark-assembly jar 包是Apache Spark1.6.3版本,而CDH中的Spark是1.6.0。本篇文章主要讲述如何在CDH中启用Spark Thrift。

  • 内容概述

1.部署spark-assembly Jar包

2.部署Spark ThriftServer启动和停止脚本

3.Spark ThriftServer启动与停止

4.总结

  • 测试环境

1.CM和CDH版本为5.13.0

2.采用root用户操作

  • 前置条件

1.Spark1.6.0 On Yarn模式

2.部署Spark-assembly Jar包


1.下载spark-1.6.3-bin-hadoop2.6.tgz,下载地址如下:

https://www.apache.org/dyn/closer.lua/spark/spark-1.6.3/spark-1.6.3-bin-hadoop2.6.tgz

2.将下载的spark-1.6.3-bin-hadoop2.6.tgz上传至集群的任意节点并解压,这里以cdh02节点为例

[root@cdh02 ~]# tar -zxvf spark-1.6.3-bin-hadoop2.6.tgz 

3.将解压出来的spark-assembly-1.6.3-hadoop2.6.0.jar拷贝至CDH的jars目录

[root@cdh02 spark-1.6.3-bin-hadoop2.6]# scp /root/spark-1.6.3-bin-hadoop2.6/lib/spark-assembly-1.6.3-hadoop2.6.0.jar /opt/cloudera/parcels/CDH/jars/

4.替换CDH中spark默认的spark-assembly jar包

[root@cdh02 lib]# cd /opt/cloudera/parcels/CDH/lib/spark/lib
[root@cdh02 lib]# rm -rf spark-assembly-1.6.0-cdh5.13.0-hadoop2.6.0-cdh5.13.0.jar
[root@cdh02 lib]# ln -s ../../../jars/spark-assembly-1.6.3-hadoop2.6.0.jar spark-assembly-1.6.0-cdh5.13.0-hadoop2.6.0-cdh5.13.0.jar

5.将spark-assembly-1.6.3-hadoop2.6.0.jar包上传至HDFS目录

[root@cdh02 lib]# sudo -u spark hadoop fs -mkdir -p /user/spark/share/lib
[root@cdh02 lib]# sudo -u spark hadoop fs -put /opt/cloudera/parcels/CDH/jars/spark-assembly-1.6.3-hadoop2.6.0.jar /user/spark/share/lib
[root@cdh02 lib]# sudo -u spark hadoop fs -chmod 755 /user/spark/share/lib/spark-assembly-1.6.3-hadoop2.6.0.jar

6.在CM上对Spark进行配置,配置如下:

保存配置并重启Spark服务。

7.修改/etc/spark/conf/ classpath.txt文件在末尾增加如下内容

/opt/cloudera/parcels/CDH-5.13.0-1.cdh5.13.0.p0.29/jars/spark-lineage_2.10-1.6.0-cdh5.13.0.jar

由于CDH5.11以后版本,Navigator2.10增加了Spark的血缘分析,所以这里需要添加spark-lineage_2.10-1.6.0-cdh5.13.0.jar包,否则连接Spark会报错找不到com.cloudera.spark.lineage.ClouderaNavigatorListener类。

3.部署Spark ThriftServer启动和停止脚本


1.拷贝Spark ThriftServer启动和停止脚本

将 spark-1.6.3-bin-hadoop2.6/sbin/目录下的 start-thriftserver.sh 和 stop-thriftserver.sh 脚本拷贝到/opt/cloudera/parcels/CDH/lib/spark/sbin目录下,并设置执行权限。

[root@cdh02 sbin]# scp start-thriftserver.sh stop-thriftserver.sh /opt/cloudera/parcels/CDH/lib/spark/sbin/
[root@cdh02 sbin]# chmod +x /opt/cloudera/parcels/CDH/lib/spark/sbin/*thriftserver.sh
[root@cdh02 sbin]# ll /opt/cloudera/parcels/CDH/lib/spark/sbin/

2.修改 load-spark-env.sh 脚本,这个脚本是启动 spark 相关服务时加载环境变量信息的

[root@ip-172-31-5-190 sbin]# cd /opt/cloudera/parcels/CDH/lib/spark/bin
[root@ip-172-31-5-190 bin]# pwd
/opt/cloudera/parcels/CDH/lib/spark/bin
[root@ip-172-31-5-190 bin]# 

将注释掉exec "$SPARK_HOME/bin/$SCRIPT""$@",因为在start-thriftserver.sh脚本中会执行这个命令

4.启动与停止Spark ThriftServer


1.启动Spark ThriftServer服务

[root@ip-172-31-5-190 sbin]# ./start-thriftserver.sh

检查端口是否监听

[root@ip-172-31-5-190 sbin]# netstat -an |grep 10000

注意:为了防止跟HiveServer2的10000端口冲突,可以自己修改Spark ThriftServer的启动端口。

通过Yarn查看

2.停止服务

[root@ip-172-31-5-190 sbin]# ./stop-thriftserver.sh 

检查端口是否已停止

5.测试Spark Thrift


1.使用beeline通过JDBC连接Spark,可以发现连接的是Spark SQL

[root@ip-172-31-5-190 ~]# beeline
beeline> !connect jdbc:hive2://ip-172-31-5-190:10000
Enter username for jdbc:hive2://ip-172-31-5-190:10000: hive
Enter password for jdbc:hive2://ip-172-31-5-190:10000:

2.运行SQL测试

0: jdbc:hive2://ip-172-31-5-190:10000> show tables;
0: jdbc:hive2://ip-172-31-5-190:10000> select count(*) from test_table;
0: jdbc:hive2://ip-172-31-5-190:10000> select * from test;
0: jdbc:hive2://ip-172-31-5-190:10000> select * from test_table;
0: jdbc:hive2://ip-172-31-5-190:10000> select count(test_table.s2) from test_table join test on test_table.s1=test.s1;

3.在Yarn的8088中查看Spark任务,可以发现都是通过Spark执行的。

6.总结


  • CDH默认不支持Spark Thrift,需要使用Spark原生的spark-assembly jar包替换CDH自带的jar包
  • CDH5.11版本以后,Navigator2.10增加了Spark的血缘分析,所以需要将spark-lineage的jar加载的Spark的运行环境。否则连接Spark会报错找不到com.cloudera.spark.lineage.ClouderaNavigatorListener类。CDH5.10或之前版本不用加载这个jar包。参考: https://www.cloudera.com/documentation/enterprise/release- notes/topics/cn_rn_known_issues.html#spark

本文分享自微信公众号 - Hadoop实操(gh_c4c535955d0f),作者:Fayson

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-11-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 什么是sparklyr

    我们(RStudio Team)今天很高兴的宣布一个新的项目sparklyr(https://spark.rstudio.com),它是一个包,用来实现通过R连...

    Fayson
  • 0645-6.2.0-为什么我在CDH6上使用Spark2.4 Thrift失败了

    Fayson在前面的文章中介绍过什么是Spark Thrift,Spark Thrift的缺陷,以及Spark Thrift在CDH5中的使用情况,参考《064...

    Fayson
  • 0827-7.1.4-如何在CDP中使用Spark SQL CLI

    而我们在产品开发过程中,可能需要用到spark-sql来进行数据加工,本文就采用脚本的方式,调用spark-shell来进行数据的处理,执行需要的sql语句。

    Fayson
  • 【典型案例】用 Spark 计算圆周率

    Spark 框架面向使用 Scala/Java 的 Spark 用户,用户编写 Spark 应用程序并编译打包成 jar 包后,可通过智能钛机器学习平台提供的 ...

    腾讯智能钛AI开发者
  • 王联辉:Spark在腾讯应用及对企业spark使用指导

    问题导读 1.腾讯如何使用Spark 技术的?带来了哪些好处? 2.Spark 技术最适用于哪些应用场景? 3.企业在应用Spark 技术时,需要做哪些改变吗...

    用户1410343
  • 写在 Spark3.0 发布之后的一篇随笔

    Spark3.0 从2019年开始就说要准备发布了,然后就一直期待这个版本,毕竟对于 Spark 而言,这是一个大版本的跨越,从 2.4 直接到了 3.0,而之...

    哒呵呵
  • RxJava2 实战知识梳理(2) - 计算一段时间内数据的平均值

    今天,我们继续跟着 RxJava-Android-Samples 的脚步,一起看一下RxJava2在实战当中的应用,在这个项目中,第二个的例子的描述如下...

    用户2802329
  • sparksql调优之第一弹

    1,jvm调优 这个是扯不断,理还乱。建议能加内存就加内存,没事调啥JVM,你都不了解JVM和你的任务数据。 spark调优系列之内存和GC调优 2,内存调优...

    Spark学习技巧
  • 用Python进行gRPC接口测试(二)

    各位被困在家中的小伙伴们,大家新年好~今天将继续为大家带来用Python进行gRPC接口测试的续集,上次主要讲了一下前期准备工作和简单RPC通信...

    用户5521279
  • 优秀的数据工程师,怎么用 Spark 在 TiDB 上做 OLAP 分析

    原文链接:优秀的数据工程师,怎么用 Spark 在 TiDB 上做 OLAP 分析

    PingCAP

扫码关注云+社区

领取腾讯云代金券