如何通过Cloudera Manager配置Spark1和Spark2的运行环境

Fayson

修改于 2018-04-01 19:23:13

3.1K0

修改于 2018-04-01 19:23:13

文章被收录于专栏：Hadoop实操

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。

1.文档编写目的

大部分用户在使用CDH集群做Spark开发的时候，由于开发环境的JDK版本比CDH集群默认使用的JDK1.7.0_67-cloudera版本新，可能会出现Spark代码依赖的Java API不兼容问题，解决这个问题方法有两个：一是升级CDH集群的JDK版本；二是指定Spark运行环境JDK版本。本文章主要讲述如何通过Cloudera Manager来指定Spark1和Spark2的运行环境（包含JDK环境、Spark Local Dir等的配置）。

内容概述

1.部署JDK

2.CM配置Spark运行环境

测试环境

1.CDH集群服务正常

2.CM和CDH版本为5.11.2

3.集群启用了Kerberos

4.Spark On Yarn模式

2.部署JDK

本文章使用的jdk1.8.0_151进行说明，可以根据你自己开发环境JDK版本进行调整。

将需要的JDK版本部署到集群所有节点，此处配置以一个节点为例

[ec2-user@ip-172-31-21-45 jdk1.8]$ sudo tar -zxvf jdk-8u151-linux-x64.tar.gz
[ec2-user@ip-172-31-21-45 java]$ cd jdk1.8.0_151/
[ec2-user@ip-172-31-21-45 jdk1.8.0_151]$ pwd
/usr/java/jdk1.8.0_151
[ec2-user@ip-172-31-21-45 java]$ ll

注意：JDK的HOME目录必须统一，这样方便在Cloudera Manager统一管理配置。

3.CM配置Spark运行环境

1.登录Cloudera Manager平台，进入Spark服务，添加spark-env.sh配置

注意：每个配置占用一行。

2.保存配置，回到主页根据CM提示，重新部署Spark客户端配置

完成以上配置，那么接下来在执行spark作业的时候，就会默认的使用指定的环境变量。

注意：这里我们指定了SPARK_LOCAL_DIRS这个配置，如果在目录不存在的时候则需要自己在集群创建相应的目录，且需要赋权为777

[ec2-user@ip-172-31-22-86 ~]$ sudo mkdir -p /mnt/disk1/sparktmp1
[ec2-user@ip-172-31-22-86 ~]$ sudo chmod 777 /mnt/disk1/sparktmp1/
[ec2-user@ip-172-31-22-86 ~]$

该目录只需要在使用yarn-client模式提交Spark时Driver所在节点存在即可。

3.运行Spark作业测试

[ec2-user@ip-172-31-22-86 ~]$ spark-submit --master yarn-client\
>   --num-executors 4 --driver-memory 1g\
>   --driver-cores 1 --executor-memory 1g\
>   --executor-cores 2\
>   --class org.apache.spark.examples.SparkPi /opt/cloudera/parcels/CDH/lib/spark/examples/lib/spark-examples-1.6.0-cdh5.11.2-hadoop2.6.0-cdh5.11.2.jar 
...
17/10/23 08:39:05 INFO zookeeper.ZooKeeper: Client environment:java.version=1.8.0_151
17/10/23 08:39:05 INFO zookeeper.ZooKeeper: Client environment:java.vendor=Oracle Corporation
17/10/23 08:39:05 INFO zookeeper.ZooKeeper: Client environment:java.home=/usr/java/jdk1.8.0_151/jre
...

可以看到Spark作业使用的是我们指定的JDK1.8版本。

4.总结

通过CM可以方便的指定Spark1和Spark2的运行环境变量，对于指定JDK版本，则需要在所有的Spark Gateway节点统一目录下部署需要的JDK版本（目录统一方便CM管理，由于CM不支持对单个Spark Gateway节点进行配置）。如果集群启用了Kerberos则需要为JDK安装JCE的支持。

上述文章中还讲述了配置SPARK_LOCAL_DIRS目录，在使用yarn-client模式提交Spark作业时会在Driver所在服务的/tmp目录生成作业运行临时文件，由于/tmp目录空间有限可能会造成作业运行时无法创建临时文件从而导致作业运行失败，因此需要对此参数进行调整，确保多个Spark作业运行时临时文件所需要的空间足够大（注意：该目录必须存在且权限为777）。在使用yarn-cluster模式提交Spark作业时，会默认使用Yarn的yarn.nodemanager.local-dirs配置。

5.常见问题

1.在执行Spark作业的时候报错

Caused by: java.io.IOException: javax.security.sasl.SaslException: GSS initiate failed [Caused by GSSException: No valid credentials provided (Mechanism level: Failed to find any Kerberos tgt)]
        at org.apache.hadoop.ipc.Client$Connection$1.run(Client.java:718)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:422)
        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1920)
        at org.apache.hadoop.ipc.Client$Connection.handleSaslConnectionFailure(Client.java:681)
        at org.apache.hadoop.ipc.Client$Connection.setupIOstreams(Client.java:769)
        at org.apache.hadoop.ipc.Client$Connection.access$3000(Client.java:396)
        at org.apache.hadoop.ipc.Client.getConnection(Client.java:1557)
        at org.apache.hadoop.ipc.Client.call(Client.java:1480)
        ... 31 more

原因：由于集群启用了Kerberos，Spark运行环境指定的JDK没有安装JCE导致。

解决方法：