如何使用Oozie API接口向Kerberos环境的CDH集群提交Spark2作业

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢

1.文档编写目的


前面Fayson介绍了多种方式在CDH集群外的节点向集群提交Spark作业,文章中均采用Spark1来做为示例,本篇文章主要介绍如何是用Oozie API向Kerberos环境的CDH集群提交Spark2作业。

学习本篇知识前必读内容:

集群安CDH5.12.1装Kudu、Spark2、Kafka

如何使用Hue创建Spark1和Spark2的工作流

内容概述:

  • 环境准备
  • 示例代码编写及测试
  • 总结

测试环境:

  • CM和CDH版本为5.13.1

前置条件:

  • 集群已启用Kerberos

2.环境准备及描述

1.我们将作业运行的jar包上传到HDFS目录

[root@ip-172-31-16-68 ~]# kinit fayson
Password for fayson@FAYSON.COM: 
[root@ip-172-31-16-68 ~]# klist
Ticket cache: FILE:/tmp/krb5cc_0
Default principal: fayson@FAYSON.COM
Valid starting       Expires              Service principal
02/22/2018 21:12:41  02/23/2018 21:12:41  krbtgt/FAYSON.COM@FAYSON.COM
        renew until 03/01/2018 21:12:41
[root@ip-172-31-16-68 ~]# 

(可左右滑动)

hadoop fs -mkdir -p /fayson/jars
hadoop fs -put /opt/cloudera/parcels/SPARK2/lib/spark2/examples/jars/spark-examples_2.11-2.1.0.cloudera2.jar /fayson/jars/
hadoop fs -ls /fayson/jars

(可左右滑动)

这里Fayson使用的Spark2自带的示例来测试。

2.定义一个Spark2 Action的workflow.xml文件,内容如下:

<workflow-app name="My Workflow" xmlns="uri:oozie:workflow:0.5">
    <start to="spark-c457"/>
    <kill name="Kill">
        <message>Action failed, error message[${wf:errorMessage(wf:lastErrorNode())}]</message>
    </kill>
    <action name="spark-c457">
        <spark xmlns="uri:oozie:spark-action:0.2">
            <job-tracker>${jobTracker}</job-tracker>
            <name-node>${nameNode}</name-node>
            <configuration>
                <property>
                    <name>oozie.action.sharelib.for.spark</name>
                    <value>spark2</value>
                </property>
            </configuration>
            <master>${master}</master>
            <mode>${mode}</mode>
            <name>${name}</name>
            <class>${class}</class>
            <!--<arg>${arg}</arg>-->
            <jar>${jar}</jar>
            <file>${file}</file>
        </spark>
        <ok to="End"/>
        <error to="Kill"/>
    </action>
    <end name="End"/>
</workflow-app>

(可左右滑动)

注意:workflow.xml文件中使用的参数配置为动态参数,会在后面的代码中指定该参数的值。

3.将定义好的workflow.xml文件上传至HDFS的/user/fayson/oozie/spark2oozie目录下

hadoop fs -mkdir -p /user/fayson/oozie/spark2oozie
hadoop fs -put workflow.xml /user/fayson/oozie/spark2oozie
hadoop fs -ls /user/fayson/oozie/spark2oozie

(可左右滑动)

4.准备JAAS文件oozie-login.conf,内容如下

com.sun.security.jgss.initiate {
    com.sun.security.auth.module.Krb5LoginModule required
    storeKey=true
    useKeyTab=true
    debug=true
    keyTab="/Volumes/Transcend/keytab/fayson.keytab"
    principal="fayson@FAYSON.COM";
};

(可左右滑动)

3.创建Maven示例工程


  1. 使用Maven创建Java工程

2.工程pom.xml文件内容如下

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <parent>
        <artifactId>cdh-project</artifactId>
        <groupId>com.cloudera</groupId>
        <version>1.0-SNAPSHOT</version>
    </parent>
    <modelVersion>4.0.0</modelVersion>
    <artifactId>oozie-demo</artifactId>
    <packaging>jar</packaging>
    <name>oozie-demo</name>
    <url>http://maven.apache.org</url>
    <properties>
        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    </properties>
    <dependencies>
        <dependency>
            <groupId>org.apache.httpcomponents</groupId>
            <artifactId>httpclient</artifactId>
            <version>4.5.4</version>
        </dependency>
        <dependency>
            <groupId>net.sourceforge.spnego</groupId>
            <artifactId>spnego</artifactId>
            <version>7.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.oozie</groupId>
            <artifactId>oozie-client</artifactId>
            <version>4.1.0</version>
        </dependency>
    </dependencies>
</project>

(可左右滑动)

4.编写Oozie示例代码


1.编写Spark2WorkflowDemo.java,示例代码如下

package com.cloudera.kerberos;
import org.apache.oozie.client.AuthOozieClient;
import org.apache.oozie.client.OozieClientException;
import org.apache.oozie.client.WorkflowAction;
import org.apache.oozie.client.WorkflowJob;
import java.util.List;
import java.util.Properties;
/**
 * package: com.cloudera.kerberos
 * describe: 使用Oozie API接口向Kerberos集群提交Spark2作业
 * creat_user: Fayson
 * email: htechinfo@163.com
 * creat_date: 2018/3/10
 * creat_time: 下午19:15
 * 公众号:Hadoop实操
 */
public class Spark2WorkflowDemo {
    private static String oozieURL = "http://ip-172-31-16-68.ap-southeast-1.compute.internal:11000/oozie";
    public static void main(String[] args) {
        System.setProperty("java.security.krb5.conf", "/Volumes/Transcend/keytab/krb5.conf");
        System.setProperty("javax.security.auth.useSubjectCredsOnly", "false");
        System.setProperty("ssun.security.jgss.debug", "true"); //Kerberos Debug模式
        System.setProperty("java.security.auth.login.config", "/Volumes/Transcend/keytab/oozie-login.conf");
        AuthOozieClient oozieClient = new AuthOozieClient(oozieURL, AuthOozieClient.AuthType.KERBEROS.name());
        oozieClient.setDebugMode(1);
        try {
//            System.out.println(oozieClient.getServerBuildVersion());
            Properties properties = oozieClient.createConfiguration();
            properties.put("oozie.wf.application.path", "${nameNode}/user/fayson/oozie/spark2oozie");
            properties.put("name", "MyfirstSpark");
            properties.put("nameNode", "hdfs://ip-172-31-16-68.ap-southeast-1.compute.internal:8020");
            properties.put("oozie.use.system.libpath", "True");
            properties.put("master", "yarn");
            properties.put("mode", "cluster");
            properties.put("class", "org.apache.spark.examples.SparkPi");
            properties.put("arg", "50");
            properties.put("sparkOpts", "--num-executors 4 --driver-memory 1g --driver-cores 1 --executor-memory 1g --executor-cores 1");
            properties.put("jar", "${nameNode}/fayson/jars/spark-examples_2.11-2.1.0.cloudera2.jar");
            properties.put("oozie.libpath", "${nameNode}/fayson/jars");
            properties.put("jobTracker", "ip-172-31-16-68.ap-southeast-1.compute.internal:8032");
            properties.put("file", "${nameNode}/fayson/jars");
            //运行workflow
            String jobid = oozieClient.run(properties);
            System.out.println(jobid);
            //等待10s
            new Thread(){
                public void run() {
                    try {
                        Thread.sleep(10000l);
                    } catch (InterruptedException e) {
                        e.printStackTrace();
                    }
                }
            }.start();
            //根据workflow id获取作业运行情况
            WorkflowJob workflowJob = oozieClient.getJobInfo(jobid);
            //获取作业日志
            System.out.println(oozieClient.getJobLog(jobid));
            //获取workflow中所有ACTION
            List<WorkflowAction> list = workflowJob.getActions();
            for (WorkflowAction action : list) {
                //输出每个Action的 Appid 即Yarn的Application ID
                System.out.println(action.getExternalId());
            }
            //杀掉作业
//            oozieClient.kill(jobid);
        } catch (OozieClientException e) {
            e.printStackTrace();
        }
    }
}

(可左右滑动)

5.示例运行及验证


1.运行Spark2WorkflowDemo代码,向CDH集群提交Spark作业

2.登录CM进入Yarn服务的“应用程序”菜单查看

3.打开Yarn的8088 Web界面查看

可以看到作业已运行成功,到此已完成了通过Oozie API接口创建workflow并运行的示例演示。

6.总结


  • 通过Oozie API提交作业,需要先定义好workflow.xml文件
  • 参数传递通过在代码里面调用oozieClient.createConfiguration()创建一个Properties对象将K,V值存储并传入oozieClient.run(properties)中。
  • 在指定HDFS上运行的jar或workflow的路径时需要带上HDFS的路径,否则默认会找到本地的目录
  • 向Kerberos集群提交作业需要在程序中加载JAAS配置
  • Oozie-client提供了Kerberos认证的AuthOozieClient API接口
  • 由于Oozie默认不支持Spark2作业的提交,因此需要先在Oozie的共享库中安装Spark2的支持
  • 在定义Spark2的workflow.xml时,需要增加配oozie.action.sharelib.for.spark的配置为spark2,否则作业无法正常执行。

GitHub地址:

https://github.com/fayson/cdhproject/blob/master/ooziedemo/src/main/java/com/cloudera/kerberos/Spark2WorkflowDemo.java

https://github.com/fayson/cdhproject/blob/master/ooziedemo/conf/workflow-spark2-template.xml

使用Oozie API向集群提交作业相关文章:

《如何使用Oozie API接口向非Kerberos环境的CDH集群提交Spark作业》

《如何使用Oozie API接口向非Kerberos环境的CDH集群提交Java作业》

《如何使用Oozie API接口向非Kerberos环境的CDH集群提交Spark作业》

《如何使用Oozie API接口向Kerberos集群提交Java程序》

Livy相关文章:

《如何编译Livy并在非Kerberos环境的CDH集群中安装》

《如何通过Livy的RESTful API接口向非Kerberos环境的CDH集群提交作业》

《如何在Kerberos环境的CDH集群部署Livy》

《如何通过Livy的RESTful API接口向Kerberos环境的CDH集群提交作业》

提示:代码块部分可以左右滑动查看噢 为天地立心,为生民立命,为往圣继绝学,为万世开太平。 温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。

原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操

原文发布于微信公众号 - Hadoop实操(gh_c4c535955d0f)

原文发表时间:2018-03-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏分布式系统和大数据处理

使用.net通过odbc访问Hive

在 写入数据到Hive表(命令行) 这篇文章中,我们通过命令行的方式和hive进行了交互。但在通常情况下,是通过编程的方式来操作Hive,Hive提供了JDBC...

51940
来自专栏Hadoop实操

如何在CDH中安装Kudu&Spark2&Kafka

在CDH的默认安装包中,是不包含Kafka,Kudu和Spark2的,需要单独下载特定的Parcel包才能安装相应服务。本文档主要描述在离线环境下,在CentO...

2.5K90
来自专栏搜云库

大数据平台搭建 Hadoop-2.7.4 + Spark-2.2.0 快速搭建

Apache Spark 简介 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (...

62780
来自专栏Hadoop实操

如何使用Hue创建Spark2的Oozie工作流(补充)

目前Oozie 的 SparkAction 仅支持Spark1.6, 而并不支持Spark2, 这是 CDH Spark2已知的局限性(https://www....

1.2K60
来自专栏Hadoop实操

CDH5弃用的项目

19020
来自专栏Hadoop实操

如何使用Oozie API接口向Kerberos集群提交Java程序

在CDH集群外的节点向集群提交MapReduce作业的方式有多种,前面Fayson介绍了《如何跨平台在本地开发环境提交MapReduce作业到CDH集群》和《如...

1.3K70
来自专栏Hadoop实操

如何使用Oozie API接口向Kerberos环境的CDH集群提交Shell作业

前面Fayson介绍了使用Oozie API向Kerberos和非Kerberos集群提交Spark和Java作业,本篇文章主要介绍如何使用Oozie Clie...

41260
来自专栏大数据学习笔记

Hadoop基础教程-第12章 Hive:进阶(12.4 Hive Metastore)(草稿)

第12章 Hive:进阶 12.4 Hive Metastore 12.4.1 三种配置方式 Hive Metastore有三种配置方式,分别是: Embedd...

53370
来自专栏Hadoop实操

如何使用R连接Hive与Impala

继之前的文章讲述如何在Redhat中配置R环境和如何在Redhat中安装R的包及搭建R的私有源后,那我们如何使用R连接CDH集群中的Hive和Impala进行数...

67160
来自专栏知识分享

关于STM32空闲中断

有一次做一个东西,为了尽量不占用CPU的处理数据时间,所以就使用DMA接收串口的数据,但是呢问题来了.,,,,,怎么样才能确定接收到了一条完整的数据了,,我们都...

36380

扫码关注云+社区

领取腾讯云代金券