如何使用Oozie API接口向非Kerberos环境的CDH集群提交Java作业

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢

1.文档编写目的


前面Fayson介绍了《如何使用Oozie API接口向非Kerberos环境的CDH集群提交Spark作业》,本篇文章主要介绍如何使用Oozie Client API向非Kerberos环境的CDH集群提交Java作业。

  • 内容概述

1.环境准备及描述

2.示例代码编写及测试

3.总结

测试环境

1.CM和CDH版本为5.13.1

  • 前置条件

1.集群未启用Kerberos

2.环境准备及描述


1.我们将作业运行的jar包上传到HDFS目录

sudo -u faysontest hadoop fs -mkdir -p /faysontest/jars
sudo -u faysontest hadoop fs -put /opt/cloudera/parcels/CDH/jars/hadoop-mapreduce-examples-2.6.0-cdh5.13.1.jar /faysontest/jars
sudo -u faysontest hadoop fs -ls /faysontest/jars

(可左右滑动)

这里Fayson使用的Hadoop自带的示例来测试。

2.定义一个Java Action的workflow.xml文件,内容如下:

<workflow-app name="MapReduceWorkflow" xmlns="uri:oozie:workflow:0.5">
    <start to="java-d422"/>
    <kill name="Kill">
        <message>Action failed, error message[${wf:errorMessage(wf:lastErrorNode())}]</message>
    </kill>
    <action name="java-d422">
        <java>
            <job-tracker>${jobTracker}</job-tracker>
            <name-node>${nameNode}</name-node>
            <main-class>${mainClass}</main-class>
            <java-opts>${javaOpts}</java-opts>
            <arg>${arg1}</arg>
            <arg>${arg2}</arg>
        </java>
        <ok to="End"/>
        <error to="Kill"/>
    </action>
    <end name="End"/>
</workflow-app>

(可左右滑动)

注意:workflow.xml文件中使用的参数配置为动态参数,会在后面的代码中指定该参数的值。

3.将定义好的workflow.xml文件上传至HDFS的

/user/faysontest/oozie/javaaction目录下

[root@ip-172-31-6-148 opt]# sudo -u faysontest hadoop fs -mkdir -p /user/faysontest/oozie/javaaction
[root@ip-172-31-6-148 opt]# sudo -u faysontest hadoop fs -put /opt/workflow.xml /user/faysontest/oozie/javaaction
[root@ip-172-31-6-148 opt]# sudo -u faysontest hadoop fs -ls /user/faysontest/oozie/javaaction

(可左右滑动)

3.创建Maven示例工程


1.使用Maven创建Java工程

2.工程pom.xml文件内容如下

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <parent>
        <artifactId>cdh-project</artifactId>
        <groupId>com.cloudera</groupId>
        <version>1.0-SNAPSHOT</version>
    </parent>
    <modelVersion>4.0.0</modelVersion>
    <artifactId>oozie-demo</artifactId>
    <packaging>jar</packaging>
    <name>oozie-demo</name>
    <url>http://maven.apache.org</url>
    <properties>
        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    </properties>
    <dependencies>
        <dependency>
            <groupId>org.apache.httpcomponents</groupId>
            <artifactId>httpclient</artifactId>
            <version>4.5.4</version>
        </dependency>
        <dependency>
            <groupId>net.sourceforge.spnego</groupId>
            <artifactId>spnego</artifactId>
            <version>7.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.oozie</groupId>
            <artifactId>oozie-client</artifactId>
            <version>4.1.0</version>
        </dependency>
    </dependencies>
</project>

(可左右滑动)

4.编写Oozie示例代码


1.编写JavaWorkflowDemo.java,示例代码如下

package com.cloudera.nokerberos;
import org.apache.oozie.client.OozieClient;
import org.apache.oozie.client.WorkflowAction;
import org.apache.oozie.client.WorkflowJob;
import java.util.List;
import java.util.Properties;
/**
 * package: com.cloudera.nokerberos
 * describe: 使用Oozie-client的API接口向非Kerberos集群提交MapReduce作业
 * creat_user: Fayson
 * email: htechinfo@163.com
 * creat_date: 2018/2/13
 * creat_time: 下午9:04
 * 公众号:Hadoop实操
 */
public class JavaWorkflowDemo {
    private static String oozieURL = "http://ip-172-31-6-148.fayson.com:11000/oozie";
    public static void main(String[] args) {
        System.setProperty("user.name", "faysontest");
        OozieClient oozieClient = new OozieClient(oozieURL);
        try {
            System.out.println(oozieClient.getServerBuildVersion());
            Properties properties = oozieClient.createConfiguration();
            properties.put("oozie.wf.application.path", "${nameNode}/user/faysontest/oozie/javaaction");
            properties.put("oozie.use.system.libpath", "True");
            properties.put("nameNode", "hdfs://ip-172-31-10-118.fayson.com:8020");
            properties.put("jobTracker", "ip-172-31-6-148.fayson.com:8032");
            properties.put("mainClass", "org.apache.hadoop.examples.QuasiMonteCarlo");
            properties.put("arg1", "10");
            properties.put("arg2", "10");
            properties.put("javaOpts", "-Xmx1000m");
            properties.put("oozie.libpath", "${nameNode}/faysontest/jars/");
            //运行workflow
            String jobid = oozieClient.run(properties);
            System.out.println(jobid);
            //等待10s
            new Thread(){
                public void run() {
                    try {
                        Thread.sleep(10000l);
                    } catch (InterruptedException e) {
                        e.printStackTrace();
                    }
                }
            }.start();
            //根据workflow id获取作业运行情况
            WorkflowJob workflowJob = oozieClient.getJobInfo(jobid);
            //获取作业日志
            System.out.println(oozieClient.getJobLog(jobid));
            //获取workflow中所有ACTION
            List<WorkflowAction> list = workflowJob.getActions();
            for (WorkflowAction action : list) {
                //输出每个Action的 Appid 即Yarn的Application ID
                System.out.println(action.getExternalId());
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

(可左右滑动)

5.示例运行及验证


1.运行JavaWorkflowDemo代码,向CDH集群提交Java作业

2.登录CM进入Yarn服务的“应用程序”菜单查看

3.打开Yarn的8088 Web界面查看

可以看到作业已运行成功,到此已完成了通过OozieAPI接口创建workflow并运行的示例演示。

6.总结


  • 通过Oozie API提交作业,需要先定义好workflow.xml文件
  • 参数传递通过在代码里面调用oozieClient.createConfiguration()创建一个Properties对象将K,V值存储并传入oozieClient.run(properties)中。
  • 在指定HDFS上运行的jar或workflow的路径时需要带上HDFS的路径,否则默认会找到本地的目录

GitHub地址:

https://github.com/fayson/cdhproject/blob/master/ooziedemo/src/main/java/com/cloudera/nokerberos/JavaWorkflowDemo.java

https://github.com/fayson/cdhproject/blob/master/ooziedemo/conf/workflow-java-template.xml

提示:代码块部分可以左右滑动查看噢 为天地立心,为生民立命,为往圣继绝学,为万世开太平。 温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。

原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操

原文发布于微信公众号 - Hadoop实操(gh_c4c535955d0f)

原文发表时间:2018-02-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Hadoop实操

如何在Kerberos的CDH使用Sentry实现Spark SQL的权限控制

68320
来自专栏牛肉圆粉不加葱

YARN资源调度器

18760
来自专栏Hadoop实操

如何使用CDSW在CDH中分布式运行所有R代码

无需额外花费过多的学习成本,sparklyr(https://spark.rstudio.com)可以让R用户很方便的利用Apache Spark的分布式计算能...

54660
来自专栏赵俊的Java专栏

Python 版 WordCount

26330
来自专栏Hadoop实操

如何通过CM禁用Federation

本文主要讲述如何通过CM禁用Federation。我前面写过两篇关于Federation的文章,可参看《HDFS Federation(联邦)简介》和《如何通过...

14740
来自专栏Hadoop实操

如何通过Cloudera Manager配置Spark1和Spark2的运行环境

大部分用户在使用CDH集群做Spark开发的时候,由于开发环境的JDK版本比CDH集群默认使用的JDK1.7.0_67-cloudera版本新,可能会出现Spa...

87470
来自专栏Hadoop实操

如何使用Cloudera Manager在线为集群减容

在Hadoop集群资源紧张的情况下可以在线扩容来提升集群的计算能力,具体参考Fayson前面的文章《如何在非Kerberos环境下对CDH进行扩容》,那么在集群...

1.4K70
来自专栏Hadoop实操

Sqoop抽数到Hive表异常分析(之二)

使用Sqoop抽取MySQL数据到Hive表时,抽取语句正常执行在数据Load到Hive表时报“Operation category READ is not s...

16530
来自专栏Hadoop实操

如何使用Oozie API接口向非Kerberos环境的CDH集群提交Spark作业

在CDH集群外的节点向集群提交Spark作业的方式有多种,前面Fayson介绍了Livy相关的文章主要描述如何在集群外节点通过RESTful API接口向CDH...

35870
来自专栏Hadoop实操

如何使用Oozie API接口向非Kerberos环境的CDH集群提交Shell工作流

前面Fayson介绍了《如何使用Oozie API接口向非Kerberos环境的CDH集群提交Spark作业》和《如何使用Oozie API接口向非Kerber...

35170

扫码关注云+社区

领取腾讯云代金券