首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何使用Oozie API接口向非Kerberos环境CDH集群提交Spark作业

作业方式有多种,前面Fayson介绍了Livy相关文章主要描述如何在集群外节点通过RESTful API接口向CDH集群提交Spark作业,本篇文章我们借助于oozie-clientAPI接口向非...Kerberos集群提交Spark作业。...API接口向非Kerberos环境CDH集群提交作业》 《如何在Kerberos环境CDH集群部署Livy》 《如何通过LivyRESTful API接口向Kerberos环境CDH集群提交作业...》 内容概述 1.环境准备 2.示例代码编写及测试 3.总结 测试环境 1.CM和CDH版本为5.13.1 前置条件 1.集群未启用Kerberos 2.环境准备及描述 ---- 1.我们将作业运行jar...在指定HDFS运行jar或workflow路径时需要带上HDFS路径,否则默认会找到本地目录 GitHub地址: https://github.com/fayson/cdhproject/blob

1.4K70

如何使用Oozie API接口向Kerberos环境CDH集群提交Spark作业

作业方式有多种,前面Fayson介绍了Livy相关文章主要描述如何在集群外节点通过RESTful API接口向CDH集群提交Spark作业以及《如何使用Oozie API接口向非Kerberos环境...CDH集群提交Spark作业》,本篇文章主要介绍使用OozieAPI接口向Kerberos集群提交Spark作业。...Livy相关文章: 《Livy,基于Apache Spark开源REST服务,加入Cloudera Labs》 《如何编译Livy并在非Kerberos环境CDH集群安装》 《如何通过LivyRESTful...API接口向非Kerberos环境CDH集群提交作业》 《如何在Kerberos环境CDH集群部署Livy》 《如何通过LivyRESTful API接口向Kerberos环境CDH集群提交作业...在指定HDFS运行jar或workflow路径时需要带上HDFS路径,否则默认会找到本地目录 向Kerberos集群提交作业需要在程序中加载JAAS配置 Oozie-client提供了Kerberos

1.9K70
您找到你想要的搜索结果了吗?
是的
没有找到

Hadoop作业引用第三方jar文件

到目前可知, 已经完成了本地执行部分, 如果这段时期发生ClassNotFoundException, 则可以在自己脚本文件配置$HADOOP_CLASSPATH, 包含需要第三方jar文件, 再执行...JobTracker和TaskTracker如何获得第三方jar文件? 有时候提交job之后, 在map或者reduce函数也会产生ClassNotFoundException....这是因为map或reduce可能在其他机器执行, 那些机器没有需要jar文件, mapreduce作业交由JobTracker和TaskTracker执行, 两者如何获得第三方jar文件呢?...hdfs, job split, jar文件等....上传到hdfs, 然后将路径加入到分布式缓存; 第三方jar文件和自己程序打包到一个jar文件, 程序通过job.getJar()将获得整个文件并将其传至hdfs.

87820

如何使用Oozie API接口向Kerberos环境CDH集群提交Spark2作业

集群外节点向集群提交Spark作业,文章均采用Spark1来做为示例,本篇文章主要介绍如何是用Oozie API向Kerberos环境CDH集群提交Spark2作业。...在指定HDFS运行jar或workflow路径时需要带上HDFS路径,否则默认会找到本地目录 向Kerberos集群提交作业需要在程序中加载JAAS配置 Oozie-client提供了Kerberos...认证AuthOozieClient API接口 由于Oozie默认不支持Spark2作业提交,因此需要先在Oozie共享库安装Spark2支持 在定义Spark2workflow.xml时,...: 《如何使用Oozie API接口向非Kerberos环境CDH集群提交Spark作业》 《如何使用Oozie API接口向非Kerberos环境CDH集群提交Java作业》 《如何使用Oozie...环境CDH集群安装》 《如何通过LivyRESTful API接口向非Kerberos环境CDH集群提交作业》 《如何在Kerberos环境CDH集群部署Livy》 《如何通过LivyRESTful

3.3K40

Dlink On Yarn 三种 Flink 执行方式实践

对于 User Jar,将 Jar 相关配置与 Configuration 提交至 Yarn 来创建 Flink-Application 应用;对于 Flink SQL,Dlink 则将作业 ID 及数据库连接配置作为...( Yarn-Per-Job 和 Yarn-Application 也具有 JobManager,当然也可以手动注册,但无法提交任务) 状态异常时,请检查被注册 Flink 集群地址是否能正常访问... hdfs 路径(末尾无/),需要包含 Flink 运行时所有依赖,即 flink lib 目录下所有 jar; Flink 配置文件路径:指定配置文件 flink-conf.yaml 具体路径...提交 User Jar 作业中心—— Jar 管理,注册 User Jar 配置。 右边作业配置可执行 Jar 选择刚刚注册 Jar 配置,保存后点击小火箭提交作业。...由于提交了个批作业,Yarn 可以发现已经执行完成并销毁集群了。 七、总结 综上所述,Dlink 部署及搭建相关执行模式步骤虽繁锁,但确实为一个一劳永逸工作。

2.5K40

0734-5.16.1-集群外客户端跨网段向Kerberos环境Hadoop集群提交作业(续)

文档编写目的 在前面的文章《如何在集群外节点跨网段向HDFS写数据》和《外部客户端跨网段访问Hadoop集群方式(续)》中介绍了如何在集群外客户端节点上访问Hadoop集群,本篇文章在前面文章基础基于...Kerberos环境CDH集群介绍,如何在集群外客户端跨网段向Kerberos环境Hadoop集群提交MapReduce和Spark作业。...2.向集群提交一个MapReduce作业 hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar...2.需要跨网段向Kerberos集群提交Spark和MapReduce作业,需要将Yarn相应服务端口号绑定在0.0.0.0,同时需要在HDFS服务core-site.xml配置文件增加hadoop.security.token.service.use_ip...3.在配置Kerberos集群外节点提交Spark和MapReduce作业时,需要注意集群内外节点hosts文件配置,按照文章说明格式配置,否则会导致作业提交失败。

2.1K10

Flink重点难点:Flink任务综合调优(Checkpoint反压内存)

批处理作业中用于排序、哈希表及缓存中间结果。 流处理和批处理作业中用于「在Python进程执行用户自定义函数」。...消费者权重 对于包含不同种类托管内存消费者作业,可以进一步控制托管内存如何在消费者之间分配。...只有作业包含某种类型消费者时,Flink 才会为该类型分配托管内存。...Flink 框架 在作业提交时(例如一些特殊批处理 Source)及 Checkpoint 完成回调函数执行用户代码 Flink 需要多少 JVM 堆内存,很大程度上取决于运行作业数量、作业结构及上述用户代码需求...以下情况可能用到堆外内存: Flink 框架依赖(例如 Akka 网络通信) 在作业提交时(例如一些特殊批处理 Source)及 Checkpoint 完成回调函数执行用户代码 提示:如果同时配置了

5.7K31

0911-7.1.7-如何在CDP集群使用Flink SQL Client并与Hive集成

1 文档概述 在前面Fayson介绍了《0876-7.1.7-如何在CDP中部署Flink1.14》,同时Flink也提供了SQL Client能力,可以通过一种简单方式来编写、调试和提交程序到Flink...本篇文章主要介绍如何在CDP集群中使用Flink SQL Client与Hive集成。...jobmanager日志可以看到 通过日志可以看到报错jobid(ef7f994a08f57141fafd18481d13ab85)实际是在对应JobMaster 停止以后收到请求,因此才会出现该错误...3.在FLinkGateway节点必须部署Hive On TezGateway,否则在创建Catalog时会找不到Hive Metastore相关配置信息(Metastore URI以及Warehouse...7.通过Flink SQL向表插入数据后,生成Flink作业无法自动结束,一直处于运行状态,实际数据已写入表

37410

2019年,Hadoop到底是怎么了?

这不是新研发成果——Hortonwork 在 2018 年 7 月 3.0 发布已经包含对所有云服务存储支持(不是严格意义 HDFS)。...文件),2.4 版本支持机器学习 /”深度学习”先进执行模式、高级函数等。...TEZ 变更有时是用户会接触到0.9.0版本新 TEZ 界面,但大多数还是内部修改,以获取比旧版本更好性能和可扩展性。它最大优势在于提供针对 M/R 作业附加性能和监控能力。...我们可以维护一个本地 Hadoop 实例,将它提交到,比如说一个托管机器学习服务, BigQuery Google Cloud AutoML, 可以携带部分不含个人验证信息数据。...我们也可以将现有的 Hadoop 负载迁移到云, EMR 或 Dataproc,利用云可扩展性和成本优势,来开发可在不同云服务上进行移植软件。

1.9K10

Hadoop分布式缓存(DistributedCache)

Map-Redcue框架在作业所有任务执行之前会把必要文件拷贝到slave节点。 它运行高效是因为每个作业文件只拷贝一次并且为那些没有文档slave节点缓存文档。...例如,URI是 hdfs://namenode:port/lib.so.1#lib.so,则在task当前工作目录会有名为lib.so链接,它会链接分布式缓存lib.so.1。...因为空构造函数Job采用Configuration是从hadoop配置文件读出来(使用new Configuration()创建Configuration就是从hadoop配置文件读出来...,所以你需要把这个Configuration传递给Job构造函数,如果传递默认Configuration,那在Job当然不知道DistributedCacheFile存在了。...4.基本流程 每个tasktracker启动时,都会产生一个TrackerDistributedCacheManager对象,用来管理该tt机器所有的taskcache文件 在客户端提交job时,在

1.7K30

大数据云原生系列| 微信 Flink on Kubernetes 实战总结

下面详细阐述上图中 Flink 作业是如何提交部署。.../config.json)访问到,如果依赖文件是 jar,则需要将其附加到 classpath ,为了不修改 flink 脚本,我们将 jar 附加到环境变量 HADOOP_CLASSPATH,最后...对于用户主类所在 jar(即环境变量FLINK_USER_JAR),只需要在 Job Pod Container 中下载,如果同样下载到当前目录,那么它也会被附加到classpath,在提交时候可能会出现如下类加载链接错误...,这是因为 Java 启动时候加载了一遍,在执行用户main函数时候 Flink 又会去加载一遍,所以我们将主 jar 包下载到一个专门固定目录,例如/opt/workspace/main/,那么提交时通过...提交给统一调度平台,在统一调度平台上我们开发了一个 FlinkSQL 类型作业,本质就是一个常规 Flink Jar 作业,即 FlinkSQLDriver ,用于接受 SQL 及其附属参数,

1.9K21

如何使用Oozie API接口向Kerberos集群提交Java程序

作业方式有多种,前面Fayson介绍了《如何跨平台在本地开发环境提交MapReduce作业到CDH集群》和《如何使用Oozie API接口向非Kerberos环境CDH集群提交Java作业》,本篇文章主要介绍如何在...Kerberos集群使用Oozie API接口向集群提交Java作业。...内容概述 1.环境准备 2.示例代码编写及测试 3.总结 测试环境 1.CM和CDH版本为5.13.1 前置条件 1.集群已启用Kerberos 2.环境准备及描述 ---- 1.我们将作业运行jar...2.定义一个Java Actionworkflow.xml文件,内容如下: <workflow-app name="MapReduceWorkflow" xmlns="<em>uri</em>:oozie:workflow...在指定HDFS<em>上</em>运行<em>的</em><em>jar</em>或workflow<em>的</em>路径时需要带上HDFS<em>的</em>路径,否则默认会找到本地<em>的</em>目录 向Kerberos集群<em>提交</em><em>作业</em>需要在程序中加载JAAS配置 Oozie-client提供了Kerberos

2.6K70

HAWQ取代传统数仓实践(五)——自动调度工作流(Oozie、Falcon)

在本例我使用hdp2MySQL数据库存储Sqoop元数据。...准备java-json.jar文件         Oozie执行Sqoop时如果缺少java-json.jar文件,会报类似如下错误: Failing Oozie Launcher, Main class...配置SSH免密码登录         实际数据装载过程是通过HAWQ函数实现,自然工作流要执行包含psql命令行本地shell脚本文件。...Oozie工作流作业本身还提供了丰富内建函数,Oozie将它们统称为表达式语言函数(Expression Language Functions,简称EL函数)。...建立Cluster         Falcon里Cluster定义集群各种资源缺省访问点,还定义Falcon作业使用缺省工作目录。

2K60

听说你熟悉Flink-On-Yarn部署模式?

如果资源满了,下一个作业就无法提交,只能等到yarn其中一个作业执行完成后,释放了资源,下个作业才会正常提交。...接口提交至集群。...2.4.2 远端流程 远端响应任务提交请求是RestServerEndpoint,其包含了多个Handler,其中JobSubmitHandler用来处理任务提交请求; 处理请求入口: JobSubmitHandler...Per-Job-Cluster模式 一个任务会对应一个Job,每提交一个作业会根据自身情况,都会单独向yarn申请资源,直到作业执行完成,一个作业失败与否并不会影响下一个作业正常提交和运行。...经过上述步骤,客户端提交任务过程就完成了,主要涉及到文件(JobGraph和jar包)上传。

2.8K10

加速你检索

当前调度程序( CapacityScheduler 和 FairScheduler )是插件一些示例。...应用管理器(ApplicationsManager)负责接受作业提交,协商第一个容器以执行特定于应用程序 ApplicationMaster,并提供在失败时重新启动 ApplicationMaster...综上,一条 Hive sql 除了要经过常规客户端分析,sql 优化,还需要向 Yarn 资源管理框架提交任务,分配资源,创建 Contains ,执行 MapReduce 作业。...这里较大一部分耗时是在创建任务、分配资源及提交作业,所以 hive 一般在大数据处理只用于离线数据分析、展示,那我们想做到数据实时检索查询该如何优化呢?...HDFS 或者 hive 数据导入到 Elasticsearch ,后续就是如何在 ES 查询分析我们数据了,这将在以后文章详细讲解。

79840

Flink类加载器

动态用户代码:这些是动态提交作业 JAR 文件包含所有类(通过 REST、CLI、Web UI)。 它们按作业动态加载(和卸载)。...作为一般规则,无论何时您先启动 Flink 进程然后再提交作业作业类都会动态加载。...针对会话(通过 REST / CLI)提交所有作业/应用程序类都是动态加载。...反向类加载和类加载器解析顺序 在涉及动态类加载设置(插件组件、会话设置 Flink 作业),通常有两个类加载器层次结构:(1)Java 应用程序类加载器,它包含类路径所有类,以及(2)动态插件...用户代码手动类加载 在某些情况下,转换函数、源或接收器需要手动加载类(通过反射动态加载)。 为此,它需要能够访问作业类加载器。

2.2K20
领券