首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何使用Oozie API接口向非Kerberos环境CDH集群提交Spark作业

作业方式有多种,前面Fayson介绍了Livy相关文章主要描述如何在集群外节点通过RESTful API接口向CDH集群提交Spark作业,本篇文章我们借助于oozie-clientAPI接口向非...Kerberos集群提交Spark作业。...API接口向非Kerberos环境CDH集群提交作业》 《如何在Kerberos环境CDH集群部署Livy》 《如何通过LivyRESTful API接口向Kerberos环境CDH集群提交作业...》 内容概述 1.环境准备 2.示例代码编写及测试 3.总结 测试环境 1.CM和CDH版本为5.13.1 前置条件 1.集群未启用Kerberos 2.环境准备及描述 ---- 1.我们将作业运行jar...在指定HDFS运行jar或workflow路径时需要带上HDFS路径,否则默认会找到本地目录 GitHub地址: https://github.com/fayson/cdhproject/blob

1.4K70

如何使用Oozie API接口向Kerberos环境CDH集群提交Spark作业

作业方式有多种,前面Fayson介绍了Livy相关文章主要描述如何在集群外节点通过RESTful API接口向CDH集群提交Spark作业以及《如何使用Oozie API接口向非Kerberos环境...CDH集群提交Spark作业》,本篇文章主要介绍使用OozieAPI接口向Kerberos集群提交Spark作业。...Livy相关文章: 《Livy,基于Apache Spark开源REST服务,加入Cloudera Labs》 《如何编译Livy并在非Kerberos环境CDH集群安装》 《如何通过LivyRESTful...API接口向非Kerberos环境CDH集群提交作业》 《如何在Kerberos环境CDH集群部署Livy》 《如何通过LivyRESTful API接口向Kerberos环境CDH集群提交作业...在指定HDFS运行jar或workflow路径时需要带上HDFS路径,否则默认会找到本地目录 向Kerberos集群提交作业需要在程序中加载JAAS配置 Oozie-client提供了Kerberos

1.9K70
您找到你想要的搜索结果了吗?
是的
没有找到

Hadoop作业引用第三方jar文件

到目前可知, 已经完成了本地执行部分, 如果这段时期发生ClassNotFoundException, 则可以在自己脚本文件配置$HADOOP_CLASSPATH, 包含需要第三方jar文件, 再执行...JobTracker和TaskTracker如何获得第三方jar文件? 有时候提交job之后, 在map或者reduce函数也会产生ClassNotFoundException....这是因为map或reduce可能在其他机器执行, 那些机器没有需要jar文件, mapreduce作业交由JobTracker和TaskTracker执行, 两者如何获得第三方jar文件呢?...hdfs, job split, jar文件等....上传到hdfs, 然后将路径加入到分布式缓存; 第三方jar文件和自己程序打包到一个jar文件, 程序通过job.getJar()将获得整个文件并将其传至hdfs.

88120

如何使用Oozie API接口向Kerberos环境CDH集群提交Spark2作业

集群外节点向集群提交Spark作业,文章均采用Spark1来做为示例,本篇文章主要介绍如何是用Oozie API向Kerberos环境CDH集群提交Spark2作业。...在指定HDFS运行jar或workflow路径时需要带上HDFS路径,否则默认会找到本地目录 向Kerberos集群提交作业需要在程序中加载JAAS配置 Oozie-client提供了Kerberos...认证AuthOozieClient API接口 由于Oozie默认不支持Spark2作业提交,因此需要先在Oozie共享库安装Spark2支持 在定义Spark2workflow.xml时,...: 《如何使用Oozie API接口向非Kerberos环境CDH集群提交Spark作业》 《如何使用Oozie API接口向非Kerberos环境CDH集群提交Java作业》 《如何使用Oozie...环境CDH集群安装》 《如何通过LivyRESTful API接口向非Kerberos环境CDH集群提交作业》 《如何在Kerberos环境CDH集群部署Livy》 《如何通过LivyRESTful

3.3K40

Dlink On Yarn 三种 Flink 执行方式实践

对于 User Jar,将 Jar 相关配置与 Configuration 提交至 Yarn 来创建 Flink-Application 应用;对于 Flink SQL,Dlink 则将作业 ID 及数据库连接配置作为...( Yarn-Per-Job 和 Yarn-Application 也具有 JobManager,当然也可以手动注册,但无法提交任务) 状态异常时,请检查被注册 Flink 集群地址是否能正常访问... hdfs 路径(末尾无/),需要包含 Flink 运行时所有依赖,即 flink lib 目录下所有 jar; Flink 配置文件路径:指定配置文件 flink-conf.yaml 具体路径...提交 User Jar 作业中心—— Jar 管理,注册 User Jar 配置。 右边作业配置可执行 Jar 选择刚刚注册 Jar 配置,保存后点击小火箭提交作业。...由于提交了个批作业,Yarn 可以发现已经执行完成并销毁集群了。 七、总结 综上所述,Dlink 部署及搭建相关执行模式步骤虽繁锁,但确实为一个一劳永逸工作。

2.5K40

0734-5.16.1-集群外客户端跨网段向Kerberos环境Hadoop集群提交作业(续)

文档编写目的 在前面的文章《如何在集群外节点跨网段向HDFS写数据》和《外部客户端跨网段访问Hadoop集群方式(续)》中介绍了如何在集群外客户端节点上访问Hadoop集群,本篇文章在前面文章基础基于...Kerberos环境CDH集群介绍,如何在集群外客户端跨网段向Kerberos环境Hadoop集群提交MapReduce和Spark作业。...2.向集群提交一个MapReduce作业 hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar...2.需要跨网段向Kerberos集群提交Spark和MapReduce作业,需要将Yarn相应服务端口号绑定在0.0.0.0,同时需要在HDFS服务core-site.xml配置文件增加hadoop.security.token.service.use_ip...3.在配置Kerberos集群外节点提交Spark和MapReduce作业时,需要注意集群内外节点hosts文件配置,按照文章说明格式配置,否则会导致作业提交失败。

2.1K10

Flink重点难点:Flink任务综合调优(Checkpoint反压内存)

批处理作业中用于排序、哈希表及缓存中间结果。 流处理和批处理作业中用于「在Python进程执行用户自定义函数」。...消费者权重 对于包含不同种类托管内存消费者作业,可以进一步控制托管内存如何在消费者之间分配。...只有作业包含某种类型消费者时,Flink 才会为该类型分配托管内存。...Flink 框架 在作业提交时(例如一些特殊批处理 Source)及 Checkpoint 完成回调函数执行用户代码 Flink 需要多少 JVM 堆内存,很大程度上取决于运行作业数量、作业结构及上述用户代码需求...以下情况可能用到堆外内存: Flink 框架依赖(例如 Akka 网络通信) 在作业提交时(例如一些特殊批处理 Source)及 Checkpoint 完成回调函数执行用户代码 提示:如果同时配置了

5.7K31

0911-7.1.7-如何在CDP集群使用Flink SQL Client并与Hive集成

1 文档概述 在前面Fayson介绍了《0876-7.1.7-如何在CDP中部署Flink1.14》,同时Flink也提供了SQL Client能力,可以通过一种简单方式来编写、调试和提交程序到Flink...本篇文章主要介绍如何在CDP集群中使用Flink SQL Client与Hive集成。...jobmanager日志可以看到 通过日志可以看到报错jobid(ef7f994a08f57141fafd18481d13ab85)实际是在对应JobMaster 停止以后收到请求,因此才会出现该错误...3.在FLinkGateway节点必须部署Hive On TezGateway,否则在创建Catalog时会找不到Hive Metastore相关配置信息(Metastore URI以及Warehouse...7.通过Flink SQL向表插入数据后,生成Flink作业无法自动结束,一直处于运行状态,实际数据已写入表

37510

2019年,Hadoop到底是怎么了?

这不是新研发成果——Hortonwork 在 2018 年 7 月 3.0 发布已经包含对所有云服务存储支持(不是严格意义 HDFS)。...文件),2.4 版本支持机器学习 /”深度学习”先进执行模式、高级函数等。...TEZ 变更有时是用户会接触到0.9.0版本新 TEZ 界面,但大多数还是内部修改,以获取比旧版本更好性能和可扩展性。它最大优势在于提供针对 M/R 作业附加性能和监控能力。...我们可以维护一个本地 Hadoop 实例,将它提交到,比如说一个托管机器学习服务, BigQuery Google Cloud AutoML, 可以携带部分不含个人验证信息数据。...我们也可以将现有的 Hadoop 负载迁移到云, EMR 或 Dataproc,利用云可扩展性和成本优势,来开发可在不同云服务上进行移植软件。

1.9K10

Hadoop分布式缓存(DistributedCache)

Map-Redcue框架在作业所有任务执行之前会把必要文件拷贝到slave节点。 它运行高效是因为每个作业文件只拷贝一次并且为那些没有文档slave节点缓存文档。...例如,URI是 hdfs://namenode:port/lib.so.1#lib.so,则在task当前工作目录会有名为lib.so链接,它会链接分布式缓存lib.so.1。...因为空构造函数Job采用Configuration是从hadoop配置文件读出来(使用new Configuration()创建Configuration就是从hadoop配置文件读出来...,所以你需要把这个Configuration传递给Job构造函数,如果传递默认Configuration,那在Job当然不知道DistributedCacheFile存在了。...4.基本流程 每个tasktracker启动时,都会产生一个TrackerDistributedCacheManager对象,用来管理该tt机器所有的taskcache文件 在客户端提交job时,在

1.7K30

大数据云原生系列| 微信 Flink on Kubernetes 实战总结

下面详细阐述上图中 Flink 作业是如何提交部署。.../config.json)访问到,如果依赖文件是 jar,则需要将其附加到 classpath ,为了不修改 flink 脚本,我们将 jar 附加到环境变量 HADOOP_CLASSPATH,最后...对于用户主类所在 jar(即环境变量FLINK_USER_JAR),只需要在 Job Pod Container 中下载,如果同样下载到当前目录,那么它也会被附加到classpath,在提交时候可能会出现如下类加载链接错误...,这是因为 Java 启动时候加载了一遍,在执行用户main函数时候 Flink 又会去加载一遍,所以我们将主 jar 包下载到一个专门固定目录,例如/opt/workspace/main/,那么提交时通过...提交给统一调度平台,在统一调度平台上我们开发了一个 FlinkSQL 类型作业,本质就是一个常规 Flink Jar 作业,即 FlinkSQLDriver ,用于接受 SQL 及其附属参数,

1.9K21

如何使用Oozie API接口向Kerberos集群提交Java程序

作业方式有多种,前面Fayson介绍了《如何跨平台在本地开发环境提交MapReduce作业到CDH集群》和《如何使用Oozie API接口向非Kerberos环境CDH集群提交Java作业》,本篇文章主要介绍如何在...Kerberos集群使用Oozie API接口向集群提交Java作业。...内容概述 1.环境准备 2.示例代码编写及测试 3.总结 测试环境 1.CM和CDH版本为5.13.1 前置条件 1.集群已启用Kerberos 2.环境准备及描述 ---- 1.我们将作业运行jar...2.定义一个Java Actionworkflow.xml文件,内容如下: <workflow-app name="MapReduceWorkflow" xmlns="<em>uri</em>:oozie:workflow...在指定HDFS<em>上</em>运行<em>的</em><em>jar</em>或workflow<em>的</em>路径时需要带上HDFS<em>的</em>路径,否则默认会找到本地<em>的</em>目录 向Kerberos集群<em>提交</em><em>作业</em>需要在程序中加载JAAS配置 Oozie-client提供了Kerberos

2.6K70

HAWQ取代传统数仓实践(五)——自动调度工作流(Oozie、Falcon)

在本例我使用hdp2MySQL数据库存储Sqoop元数据。...准备java-json.jar文件         Oozie执行Sqoop时如果缺少java-json.jar文件,会报类似如下错误: Failing Oozie Launcher, Main class...配置SSH免密码登录         实际数据装载过程是通过HAWQ函数实现,自然工作流要执行包含psql命令行本地shell脚本文件。...Oozie工作流作业本身还提供了丰富内建函数,Oozie将它们统称为表达式语言函数(Expression Language Functions,简称EL函数)。...建立Cluster         Falcon里Cluster定义集群各种资源缺省访问点,还定义Falcon作业使用缺省工作目录。

2K60

听说你熟悉Flink-On-Yarn部署模式?

如果资源满了,下一个作业就无法提交,只能等到yarn其中一个作业执行完成后,释放了资源,下个作业才会正常提交。...接口提交至集群。...2.4.2 远端流程 远端响应任务提交请求是RestServerEndpoint,其包含了多个Handler,其中JobSubmitHandler用来处理任务提交请求; 处理请求入口: JobSubmitHandler...Per-Job-Cluster模式 一个任务会对应一个Job,每提交一个作业会根据自身情况,都会单独向yarn申请资源,直到作业执行完成,一个作业失败与否并不会影响下一个作业正常提交和运行。...经过上述步骤,客户端提交任务过程就完成了,主要涉及到文件(JobGraph和jar包)上传。

2.8K10

Flink类加载器

动态用户代码:这些是动态提交作业 JAR 文件包含所有类(通过 REST、CLI、Web UI)。 它们按作业动态加载(和卸载)。...作为一般规则,无论何时您先启动 Flink 进程然后再提交作业作业类都会动态加载。...针对会话(通过 REST / CLI)提交所有作业/应用程序类都是动态加载。...反向类加载和类加载器解析顺序 在涉及动态类加载设置(插件组件、会话设置 Flink 作业),通常有两个类加载器层次结构:(1)Java 应用程序类加载器,它包含类路径所有类,以及(2)动态插件...用户代码手动类加载 在某些情况下,转换函数、源或接收器需要手动加载类(通过反射动态加载)。 为此,它需要能够访问作业类加载器。

2.2K20

加速你检索

当前调度程序( CapacityScheduler 和 FairScheduler )是插件一些示例。...应用管理器(ApplicationsManager)负责接受作业提交,协商第一个容器以执行特定于应用程序 ApplicationMaster,并提供在失败时重新启动 ApplicationMaster...综上,一条 Hive sql 除了要经过常规客户端分析,sql 优化,还需要向 Yarn 资源管理框架提交任务,分配资源,创建 Contains ,执行 MapReduce 作业。...这里较大一部分耗时是在创建任务、分配资源及提交作业,所以 hive 一般在大数据处理只用于离线数据分析、展示,那我们想做到数据实时检索查询该如何优化呢?...HDFS 或者 hive 数据导入到 Elasticsearch ,后续就是如何在 ES 查询分析我们数据了,这将在以后文章详细讲解。

79840

扫码

添加站长 进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

    运营活动

    活动名称
    广告关闭
    领券