首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

使用 Livy Rest API 提交 spark 批量任务 (jar,Python, streaming)

Livy是一个开源REST 接口,用于与Spark进行交互,它同时支持提交执行代码段和完整程序。 ? image.png Livy封装了spark-submit并支持远端执行。.../bin/livy-server 这里假设spark使用yarn模式,所以所有文件路径都默认位于HDFS中。...提交jar包 首先我们列出当前正在执行任务: curl localhost:8998/sessions | python -m json.tool % Total % Received % Xferd...jar包,假设提交jar包位于hdfs中,路径为/usr/lib/spark/lib/spark-examples.jar curl -X POST --data '{"file": "/user/romain.../json" localhost:8998/batches {"id":0,"state":"running","log":[]} 返回结果中包括了提交ID,这里为0,我们可以通过下面的命令查看任务状态

2.9K30
您找到你想要的搜索结果了吗?
是的
没有找到

Zookeeper + Hadoop2.6 集群HA + spark1.6完整搭建与所有参数解析

[nameservice ID]在名称服务中每一个nameNode唯一标识符,streamcluster为之前配置nameservice名称,这里配置高可用,所以配置两个NN ...streamcluster两个NameNode共享edits文件目录时,使用JournalNode集群信息     dfs.ha.automatic-failover.enabled...> HA下两个ResourceManager逻辑名称     yarn.resourcemanager.ha.rm-ids     rm1...查看端口是否占用 Netstat-tunlp |grep 22 查看所有端口 Netstat -anplut 十、spark搭建与参数解析 修改spark-env..sh 增加如下参数(路径根据服务器上路径修改...=11G Spark Application在Yarn名字 SPARK_YARN_APP_NAME="asiainfo.Spark-1.6.0" 指定在yarn中执行,提交方式为client MASTER

67020

CentOS集群安装CDH Hadoop环境 操作指引 及Yarn Hbase Spark配置安装

集群ID一致 dfs.ha.namenodes.hdcluster:表示namenodeid,这里有两个namenode节点,因此使用nn1,nn2命名 dfs.namenode.rpc-address.hdcluster.nn1...:表示 nn1、nn2所在节点http服务和端口 dfs.namenode.shared.edits.dir:表示namenode共享元数据路径,在配置HA时,使用journalnode来保存元数据...此目录是spark-defaults.conf目录中配置目录名称,命令如下: #hadoop fs -mkdir /spark_jars 进入spark安装目录jars目录,执行: #hadoop...有些关于Spark on YARN部署博客,实际上介绍Spark standalone运行模式。...如果启动Sparkmaster和worker服务,这是Spark standalone运行模式,不是Spark on YARN运行模式。

1.5K71

被这个参数三杀了

关键代码如下所示: 在buildTokenService中,判断如果必须使用IP(userIpForTokenService),则会对rm域名进行解析,如果无法解析出具体ip地址,则抛出异常;...结合实际情况来分析,由于其中一个rm出现了宕机,其域名确实无法解析出对应ip来,因此这也就是导致任务失败根本原因。...进程kerberos登陆使用principal为"hadoop/spark-history.svc.cluster.local@BIGDATA.COM" 从pincipal中解析出主机名为"spark-history.svc.cluster.local...,使其成为完全合规域名,并按照该域名来解析。 而由于sparkHistory所在容器,配置了就绪探针,容器未就绪时,无法解析出任何地址。...localdomain,因此以"spark-history.svc.cluster.local.localdomain"来解析解析ip恰好就是127.0.0.1,导致了问题出现 该节点/etc

70420

Dolphin Scheduler 1.2.0 部署参数分析

hdfs namenode配置 单点可以直接写namenodeip hdfsHA需要将集群core-site.xml和hdfs-site.xml文件拷贝到dsconf目录下 s3配置 yarn...resourcemanager配置 yarn.application.status.address - yarn单点 yarn.resourcemanager.ha.rm.ids - yarn HA config...ds元数据库配置,在ds-1.2.0中默认数据库是pg,如果要使用mysql,需要将mysqljdbc包放到lib目录下。...defaultFS,如果hdfs没有配置HA则需要在这里写上单点namenodeip,如果HDFS是HA则需要将集群core-site.xml文件和hdfs-site.xml文件拷贝到conf目录下...yarnHaIps,如果yarn启用了HA,配置两个resourcemanagerip,如果是单点,配置空字符串 singleYarnIp,配置resourcemanagerip,在yarn单点情况下

3.8K31

如何使用Oozie API接口向非Kerberos环境CDH集群提交Spark作业

作业方式有多种,前面Fayson介绍了Livy相关文章主要描述如何在集群外节点通过RESTful API接口向CDH集群提交Spark作业,本篇文章我们借助于oozie-clientAPI接口向非...Livy相关文章: 《Livy,基于Apache Spark开源REST服务,加入Cloudera Labs》 《如何编译Livy并在非Kerberos环境CDH集群中安装》 《如何通过LivyRESTful...API接口向非Kerberos环境CDH集群提交作业》 《如何在Kerberos环境CDH集群部署Livy》 《如何通过LivyRESTful API接口向Kerberos环境CDH集群提交作业...Oozie-clientAPI接口向非Kerberos集群提交Spark作业 * creat_user: Fayson * email: htechinfo@163.com * creat_date...Spark作业 [zmn87xt5vz.jpeg] 2.登录CM进入Yarn服务“应用程序”菜单查看 [cmvmeo1tkn.jpeg] 3.打开Yarn8088 Web界面查看 [k62rq1vgqn.jpeg

1.4K70

进击大数据系列(九)Hadoop 实时计算流计算引擎 Flink

Flink是原生流处理系统,但也提供了批处理API,拥有基于流式计算引擎处理批量数据计算能力,真正实现了批流统一。与Spark批处理不同是,Flink把批处理当作流处理中一种特殊情况。...而同类框架Spark Streaming在流式计算中无法做到低延迟保障。Apache Storm可以做到低延迟,但无法满足高吞吐要求。...从Flink 1.6版本开始,将主节点上进程名称改为了StandaloneSessionClusterEntrypoint,从节点进程名称改为了TaskManagerRunner,在这里为了方便使用...该模式下,Flink会向YARN一次性申请足够多资源,资源永久保持不变,如果资源被占满,则下一个作业无法提交,只能等其中一个作业执行完成后释放资源,如图: 拥有一个预先存在集群可以节省大量时间申请资源和启动...作业可以使用现有资源快速执行计算是非常重要。 Flink Single Job模式不需要提前启动Flink YARN Session集群,直接在YARN提交Flink作业即可。

1.1K20

深入浅出学大数据(五)Hadoop再探讨High Availability(HA)集群搭建及YARN原理介绍

2.3.2 局限性 当下HDFS体系结构仅允许单个NameNode维护文件系统名称空间。注意HA体系中虽然说允许多个NameNode,但是他们所维护是同一套文件系统名称空间。...由于名称空间和存储层紧密耦合,NameNode替代实现很困难。这限制了其他服务直接使用块存储。唯一NameNode成了唯一入口。 文件系统操作还限于NameNode一次处理任务数。...因此,群集性能取决于NameNode吞吐量。 同样,由于使用单个名称空间,因此使用群集占用者组织之间没有隔离。 2.3.3 HDFS Federation架构 1....MapReduce 应用程序编程接口有两套,分别是新 API(mapredue)和旧 API(mapred) , MRv2 可做到以下兼容性 :采用 MRv1 旧 API 编写应用程序,可直接使用之前...YARN HA 集群及其部署 ResourceManager(RM)负责管理群集中资源和调度应用程序(如MR、Spark等)。

89230

带你理解并亲手实践 Spark HA 部署配置及运行模式

这里修改为 false,不进行检查,否则虚拟内存不足时,NM 启动 Container 会被杀掉,无法运行 Spark 程序。...注意:这里不建议将 Spark sbin 目录加入环境变量,因为 Spark 启动脚本名称是 start-all,会跟很多其他组件启动脚本名称产生冲突。...观察 hadoop100 节点上 Spark 是否已经无法访问: 3..../spark-examples_2.12-3.2.1.jar \ 100 参数含义解析: --master:master 地址,表示提交任务到哪里执行,如 local[2] 为提交到本地执行,spark...://host:port 为提交Spark 集群执行,yarn提交YARN 集群执行(local 后数字表示用本地多少个线程来模拟集群运行,设置为 * 表示使用本地所有线程数量) --class

2K91

如何使用Oozie API接口向Kerberos环境CDH集群提交Spark作业

作业方式有多种,前面Fayson介绍了Livy相关文章主要描述如何在集群外节点通过RESTful API接口向CDH集群提交Spark作业以及《如何使用Oozie API接口向非Kerberos环境...CDH集群提交Spark作业》,本篇文章主要介绍使用OozieAPI接口向Kerberos集群提交Spark作业。...Livy相关文章: 《Livy,基于Apache Spark开源REST服务,加入Cloudera Labs》 《如何编译Livy并在非Kerberos环境CDH集群中安装》 《如何通过LivyRESTful...API接口向非Kerberos环境CDH集群提交作业》 《如何在Kerberos环境CDH集群部署Livy》 《如何通过LivyRESTful API接口向Kerberos环境CDH集群提交作业...Spark作业 [c3zybi2uw3.jpeg] 2.登录CM进入Yarn服务“应用程序”菜单查看 [g0e4fmdt7z.jpeg] 3.打开Yarn8088 Web界面查看 [vmql1ct622

1.9K70

大数据常见错误解决方案 转

解决方法:yarn-lient模式出现异常,暂时无解 21、hadoop文件不能下载以及YARN中Tracking UI不能访问历史日志 解决方法:windows系统不能解析域名所致,把hosts...47、YarnRM单点故障 解决方法:通过三节点zookeeper集群和yarn-site.xml配置文件完成Yarn HA 48、经验:kafka可通过配置文件使用自带zookeeper集群..._790 解决方法:去除spark-defaults.conf中spark.cleaner.ttl配置 53、Yarn HA环境下,通过web访问history日志被跳转到8088而无法显示 解决方法...Marking as slave lost 解决方法:使用yarn client提交作业遇到这种情况,暂时无解 55、Using config: /work/poa/zookeeper-3.4.6/...打包scala和java混合项目 解决方法:使用指令 mvn clean scala:compile compile package 84、sparkSQLudf无法注册UDAF聚合函数 解决方法

3.6K10

大数据框架学习:从 Hadoop 到 Spark

我们平常接触比较多也是 HDFS、YARN、MapReduce; 具体场景,HDFS,比如通过客户端访问集群, YARN,MapReduce,我们看提交任务执行情况。 3....因为NameNode保存了整个HDFS元数据信息,一旦NameNode挂掉,整个HDFS就无法访问,同时Hadoop生态系统中依赖于HDFS各个组件,包括MapReduce、Hive、Pig以及HBase...等也都无法正常工作,并且重新启动NameNode和进行数据恢复过程也会比较耗时。...这些问题在给Hadoop使用者带来困扰同时,也极大地限制了Hadoop使用场景,使得Hadoop在很长时间内仅能用作离线存储和离线计算,无法应用到对可用性和数据一致性要求很高在线应用场景中。...Python Sql任务,如果SQL支持Spark SQL语法,会使用Spark引擎执行任务。

8K22

大数据Hadoop生态圈介绍

名称空间和数据块映射信息,配置相关副本信息,处理客户端请求。...Hadoop 2为HDFS引入了两个重要新功能 ——Federation和高可用(HA): Federation允许集群中出现多个NameNode,之间相互独立且不需要互相协调,各自分工,管理自己区域...开发者可以在同一个应用程序中无缝组合使用这些库。 Spark Core:包含Spark基本功能;尤其是定义RDDAPI、操作以及这两者上动作。...其他Spark库都是构建在RDD和Spark Core之上 Spark SQL:提供通过Apache HiveSQL变体Hive查询语言(HiveQL)与Spark进行交互API。...所以在Flink中使用类Dataframe api是被作为第一优先级来优化。但是相对来说在spark RDD中就没有了这块优化了。

84120

大数据常见错误及解决方案

解决方法:yarn-lient模式出现异常,暂时无解 21、hadoop文件不能下载以及YARN中Tracking UI不能访问历史日志 解决方法:windows系统不能解析域名所致,把hosts文件...RM单点故障 解决方法:通过三节点zookeeper集群和yarn-site.xml配置文件完成Yarn HA 48、经验:kafka可通过配置文件使用自带zookeeper集群 49、经验:Spark...中spark.cleaner.ttl配置 53、Yarn HA环境下,通过web访问history日志被跳转到8088而无法显示 解决方法:恢复Yarn Http默认端口8088 54、but got...Marking as slave lost 解决方法:使用yarn client提交作业遇到这种情况,暂时无解 55、Using config: /work/poa/zookeeper-3.4.6/bin...scala和java混合项目 解决方法:使用指令 mvn clean scala:compile compile package 84、sparkSQLudf无法注册UDAF聚合函数 解决方法:把UDAF

3.4K71
领券