Apache Livy 实现思路及模块概述

本文基于 incubator-livy 0.4.0-incubating

关于Apache Livy(下文简称 livy)是什么以及有什么用,请移步:Livy:基于Apache Spark的REST服务

一、实现思路

在知道 livy 的作用及特点后,我们尝试着分析一个用户的任务是怎么通过 livy 运行起来的。

第一步:要将任务从用户的手里发送给 livy server,任务可以是代码片段(Scala、Python,R)的形式或可执行程序的形式(Jar)。这需要对最原始的任务按照 livy 的接口进行简单的封装,然后通过 http 的方式发送给 livy server

第二步:livy server 端要能够接收用户的请求,并且要能根据这是一个对 session 的,还是对 batch 或 job 的一个什么样的请求(创建、查状态、拿结果还是停止)进行相应的路由,去调用某个类的某个方法

第三步:livy 是一个有权限控制的系统(当然可以不开启),每个用户的每个请求是否有权限执行,都需要进行鉴权

第四步:对于用户发送的任务请求,livy 要有能力将其转换为一个 Spark App 并启动起来

第五步:除了要能执行用户指定的任务,运行中的 Spark App 还要提供获取运行状态、获取运行结果、共享 SparkContext 以及被正常停止等能力

第六步:一个 livy server 管理着众多 sessions、batches,需要维护大量相关信息并且在 livy server 重启后需要能够恢复对 sessions、batches 的管理,这就需要有能存取这些状态数据的模块

二、模块概述

从上文的 livy 大致的实现思路中,我们可以依次归纳出以下几个模块(顺序与上文步骤一一对应):

  • Client
  • router
  • 权限管理
  • 生成 Spark App
  • 交互式 Driver
  • 状态数据存储

其中每个模块(不同模块用不同颜色区分)及涉及的主要类,如下:

livy 模块概述.png

2.1、Client

Client 并不算 livy 的模块,也很简单,在此略过

2.2、router

我们知道,livy server 提供的 api 是 rest api,Client 发送的请求也是针对各个资源(uri)的增删改查。router 的核心职责是管理好要把对什么资源的什么操作指派给哪个类的哪个函数来处理,该模块核心类是 SessionServlet,继承于 ScalatraServlet,有两个子类:InteractiveSessionServletBatchSessionServlet,分别用来路由对 session 及 batch 相关的请求。

2.3、权限管理

权限由 AccessManager 类管理,维护了几种不同级别的 user:

  • superUser
  • modifyUser
  • viewUser
  • allowedUser

以及不用级别的 acl(访问控制列表):

  • viewAcls:superUsers ++ modifyUsers ++ viewUsers,对应查看权限
  • modifyAcls:superUsers ++ modifyUsers,对应修改权限(包括 kill 权限)
  • superAcls:superUsers,有所有权限
  • allowedAcls:superUsers ++ modifyUsers ++ viewUsers ++ allowedUsers,表示 acl 的全集

在目前的实现中,livy 的权限管理尚不支持插件化且只有 AccessManager 一种实现,若要定义自己的权限管理,需要直接修改源码

2.4、生成 Spark App

对于 session 和 batch 的任务,生成 Spark App 的逻辑及最终生成的 Spark App 都是不同的。先来说说相对简单的生成 batch 的 Spark App 涉及的主要类:

  • SparkProcessBuilder:用于从 livyConf 中提取出运行一个 Spark App 所需的一切,包括 mainClass、executableFile、deployMode、conf、master、queue、env 及 driver 和 executors 的资源配置等等;并最终生成一条启动 Spark App 的 spark-submit 命令
  • SparkYarnApp:用来运行 SparkProcessBuilder 生成的启动命令,并监控管理启动运行起来的 Spark App,包括获取状态、日志、诊断信息、kill 等(目前 livy 只支持 local 和 yarn 两种模式,local 暂不进行介绍)

接下来是生成 session 的 Spark App 涉及的主要类:

  • ContextLauncher:用于启动一个新的 Spark App(通过 SparkLauncher)以及获取如何连接到其 driver 的信息(地址、clientId 及秘钥)
  • RSCClient:与 Spark Driver 建立连接,向其发送创建、查看状态结果日志、修改statement、job 等请求并获取响应

2.5、交互式 Driver

需要注意的是,该模块仅对于 session 任务有,batch 并没有。 该模块中,最核心的类是 RSCDriver,其继承与 RpcDispatcherRpcDispatcher 接收来自 RSCClient 发送的 rpc 请求,根据请求的类型调用 RSCDriver 相应的方法去处理请求中包含的具体信息,对于最核心的执行代码片段(statement)请求,调用 repl/Session 去处理,repl/Session 最终会根据不同的 session kind 调用不同的 Interpreter 进行真正的代码执行,目前共有 Spark、Scala、Python、R 对应的 Interpreter

2.6、状态数据存储

核心类是 StateStore,状态数据的存储都是以 key-value 形式,目前有基于文件系统和 Zookeeper 的实现。另外,SessionStore 继承了该类提供高阶 Api 来进行 sessions 的存储和恢复

总结

上述的整体思路和模块概述让我们大致了解了 livy 是怎么玩的,接下来会针对各个模块进行更深入的展开,to be continued~


本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏我是攻城师

如何使用Spark的local模式远程读取Hadoop集群数据

5755
来自专栏架构师小秘圈

数据库连接池极简教程

一,常规数据库连接 ? 常规数据库连接一般由以下六个步骤构成: 装载数据库驱动程序; 建立数据库连接; 创建数据库操作对象 访问数据库,执行sql语句; 处理返...

3964
来自专栏编程坑太多

『中级篇』docker之CI/CD持续集成-CD演示(74)

PS:基本的流程就是开发人员提交代码,自动构建,然后可以在ci服务器上访问,整个流程基本就是这样。

1993
来自专栏IT技术精选文摘

教你玩转Hadoop分布式集群搭建,进击大数据

终于要开始玩大数据了,之前对haoop生态几乎没有太多的了解,现在赶鸭子上架,需要完全使用它来做数据中心,这是我的haoop第一篇文章,以后估计会写很多大数据相...

2428
来自专栏Hadoop实操

JupyterHub与OpenLDAP集成

Fayson在前面文章《如何在非安全的CDH集群中部署Jupyter并集成Spark2》及《如何在非安全的CDH集群中部署多用户JupyterHub服务并集成S...

5423
来自专栏hadoop学习笔记

最新详细hadoop集群操作系统安装教程

虚拟机以及Linux系统安装在之前的两篇分享中已经详细的介绍了方法,并且每一步的都配图了。如果有朋友还是看不懂,那我也爱莫能助了。本篇主要就hadoop服务器操...

1462
来自专栏Albert陈凯

P01_Spark开发测试运行环境安装Spark开发测试运行环境安装

Spark开发测试运行环境安装 VirtualBox下载地址 https://www.virtualbox.org/wiki/Downloads ? imag...

3747
来自专栏菩提树下的杨过

hadoop 2.6全分布安装

这一步完成后,最好重启一次系统,以便生效。然后可以用ping master(或slave01、slave02)试下,正常的话,应该能ping通

1611
来自专栏互扯程序

玩转linux 这些命令就够了

现在是资源共享的时代,同样也是知识分享的时代,如果你觉得本文能学到知识,请把知识与别人分享。

1812
来自专栏about云

hadoop,hbase,hive,zookeeper版本整合兼容性最全,最详细说明【适用于任何版本】

问题导读 1.hadoop与hbase哪些版本兼容? 2.hadoop与hive哪些版本兼容? 3.hbase与hive哪些版本兼容? 4.hbase与zook...

4035

扫码关注云+社区

领取腾讯云代金券