前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >一种通用调度平台的设计思路

一种通用调度平台的设计思路

作者头像
YG
发布2020-07-14 15:37:18
1.5K0
发布2020-07-14 15:37:18
举报
文章被收录于专栏:YG小书屋YG小书屋

根据笔者的工作经历,这里总结一种通用调度平台的设计思路。

这里会分三部分介绍:

1、相关概念。明确调度平台中常用的术语,避免歧义。

2、设计思路。分模块介绍各个模块的设计思路。

3、一些问题的处理方法。

1、相关概念

调度平台顾名思义就是调度任务的平台,在说调度平台之前需要先明确一下任务的概念。

工作流:有的同学认为执行一个脚本就是执行一个任务,而有的同学则是将多个脚本组装的流称为任务。本文采用后者的思路,为了避免歧义,则会将任务流称为工作流。

实例:工作流每次调度的记录则是一个实例。比如说工作流A每小时执行一次,那么3点钟的执行记录是一个实例,4点钟的执行记录也是一个实例。

节点:一个工作流包含多个需要调度的脚本,每个脚本称为一个节点。

调度器(Master):调度工作流的模块叫调度器。

执行器(Executor):执行工作流中节点的模块。

整个架构如下所示:

调度平台

2、设计思路

2.1、工作流的存储、转换思路

工作流包含四部分内容:

工作流的基本配置信息,比如说名字,开始执行时间,调度间隔,执行队列,执行超时时间,超时是否告警,管理员等

工作流中节点的依赖信息:比如说节点A的父节点是任务B和任务C,任务B和任务C都只有一个子节点任务A

工作流中节点的配置信息:比如说节点A是一个filter节点,需要配置filter的条件,filter的字段以及filter的值

工作流间的依赖信息:当前工作流可以依赖于另外一个工作流,也可以只依赖于其中一个节点。比如说工作流A是一个天任务,工作流B是一个小时任务,工作流A依赖于工作流B的24个实例。

存储层:

思路一:

四部分单独存储,存为四张表。使用时组装即可。

思路二:

以工作流为核心,内部组件存储在一起,依赖另外存储。也就是说前三部分存一个表,第四部分存一个表。依赖部分和节点的配置信息分别用json存储。

适配层:

适配层提供了一个规整后的工作流,包含基本信息,节点配置,节点依赖,工作流依赖等,并且提供任务流到指定调度引擎任务的转换。其目的主要是为了适配不同的调度引擎。比如说当前的调度引擎用的是airflow,用了一段时间后发现问题特别多,自己写了一套调度逻辑,此时适配层的作用就体现出来了。同时也解决了多个调度器同时运行的问题。

2.2、调度器的设计思路

调度器可以用现有开源的组件,比如说airflow。也可以自己写一套调度逻辑,这里则是介绍如果自己设计调度器,需要从那些角度考虑。

调度器包含实例生成、调度两个模块。

实例生成模块:

实例生成模块包含实例生成和依赖检测两个部分。

实例生成不用管任务的依赖,只需要根据任务配置的调度周期生成实例即可,但生成的实例状态不是待执行状态,而是依赖检测状态。调度器不会调度依赖检测状态的实例。

依赖检测则是选择依赖检测状态的实例,检测它们的依赖的实例或者节点是否都已全部执行成功,如果满足则将实例的状态置为待执行。调度器会调度待执行状态的实例。

调度模块

调度模块包含从数据库取出待执行实例,解析节点DAG关系,对外提供服务三个部分。

取出待执行实例部分的逻辑比较简单,如果当前正在执行的实例个数小于阀值,则以某种优先级取出实例即可。这里可能还涉及到队列限制等。

解析节点DAG部分则是根据节点的DAG关系进行解析,将满足依赖的节点放到内存队列中。

对外提供服务部分则是对外提供http或者rpc服务,供执行器从队列中拉节点执行,以及接收执行器的执行结果。

2.3、节点的管理思路

节点是一个传入参数就可以执行的脚本。

节点脚本存储

首先面临的一个问题是节点的脚本存在哪?有三种方案:

第一种是节点的脚本放在调度器,执行器执行时从调度器拉脚本。

第二种是节点的脚本放在执行器,执行器执行时直接从本地读文件执行即可。

第三种是构建一个节点平台,节点平台管理所有的节点,执行器执行时从节点平台拉脚本执行。

第一种方案的弊端是调度器耦合了节点的管理逻辑,当节点频繁更新时,可能会影响调度器的执行;第二种方案的弊端是更新节点的脚本比较麻烦,需要手动下发;第三种方案的弊端是管理比较复杂。这里的方案根据特点自己选择即可。

节点执行时,执行器直接impor节点执行即可。

3、常见问题的处理方法

3.1、节点是push or pull?

如果选用push,那么调度器需要做三件事,挑选节点,挑选执行器,把节点配置信息推到执行器。挑选执行器这块会比较复杂,可能需要根据执行器执行的任务个数,执行器当前的资源来决定。

如果选用pull,调度器需要做两件事,挑选节点,向执行器返回节点的配置信息。

下面的问题都是基于节点是以pull的方式讨论的。

3.2、如何保证高可用和高扩展?

调度器采用主备的方式(ZK实现),同一时间点只有一个调度器可用。

执行器属于对等的方式,各类执行器保持一致,需要添加机器时直接增加即可,无需重启集群。

调度器监控执行器,当执行器丢失时,重置执行器上面正在执行的任务;

执行器监控调度器,当调度器丢失时,从zk上面获取新的调度器ip。

3.3、调度器丢失时,如何保证数据的一致性?

方案一:备调度器检测到主调度器丢失时,直接将正在执行的任务全部重置,自己变为主调度器;执行器检测到master丢失时,直接丢掉所有正在执行的节点;

所有正在执行的任务都是从刚正在执行的节点开始执行,数据不会错乱。

方案二:备调度器检测到主调度器丢失时,自己变为主调度器,将正在执行的任务和节点恢复到内存中;执行器检测到master丢失时,继续执行节点,向master返回节点执行的结果时,如果发现master不可用,将节点的执行结果写到本地,每隔段时间重试一次,直至master恢复。

3.4、如何规避调度器和执行器的假死?

假设一执行器所在的机器负载特别高,丢失了zk连接,导致调度器认为执行器挂掉,调度器将节点调度到其他机器执行,过了一段时间后,执行器恢复,向调度器返回节点的执行结果。有如下的影响:

1、同一节点被执行了两次,且数据不一致。不讨论节点执行返回的结果是否幂等,节点的统计信息也会有异常。比如说任务A 3点钟由执行器a开始执行,3点半时执行器a假死,任务A被执行器b开始执行,此时任务A的起始执行时间为3点半,但过会后执行器a恢复,继续执行任务A,4点钟向调度器返回结果,如果没有一些限制措施,则会更新任务A的结束执行时间为4点。此时任务A的起始时间时执行器b的开始时间,结束时间时任务b的结束时间。

2、执行器恢复后未向zk注册,导致调度器未监控到该执行器,如果该执行器再次挂掉,会导致节点假死处于一直被执行的状态。

如果是调度器假死后恢复,对数据的影响不大,但内存中记录的正在执行的节点会一直保留,产生误告警之类的信息。

解决方案:

节点被两个执行器更新的问题:执行器拉取的节点加一个标记位,只有标记位相同的结果才能更新。

执行器假死的问题:执行器有个线程定时监测自己的zk是否存在,如果不存在,创建。

调度器假死的问题:调度器有个线程定时监测主调度器的ip是否是自己的ip,如果不是,自动转换为备调度器。

3.5、隔离计算密集型节点和IO密集型节点

业务场景越多,节点也就越多。根据节点的计算逻辑,可以将节点分为计算密集型节点和IO密集型节点。针对于节点不同的特性,可以将执行器分为多种类型,比如说IO密集型执行器和计算密集型执行器,每种类型的执行器可以通过配置决定自己能执行什么类型的任务。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1、相关概念
  • 2、设计思路
    • 2.1、工作流的存储、转换思路
      • 存储层:
      • 适配层:
    • 2.2、调度器的设计思路
      • 实例生成模块:
      • 调度模块
    • 2.3、节点的管理思路
      • 节点脚本存储
  • 3、常见问题的处理方法
    • 3.1、节点是push or pull?
      • 3.2、如何保证高可用和高扩展?
        • 3.3、调度器丢失时,如何保证数据的一致性?
          • 3.4、如何规避调度器和执行器的假死?
            • 3.5、隔离计算密集型节点和IO密集型节点
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档