前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[原创]-数据仓库任务调度

[原创]-数据仓库任务调度

作者头像
DataScience
发布2020-11-24 14:09:26
7490
发布2020-11-24 14:09:26
举报
文章被收录于专栏:A2DataA2Data

概述

随着数据仓库的开发,ETL作业会越来越多,怎么把这些作业有序的运行起来,就需要一个健壮的调度系统来保证数据能够准确、及时的提供给BI应用程序。

调度系统架构

  • ETL作业

数据仓库的ETL作业可能不至一种,需要把各种作业再次进行封装,建立作业的标准格式,统一作业的输入参数、输出参数和参数格式,达到所有的作业调度方式一致。

  • 作业管理

提供便捷的作业配置和依赖关系配置页面。

  • 作业调度

根据作业调度算法进行自动执行,如果发生异常情况可以进行人工重启和停止。

  • 作业监控

对作业运行情况进行监控,发送邮件或者提供监控页面

常用的调度组件

组件名

属性标签

特性

使用场景

azkaban

调度工具

处理有依赖关系的复杂任务调度,只支持mysql存储基本信息

常用调度工具之一

crontab

linux自带调度工具

简单任务调度

适用日常少量调度

ooize

调度工具

处理复杂任务调度,但好像并不好用

大数据领域调度工具之一(Oozie, Azkaban,Cascading,Hamake)

作业调度状态

  1. 初始化:把新添加的作业加入到执行计划中。
  2. 待运行:根据时间和依赖关系把可执行的任务更新为待运行。
  3. 运行中:把待运行的任务执行,更新为运行中。
  4. 结束:作业运行完成,分为成功和失败。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-11-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DataScience 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 调度系统架构
  • 常用的调度组件
  • 作业调度状态
相关产品与服务
腾讯云 BI
腾讯云 BI(Business Intelligence,BI)提供从数据源接入、数据建模到数据可视化分析全流程的BI能力,帮助经营者快速获取决策数据依据。系统采用敏捷自助式设计,使用者仅需通过简单拖拽即可完成原本复杂的报表开发过程,并支持报表的分享、推送等企业协作场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档