本文将从一个陌生视角开始认知airflow,顺带勾勒出应该如何一步步搭建我们的数据调度系统.
现在是9102年9月上旬, Airflow最近的一个版本是1.10.5.
ps....中台这个概念最近比较火, 其中就有一个叫做数据中台, 文章数据中台到底是什么给出了一个概念.
我粗糙的理解, 大概就是: 收集各个零散的数据,标准化,然后服务化, 提供统一数据服务....这里是一个BashOperator, 来自airflow自带的插件, airflow自带了很多拆箱即用的插件.
ds
airflow内置的时间变量模板, 在渲染operator的时候,会注入一个当前执行日期的字符串...访问airflow地址,刷新即可看到我们的dag.
开启dag, 进入dag定义, 可以看到已经执行了昨天的任务....对于每天要统计访问量这个目标来说, 我必须要抽取访问日志, 找到访问量的字段, 计算累加. 这3个任务之间有先后顺序,必须前一个执行完毕之后,后一个才可以执行. 这叫任务依赖.