[本文出自Ryan Miao]
数据调度系统可以将不同的异构数据互相同步,可以按照规划去执行数据处理和任务调度. Airflow就是这样的一个任务调度平台....这里是一个BashOperator, 来自airflow自带的插件, airflow自带了很多拆箱即用的插件.
ds
airflow内置的时间变量模板, 在渲染operator的时候,会注入一个当前执行日期的字符串...执行日期是任务实例运行所代表的任务时间, 我们通常叫做execute-date或bizdate, 类似hive表的的分区.
为什么今天执行的任务,任务的时间变量是昨天呢?...不同的任务之间的依赖.在airflow里, 通过在关联任务实现依赖.
还有同一个任务的时间依赖. 比如,计算新增用户量, 我必须知道前天的数据和昨天的数据, 才能计算出增量....自己写code, 只要查询日期范围的数据,然后分别计算就好. 但调度任务是固定的, 根据日期去执行的. 我们只能创建不同日期的任务实例去执行这些任务. backfill就是实现这种功能的.