数据作业自动化调度 AirFlow
背景概述
前文提及了数据的应用,在很多时候,数据是以最原始的形态存储在数据库,日常使用的标签类数据等,往往需要通过数据分析师的手动清洗。业务不会停止,所以手动更新数据不断重复,每天都需要手动处理,难免浪费时间。此时可以考虑使用Airflow进行调度任务的自动化部署,以提高效率。
1
工具说明
Airflow是Aribnb内部发起的一个工作流管理平台,使用Python编程实现任务管理,调度,监控的工作流平台。
关于Airflow的基本概念有:
Dag:用于描述任务数据流;
Task:Dag中的一个任务节点;
Operators:描述Dag中,节点Task要执行的具体任务;
Airflow可用UI界面进行管理,也可用CMD命令管理。
2
环境说明
系统环境:Linux (必须linux)
编程语言:Python 3.6 以下
3
环境搭建
注:以上命令均在命令行中执行
Airflow安装:使用 pip install airflow 即可
修改Airflow路径:export AIRFLOW_HOME=/root/airflow
初始化Airflow:airflow initdb(初始化后在/root/airflow路径下看是否存在Airflow文件夹,如存在则表示成功)
4
启动服务
注:以上命令均在命令行中执行
启动服务:airflow scheduler
启动webUI:airflow webserver(可通过访问http://localhost:8080/admin/进入UI管理页面)
6
图形化UI界面
领取专属 10元无门槛券
私享最新 技术干货