首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据作业自动化调度 AirFlow

数据作业自动化调度 AirFlow

背景概述

前文提及了数据的应用,在很多时候,数据是以最原始的形态存储在数据库,日常使用的标签类数据等,往往需要通过数据分析师的手动清洗。业务不会停止,所以手动更新数据不断重复,每天都需要手动处理,难免浪费时间。此时可以考虑使用Airflow进行调度任务的自动化部署,以提高效率。

1

工具说明

Airflow是Aribnb内部发起的一个工作流管理平台,使用Python编程实现任务管理,调度,监控的工作流平台。

关于Airflow的基本概念有:

Dag:用于描述任务数据流;

Task:Dag中的一个任务节点;

Operators:描述Dag中,节点Task要执行的具体任务;

Airflow可用UI界面进行管理,也可用CMD命令管理。

2

环境说明

系统环境:Linux (必须linux)

编程语言:Python 3.6 以下

3

环境搭建

注:以上命令均在命令行中执行

Airflow安装:使用 pip install airflow 即可

修改Airflow路径:export AIRFLOW_HOME=/root/airflow

初始化Airflow:airflow initdb(初始化后在/root/airflow路径下看是否存在Airflow文件夹,如存在则表示成功)

4

启动服务

注:以上命令均在命令行中执行

启动服务:airflow scheduler

启动webUI:airflow webserver(可通过访问http://localhost:8080/admin/进入UI管理页面)

6

图形化UI界面

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190104G0I2QB00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券