如何在Airflow cfg中存储SQL连接密码？_如何在.net web apis中存储私人信息，如密码？_如何在连接到远程服务器时自动触发SQL server中的(远程)存储过程？ - 腾讯云开发者社区

Airflow是一款纯Python编写的任务流调度工具，airflow由许多模块组成，用户可单独安装部分模块比如pip install 'apache-airflow[celery]'，pip install 'apache-airflow[hdfs]'等，也可以安装所有的模块pip install 'apache-airflow[all]'，下面我们首先介绍的是如何在一台新安装的纯净的RedHat7.4上离线安装apache-airflow[all]。

airflow使用MySQL数据库（第三方数据库详解）

airflow 是一个python写的调度平台，大致的认识是：定义一些任务（脚本、命令、连接...），airflow调度平台可以自动去运行，后面会给出运行日志（UI界面）等，这个UI界面（WEB端）有一些复杂的分析图谱，可以做的事情就很多了。

您找到你想要的搜索结果了吗？

是的

没有找到

任务流管理工具 - Airflow配置和使用

Centos7安装部署Airflow详解

——————————————————————————————————————————————

大数据调度平台Airflow（三）：Airflow单机搭建

Airflow是基于Python的，就是Python中的一个包。安装要求Python3.6版本之上，Metadata DataBase支持PostgreSQL9.6+，MySQL5.7+，SQLLite3.15.0+。

Centos7安装Airflow2.x redis

——————————————————————————————————————————————

如何部署一个健壮的 apache-airflow 调度系统

介绍了如何安装、配置、及使用，本文介绍如何如何部署一个健壮的 apache-airflow 调度系统 - 集群部署。

Airflow速用

Airflow是Apache用python编写的，用到了 flask框架及相关插件,rabbitmq,celery等（windows不兼容）；、

Apache Airflow单机/分布式环境搭建

Apache Airflow是一个提供基于DAG（有向无环图）来编排工作流的、可视化的分布式任务调度平台（也可单机），与Oozie、Azkaban等调度平台类似。Airflow在2014年由Airbnb发起，2016年3月进入Apache基金会，在2019年1月成为顶级项目。Airflow采用Python语言编写，并提供可编程方式定义DAG工作流（编写Python代码）。当工作流通过代码来定义时，它们变得更加可维护、可版本化、可测试和协作。

airflow —安装详解（2）

Airflow 实践笔记-从入门到精通一

数据处理逻辑多，脚本相互依赖强，运维管理监测难，怎么办？！为了解决这些问题，最近比较深入研究Airflow的使用方法，重点参考了官方文档和Data Pipelines with Apache Airflow，特此笔记，跟大家分享共勉。

【补充】助力工业物联网，工业大数据之AirFlow安装

airflow 的安装部署与填坑

上一篇文章已经介绍过 airflow ，相信需要的人早已上网搜索相关资料，已经开始动手干了，没错，就是干，喜欢一件事件，请立即付诸行动，不要拖，时间一长，就凉了。

调度系统Airflow1.10.4调研与介绍和docker安装

随着公司调度任务增大，原有的，基于crontab和mysql的任务调度方案已经不太合适了，需要寻找一个可以支持分布式扩容的调度系统解决方案。

如何使用Python连接ldap

好多使用ldap认证的软件都是Python的，比如superset和airflow，好吧，他们都是airbnb家的。在配置ldap的时候可能会出现认证失败，你不知道是因为什么导致配置失败的。所以，就要跟踪源码，看看内部怎么认证实现的。

Airflow笔记-MySqlOperator使用及conn配置

MySqlOperator 的数据库交互通过 MySQLdb 模块来实现, 使用前需要安装相关依赖:

闲聊调度系统 Apache Airflow

Apache Airflow 是一个由开源社区维护的，专职于调度和监控工作流的 Apache 项目，于2014年10月由 Airbnb 开源，2019年1月从 Apache 基金会毕业，成为新的 Apache 顶级项目。

Airflow使用指南一安装与启动

数据库用户名与密码均为root，airflow使用的数据库为airflow．使用如下命令创建对应的数据库:

构建端到端的开源现代数据平台

在过去的几年里，数据工程领域的重要性突飞猛进，为加速创新和进步打开了大门——从今天开始，越来越多的人开始思考数据资源以及如何更好地利用它们。这一进步反过来又导致了数据技术的“第三次浪潮”。“第一次浪潮”包括 ETL、OLAP 和关系数据仓库，它们是商业智能 (BI) 生态系统的基石，无法应对大数据的4V[1]的指数增长。由于面向 BI 的栈的潜力有限，我们随后见证了“第二次浪潮”：由于 Hadoop 生态系统（允许公司横向扩展其数据平台）和 Apache Spark（为大规模高效的内存数据处理打开了大门）。

airflow—执行器CeleryExecutor（3）

本文介绍了Airflow这个开源框架，用于构建、管理和执行工作流。Airflow基于Python开发，利用Django、Flask等后端框架提供的Web接口，支持各种任务调度和错误处理机制。通过使用Python的类、函数和钩子，用户可以自定义和管理自己的工作流。Airflow还提供了丰富的客户端API，可以方便地与其他工具集成。同时，Airflow支持多租户，每个租户有自己的DAG和Task。Airflow还支持通过Celery将Task分布到多个机器上运行，以支持大规模并发处理。此外，Airflow还有丰富的监控和报警功能，可以实时监控Task和DAG的运行状态，并支持邮件报警。总之，Airflow是一个强大、灵活、易用的工作流框架，在数据科学和大数据处理领域具有广泛应用。

大数据调度平台Airflow（六）：Airflow Operators及案例

Airflow中最重要的还是各种Operator，其允许生成特定类型的任务，这个任务在实例化时称为DAG中的任务节点，所有的Operator均派生自BaseOparator,并且继承了许多属性和方法。关于BaseOperator的参数可以参照：

0613-Airflow集成自动生成DAG插件

Airflow的DAG是通过python脚本来定义的，原生的Airflow无法通过UI界面来编辑DAG文件，这里介绍一个插件，通过该插件可在UI界面上通过拖放的方式设计工作流，最后自动生成DAG定义文件。

没看过这篇文章，别说你会用Airflow

Airflow 作为一款开源分布式任务调度框架，已经在业内广泛应用。本文总结了 Freewheel Transformer 团队近两年使用 Airflow 作为调度器，编排各种批处理场景下 ETL Data Pipelines 的经验，希望能为正在探索 Airflow 的技术团队提供一些参考价值。

Airflow 2.2.3 容器化安装

上文简单的了解了airflow的概念与使用场景，今天就通过Docker安装一下Airflow,在使用中在深入的了解一下airflow有哪些具体的功能。

【翻译】Airflow最佳实践

原文：https://airflow.apache.org/docs/apache-airflow/stable/best-practices.html

你不可不知的任务调度神器-AirFlow

Airflow 是一个编排、调度和监控workflow的平台，由Airbnb开源，现在在Apache Software Foundation 孵化。AirFlow 将workflow编排为tasks组成的DAGs，调度器在一组workers上按照指定的依赖关系执行tasks。同时，Airflow 提供了丰富的命令行工具和简单易用的用户界面以便用户查看和操作，并且Airflow提供了监控和报警系统。

助力工业物联网，工业大数据之服务域：Shell调度测试【三十三】

解决：统一使用BashOperator或者PythonOperator，将对应程序封装在脚本中

AIRFLow_overflow百度百科

Airflow 是一个 Airbnb 的 Workflow 开源项目，使用Python编写实现的任务管理、调度、监控工作流平台。Airflow 是基于DAG(有向无环图)的任务管理系统，可以简单理解为是高级版的crontab，但是它解决了crontab无法解决的任务依赖问题。与crontab相比Airflow可以方便查看任务的执行状况（执行是否成功、执行时间、执行依赖等），可追踪任务历史执行情况，任务执行失败时可以收到邮件通知，查看错误日志。

大数据调度平台Airflow（七）：Airflow分布式集群搭建原因及其他扩展

在稳定性要求较高的场景中，例如：金融交易系统，airflow一般采用集群、高可用方式搭建部署，airflow对应的进程分布在多个节点上运行，形成Airflow集群、高可用部署，架构图如下：

airflow 配置 CeleryExecutor

celery 是分布式任务队列，与调度工具 airflow 强强联合，可实现复杂的分布式任务调度，这就是 CeleryExecutor，有了 CeleryExecutor，你可以调度本地或远程机器上的作业，实现分布式任务调度。本文介绍如何配置 airflow 的 CeleryExecutor。

面试分享：Airflow工作流调度系统架构与使用指南

本篇博客将深入剖析Airflow的核心架构与使用方法，分享面试必备知识点，并通过代码示例进一步加深理解，助您在求职过程中得心应手地应对与Airflow相关的技术考察。

Apache Airflow 2.3.0 在五一重磅发布！

大家好，我是一哥，在这个五一假期，又一个Apache项目迎来了重大版本更新——Apache Airflow 2.3.0 在五一重磅发布！

印尼医疗龙头企业Halodoc的数据平台转型之路：数据平台V1.0

数据是每项技术业务的支柱，作为一个健康医疗技术平台，Halodoc 更是如此，用户可以通过以下方式与 Halodoc 交互：

Airflow Dag可视化管理编辑工具Airflow Console

Airflow Console: https://github.com/Ryan-Miao/airflow-console

Airflow自定义插件, 使用datax抽数

Airflow之所以受欢迎的一个重要因素就是它的插件机制。Python成熟类库可以很方便的引入各种插件。在我们实际工作中，必然会遇到官方的一些插件不足够满足需求的时候。这时候，我们可以编写自己的插件。不需要你了解内部原理，甚至不需要很熟悉Python，反正我连蒙带猜写的。

Apache Airflow-ETL 工作流的下一级CRON替代方案

The business world communicates, thrives and operates in the form of data. 商业世界以数据的形式进行通信、繁荣和运营。 The new life essence that connects tomorrow with today must be masterfully kept in motion. 连接明天和今天的新生命精华必须巧妙地保持运动。 This is where state-of-the-art workflow management provides a helping hand. 这就是最先进的工作流程管理提供帮助的地方。 Digital processes are executed, various systems are orchestrated and data processing is automated. 执行数字流程，协调各种系统，实现数据处理自动化。 In this article, we will show you how all this can be done comfortably with the open-source workflow management platform Apache Airflow. 在本文中，我们将向您展示如何使用开源工作流管理平台Apache Airflow轻松完成所有这些操作。 Here you will find important functionalities, components and the most important terms explained for a trouble-free start. 在这里，您将找到重要的功能、组件和最重要的术语，以实现无故障启动。

Cloudera数据工程（CDE）2021年终回顾

自一年多前发布 Cloudera 数据工程 (CDE) 以来，我们的首要目标是使用旨在简化自动化和可观察性的顶级工具来大规模操作 Spark 管道。在与部署 Spark 应用程序的数千名客户合作时，我们看到了管理 Spark 以及自动化、交付和优化安全数据管道的重大挑战。我们希望在真正的企业混合数据服务平台之上开发为数据工程从业者量身定制的服务。

在Kubernetes上运行Airflow两年后的收获

通过这篇文章，我想分享我们部署的重要方面，这些方面帮助我们实现了一个可伸缩、可靠的环境。我希望如果你现在开始在生产环境中使用 Airflow，或者想评估一些不同的想法并将它们融入你的用例中，这会对你有所帮助。

Airflow 实践笔记-从入门到精通二

为什么数据科学家不需要了解 Kubernetes

最近，关于数据科学家的工作应该包含哪些，有许多激烈的讨论。许多公司都希望数据科学家是全栈的，其中包括了解比较底层的基础设施工具，如 Kubernetes（K8s）和资源管理。本文旨在说明，虽然数据科学家具备全栈知识有好处，但如果他们有一个良好的基础设施抽象工具可以使用，那么即使他们不了解 K8s，依然可以专注于实际的数据科学工作，而不是编写有效的 YAML 文件。

Airflow DAG 和最佳实践简介

由于组织越来越依赖数据，因此数据管道(Data Pipeline)正在成为其日常运营的一个组成部分。随着时间的推移，各种业务活动中使用的数据量急剧增长，从每天兆字节到每分钟千兆字节。

用 Kafka、Spark、Airflow 和 Docker 构建数据流管道指南

在本指南中，我们将深入探讨构建强大的数据管道，用 Kafka 进行数据流处理、Spark 进行处理、Airflow 进行编排、Docker 进行容器化、S3 进行存储，Python 作为主要脚本语言。

Airflow 和 DataX 的结合

我们团队用的调度系统是 Apache Airflow（https://github.com/apache/airflow），数据传输工具是 DataX（https://github.com/alibaba/DataX），这两个工具的介绍读者可以自行查看对应的链接，不多叙述。

闲聊Airflow 2.0

在 2020 年 12 月 17 日 Apache Airflow 团队发布了 Apache Airflow 2.0.0。当时就想写写 Airflow 的新特性，但是粗略的看了下《Apache Airflow 2.0 is here!》这篇文章，发现 Airflow2.0 是一个超级大的版本更新，不仅仅 UI 更新了，最核心的组件 Scheduler 性能也有了极大的提升，分布式环境下的高可用模型也做了改变，同时还有 Airflow 上的 Operator 和 Hook 也做了新的分门别类，对于这个版本在复杂的生产环境下是否能稳定运行，感到一丝怀疑，遂后面没有在关注了。

助力工业物联网，工业大数据项目介绍及环境构建【一】

定义：Docker是一个开源的应用容器引擎，使用GO语言开发，基于Linux内核的cgroup，namespace，Union FS等技术，对应用程序进行封装隔离，并且独立于宿主机与其他进程，这种运行时封装的状态称为容器。

助力工业物联网，工业大数据之服务域：定时调度使用【三十四】

http://airflow.apache.org/docs/apache-airflow/stable/dag-run.html

Flink on Zeppelin 作业管理系统实践

在数仓ETL、实时计算的场景下，我们基于Flink SQL批流一体的框架进行了一定规模的作业迁移。在研发作业管理系统中，我们引入Apache Zeppelin组件作为Flink SQL作业提交客户端，Flink 批流作业可视化预览的核心组件。在一年多时间的产线实践中，我们对作业提交的方式策略进行了几次演进，目前在跑作业规模Flink Batch 任务日均运行超5000次，流作业500+，均稳定运行。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐