我们是否可以包含在Airflow部署中运行的自定义sql脚本？_我们是否可以限制在Apache Airflow中随时运行的DAG数量_是否可以仅执行已部署SQL目录中的包中的某些任务？ - 腾讯云开发者社区

概述本方案采用Updater application block简称UAB,是Microsoft patterns & practices（模式&实践组）早期开发的一个自动更新的组件为基础，并且更具实际情况扩展了多项功能，来实现对客户端应用程序或Web应用程序实现自动在线更新的功能。背景随着业务的不断扩展，产品已经开始在全国各省开始部署，同时也给实施和客服部门带来了非常大的压力，随之而来的实施成本也在不断的增加。除了提高产品质量，我们需要解决一个紧迫的问题就是统一版本，降低实施难

基于spark的数据采集平台

界面只是为了参考功能,底层的数据采集服务需要自己下载zdh_server 部署,服务器资源有限,请手下留情

您找到你想要的搜索结果了吗？

是的

没有找到

Airflow 实践笔记-从入门到精通一

数据处理逻辑多，脚本相互依赖强，运维管理监测难，怎么办？！为了解决这些问题，最近比较深入研究Airflow的使用方法，重点参考了官方文档和Data Pipelines with Apache Airflow，特此笔记，跟大家分享共勉。

Airflow 实践笔记-从入门到精通二

业界 | 除了R、Python，还有这些重要的数据科学工具

如何在Mysql的Docker容器启动时初始化数据库

Docker在开发中使用的越来越多了，最近搞了一个Spring Boot应用，为了方便部署将Mysql也放在Docker中运行。那么怎么初始化 SQL脚本以及数据呢？

大规模运行 Apache Airflow 的经验和教训

作者|Sam Wheating Megan Parker 译者|Sambodhi 策划|罗燕珊 Apache Airflow 是一个能够开发、调度和监控工作流的编排平台。在 Shopify，我们已经在生产中运行了两年多的 Airflow，用于各种工作流，包括数据提取、机器学习模型训练、Apache Iceberg 表维护和 DBT 驱动的数据建模。在撰写本文时，我们正通过 Celery 执行器和 MySQL 8 在 Kubernetes 上来运行 Airflow 2.2。 Shopify 在 Airflo

如何部署一个健壮的 apache-airflow 调度系统

介绍了如何安装、配置、及使用，本文介绍如何如何部署一个健壮的 apache-airflow 调度系统 - 集群部署。

大数据生态圈常用组件（二）：概括介绍、功能特性、适用场景

点赞之后，上一篇传送门： https://blog.csdn.net/weixin_39032019/article/details/89340739

2022年，闲聊 Airflow 2.2

Airflow[1]是一个分布式任务调度框架，可以把具有上下级依赖关系的工作流组装成一个有向无环图[2]; 有向无环图长得就如下一般：

Apache DolphinScheduler之有赞大数据开发平台的调度系统演进

在不久前的 Apache DolphinScheduler Meetup 2021 上，有赞大数据开发平台负责人宋哲琦带来了平台调度系统从 Airflow 迁移到 Apache DolphinScheduler 的方案设计思考和生产环境实践。

在Spring Boot中加载初始化数据

在Spring Boot中，Spring Boot会自动搜索映射的Entity，并且创建相应的table，但是有时候我们希望自定义某些内容，这时候我们就需要使用到data.sql和schema.sql。

在Kubernetes上运行Airflow两年后的收获

通过这篇文章，我想分享我们部署的重要方面，这些方面帮助我们实现了一个可伸缩、可靠的环境。我希望如果你现在开始在生产环境中使用 Airflow，或者想评估一些不同的想法并将它们融入你的用例中，这会对你有所帮助。

质量平台的一种设计方案

日常工作中，经常会遇到数据质量问题（完整性、准确性、一致性和及时性等）。该平台将整个数据质量处理过程形成一个闭环，从最初的规则库配置，到执行过程中质量异常告警，再到问题处理流程跟踪，到最后的解决方案沉淀等一系列的操作都在该平台完成。

【翻译】Airflow最佳实践

原文：https://airflow.apache.org/docs/apache-airflow/stable/best-practices.html

Apache Airflow-ETL 工作流的下一级CRON替代方案

The business world communicates, thrives and operates in the form of data. 商业世界以数据的形式进行通信、繁荣和运营。 The new life essence that connects tomorrow with today must be masterfully kept in motion. 连接明天和今天的新生命精华必须巧妙地保持运动。 This is where state-of-the-art workflow management provides a helping hand. 这就是最先进的工作流程管理提供帮助的地方。 Digital processes are executed, various systems are orchestrated and data processing is automated. 执行数字流程，协调各种系统，实现数据处理自动化。 In this article, we will show you how all this can be done comfortably with the open-source workflow management platform Apache Airflow. 在本文中，我们将向您展示如何使用开源工作流管理平台Apache Airflow轻松完成所有这些操作。 Here you will find important functionalities, components and the most important terms explained for a trouble-free start. 在这里，您将找到重要的功能、组件和最重要的术语，以实现无故障启动。

Airflow 使用总结（二）

最近几周一直在折腾 Airflow ,本周在写一个流水线任务，分为 4 个步骤，第一步会读取数据库 db ，然后是对读取的数据根据某个数据指标进行分组处理，同一个任务接收多组数据参数并列执行任务，并发执行提高任务的执行效率，流程执行如下：

线上SQL脚本执行错了出事之后互相甩锅怎么办?

平常我们线上执行的SQL脚本都是很粗犷的。呼叫一下DBA或者运维，把脚本发过去，然后告诉他在哪个环境执行。然后双方沟通不畅，测试环境的脚本执行到生产了！脚本写的有问题执行错了却没有回滚脚本！或者每个人都有执行SQL脚本的权利，出事之后互相甩锅！等等一系列问题都是胖哥遇到过的。

大数据调度平台分类大对比(Oozie/Azkaban/AirFlow/XXL-Job/DolphinScheduler)

大数据调度系统，是整个离线批处理任务和准实时计算计算任务的驱动器。这里我把几个常见的调度系统做了一下分类总结和对比。

Flowable工作流入门看这篇就够了

入行几年的程序员们, 多少都对工作流有所了解。Java语言支持的工作流有很多选择, 最早的JBPM, 到现在比较出名的Activiti, Camunda, Flowable等等, 都是比较常见的开源产品。

大数据开发平台(Data Platform)在有赞的最佳实践

随着公司规模的增长，对大数据的离线应用开发的需求越来越多，这些需求包括但不限于离线数据同步(MySQL/Hive/Hbase/Elastic Search 等之间的离线同步)、离线计算(Hive/MapReduce/Spark 等)、定时调度、运行结果的查询以及失败场景的报警等等。

各种 IntelliJ IDEA 酷炫插件推荐

分别是安装JetBrains插件，第三方插件，本地已下载的插件包。详情见往期关于settings的文章。

八种用Python实现定时执行任务的方案，一定有你用得到的！

我们在日常工作中，常常会用到需要周期性执行的任务。一种方式是采用 Linux 系统自带的 crond 结合命令行实现；一种方式是直接使用Python；于是我把常见的Python定时任务实现方法整理了一下，希望对大家有所帮助。

Airflow2.2.3 + Celery + MYSQL 8构建一个健壮的分布式调度集群

前面聊了Airflow基础架构🔗，以及又讲了如何在容器化内部署Airflow🔗，今天我们就再来看看如何通过Airflow和celery构建一个健壮的分布式调度集群。 1集群环境同样是在Ubuntu 20.04.3 LTS机器上安装Airflow集群，这次我们准备三台同等配置服务器，进行测试，前篇文章🔗[1]中，我们已经在Bigdata1服务器上安装了airflow的所有组件，没看过的可以点击链接先看下之前的文章，现在只需要在其他两个节点安装worker组件即可。 Bigdata1(A) Bigdata2

【补充】助力工业物联网，工业大数据之AirFlow安装

Apache AirFlow 入门

Airflow 于 2014 年 10 月由 Airbnb 的 Maxime Beauchemin 开始。它是第一次提交的开源，并在 2015 年 6 月宣布正式加入 Airbnb Github。

Apache Airflow单机/分布式环境搭建

Apache Airflow是一个提供基于DAG（有向无环图）来编排工作流的、可视化的分布式任务调度平台（也可单机），与Oozie、Azkaban等调度平台类似。Airflow在2014年由Airbnb发起，2016年3月进入Apache基金会，在2019年1月成为顶级项目。Airflow采用Python语言编写，并提供可编程方式定义DAG工作流（编写Python代码）。当工作流通过代码来定义时，它们变得更加可维护、可版本化、可测试和协作。

Airflow DAG 和最佳实践简介

由于组织越来越依赖数据，因此数据管道(Data Pipeline)正在成为其日常运营的一个组成部分。随着时间的推移，各种业务活动中使用的数据量急剧增长，从每天兆字节到每分钟千兆字节。

.5.1K Star很不错!一个数据库设计工具

如何在HUE上通过oozie调用Hive SQL工作流

执行Hive SQL脚本查询mytable表数据前10条，field以”\t”分割，并输出到hdfs指定路径。

DBeaver连接hive、impala、phoenix、HAWQ、redis

伴随着技术的不断发展与进步，我们会接触和使用越来越多的数据源。从经久不衰的MySQL、Oracle、SQLserver、DB2等关系数据库，到方兴未艾的MongoDB、Redis、Cassandra等NoSQL产品，再到屡见不鲜的各种大数据组件，如Hive、Impala、HBase、Phoenix、Spark，以及林林总总的时序数据库、全文检索系统、图数据库等等。如果有一个Client，能够连接所有这些数据源，并将常规开发环境（如SQL脚本）都集中在一个GUI中，则必将为技术人员节省大量寻找并熟悉相应工具的时间，从而提高工作效率。正所谓工欲善其事，必先利其器，本篇介绍的DBeaver正是这样一款工具软件。

12 个免费又酷炫的 IntelliJ IDEA 插件！

今天介绍一下IDEA的一些炫酷的插件，IDEA强大的插件库，不仅能给我们带来一些开发的便捷，还能体现我们的与众不同。

动态图--推荐几个IntelliJ IDEA 牛逼插件

今天介绍一下IDEA的一些炫酷的插件，IDEA强大的插件库，不仅能给我们带来一些开发的便捷，还能体现我们的与众不同。

12 个酷炫的 IntelliJ IDEA 插件

今天介绍一下IDEA的一些炫酷的插件，IDEA强大的插件库，不仅能给我们带来一些开发的便捷，还能体现我们的与众不同。

各种 IntelliJ IDEA 酷炫插件推荐

今天介绍一下IDEA的一些炫酷的插件，IDEA强大的插件库，不仅能给我们带来一些开发的便捷，还能体现我们的与众不同。

大数据调度平台Airflow（六）：Airflow Operators及案例

Airflow中最重要的还是各种Operator，其允许生成特定类型的任务，这个任务在实例化时称为DAG中的任务节点，所有的Operator均派生自BaseOparator,并且继承了许多属性和方法。关于BaseOperator的参数可以参照：

springcloud Alibaba 2021.0.1.0 + springboot 2.6.6 +flowable6.7.2

IntelliJ IDEA酷炫插件系列

最近项目比较忙，很久没有更新IDEA系列了，今天介绍一下IDEA的一些炫酷的插件，IDEA强大的插件库，不仅能给我们带来一些开发的便捷，还能体现我们的与众不同。

SpringBoot 实现SQL脚本自动执行

ps: 特别注意 spring.datasource.data.continue-on-error: true 配置

用 Kafka、Spark、Airflow 和 Docker 构建数据流管道指南

在本指南中，我们将深入探讨构建强大的数据管道，用 Kafka 进行数据流处理、Spark 进行处理、Airflow 进行编排、Docker 进行容器化、S3 进行存储，Python 作为主要脚本语言。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐