首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

apache-airflow

——《自由在高处》 Apache Airflow® 是一个开源平台,用于开发、安排和监控面向批处理的工作流。Airflow 的可扩展 Python 框架使您能够构建与几乎任何技术连接的工作流。...官方文档: https://airflow.apache.org/ github: https://github.com/apache/airflow/ Airflow 工作流的主要特点是所有工作流都在...如果您的工作流具有明确的开始和结束时间,并且定期运行,则可以将其编程为 Airflow DAG。 如果您更喜欢编码而不是点击,Airflow 是适合您的工具。...Airflow 作为平台是高度可定制的。通过使用 Airflow 的公共接口,您可以扩展和自定义 Airflow 的几乎每个方面。 Airflow® 专为有限批处理工作流而构建。...但是,经常可以看到 Apache Kafka 等流式处理系统与 Apache Airflow 配合使用。

24910
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Apache AirFlow 入门

    简介 Airflow 于 2014 年 10 月由 Airbnb 的 Maxime Beauchemin 开始。...Airflow是一个可编程,调度和监控的工作流平台,基于有向无环图(DAG),airflow可以定义一组有依赖的任务,按照依赖依次执行。...airflow提供了丰富的命令行工具用于系统管控,而其web管理界面同样也可以方便的管控调度任务,并且对任务运行状态进行实时监控,方便了系统的运维和管理。...官方网站-AirFlow AirFlow-中文文档 定义 Pipeline 导入模块 一个 Airflow 的 pipeline 就是一个 Python 脚本,这个脚本的作用是为了定义 Airflow...此时,您的代码应如下所示: """ Airflow 教程代码位于: https://github.com/apache/airflow/blob/master/airflow/example_dags

    2.6K00

    使用SQL查询Apache Kafka

    数据用户长期以来一直寻求直接在 Kafka 中查询数据的途径,而我们正接近于通过 SQL 找到这种缺失的魔力。...译自 Query Apache Kafka with SQL,作者 Stéphane Derosiaux。...Apache Kafka 在大型组织中广泛用于存储和交换数据,但它有一个大问题:你无法轻松查询这些数据。必须始终将数据复制到常规数据库才能对其进行查询。...一切都很好,但 Kafka 有一个很大的缺点:它无法使数据可访问。 Kafka 对于查询来说不是很好 Apache Kafka 通常是组织中所有数据在移入其他应用程序之前创建的地方。...这是 Apache Parquet 和 Apache Iceberg 等技术发挥作用的地方。 它们提供了基于列的系统和下推式筛选器优化,可有效查询大量数据。

    16810

    闲聊调度系统 Apache Airflow

    开始之前 Apache Airflow 是一个由开源社区维护的,专职于调度和监控工作流的 Apache 项目,于2014年10月由 Airbnb 开源,2019年1月从 Apache 基金会毕业,成为新的...Apache Airflow(以下简称 Airfolw )的概念相对比较复杂,比较核心的有 DAG 、Operators 、Tasks 三个概念。...网上关于 Apache Airflow 的文章汗牛充栋,那为什么我还要写这篇文章呢?...目前主流的工作流调度系统有 Oozie、Azkaban、Airflow、Luigi、Dagobah 和 Pinball,除了这些以外还有今年十月开源的新的 Apache 孵化项目 Apache dolphinscheduler...优点在于写代码意味着可维护性、版本管理、可测试性和协作性更好,但是 Python 本身相对于其它编程语言入门是难度较低,不过比起写 SQL 来还是有一定难度。 时区问题 时区问题真的是一言难尽。

    9.3K21

    用 Apache Pulsar SQL 查询数据流

    Apache Pulsar 2.2.0 中首次发布 Pulsar SQL 这一新框架,通过 Pulsar SQL,用户可以使用 SQL 接口高效查询存储在 Pulsar 中的数据流。...而 Apache Pulsar 支持在一个系统中同时访问这两类数据。Schema registry 的实现为支持 SQL 的查询提供了更加容易的方法。 ?...数据流以结构化的方式在 Pulsar 中被生产,消费和存储 Pulsar SQL 是基于 Apache Pulsar 建立的查询层,用户可以在 Pulsar SQL 中动态查询存储在 Pulsar 内部的所有新...借助 Pulsar SQL,Apache Pulsar 可以实现在同一系统上提取、清除格式、转换格式、查询数据流等操作,从而更好地应对上述问题。...Pulsar SQL 是 Apache Pulsar 2.2.0 版本中的一个预览特性。

    1.6K20

    Apache Airflow单机分布式环境搭建

    Airflow简介 Apache Airflow是一个提供基于DAG(有向无环图)来编排工作流的、可视化的分布式任务调度平台(也可单机),与Oozie、Azkaban等调度平台类似。...代码文件所在的位置通过Airflow配置dags_folder指定,需要保证执行器、调度器以及工作节点都能够访问到 关于Airflow的更多内容可以参考官方文档: https://airflow.apache.org...首先,拉取airflow的docker镜像: [root@localhost ~]# docker pull apache/airflow 拷贝之前本地安装时生成的airflow配置文件: [root@...[core] # 存放dag定义文件的目录 dags_folder = /opt/airflow/dags default_timezone = Asia/Shanghai # 配置数据库 sql_alchemy_conn...关于scheduler的高可用说明可以参考官方文档: https://airflow.apache.org/docs/apache-airflow/stable/concepts/scheduler.html

    4.5K20

    浅谈 Apache Doris FE 处理查询 SQL 源码解析

    一、前言 在使用 Apache Doris 时,我们可以通过 Apache Doris FE Web 页面或者 Mysql 协议执行 SQL 语句,但是对于 Apache Doris 背后如何对 SQL...本文章内容主要讲解 Apache Doris 查询 SQL 在 FE 节点处理原理。...Doris 查询原理 (一)SQL 接收 本文只说 mysql 协议如何接收 SQL 语句, 如果感兴趣的同学可以看看 Apache Doris FE Web 的 Rest Api。...(queryStmt, analyzer); 向量化执行引擎选择:基于现代CPU的特点与火山模型的执行特点,重新设计列式存储系统的SQL执行引擎,从而提高了CPU在SQL执行时的效率,提升了SQL查询的性能...我们可以深度了解 Apache Doris Fe 节点对查询 SQL 的优化操作,以及未来遇到相关性能问题不会无从下手。

    2.4K32

    sql的嵌套查询_sql子查询嵌套优化

    大家好,又见面了,我是你们的朋友全栈君。 最近在做各类小应用,用到了MYSQL,有时候会用到一些比较复杂的嵌套查询,在研究怎么通过SQL实现这些。...score 1 math 78 2 math 83 3 physics 90 … … … 现在想查询七年级学生的数学成绩,那么sql语句应该这么写: select * from stu left...从性能上说,先过滤也有利于后续join的过程。当然,数据库对这些肯定有相应优化。我们还是回归到一个基本问题, 两个子查询怎么样进行join呢?...,查询语句括起来,紧跟一个表的临时命名。...事实上,sql功能强大,可以实现许多复杂业务的查询。在实际场景,其实很容易遇到这样的情形。

    5.2K10

    sql中的嵌套查询_sql的多表数据嵌套查询

    , 因为测试的时候是一天中的两条数据, 没有不同的日期,所以当日以为是正确的 ,然而第二天写入数据了,要取出数据,却发现没有数据, 返回空的行, 以为都是代码又有问题 了,找了半天都没有 ,仔细看看了存储过程中的代码...,发现这样返回的数据的确是空的。...这个是嵌套查询的语句。 先执行的是外部查询的语句 。 比如说有三条信息.用上面写的语句在SQL分析器中执行 分析下这样的查询 先查找的是 日期 , 日期最大是下面两条语句 。 在对比时间 。...分析是这样的 查询到的最大天数是2013-03-18这条数据。第三行。 而时间最带的是21:12:21 是第二条数据 这样与的结果就是没有交集,为空了。 后来通过 查找课本和询问他人。...问题解决了 ,办法就是通过排序的方法 order by Desc 的降序排顺 ,排序可以是通过不同的方式,可以叠加的 上面的语句若果改正为以下语句,就会是想要结果 select top 1 * from

    7.1K40

    sql嵌套查询例子_sql的多表数据嵌套查询

    大家好,又见面了,我是你们的朋友全栈君。 查询学生上课人数超过 “Eastern Heretic” 的任意一门课的学生人数的课程信息,请使用 ANY 操作符实现多行子查询。...: 第一层的父查询为在课程表 courses 中查询满足条件的全部课程信息,这个条件由子查询来完成,即为,查询学生上课人数超过 ”Eastern Heretic“ 的任意一门课的学生人数。...这一部分的子查询中需要结合 ANY 操作符实现。之后,再将子查询进行拆分,形成第二层的嵌套子查询。...第二层的父查询为在课程表 courses 中根据教师 id 查询学生上课人数, 其子查询为在教师表 teachers 中查找教师名 name 为 “Eastern Heretic” 的教师 id。...结合以上,使用 SQL 中子查询的方式如下:) SELECT * FROM `courses` WHERE `student_count` > ANY ( SELECT `student_count

    3.1K20
    领券