腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
在
气流
中
回填
和
回流
有
什么
不同
?
我正在尝试理解
气流
中
的追赶
和
回填
。我知道
什么
是catchup,但我还没有完全理解backfill到底是
什么
,以及它是如何使用的。 我已经阅读了文档,但是找不到好的例子来理解
回填
。
浏览 14
提问于2019-07-30
得票数 3
回答已采纳
1
回答
是否
有
可能同时进行
气流
回填
和
调度?
、
同时,当我还在创建DAG来调度
气流
中
的任务时。数据每天都在到达。因此,当我从今天开始运行我的DAG时,我想每天安排它,还想
回填
我
在
创建DAG时错过的过去几天的所有数据。我知道,如果我把start_date作为数据开始到达的日期,从那个日期开始
回填
,但那样的话,我的day将永远落后于今天吗?如何同时实现
回填
和
调度?是否需要为
回填
和
调度创建单独的DAG/任务?
浏览 0
提问于2019-08-11
得票数 2
5
回答
如何指示
气流
从最新到最旧进行
回填
、
我
有
一个计划每天运行的
气流
DAG。当我开始上个月的
回填
时,Airflow将开始处理从最旧到最新的运行。由于单次运行需要几个小时,这意味着当新的运行可用时(
在
回填
过程
中
已经过去了一天),新的运行将仅在整个
回填
完成后处理(导致公司无法获得最新数据)。是否可以指示
气流
从最新到最旧的流程运行?
浏览 3
提问于2018-07-18
得票数 7
1
回答
气流
回填
DAG
在
第一个任务处于排队(灰色)状态时被卡住运行
、
我试着
在
堆栈溢出上查看这个问题的类似答案,但是我的情况略有
不同
。是否还有其他人遇到过类似的问题使用
回填
cli命令?
浏览 14
提问于2020-08-21
得票数 3
回答已采纳
1
回答
如何使用过去的数据间隔日期启动
气流
Dag
、
、
、
我
在
Ariflow 2.2.3
中
工作,我不知道如何用过去的执行日期触发我的进程。当我使用Config单击触发器dag时,我将日历更改为我想要的日期,但当我单击run时,我看到了运行,但它没有运行。
浏览 9
提问于2022-11-21
得票数 0
1
回答
气流
?阿帕奇·梁?
、
、
、
、
我
有
一个复杂的数据处理管道,目前用Python
在
一台机器上实现。dataset不适合内存,管道当前依赖于
在
每个阶段对磁盘进行拾取/脱毛对象。custom_dataset_object = convert_to_dataset(distributed_list)其中,整个处
浏览 0
提问于2018-04-05
得票数 2
1
回答
气流
回填
和
新的dag运行
、
、
我
有
一个DAG,从2015年1月1日到今天,每天都有"DAG运行“。DAG
中
的任务不是“过去依赖的”,这意味着
在
回填
期间,它们可以按任何日期顺序执行。如果我需要在DAG
中
回填
一个任务,我使用UI清除所有任务实例(从今天到过去),然后所有DAG运行切换到"running“状态,任务从2015年1月1日到今天开始
回填
。任务很耗时,所以即使由多个线程/工作线程并行执行,
回填
也只能在几天内完成。 问题是,新的"DAG运行
浏览 1
提问于2018-07-31
得票数 8
回答已采纳
2
回答
如何传递“是”标志来
回填
?
、
、
我试图使用gcloud composer命令
在
Google中进行
回填
,但我很难传递相应的--reset_dagruns参数的-y或--yes。
浏览 1
提问于2020-06-10
得票数 3
回答已采纳
1
回答
Netflix对Apache
气流
的Metaflow
、
、
我
有
一个关于Apache
气流
和
Metaflow()之间的区别的问题。据我所知,Apache
气流
只是一个作业调度程序,它运行任务。基本上意味着,Metaflow可以
在
Apache
气流
上执行吗? 我的理解正确吗?如果是,是否可以将Metaflow DAG转换为Apache
气流
DAG?
浏览 7
提问于2022-01-03
得票数 2
回答已采纳
1
回答
让
气流
的行为像Luigi一样:如果任务的输出只需要获得一次,如何防止任务
在
DAG的未来运行
中
重新运行?
、
、
我来自使用Luigi的经验,
在
Luigi
中
,如果某个任务成功地生成了一个文件,并且该任务也未被修改,那么重新运行DAG将不会重新运行该任务,而是重用其先前获得的输出。
有
什么
方法可以获得与AirFlow相同的行为吗? 目前,如果我重新运行dag,它将重新执行所有任务,无论它们在过去是否生成了成功(且未更改)的输出。
浏览 9
提问于2021-09-13
得票数 0
1
回答
Airflow:将执行日期范围任务列表标记为成功
、
我
有
一个DAG,它已经运行了超过十年的任务执行日期。现在我需要在开始的时候再加上一年。我用谷歌搜索了一下,建议
在
新的dag_id下做这件事。因为旧DAG已经
在
指定的执行日期范围内运行,所以我想将新DAG
中
的那些DAG标记为成功。我如何才能以一种方便的方式对其进行归档? 提前谢谢。这周
有
个好的开始。
浏览 2
提问于2020-12-07
得票数 0
3
回答
气流
回填
澄清
我刚刚开始使用Airbnb的,我还不清楚
回填
是如何/
什么
时候完成的。具体来说,
有
两个用例让我感到困惑: 如果我运行airflow scheduler几分钟,停止它一分钟,然后再次重新启动它,我的DAG似乎在前30秒左右运行额外的任务,然后继续正常运行(每10秒运行一次这些额外的任务是不是“
回填
”的任务
在
以前的运行
中
无法完成?如果是这样的话,我如何告诉
气流
不
回填
这些任务?这些任务是否也以某种方式“
回填
”?还是我漏掉了<em
浏览 6
提问于2016-10-05
得票数 46
回答已采纳
1
回答
气流
任务
在
没有日志的情况下处于重试状态。
、
、
嗨,我目前正在Dataproc集群上运行
气流
。我的DAGs过去运行良好,但面对这个问题,当我单击
气流
用户界面上的任务实例->日志时,任务将在没有任何日志的情况下进入“重试”状态。
在
启动
气流
see服务器的终端
中
,我看到了以下错误<TaskInstanceUP_FOR_RETRY 2022-06-23 06:08:33.202 [INFO] Marking task a
浏览 1
提问于2022-06-24
得票数 2
1
回答
清除并
回填
每小时运行的DAG的特定实例?
我们
有
一个按小时运行的
气流
数据集,任务更新和覆盖BigQuery
中
的日期分区表。在对这些表的查询
和
/或模式进行调整之后,我们想要
回填
几天的现有分区,但是
回填
所有运行都是巨大的浪费,因为每小时运行一次只会覆盖相同的分区24次,然后再转到第二天。我们可以使用airflow list_dag_runs列出所有运行并筛选出每天的最后一个运行,但是是否
有
一种方法可以每天只
回填
/清除这些最后的运行,而不需要每天重新运行24个实例呢?airflo
浏览 3
提问于2020-06-10
得票数 0
回答已采纳
1
回答
气流
忽略start_date并立即调度任务
、
我使用start_date
和
schedule_interval创建了DAG,如下所示: 'start_date': datetime(2020, 11, 16,/run.sh -p %s -e {{ next_ds }}' %(dir_path, phase),) 我打算每天午夜用过去几天的
回填
任务来执行我的任务。但是当我
在
气流
网络UI中切换DAG时,任务就会被调度并立即运行。另外,调度程序根本不<
浏览 2
提问于2020-11-20
得票数 2
2
回答
Airflow
在
回填
时忽略资源池标志
命令:所有的任务都进入队列并开始运行。最大容量基本上被忽略。
浏览 0
提问于2016-12-16
得票数 10
2
回答
重新运行部分
气流
Subdag
、
子程序
有
五个任务,T1通过T5,必须按顺序运行(例如,T1 >> T2 >> T3 >> T4 >> T5) 选择T4,清除downstream+recursive -
什么
都不会发生。Dag树视图将子Dag显示为“成功”,尽管其中的T4
和
T5已被清除。
什么
浏览 0
提问于2018-01-18
得票数 14
2
回答
当追赶=真实时,
气流
不尊重depends_on_past?
、
过去,我
有
一个用start_date定义的
气流
2.0DAG,追赶= True
和
max_active_runs = 5。目标是处理来自start_date的数据,最多5个DAG并行运行。这是为
什么
?是否可以使用追赶或
回填
来处理并行DAG运行的历史数据,并防止DAG
中
的某些任务并行执行?
浏览 2
提问于2021-01-22
得票数 0
1
回答
如何读取传给
气流
回填
的值--conf {"key":" value "}
我
有
一个
气流
DAG,我可以使用以下参数运行它: airflow trigger_dag 'my_dag' --conf '{"key":"value"}' 然后我可以像这样
在
我的DAG
中
获得'value我想用backfill做同样的事情: airflow backfill 'my_dag' --conf '{"key":"value"}' -s 2019-
浏览 26
提问于2019-04-17
得票数 0
1
回答
在
RAM
和
CPU约束下,如何利用
气流
来主动控制DAGs?
、
、
通过试用大量的样本,我对
气流
的编程特性非常熟悉。阻止我深入挖掘的是它如何在不重载CPU或RAM的情况下执行其任务,是否
有
办法控制负载,使其不会耗尽资源 当调度程序执行“调度
和
更频繁地选择文件”的工作时,我知道一种减少负载的方法,方法是将以下字段min_file_process_interval
和
scheduler_heartbeat_sec的值更改为一分钟左右。我以为它会恢复新的DAG,如果有,
在
间隔之后,否则
什么
也不会做。
浏览 0
提问于2019-01-09
得票数 5
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券