腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
不同
类型
任务
的
气流
并行
度
不同
airflow
我们有一些
任务
需要大量
的
资源,不能以高
并行
度
运行,还有许多其他较小
的
任务
可以以32
的
并行
度
运行。 我知道
并行
性配置 作为对执行器
的
设置
的
并行
度
。这定义了应在此airflow安装上同时运行
的
任务
实例
的
最大数量,
并行
度
= 32 有没有一种方法可以在整个
气
浏览 10
提问于2021-07-30
得票数 0
回答已采纳
1
回答
基于操作符
类型
的
气流
并行
度
airflow
气流
是否支持按操作员
类型
限制节流或
并行
度
。我希望限制跨
不同
dags
的
spark提交数量,但不会最终限制跨
浏览 0
提问于2020-12-20
得票数 1
1
回答
监控
气流
中
的
长期
任务
scrapy
、
airflow
然而,他们在Airflow中遗漏了一件事,那就是监控像抓取这样
的
持久作业:获取到目前为止抓取
的
页面和项目的数量,到目前为止失败或没有成功重试
的
URL
的
数量。有没有什么已经可用
的
,或者我需要求助于外部解决方案,比如Prometheus,Grafana和instrument Scrapy spiders?
浏览 14
提问于2019-11-15
得票数 0
1
回答
Apache
气流
:关于动态
任务
和
并行
性
的
问题
concurrency
、
etl
、
airflow
我被要求编写一个更专业
的
ETL脚本版本。专业
的
我指的是:监控(日志和电子邮件提醒)、
并行
性和日程安排。考虑到这些目标,我开始阅读Apache
气流
文档。一切看起来都很棒,但我不知道
并行
化
的
最佳方法是什么。原始脚本从下载对象ids列表开始。然后,对于每个id,它对另一个端点进行查询,进行一些基本计算(生成新字段),并将数据存储到CSV文件中。
并行
这样做
的
最佳方法是什么?动态地为每个对象启动一个
任务
,并在以后加入数据?使用XCOM传输数据是
浏览 2
提问于2020-03-14
得票数 0
回答已采纳
1
回答
当我使用风暴三叉戟时,如果我设置
的
并行
度
不小于2,我如何使所有执行程序在
不同
的
服务器上运行,而不仅仅是在一台服务器上?
apache-storm
、
trident
也就是说,如果
并行
度
为2,则螺栓运行在2台
不同
的
服务器上,如果
并行
度
为3,则螺栓运行在3台
不同
的
服务器上。这对我来说很重要,因为我不希望所有的
任务
只运行在一台服务器上,这太慢了。
浏览 3
提问于2016-09-01
得票数 0
回答已采纳
1
回答
降低操作员
并行
度
对作业性能
的
影响
apache-flink
我开始想知道在flink作业中减少特定操作符
的
并行
度
的
性能相关
的
用例是什么。我理解所有的技术细节,即
并行
性如何与子
任务
和插槽
的
数量等相关。让我们设想一个有三个
任务
的
作业,即源
任务
、代理
任务
和->
任务
例如,如果我将flink配置为使用32个插槽,那么当我将相同
的
并行
度
分配给所有3个
任务
时
浏览 16
提问于2020-01-16
得票数 0
1
回答
控制每个进程
的
气流
任务
并行
性以完成特定
任务
?
airflow
是否有一种方法来控制特定
任务
在
气流
中
的
并行
性?例如:假设我有一个达格定义就像..。operation是否有一种方法可以使task_1可以在一个dag实例中运行5种
类型
的
还有其他常见
的
方法来满足这种需求(我认为这必须经常出现在管道上)?
浏览 2
提问于2019-12-19
得票数 0
回答已采纳
1
回答
在
气流
环境下
任务
并行
性是什么?
airflow
任务
并行
通常是指多个
任务
在同一或
不同
的
数据集上运行时。但是,当我更改airflow.cfg文件中
的
并行
性参数时,在
气流
的
上下文中是什么呢?或者,如果原来有32批数据,而不是1,我可以在所有32批上运行数据处理器(即32
任务
同时运行)。
浏览 5
提问于2020-11-29
得票数 0
回答已采纳
1
回答
Apache Flink:设置
并行
性
的
指导原则?
apache-flink
、
flink-streaming
我正在尝试获取一些简单
的
规则或指南,用于设置运算符或作业
并行
性
的
值。在我看来,它应该是一个数字,<=,可用
任务
槽
的
数量?如果你请求比
任务
槽更多
的
并行
度
,会发生什么?在
浏览 2
提问于2018-06-06
得票数 7
1
回答
Airflow调度器内存不足问题
airflow
、
airflow-scheduler
我们正在试验Apache Airflow ( 1.10rc2版本,python 2.7),并将其部署到kubernetes、webserver和调度器到
不同
的
pod,数据库也使用云sql,但我们一直面临调度器有没有什么经验法则可以用来计算基于
并行
任务
的
调度器需要多少内存? 除了降低
并行
度
之外,是否有任何调整可以用来减少调度器本身
的
内存使用?我不认为我们
的
用例需要Dask或芹菜来水平缩放
气流
,为工人提供更多
的<
浏览 92
提问于2018-08-28
得票数 5
回答已采纳
4
回答
如何在
气流
中单独运行
任务
?
python
、
airflow
、
airflow-scheduler
我有一个要运行脚本
的
表
的
列表。当我一次执行一个表时,它成功地工作了,但是当我尝试在
任务
之上执行for循环时,它一次运行所有的表,这给了我多个错误。下面是我
的
代码: psql_port = 5432 ssh_host= ''
浏览 0
提问于2020-02-12
得票数 1
1
回答
如何从
气流
中
的
另一个
任务
中动态初始化
任务
?
python
、
airflow
、
pipeline
、
directed-acyclic-graphs
我目前正在开发一个DAG,它在一个DAG定义中为
不同
的
数据集执行相同
的
任务
。需要从某些配置访问数据集及其架构
的
列表。我对在哪里存储配置有自己
的
想法,但我不知道如何读取配置,而不是根据这种信任
的
结果对
任务
进行迭代。我
的
代码当前如下所示: 读取<em
浏览 8
提问于2022-08-08
得票数 0
1
回答
关于状态和什么对Flink更好
apache-flink
、
flink-streaming
、
flink-cep
让我们假设我有一个max.parallelism=4
的
工作和一个使用MapState
的
RichFlatMapFunction。创建MapStateDescriptor
的
最佳方法是什么?到RichFlatMapFunction中,这意味着对于这个类
的
每个实例,我都将有一个描述符,或者创建一个描述符
的
实例,例如:在单个类中使用public static MapStateDescriptor致以亲切
的
问候!
浏览 0
提问于2020-09-10
得票数 2
1
回答
气流
-如何使用
不同
的
连接id运行相同
的
守护进程
for-loop
、
airflow
、
database-connection
、
directed-acyclic-graphs
我在寻求你
的
帮助。我有一个现有的dag清理airflow_db从我们
的
生产
气流
数据库。现在我需要调整代码并将另一个连接添加到我们
的
测试环境中,建议我创建一个类似于 with DAG( ... conn_id但我不知道如何真正做到这一点,因为我做了修改,语法现在是不正确
的
。你有什么例子/提示怎么做吗?schedule_interval=timedelta(days=1),
浏览 4
提问于2022-02-15
得票数 1
1
回答
是Apache中
的
一个
任务
单线程
multithreading
、
parallel-processing
、
apache-flink
、
flink-streaming
我是Flink
的
新手。据我理解,在Flink中,TaskManager可以被划分为多个槽,一个时隙可以分配多个
任务
,一个
任务
是一个线程。让我们看看WordCount示例:据我理解,一个
任务
完全是一个线程,有三个
任务
:Source + map()、keyBy()/window()/apply()和Sink。因此,每个线程都有自己
的
线程,这意味着在这个示例中我们需要三个线程。我们可以把这三个
任务
(三个线程)放在一个槽里。然而,现在我正在阅读它
浏览 2
提问于2020-05-15
得票数 4
回答已采纳
1
回答
Flink中
的
windowAll运算符是否将
并行
化缩小到1?
java
、
apache-flink
、
flink-streaming
、
stream-processing
我在Flink中有一个流,它从一个源发送立方体,对立方体进行转换(将立方体中
的
每个元素加1),最后将其发送到下游以打印每秒
的
吞吐量。 流在4个线程上
并行
化。如果我理解正确的话,windowAll操作符是一个非
并行
转换,因此应该将
并行
化缩小到1,并将其与TumblingProcessingTimeWindows.of(Time.seconds(1))一起使用,求出最近一秒内所有
并行
化
的
子
任务
的
吞吐量总和,并打印出来。问:流打印机是打印每
浏览 0
提问于2018-06-13
得票数 1
1
回答
是否有方法确定运行Flink作业所需
的
总作业
并行
性或槽数(在运行Flink作业之前)
apache-flink
、
flink-streaming
、
flink-cep
、
flink-sql
是否有一种方法可以确定从执行计划或以某种其他方式运行作业所需
的
任务
槽总数,而不必首先实际启动作业。 “Flink集群所需
的
任务
槽与作业中使用
的
最高
并行
度
完全相同。不需要计算程序总共包含多少
任务
(具有
不同
的
并行
度
)。”如果我从StreamExecutionEnvironment获得执行计划(安装后但没有实际执行作业),并从执行计划json中
的
节点列
浏览 0
提问于2019-09-05
得票数 5
2
回答
气流
:如果不是连续故障,如何只发送电子邮件警告?
airflow
我有一个
气流
处理程序,它每15分钟
并行
执行10个
任务
(从同一个源导出
不同
的
数据)。我还启用了“email_on_failure”功能,以便在失败时得到通知。每个月左右,由于数据源不可用,
任务
开始失败几个小时。导致
气流
产生数百封电子邮件(每15分钟10封电子邮件),直到原始数据源再次可用为止。 有什么更好
的
方法来避免垃圾邮件,一旦连续运行失败?
浏览 9
提问于2022-05-25
得票数 0
3
回答
如何调整storm中
的
并行
度
提示
parallel-processing
、
apache-storm
在storm中使用“
并行
提示”来
并行
化正在运行
的
storm拓扑。我知道有一些概念,比如工作进程、执行器和
任务
。让
并行
度
提示尽可能大,以便尽可能多地
并行
化拓扑是否有意义?我
的
问题是如何为我
的
storm拓扑找到一个完美的
并行
提示数。它是取决于我
的
storm集群
的
规模,还是更像是拓扑/作业特定
的
设置,
不同
的
拓扑会有所
浏览 3
提问于2013-12-04
得票数 16
回答已采纳
1
回答
为多个进程运行设置优先级
airflow
、
airflow-scheduler
、
airflow-2.x
但
气流
一次可以
并行
执行16次运行。假设一个进程运行需要更长
的
时间来执行,那么在等待
的
14个进程中,我想先运行第10个进程。在
气流
中有什么方法可以达到这个目的吗?我知道我们可以通过一些方法为
不同
的
指标和
任务
设定优先级权重。但我想为dag运行分配优先级权重。谢谢。
浏览 2
提问于2021-11-10
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
不同类型移相器的优点
不同类型的即时消息
不同类型的手机膜,如何选?
python不同数据类型的深浅拷贝
真正像人类一样,解决不同领域、不同类型的问题
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券