在flink中的链式运算符中分配负载

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、

我有一个带有单个分片的输入运动流。我使用map函数创建了一个简单的应用程序，但是环境级别的并行度为8。使用线程分析器，当我检查创建的线程时，只有一个线程对于map函数和源代码是活动的(如文档中提到的查询)。我意识到这是因为我在环境级别设置了并行性。在使用map函数之后，有没有办法在所有为map函数创建的并行实例之间分配负载？

浏览 10提问于2020-02-17得票数 0

1回答

Apache :逐步执行

、

由于性能测量，我想逐步执行为Flink编写的Scala程序。在每个运营商之后打电话给env.execute()是正确的方法吗？或者是在每次操作之后写信给/dev/null，即调用counts.writeAsText("file:///home/username/dev/null", WriteMode.OVERWRITE)，然后调用env.execute()是一个更好的选择？Fli

浏览 2提问于2015-11-13得票数 3

回答已采纳

1回答

我仍然不能清楚地理解并行性，比方说，我们有一个flink集群，它有足够的插槽。在我们的flink工作中，我们从3个不同的kafka集群中使用3个kafka主题，每个主题有10个分区。如果我们将并行性设置为10，那么就会使用10个槽，这意味着，根据我的理解，10个线程对吗？如果这10个线程“连接”到topic_1，那么就没有线程读取topic_2和topic_3。如果我们将并行性设置为30，那么就有30个线程，但这30个线程是否足够聪明，它们中<

浏览 0提问于2019-03-13得票数 12

回答已采纳

1回答

在Flink* 1.14.0中为特定任务管理器指定插槽共享组*

、

我正在尝试Flink 1.14中的细粒度资源管理特性，希望它能够为某些TaskManagers分配特定的运算符。按照中的示例代码，我现在可以定义我想要的任务共享组(使用setExternalResource)，但我没有看到任何选项来“分配”具有此“外部资源”功能的TaskManager工作者实例。遵循中基于GPU的示例，如何确保Flink“知道”

浏览 1提问于2021-11-09得票数 0

回答已采纳

1回答

同一Kafka主题的多个Flink管道

、

我们不想配置我们的Flink流水线和集群来始终支持我们可以拥有的最大负载，我们希望根据负载动态扩展。如果我们使用常规的Kafka用户，那么就像添加一个用户一样简单(假设我们有足够的Kafka分区)，并且Kafka将在所有用户之间重新分配主题分区。Flink Kafka消费者自己管理分区分配和偏移量，这允许只有一次语义(我们不需要它)。缺点是单个Flink作业总是使用所有的主题分区。我们认为我们可以创建另一个F

浏览 27提问于2019-11-14得票数 1

2回答

在任务管理器之间均匀分配Flink运算符

、

我在一个由15台机器组成的裸机集群上制作了一个Flink流应用程序的原型。我使用的是yarn-mode，有90个任务槽(15x6)。该应用程序从单个Kafka主题读取数据。Kafka主题有15个分区，因此我也将源运算符的并行度设置为15。然而，我发现Flink在某些情况下会将2-4个使用者任务实例分配给同一个任务管理器。这会导致某些节点变得网络受限( Kafka主题服务于大量数据，而机器只有1G网卡)和整个数据流<

浏览 0提问于2018-08-10得票数 2

1回答

如何在Flink* Table API中将uid添加到操作符？*

、

正如文档强烈推荐的那样，我想将uids添加到Flink中的运算符中，以实现保存操作的目的。我的工作使用Table API。我在文档中没有找到如何使用SQL查询将uids添加到运算符。我的代码看起来像这样：StreamTableEnvironment tEnv = TableEnvironment.getT

浏览 0提问于2019-04-02得票数 1

1回答

什么是Flink的操作员？操作符状态和键状态有何不同？

据我理解，Flink中的运算符有源运算符、变换运算符等。对于Flink中的运算符，我的理解是否正确？在操作符状态中，Flink是为每个作业/任务维护每个操作符的状态(map()、or ()等)还是维护一个完整作业/任务的状态？另外，如果我的作业提交了多个并行性，那么每个槽会

浏览 0提问于2019-07-22得票数 2

回答已采纳

1回答

什么是Apache Flink中的SlotSharingGroup？

参考：有人能更详细地解释一下吗？

浏览 4提问于2018-06-07得票数 3

1回答

Apache依赖于EventTime事件的时间戳分配。

我是apache的新手，并试图了解EventTime和窗口的概念是如何由flink处理的。下面是我的设想：现在我运行流处理作业，它将上面的3个字段读入元组.。Time.milliseconds(4000))) .reduce((x，y) -&g

浏览 1提问于2021-12-16得票数 0

2回答

命名Flink运算符

、、

我正在使用Flink v.1.4.0。我希望能够命名Flink UI中的操作符。我明白，要做到这一点，我所需要的只是在DataSet或DataStream上使用DataSet方法。是DataSet/DataStream的密钥吗？或者是元素类型？据我了解，如果我应用与函数被应用的元素具有相同返回类型的MapFunction，运算符将保持不变，但注意到如果我应用FlatMapFunction或KeyBy或Gr

浏览 1提问于2018-03-02得票数 3

回答已采纳

1回答

Flink再平衡与链策略

、

背景是在重新平衡推荐的实践之前设置链接策略，还是Flink在重新平衡之后自动允许多线程转换分配？

浏览 3提问于2020-04-20得票数 0

回答已采纳

1回答

Flink如何将DAG节点分配给不同的任务槽？

、

阅读Flink教程示例时，我想知道Flink如何将DAG节点分配给Flink集群中的不同任务槽。任何指针都将非常受欢迎。

浏览 37提问于2019-02-14得票数 0

1回答

理解Apache仪表板的输出

我试图理解Apache仪表板显示的"Bytes接收/发送“意味着什么。对于某些上下文，CSV文件托管在HDFS服务器上，我正在将结果写入我的计算机上的本地TXT文件。Flink也在我的机器上本地运行。考虑到这一点，"Bytes server“似乎意味着"Bytes从HDFS服务器发送到我的机器”，而"Bytes接收“似乎意味着"Bytes从我的机器发送到HDFS服务器”。，这

浏览 1提问于2019-05-19得票数 1

回答已采纳

1回答

降低操作员并行度对作业性能的影响

我开始想知道在flink作业中减少特定操作符的并行度的性能相关的用例是什么。我理解所有的技术细节，即并行性如何与子任务和插槽的数量等相关。让我们设想一个有三个任务的作业，即源任务、代理任务和->任务例如，如果我将flink配置为使用32个插槽，那么当我将相同的并行度分配给所有3个任务时，性能会有什么不同。32与分配源减少了10的并行度？我的</em

浏览 16提问于2020-01-16得票数 0

2回答

Flink 1.12.x DataSet -> Flink 1.14.x DataStream

、、

我正在尝试从Flink 1.12.x DataSet api迁移到Flink 1.14.x DataStream api。mapPartition在Flink DataStream中不可用。我们的代码使用Flink 1.12.x DataSet .collect out.collect(...); // Collect processed data ---> (2)

浏览 9提问于2022-02-09得票数 0

1回答

Flink自动生成的UID已被禁用，但未将UID或散列分配给运算符分区

使用最新的flink版本1.9.1，并设置：我已经为我使用的所有操作符提供了uid(过滤器、平面地图、连接)，但是当我运行时会得到以下异常：操作符分区指的是我使用的keyBy<e

浏览 1提问于2020-01-13得票数 0

3回答

Flink自定义分区函数

、、、

我在DataSet应用程序接口的Flink上使用Scala。我想跨节点对数据进行重新分区。Spark有一个功能，可以让用户使用给定的numberOfPartitions参数(link)重新划分数据，但我相信Flink不支持这种功能。因此，我想通过实现一个自定义分区函数来实现这一点。Double“是二进制的(1或-1)，所以我想根据SparceVector的长度对数据进行分区。key.size % numPartitions} 我调用这个自定义分区，如下所

浏览 33提问于2019-01-15得票数 5

1回答

Flink如何保证运算符之间的数据顺序？

、、

在流媒体系统中，数据的排序是一个很大的问题。我们知道，在flink中，对数据的处理是无序的，是使用窗口和水印。但是，在内部flink中，在操作符之间，如何保证数据的有序性？flink能否确保先处理高级数据？或者在运算符中，数据的顺序打乱了

浏览 265提问于2020-09-22得票数 0

回答已采纳

1回答

在Flink中设置适当的算子并行性的直觉

、、、

我的问题是，对于固定集群设置中的flink作业中的操作符，了解一个很好的并行性选择。假设我们有一个flink作业DAG，其中包含map和reduce类型的操作符，它们之间有流水线边(没有阻塞边)。Flink允许用户为单个操作符设置并行性。我通常为每个操作符设置M*C并行。但从性能角度(例如执行时间)来看，这是最好的选择吗？我们能利用运算符的属性来做出更好的

浏览 3提问于2022-05-23得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云