Flink streaming:事件是否根据它们的键分别分发到每个任务槽？

我正在为一个大容量流用例(每秒数以千万计的事件)开发一个DataStream-based Flink应用程序。这些数据是从卡夫卡主题中消耗的，并且已经根据特定的键进行了切分。我的意图是在Flink端创建特定于键的状态，以运行自定义分析。我无法解决的主要问题是，如何创建键控状态，而不对keyBy()强加的传入数据进行重新配置。我可以保证Flink作

浏览 4提问于2022-08-08得票数 2

回答已采纳

1回答

或者，是否可以让另一个插槽运行中间流水线，而另一组正在运行sinkCassandra操作？编辑(根据评论对话添加更多要求)：我想要做的是有效地根据数据存储中的flink data key进行查找，然后执行更新并刷新更新后的数据。filters -> keyBy/TimeWindow/statefulReduce -> sinkCassandra躲避，是因为状态可能会变得很大(1天到7天，我可以将7天作为最大时间界限)，而我不一定知道<e

浏览 0提问于2020-03-19得票数 0

1回答

Apache :两个(或更多)任务管理器之间的共享状态

、、

假设我有两个任务管理器，每个任务管理器只有一个任务槽。如果这是错误的，请您向解释一下Flink是如何管理以下场景的？假设总是有两个任务管理器，物理上位于两个集群节点上。每个任务管理器总是只有一个槽。我运行上述作业并设置为2的并行性(例如，在将作业发送到作业管理器时使用-p参数)。现在，Flink将从我的工作中创建两个子

浏览 7提问于2020-02-05得票数 0

回答已采纳

1回答

用动态限制Flink中的网络流量

、、、

在询问之后，我了解到Flink将在集群中的物理主机上拆分流的读取。Flink然后将传入的事件转发给将聚合器任务分配给对应于给定事件的键空间的主机。非常聪明，可以为主机上的本地聚合器任务分配一个键空间，该密钥空间将对应于同一主机上的Kinesis使用者任务正在从？读取的键空间(

浏览 4提问于2020-02-18得票数 0

回答已采纳

2回答

apache会话支持

、、

我正在研究Apache流，以便在我们的ETL和机器学习平台中使用。我还没有弄明白的是如何将事件流成“会话”。更描述性:所有事件都包含一个会话id，为了丰富数据，我需要将属于会话的所有事件分组在一起。请考虑事件是源源不断的(因此没有批处理支持，之后您可以简单地执行groupBy )。一种可能的解决方案可能是维护会话的LRU缓存，并将所有传入事件排序到它们关联的会话

浏览 4提问于2015-10-31得票数 3

1回答

Flink State是否应用于大型和中期存储？

、、、、

KDA中的每个KPU (有点像任务管理器)都有50 in的RockDB存储空间。已启用增量状态。我们的应用程序正在从Kinesis读取所有客户的事件，并发送到不同的目的地。当一个目的地变得不可访问时，我们希望将该目的地的事件存储到Flink State中，以便稍后重新发送它们，而不是停止整个处理。为了避免Flink中的内存不足，我们使用Rock

浏览 40提问于2021-08-05得票数 0

2回答

如何使用Flink对无序事件时间流进行排序

、

介绍了如何使用Flink对无序流进行排序，但我更愿意使用DataStream API。将使用一个使用PriorityQueue来缓冲事件的ProcessFunction来实现这一点，直到水印表明它们不再是无序的，但是在RocksDB状态后端(问题是每次对PriorityQueue的访问都需要整个PriorityQueue的ser/de )时，它们的性能很差。无论使用的是哪种状态后端，我如何有效地做到这一点？

浏览 2提问于2019-12-24得票数 5

1回答

运动流与Flink

、、

我有一个关于在动态流中分片数据的问题。在将用户数据发送到我的动态流时，我希望使用一个随机分区键，以便碎片中的数据分布均匀。为了简化这个问题，我想通过在我的Flink应用程序中键入一个userId来聚合用户数据。我的问题是:如果碎片是随机分区的，以便将一个userId的数据分散到多个Kinesis中，那么Flink能否处理多个碎片的读取，然后重新分发数据，以便将单个userId的所有

浏览 3提问于2020-02-14得票数 0

回答已采纳

1回答

在StreamAPI上高效的Flink排序

、、

让我们以Flink示例中定义的页面视图的用例为例。此示例尝试聚合每15分钟窗口的页面查看计数。如果我想要改变这一点以获得15个窗口的前3个页面浏览量，那么有效的方法是什么？问题是- windowAll会将并行度降低到1，并且它要求将所有数据放在同一个任务槽中以执行排序操作。理想情况下，当我们只有几个不同的键(即不同的页面URL)时，这是很好的。在我的</

浏览 0提问于2021-02-15得票数 0

1回答

获取用于处理后期事件的前一个窗口值

、、

我正在寻找一种设置窗口以允许延迟的方法，并让我根据以前为会话计算的值来计算值。Kaf

浏览 0提问于2018-05-17得票数 1

回答已采纳

2回答

Flink密钥流慢性能

、、

我有一个Flink应用程序，它使用Kafka作为源，在这个流上应用平面映射和聚合。source -> flatmap ->聚合(窗口5分钟) -> sink 1名职务经理(40但是当我应用keyby(200个键)时，性能下降了60%。而不是卡夫卡消耗20 8GB/min，它的消费8GB/min。a

浏览 2提问于2021-07-11得票数 1

1回答

Flink状态后端在失败后无法恢复任务管理器。

、

我刚开始使用flink，我正在实现一个模式识别模块(不使用CEP实现模式匹配)，它将从EventHub主题读取json流，如果模式匹配，则推送到另一个事件中心主题。我的模块功能如下I使用的是一个RichSourceFunction，它将从API读取模式并发送到广播流我正在使用Flink BroadcastProcessFunction来根据广播状态中可用的模式列表来处理数据，并且我没有使用键流或我的程序中<em

浏览 8提问于2021-01-29得票数 0

1回答

有没有可能让不同的密钥有独立的水印？

我正在使用Flink 1.12并且我有一个键控流，在我的代码中看起来A和B共享相同的水印？-30 10:50:15，没有B的输出我想问，是否有可能使不同的密钥具有独立的水印？import org.apache.flink.streaming.api.TimeCharacteristic import org.apache.flink.streaming.api.functions.Assigner

浏览 12提问于2021-05-02得票数 0

回答已采纳

2回答

具有自定义源的Flink工作流并行性

、

Flink的Web中生成的执行图如下：我有一个集群或2个工作人员设置为每个有6个槽(他们都有6个核心，也)。执行我的工作流程的其余部分具有并行性12，这看起来是正确的，因为通过检查任务管理器的日志，我从所有的插槽(例如，....如果是，这一特定时隙的资源是如何分配的？是否有人可以解释在这个工作流中正在执行的步骤？例如(这可能是错误<e

浏览 3提问于2020-08-31得票数 0

回答已采纳

1回答

Flink流:比较来自不同窗口的事件

、

我想对其中一些进行基准测试，所以我已经从Flink开始了。我们认为被分析的事件是形式的一个元组。在窗口1中，我们有：(A,1)，(B,2)，(C,3)，在窗口2中，我们有：(D,6)和(B,7)。然后，我需要比较当前窗口中的事

浏览 2提问于2017-05-12得票数 2

回答已采纳

1回答

是否可以使用qsub在具有多核的机器上分发作业？

、、、

我的机器有8个内核，是否可以分别在这8个内核上使用PBS服务器分发作业(一组不同的程序)？如果没有，有没有其他的替代方案。程序的主脚本在并行模式下使用qsub在节点上分配6个不同的作业，但当用户不选择并行选项时，它只使用一个核心，而不是其他核心。

浏览 1提问于2016-03-10得票数 0

1回答

任务管理器在Flink群集上被终止

当我启动我的程序时(我在jobmanager上执行)，我得到了以下错误(在程序没有真正执行一分钟后)：其中，giordano-2-2-100-1是作业-任务管理器的地址我将任务槽的数量设置为等于机器内

浏览 0提问于2017-09-16得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云