有没有人在Flink中有一个通用ProcessFunction的例子？ - 腾讯云开发者社区

、、

我最近从Flink 1.2升级到Flink 1.3，我正在尝试更新我的ProcessFunction以使用1.3。我希望创建一个扩展ProcessFunction类的函数，但它抛出了一个编译错误，说明我没有覆盖processElement，onTimer是我拥有的代码： class TimeoutStateFunction extends ProcessFunction[ObjectNode, (String, Long)] { lazy val state : ListState[CountWithTimestamp] = getRuntimeContext .getLi

浏览 18提问于2017-08-15得票数 0

回答已采纳

1回答

Flink with Guava cache - ProcessFunction的实现是不可序列化的

、、、、

我实现了一个ProcessFunction，它使用Guava缓存来过滤传入的事件流。代码如下所示： object myJob { private def updateCache(cacheObject, someValue) = {} private def getCacheValue(cacheObject, someKey) = {} override def run(params, executionEnv) = { val inputStream = executionEnv.stream val c = CacheBuilder.newBuilder() v

浏览 132提问于2019-04-02得票数 0

2回答

Flink CheckpointedFunction的使用案例

、

在浏览Flink官方文档时，我遇到了CheckpointedFunction。想知道你为什么以及什么时候会使用这个函数。我目前正在做一个有状态的Flink作业，它在很大程度上依赖于ProcessFunction来在RocksDB中保存状态。只是想知道CheckpointedFunction是否比ProcessFunction更好。

浏览 109提问于2021-06-08得票数 2

1回答

通过ProcessWindowFunction<IN、OUT、KEY、W>的Flink单元测试

、、、

如何为有状态进程函数创建单元测试。我有这样的东西： private static SingleOutputStreamOperator<Tuple> methodName(KeyedStream<Event, String> stream) { return stream.window(TumblingEventTimeWindows.of(Time.minutes(10))) .process(new ProcessFunction()); } 和 ProcessFunction extends Process

浏览 2提问于2020-08-14得票数 2

1回答

flink使用的大量内存

、、

从上个星期开始，我用scala中的Flink构建了一个DataStream程序。但我的行为很奇怪，弗林克比我想象的要多。我的processFunction中有一个4 processFunction的元组( INT，long)，我用它在不同的时间范围内得到不同的唯一计数器，并且我预计大部分内存都被这个列表使用了。但事实并非如此。所以我打印了JVM的他的生活。我很惊讶这么多的记忆被使用了。 num #instances #bytes class name ---------------------------------------------- 1:

浏览 1提问于2018-02-12得票数 1

1回答

如何在Kubernetes上的Flink (scala)中记录自定义flatMap函数？

、、、

我正在对Flink中的DataStream应用一个自定义的flatMap函数，并希望记录在我的flatMap函数中可能发生的异常。Flink作业是在Kubernetes上部署和运行的，所以我认为我不能只写一些日志文件，然后手动访问它们。我可能只能通过web浏览器访问Flink管理器。那么，如何将异常输出到stdout或一些错误/日志流，以便我可以通过web界面查看它们？

浏览 0提问于2019-04-05得票数 0

1回答

如何连接两个流Flink表并保留时间戳信息

、

我有两个(流)表，一个有事件时间列，另一个没有。我想使用Table加入这些程序，但是还没有想出一种同时保存时间戳信息的方法。考虑可以在Scala中执行的以下MWE： import org.apache.flink.streaming.api.TimeCharacteristic import org.apache.flink.streaming.api.functions.ProcessFunction import org.apache.flink.streaming.api.functions.source.SourceFunction import org.apache.flink.s

浏览 0提问于2018-08-15得票数 1

回答已采纳

1回答

使用AllowNonRestoredState将TTL添加到现有状态，并使状态的其余部分不受快照的影响

、

我在我的Flink应用程序中的一个ValueState中添加了TTL到ProcessFunction中。Flink应用程序在这个ProcessFunction和其他运营商中都有多种其他类型的状态。我理解将TTL添加到ValueState使其不向后兼容。但是，我想知道我是否可以使用AllowNonRestoredState选项从快照恢复应用程序的其余状态，让Flink跳过为我添加TTL的ValueState恢复状态吗？本质上，我希望能对AllowedNonRestoredState所做的事情有更深入的了解。从文档来看，它似乎只适用于状态一起丢弃的情况，而不是状态仍然存在的情况，而是已经被修改过的

浏览 7提问于2020-08-21得票数 0

回答已采纳

1回答

Flink中的TypeInformation

、、、

我在一个以Flink格式将数据从JSON格式发送到Kafka主题的地方有一个管道。我还从Kafka主题中获得了它，也得到了JSON属性。现在，就像可以在运行时比较数据类型的scala reflect类一样，我试图使用TypeInformation在Fink中做同样的事情，在那里我可以设置一些预定义的格式，从主题读取的任何数据都应该放在这个Validation下，并且应该相应地传递或失败。我有如下数据： {"policyName":"String", "premium":2400, "eventTime":"2021-12-

浏览 3提问于2021-12-27得票数 0

1回答

Apache :如何在摄入时间模式下获得事件的时间戳？

、、

我想知道是否可以使用Flink的摄取时间模式获得记录的时间戳。考虑到下面的flink代码示例()， val env = StreamExecutionEnvironment.getExecutionEnvironment env.setStreamTimeCharacteristic(TimeCharacteristic.IngestionTime) val grades = WindowJoinSampleData.getGradeSource(env, rate) val salaries = WindowJoinSampleData.getSalarySource(env, rate)

浏览 0提问于2018-03-05得票数 1

回答已采纳

1回答

如何在flink中统一度量指标

、

我在flink中有一个数据存储，我使用ProcessFunction中的量规生成我自己的度量。由于这些指标对我的活动很重要，所以我想在流程执行后对它们进行单元测试。不幸的是，我没有找到一种方法来实现一个适当的测试报告。这里有一个简单的代码来解释我的问题。与此代码有关的两个问题是：我怎么触发计量器？我怎样才能让这个记者受到env.execute的鼓动这是样品 import java.util.concurrent.atomic.AtomicInteger import org.apache.flink.api.scala.metrics.ScalaGauge imp

浏览 0提问于2018-08-03得票数 3

回答已采纳

1回答

如何在Flink (Scala)中的任务之间共享私有变量？

、、、、

我想在我的Flink作业(Scala)中跨Flink的并行任务共享一个私有变量。我的代码是这样的： object myJob extends flinkJob { private val myVariable = someValue def run(params) : Unit = { //Stream processing //myVariable is used here in the ProcessFunction } } 当我使用一些并行化运行这个作业时，是否会在所有的myVariable任务之间共享一个“Flink”副本？如果不是，如何确保在所有并行任务中只使用和维护

浏览 4提问于2019-04-04得票数 1

1回答

Flink表与蜂巢目录存储

、、、、

我有一个卡夫卡主题和一个蜂巢Metastore。我想加入卡夫卡话题中记录亚稳态的事件。我看到了Flink使用目录查询Hive的可能性。所以我看到了两种处理这个问题的方法：使用DataStream api以processFunction或类似的方式使用processFunction主题和查询蜂巢目录使用表-Api，我将从kafka主题创建一个表，并将它与Hive目录连接起来。我最大的担忧是与存储有关。在这两种情况下，哪些存储在内存中，哪些不是？Hive目录是否在Flink的集群端存储任何内容？在第二种情况下，表是如何处理的？flink创建一个副本吗？哪种解决方案似乎是最好

浏览 5提问于2021-02-22得票数 1

1回答

Flink Sql中更好的设计是什么

、、

我在flink sql数据处理中有一个场景，其中有许多kafka消息(json格式)，消息内容的.All相似但不相同。我创建了许多flink表，与消息一一对应，我意识到很难维护kafka主题。 event1: { "id": "id_001", "type": "in", "create_time": 1635116133089, "uid":"uid_001" } event2: { "id":"id_002

浏览 23提问于2021-11-07得票数 0

回答已采纳

1回答

如何在Flink中使用update进行多窗口聚合？

、、、

我有一个用例，其中我正在接收包含不同信息集的事件流，并希望对它们执行聚合。对于这些聚合中的每一个，都需要多个滚动窗口，例如: Daily、Weekly、Monthly、Yearly等。聚合最初是所见计数的基本添加，但稍后可能是跨这些事件的一些分析/联接处理。因此，如果一个事件A每天出现一次，另一个事件B每周出现一次，结果将如下所示： Daily A: 1 B: 1 (Only for the day it was received) Weekly A: 7 B: 1 Monthly A: 30 (30 day month) B: 4

浏览 3提问于2020-10-01得票数 1

1回答

沉入目的地后的过程元素

、

我正在建立一个从Kafka到HDFS的flink管道。我想在addSink()步骤之后处理这些元素。这是因为我希望设置触发器文件，指示为某个分区/小时编写数据(到接收器)已经完成。如何才能做到这一点？目前我正在使用水桶水槽。 DataStream messageStream = env .addSource(flinkKafkaConsumer011)； //将消息流转换为keyedStream的一些聚合 KeyedStream.addSink(汇)； //如何在3点之后处理元素？

浏览 0提问于2019-01-08得票数 1

1回答

如何在Scala成功和失败的情况下传递数据

、、

我已经开发了一个代码，在该代码中，我使用预定义的格式解析传入的JSON数据。因此，它正在发挥预期的作用。现在，我的目标是将数据发送到各自的方法Right和Left，这两个方法是由另一个Process函数使用的，在这里我正在进行DB调用。 package KafkaAsSource import KafkaAsSource.JSONParsingExample.{sampleJsonString, schemaJsonString} import com.fasterxml.jackson.databind.{DeserializationFeature, MapperFeature,

浏览 11提问于2022-01-04得票数 0

回答已采纳

1回答

如何使用Trigger和Evictor测试Flink全局窗口

、、

我有一个管道，它使用Flink Global Window和基于事件时间的自定义触发器(从到达元素的时间戳开始)和Evictor，它从窗口中剪切不必要的元素并将其传递给ProcessFunction。类似于： public SingleOutputStreamOperator<Results> processElements(DataStream<Elements> inputStream) { return inputStream .keyBy(Elements::getId) .window(G

浏览 34提问于2021-11-18得票数 0

1回答

在源端对flink中的整个dataStream进行分区，并保持该分区直到接收器

、、、、

我正在使用队列中的跟踪日志(Apache Pulsar)。我使用5 keyedPrcoessFunction，最后将有效负载下沉到Postgres Db。我需要订购每个keyedProcessFunction的每个customerId。现在我通过以下方式实现这一点 Datasource.keyBy(fooKeyFunction).process(processA).keyBy(fooKeyFunction).process(processB).keyBy(fooKeyFunction).process(processC).keyBy(fooKeyFunction).process(proce

浏览 16提问于2020-06-10得票数 1

2回答

keyBy是否在Flink (scala)中跨并行任务对DataStream进行分区？

、、、、

我想对Flink中的一个输入数据流应用ProcessFunction()，用一个缓存对象处理每个传入的元素。我的代码看起来像这样： object myJob extends FlinkJob { private val myCache = InMemoryCache() private def updateCache(myCache,someValue) : Boolean = {//some code} private def getValue(myCache,someKey) : Boolean = {//some code} def run(params, executi

浏览 41提问于2019-04-05得票数 0

回答已采纳

1回答

无键流的Flink检查点状态

我是弗林克的新手。我正在尝试在我的应用程序中启用检查点和有状态。我看到我们是如何从Flink文档中存储密钥状态的。但是我想知道我们能不能存储无键状态(ProcessFunction的状态)？

浏览 2提问于2021-01-09得票数 0

回答已采纳

2回答

为什么getSideOutput什么都不会发出？

我使用getSideOutput创建了一个端输出流，在使用getSideOutput处理之前，预处理流中存在元素，但当调用getSideOutput方法时，不会发出任何元素。代码如下 DataStream<String> asyncTable = join3 .flatMap(new ExtractList()) .process( // detect code using for test new ProcessFunction<String, String>() {

浏览 36提问于2020-08-04得票数 0

回答已采纳

1回答

有没有人有一个ProcessFunction的好例子，它可以以某种频率对数据进行求和或聚合。

我正在模拟一个窗口().reduce()操作的行为，但是在任务管理器级别上没有键。有点像对流的.windowAll().reduce()，但我希望从每个任务管理器中获得单独的结果。我试着搜索"flink processFunction示例“，但是找不到任何有用的东西。

浏览 4提问于2017-10-05得票数 2

回答已采纳

1回答

使用ProcessFunction或RichFlatMapFunction时不调用Apache接收器

、、

我的Flink应用程序从一个kafka源读取数据，将其映射到一个对象并写入另一个kafka主题。如果我使用MapFunction进行转换，一切都很好，但一旦我使用了extends ProcessFunction or RichFlatMapFunction类的实现，接收器就不会被调用(写入卡夫卡主题代码不会被执行)。我之所以使用ProcessFunction或RichFlatMapFunction，是因为我需要RuntimeConext()来读写ValueState。在这种情况下，我应该如何实现对接收器的调用？ env.addSource(新FlinkKafkaConsumer<>

浏览 15提问于2022-11-26得票数 0

回答已采纳

1回答

Flink Kafka连接器0.10.0事件时间澄清和ProcessFunction澄清

、

我在为flink的卡夫卡消费者连接器的事件时间问题而挣扎。引用由于Apache 0.10+，Kafka的消息可以携带时间戳，指示事件发生的时间(请参阅Apache中的“事件时间”)或消息写入Kafka代理的时间。如果Flink中的时间特性设置为(StreamExecutionEnvironment.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)).，则FlinkKafkaConsumer010将发出带有时间戳的记录卡夫卡的消费者不会发出水印。我想到了一些问题和问题：我怎么知道它的时间戳是发生的时间，还是写

浏览 5提问于2017-08-31得票数 2

1回答

计算Flink中连续事件的持续时间

浏览 63提问于2019-06-01得票数 0

回答已采纳

1回答

在源指定时间戳时，flink如何处理延迟问题？

、

到目前为止，我所理解的是，Flink中有三种处理后期数据的方法：删除延迟事件(这是事件时窗口操作符的默认行为)。因此，延迟到达的元素将不会创建新窗口。)。重定向晚期事件(晚期事件也可以使用侧输出功能重定向到另一个DataStream )。通过包含延迟事件(重新计算不完整的结果并发出更新)来更新结果我不太明白对于非窗口操作符的延迟事件发生了什么，特别是当时间戳被分配到源时。这里我有一个FlinkKafkaConsumer： new FlinkKafkaConsumer( liveTopic, deserializer, conf

浏览 0提问于2021-05-28得票数 1

1回答

processFunction中用于KeyedProcessFunction的上下文为null

、、、

我正在尝试使用KeyedProcessFunction，但是ctx: Context变量在processFunction中的KeyedProcessFunction中返回null。请注意，我使用的是默认的TimeCharacteristic，即ProcessingTime (所以我甚至不设置它)。我在堆栈溢出上找到了，但它与EventTime有关，而不是ProcessingTime。按照的确切示例，我使用Scala2.11.12和Flink 1.10创建了以下内容，并且仍然得到相同的错误。 import org.apache.flink.streaming.api.scala._ impo

浏览 2提问于2020-03-18得票数 1

回答已采纳

2回答

如何使用Guava缓存并行化Flink作业？

、、、、

我已经编写了一个使用Guava缓存的Flink作业。缓存对象是在main()函数中调用的run()函数中创建和使用的。它类似于： main() { run(some,params) } run() { //create and use Guava cache object here } 如果我以某种程度的并行性运行这个Flink作业，那么所有的并行任务会使用相同的缓存对象吗？如果不是，我如何让它们都使用一个缓存？缓存在流的process()函数中使用。所以这就像 incoming_stream.process(new ProcessFunction() { //Use Gua

浏览 6提问于2019-03-27得票数 0

1回答

在flink测试用例中使用模拟类时，无法加载用户类: org.mockito.codegen.RestUtil

、、、、

我有如下的flink任务和测试规范。此测试用例在Intellij中按预期正常工作。但是，当在终端mvn clean install中运行时，会引发org.apache.flink.streaming.runtime.tasks.StreamTaskException: Cannot load user class: org.mockito.codegen.mockHttpUtil FlinkTask.scala class FlinkTask(config: TaskConfig, httpUtil: HttpUtil) { def process(): Unit = { imp

浏览 132提问于2021-03-31得票数 0

1回答

如何在固定时间后主动删除Flink中的状态？

、

在Flink作业中，我希望在构建后24小时删除内存中的状态。我检查了这个并设置了状态生存时间(Ttl)，但正如本文中提到的，状态删除是惰性/被动的，这可能会导致内存泄漏。例如，23小时57分钟后，我收到了key的最后一条消息('USA'，'Male'，2018)，在那之后就没有关于这个key的消息了。然后我将不能调用这个键的函数和状态的ttl ('USA'，'Male'，2018)，那么它将永远保存在内存中。这篇文章提到了使用计时器：The idea is to register a timer with the TTL pe

浏览 4提问于2019-01-24得票数 1

1回答

Flink MapState Clear vs Remove

、

Flink MapState有两个方法，clear()和remove(key)。我已经为映射描述符设置了可查询状态，当在一些ProcessFunction中调用remove(key)时，我仍然可以查询一个键，即键还没有从我的映射状态中删除，检查点大小也在不断增加。我需要调用clear()吗，有人能解释一下这两个方法到底是做什么的吗？

浏览 120提问于2021-11-18得票数 0

1回答

在触发器中访问globalState

、、、

在Flink窗口中，我可以在一个由我自己定义的触发器中访问globalState吗？我尝试过triggerContext.getPartitionedState，但它只能获得每个窗口的状态.

浏览 2提问于2020-02-20得票数 0

回答已采纳

1回答

当使用TimeCharacteristic.IngestionTime设置StreamExecutionEnvironment时，Flink将重新平衡添加到流会导致作业失败

、

我正在尝试运行流作业，它消耗来自Kafka的消息，转换它们，并将其下沉到Cassandra。当前代码片段失败 val env: StreamExecutionEnvironment = getExecutionEnv("dev") env.setStreamTimeCharacteristic(TimeCharacteristic.IngestionTime) . . . . val source = env.addSource(kafkaConsumer) .uid("kafkaSource")

浏览 2提问于2020-05-27得票数 1

1回答

Apache Flink无需重启即可动态更新sql

、、、、

我对Flink的行为有疑问。下面是我的代码片段。正如您所看到的，一些服务正在提供Flink将逐个执行的sql条件列表(比如大约10k个sql)。我的问题是，每当sql更新时，我如何指示flink与新的sql一起工作？我看到的一种方法是停止和启动flink服务，这是我想要避免的，因为其他sql规范需要一直运行，并且只需要停止/启动/或动态更新正在更新的sql规范。此外，我不想提交10k不同的作业10k sql。那么，我正在寻找的行为，在Flink版本1.11上是可能的吗？ env is StreamExecutionEnvironment... Psudo-code: List<S

浏览 73提问于2020-11-11得票数 0

2回答

如何使用Flink对无序事件时间流进行排序

、

介绍了如何使用Flink对无序流进行排序，但我更愿意使用DataStream API。将使用一个使用PriorityQueue来缓冲事件的ProcessFunction来实现这一点，直到水印表明它们不再是无序的，但是在RocksDB状态后端(问题是每次对PriorityQueue的访问都需要整个PriorityQueue的ser/de )时，它们的性能很差。无论使用的是哪种状态后端，我如何有效地做到这一点？

浏览 2提问于2019-12-24得票数 5

2回答

如何同时处理具有不同数据类型的DataStream

、、、

假设我有一个处理DataStream<X>并将返回发送到DB的函数，但是我需要从另一个源读取，并且在处理这个新的DataStream时，我需要在将DataStream<X>存储到DB中之前找到我可以生成的状态，并找到它进入DataStream<Y>的一个Id，然后触发一个操作。我的问题是：例如，是否可以在Flink中使用Co-ProcessFunction来处理DataStream<X>中的转换结果，并在其中创建状态，同时处理DataStream<Y>，使其在同一操作符中具有状态和新流？如果第一个问题是完全错误的，这是可能的，那

浏览 4提问于2020-11-23得票数 1

2回答

Flink中Spark的等效RDD ForEach

、、、

在Apache Spark中，很多时候我们使用RDD forEach来评估或处理RDD中的每个数据...我想知道在Apache Flink中相同的等价物是什么？

浏览 3提问于2016-06-27得票数 1

1回答

创建C# Func<>类型别名

、、

我正在开发一个库，这个库有几个地方，用户可以在其中插入lambda函数来定制复杂的后台进程。他们本质上是对库的工作方式做了一些小的修改。该库处理动态类型，在编译或运行时构建，因此没有可以添加抽象或虚拟成员的具体类。该库可以处理数十个客户端定义的配置，从几个到大量的lambda定制(每个定制都附加到客户端正在构建的动态定义结构之一，并传递给库)。 lambda函数的签名可能有点复杂，如下所示： Func<SourceList, PredList, Dictionaries, object> 现在，我发现自己正在做的是在公共和私有接口和变量中重复这个复杂的Func<>。类似

浏览 7提问于2017-12-20得票数 8

回答已采纳

1回答

使用RichAggregateFunction时的Flink错误

、、

我试图在Flink中使用抽象的实现。我希望它是“富”的，因为我需要将某些状态存储为聚合器的一部分，而且我可以这样做，因为我可以访问运行时上下文。我的代码如下所示： stream.keyBy(...) .window(GlobalWindows.create()) .trigger(...) .aggregate(new MyRichAggregateFunction()); 然而，我得到了一个UnsupportedOperationException的说法此聚合函数不能是RichFunction。我显然没有正确地使用RichAggregateFunction。有怎

浏览 5提问于2017-11-22得票数 5

回答已采纳

1回答

flink ClassNotFoundException ProcessFunction

、

我有一个flink演示，可以找到dataSet 1的一列，而不是在其他dataSet中。我用flink sql编写它。这看起来和代码没什么关系，但不起作用。我使用的版本是： flink.version: 1.7.1 java.version: 1.8 scala.binary.version: 2.12 这是我的flink演示： import org.apache.flink.api.common.functions.MapFunction; import org.apache.flink.api.java.DataSet; import org.apache.flink

浏览 1提问于2019-05-05得票数 1

1回答

在flink中，我不能将字符串映射到JSONObject

、、、

源代码:生成一个字符串，我试图将它映射到JSONObject中，结果失败了。 public class Test { public static void main(String\[\] args) throws Exception { //TODO 1. StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.setParallelism(1); //TODO 2. DataStreamSource<String> inp

浏览 20提问于2022-11-13得票数 0

回答已采纳

2回答

Apache :如何将自定义逻辑应用于后期事件？

、、

尽管Flink有一些内置工具来处理延迟数据，比如允许延迟，但我还是希望自己来处理延迟数据。例如，我希望监视延迟事件，或者将它们保存到数据库中。我怎么能这么做？

浏览 0提问于2019-02-20得票数 1

回答已采纳

1回答

我为简单的相机捕获image.but应用程序编写了代码，但相机没有连接，显示了一个未处理的错误

、

我是一个新的emgu cv c#。我想创建一个简单的相机只从我的笔记本电脑相机和其他相机设备连接到我的笔记本电脑的相机捕捉。我不想视频捕捉只有一个简单的照片capture.with一开始和一个捕获button.and将保存，特别是location.helped将是可欣赏的。 namespace camera { public partial class cameracaps : Form { Capture capturecam=null; bool capturingprocess=false; Image<Bgr,Byte>imgOrg; Ima

浏览 2提问于2013-10-08得票数 0

1回答

Flink指标的Prometheus查询示例

、

我需要帮助。你们中有没有人有以下指标的Prometheus查询示例。这些都是标准指标，我不确定使用哪个运算符来表示这些指标。 flink_taskmanager_job_task_numRecordsInPerSecond flink_jobmanager_job_fullRestarts/flink_jobmanager_job_fullRestarts flink_jobmanager_job_numberOfFailedCheckpoints flink_taskmanager_job_task_isBackPressured flink_jobmanager_job_lastCheck

浏览 0提问于2021-05-12得票数 0

2回答

如何在apache flink kafka接收器中动态选择kafka主题？

、、

我在我的flink应用程序中使用KafkaSink作为接收器，并且我需要基于一些键值对将stringifiedJSONs发送到不同的Kafka主题(例如，一些JSON转到topic1，一些其他接收器到另一个主题，topic2等等)。但是我没有在文档中找到任何方法来配置基于传入数据流选择的Kafka主题。有人能帮我吗？注意:我使用的是flink版本14.3 DataStream<String> data = ..... KafkaSink<String> sink = KafkaSink.<String>builder()

浏览 10提问于2022-06-29得票数 0

回答已采纳

1回答

利用Flink实现DateStreamSource<List<T>>水印赋值的正确方法

、

我有一个持续的JSONArray数据产生的卡夫卡主题，我想处理记录与EventTime characteristic.In顺序，以达到这个目标，我必须分配水印的每一个记录包含在JSONArray。我没有找到一种方便的方法来实现这个goal.My解决方案，就是从DataStreamSource>消费数据，然后用匿名ProcessFunction迭代列表和收集对象到下游，最后给下游分配水印。主要代码如下： `DataStreamSource<List<MockData>> listDataStreamSource = KafkaSource.genStream(

浏览 1提问于2018-11-22得票数 1

回答已采纳

2回答

Apache无法使用Int或长泛型参数编译KeyedOneInputStreamOperatorTestHarness

、

下面提到的Apache测试代码在我想使用KeyedOneInputStreamOperatorTestHarnessK、IN、Int或Long作为key (K)参数时不会在Scala中编译。可以使用字符串、整数或java.lang.Long类型的泛型参数编译相同的代码： import org.apache.flink.api.java.functions.KeySelector import org.apache.flink.api.scala.typeutils.Types import org.apache.flink.streaming.api.functions.KeyedProces

浏览 7提问于2021-12-31得票数 2

2回答

Flink如何与Union运算符一起处理水印？

、

我从四条动态流中读取数据。每个流中的数据是不同的数据类型。在读取所有四个流之后，我分配时间戳和水印，并从每个流中聚合数据。四个聚合的结果都是使用相同的泛型对象输出的。我希望合并来自四个流的结果，这样我就可以将统一的流发送到一个ProcessFunction。这基本上允许我像使用ProcessFunction一样使用CoProcessFunction，但我可以处理来自两个以上流的数据(在这种情况下，ProcessFunction将接收来自所有四个单独流的聚合)。然而，我担心的是，这可能与水印不太好。如果一个流需要更长的时间来处理，或者在某种程度上是落后的，那么如果所有的水印都在联合中向前传递，

浏览 1提问于2020-02-24得票数 2

回答已采纳

1回答

flink空闲源处理速度慢

、

我有两个卡夫卡主题，A和B。有时这两个主题都是空闲的，但是，当主题B或A有新的数据时，flink应用程序可能需要几分钟时间来处理(空闲之后)。应用程序被配置为使用事件时间，使用forMonotonousTimestamps。这项工作的结构如下： KafkaSourceProcessFunctionKeyByconnect的两个streamsCoProcessFunction ProcessFunction立即从卡夫卡主题(即使是空闲之后)获取数据，KeyBy也是如此。然而，process1或CoProcessFunction的process2都不会被快速触发，我看到在它们出现之前，大约

浏览 4提问于2022-11-25得票数 0