Flink连接会话窗口内的两个流_使用KeyedCoProcessFunction的Flink连接流_如何连接两个流并在Flink中操作它们？ - 腾讯云开发者社区

session、join、stream、apache-flink

我有两个流，并希望在一个窗口内加入第二个流到第一个流，因为我需要对与会话相关的两个流的连接进行一些计算(其中一个流控制会话)。实际上，从文档中可以看到，(会话)窗口只允许在单个流上进行计算，而不是在连接中。我尝试使用会话窗口和协处理器函数的组合，但结果并不完全符合我的预期。有没有办法在Flink中合并两个与会话窗口相关的流？

浏览 11提问于2019-10-14得票数 1

回答已采纳

1回答

什么是窗口标准？

apache-spark、apache-flink、data-analysis、apache-storm

Apache Spark是基于时间的窗口标准，而Flink是基于记录的窗口标准。任何人都可以详细解释什么是窗口标准？

浏览 2提问于2020-08-26得票数 1

1回答

Flink流支持内部连接表达式，如window- join，interval-join.但不支持左联接/完全联接表达式。当然，窗口-cogroup表达式可以实现相同的语义，即使事件立即加入，也必须等待完全窗口大小的时间。我的问题是：如何从设计角度解释Flink流不支持左连接/完全连接表示？如何通过Flink DataStream API (如果能够立即转发连接事件)来实现它？是否有一种方法可以扩展Flink DataStream API以支持左连接： .leftJoin() .where() .window() .apply()

浏览 3提问于2021-08-15得票数 0

回答已采纳

1回答

leftOuterJoin抛出TableException:不支持的联接类型“左”

scala、apache-flink、flink-sql

我试图在两个表上运行左外部联接，并将结果转换为DataStream。我在使用flink之前所做的所有连接都是内部联接，我一直使用.toRetractStream[MyCaseClass](someQueryConfig)来跟踪连接。但是，由于左联接引入了空值，我从的理解是，我不能再使用case类，因为它们在将表转换为DataStream时不支持空值。所以，我试着用POJO来完成这个任务。这是我的代码： class EnrichedTaskUpdateJoin(val enrichedTaskId: String, val enrichedTaskJobId: String, val enr

浏览 1提问于2018-07-16得票数 2

回答已采纳

1回答

Apache中的DataStream和KeyedStream有什么区别？

join、streaming、apache-flink

我在使用Flink连接两个流的上下文中查看，并希望了解这两个流之间的区别以及影响Flink处理它们的方式。作为一个相关的问题，我还想了解CoProcessFunction与KeyedCoProcessFunction有何不同。

浏览 2提问于2021-02-17得票数 1

回答已采纳

1回答

Flink连续查询的确切行为是什么？

apache-flink

我有两个来自卡夫卡的事件源，一个来自user主题，另一个来自order主题，这两个主题的事件在我的代码中被创建为Flink动态表。我有以下简单的连接查询，希望计算每个用户所放置的订单数。 select user_id,count(order_id) from user join order on user.user_id = order.user_id，我有以下问题：假设应用程序开始运行时，用户和订单中没有数据。当Flink连接器从Kafka主题获得新数据时，会立即运行查询任务吗？查询中将包括多少个事件？我一次从卡夫卡控制台写了1000个用户和订单。。如果查询(连接查询或复杂查询)需

浏览 6提问于2022-07-24得票数 0

回答已采纳

1回答

如何在Flink表API中加入两个数据流和滑动窗口函数？

apache-flink、flink-streaming、apache-zeppelin、flink-sql、amazon-kinesis-analytics

我有两个来自两个Kafka主题的流表，我想加入这些流并对所连接的数据执行聚合功能。需要使用滑动窗口连接流。在连接和窗口数据时，我将得到一个错误Rowtime attributes must not be in the input rows of a regular join. As a workaround you can cast the time attributes of input tables to TIMESTAMP before.。下面是代码片段 select cep.payload['id'] , ep.payload['id'] ,

浏览 25提问于2022-05-24得票数 0

1回答

优化flink窗口

apache-flink、flink-streaming

我有flink作业，我需要在1小时窗口内删除收到的记录的重复数据。一旦删除重复数据，我需要收集所有这些删除重复数据的文档，并进行一些聚合，如计数，然后生成目标主题。附件是我的flink工作的图片： ? 现在，由于我只需要收集那些经过重复数据删除的文档，因此我可能不一定需要等待1小时。为了收集这些文档，我如何避免这种1小时的窗口，但是一旦收集到这些文档，就继续进行进一步的聚合。由于这个原因，资源占用了内存，检查点大小也在增加，这是我想要避免的。水印策略： WatermarkStrategy<PlImaGuidInterimMessageVO> watermarkStrat

浏览 19提问于2021-03-24得票数 0

1回答

Flink表左边的外部联接显示一个错误

apache-flink、flink-streaming、flink-table-api

我正在对flink中的两个表执行一个左外部联接，下面给出了代码，显示了一个异常，使用相同两个表的内部连接工作良好，能够转换为Datastream。 Table table = customerTable.leftOuterJoin(contactTable,$("cust_custcode") .isEqual($("contact_custcode"))) .select($("customermessage"), $("contactmessage")); 例外情况是: org.apache.flink.table.api.T

浏览 8提问于2022-08-11得票数 0

1回答

Flink mysql和mysql连接器的区别？

apache-flink、flink-streaming、cdc、flink-sql、flink-table-api

为了丰富数据流，我们计划将MySQL (MemSQL)服务器连接到现有的flink流应用程序正如我们所看到的，Flink提供了一个带有JDBC连接器https://nightlies.apache.org/flink/flink-docs-master/docs/connectors/table/jdbc/的Table 此外，我还发现了另一个名为Flink-CDC https://ververica.github.io/flink-cdc-connectors/master/content/about.html的MySQL连接器，允许以流的方式处理外部数据库。他们之间有什么区别？在我的情况

浏览 19提问于2022-02-07得票数 0

回答已采纳

1回答

有简单的方法保存TMUX窗格的位置和大小吗？

linux、terminal、raspbian、tmux

最近，我已经开始在我的raspberry pi中使用tmux，并且在我从我的pc启动SSH时设置它来打开我的会话，但是当我重新启动我的PI时，它关闭了会话，我失去了我的窗格设置。那么，是否有一个很好的方法来保存窗格的位置大小，甚至只是保存会话？

浏览 1提问于2017-04-12得票数 1

回答已采纳

1回答

如何通过datastrem或Flink /SQL在给定的键和公共窗口上连接三个或多个数据存储区/tables？

apache-flink、flink-streaming、flink-sql

我希望在给定的键和公共窗口上加入三个或多个数据流或表。但是，我不知道如何正确地编写代码。正式文档给出了下面的示例，但是它只是连接两个数据流，那么如何在给定的键和公共窗口上连接三个或多个数据流？ dataStream.join(otherStream) .where(<key selector>).equalTo(<key selector>) .window(TumblingEventTimeWindows.of(Time.seconds(3))) .apply (new JoinFunction () {...}); 我尝试用公共窗口连接两个数据流，并利用结果数据流将

浏览 1提问于2018-06-13得票数 2

1回答

Apache Flink:如何为键控CoFlatMapFunction划分事件？

apache-flink、flink-streaming

这是一个关于连接的键控流的非常基本的问题。如果我有两个流，具有共享相同逻辑键的相关事件，并且这些流正在连接(使用键逻辑连接)，并且都以> 1的并行性运行，那么Flink如何保证来自不同流的两个具有相同逻辑键的事件最终在同一并行操作符实例中？这是一个虚构的关于医院病人流的例子-体温流和心跳流。我们希望通过患者id使用ConnectedStream和CoFlatMapFunction将这两个流连接起来。 DataStream<PatientTemperature> temperatureStream = .. DataStream<HeartbeatStream>

浏览 79提问于2018-06-03得票数 0

回答已采纳

1回答

PyFlink错误/异常："Hive不支持使用由节点PythonGroupAggregate生成的更新更改“

exception、apache-flink、flink-streaming、flink-sql、pyflink

使用Flink 1.13.1和以Hive表为源和接收器的pyFlink和用户定义的表聚合函数(UDTAGG)，我遇到了一个错误： pyflink.util.exceptions.TableException: org.apache.flink.table.api.TableException: Table sink 'myhive.mydb.flink_tmp_model' doesn't support consuming update changes which is produced by node PythonGroupAggregate 这是接收器的表。

浏览 1提问于2021-08-05得票数 1

1回答

Flink中的低延迟流与多个元数据流的结合(丰富)

apache-flink、flink-streaming

我正在为流分析方案评估Flink，并且还没有找到关于如何实现我们今天在遗留系统中所做的一种ETL设置的足够信息。一个非常常见的场景是，我们使用了关键的、慢吞吐量的元数据流，我们希望使用这些数据流在高吞吐量数据流上进行丰富，如下所示：这就引出了两个关于Flink的问题:如何通过缓慢更新时间窗口重叠但不相等的流来丰富快速移动的流(元数据可以存活数日，而数据可以存活几分钟)？如何有效地将多个(最多10个)数据流与Flink连接起来，比如一个数据流和9个不同的富集流？我知道我可以使用非窗口的外部ETL缓存来实现我的ETL场景，例如使用Redis (这是我们今天使用的)，但我想看看Fli

浏览 3提问于2017-11-21得票数 1

回答已采纳

1回答

Apache连接流

apache-flink、flink-streaming

我想加入Flink的两个流。这些条件如下：每一个都有一个唯一的id作为连接点。在这两个流中，每个键只显示一次。流中的键最多可在10秒内分开。没有事件时间，但我可以使用处理时间或摄入时间。这个限制很重要，因为不允许我使用仅适用于事件时间的interval join。做这件事最简单、最有效的方法是什么？

浏览 2提问于2020-02-20得票数 0

回答已采纳

1回答

用flink区间连接清理状态行为

apache-flink

我正在读，它有以下例子： SELECT * FROM Orders o, Shipments s WHERE o.id = s.order_id AND o.order_time BETWEEN s.ship_time - INTERVAL '4' HOUR AND s.ship_time 我有两个问题：如果o.order_time和s.ship_time是正常的时间列，而不是事件时间属性，那么所有的状态都会保存在Flink中，就像普通的规则内部连接那样？这样，也许大尺寸的状态就会保持在Flink中。如果o.order_time和s.ship_time是事件时间属性，那

浏览 0提问于2021-08-06得票数 0

回答已采纳

2回答

如何通过web ui将作业提交到纱线上的flink

hadoop-yarn、apache-flink

我在yarn上建立了一个flink集群，并成功地通过主机上的相关命令类型提交作业。但它没有web ui那么方便(我在fink单机集群上测试过通过web ui提交作业)。当我点击“提交新工作”按钮时，页面如下：我点击“这里”超链接，它跳转到一个页面，在集群中的随机主机ip和“随机”端口。由于我们没有开放所有端口到公网，所以本页被拒绝连接。我试着调试js代码，看看是不是一些配置触发了这个问题，并找到了两个代码片段：似乎这个页面不能很好地与纱线上的flink一起工作。那么，我可以通过web ui向flink on yarn提交作业吗？又是如何做到的

浏览 5提问于2018-09-11得票数 0

2回答

tmux管面板不工作

terminal、screen、tmux

我定义了一个快捷方式，用于开始将窗格记录到文件，另一个快捷方式用于停止日志记录。快捷键是活动的。这些是我的.tmux.conf中的命令 bind-key H pipe-pane "cat >>$HOME/tmux.log" bind-key h pipe-pane 通过按C-b ?，我可以看到定义： H: pipe-pane "exec cat >>/home/myuser/tmux.log"

浏览 6提问于2012-04-28得票数 3

1回答

哈希数据交换如何与Flink表一起工作？

apache-flink、flink-streaming、flink-sql

我有两个表格来源，听卡夫卡主题使用Flink。在生成的图上，这两个表之间连接的数据交换是“散列”。但是，我没有找到任何信息(在特定字段上)哈希是如何工作的？它是如何配置的？

浏览 16提问于2022-02-09得票数 0

回答已采纳

2回答

为什么有人会选择弗林克而不是火花？

apache-spark、apache-flink

我认为斯派克比弗林克优越。下面是我的研究。我看到星火的大部分功能都包含在Flink中，除了星火的“公平调度”。我试着搜索并查看Flink文档，但是没有运气。另外，如果你看到吉顿，Apache的流行度几乎是Flink的两倍(明星和叉子的数量)。所以我很想知道为什么弗林克没有星火那么受欢迎。我还看到写入Flink的连接器数量比Spark的连接器数量少/维护少。(例如: mongodb)这是否意味着Flink尚未成熟或获得市场吸引力？以上问题的答案将帮助我们决定合适的技术。编辑-1 在阅读了一些答案之后，我会给出更多的信息。这将主要用于批处理。实时流可能占用例的1

浏览 4提问于2022-04-21得票数 -2

1回答

DataStream上的Flink sql查询(Apache )

java、apache-flink、stream-processing、event-stream-processing

我完全是阿帕奇·弗林克的菜鸟。只是想弄脏我的手。我有下面的场景。事件数据报事件数据报数据交换规则结合这两种基于ruleID的数据流现在我有了一个tuple3的数据仓库，它看起来像<ruleId, Rule, Event>。这些规则是我希望在事件上运行的SQL查询。我正在学习动态表和Flink SQL的概念。我不知道如何进一步处理。有人能帮帮我吗？

浏览 0提问于2018-02-09得票数 0

1回答

Flink数据存储-使用windows处理文件中的数据

flink-streaming

我正在学习Flink框架，并处理一个流作业，它将从csv文件中读取数据，并使用DataStream API执行一些聚合。数据字段包括城市、州代码、人口值。数据将由州代码和计算出的每个密钥的总数之和来确定。输出将采用这样的格式：(州代码，人口之和)。我当前的实现在KeyedStream上使用了一个减少函数来聚合总体。这给了我对每个键的滚动减少。我只想打印每把钥匙的最后一笔钱。我的不确定之处是，数据需要加窗才能发出每个窗口的最后结果。我不知道如何实现一个窗口分配器，它将负责文件中的所有数据。任何帮助都将不胜感激。谢谢! (附带说明:我在Flink文档中经历了事件时间处理。如果可以更新csv以添加

浏览 2提问于2021-12-08得票数 0

1回答

会话窗口如何在事件时间内合并多数据流？

apache-flink

flink office会话窗口介绍 ...a session window operator为每个到达的记录创建一个新窗口，如果窗口之间的距离比定义的间隔更近，则将它们合并在一起。为了能够合并，会话窗口操作符需要合并触发器和合并窗口函数，... 我有一个关于会话窗口合并的问题，如下所示在这种情况下，两个流合并成一个运算符，user1比user2更早到达，并且user1的第一个窗口与user2的第一个窗口的时间间隔大于GAP，会话窗口如何合并user1和user2的第一个窗口？在事件时间中，以下哪种情况？图像的上面时间是事件时间。案例1：第一个会话窗口: user

浏览 31提问于2020-08-03得票数 0

1回答

在Apache中聚合两种不同类型的记录

apache-flink

我有一个特定的任务，使用Apache Flink和一些额外的逻辑将两个数据流连接到一个聚合中。基本上，我有两个数据流:事件流和所谓的meta-events流。我使用Apache Kafka作为消息主干。我试图实现的是根据aggregation/window中给出的信息触发meta-event到评估。基本情况是：事件数据流( Data of events )开始根据某些键在某个聚合或窗口中不断积累Type A;The记录的记录；(元事件数据流)使用给定的键接收新的meta-event，这也定义了将在数据流事件流中发出的事件总数。，构成步骤3的事件数成为聚合的触发条件。当具有给定键的Type

浏览 6提问于2020-07-06得票数 0

回答已采纳

1回答

操作所依赖的规则来生成事件的新时间戳。

apache-flink

我在操作后加入两个流来创建一个新的流。守则如下： DataStream<NewTableA> join1 = oldTableADataStream .keyBy(t -> t.getFa3()) .join(tableBDataStream) .where(new oldTableAKeySelector()) .equalTo(new TableBKeySelector()) .window(EventTimeSessionWindows.withGap(Time.millisecon

浏览 0提问于2020-08-04得票数 0

回答已采纳

1回答

Flink中并行性和多个应用程序的区别

apache-flink、flink-streaming

我计划动态缩放一个Flink应用程序。该应用程序使用kafka-flink连接器消耗来自Kafka的事件。因为应用程序的“热身”只需几分钟(缓存.)而改变并行级别涉及重新启动，我更喜欢提交(放大)或交替杀死(缩小)任务，而不是改变并行级别。我想知道，从性能、逻辑和执行计划来看，这种方法和Flink内置的并行执行有什么不同吗？换句话说，10个相同的Flink任务与一个并行级别= 10的任务( env.setParallelism( 10 ) )有什么区别？

浏览 1提问于2019-09-25得票数 0

回答已采纳

1回答

在Flink中广播“加入”

scala、apache-kafka、sbt、apache-flink、flink-sql

是否有任何方法，我可以使用广播连接在FLINK与我在火花使用的方式。我正在使用联接，但是数据很大，所以我需要广播连接。谢谢

浏览 0提问于2019-10-17得票数 0

回答已采纳

1回答

用Flink实现大时间Windows的流连接

apache-flink、flink-streaming

我需要连接两个基于键的事件源。这两件事之间的差距可以长达一年。event1和id1可能在今天到达，而来自第二个事件源的对应的event2和id1可能会在一年后到达)。假设我只想流出已连接的事件输出。我正在探索与RocksDB后端一起使用Flink的选项(我遇到了似乎适合我的用例的Table )。我无法找到执行这种长窗口连接的引用架构。我期待这个系统每天处理大约2亿个事件。问题：对于这种长窗口连接使用Flink是否存在明显的限制/缺陷？关于如何处理这种长窗口联接的建议相关:我还在探索如何使用带有DynamoDB的Lambda作为执行流连接()的状态。如果此信息相关，我将使用托管AWS服务

浏览 1提问于2019-10-01得票数 1

回答已采纳

1回答

流媒体连接在Flink中的实现

inner-join、apache-flink、flink-streaming

我正在研究Flink中join的各种实现。在批处理模式下，我遇到了hybrid-hash join和sort-merge join。在这两种情况下，都有一个阻塞洗牌，它是在连接之前完成的，因此连接之前的操作符的输出被实现到一些非临时存储中，如所说的。我现在正在查看流连接的情况。我看到了一个实现，其中为两个输入创建了两个哈希表。每当输入出现时，都会将其保存在哈希表中，并对其他哈希表进行探测以产生结果。为了限制哈希表的大小，我们在哈希表中放置了一个输入保存的窗口。我的第一个问题是： Do all stream join cases have this requirement of a windo

浏览 1提问于2021-05-14得票数 0

回答已采纳

1回答

什么是Flink的操作员？操作符状态和键状态有何不同？

apache-flink

据我理解，Flink中的运算符有源运算符、变换运算符等。对于Flink中的运算符，我的理解是否正确？在操作符状态中，Flink是为每个作业/任务维护每个操作符的状态(map()、or ()等)还是维护一个完整作业/任务的状态？另外，如果我的作业提交了多个并行性，那么每个槽会有自己的状态吗？假设，我提交了两个作业，它们是键流，两个作业都有相同的键，比如“颜色”，但这两个任务完全不同。Flink是否会维持两个不同的州，或者它将维持两个工作的一个州。

浏览 0提问于2019-07-22得票数 2

回答已采纳

1回答

使用一次性一次性连接键的Flink连接流

apache-flink、flink-streaming

我有个问题要在Flink上加入两条溪流。我使用两个不同的数据流，在某个时候我需要加入它们。每个数据流都有一个唯一的id标记，作为这些流之间的连接点。没有窗口的概念，所以为了连接这两个数据流，我做了first.connect(第二).keyBy(0，0)。这似乎是可行的，因为我得到了正确的结果，但我的担心是长期的。我没有在执行连接的操作符(CoFlatMap)上显式保留任何状态，但是如果假设一个流(例如，第一个流)提供唯一的id，而第二个流不能提供连接id (我想对于那些已经加入的操作符放弃任何内部状态)，会发生什么情况？内存/状态占用是不断增长，还是存在某种过期机制？如果是这样的话，我如何

浏览 0提问于2018-07-25得票数 1

回答已采纳

1回答

同一个带有选项的文件浏览器打开四个或更多不同的文件夹

desktop、mate-desktop

我使用Linux和Mate 1.12.0。当我打开我的文件浏览器时，我可以按F3同时打开一个额外的窗格两个不同的目录。在同一个窗口能看到四个不同的位置吗？有时，我管理许多文件夹，打开两个文件浏览器，每个文件夹都有两个文件夹，这不是一个好的选择。

浏览 0提问于2016-01-06得票数 0

1回答

生成“假”流数据。卡夫卡

java、apache-kafka、apache-flink、stream-processing、event-stream-processing

我试图生成流数据，以模拟在不同的时间范围内接收两个值( Integer类型)的情况，使用时间戳和Kafka作为连接器。我正在使用Flink环境作为消费者，但我不知道哪个是最好的解决方案的生产者。(如果可能的话，Java语法比Scala更好) 我应该直接从卡夫卡得到数据吗？如果是的话，最好的方法是什么？或者，如果我把Flink制作出来的数据作为一个制作人，发送给Kafka，然后用Flink在结束时再使用它，也许会更好？我怎么才能从弗林克那里做到呢？或者，还有另一种简单的方法来生成流数据并将其传递给Kafka。如果是，请让我在轨道上实现这一点。

浏览 2提问于2018-08-20得票数 2

1回答

如何过滤大于flink中某一点的值？

apache-flink

我有两个流。第一个是基于时间的流，我使用countTimeWindow接收前10个数据点来计算STAT值。我手动使用了变量cnt来只保留第一个窗口，并过滤了剩余的值，如下面的代码所示。然后，我想使用这个值来过滤主流，以便获得比我在窗口流中计算的stat值更大的值。然而，我不知道如何合并或计算这两个流来实现我的目标。我的场景是，如果我将第一个stat值转换为广播变量，然后将其传递给主流，以便能够根据广播变量中的stat值过滤传入的值。下面是我的代码。 import com.sun.org.apache.xpath.internal.operations.Bool; import org

浏览 10提问于2019-02-12得票数 0

回答已采纳

1回答

在通过hdfs连接器从kafka写入时，是否有一种限制avro文件大小的方法？

apache-kafka、hdfs、apache-flink、apache-kafka-connect

目前，我们使用Flink FsStateBackend检查点并设置fileStateSizeThreshold，将写入HDFS上avro/json文件的数据大小限制在128 on。在检查点操作延迟一定时间后也关闭文件。由于我们在新项目中没有使用高级Flink特性，所以我们希望使用Kafka Connect HDFS Connector中的Kafka流直接将消息写入hdfs (而不是旋转Flink)。但是，我无法找到限制卡夫卡连接器中hdfs文件的文件大小的选项，除了flush.size，它似乎限制了记录的#。如果连接器上没有设置，人们如何以另一种方式管理hdfs上流数据中的文件大小？

浏览 0提问于2018-08-08得票数 1

回答已采纳

3回答

如何运行Apache的第一个示例

scala、apache-flink

我试图从oreilly书“用Apache进行流处理”和flink项目中运行第一个示例。每个错误都是不同的例如，在书中，flink项目的NoClassDefFound错误示例给出了java.net.ConnectException:连接拒绝(连接拒绝)，但是确实创建了一个flink作业，参见屏幕截图。详情如下图书示例 java.lang.NoClassDefFoundError:scala/runtime/java8/JFunction1$mcVI$sp at io.github.streamingwithflink.chapter1.AverageSensorReadings$$ano

浏览 7提问于2020-04-05得票数 1

回答已采纳

1回答

使用KeyedCoProcessFunction的Flink超时和FlinkKafkaConsumer的读取顺序

apache-kafka、apache-flink、flink-streaming

我正在使用Flink DataStream API中的DataStream类来实现像用例这样的超时。场景如下:我有一个输入kafka主题和一个输出Kafka主题，一个服务从输入主题读取它(在可变的时间内)，然后在输出kafka主题中发布响应。现在要实现超时(必须使用Flink datastream )，我有一个从kafka输入主题读取的FlinkKafkaConsumer，以及从kafka输出主题读取的另一个FlinkKafkaConsumer。我正在连接这两个流，并使用processElement1注册一个计时器，并等待触发onTimer方法(声明超时)，或者在此之前触发processEl

浏览 1提问于2020-09-15得票数 0

回答已采纳

1回答

使用Flink处理twitter数据时的依赖问题

maven、twitter、apache-flink

我正在尝试使用Apache连接twitter，使用官方文档进行流传输。虽然我能够成功地使用api解析示例TwitterExampleData，但是当我试图使用相同的方法连接真实的数据时，我就得到了ClassNotFoundException。 java.lang.NoClassDefFoundError: org/apache/flink/twitter/shaded/com/google/common/base/Preconditions at com.twitter.hbc.core.endpoint.BaseEndpoint.<init>(BaseEndpoint.java

浏览 6提问于2017-10-03得票数 2

回答已采纳

1回答

是否可以在Flink的数据流中使用Dataset转换-："Distinct()“？

apache-flink、flink-streaming、flink-sql、flink-batch

我想知道，无论如何，Flink的数据流API是否可以用来从传入的记录中删除重复项(可能是在特定的时间窗口内)，就像Dataset API一样，它提供了一个称为"Distinct“的转换。或者，如果数据集被转换为数据流以便在Flink中进行内部处理，则无论如何都可以将该数据集转换为数据流。在这方面请帮帮我。提前感谢！干杯!

浏览 1提问于2020-03-05得票数 0

1回答

Flink 1.5中的批处理表API问题--对流API需求的抱怨

apache-flink、flink-sql

我试图用Flink 1.5.0创建一个面向批处理的Flink作业，并希望使用Table和SQL来处理数据。我的问题是试图创建一个编译错误的BatchTableEnviroment org.apache.flink.streaming.api.environment.StreamExecutionEnvironment无法访问BatchJob.java:46,73 引起于 final BatchTableEnvironment bTableEnv = TableEnvironment.getTableEnvironment(bEnv); 据我所知，我不依赖于流环境。我的代码是下面的代码片

浏览 1提问于2018-06-19得票数 0

1回答

无法执行HTTP请求:超时等待Flink中池中的连接

amazon-s3、apache-flink、flink-streaming

我正在开发一个应用程序，它将一些文件上传到s3桶，稍后，从s3桶中读取文件，并将其推送到数据库。我使用Flink 1.4.2和fs.s3a API从s3桶读取和写入文件。上传文件到s3桶没有任何问题，但是当我的应用程序的第二阶段--从s3读取这些上传的文件--启动时，我的应用程序会抛出错误 Caused by: java.io.InterruptedIOException: Reopen at position 0 on s3a://myfilepath/a/b/d/4: org.apache.flink.fs.s3hadoop.shaded.com.amazonaws.SdkClient

浏览 0提问于2019-06-21得票数 1

1回答

如何从flink访问/读取kafka主题数据？

apache-flink、apache-kafka-connect

我试图阅读卡夫卡数据从flink和我是新的卡夫卡和flink，我不知道如何连接他们。

浏览 4提问于2017-02-01得票数 0

回答已采纳

2回答

在Flink中按顺序读取两个流(主流和信任流)

apache-flink、flink-streaming

我有两个流，一个是主流，比如说在欺诈检测的例子中，我有事务流，然后我有第二个流，这是信任，在我们的例子中它是规则。因此，我将主流连接到配置流，以便进行处理。但是，当flink第一次启动时，当我们添加作业时，它开始从事务中消费，并并行地信任流；当需要进程事务时，它有时会看到没有配置，我们不得不将事务发送到死信队列。然而，我想要实现的是，如果有专利配置，稍后我可以得到，我想先得到配置，然后得到事务，以便处理它，而不是把它发送到死信队列。我有同样的交易和信任的钥匙。长话短说，是否有办法告诉flink，当第一次作业开始尝试消耗一个流，直到没有新的值，然后开始处理主流流？我怎么能把它们按顺序排列呢？

浏览 13提问于2022-04-14得票数 1

2回答

具有不同模式中的两个目标表的映射的参数文件-informatica

informatica、informatica-powercenter

我已经在参数文件中定义了所有属性。会话级属性中的属性选项卡允许指定一个连接字符串，但我有两个不同模式的目标表。如果我在目标连接中指定了任何一个连接变量，它会显示错误，说明没有为其他目标表连接指定该值。有谁能帮帮我吗？

浏览 1提问于2015-04-21得票数 1

1回答

如何组织复杂的Apache应用程序？

apache-flink、flink-streaming、flink-sql

我们使用flink从一些IoT传感器生成事件。每个传感器都可以用来产生不同类型的事件(如温度、湿度等)。一对多的比率(传感器->启用事件)。存储在关系数据库中的传感器和启用事件之间的映射为了丰富传感器数据，我们将传感器数据和表API连接起来。只需添加带有启用事件列表的元数据。因此，如果某些特定的sensor-123只启用了TEMP和PRESSURE事件，如何仅将传感器数据发送到这两个已定义的进程函数？人们会想到以下几点： val enriched: DataStream[EnrichedSensorData] = ... val temp = enriched.filter(x

浏览 4提问于2022-01-25得票数 1

2回答

在Flink ConnectedStream中处理状态刷新

apache-flink、flink-streaming

我们正在构建一个有两个流的应用程序：大容量的消息流一个大的静态流(起源于我们周围的一些拼板文件)，我们将其输入Flink，只为了将数据集保存到保存状态。为了获得共享状态，我们希望将这两个流连接起来，以便第一流可以使用第二状态进行富集。每天大约，地板文件(第二流的来源)被更新，这将需要我们清除第二流的状态并重建它(可能需要大约2分钟)。问题是，在此进程运行时，我们能否阻止/延迟来自第一流的消息？谢谢。

浏览 2提问于2019-01-28得票数 0

回答已采纳

1回答

Apache Spark与Flink ML

machine-learning、apache-spark

对不起，如果我问错了社区的问题。火花ML和Flink ML以及火花和Flink在一般情况下有什么区别？这两个项目都是Apache的项目，我想知道为什么Foundation有两个类似的项目。我发现了一些有趣的文章，快速大数据: Apache与Apache用于流数据，它对我的问题有答案。溢出社区已经讨论过这个问题。主题是Apache和Apache有什么区别？

浏览 0提问于2016-10-13得票数 2

回答已采纳

1回答

在Flink或任何其他系统中合并两种不同类型的数据流

apache-flink、flink-streaming、complex-event-processing、flink-cep

我想用Flink进行远程病人监测，包括陀螺仪、加速度计、心电流、心率流、RR率等多种传感器。因此，在这种情况下，我们不可能有相同的数据类型或输入速率等，但我仍然想检测心律失常或其他医疗状况，包括在这些多传感器上做CEP。我所知道的是，如果我想在这些传感器上执行一些复杂的事件处理，那么我有两个选项需要在CEP之前完成。连接diff流合并diff流早些时候，我是基于传感器的时间戳执行连接的，但它并不会导致所有事件的连接，因为diff流可以在微秒内具有不同的时间戳，因此很少会出现时间戳完全相等的情况。因此，我想使用选项2，即在执行CEP之前执行合并。为此，我在Fli

浏览 2提问于2017-11-14得票数 1

回答已采纳

1回答

Apache是否使用以前的状态来重新计算聚合？

apache-flink、flink-sql

我使用Kafka连接器创建了一个purchases表(使用Flink )： CREATE TABLE purchases ( country STRING, product STRING ) WITH ( 'connector' = 'kafka', 'topic' = 'purchases', 'properties.bootstrap.servers' = 'kafka:29092', 'value.format' = 'json'

浏览 5提问于2021-12-13得票数 1

回答已采纳