flink流批一体原理 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

PyFlink性能与Scala的比较

pyspark、apache-flink、spark-streaming、pyflink

如何将PyFlink性能与Flink + Scala进行比较？因此，Apache是纯流的，而不是Spark的微批，我倾向于选择Apache。但我唯一关心的是PyFlink的性能。PySpark流的延迟会更少吗？它比Scala编写的Flink代码慢吗？在什么情况下更慢？提前谢谢

浏览 3提问于2021-11-05得票数 1

回答已采纳

1回答

最近，我一直在比较火花和Flink的一个全新的项目。在这个项目中，流功能不是那么重要。对~(90) is数据进行批量分析是最重要的。稍后，我将在数据分析中应用ML和数据挖掘。在搜索时，我发现很多文章，演示和视频声称Flink是下一代的分析解决方案。没有多少文章能为火花辩护。另一方面，星火是(或曾经？)非常流行，并广泛部署在非常大的生产系统。我的问题是：对于我的用例来说，流并不重要，我是拥抱Flink还是从Spark2开始？更新，2018年4月，：我们最终选择

浏览 5提问于2017-05-19得票数 3

回答已采纳

1回答

风暴式间歇加工

apache-kafka、apache-storm、trident

我对风暴的用例是流处理和批处理。用例2:风暴拓扑应该将元组作为一批元组进行处理。我使用Kafka作为队列机制来提供Storm拓扑。是否Storm不是这样做的正确框架，因为它是用于流处理的(用例1)。风暴三叉戟对用例#2有帮助吗？

浏览 3提问于2015-09-22得票数 0

1回答

如何保留apache flink任务并在重启jobmanager时提交记录

apache-flink

我正在使用apache flink 1.10批量计算我的流数据，今天我将我的apache flink kubernetes(v1.15.2) pod从机器1移动到机器2，发现所有提交任务记录和任务列表都消失了重启apache flink的kubernetes pod时，如何保存提交记录和任务列表？我只发现checkpoint persistant，但没有关于任务的。

浏览 4提问于2020-04-30得票数 0

1回答

Flink卡夫卡流相对于星火卡夫卡流的好处？卡夫卡流过弗林克？

apache-kafka、spark-streaming、apache-storm、apache-flink、apache-kafka-streams

在火花流中，我们设置了几乎实时的微批处理的批处理间隔。在Flink (DataStream)或Storm中，流是实时的，所以我想没有这样的批处理间隔的概念。在卡夫卡，消费者在拉，我想象星火使用批参数从卡夫卡经纪人提取消息，那么Flink和Storm是如何做到的呢？我设想Flink和Storm在一个快速循环中拉出Kafka消息形成实时流源，如果是这样的话，如果我将火花批处理间隔设置为100 as、50 as甚至更小，那么我们是否与Flink或Storm之

浏览 5提问于2016-10-24得票数 7

回答已采纳

1回答

Apache Flink存储

apache-flink

在处理了这数百万的事件/数据之后，哪里是保存信息的最佳地方？我看到一个关闭的提到了Parquet格式，但是，默认的是HDFS吗？我关心的是储蓄后(哪里？)如果它是容易的(快！)才能检索到数据？

浏览 3提问于2015-08-11得票数 5

1回答

RollingSink中的Flink Avro Parquet Writer

avro、apache-flink、parquet

当我试图在AvroParquetWriter中设置RollingSink时，我遇到了一个问题，接收器路径和写入路径似乎有冲突 INFO JobManager - Status of job af0880ede809e0d699eb69eb385ca204 (Flink(AbstractFetcher.java:225) at org.apache.flink.streaming.con

浏览 2提问于2016-12-14得票数 2

2回答

我怎么知道我已经吃掉了所有的卡夫卡话题？

apache-kafka、apache-flink

我使用的是Flink v1.4.0。我使用如下代码所示的Kafka FLink Consumer来使用Kafka主题中的数据：properties.setProperty

浏览 6提问于2018-01-25得票数 3

回答已采纳

1回答

流处理和批处理

apache-spark、stream、apache-flink、processing、pipeline

由于批处理的延迟是在累积特定数目的数据时产生的，我是否可以将“一的大小”的批处理视为流处理？或者当运算符进行计算时还有其他的区别吗？例如，如果我将基于火花的程序的批处理大小设置为1，是否可以使其延迟降低到flink？我的一种想法是:对于流处理，如果处理了前一个操作符，一个数据流就会从前一个操作符流到后一个操作符，但是对于批处理过程，只有在操作符处理完一个数据之后，它才能接受另一个数据。流处理中的流水线似乎是加速的关键。我的解释正确吗？如果错了，对我的问题有什么适当的解释。

浏览 9提问于2022-11-14得票数 0

1回答

Flink流，“sum”到底是做什么的？

java、apache-flink、flink-streaming

我很难理解流，以工作计数为例，对于卡夫卡这样的无限源，“和”到底是做什么的？Types.LONG)) .sum(1); 我的意思是，用keyBy(0).

浏览 1提问于2019-03-06得票数 0

回答已采纳

1回答

Flink:支持多个执行环境吗？

join、apache-flink、environment、flink-streaming

在Flink程序中创建多个ExecutionEnvironments可以吗？更具体地说，在相同的主方法中创建一个ExecutionEnvironment和一个StreamExecutionEnvironment，这样就可以处理批处理，然后再传输到流，而不会出现问题？Flink为这种情况做好准备了吗？所有这些看起来都很好，但当join在一个公共索引上运行两个流并使用window(TumblingProcessingTimeWindows.of(Time.seconds(1)))时，我的输出出现了问题因为它完成的非常快，这两个

浏览 6提问于2019-10-10得票数 1

回答已采纳

1回答

以字符串值表示的Apache Flink表查询结果

java、apache-flink、flink-sql

我正在从flink表api编写一个查询来检索一条记录。然后检查是否找到一条记录，如果找到，则获取该记录的每个列值的字符串值。name | phone || 01| sam | 23354 || 03| kim | 23351 | Visitor.id = foundRecord.id throw exception按照flink</e

浏览 4提问于2020-05-30得票数 0

回答已采纳

1回答

StreamTableEnvironment能够针对批处理流运行吗？

apache-flink

然而，可以使用流执行模式在那里处理有界流，但效率较低。这是否意味着StreamTableEnvironment可以处理批处理流，但效率较低，因为不能将StreamTableEnvironment配置为在批处理模式下运行？

浏览 8提问于2021-07-29得票数 0

回答已采纳

1回答

Flink:实现DataStream和“规则集”之间的“连接”

apache-flink、flink-streaming

我们需要将流与一组“规则”相匹配，这些“规则”本质上是一个Flink DataSet概念。对此“规则集”的更新是可能的，但并不频繁。每个流事件必须对照“规则集”中的所有记录进行检查，而且每次匹配都会将一个或多个事件生成到接收器数据流中。规则集中的记录数在6位范围内。为了加快迭代速度，我们还可以将列表分成几个批，实质上是创建一个列表列表，并创建一个单独的线程来迭代每个子列表(使用Java或Scala中的Futures或Scala)。如果不是，在Flink已经在做的基础上，在每个flatMa

浏览 1提问于2018-06-04得票数 0

回答已采纳

1回答

流媒体连接在Flink中的实现

inner-join、apache-flink、flink-streaming

我正在研究Flink中join的各种实现。在批处理模式下，我遇到了hybrid-hash join和sort-merge join。在我看来，实际的实现应该是这样的：customers表首先进行散列分区.然后，orders流开始流动。Flink有这样的连接吗?我可以在flink中实现这个吗？

浏览 1提问于2021-05-14得票数 0

回答已采纳

1回答

如何在共享相同状态的同时扩展Flink？

apache-flink

工作负载的语义如下： Flink操作符从同一个Kafka主题读取事件。每个event都需要由一个昂贵的函数f处理一次，最好是至少一次。如何在Flink中对此用例进行水平扩展？我想同时处理事件，但是所有的事件处理都依赖于同一状态。在我的用例中，状态的大小将首先上升到，然后在1TB左右波动。

浏览 0提问于2021-04-08得票数 0

回答已采纳

3回答

在实践中，小批处理和实时流有什么区别(不是理论)？

apache-spark、batch-processing、apache-flink、data-processing、stream-processing

在实践中，小批处理和实时流有什么区别(不是理论)？理论上，我理解迷你批处理是在给定的时间范围内批处理的，而实时流更像是在数据到达时做一些事情，但我最大的问题是为什么不使用带有epsilon时间框架的小批处理(例如1毫秒)，或者我想了解为什么一个小批处理比其他的解决方案更有效我最近遇到了一个例子，其中迷你批处理(Apache )用于欺诈检测，实时流(Apache )用于预防欺诈。

浏览 8提问于2016-09-27得票数 24

回答已采纳

1回答

Apache维基百科用Scala编辑分析

java、scala、apache-flink、flink-streaming

我正在尝试从将Apache教程中的维基百科编辑流分析重写到Scalaimport org.apache.flink.api.common.functions.FoldFunction;import org.apache.flink.api.java.tuple.Tuple2; import org.apache.flink.streaming.api.datastream.

浏览 1提问于2016-12-29得票数 0

回答已采纳

1回答

HDFS的批量分析

apache-spark、hadoop、hive、hdfs、batch-processing

我正在实时获取点击流数据。所有发送给卡夫卡的数据都被吃掉了。Question2:如何才能从HDFS(上一批之后接收到的数据)获得新的数据？Question3:假设我想在当前批处理分析中访问前一批分析的会话分析结果，如何将当前批处理分析结果和以前的会话分析结果合并？ Question4:应该将数据写入HDFS作

浏览 1提问于2019-08-31得票数 0

1回答

两个流之间的Flink* Scala连接似乎不起作用*

scala、apache-kafka、apache-flink、flink-streaming

我想加入两个流(json)来自卡夫卡制片人。如果我过滤数据，代码就能工作。但当我加入他们的时候，它似乎不起作用。我想要打印到控制台的连接流，但什么也没有出现。这是我的密码import org.apache.flink.streaming.api.scala._ import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer010import org.apache.flink</em

浏览 2提问于2017-08-03得票数 1

回答已采纳

点击加载更多

PyFlink性能与Scala的比较

当流不重要时

风暴式间歇加工

如何保留apache flink任务并在重启jobmanager时提交记录

Flink卡夫卡流相对于星火卡夫卡流的好处？卡夫卡流过弗林克？

Apache Flink存储

RollingSink中的Flink Avro Parquet Writer

我怎么知道我已经吃掉了所有的卡夫卡话题？

流处理和批处理

Flink流，“sum”到底是做什么的？

Flink:支持多个执行环境吗？

以字符串值表示的Apache Flink表查询结果

StreamTableEnvironment能够针对批处理流运行吗？

Flink:实现DataStream和“规则集”之间的“连接”

流媒体连接在Flink中的实现

如何在共享相同状态的同时扩展Flink？

在实践中，小批处理和实时流有什么区别(不是理论)？

Apache维基百科用Scala编辑分析

HDFS的批量分析

两个流之间的Flink* Scala连接似乎不起作用*

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐