从Spark 2.2到2.3的结构化流媒体有什么不同？

文章/答案/技术大牛

发布

1回答

我在Spark 2.3的发布说明中看到了结构化流媒体的公告/揭幕，但我知道它已经存在了一段时间了。由于一些依赖，我需要在系统实现中使用Spark 2.2，但我也想开始将面向批处理的工作转移到流范例中。在没有Spark 2.3的过程中，我是否遗漏了什么重要的东西，或者这仅仅是结构化流媒体成为“官方”而不

浏览 13提问于2018-07-25得票数 0

2回答

是否可以直接将数据从Nifi发送到Spark结构化流/Storm，而不丢失数据？

、、、

在我当前的场景中，Nifi收集数据，然后发送给Kafka。然后，任何流媒体引擎都会消耗卡夫卡的数据，并对其进行分析。在这种情况下，我不想在Nifi和流媒体引擎之间使用卡夫卡。因此，我想将数据从Nifi直接发送到流引擎。但是，我不知道一些细节。例如，结构化流；如果我直接将数据从Nifi发送到Spark结构化流，Spark收到了这些数据，但是Spark的节点被关闭了。火花节点中<em

浏览 0提问于2019-02-14得票数 0

回答已采纳

1回答

火花结构流检查点兼容性

、、、

在必须升级Spark库或更改查询时，我是否可以安全地使用带检查点的Kafka和Spark结构化流(SSS) (SSS)？即使在这种情况下，我也想无缝地继续进行所留下的补偿。在搜索网络中的SSS (>=2.2)检查点机制中的兼容性问题时，我找到了不同的答案。也许外面的人能缓解这种局面..。在最好的情况下，以事实/参考资料或第一人称经验作为后盾？在斯派克的编程指南(cu

浏览 0提问于2018-10-25得票数 6

3回答

如何获取Kafka offset，用于结构化查询，实现手动、可靠的offset管理？

、、、、

Spark 2.2引入了Kafka的结构化流媒体源代码。据我所知，它依靠HDFS检查点目录来存储偏移量，并保证“只传递一次”消息。但旧的docks (如)表示，Spark Streaming检查点不能跨应用程序或Spark升级恢复，因此不太可靠。作为一种解决方案，有一种做法是支持将偏移量存储在支持MySQL或RedshiftDB等事务的外部存储中。如果要将Kafka源的偏移量存储到</em

浏览 1提问于2017-09-11得票数 28

回答已采纳

1回答

kafka与Apache spark的集成

、、

我正在学习apache spark与kafka的集成，这样当新消息到达Kafka的主题时，我的代码就可以自动运行。我也读过官方文档 https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html 但我仍然对它的工作原理感到困惑我有我的字数统计写的程序在java火花和另一边卡夫卡正在运行。

浏览 15提问于2019-12-10得票数 1

1回答

Spark流媒体与结构化流媒体

、、

在过去的几个月里，我使用了相当多的结构化流媒体来实现Stream Jobs (在使用了很多Kafka之后)。在阅读了“使用Apache Spark进行流处理”一书后，我有了这样一个问题:有没有什么要点或用例可以让我使用Spark流而不是结构化流？我是不是应该花点时间去了解它，或者既然我已经在使用Spark Structured Streaming了，我应该坚持使用它，并且之前的API没有任何好处。将

浏览 17提问于2020-04-06得票数 2

1回答

在Spark* 2.1的Spark-kafka集成中，有多少个执行者被指派去听一个kafka话题？*

、、

我有一个Spark集群，总共有17个executors。我已经将Spark 2.1与Kafka集成在一起，并从topic中读取数据，例如： .readStream .options(kafka.bootstrap.servers","localhost:9092") .load 现在我想知道，

浏览 0提问于2018-09-05得票数 2

1回答

如何处理JSON文档(来自MongoDB)并在结构化流中写入HBase？

、、、

我正在获取mongoDB文档，然后在处理之后，我想使用Bson.Document库将其存储到Hbase中在结构化流媒体中，我得到了DatasetDocument scala> val stream = spark.readStream.format("k

浏览 15提问于2019-11-09得票数 2

1回答

有没有理由选择Flink而不是Spark* 2.3结构化流媒体？*

、、

当Spark 2.3带来延迟为1ms的“连续处理”时，选择Flink而不是新的Spark 2.3用于流媒体应用有什么好处吗？

浏览 1提问于2018-06-12得票数 3

2回答

Amazon EMR和Spark* streaming*

、、、、

Amazon EMR，Apache Spark 2.3，Apache Kafka，每天约1000万条记录。Apache Spark用于以5分钟的时间批量处理事件，每天一次工作节点正在死亡，AWS自动重新配置节点。查看日志消息时，节点中看起来没有空间，但它们在那里有大约1Tb的存储。有没有人在存储空间应该足够的情况下遇到了问题？我应该提供<e

浏览 4提问于2018-10-19得票数 8

1回答

多个kafka集群的Spark结构化流

我正在尝试从不同集群的多个主题中获取一些关于spark结构化流媒体和阅读的基本信息。我找到了一些教程，这些教程展示了如何从同一集群上的多个kafka主题中拉出数据，但如果这些主题位于不同的集群中呢？如何将多个kafka集群中的主题读入spark？

浏览 14提问于2018-07-18得票数 0

回答已采纳

1回答

如何通过spark结构流在Kafka中以编程方式创建主题

、、

我想在我的Spark结构化流媒体应用程序中创建多个kafka主题运行时。我发现Java API中有各种可用的方法。但我找不到任何有Spark结构的流媒体。如果有什么方法可以使用或者我需要使用java库，请告诉我。我的apache Spark版本是2.4.4，Kafka库依赖是spark-sql-kafka-0-10_2.12

浏览 17提问于2019-11-28得票数 0

1回答

如何解决akka版本兼容性问题？

、、

如果我注释掉火花依赖项，如果包括我得到的火花依赖项，它就运行得很好：我怎么才能避开这一切？

浏览 1提问于2014-11-26得票数 1

回答已采纳

1回答

与RabbitMQ的Spark结构化流媒体集成

、、

我想使用Spark structured来聚合从RabbitMQ消费的数据。我知道与apache kafka有官方的spark结构化流媒体集成，我想知道是否也存在与RabbitMQ的集成？由于我不能切换现有的消息传递系统(RabbitMQ)，我想使用kafka-connect在消息传递系统(Rabbit to kafka)之间移动数据，然后使用Spark structured streaming有人知道更好的

浏览 0提问于2018-04-16得票数 0

1回答

使用Spark* Structured Streaming读取目录时，如何实现只读一次处理？*

、、

我想使用流处理的概念从本地目录读取文件，然后发布到Apache Kafka。我考虑过使用Spark Structured Streaming。此外，如果我们在结构化流媒体中使用检查点，当代码有任何升级或任何更改时，我们是否会有任何问题。

浏览 0提问于2019-02-25得票数 2

1回答

无法使用spark结构流计算文档数量

、、

我正在尝试使用couchbase作为spark structured使用spark connector的流媒体来源。val records = spark.readStream.load() 我有一个问题 records.writeStream.format(“console”).awaitTermi

浏览 21提问于2020-04-14得票数 1

2回答

星火结构流和DStreams有什么区别？

、

我一直在网上寻找材料--两者都是基于微批次的--那么有什么区别呢？

浏览 0提问于2018-03-15得票数 13

回答已采纳

1回答

通过读取具有两个不同spark结构化流的相同主题来调试Kafka流水线

、、、

我有一个Kafka主题，就是在我的产品中流式传输数据。我希望使用相同的数据流进行调试，而不影响现有管道的偏移量。我记得在早期版本中为此目的使用了创建不同的消费者组，但我使用Spark structured从Kafka读取数据，它不鼓励在从kafka读取数据时使用groupID。

浏览 27提问于2020-10-16得票数 1

回答已采纳

1回答

将Cassandra查询的数据合并/更新为从Kafka接收的结构化流

、、、

我正在创建一个Spark结构的流媒体应用程序，它将每10秒计算一次从Kafka收到的数据。目前，我使用Datastax Spark-Cassandra-connector在本地启动Spark后立即查询数据库 .read .load 从现在开始，我可以通

浏览 1提问于2018-04-17得票数 8

2回答

Spark结构化流媒体应用阅读多个Kafka主题

、、

我有一个Spark结构化流媒体应用(v2.3.2)，它需要从一些Kafka主题读取，做一些相对简单的处理(主要是聚合和一些连接)，并将结果发布到其他一些Kafka主题。我想知道从资源的角度(内存、执行器、线程、Kafka侦听器等)它是否会有所不同。就像这样 df = spark.readStream.format("kafka").option("subscribe", &qu

浏览 28提问于2019-05-01得票数 11

回答已采纳

点击加载更多