如何从Kafka中读取JSON数据，并使用Spark结构流存储到HDFS？

文章/答案/技术大牛

发布

4回答

Kafka结构化流检查点

、、

我正在尝试从Kafka做结构化流媒体。我计划在HDFS中存储检查点。我读了一篇Cloudera博客，建议不要在HDFS中为Spark streaming存储检查点。结构流检查点也存在同样的问题吗？。在结构化流中，如果我的spark程序停机了一段时间，我如何从检查点目录

浏览 3提问于2017-10-07得票数 4

1回答

、、

我正在尝试从Kafka读取JSON消息，并使用spark structured将它们存储在HDFS中。我遵循了示例，当我的代码如下所示时： .read \ .option("kafka.bootstrap.servers", ""

浏览 43提问于2018-07-25得票数 1

1回答

火花结构化流检查点在生产中的使用

、、、、

当使用Spark结构化流时，我难以理解检查点是如何工作的。使用Spark结构化流将这些事件与确认事件流连接起

浏览 7提问于2020-07-08得票数 3

1回答

Spark Structured Streaming with Kafka source，在查询运行时更改主题分区的数量

、、、、

我设置了一个从Kafka主题读取的Spark结构化流查询。如果在Spark查询运行时更改了主题中的分区数量，Spark似乎不会注意到，并且不会消耗新分区上的数据。除了停止和重新启动查询之外，有没有办法让Spark检查同一主题中的新分区？spark</

浏览 32提问于2019-11-08得票数 0

1回答

使用Java将zip文件解压缩到HDFS

、、

我使用Java-Spark，我从Kafka主题得到消息，表明在压缩文件路径上，我想将这个压缩文件提取到HDFS中。我有从Kafka与火花结构化流读取消息的代码。解压文件到HDFS的方法是什么？我使用来自net.lingala.zip4j.core.ZipFile的ZipFile，如下所示： ZipFile zipFile = new ZipF

浏览 82提问于2019-02-14得票数 1

2回答

用于NRT数据应用的Google

、、、、

我正在评估Kafka/Spark/HDFS，用于开发NRT (子秒级) java应用程序，该应用程序接收来自外部网关的数据，并将其发布到桌面/移动客户端(使用者)，用于各种主题。同时，数据将通过用于分析和ML的流和批处理(持久)管道提供。独立的TCP客户端从外部TCP服务器读取流数据。桌面/移动用户应用程序订阅各种

浏览 2提问于2016-02-16得票数 0

2回答

我正在开发一个火花流作业(使用结构化流，而不是使用DStreams)。我从kafka收到一条消息，其中将包含许多带有逗号分隔值的字段，其中第一列将是一个文件名。现在，基于该文件名，我将不得不从HDFS读取文件，并创建一个数据文件并在该文件上进一步操作。这似乎很简单，但是seems不允许我在调用start之前运行任何操作。火花文档也引用了同样的话。此外，还有一些Dataset方法无法在流</e

浏览 3提问于2017-10-13得票数 1

1回答

使用Python的Azure服务总线

、、、、

您能提供一些关于使用Python使用Azure Service Bus流消息的建议吗？因为我发现Azure Service Bus没有spark结构化流源，所以在这种情况下，我可以使用提供的Python客户端读取Azure Service Bus消息，然后从Python客户端读取每个消息并将其写入Kafka主题，在这个Kafka主题上，我将应用spark结

浏览 0提问于2021-03-09得票数 0

1回答

结构化流到将JSON保存到HDFS

、、、、

我的结构化星火流程序是从Kafka读取JSON数据并以JSON格式写入HDFS。我能够将JSON保存到HDFS，但它使用以下方法保存JSON字符串：key as below: {"jsontostructs如何只保存 {"age":4

浏览 1提问于2019-07-27得票数 0

回答已采纳

3回答

如何获取Kafka* offset，用于结构化查询，实现手动、可靠的offset管理？*

、、、、

Spark 2.2引入了Kafka的结构化流媒体源代码。据我所知，它依靠HDFS检查点目录来存储偏移量，并保证“只传递一次”消息。但旧的docks (如)表示，Spark Streaming检查点不能跨应用程序或Spark升级恢复，因此不太可靠。作为一种解决方案，有一种做法是支持将偏移量存储在支持MySQL或RedshiftDB等事务的外部存储中。如果要将Kafka源的偏移量<e

浏览 1提问于2017-09-11得票数 28

回答已采纳

1回答

阅读星火批次作业中的Kafka主题

、、、、

我正在编写一个Spark (v1.6.0)批处理作业，它是从Kafka主题中读取的。为此，我可以使用org.apache.spark.streaming.kafka.KafkaUtils#createRDD，但是，我需要为所有分区设置偏移量，还需要将它们存储在某个地方(ZK？HDFS?)知道从哪里开始下一批作业。在批处理作业中读取卡夫卡的正确方法是什么？我还考虑编写一个流

浏览 0提问于2016-06-25得票数 7

回答已采纳

1回答

基于apache超级集的kappa体系结构

、、

在互联网上有很多关于kappa体系结构的信息，在浏览了一些概念方面之后，我试图深入到一些更具体的方面。作为我的主要来源，我使用了。当然，您可以轻松地将apache与PostgresSQL数据库连接起来，并创建图表。但是现在你想看看你如何用卡帕架构来做这件事，你加入了卡夫卡和火花。您可以将事件发送给kafka，并且可以在中读取此类事件。卡夫卡将保留一个特定时期的信息，如的答案所指出的。当我读到将超级集与spark 连

浏览 6提问于2022-06-21得票数 2

回答已采纳

1回答

如何使用结构化流检查点管理HDFS内存

、、

我有一个长期运行的结构化流媒体作业，它消耗了几个Kafka主题，并在滑动窗口上聚合。我需要了解如何在HDFS中管理/清理检查点。作业运行良好，我能够从失败的步骤中恢复，而不会丢失数据，但是，我可以看到HDFS利用率每天都在增加。我找不到任何关于Spark如何管理/清理检查点的文档。.start() 据我所知，检查点应该是自动清理的；几天后，我看到我的HDFS<e

浏览 34提问于2019-01-07得票数 2

回答已采纳

2回答

将JSON插入Hadoop

、、、、

我每天都有很多数据(JSON字符串)(大约150-200B)。我想将JSON插入到Hadoop中，最好的方法是什么(我需要快速插入和快速查询JSON字段)？我是否需要使用hive并为我的JSON创建Avro方案？或者，我是否需要将JSON作为字符串插入到特定列中？

浏览 0提问于2018-06-19得票数 0

1回答

如何在spark* structured streaming中获取特定日期的聚合数据*

、

我有一个火花结构化蒸汽作业，从kafka读取数据流，并写入到HDFS的输出。我的问题是，我需要一整天的汇总结果，直到特定的时间。既然spark structured不支持complete/update模式，有没有办法做到这一点？如果我得到的数据是上午10点，我需要当前日期上午10点之前的汇总结果...

浏览 0提问于2019-01-19得票数 0

1回答

当星火从文件系统读取时，它会被送到驱动程序吗？

、、

我想知道当星火吞食数据时，数据是否被输入到驱动程序中并发送给工作人员，由Spark指示节点从文件系统读取数据？案例1 当读取文件系统时，假设文件

浏览 0提问于2017-08-07得票数 1

回答已采纳

2回答

具有独特消息模式的星火结构流多个Kafka主题

、、

现状：今天，我构建了一个Spark结构化流应用程序，它使用了一个包含JSON消息的Kafka主题。嵌入在Kafka主题的值中包含了有关消息字段的源和模式的一些信息。主题，我已经使用订阅选项按主题部署了这个Spark结构化流应用程序。应用程序应用该主题的唯一模式(通过批处理读取Kafka主题中的第一条消息并映射该模式)并将其写入

浏览 1提问于2018-04-11得票数 3

2回答

如何从node-red向Hadoop发送数据？

、、、

我需要一种从node-red发送数据的机制，以存储在HDFS (Hadoop)中。我更喜欢数据是流式传输的。我正在考虑使用“websocket out”节点将数据写入其中，并使用Flume代理进行读取。你能让我知道我的方向是否正确，如果我不是，请澄清一些细节？最新消息: node-red提供了'bluemixhdfs‘节点，它与IBM bluemix绑定在一

浏览 53提问于2017-01-09得票数 2

1回答

暂停并恢复KafkaConsumer中的SparkStreaming

、

:) 我在一种(奇怪的)情况下结束了自己的工作，简单地说，我不想使用任何来自Kafka的新记录，所以暂停主题中所有分区的sparkStreaming消费(InputDStreamConsumerRecord)，执行一些操作，最后继续使用记录。版本：Kafka: 0.10火花:2.3.0Scala: 2.11.8

浏览 3提问于2020-06-17得票数 0

回答已采纳

2回答

JDBC源的火花结构化流

、、、、

有人能让我知道是否有可能从JDBC源中触发结构化流吗？例如，SQL或任何RDBMS。但是，我想知道它是否在Apache上得到了官方的支持？

浏览 8提问于2022-02-26得票数 1

回答已采纳

点击加载更多

Kafka结构化流检查点