Storm在java中从Kafka读取数据

Storm是一个开源的分布式实时计算系统，它可以从Kafka读取数据并进行实时处理。以下是关于Storm在Java中从Kafka读取数据的完善且全面的答案：

Storm是一个分布式实时计算系统，它可以处理大规模的实时数据流。它提供了高可靠性、高吞吐量和可扩展性的特性，适用于处理实时数据分析、实时计算和流式处理等场景。

在Java中，可以使用Storm的Kafka Spout来从Kafka读取数据。Kafka Spout是Storm提供的一个组件，用于从Kafka主题中消费数据并将其发送到Storm拓扑中进行处理。

Kafka是一个分布式的流处理平台，它具有高吞吐量、可持久化、可扩展等特点，适用于处理大规模的实时数据流。在Storm中，可以使用Kafka作为数据源，通过Kafka Spout来消费数据。

使用Storm从Kafka读取数据的步骤如下：

首先，需要在Storm拓扑中添加Kafka Spout组件，并配置Kafka的连接信息、主题名称等参数。可以使用Storm提供的Kafka Spout类，也可以自定义Spout类来实现从Kafka读取数据的逻辑。
在Kafka Spout中，需要指定消费的主题名称、消费者组ID等参数。可以通过配置文件或代码来设置这些参数。
在拓扑中定义数据处理逻辑，可以使用Storm提供的各种Bolt组件来进行数据处理、转换、过滤等操作。可以根据实际需求来选择合适的Bolt组件。
在拓扑中定义数据流的流向和处理逻辑，可以通过连接Spout和Bolt组件来构建数据流图。可以根据实际需求来设计合理的数据流图结构。
配置和启动Storm集群，将拓扑提交到集群中运行。可以使用Storm提供的命令行工具或API来进行集群的配置和管理。

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云Storm产品介绍：https://cloud.tencent.com/product/storm
腾讯云Kafka产品介绍：https://cloud.tencent.com/product/ckafka

请注意，以上答案仅供参考，具体的实现方式和配置参数可能会因具体的业务需求和技术选型而有所不同。在实际应用中，建议根据具体情况进行调整和优化。

Storm UI未显示正确的确认

、、

我集成了Apache Storm 1.0.3和Apache Kafka_2.11-0.10.1.0。Storm正确地阅读了kafka主题中的一到两个menssage，但当第一个螺栓确认元组时，此确认不会在Storm UI中显示。有什么问题吗？其他问题:当Storm阅读来自kafka主题的10或19条消息时，在这一点上，Storm UI显示20为Bolt，如果阅读其他19条消息，则添加20多条。我不明白为什么Storm UI在20中显示Spout和bolts的acked。谁能解释一下在Storm Ui控制台中注册acked和fail的逻辑是什么？我的拓扑配置是： final Topology

浏览 3提问于2017-03-23得票数 0

3回答

减少max.spout.pending值会导致Storm UI中的Kafka Spout出现失败消息？

、、

我们正在尝试在我们的Storm Topology中对性能进行基准测试。我们正在向Kafka主题摄取大约1000条/秒的消息。当我们将max.spout.pendind=2000放入KafkaSpout中时，我们在storm UI中看不到任何失败的消息，但当我们将max.spout.pendind值减少到500或100时，我们会在Storm UI的spout中看到许多失败的消息。我的理解是，如果我们保持低max.spout.pending，那么我们将不会有任何失败的消息，因为没有什么会超时，但它的行为是相反的。我们使用的是HDP 2.6.5版本的Storm 1.1.0版本。我们有一个卡夫卡喷嘴

浏览 0提问于2018-09-15得票数 1

1回答

在拓扑统计中奇怪的“发射”数字行为/零统计数(风暴1.0.3)

、

是我的暴风UI统计数据的样子。问题是，我不知道(发出的元组的数字从哪里来)。我的拓扑非常简单:卡夫卡喷出的->螺栓(持久化数据到hbase) 拓扑工作-当我将数据放入kafka主题中时，我会将数据通过螺栓处理并保存在hbase中，然后用hbase外壳中的扫描操作符进行验证(因此正在插入新的记录)。然而，每次我向kafka提交新消息时，当它被螺栓保存时，我的拓扑结构不会增加由‘1’发出的信息的数量。我定期得到所有的数字增加20 -没有发送任何新的信息卡夫卡。也就是说，我的kafka主题在几个小时内没有收到任何信息，但是随着时间的推移，元组的数量总是以20块的形式增加

浏览 2提问于2017-04-11得票数 1

1回答

通过MongoDB使用Storm bolt或Spark-streaming丰富数据

、、、

我想创建一个Storm Spout，它从Apache Kafka的主题中读取数据，并将这些数据发送到连接到MongoDB的Storm bolt，并查询我从Kafka收集的消息以丰富数据。例如:我有一个personID (我是通过Kafka发来的消息得到的)，我想使用这个personID查询MongoDB中的个人地址。在我的MongoDB集合中，每个文档都有personID和地址。有人能给我举个例子吗？一个使用Spark-streaming的例子也会很棒。

浏览 0提问于2018-04-18得票数 0

1回答

LocalCluster中的不同拓扑在apache-storm中可以有同名的流和螺栓吗？

、、、

我需要在LocalCluster模式下运行多个storm项目。 ProjectA->TopologyA->Spout1(listing to some stream X )->Bolt1->Bolt2 ProjectB->TopologyB->Spout1(listing to some stream Y )->Bolt1->Bolt2 ProjectC->TopologyC->Spout1(listing to some stream Z )->Bolt1->Bolt2 当我运行项目A、B和C时，不知何故，流被其他项目的

浏览 4提问于2018-04-26得票数 0

1回答

实现多风暴拓扑

我正在处理一个风暴拓扑，其中我需要为不同的客户端位置构建多个拓扑。我有一个Kafka服务器，生成需要到达远程客户端机器的数据(在螺栓中进行了一些转换之后)。这样的客户端大约有1000个。当在Kafka中产生新数据时，客户端需要在几分钟内获得该数据。需要进行一些转换(螺栓可以处理)，数据通过websocket发送到远程客户端。例如: Kafka server -> Kafka spout -> Bolt1 -> bolt2 -> bolt3 -> websocket (在客户机上)我有1000台客户机。我希望这个拓扑可以为每个客户端动态创建。当客户端准备就绪时

浏览 2提问于2015-09-21得票数 1

1回答

使apache storm拓扑使用kafka的最新偏移量

、

我有一个kafkaspout，2个用于处理数据的螺栓，2个用于在mongodb存储处理数据的螺栓。我正在使用apache流量来创建拓扑，在这里，我将数据读入kafka的喷口。一切运行良好，但每次我运行拓扑，它就会从一开始就处理卡夫卡中的所有消息。一旦它处理了所有的msg，它就不会等待更多的msg和崩溃。如何使风暴拓扑只处理最新的消息. 这是我的拓扑文件.yaml name: "kafka-topology" components: # MongoDB mapper - id: "block-mapper" className:

浏览 0提问于2018-05-26得票数 0

回答已采纳

2回答

如何利用Twitter与风暴通量

、、、、

我正在尝试将一个项目从apache风暴迁移到twitter heron。经过很长时间的挣扎，我能够摆脱大部分的错误，比如使用className: "org.apache.storm.kafka.ZkHosts"而不是className: "storm.kafka.ZkHosts"。然而，我被困在提交拓扑。我使用Flux将拓扑提交给风暴。当NullPointerException在ZkState中创建一个CuratorFramework对象时，我将得到它。在进一步的调查中，我发现了，它说，如果没有设置有关动物园管理员的配置，就会导致这个问题。进一步调试，我发现

浏览 4提问于2017-07-17得票数 2

回答已采纳

4回答

Kafka Storm HDFS/S3数据流

、、

目前还不清楚你是否可以像在Flume中那样在Kafka中进行扇出(复制)。我想让Kafka将数据保存到HDFS或S3，并将该数据的副本发送到Storm进行实时处理。Storm聚合/分析的输出将存储在Cassandra中。我看到一些实现将所有数据从Kafka流向Storm，然后从Storm输出两个数据。但是，我希望消除Storm对原始数据存储的依赖。这个是可能的吗？您是否知道有类似这样的文档/示例/实现？另外，Kafka对S3存储有很好的支持吗？我看到了用于存储到HDFS的Camus --您只是通过cron运行此作业来不断地将数据从Kafka加载到HDFS吗？如果作业的第二个实例在前一个

浏览 2提问于2013-06-23得票数 3

回答已采纳

1回答

集群中的拓扑是否可能写入本地文件系统上的txt文件？(在同一个系统上运行的集群)

、、、

目前我正在进行一个项目，以获取来自TI-SensorTag CC2650的传感器值，通过HTTP (通过)将这些值与python脚本发送到Apache，并将Kafka与Apache连接起来处理数据。这些数据将通过拓扑中的一个螺栓写入我的本地系统(Apache集群文件夹的目录)上的..txt文件。几周前，我刚从Storm和Kafka开始，我对以下几点感到困惑：如果我在本地集群上运行拓扑，一切都会正常工作。但是，如果我将它提交到一个运行在localhost上的“正常”集群中:8888，那么它就什么也不做了。 Storm确实显示了拓扑结构，但似乎对来自kafka的传入消息没有任何反应。本地集

浏览 2提问于2016-12-05得票数 1

回答已采纳

1回答

如何首次部署集成apache kafka的storm-core拓扑？

、

我想获得帮助的初始设置与apache storm和kafka设置。我可以向storm集群提交拓扑，但在storm ui中出现以下错误。 Unable to get offset lags for kafka. Reason: java.lang.IllegalArgumentException: zk-node '/kafka-cluster-1/brokers/topics/myfirsttopic/aadb3eb4-2224-4c18-b8ad-6959a1c9f607' dose not exists. at org.apache.storm.kafka.monitor

浏览 34提问于2018-04-21得票数 0

回答已采纳

1回答

风暴消息失败

最近我遇到了一个非常奇怪的问题。storm集群有3台机器。拓扑结构是这样的，Kafka Spout A -> bolt B -> Bolt。我已经确认了每个螺栓中的所有元组，即使可能在螺栓内部抛出异常(在螺栓执行方法中，我尝试捕获所有异常，最后确认元组)。但这里发生了奇怪的事情。我打印了喷嘴的日志，在一台机器上，所有的元组都被喷嘴破解了，但在另外两台机器上，几乎所有的元组都失败了。60秒后，元组一次又一次地重放。“几乎”表示在开始时，其他两台机器上的所有元组都失败了。一段时间后，在两台机器上有少量的元组。由于超时，元组绝对会失败。但我真的不知道他们为什么会超时。根据我打印的日志，

浏览 0提问于2017-06-08得票数 0

1回答

如何在Storm上创建同步KafkaSpout

、

我正在尝试让一个Kafka消费者同时消费来自Kafka的消息。我遇到的实际问题是消息队列存储在Storm Spout中。我试图做的是让Storm等待Kafka ACK回复，然后才让Storm消费下一条消息。我正在使用暴风KafkaSpout： /** * Creates a configured kafka spout. * @param topicName Topic where the kafka spout subscribes * @return An instance of configured KafkaSpout */ pub

浏览 8提问于2019-11-20得票数 0

回答已采纳

5回答

Kafka Spout多次阅读同一条消息

、、

如果我在我的storm拓扑中增加了Kafka spout的并行度，我如何才能阻止它多次阅读同一主题中的同一消息？

浏览 2提问于2015-02-19得票数 1

1回答

风暴中的DRPC服务器错误

、、

我正在尝试执行以下代码，但得到一个错误..不知道我是不是漏掉了什么..另外，我在哪里可以看到输出？错误 Code: ---- package com.**.trident.storm; import org.slf4j.Logger; import org.slf4j.LoggerFactory; import storm.kafka.*; import storm.trident.*; import backtype.storm.*; public class EventTridentDrpcTopology { private static final String KAFKA

浏览 3提问于2014-12-12得票数 1

1回答

Apache Spark中的类风暴结构

、

您知道在Apache Storm中，您可以让Spout将数据流式传输到多个螺栓。有没有办法在Apache Spark中做类似的事情？我基本上希望有一个程序从Kafka队列中读取数据，并将其输出到两个不同的程序，然后这两个程序可以用自己的不同方式处理它。具体地说，将有一个读取器程序从Kafka队列中读取数据并将其输出到两个程序x和y。x将处理数据以计算一种类型的指标(在我的情况下，它将计算用户活动)，而y将计算另一种类型的指标(在我的情况下，这将是基于不同设备的检查活动)。有人能告诉我这是怎么在Spark中实现的吗？

浏览 0提问于2015-09-24得票数 4

2回答

属性文件配置hortonworks上的风暴拓扑和kafka

、、、、

我正在使用hortonworks上的Storm在Hbase和Hive中进行实时数据摄取，我开发了风暴拓扑以接收来自卡夫卡经纪人的数据--拓扑已经提交--我可以看到我的kafkaspout和我的两个螺栓，但是，我不知道为什么我的kafkaSpout不消耗来自kafka brokers的消息，但是当我可视化拓扑时：0%数据已经被消耗了！我的hdfsbolt也有一个错误： java.lang.RuntimeException: Error preparing HdfsBolt: Permission denied: user=storm, access=WRITE, inode="/inf

浏览 2提问于2016-05-05得票数 1

回答已采纳

1回答

apache storm单元测试实时拓扑中的螺栓

、

我有一个storm拓扑，它有一个连接到kafka队列的spout，并将元组转发到我的bolt进行处理。我只想对螺栓进行单元测试，而不是kafka -> spout -> bolt的整个代码段。但是，我还想在storm拓扑实例中测试螺栓，而不仅仅是它的纯功能。原因是螺栓实际上将处理后的数据发送到cassandra数据库。因此，我实现这一点的一种方法是制作一个测试管口，将其连接到螺栓，然后通过测试管口将测试元组发送到螺栓。然而，对于测试来说，这似乎是太多的工作。有没有更好的方法来做这件事？比如在测试中劫持原始端口来发送一些测试元组？

浏览 12提问于2018-02-10得票数 0

回答已采纳

1回答

您可以向Apache Storm拓扑中动态添加/删除KafkaSpouts吗

、、

我有一个Apache Storm Topology，可以接受来自多个Kafka主题的消息。目前“多”等同于“二”。因为我目前只有两个KafkaSpouts要听，所以我已经硬编码到我的Topology类中，并如下所示： builder.setSpout(SPOUT_ONE_ID, kafkaSpout_A, 1); builder.setSpout(SPOUT_TWO_ID, kafkaSpout_B, 1); builder.setBolt(BOLT_ID, myBolt, 1).shuffleGrouping(SPOUT_ONE_ID).shuffleGrouping(SPOUT_TWO

浏览 13提问于2016-08-11得票数 0

回答已采纳

1回答

当螺栓缓慢时，风暴KafkaSpout失败

、、

我在使用卡夫卡-风暴集成。Kafka将将数据加载到队列中，Kafka Spout将提取数据和进程。我有下面的设计。 Kafka -> Queue -> KafkaSpout -> Process1 Bolt -> Process2 Bolt 问题是，如果Process2 Bolt需要较长的时间来处理KafkaSpout正在失败的数据，并且再次尝试从队列中读取数据，这将导致重复记录。如果博尔特处理得很慢，为什么KafkaSpout把它当作失败呢？解决办法是什么？有什么时间或类似的财产，我必须在风暴中？

浏览 6提问于2015-05-14得票数 2

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Storm在java中从Kafka读取数据

相关·内容

Storm UI未显示正确的确认

减少max.spout.pending值会导致Storm UI中的Kafka Spout出现失败消息？

在拓扑统计中奇怪的“发射”数字行为/零统计数(风暴1.0.3)

通过MongoDB使用Storm bolt或Spark-streaming丰富数据

LocalCluster中的不同拓扑在apache-storm中可以有同名的流和螺栓吗？

实现多风暴拓扑

使apache storm拓扑使用kafka的最新偏移量

如何利用Twitter与风暴通量

Kafka Storm HDFS/S3数据流

集群中的拓扑是否可能写入本地文件系统上的txt文件？(在同一个系统上运行的集群)

如何首次部署集成apache kafka的storm-core拓扑？

风暴消息失败

如何在Storm上创建同步KafkaSpout

Kafka Spout多次阅读同一条消息

风暴中的DRPC服务器错误

Apache Spark中的类风暴结构

属性文件配置hortonworks上的风暴拓扑和kafka

apache storm单元测试实时拓扑中的螺栓

您可以向Apache Storm拓扑中动态添加/删除KafkaSpouts吗

当螺栓缓慢时，风暴KafkaSpout失败

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐