开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Storm的OutputCollector是如何工作的？

Storm的OutputCollector是Storm框架中的一个组件，用于收集和发送处理结果。

OutputCollector的工作原理如下：

在Storm拓扑中，每个Bolt组件都会创建一个OutputCollector对象。
当Bolt组件处理一个输入元组时，它可以使用OutputCollector将处理结果发送给下游的Bolt组件或者Spout组件。
OutputCollector提供了多个方法来发送处理结果，包括emit、emitDirect和ack等。
- emit方法用于将处理结果发送给下游的Bolt组件或者Spout组件，可以指定输出的字段和元组ID。
- emitDirect方法用于将处理结果直接发送给指定的下游Bolt组件或者Spout组件，可以指定输出的字段、元组ID和目标任务ID。
- ack方法用于确认处理结果已经成功发送给下游组件。

OutputCollector还提供了一些其他的方法，如fail、reportError和resetTimeout等，用于处理错误情况和超时问题。

OutputCollector的工作流程如下：

当Bolt组件处理完一个输入元组后，调用OutputCollector的emit方法将处理结果发送给下游组件。
OutputCollector将处理结果封装成一个元组，并将其发送给下游组件的输入队列。
下游组件从输入队列中获取处理结果，并进行相应的处理。
如果处理结果成功处理完毕，下游组件会调用OutputCollector的ack方法通知上游组件。
如果处理结果处理失败，下游组件可以调用OutputCollector的fail方法通知上游组件，并进行错误处理。

OutputCollector的工作方式可以保证处理结果的可靠传递和正确性，同时提供了灵活的发送方式和错误处理机制。

对于Storm的OutputCollector，腾讯云提供了相应的产品和服务，如腾讯云的分布式消息队列CMQ（https://cloud.tencent.com/product/cmq）和流计算引擎Storm（https://cloud.tencent.com/product/storm），可以帮助用户构建可靠的实时数据处理系统。

相关搜索:$facet是如何工作的？$scope.$on是如何工作的，$destroy是如何调用的？askForPermission是如何工作的？CDN是如何工作的？clipsToBounds是如何工作的？distinctUntilKeyChanged()是如何工作的？jdbcTemplate的setMaxRows是如何工作的 ngTemplateOutlet是如何工作的？NSFetchedResultsControllerDelegate是如何工作的？PARTITIONED BY是如何工作的？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Storm流处理项目案例

======================程序需要一步一步的调试=====================

03

Apache Storm入门

Apache Storm是一个开源的分布式实时计算系统，可以用于处理大规模的实时数据流。它可以在容错的、弹性的集群中进行分布式实时计算，并提供了丰富的库和工具来处理和分析数据流。本文将介绍如何入门使用Apache Storm。

01

strom架构和构建Topology

1.Hadoop的MapReduce与Storm的topology有什么不一样的地方？ 2.Nimbus与hadoop的jobtracer作用是否类似？ 3.Nimbus和Supervisor之间的所有协调工作有谁来完成？ 4.一个topology由哪两部分组成？ 5.Storm HA模式如果机器意外停止，是如何处理任务的？ 6.storm如何运行一个topology 7.Spout类里面最重要的方法是nextTuple，它的作用是什么？ 8.Storm里面有几种种类型的stream gro

07

Storm BasicBolt vs RichBolt

IComponent 是所有组件的接口，例如 IBasicBolt、IRichBolt、IBatchBolt 都继承自 IComponent，为拓扑中所有组件提供共同的方法。BaseComponent 是 Storm 提供的一个比较方便的抽象类，这个抽象类及其子类都或多或少实现了其接口定义的部分方法。IBolt 接口是 IRichBolt 要继承的接口。还有一些以 Base 开头的 Bolt 类，如 BaseBasicBolt，BaseRichBolt 等，在这些类中所实现的方法都为空，或者返回值为 NULL。从下图中，可以从整体上看到这些类的关系图，从而理清这些类之间的关系及结构。

04

【Storm篇】--Storm分组策略

Storm由数源泉spout到bolt时，可以选择分组策略，实现对spout发出的数据的分发。对多个并行度的时候有用。

02

storm从入门到放弃(三)，放弃使用 StreamId 特性

序:StreamId是storm中实现DAG有向无环图的重要一个特性,但是从实际生产环境来看，这个功能其实蛮影响生产环境的稳定性的，我们系统在迭代时会带来整体服务的不可用。

02

Storm Bolt接口

Bolt是Topology中数据处理的基本单元，也是Storm针对处理过程的编程单元。Topology中所有的处理都是在这些bolt中完成的。 Bolt可以将数据项发送至多个数据流（Stream)。编程人员首先可以使用OutputFieldsDeclarer类的declareStream()方法声明多个流，指定数据将要发送到的流，然后使用SpoutOutputCollector的emit方法将数据发送（原生spout)。

03

storm 原理简介及单机版安装指南

本文翻译自： https://github.com/nathanmarz/storm/wiki/Tutorial Storm是一个分布式的、高容错的实时计算系统。 Storm对于实时计算的的意义相当于Hadoop对于批处理的意义。Hadoop为我们提供了Map和Reduce原语，使我们对数据进行批处理变的非常的简单和优美。同样，Storm也对数据的实时计算提供了简单Spout和Bolt原语。 Storm适用的场景： 1、流数据处理：Storm可以用来用来处理源源不断的消息，并将处理之后的结果保存到持久

大数据技术之_17_Storm学习_Storm 概述+Storm 基础知识+Storm 集群搭建+Storm 常用 API+Storm 分组策略和并发度

离线计算：批量获取数据、批量传输数据、周期性批量计算数据、数据展示。代表技术：Sqoop 批量导入数据、HDFS 批量存储数据、MapReduce 批量计算数据、Hive 批量计算数据。

02

storm 分布式实时计算系统介绍

在Storm之前，进行实时处理是非常痛苦的事情: 需要维护一堆消息队列和消费者，他们构成了非常复杂的图结构。消费者进程从队列里取消息，处理完成后，去更新数据库，或者给其他队列发新消息。

03

实时可靠的开源分布式实时计算系统——Storm

在Hadoop生态圈中，针对大数据进行批量计算时，通常需要一个或者多个MapReduce作业来完成，但这种批量计算方式是满足不了对实时性要求高的场景。 Storm是一个开源分布式实时计算系统，它可以实时可靠地处理流数据。 Storm特点在Storm出现之前，进行实时处理是非常痛苦的事情，我们主要的时间都花在关注往哪里发消息，从哪里接收消息，消息如何序列化，真正的业务逻辑只占了源代码的一小部分。一个应用程序的逻辑运行在很多worker上，但这些worker需要各自单独部署，还需要部署消息队列。最大问题是

06

一脸懵逼学习Storm---（一个开源的分布式实时计算系统）

Storm的官方网址：http://storm.apache.org/index.html 1：什么是Storm？　Storm是一个开源的分布式实时计算系统，可以简单、可靠的处理大量的数据流。被称作

08

Twitter Storm如何保证消息不丢失

storm保证从spout发出的每个tuple都会被完全处理。这篇文章介绍storm是怎么做到这个保证的，以及我们使用者怎么做才能充分利用storm的可靠性特点。

01

storm1.0节点间消息传递过久分析及调优

序:最近对storm平台系统进行性能检测发现偶尔会出现oncebolt向另一个twobolt发送数据后，twobolt要500毫秒后才接收到进行处理。这里简单说增大twobolt的并行度即可解决，但是究其内部原因是因为storm的通信机制所导致的问题。　　先介绍背景:一个拓扑的结构，spout(并行度:1)[处理性能:capacity 0.04],oncebolt(并行度:20)[处理性能:capacity 0.2],twobolt(并行度:100)[处理性能:capacity 0.6];整个拓扑就我预估最大的处理量就是一秒一千条。

02

Storm的wordCounter计数器详解

原文：http://www.maoxiangyi.cn/index.php/archives/362 拓扑

01

Storm入门（一）：编程模型

本文是 storm 入门第一篇，因为 Storm 的本地模式体验极其简单，故而我希望第一篇我们先来体验一下 Storm，而不是其他分布式技术那样，开门就是架构，简介....

01

Storm极简教程

八卦 Storm的作者是Nathan Marz，Nathan Marz在BackType公司工作的时候有了Storm的点子并独自一人实现了Storm。在2011年Twitter准备收购BackType之际，Nathan Marz为了提高Twitter对BackType的估值，在一篇博客里向外界介绍了Storm。Twitter对这项技术非常感兴趣，因此在Twitter收购BackType的时候Storm发挥了重大作用。后来Nathan Marz开源Storm时，也借着Twitter的品牌影响力而让Storm

05

Storm介绍及原理

Storm介绍及原理一、概述 Storm是一个开源的分布式实时计算系统，可以简单、可靠的处理大量的数据流。 Storm有很多使用场景：如实时分析，在线机器学习，持续计算，分布式RPC，ETL等等。 Storm支持水平扩展，具有高容错性，保证每个消息都会得到处理，而且处理速度很快(在一个小集群中，每个结点每秒可以处理数以百万计的消息)。 Storm的部署和运维都很便捷，而且更为重要的是可以使用任意编程语言来开发应用。二、组件 1、结构 storm结构称为topolo

08

Storm(三)Java编写第一个本地模式demo

本地模式在本地模式下，Storm拓扑结构运行在本地计算机的单一JVM进程上。这个模式用于开发、测试以及调试，因为这是观察所有组件如何协同工作的最简单方法。在这种模式下，我们可以调整参数，观察我们的拓扑结构如何在不同的Storm配置环境下运行。要在本地模式下运行，我们要下载Storm开发依赖，以便用来开发并测试我们的拓扑结构。我们创建了第一个Storm工程以后，很快就会明白如何使用本地模式了。 NOTE: 在本地模式下，跟在集群环境运行很像。不过很有必要确认一下所有组件都是线程安全的，因为当把它们部署到远程模式时它们可能会运行在不同的JVM进程甚至不同的物理机上，这个时候它们之间没有直接的通讯或共享内存。

02

Storm消息处理可靠性保证

Storm可以保证每一个从spout发出的消息能被完全处理。本章描述storm是如何完成这个保证以及用户如何从storm的可靠性能力获益的。消息“完全处理”的含义一个tuple从spout发出后可能会触发成千上万的tuple基于它而创建。以work count的topology为例考虑下： TopologyBuilder builder = new TopologyBuilder(); builder.setSpout("sentences", new KestrelSpout("kestrel.bac

07

初始Storm-WorkCount案例及基本接口

使用Storm开发的好处是Storm有一个本地模式，本地模式会在JVM实例中模拟一个Storm集群。大大简化了用户在开发环境或者IDE中进行开发和调试

03

Storm作业转化为Flink作业流程分析

一、 Storm的topology作业可以转化为Flink Job放到Flink上运行，需要修改Storm作业的代码。以wordcount为例，代码修改成可以在Flink上运行的作业后，如下：

02

Storm组件介绍

（1）Topologies 拓扑解释：拓扑类似一个集装箱，所有的货物都会存储在集装箱里面最后被托运走，storm里面所有的代码和文件最终会被打包在一个拓扑中，然后提交在storm集群中运行，类似于Hadoop中的一个MapReduce的作业，最大的区别在于MapReduce最终会主动停止，Storm的Topologies不会主动停止，除非你强制kill掉它相关拓展： TopologyBuilder ： Java里面构造Topology工具类生产模式 Config conf = new Con

05

Storm的数据处理编程单元:Bolt 学习整理

Bolt是Topology中的数据处理的单元，也是Storm针对处理过程的编程单元。Topology中所有的处理都是在这些Bolt中完成的，编程人员可以实现自定义的处理过程，例如，过滤、函数、聚集、连接等计算。如果是复杂的计算过程，往往需要多个步骤和使用多个Bolt。

03

storm 1.0版本滑动窗口的实现及原理

滑动窗口在监控和统计应用的场景比较广泛，比如每隔一段时间(10s)统计最近30s的请求量或者异常次数，根据请求或者异常次数采取相应措施。在storm1.0版本之前，没有提供关于滑动窗口的实现，需要开发者自己实现滑动窗口的功能（storm1.0以前实现滑动窗口的实现原理可以自行百度）。

03

初识Storm

Storm的一些基本概念 Topology:数据流串连起来多个计算单元的执行图 Tuple:数据传输的形式 Stream:两个计算单元（节点）之间的Tuples无界序列 Spout:从数据源获取数据，不处理数据 Bolt:对数据进行转换或者计算 Parallism hit:设置创建Spout或者Bolt实例的线程数 Exetutors:JVM的一个线程，他能在运行时做改变,以应对数据增长，比如增长到与tasks数量一致 Tasks:在一个executor里面的Spouts或者Bolts实例，运行时不好改变

03

Storm的BaseBasicBolt源码解析ack机制

我们在学习ack机制的时候，我们知道Storm的Bolt有BaseBasicBolt和BaseRichBolt。在BaseBasicBolt中，BasicOutputCollector在emit数据的时候，会自动和输入的tuple相关联，而在execute方法结束的时候那个输入tuple会被自动ack。在使用BaseRichBolt需要在emit数据的时候，显示指定该数据的源tuple要加上第二个参数anchor tuple，以保持tracker链路，即collector.emit(oldTuple, newTuple);并且需要在execute执行成功后调用OutputCollector.ack(tuple), 当失败处理时，执行OutputCollector.fail(tuple); 那么我们来看看BasicBolt的源码是不是这样的，不能因为看到别人的帖子说是这样的，我们就这样任务，以讹传讹，我们要To see is to believe。

01

聊聊storm的stream的分流与合并

序本文主要研究一下storm的stream的分流与合并 improved-reliable-streaming-processing-apache-storm-as-example-23-638.jpg 实例 @Test public void testStreamSplitJoin() throws InvalidTopologyException, AuthorizationException, AlreadyAliveException { TopologyBui

02

storm消息机制

这章讨论Storm's reliability capabilities, 如何保证从spout emit出来的所有tuple都被正确的执行(fully processed)? What does

03

聊聊storm的WindowedBolt

storm-2.0.0/storm-client/src/jvm/org/apache/storm/topology/IWindowedBolt.java

04

聊聊storm的direct grouping

direct grouping是一种特殊的grouping，它是由上游的producer直接指定下游哪个task去接收它发射出来的tuple。direct grouping的使用有如下几个步骤：

04

聊聊storm的WindowedBolt

storm-2.0.0/storm-client/src/jvm/org/apache/storm/topology/IWindowedBolt.java

02

storm togolopy转换jstorm topology

本文参照https://my.oschina.net/shyloveliyi/blog/785812中代码，进行转换。

02

聊聊storm的WindowedBoltExecutor

storm-2.0.0/storm-client/src/jvm/org/apache/storm/topology/WindowedBoltExecutor.java

02

Storm的ack机制在项目应用中的坑

正在学习storm的大兄弟们，我又来传道授业解惑了，是不是觉得自己会用ack了。好吧，那就让我开始啪啪打你们脸吧。

01

Storm 的可靠性保证测试

Storm是一个分布式的实时计算框架，可以很方便地对流式数据进行实时处理和分析，能运用在实时分析、在线数据挖掘、持续计算以及分布式 RPC 等场景下。Storm 的实时性可以使得数据从收集到处理展示在秒级别内完成，从而为业务方决策提供实时的数据支持。在美团点评公司内部，实时计算主要应用场景包括实时日志解析、用户行为分析、实时消息推送、消费趋势展示、实时新客判断、实时活跃用户数统计等。这些数据提供给各事业群，并作为他们实时决策的有力依据，弥补了离线计算“T+1”的不足。在实时计算中，用户不仅仅关心时效性的

07

Storm——分布式实时流式计算框架

随机分组，随机派发stream里面的tuple，保证每个bolt task接收到的tuple数目大致相同。轮询，平均分配

02

聊聊storm的direct grouping

direct grouping是一种特殊的grouping，它是由上游的producer直接指定下游哪个task去接收它发射出来的tuple。direct grouping的使用有如下几个步骤：

01

本地eclipse下开发storm的Topology

这个Topology的功能是从mysql数据库读取数据，然后将数据写入到本地文件里

03

聊聊flink的BoltWrapper

flink-storm_2.11-1.6.2-sources.jar!/org/apache/flink/storm/wrappers/BoltWrapper.java

02

聊聊flink的BoltWrapper

flink-storm_2.11-1.6.2-sources.jar!/org/apache/flink/storm/wrappers/BoltWrapper.java

04

【Storm】Storm之how

通过ack机制，spout发送出去的每一条消息，都可以确定是被成功处理或失败处理，从而可以让开发者采取动作。

02

技巧：遵循Clean Architecture写好白盒测试

Clean Architecture是Bob大叔在2012年提出的一个架构模型。其根据过去几十年中的一系列架构提炼而成：

01

storm从入门到放弃(一)，storm介绍

Storm是一个开源的分布式实时计算系统，可以简单、可靠的处理大量的数据流。Storm支持水平扩展，具有高容错性，保证每个消息都会得到处理。

01

storm从入门到放弃(一)，storm介绍

背景:目前就职于国内最大的IT咨询公司，恰巧又是毕业季，所在部门招了20多个应届毕业生，本人要跟部门新人进行为期一个月的大数据入职培训，特此将整理的文档分享出来。

02

Storm UI详解

Storm ui 展示字段说明 Storm ui 首页主要分为4块: Cluster Summary，Topology summary，Supervisor summary，Nimbus Conf

08

聊聊storm的LinearDRPCTopologyBuilder

storm-2.0.0/storm-client/src/jvm/org/apache/storm/drpc/LinearDRPCTopologyBuilder.java

03

聊聊storm的LinearDRPCTopologyBuilder

storm-2.0.0/storm-client/src/jvm/org/apache/storm/drpc/LinearDRPCTopologyBuilder.java

02

聊聊storm的ack机制

storm-2.0.0/storm-client/src/jvm/org/apache/storm/executor/spout/SpoutOutputCollectorImpl.java

03

使用Storm实现实时大数据分析

摘要：随着数据体积的越来越大，实时处理成为了许多机构需要面对的首要挑战。Shruthi Kumar和Siddharth Patankar在Dr.Dobb’s上结合了汽车超速监视，为我们演示了使用Storm进行实时大数据分析。CSDN在此编译、整理。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭