开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

使用storm时，如果一台服务器崩溃(例如关机)，在主机上处理完元组后，拓扑是否会再次处理该元组

使用Storm时，如果一台服务器崩溃（例如关机），在主机上处理完元组后，拓扑不会再次处理该元组。

Storm是一个分布式实时计算系统，它将任务分配给多台服务器上的工作进程来执行。当一个元组进入Storm拓扑时，它会被分发到一个或多个工作进程进行处理。每个工作进程都会在本地处理元组，并将处理结果传递给下一个组件。

当一台服务器崩溃时，Storm会自动检测到该服务器不可用，并将该服务器上正在处理的元组重新分配给其他可用的服务器。这个过程称为任务重分配。重分配后，其他服务器上的工作进程会接管原本由崩溃服务器处理的元组，并继续进行处理。

一旦元组在主机上被处理完毕，它将被标记为已处理，并且不会再次被拓扑处理。这是因为Storm使用可靠性机制来确保每个元组只被处理一次，从而保证数据处理的准确性和一致性。

总结起来，当一台服务器崩溃时，Storm会重新分配该服务器上正在处理的元组给其他可用的服务器，确保元组的处理不会丢失或重复处理。一旦元组在主机上被处理完毕，拓扑不会再次处理该元组。

腾讯云相关产品推荐：

云服务器（CVM）：提供高性能、可扩展的云服务器实例，适用于各种计算任务。链接：https://cloud.tencent.com/product/cvm
弹性MapReduce（EMR）：提供大数据处理和分析的云服务，支持Storm等实时计算框架。链接：https://cloud.tencent.com/product/emr
云数据库MySQL版（CDB）：提供稳定可靠的云数据库服务，适用于存储和管理拓扑处理过程中的数据。链接：https://cloud.tencent.com/product/cdb

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

像Apache Storm一样简单的分布式图计算

所以，如果想用一句话总结一下“Storm方式”的话，我会说： Apache Storm是一种分布式技术，旨在允许开发人员利用图形计算模型为问题同时提供“底层”（例如消息负载均衡）和“顶层“（例如准备使用...没问题 —主节点会将其工作分配给另一个工作节点。请注意，看起来主节点似乎是一个单点故障点。事实并不是这样。即使主节点发生故障或崩溃，拓扑仍将继续执行。...execute方法在每个元组传递时（由Storm基础结构）调用一次。在execute方法中将使用元组，在需要的情况下发出任何新的元组，最后，确认传入的元组。...在将拓扑提交给集群后，打包成一个jar文件，拓扑组件（即spouts和bolt）被部署到各个storm工作节点（由主节点决定），并在工作节点中实例化——封装在任务线程中，存在执行过程中。...定义拓扑时，可以声明每个喷嘴或螺栓所需的并行度。请注意，不希望任务没有控制的按需产生！太多的任务（即线程）会引入过度并行，并可能导致集群“慢下来”，最终让应用程序变得无法响应。

92110 0

像Apache Storm一样简单的分布式图计算

所以，如果想用一句话总结一下“Storm方式”的话，我会说： Apache Storm是一种分布式技术，旨在允许开发人员利用图形计算模型为问题同时提供“底层”（例如消息负载均衡）和“顶层“（例如准备使用...没问题 —主节点会将其工作分配给另一个工作节点。 ? 请注意，看起来主节点似乎是一个单点故障点。事实并不是这样。即使主节点发生故障或崩溃，拓扑仍将继续执行。...execute方法在每个元组传递时（由Storm基础结构）调用一次。在execute方法中将使用元组，在需要的情况下发出任何新的元组，最后，确认传入的元组。 ?...在将拓扑提交给集群后，打包成一个jar文件，拓扑组件（即spouts和bolt）被部署到各个storm工作节点（由主节点决定），并在工作节点中实例化——封装在任务线程中，存在执行过程中。 ?...定义拓扑时，可以声明每个喷嘴或螺栓所需的并行度。 ? 请注意，不希望任务没有控制的按需产生！太多的任务（即线程）会引入过度并行，并可能导致集群“慢下来”，最终让应用程序变得无法响应。

1.2K6 0

实时可靠的开源分布式实时计算系统——Storm

当Storm检测到一个从Spout吐出的元组在拓扑中成功处理完时调用Ack，没有成功处理完时调用Fail。只有可靠型的Spout会调用Ack和Fail函数。...通常处理一个输入的元组时，会基于这个元组吐出零个或者多个元组，然后确认（ack）输入的元组处理完了，Storm提供了IBasicBolt接口来自动完成确认。...每个拓扑对这些树形结构都有一个关联的“消息超时”。如果在这个超时时间里Storm检测到Spout产生的一个元组没有被成功处理完，那Spout的这个元组就处理失败了，后续会重新处理一遍。...标记是在emit函数里完成，完成一个元组后需要使用Ack函数来告诉Storm。 10) Workers 拓扑以一个或多个Worker进程的方式运行。...例如：对于并行度是300的topology来说，如果我们使用50个工作进程来执行，那么每个工作进程会处理其中的6个tasks，Storm会尽量均匀的工作分配给所有的worker。

2.1K6 0

storm 分布式实时计算系统介绍

当Storm检测到一个从Spout吐出的元组在拓扑中成功处理完时调用ack,没有成功处理完时调用fail。只有可靠型的Spout会调用ack和fail函数。...通常处理一个输入的元组时，会基于这个元组吐出零个或者多个元组，然后确认(ack)输入的元组处理完了，Storm提供了接口来自动完成确认。...如果在这个超时时间里Storm检测到Spout产生的一个元组没有被成功处理完，那Sput的这个元组就处理失败了，后续会重新处理一遍。...为了发挥Storm的可靠性，需要你在创建一个元组树中的一条边时告诉Storm，也需要在处理完每个元组之后告诉Storm。这些都是通过Bolt吐元组数据用的OutputCollector对象来完成的。...标记是在emit函数里完成，完成一个元组后需要使用ack函数来告诉Storm。这些都在一文中会有更详细的介绍。拓扑以一个或多个Worker进程的方式运行。

1.8K3 0

Storm极简教程

Spout中最主要的函数是nextTuple，Storm框架会不断调用它去做元组的轮询。如果没有新的元组过来，就直接返回，否则把新元组吐到拓扑里。...当Storm检测到一个从Spout吐出的元组在拓扑中成功处理完时调用ack,没有成功处理完时调用fail。只有可靠型的Spout会调用ack和fail函数。...通常处理一个输入的元组时，会基于这个元组吐出零个或者多个元组，然后确认(ack)输入的元组处理完了，Storm提供了IBasicBolt接口来自动完成确认。...如果在这个超时时间里Storm检测到Spout产生的一个元组没有被成功处理完，那Sput的这个元组就处理失败了，后续会重新处理一遍。...标记是在emit函数里完成，完成一个元组后需要使用ack函数来告诉Storm。 Workers(工作进程) 拓扑以一个或多个Worker进程的方式运行。

1.9K5 0

【云计算】流式大数据处理的三种框架：Storm，Spark和Samza

Apache Storm 在Storm中，先要设计一个用于实时计算的图状结构，我们称之为拓扑（topology）。...最多一次（At-most-once）：消息可能会丢失，这通常是最不理想的结果。 2. 最少一次（At-least-once）：消息可能会再次发送（没有丢失的情况，但是会产生冗余）。...如果你想要的是一个允许增量计算的高速事件处理系统，Storm会是最佳选择。它可以应对你在客户端等待结果的同时，进一步进行分布式计算的需求，使用开箱即用的分布式RPC（DRPC）就可以了。...最后但同样重要的原因：Storm使用Apache Thrift，你可以用任何编程语言来编写拓扑结构。...如果你有大量的状态需要处理，比如每个分区都有许多十亿位元组，那么可以选择Samza。由于Samza将存储与处理放在同一台机器上，在保持处理高效的同时，还不会额外载入内存。

1.2K6 0

流式大数据处理的三种框架：Storm，Spark和Samza

Apache Storm 在Storm中，先要设计一个用于实时计算的图状结构，我们称之为拓扑（topology）。...最少一次（At-least-once）：消息可能会再次发送（没有丢失的情况，但是会产生冗余）。在许多用例中已经足够。...如果你想要的是一个允许增量计算的高速事件处理系统，Storm会是最佳选择。它可以应对你在客户端等待结果的同时，进一步进行分布式计算的需求，使用开箱即用的分布式RPC（DRPC）就可以了。...最后但同样重要的原因：Storm使用Apache Thrift，你可以用任何编程语言来编写拓扑结构。...如果你有大量的状态需要处理，比如每个分区都有许多十亿位元组，那么可以选择Samza。由于Samza将存储与处理放在同一台机器上，在保持处理高效的同时，还不会额外载入内存。

8916 0

探寻流式计算

Topology：计算拓扑，Storm 的拓扑是对实时计算应用逻辑的封装，它的作用与 MapReduce 的任务（Job）很相似，区别在于 MapReduce 的一个 Job 在得到结果之后总会结束，而拓扑会一直在集群中运行...Spout：数据源（Spout）是拓扑中数据流的来源。一般 Spout 会从一个外部的数据源读取元组然后将他们发送到拓扑中。...一个可靠的 Spout能够在它发送的元组处理失败时重新发送该元组，以确保所有的元组都能得到正确的处理；相对应的，不可靠的 Spout 就不会在元组发送之后对元组进行任何其他的处理。...在 Storm 中有八种内置的数据流分组方式。 Reliability：可靠性。Storm 可以通过拓扑来确保每个发送的元组都能得到正确处理。...每个拓扑都有一个“消息延时”参数，如果 Storm 在延时时间内没有检测到元组是否处理完成，就会将该元组标记为处理失败，并会在稍后重新发送该元组。

3K3 0

流式大数据处理的三种框架：Storm，Spark和Samza

Apache Storm在Storm中，先要设计一个用于实时计算的图状结构，我们称之为拓扑（topology）。...数据传递形式分为三大类：最多一次（At-most-once）：消息可能会丢失，这通常是最不理想的结果。最少一次（At-least-once）：消息可能会再次发送（没有丢失的情况，但是会产生冗余）。...如果你想要的是一个允许增量计算的高速事件处理系统，Storm会是最佳选择。它可以应对你在客户端等待结果的同时，进一步进行分布式计算的需求，使用开箱即用的分布式RPC（DRPC）就可以了。...最后但同样重要的原因：Storm使用Apache Thrift，你可以用任何编程语言来编写拓扑结构。...如果你有大量的状态需要处理，比如每个分区都有许多十亿位元组，那么可以选择Samza。由于Samza将存储与处理放在同一台机器上，在保持处理高效的同时，还不会额外载入内存。

1K8 0

分布式计算技术之流计算Stream，打通实时数据处理

如果用户停止当前作业运行后再次提交作业，由于流计算不提供数据存储服务，因此之前已经计算完成的数据无法重新再次计算。二，加载流式数据进行流计算。...从上图中我们可以看出，在流计算系统中，有多个流处理节点，流处理节点会对数据进行预定义的处理操作，并在处理完后按照某种规则转发给后续节点继续处理。...因此，一个正在运行的拓扑任务，是由分布在许多计算机上的许多工作进程组成。 ?...如果所有数据和信息均存储在 Master Node 上，Master Node 故障后，会导致整个集群信息丢失，因此引入了 ZooKeeper 集群来加强可靠性。...通常情况下，Spout 会从一个外部的数据源读取数据元组，然后将它们发送到拓扑中。例如，Spout 从 Twitter API 读取推文并将其发布到拓扑中。

1.9K2 0

strom架构和构建Topology

例如，SplitSentence螺栓订阅组件“1”使用随机分组的输出流。 “1”是指已经定义KestrelSpout。我将解释在某一时刻的随机分组的一部分。 ...在这本书中，我们将广泛使用它。如果要检查是否已经安装了maven，在命令行运行mvn。如果没有安装你可以从http://maven.apache.org/download.html下载。...没有任务时它必须释放对线程的控制，其它方法才有机会得以执行。因此nextTuple的第一行就要检查是否已处理完成。如果完成了，为了降低处理器负载，会在返回前休眠一毫秒。...主类你可以在主类中创建拓扑和一个本地集群对象，以便于在本地测试和调试。LocalCluster可以通过Config对象，让你尝试不同的集群配置。...比如，当使用不同数量的工作进程测试你的拓扑时，如果不小心使用了某个全局变量或类变量，你就能够发现错误。

1.4K7 0

Storm BasicBolt vs RichBolt

IComponent 是所有组件的接口，例如 IBasicBolt、IRichBolt、IBatchBolt 都继承自 IComponent，为拓扑中所有组件提供共同的方法。...使用 TopologyBuilder 构建拓扑时，可以进一步覆盖该组件配置： Map getComponentConfiguration(); BaseComponent...在 Nimbus 上提交 Topology 后，创建出来的 IBolt 在序列化后被发送到具体执行的 Worker 上。...context 用来获取有关此任务在拓扑中的位置信息，包括此任务的任务ID和组件ID，输入和输出信息等。...collector 用来从 Bolt 向下游发送元组，元组可以在任何时间点发送，不必处理完立即发送。

7164 0

【Storm】Storm之how

忘了手动ack或fail，storm框架会等待反馈，达到超时阈值之后，就直接给fail。 2) 如果在编写storm程序时，在bolt环节忘了标识锚点，怎么办？忘了标识锚点，就是忘了标识血缘关系。...如果是spout或bolt的成员变量没有实现Serializable时，但又必须使用时，可以对该变量申明时，增加transient 修饰符，然后在open或prepare时，进行实例化。...(4) Bolt的生命周期：在客户机上创建的IBolt对象。...IBolt被序列化到拓扑中，并提交给集群的主节点（Nimbus），然后Nimbus启动worker进程，worker进程反序列化Bolt对象，然后调用其prepare方法。...TopologyContext (1) TopologyContext：在spouts或bolts的prepare()和open()方法中作为参数，可用于获取有关此任务在拓扑中的位置的信息，例如，此任务的任务

7012 1

事实数据分析——Storm框架(一）

Storm使用元组作为其数据模型，元组支持所有的基本类型、字符串和字节数组作为字段值，只要实现类型的序列化接口就可以使用该类型的对象。...如果Storm处理元组失败，可靠的Spout能够重新发射，而不可靠的Spout就尽快忘记发出的元组。Spout可以发出超过一个流。Spout的主要方法是nextTuple()。...NextTuple()会发出一个新的Tuple到拓扑，如果没有新的元组发出，则简单返回。Spout的其他方法是ack()和fail()。...当Storm检测到一个元组从Spout发出时，ack()和fail()会被调用，要么成功完成通过拓扑，要么未能完成。Ack()和fail()仅被可靠的Spout调用。...把实时应用程序的运行逻辑打成jar包后提交到Storm的拓扑（Topology）。Storm的拓扑类似于MapReduce的作业（Job）。

1K3 0

PG14新特性--恢复和VACUUM的加速

compactify_tuples函数在PG内部使用的地方： 1) 崩溃恢复时 2) 备机回放 3) VACUUM 因此，好消息是，改进compactify_tuples可以提高崩溃恢复性能；减少备机负载...如果以item数组的顺序移动元组，不进行排序，我们可以在稍后的页面中覆盖元组。例如，图2中，如果在移动tuple3前移动tuple2，那么我们将覆盖tuple3。...新的PG14代码通过预检查进一步优化，看元组是否已将在正确的反向item指针顺序中。如果元组顺序不正确，则不需要使用临时缓冲区。然后仅移动比第一个空白空间更早的元组。其他元组已经在正确位置。...现在我们再次将元组以item指针反向顺序放回元组，我们更加频繁地遇到这种预先排序的情况。平均而言，我们金辉移动页面上一半元组。新元组产生新的item指针也会维护这样的顺序。...加速恢复过程还意味着备机更有可能跟上主，并在产生日志后很快回放掉。这意味着可以帮助备不落后主。

1.1K4 0

Storm 理解内部消息缓冲机制

Storm工作进程中的内部消息当我说内部消息时，我的意思是在 Storm 工作进程内发生的消息，这只局限在同一个 Storm 节点内发生的通信。...也就是说，当一个工作进程中的 Task 想要将数据发送到 Storm 集群另一台机器的 Task 时，需要使用 ZeroMQ/Netty 进行传输。...如果你不了解 Storm 的工作进程，Executor 线程和 Task 之间的差异，可以参考理解 Storm 拓扑的并行度。在我们讨论下一节中的细节之前，让我们从下图开始。 ?...如果将此参数设置得太高可能会导致很多问题，比如心跳线程饥饿，吞吐量急剧下降等。此参数默认为8个元素，值必须为2的幂（此要求间接来自LMAX Disruptor）。...3.3 了解Storm拓扑内部在做什么 Storm UI 是检查正在运行的 Storm 拓扑的关键指标的一个很好的工具。例如，它向你展示了 Spout/Bolt 的所谓 capacity。

8152 0

大数据技术之_17_Storm学习_Storm 概述+Storm 基础知识+Storm 集群搭建+Storm 常用 API+Storm 分组策略和并发度

Storm 使用元组作为其数据模型，元组支持所有的基本类型、字符串和字节数组作为字段值，只要实现类型的序列化接口就可以使用该类型的对象。...把实时应用程序的运行逻辑打成 jar 包后提交到 Storm 的拓扑（Topology）。Storm 的拓扑类似于 MapReduce 的作业（Job）。...（4）deactivate () 当 Spout 已经失效时被调用。在 Spout 失效期间，nextTuple 不会被调用。Spout 将来可能会也可能不会被重新激活。...当没有元组可以发射时，可以让 nextTuple 去 sleep 很短的时间，例如1毫秒，这样就不会浪费太多的 CPU 资源。（6）ack() 成功处理 Tuple 回调方法。...在同一天内，UV 只记录第一次进入网站的具有独立 IP 的访问者，在同一天内再次访问该网站则不计数。

2.6K2 0

storm0.9.5集群安装

新浪微博：intsmaze刘洋洋哥启动storm 在storm/bin目录下先在nimbus主机上启动nimbus ..../storm ui 1>/dev/null 2>&1 & 在supervisor主机上 nohup ..../storm ui后，就可以访问图形界面了。访问nimbus.host:/8080，即可看到storm的ui界面。...当停用拓扑时，所有已分发的元组都会得到处理，但是spouts的nextTuple方法不会被调用。销毁一个拓扑，可以使用kill命令。.../servers/storm/logs/nimbus.log 5.2、查看ui运行日志信息在ui的服务器上，一般和nimbus一个服务器 cd /export/servers/storm/logs

3452 0

使用Storm实现实时大数据分析

各个任务执行器在执行负责的数据时，无需考虑对其他数据的影响，数据之间应尽可能是无联系、不会影响的。使用Hadoop，适合大批量的数据处理，这是他所擅长的。...Spout分成可靠和不可靠两种；当Storm接收失败时，可靠的Spout会对tuple（元组，数据项组成的列表）进行重发；而不可靠的Spout不会考虑接收成功与否只发射一次。...例如，根据“user-id”字段，相同“user-id”的元组总是分发到同一个任务，不同“user-id”的元组可能分发到不同的任务。 3）....当处理完成时，结果数据返回到 HDFS 供始发者使用。Storm 支持创建拓扑结构来转换没有终点的数据流。不同于 Hadoop 作业，这些转换从不停止，它们会持续处理到达的数据。...Storm的拓扑结构是一个等待调用信息的分布函数，当它收到一条调用信息后，会对查询进行计算，并返回查询结果。举个例子Distributed RPC可以做并行搜索或者处理大集合的数据。

6261 0

网络测量之NetSight(NSDI-2014)

(压缩->洗牌->解压)，对于某个数据包，其Postcard最终会被发送至同一个服务器进行处理，在该服务器处，关于此数据包的全部Postcard会被根据网络拓扑信息组装成为Packet History并作持久化存储...最终，同一个数据包流经各个交换机时产生的Postcard都在同一台处理服务器处，根据事先知道的网络拓扑信息，重新组装成为一个关于此数据包的Packet History，用于匹配用户查询。...，如果仅仅根据五元组哈希值进行转发，经过NAT交换机之前的(包括正在NAT交换机中的)数据包的五元组就是原始五元组，会被转发到某台服务器 $S_1$ 上，但是经过NAT交换机之后的数据包的五元组被修改了...之前，NetSight会利用拓扑信息而非时间戳来将属于各个数据包的Postcards排好序。...这些标记会覆盖原数据包的目的MAC地址字段，因此此数据包，实际就是Postcard无需像原数据包一样转发，只需发送到指定NetSight服务器处即可，因此目的MAC地址实际就没有作用了。

9483 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭