是否可以在apache storm中动态地在运行时添加任务，而不仅仅是重新平衡执行器 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

翻译理解Storm拓扑的并行性

原英文官方文档是什么使一个拓扑运行的 Storm区分了用于在Storm集群中实际运行拓扑的以下三个主要实体：工作进程（Worker processes）执行器（Executors）任务（Tasks...一个组件的任务数量在一个拓扑的生命周期中总是相同的，但是一个组件的执行器（线程）可能会随时间而变化。这就意味着下面这个情况总是成立的：#threads ≤ #tasks。...#setBolt() 注意Storm 0.8版本，parallelism_hint参数现在指定该bolt的执行器的初始数量（而不是任务！）。...Storm将对每个执行器（线程）运行两个任务。如果没有显式配置任务数，Storm将默认为每个executor运行一个task。一个运行拓扑的实例下图展示了一个简单的拓扑在运行中是什么样的。...如何更改运行拓扑的并行性 Storm一个很好的特性就是，你可以增加或减少worker进程或executors的数量，而无需重新启动集群或拓扑。这个行为被称为rebalancing（重新平衡）。

1K9 0

Heron：来自Twitter的新一代流处理引擎应用篇

在这一期的“应用篇”中，我们将Heron与其他流行的实时流处理系统（Apache Storm[4][5]、Apache Flink[6]、Apache Spark Streaming[7]和Apache...应用程序架构的区别 Storm的worker在每个JVM进程中运行多个线程，每个线程中执行多个任务。这些任务的log混在一起，很难调试不同任务的性能。...应用程序架构的区别在运行方面，Flink可以有多种配置，一般情况采用的是多任务多线程在同一个JVM中的混杂模式，不利于调试。Heron采用的是单任务单JVM的模式，利于调试与资源分配。...应用程序架构的区别任务分配方面，Spark Streaming对每个任务使用单个线程。一个JVM进程中可能有多个任务的线程在同时运行。...运行如下命令来检测heron命令是否安装成功： heron version 运行示例topology 首先添加localhost到/etc/hosts，Heron在单机模式时会用/etc/hosts来解析本地域名

1.5K8 0

您找到你想要的搜索结果了吗？

是的

没有找到

大数据处理分析的六大工具

Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。高效性。...Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。...Storm Storm是自由的开源软件，一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流，用于处理Hadoop的批量数据。...RapidMiner RapidMiner是世界领先的数据挖掘解决方案，在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛，包括各种数据艺术，能简化数据挖掘过程的设计和评价。...工作流引擎使用流程定义来定义在BI 平台上执行的商业智能流程。流程可以很容易的被定制，也可以添加新的流程。BI 平台包含组件和报表，用以分析这些流程的性能。

3K15 0

【工具】六大工具帮你做好大数据分析

大数据分析是在研究大量的数据的过程中寻找模式，相关性和其他有用的信息，可以帮助企业更好地适应变化，并做出更明智的决策。 Hadoop Hadoop 是一个能够对大量数据进行分布式处理的软件框架。...Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。高效性。...Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。...Storm Storm是自由的开源软件，一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流，用于处理Hadoop的批量数据。...工作流引擎使用流程定义来定义在BI 平台上执行的商业智能流程。流程可以很容易的被定制，也可以添加新的流程。BI 平台包含组件和报表，用以分析这些流程的性能。

9857 0

Apache大数据项目目录

6 Apache Arrow 为列式内存分析提供支持。它是一种新格式，可以在BigData生态系统中以统一的方式使用。...这包括在社区开发的各个级别（包装，平台，运行时，升级等）进行测试，重点是整个系统，而不是单个项目。简而言之，我们努力为Hadoop提供Debian对Linux的支持。...数据格式，执行算法，规划规则，运算符类型，元数据和成本模型在运行时作为插件添加。 11 Apache Chukwa Chukwa是一个用于监控大型分布式系统的开源数据收集系统。...Helix在面对节点故障和恢复，集群扩展和重新配置时自动重新分配资源。...相反，它强调元数据的抽象和在运行时添加数据源的能力，使MetaModel非常适用于通用数据处理应用程序，对于围绕特定域建模的应用程序则更少。

1.7K2 0

6个用于大数据分析的最好工具

在大数据和大数据分析，他们对企业的影响有一个兴趣高涨。大数据分析是研究大量的数据的过程中寻找模式，相关性和其他有用的信息，可以帮助企业更好地适应变化，并做出更明智的决策。...Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。 ⒊高效性。...Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。 ⒋高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。...三 Storm输入标题 ? Storm是自由的开源软件，一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流，用于处理Hadoop的批量数据。...工作流引擎使用流程定义来定义在BI 平台上执行的商业智能流程。流程可以很容易的被定制，也可以添加新的流程。BI 平台包含组件和报表，用以分析这些流程的性能。

7062 0

【性能分析】大数据分析工具

在大数据和大数据分析，他们对企业的影响有一个兴趣高涨。大数据分析是研究大量的数据的过程中寻找模式，相关性和其他有用的信息，可以帮助企业更好地适应变化，并做出更明智的决策。...Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。 ⒊高效性。...Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。 ⒋高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。...三、Storm Storm是自由的开源软件，一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流，用于处理Hadoop的批量数据。...工作流引擎使用流程定义来定义在BI 平台上执行的商业智能流程。流程可以很容易的被定制，也可以添加新的流程。BI 平台包含组件和报表，用以分析这些流程的性能。

1.2K5 0

6个用于大数据分析的最好工具

在大数据和大数据分析，他们对企业的影响有一个兴趣高涨。大数据分析是研究大量的数据的过程中寻找模式，相关性和其他有用的信息，可以帮助企业更好地适应变化，并做出更明智的决策。 ? ?...Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。 ⒊高效性。...Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。 ⒋高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。...三、Storm Storm是自由的开源软件，一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流，用于处理Hadoop的批量数据。...工作流引擎使用流程定义来定义在BI 平台上执行的商业智能流程。流程可以很容易的被定制，也可以添加新的流程。BI 平台包含组件和报表，用以分析这些流程的性能。

1.1K2 0

整合Kafka到Spark Streaming——代码示例和挑战

、Spark布道者陈超我们了解到，在Spark 1.2版本中，Spark Streaming开始支持fully HA模式（选择使用），通过添加一层WAL（Write Ahead Log），每次收到数据后都会存在...Apache Storm Spark Streaming与Apache Storm有一些相似之处，后者是当下最流行的大数据处理平台。...在Kafka中，再平衡是个生命周期事件（lifecycle event），在消费者加入或者离开消费者群时都会触发再平衡事件。...在运行时，你逐渐将线程从1个提升到14个。也就是说，在同一个消费者群中，parallelism突然发生了变化。毫无疑问，这将造成Kafka中的再平衡。...在Storm中，这可以通过TopologyBuilder#setSpout()设置Kafka spout的parallelism为N来实现。

1.5K8 0

Spark设计理念和基本架构

这种紧耦合的设计会导致以下问题： 1）可扩展性差：在运行时，JobTracker既负责资源管理，又负责任务调度，当集群繁忙时，JobTracker很容易成为瓶颈，最终导致它的可扩展性问题。...因为在以YARN为核心的MRv2中，MapReduce框架是可插拔的，完全可以替换为其他MapReduce实现，比如Spark、Storm等。MRv2的示意图如下所示： ?...3）避免重新计算：当Stage中某个分区的Task执行失败后，会重新对此Stage调度，但在重新调度的时候会过滤已经执行成功的分区任务，所以不会造成重复计算和资源浪费。...如果应用启用了检查点，那么在Stage中的Task都执行成功后，SparkContext将把RDD计算的结果保存到检查点，这样当某个RDD执行失败后，再由父RDD重建时就不需要重新计算，而直接从检查点恢复数据...Spark Streaming： Spark Streaming与Apache Storm类似，也用于流式计算。

1.1K6 0

大数据处理的开源框架：概述

HDFS（https://hadoop.apache.org/）：这是Hadoop生态系统中的可扩展的、具有容错性的分布式文件系统。将商用服务器添加到集群中即可扩展HDFS。...Hadoop提供了批量处理数据的框架，而Storm在流式事件数据实现了同样的功能。...主服务器管理集群节点上的从属进程以及在节点上运行任务的框架。运行在Mesos上的框架有两个组件：在主服务器上注册的框架调度器，以及在Mesos从服务器上启动的框架执行器。...在Mesos中，从服务器向主服务器报告所提供的可用资源。Mesos 主服务器查找分配策略并根据策略向框架提供资源。该框架根据其目标和需要运行的任务可以完全接受，部分或甚至拒绝分配。...如果有的话，它会发回一个接受的响应和要运行的任务。Mesos主服务器将这些任务转发给相应的从服务器，这些从服务器将所提供的资源分配给执行者，然后执行器启动任务。

2.1K8 0

大数据计算：Storm vs Flink

大数据技术中常见的大数据实时计算引擎有Spark、Storm、Flink等，目前有很多公司已经将计算任务从旧系统 Storm 迁移到 Flink。...，而 Storm 能保证每条消息都会被处理容错：如果在执行计算期间出现故障，Storm 将根据需要重新分配任务。...Storm 确保计算可以永久运行(或直到你终止计算) 编程语言无关： Storm 拓扑和处理组件可以用任何语言定义，几乎任何人都可以访问 Storm 缺点：无状态，需用户自行进行状态管理没有高级功能...，如事件时间处理、聚合、窗口、会话、水印等详见： https://github.com/apache/storm http://storm.apache.org/index.html Flink Flink...主要特征：流批：流媒体优先运行时，支持批处理和数据流程序优雅： Java 和 Scala 中优雅流畅的 API 高吞吐和低延迟：运行时同时支持非常高的吞吐量和低事件延迟容忍数据的延时、迟到和乱序

1.6K2 0

像Apache Storm一样简单的分布式图计算

每个工作进程将实例化执行任务实例的执行器线程。这些任务可以是喷嘴或螺栓。...Storm会将任何未确认的元组视为一个未处理的数据结构，以便重新处理。 execute方法在每个元组传递时（由Storm基础结构）调用一次。...在这个例子中，提交给一个专门为调试而开发的本地集群：一旦拓扑经过测试和调试，就可以安全地将其部署到 “真实”的Storm集群。这可以通过几种方式来完成。...流是 Storm中的一种并行的程度。所有的流元组都将流经相关的螺栓（如拓扑所描述的那样），而不知道拓扑中的其它流。螺栓（bolt）的实例这是一个好的开始，是不是？不同的流可以分别单独处理。...我们介绍了Apache Storm这样一种技术。 storm在逻辑层、拓扑层和物理层——物理集群本身进行了回顾。理解了拓扑如何在整个集群中传播，并在物理层的最终抽象层（任务）中执行。

95010 0

6个用于大数据分析的最好工具

在大数据和大数据分析，他们对企业的影响有一个兴趣高涨。大数据分析是研究大量的数据的过程中寻找模式，相关性和其他有用的信息，可以帮助企业更好地适应变化，并做出更明智的决策。...Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。 ⒊高效性。...Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。 ⒋高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。...三 Storm输入标题 ? Storm是自由的开源软件，一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流，用于处理Hadoop的批量数据。...工作流引擎使用流程定义来定义在BI 平台上执行的商业智能流程。流程可以很容易的被定制，也可以添加新的流程。BI 平台包含组件和报表，用以分析这些流程的性能。

1.1K5 0

【翻译】从头实现Rust异步执行器

我们称这种分配的future为一项任务。任务的剖析任务(task)包括future和它的状态。我们需要跟踪状态，以了解任务是否计划运行、是否当前正在运行、是否已经完成等等。...Waker生命周期会超过他关联的Future,并且我们也不想在队列中包含已经完成的任务. 如果一个任务在运行之前,连续被唤醒两次会怎么样? 我们不希望在队列中同一个任务出现两次....如果我们仔细想想，我们会想出两个简单的规则，优雅地解决所有这些问题: 如果还没有被唤醒并且当前没有正在运行，唤醒函数会安排此任务如果一个任务正在运行时被唤醒,由当前执行器线程(当前正在运行这个future...关于任务，有两条信息可以帮助我们实现唤醒: 任务是否已经被唤醒任务是否正在运行这两个值都是 true / false 值，我们可以在 state 字段中用两个位表示它们: const WOKEN...future之后，我们取消RUNNING位的设置，并检查先前的状态是否已经设置了WOKEN 和 RUNNING 位(即任务在运行时被唤醒)。

8981 0

「容器云平台」Mesos 和 Kubernetes的比较

让我们来了解一下体系结构的组成部分：框架：这些是需要分布式执行任务或工作负载的实际应用程序。典型的例子是Hadoop或Storm。...从主节点接收任务时，它们将所需的资源分配给框架的执行器。 Mesos Master：它负责调度从框架接收到的任务到其中一个可用的代理节点。Master向框架提供资源。...5.4 服务发现和负载平衡 Mesos DNS可以为应用程序提供服务发现和基本的负载平衡。Mesos DNS为每个Mesos任务生成SRV记录，并将其转换为运行该任务的机器的IP地址和端口。...对于Marathon应用程序，我们还可以使用Marathon-lb使用HAProxy提供基于端口的发现。在Kubernetes部署可以动态地创建和销毁pod。...Kubernetes中的部署支持升级和回滚。我们可以提供部署策略，同时将旧的pod与新的pod重新连接。典型的策略是重新创建或滚动更新。

3.6K2 0

像Apache Storm一样简单的分布式图计算

每个工作进程将实例化执行任务实例的执行器线程。这些任务可以是喷嘴或螺栓。 ?...Storm会将任何未确认的元组视为一个未处理的数据结构，以便重新处理。 execute方法在每个元组传递时（由Storm基础结构）调用一次。...在这个例子中，提交给一个专门为调试而开发的本地集群： ? 一旦拓扑经过测试和调试，就可以安全地将其部署到 “真实”的Storm集群。这可以通过几种方式来完成。...流是 Storm中的一种并行的程度。所有的流元组都将流经相关的螺栓（如拓扑所描述的那样），而不知道拓扑中的其它流。螺栓（bolt）的实例这是一个好的开始，是不是？不同的流可以分别单独处理。...我们介绍了Apache Storm这样一种技术。 storm在逻辑层、拓扑层和物理层——物理集群本身进行了回顾。理解了拓扑如何在整个集群中传播，并在物理层的最终抽象层（任务）中执行。

1.3K6 0

Meson：Netflix即将开源的机器学习工作流编排工具

图中的构建地区模型和验证地区模型步骤对于每个地区（国家）重复执行，在运行时扩展，使用不同的参数集执行，如下所示。验证——当两条路径收敛时，使用Scala代码对模型的稳定性进行测试。...我们依靠Apache Mesos这样的资源管理系统来满足这些需求。Mesos提供了任务隔离，以及CPU、内存、存储和其他计算资源的优秀抽象。Meson利用这些功能来实现任务的弹性和容错性。 ?...编写自定义的执行器可以让我们保持与Meson的通信通道。这在长时间运行任务中尤其有效，框架的消息可以被发送给Meson调度器。这也可以让我们传递自定义数据，而不仅仅是退出代码或状态信息。...一旦Mesos调度了一个Meson任务，它会下载所有的任务依赖，然后在子节点上启动一个Meson执行器。当核心任务正在执行时，执行器会做一些例行工作，比如发送心跳、完成百分比、状态信息等。...我们同样可以在Meson UI中绘制自定义的artifacts可视化图像。

1.9K3 0

事实数据分析——Storm框架(一）

流（Stream）流是Storm的核心抽象，是一个无界的元组系列。源源不断传递的元组就组成了流，在分布式环境中并行地进行创建和处理。...如果Storm处理元组失败，可靠的Spout能够重新发射，而不可靠的Spout就尽快忘记发出的元组。Spout可以发出超过一个流。Spout的主要方法是nextTuple()。...拓扑（Topology）拓扑（Topology）是Storm中运行的一个实时应用程序，因为各个组件间的消息流动而形成逻辑上的拓扑结构。...其主要的区别是，MapReduce的作业最终会完成，而一个拓扑永远都在运行直到它被杀死。一个拓扑是一个图的Spout和Bolt的连接流分组。 Storm核心组件(类似于yarn) ?...执行器（Executor）一个线程就是一个executor，一个线程会处理一个或多个任务。任务（Task）一个任务就是一个task。实时流计算常见架构图 ? 1）Flume获取数据。

1.1K3 0

Storm极简教程

Storm的特点之一是可靠的消息处理机制，这个机制中最重要的一环是设计一个算法来跟踪Storm中处理的数据，确保Storm知道消息是否被完整的处理。他创造出的这个算法，极大的简化了系统的设计。...S4和Storm之间的关键差别是Storm在故障的情况下可以保证消息的处理，而S4可能会丢消息。 Hadoop无疑是大数据分析的王者，本质上是一个批量处理系统，它专注于大数据的批量处理。...一个元组是一个命名的值列表，其中的每个值都可以是任意类型的。元组是动态地进行类型转化的--字段的类型不需要事先声明。在Storm中编程时，就是在操作和转换由元组组成的流。...可靠的Spout能够在一个元组被Storm处理失败时重新进行处理，而非可靠的Spout只是吐数据到拓扑里，不关心处理成功还是失败了。 Spout可以一次给多个流吐数据。...而之所以选择Apache，是因为它能为Storm提供一个强大的品牌、坚实的法律基础以及共识驱动的模型。

1.9K5 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭