快速认识实时计算系统 Storm

Storm是什么

Storm 是一个分布式数据流处理系统,用于大规模数据的实时处理。

例如用户在购物网站中会产生很多行为记录,如浏览、搜索感兴趣的商品,就可以使用Storm对这些行为记录进行实时分析处理,快速反馈给相关系统,如推荐系统。

工作原理

Storm 很像一个数据处理工厂,其中有多条流水线,流水线上有多个处理单元。

Storm 从外部对接数据源,然后发送到各条流水线,经过各个处理单元加工后交给客户。

举一个简单的例子,假设想用Storm来处理消息队列中的日志信息,处理的需求是:把有效日志存储到HDFS、把VIP用户的日志信息存入队列,那么实现的流程就是这样的:

Storm 接入外部的消息队列,作为内部的数据源头,处理单元 AB 订阅 源头 的数据,C 订阅 AD 订阅 B,这样就形成了两条流水线。

源头收到数据后,就发给 ABA 负责过滤掉无效的日志信息,把有效日志数据发送给 CC 收到后存储到HDFS

B 负责挑出VIP用户的日志信息,然后发送给 DD 收到后发送到另一个消息队列中,供其他系统使用。

各部分概念

Storm 中主要包括了两个类型的节点:源头处理单元源头 称为 spout(喷头),处理单元 称为 bolt(螺栓)。

spoutbolt 之间通过有向通道连接,通道内传输的是 tuple(元组)。

多个节点和有向边就构成了一个拓扑图 Topology:有向无环图

开发思路

通过上图可以看出,要开发一个完整的Storm任务就是构建出一个拓扑结构。

Topologyspoutbolt依赖关系 构成,那么就先编写 spout,定义好数据的来源,再编写各个 bolt,定义各自的处理逻辑,然后根据业务流程把他们关联起来,定义好 依赖关系,这样,拓扑结构就构造完成了,最后把 Topology交给 Storm 执行就可以了。

主要特点

Storm 具备分布式系统的基本特点:可扩展、高可靠、高性能,可以支持千数量级的物理节点,支持容错,提供ack/fail消息保证机制,在消息没有被正确传递时可以重发,内部通讯采用ZeroMQ,保证消息被快速处理。

Storm 还有一个显著特点,就是 编程简单,提供了简单的 Spout+Bolt 的编程模型,可以快速写出大规模数据的实时处理任务,而且有本地模式,开发人员可以方便的在本机运行调试,并支持多语言编程,如 JAVA、Python、C/C++。

本文分享自微信公众号 - 性能与架构(yogoup)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-10-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏haifeiWu与他朋友们的专栏

复杂业务下向Mysql导入30万条数据代码优化的踩坑记录

从毕业到现在第一次接触到超过30万条数据导入MySQL的场景(有点low),就是在顺丰公司接入我司EMM产品时需要将AD中的员工数据导入MySQL中,因此楼主负...

30440
来自专栏腾讯社交用户体验设计

ISUX Xcube智能一键生成H5

51520
来自专栏怀英的自我修炼

考研英语-1-导学

英二图表作文要重视。总体而言,英语一会比英语二难点。不过就写作而言,英语二会比英语一有难度,毕竟图表作文并不好写。

12210
来自专栏FSociety

SQL中GROUP BY用法示例

GROUP BY我们可以先从字面上来理解,GROUP表示分组,BY后面写字段名,就表示根据哪个字段进行分组,如果有用Excel比较多的话,GROUP BY比较类...

5.2K20
来自专栏钱塘大数据

中国互联网协会发布:《2018中国互联网发展报告》

在2018中国互联网大会闭幕论坛上,中国互联网协会正式发布《中国互联网发展报告2018》(以下简称《报告》)。《中国互联网发展报告》是由中国互联网协会与中国互联...

13750
来自专栏钱塘大数据

理工男图解零维到十维空间,烧脑已过度,受不了啦!

让我们从一个点开始,和我们几何意义上的点一样,它没有大小、没有维度。它只是被想象出来的、作为标志一个位置的点。它什么也没有,空间、时间通通不存在,这就是零维度。

34730
来自专栏腾讯高校合作

【倒计时7天】2018教育部-腾讯公司产学合作协同育人项目申请即将截止!

16220
来自专栏微信公众号:小白课代表

不只是软件,在线也可以免费下载百度文库了。

不管是学生,还是职场员工,下载各种文档几乎是不可避免的,各种XXX.docx,XXX.pptx更是家常便饭,人们最常用的就是百度文库,豆丁文库,道客巴巴这些下载...

44730
来自专栏Ken的杂谈

【系统设置】CentOS 修改机器名

18330
来自专栏前端桃园

知识体系解决迷茫的你

最近在星球里群里都有小伙伴说道自己对未来的路比较迷茫,一旦闲下来就不知道自己改干啥,今天我这篇文章就是让你觉得一天给你 25 个小时你都不够用,觉得睡觉都是浪费...

22440

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励