专栏首页个人分享Storm Topology及分组原理

Storm Topology及分组原理

Storm的通信机制,需要满足如下一些条件以满足Storm的语义。

1、建立数据传输的缓冲区。在通信连接没有建立之前把发送的数据缓存起来。数据发送方可以在连接建立之前发送消息,而不需要等连接建立起来,可是的接收方是独立运行的。

2、在消息传输层保证消息最多只能发送一次,Storm系统有ACK机制,是的没有被发送成功的消息会被重发,若消息层面也重发,会导致消息发送多次。

这种消息机制由两个接口来定义,backtype.storm.messaging.IContext和backtype.storm.messaging.IConnection.

IContext负责客户端和服务器端建立的连接,主要有四个方法。

1、prepare(Map stormConf):总从Storm定义的prepare方法,可以接收storm的配置。

2、term():终止,方法会在worker卸载这个传输插件的时候调用,自定义实现时可以在这里释放占用的资源。

3、bind(String topologyId,int port):建立服务器端的连接。

4、connect(String stormId,String host,int port):建立一个客户端的连接。

IConnect定义了在IContext上发送、接收数据的接口。

1、recv(int flag):接收消息。

2、send(int taskId,byte[] payload):发送消息。

3、close():该连接关闭的时候调用,释放相关资源。

Topology原理整理

  从运行时Topology的实际执行过程角度,作业是由多个组件的实例,也即任务,按照构造时简历的逻辑顺序呢和配置的并发度,形成的数据流图结构。

流(stream)是Storm中对传递的数据进行的抽象,流是时间上无限的数据项Tuple序列。Spout是Stream的源,为Topology从特定数据源获取数据项,并向作业中发射(emit)形成Stream。(项目中使用了kafkaspout,接收后进行数据校验再使用emit发送给bolt),bolt可以同时接受任意多个上游送达的Stream作为输入,进行数据的处理过程,也可以在bolt做完处理后执行(emit)发射新的Stream继续给下游的Bolt进行处理。

Stream中的Tuple可以被指定结构,由一个或多个域(field)组成。Tuple的定义不必是严格统一的,而是可以在每个spout,bolt中定义。默认情况下Tuple可以包含基本类型,如integers、longs、shorts、bytes、strings、doubles、floats、booleans和byte arrays.

流组模式

1、Shuffle Grouping 随机分组

public void createTopology(TopologyBuilder builder){
    kafkaSpout kafkaspout = getKafkaSpout(topicName);
    //Topology中增加一个Spout
    builder.setSpout(...)
    //在Topology中增加一个Bolt,可设置并行度,以随机分组的方式发送,shuffleGrouping后的参数为源组建的Id
    builder.setBolet(boltName,new BlackListBolt(),3).shuffleGrouping(spoutName);
}

在这种流组模式下,源组件将其发送的数据项,以随机的方式向其所有目标组件发送,可以保证每个目标组件收到数量近似的Tuple。

2、All Grouping 副本分组

//allGrouping(java.lang.String componentId)
//allGrouping(java.lang.String componentId,java.lang.String streamId)
//参数streamId是声明的流的标识
builder.setBolet(boltName,new BlackListBolt(),3).allGrouping(spoutName,"signals“);

在这种模式下,源组件将其发送的数据项,以副本的形式向其所有目标组件发送,可以保证每个目标组件均收到同一个Tuple,就好比zookeeper的配置文件同步一样,每个bolt都会收到同一份。

3、Global Grouping 全局分组

这种模式下,源组件将其发送的数据项,全部发送给目标组件的某一个实例,而且该实例是这个组件中ID最小的那个任务。可以保证所有数据项只会被目标组件的一份实例(一个bolt)所处理

builder.setBolet(boltName,new BlackListBolt(),3).globalGrouping(SpoutName);

4.Fiellds Grouping 按域分组

builder.setBolet(boltName,new BlackListBolt(),3).fieldsGrouping(spoutName,new Field("域名");

源组件将其发送的数据项,按Tuple中指定域的值分组,向下游目标组件发送,可以保证拥有相同域组合的值的Tuple,被发送给同一个Bolt.

5、Direct Grouping 直接分组

builder.setSpout("kafkaSpout",topicSpout)
builder.setBolt(boltname1,new boltName1(),1).shuffleGrouping("kafkaSpout");
//以直接分组的模式接收上述bolt发送的数据项
builder.setBolt(boltname2,new boltname2(),2).directGrouping(boltname1);

源组件将其发送的数据项,以直接指定目标组件的方式发送,可以使指定组件接收给定的Tuple.需要注意的是,接收bolt的executle()函数中,哟啊使用emitDirect()替代emit,用于向指定的具名流中发送数据项

构建Topology

构建TopologyBuilder主要给出了三类方法:创建Topology、增加bolt和增加Spout的方法。setBolt和setSpout接口各有不同多种重载方法,均返回用于声明组件输入的对象。

1、id:组件(spout、Bolt)的标识,字符串类型,若需要引用该组件,就使用这里指定的标识ID。比如使用"kafkaSpout"

2、bolt:添加的bolt对象,再setBolt的重载方法中,存在IRichBolt和IBasicBolt两类bolt参数,项目中用到的是IRichBolt,区别在于,BasicBolt用于非聚集处理,能够自动进行(anchoring)和(acking)

3、spout:添加的Spout对象,在setSpout方法中该参数是IRichSpout类型的Spout接口。

4、parallelism_hint:并行度,数值型参数。设置组件运行时将要被分配的线程数量。

参考:《Storm 大数据流式计算及应用实践》

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • storm的作业单元:Topology

    Storm系统的数据处理应用单元,是被打包的被称为Topology的作业。 它是由多个数据处理阶段组合而成的,而每个处理阶段在构造时被称为组件(Componen...

    用户3003813
  • Hive metastore源码阅读(一)

      不要问我为什么,因为爱,哈哈哈哈。。。进入正题,最近做项目顺带学习了下hive metastore的源码,进行下知识总结。

    用户3003813
  • JAVA源码走读(二)二分查找与Arrays类

    对数组排序:通过sort方法,按升序。 比较数组:通过equals方法比较数组中元素值是否相等。 查找数组元素:通过binarySearch方法能对排序好的数组...

    用户3003813
  • vue.js之组件篇

    组件(Component)是 Vue.js 最强大的功能之一,组件可以扩展 HTML 元素,封装可重用的代码。

    指尖改变世界
  • 美团外卖前端可视化界面组装平台 —— 乐高

    1 简介 乐高,是美团点评一个快速搭建后台系统页面的平台。名称来源于大家熟悉的丹麦知名玩具品牌,他们的玩具都是通过组合易拆卸、装配的零件,形成最终的作品。经过长...

    美团技术团队
  • 微信小程序自定义组件(Toast)

    微信官方的wx.showToast这个API用起来限制性太强,在正式项目上根本用不上,但是又没有其他组件或API可以替代,所以就自己通过网上大神的方法自己写了一...

    honey缘木鱼
  • Kali Linux Web渗透测试手册(第二版) - 9.7 - 通过HTTP头利用漏洞

    发人员在编程输入验证代码时,往往把重点放在url和请求数据中,经常会忽略这样一个事实:整个请求的参数都可以被修改,所以cookie等http头很容易被插入恶意p...

    7089bAt@PowerLi
  • Kali Linux Web渗透测试手册(第二版) - 9.7

    发人员在编程输入验证代码时,往往把重点放在url和请求数据中,经常会忽略这样一个事实:整个请求的参数都可以被修改,所以cookie等http头很容易被插入恶意p...

    用户1631416
  • 「vue基础」手把手教你编写 Vue 组件(上)

    首先我们来看一个简单的例子,比如我们有一个头像的组件(avatar)用来展示用户的头像,我们只需要创建一次,我们就可以随意将此组件添加至项目需要用到的地方,十分...

    前端达人
  • 58道Vue常见面试题集锦,涵盖入门到精通,自测 Vue 掌握程度

    不同点: 实现本质方法不同,v-show 本质就是通过控制 css 中的 display 设置为 none,控制隐藏,只会编译一次;v-if 是动态的向 DOM...

    前端达人

扫码关注云+社区

领取腾讯云代金券