大数据流处理平台的技术选型参考

选择太多,是一件好事情,不过也容易乱花渐欲迷人眼。倘若每个平台(技术)都去动手操练一下,似乎又太耗时间。通过阅读一些文档,可以帮我们快速做一次筛选。在将选择范围进一步缩小后,接下来就可以结合自己的应用场景去深入Spike,做深度的甄别,这是我做技术选型的一个方法。

技术没有最好,只有最适用。在做技术选型时,需要选择适合需求、适合项目类型、适合团队的技术。这是实用主义的判断,而非理想主义的追捧。若是在实用的技术选型中,再能点燃一些些技术上的情怀,那就perfect了!

属性矩阵(Attributes Matrix)

我在《Apache下流处理项目巡览》一文中翻译了Janakiram的这篇文章,介绍了Apache基金会下最主流的流处理项目。巧的是,我在InfoQ上又发现了Ian Hellstrom的文章,他用一张图给出了非常棒的总结。

为了更好地阅读,我将这张图的内容转成一张矩阵表。由于Ian的文章是2016年撰写的,我对其内容做了适度更新。

注:由于微信排版关系,若要查看技术选型的矩阵表,请点击文末的“阅读原文”查看详情。

数据流模型

在进行流数据处理时,必然需要消费上游的数据源,并在处理数据后输出到指定的存储,以待之后的数据分析。站在流数据的角度,无论其对数据的抽象是什么,都可以视为是对消息的生产与消费。这个过程是一个数据流(data flow),那么负责参与其中的设计元素就可以称之为是“数据流模型(Data flow model)”。

不同流处理平台的数据流模型有自己的抽象定义,也提供了内建的支持。我针对Flume、Flink、Storm、Apex以及NiFi的数据流模型作了一个简单的总结。

Flume

Flume的数据流模型是在Agent中由Source、Channel与Sink组成。

内建的Source支持:

  • Avro
  • Thrift
  • JMS
  • Taildir
  • Exec
  • Spooling Directory
  • Twitter
  • Kafka
  • NetCat
  • Sequence Generator
  • Syslog
  • HTTP

内建的Sink支持:

  • HDFS
  • Hive
  • Logger
  • Avro
  • Thrift
  • IRC
  • File Roll
  • HBase
  • Solr
  • Elasticsearch
  • Kite Dataset
  • Kafka
  • HTTP

Flume还支持自定义Source、Sink与Channel。

Flink

Flink将数据流模型抽象为Connector。Connector将Source与Sink连接起来,一些特殊的connector则只有Source或Sink。Flink定义的connector包括:

  • Kafka(支持Source/Sink)
  • Elasticsearch(仅为Sink)
  • HDFS(仅为Sink)
  • RabbitMQ(支持Source/Sink)
  • Amazon Kinesis Streams(支持Source/Sink)
  • Twitter(仅为Source)
  • NiFi(支持Sink/Source)
  • Cassandra(仅为Sink)
  • Redis、Flume和ActiveMQ(仅为Sink)

Flink也支持用户自定义Connector。

Storm

Storm对数据流模型的抽象则形象地定义为Spout和Bolt。为了支持其他数据源的读取,并将数据存储到指定位置,Storm提供了与诸多外部系统的集成,并针对这些外部系统去定义对应的Spout与Bolt。

Storm集成的外部系统包括:

  • Kafka:通过BrokerHostsZKHosts支持Spout
  • HBase:提供HBaseBolt
  • HDFS:提供HdfsBolt
  • Hive:提供HiveBolt
  • Solr:提供SolrUpdateBolt与对应的Mapper
  • Canssandra:提供CassandraWriterBolt
  • JDBC:提供JdbcInsertBoltJdbcLookupBolt
  • JMS:提供JMS Spout与JMS Bolt
  • Redis:提供RedisLookupBoltRedisStoreBoltRedisFilterBolt
  • Event Hubs:提供了Event Hubs Spout
  • Elasticsearch:提供EsIndexBoltEsPercolateBoltEsLookupBolt
  • MQTT:MQTT主要用于物联网应用的轻量级发布/订阅协议,提供了对应的Spout
  • MongoDB:提供了MongoInsertBoltMongoUpdateBolt
  • OpenTSDB
  • Kinesis
  • Druid
  • Kestrel

Storm和Storm Trident都支持用户自定义Spout和Bolt。

Apex

Apex将数据流模型称之为Operators,并将其分离出来,放到单独的Apex Malhar中。对于Source,它将其称之为Input Operators,对于Sink,则称为Output Operators,而Comput Operators则负责对流数据的处理。

Apex Malhar支持的Input/Output Operators包括:

  • 文件系统:支持存储到HDFS、S3,也可以存储到NFS和本地文件系统
  • 关系型数据库:支持Oracle、MySQL、Sqlite等
  • NoSQL数据库:支持HBase、Cassandra、Accumulo、Aerospike、MongoDB和CouchDB
  • 消息系统:支持对Kafka、JMS、ZeroMQ和RabbitMQ消息的读写
  • 通知系统:支持通过SMTP发送通知
  • 内存数据库和缓存:支持Memcached和Redis
  • 社交媒体:支持Twitter
  • 协议:支持HTTP、RSS、Socket、WebSocket、FTP和MQTT

毫无疑问,Apex也支持用户自定义Operator。除了可以用Java编写之外,还可以使用JavaScript、Python、R和Ruby。

NiFi

NiFi对流模型的主要抽象为Processor,并且提供了非常丰富的数据源与数据目标的支持。

常用的数据采集方法包括:

  • GetFile
  • GetFtp
  • GetSFtp
  • GetJMSQueue
  • GetJMSTopic
  • GetHTTP
  • ListenHTTP
  • ListenUDP
  • GetHDFS
  • ListHDFS / FetchHDFS
  • FetchS3Objet
  • GetKafka
  • GetMongo
  • GetTwitter

发送数据的方法包括:

  • PutEmail
  • PutFile
  • PutFTP
  • putSFTP
  • PutJMS
  • PutSQL
  • PutKafka
  • PutMongo

Nifi也支持用户自定义Processor,例如通过继承NiFi定义的AbstractProcessor类。自定义的Processor可以和内建的Processor一样添加到NiFi定义Flow的GUI上,并对其进行配置。

原文发布于微信公众号 - 逸言(YiYan_OneWord)

原文发表时间:2018-02-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏web前端教室

这几天在看JS的数据结构与算法

这几天在看数据结构与算法,js描述这书 ? 这书看着标题挺高大上的,但内容不难, 只要有JS的基本知识,都能看明白。 它里面不讲JS本身如何,而是把各种数据结...

1828
来自专栏大数据

带有Apache Spark的Lambda架构

市场上的许多玩家已经建立了成功的MapReduce工作流程来每天处理以TB计的历史数据。但是谁愿意等待24小时才能获得最新的分析结果?这篇博文将向您介绍旨在利用...

2404
来自专栏文渊之博

PowerBI 引入时间智能

简介 Power BI Desktop -是一款由微软发布的自助式商业智能工具,功能强大、易于使用。其中还可以通过微软云连多个数据源并且使用数据源来创建可视化表...

2539
来自专栏CSDN技术头条

新的可视化帮助更好地了解Spark Streaming应用程序

之前,我们展示了在Spark1.4.0中新推出的可视化功能,用以更好的了解Spark应用程序的行为。接着这个主题,这篇博文将重点介绍为理解Spark Strea...

2009
来自专栏PPV课数据科学社区

关于python的编解码(decode, encode)

总结总结,本文仅适用于python2.x 默认编码与开头声明 首先是开头的地方声明编码 # coding: utf8 这个东西的用处是声明文件编码为utf8(要...

3427
来自专栏Java帮帮-微信公众号-技术文章全总结

solr使用教程二【面试+工作】

6.3高亮显示 我们经常使用搜索引擎,比如在baidu 搜索 java ,会出现如下结果,结果中与关键字匹配的地方是红色显示与其他内容区别开来。 solr 默认...

3827
来自专栏生信宝典

Python学习没有捷径,但可以加速,零基础九天你也可以会编程

在小学生都学Python了,你还不知道怎么开始文中介绍了Python的应用广泛,功能强大,提供了Python的在线学习视频和资料等 (收集资料是我们的最爱)。...

17810
来自专栏DannyHoo的专栏

iOS开发中使用算法之二分搜索算法

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u010105969/article/details/...

592
来自专栏Java编程技术

UML建模图实战笔记(全)

UML:Unified Modeling Language(统一建模语言),使用UML进行建模的作用有哪些那:

823
来自专栏圣杰的专栏

DDD理论学习系列(7)-- 值对象

? 1.引言 提到值对象,我们可能立马就想到值类型和引用类型。而在C#中,值类型的代表是strut和enum,引用类型的代表是class、interface、...

2287

扫码关注云+社区