Apache Flink :回顾2015,展望2016

回顾2015,总体而言Flink在功能方面已经从一个引擎发展成为最完整的开源流处理框架之一。与此同时,Flink社区也从一个相对较小,并且地理上集中的团队,成长为一个真正的全球性的大型社区,并在Apache软件基金会成为最大的大数据社区之一。接下来看看一些有趣的统计数据,其中就包括Flink每周最繁忙的时间是星期一,肯定出乎很多人所料:)

社区发展

首先,我们从Flink的GitHub库中看一些简单的统计。在2015年,Flink社区规模扩大了一倍,人数从大约75名贡献者超过150名。从2015年2月至2015年12月,其github库的复制数量超过了三倍,从160增长至544,而其star数目的增长也接近3倍,从289增至813。

尽管Flink创建于德国柏林,然而现在其社区遍布全球,拥有来自北美,欧洲以及亚洲的许多贡献者。在著名线下交友网站meetup.com上做一个简单的关于提及Flink作为重点领域的组织的搜索,搜索结果表明全世界有16个这样的组织:

2015 Flink 推进会

毫无疑问,对于Flink而言,2015年的最重要的事件之一就是10月份在柏林举办的Flink 推进会,这是Apache Flink的首次会议。来自谷歌,MongoDB,布依格斯电信,NFLabs,Euranova,RedHat,IBM,华为,Intel,爱立信,Capital One,Zalando,Amadeus,the Otto Group和ResearchGate的250多名的参会者(大约一半总部位于德国以外),参加了超过33的技术会谈。如果你想了解这些技术会议的内容,可以通过Flink Forward网站查看相关幻灯片和视频。

有趣的是,在 2016年 EMEA Hadoop峰会已提交的议题和摘要中, 提及Flink的高达17个议题:

趣味统计:开发人员(提交者)何时提交代码?

为了更深入的了解发生在Flink社区的事情,让我们在这个项目的 git 日志上做一些分析:-) ,最简单的做法是在 git 库中统计2015年提交的总数目。运行如下代码:

git log --pretty=oneline --after=1/1/2015 | wc -l

2015年Flink git库总共产生2203次提交。为了更深入地探究提交者的行为,我们将使用一个称为gitstats的开源工具进行分析,这将会带来一些有趣的统计结果。你可以通过以下四个简单的步骤来创建并更多了解:

1.从 project homepage..下载gitstats,举个例子:在OS X上使用自带软件,键入:

brew install --HEAD homebrew/head-only/gitstats

2.克隆Apache Flink git库:

git clone git@github.com:apache/flink.git

3.利用gitstats产生统计数据:

gitstats flink/ flink-stats/

4.在你常用的浏览器中(例如:chrome)查看统计页面:

chrome flink-stats/index.html

首先,我们可以观察到从Apache项目孵化开始,Flink的源代码行数一直平稳增长,在2015年,其代码库几乎翻了一番,源代码行数从500,000增至900,000。

当Flink的开发者提交代码时,可以发现一个有趣的现象,到目前为止,代码都是集中在周一下午进行提交。

功能时间图

下面是一个(非详尽)的时间顺序图,用于显示在2015年,Flink以及Flink生态系统新增了哪些主要功能:

2016年发展蓝图

Flink社区已经开始讨论今后Flink的发展蓝图,下面列举一些主要内容:

流式作业运行时伸缩:流式作业需要不间断运行,并且需要对一个不断变化的环境作出反应。运行时伸缩意味着为了支持特定的服务等级协议,从而动态地增加和减少作业的并行度,或者对输入的吞吐量变化作出反应。

针对静态数据集和数据流的SQL查询:用户以Flink 表 API 为基础,可以通过编写SQL语句查询静态数据集,以及针对数据流进行查询从而连续产生新的结果。

有托管内存支持的流运算:目前,流运算像用户自定义状态和窗口都是由JVM堆对象支持。将这些内容移至Flink托管内存会增加溢出到磁盘的能力,垃圾回收效率的能力,从而可以更好地控制内存的使用。

检测时间事件模式库:在流处理中经常要检测一个时间戳的事件流模式。Flink通过事件时间,对此进行了支持,利用库的形式可以实现很多诸如此类的操作。

对Apache Mesos以及动态资源YARN的支持:同时支持Mesos 以及 YARN,包括动态分配和资源释放,从而获得更多资源弹性(包括批处理和流式处理)。

安全性:对TaskManagers 和 JobManager之间的信息交换以及workers之间的数据交换连接,都进行加密。

更加丰富的流式连接、更多的运行时度量以及连续数据流API增强:支持更多的源和汇(例如,Amazon Kinesis,Cassandra,Flume,等等),给用户提供更多的度量指标,并提供持续改进的数据流API。

如果你对这些功能感兴趣,强烈建议去查看下当前的草案,并加入 Flink 邮件列表讨论。

原文:Flink 2015: A year in review, and a lookout to 2016

译者:郭亚和,从事大数据(spart/storm/hadoop/hbase)相关运维、分析等工作。

原文发布于微信公众号 - CSDN技术头条(CSDN_Tech)

原文发表时间:2016-02-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人人都是极客

计算机的基本组成

严格来讲计算机从诞生到现在经历了很多阶段,已经发展成为一种自动地、高速地、精确地进行信息处理的电子设备,也是20世纪的重大发明之一。

15220
来自专栏云计算D1net

如何管理好企业的数据

灾难恢复没有银弹。一旦发生停机,企业高管们会条件反射地以最快地速度采取各种灾难恢复手段。 虽然大多数IT主管和数据管理专家承认没有万全的安全解决方案来保...

35440
来自专栏FreeBuf

神器分享:物联网黑客工具包

今天,我将在BSides San Francisco做一个题为“物联网黑客工具包”的演讲。我会准备一个幻灯片并且发布一篇博客去参加这个演讲,如果有我演讲的视频链...

23000
来自专栏沃趣科技

降低保险行业TCO成本最好的方式是……

时至今日,“虚拟化”,“云”等名词早已耳熟能详,其提供的特性:将服务器物理资源抽象成逻辑资源,可以将一台服务器变成几台甚至上百台虚拟服务器;将CPU、内存、磁盘...

16050
来自专栏云计算D1net

免费云存储越存越大,服务商越赔越多?

我国的互联网行业有一个特色,免费即正义。而且这一趋势愈演愈烈,哪家公司能免费的更多,体验更好,用户便蜂拥而来。云存储就是一个这样的状况,而且几家巨头互相竞争之下...

81080
来自专栏web前端教室

【先行者】一份不合格的作业的讲解

然后我收到了几份作业,其中有二份作业不是特别的合格。就作业本身来讲吧,也不能说它是错的,但它确实是不对,把作业图贴在下面大家看看,

7510
来自专栏安恒信息

策略升级 | 快速发现OWASP TOP 10 2017漏洞

OWASP(开源Web应用安全项目)于2017年11月22正式发布OWASP Top 10 2017最终版本,作为全球网络安全500强, 云安全、...

34780
来自专栏大数据钻研

你不要升级到 Windows 10 的 10 大理由

本文通过对微软合作伙伴的询问,了解到他们不想升级到Windows 10的原因。下面,我们将详细讲解用户不该升级到Windows 10的十大理由。 在佛罗里达州多...

27950
来自专栏钱塘大数据

【干货】挖掘数据的工具与技巧,这20种资源帮你玩转数据

导读:全球编辑网数据新闻奖理事、通讯部主任Marianne Bouchart为我们分享了她挖掘数据的工具与技巧,特别是这份线上数据资源清单,让我们一睹为快! 以...

364130
来自专栏喔家ArchiSelf

来吧,一个IoT应用设计

大量的研究表明,智能家居和可穿戴设备是目前最流行的物联网应用。嵌入式的MCU是这些物联网应用程序的核心。 然而,为了在这个快速而有竞争力的市场上成为一个有效的基...

19320

扫码关注云+社区

领取腾讯云代金券