首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >flink两三事 ----(1)历史

flink两三事 ----(1)历史

作者头像
大数据和云计算技术
发布2018-03-08 16:06:48
1.9K0
发布2018-03-08 16:06:48
举报

最近群里朋友让解释下flink的watermark机制,那就顺便也简单聊聊flink本身的二三事,本篇写扯一扯历史:

大家都知道,大数据的起源在美国,当前的最热门的技术也都是美国掌握,hadoop,spark,学术界牛逼高校有伯克利,斯坦福等,商业上也比较成功,比如做平台的cloudera,hortonworks等都在美国。

讲到组件最热的当前应该属于spark,前面刚写一篇文章《Spark这是要一统江湖的节奏》,介绍Spark创始人Matei最近在spark submmit上做了一次演讲,spark开始一统天下了。Spark 成名于用RDD在内存中计算替代了MapReduce的磁盘技术,批量计算场景下,十倍于MapReduce,不过现在spark已经开始朝深度学习和实时计算进军了。

讲到flink也挺有意思。本来欧洲就没有什么像样的大数据项目,这其中可能很大一部分原因是欧洲没有像美国一样成熟的风投,毕竟搞高科技不砸钱肯定是万万不能的。

比如spark是09年诞生在伯克利的AMPLab,13年开源称为Apache孵化项目,同时这帮实验室的老师学生就成立了databricks公司,去商业孵化spark,有了公司之后,spark就得到了快速发展。

欧洲经济不行,但是欧洲老牌高校的底子还是在的,flink作为研究项目其实比spark还要早一年,08年就是柏林理工大学的一个研究项目,但是明显开源运作和商业上要比spark慢很多,14年才称为Apache孵化项目。所以说欧洲的商业化环境要比美国差不少,欧洲的大老爷们也不操心赚钱的事情,起了个大早,赶了个晚集。

不过还好,点选的不错。14年孵化后,flink就避开spark在批处理,主打毫秒级实时流计算。当年spark和flink为了谁是真正的流计算引擎,还PK过很长一段时间。Spark方面还辩解说mini batch也是很牛的,而且万一技术不行,场景也是对的,大部分场景都需要高吞吐的实时计算吧,最新的2.2版本也还是打脸了,也开始支持毫秒级了。

技术只是其中一方面原因,商业生态才是决定因素。spark社区被databricks控制其实是非常严的,commiter/pmc基本都是他们自己人,flink 能搞起来的另外一个原因是大家不愿意看到databricks一家独大,登录flink的网站去看看,http://flink.apache.org,阿里巴巴,爱立信赞助公司等都在列。所以最近有人问,flink和spark好像思路都有点类似,都想一统天下,谁会赢。我说大概率类似开源数据库Postgresql和Mysql,都不会死。不过目前看spark确实还是技压一筹,spark的活跃度要高于flink,不过也别担心flink会不行。

好,这一篇就先扯一扯flink的历史,我不想一篇文章太长,看得累,分开来讲。后面讲讲flink相关的技术,内存管理,留处理引擎,watermark等。谢谢大家。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-06-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据和云计算技术 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
流计算 Oceanus
流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的企业级实时大数据分析平台,具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点。流计算 Oceanus 以实现企业数据价值最大化为目标,加速企业实时化数字化的建设进程。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档