前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >说几个flink好做spark却不好做的场景

说几个flink好做spark却不好做的场景

作者头像
Spark学习技巧
发布2019-08-28 15:57:59
8640
发布2019-08-28 15:57:59
举报

经常有粉丝问我该选flink和spark streaming?

业务选型对新手来说是件非常困难的事情,对于经验丰富又经常思考的人来说就很简单。

选型的时候个人准备知识:

1.深入了解框架。

2.深入了解框架的周边生态。

3.深入了解你自己的业务场景。

就拿flink和spark streaming来说吧,要是理解其设计灵感就会很简单的理解该选谁:

spark 是做批处理起家,然后以微批的形式开创了流处理。使用场景很显而易见了,允许一点延迟,批量处理,吞吐量优先地,而且spark streaming贡献者这么多依然很稳定。

flink是以流处理起家,然后以流处理的灵感去创建批处理。那就很适合实时性高的场景了。目前还是存在bug的。

这样貌似还是很抽象,就以具体场景来说吧,flink好做而spark streaming不好做的:

1.全局去重,全局聚合操作,比如distinct ,uv等业务场景。flink适合,spark streaming做起来比较麻烦,后者要借助状态算子或者第三方存储,比如redis,alluxio等。

2.开窗操作且要求同一个窗口多次输出。这个可以用flink的trigger,spark streaming比较麻烦。

3.仅一次处理。spark streaming实现仅一次处理大部分都是依赖于输出端的幂等性。而flink,可以通过其分布式checkpoint的性质结合sink的事物来实现,也即分布式两段提交协议。当然,flink也可以利用sink的幂等性来实现仅一次处理。

4.更容易实现ddl,dml等完整的sql支持,进而实现完全sql实现业务开发,类似blink。spark streaming需要微批rdd转化为表,也是一个临时小表,不是全局的。

5.状态管理。flink可以方便地使用文件后端实现大状态管理,但是频繁发作也会引发linux系统操作文件的一些bug。当然,spark streaming可以灵活的使用第三方接口比如alluxio等也很方便。

6.小点。异步IO,测输出,迭代流等。强业务相关了。

还有什么场景需要补充,想起来再说吧。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-08-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 浪尖聊大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档