前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据计算:Storm vs Flink

大数据计算:Storm vs Flink

作者头像
加米谷大数据
发布2019-09-09 16:53:48
1.5K0
发布2019-09-09 16:53:48
举报
文章被收录于专栏:加米谷大数据加米谷大数据

大数据技术中常见的大数据实时计算引擎有Spark、Storm、Flink等,目前有很多公司已经将计算任务从旧系统 Storm 迁移到 Flink。

Storm

Storm 是一个免费、开源的分布式流处理计算框架,具有低延迟、容错、高可用等特性。它可以轻松可靠地处理无限数据流,是实时分析、在线机器学习、持续计算、分布式 RPC 、ETL 的优良选择。

主要特性:

极其广泛的用例:

可用于流处理、连续计算、分布式 RPC 等等

可扩展:

要扩展拓扑,您所要做的就是添加机器并增加拓扑的并行度设置

保证不丢失数据:

实时系统必须对成功处理的数据有很强的保证,而 Storm 能保证每条消息都会被处理

容错:

如果在执行计算期间出现故障,Storm 将根据需要重新分配任务。Storm 确保计算可以永久运行(或直到你终止计算)

编程语言无关:

Storm 拓扑和处理组件可以用任何语言定义,几乎任何人都可以访问 Storm

缺点:

无状态,需用户自行进行状态管理

没有高级功能,如事件时间处理、聚合、窗口、会话、水印等

详见:

https://github.com/apache/storm

http://storm.apache.org/index.html

Flink

Flink 是一个同时面向数据流处理和批量数据处理的开源框架和分布式处理引擎,具有高吞吐、低延迟、高扩展、支持容错等特性。

主要特征:

流批:

流媒体优先运行时,支持批处理和数据流程序

优雅:

Java 和 Scala 中优雅流畅的 API

高吞吐和低延迟:

运行时同时支持非常高的吞吐量和低事件延迟

容忍数据的延时、迟到和乱序:解决基于事件时间处理时的数据乱序和数据迟到、延时的问题

灵活:

非常灵活的窗口定义

容错:

提供了可以恢复数据流应用到一致状态的容错机制

背压:

流媒体中的自然背压

缺点:

社区不如 Spark 那么强大,但在快速成长

流处理远远流行于批处理

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-09-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 加米谷大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
流计算 Oceanus
流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的企业级实时大数据分析平台,具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点。流计算 Oceanus 以实现企业数据价值最大化为目标,加速企业实时化数字化的建设进程。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档