前言
Apache Spark 是一个统一的、快速的分布式计算引擎,能够同时支持批处理与流计算,充分利用内存做并行计算,官方给出Spark内存计算的速度比MapReduce快100倍。因此可以说作为当下最流行的计算框架,Spark已经足够优秀了。
Apache Flink 是一个分布式大数据计算引擎,能够提供基于数据流的有状态计算,被定义为下一代大数据处理引擎,发展十分迅速并且在行业内已有很多最佳实践。
两者都是优秀的框架,究竟有何不同,Spark还没学好现在又来了一个Flink,程序猿攻城狮们能接住招吗!本文主要从部分功能上聊一聊这两款大数据处理引擎。
编程模型
Spark 可以说是一站式的分布式计算引擎,能够支持批处理、流计算、机器学习以及图计算。
Flink与Spark类似,同样提供了多种编程模型,从流计算到批处理,再到结构化数据处理以及机器学习、图计算等。
流处理方面对比
Flink更多的是作为一个流处理引擎,而Spark在流处理方面支持Spark Streaming和Structured Streaming(2.x),下面主要从流处理机制、状态管理、时间语义、Exactly-Once语义等几方面阐述两者的差异。
流处理机制
Spark Streaming流处理的机制是将源源不断的流式数据按照一定时间间隔,分隔成一个一个小的batch批次,然后经过Spark引擎处理后输出到外部系统。实际上是微批操作,因此上述的时间间隔称为Batch Duration,即批处理时间间隔。Spark Streaming这种把流当作一种批的设计思想具有非常高的吞吐量,但避免不了较高的延时,因此Spark Streaming的场景也受到了限制,实时性要求非常高的场景不适合使用Spark Streaming。
Flink本质上就是一个流处理引擎,基于消息事件驱动,并引入了状态管理,因此能够对数据流进行有状态的(Stateful)计算。Flink的设计思想是把批当作一种有限的流,这样在流处理过程中也能够发挥批处理的特性,实现了批流一批化。
状态管理
Spark Streaming支持两种状态管理操作 updateStateByKey 与 mapWithState,分别用来满足类似全量与增量的操作。而在Structured Streaming中有支持用户自定义的mapGroupsWithState和flatMapGroupsWithState状态操作。
Flink设计之初就引入了状态管理,其最突出的表现也是能够进行有状态处理 (Stateful Processing),示意图如下:
时间语义
Spark Streaming只支持处理时间,到了Structured Streaming 模型中同时支持处理时间和事件时间。
Flink中时间和状态是流应用中的两大元素,Flink支持三种时间语义,含义与示图如下:
Exactly-Once语义
在容错性方面,Spark Streaming能够保证 At-most-Once 或 At-least-Once 这种至多或至少一次的处理语义,基本上保证不了 Exactly-Once 这种严格一次的处理语义。通常是只实现 At-least-Once 的处理,保证数据不丢失,但是不能保证数据不会被重复处理,因此要求输出端能够支持幂等操作或者更新操作。
Flink能够保证 Exactly-Once 状态一致性的语义,整体上是通过checkpoint机制和两阶段提交协议(two-phase commit)实现的。
具体实现思路可以参考 https://flink.apache.org/features/2018/03/01/end-to-end-exactly-once-apache-flink.html
总结
总的来说,Spark是一个通用的、快速的大数据处理引擎,集批处理、流处理、机器学习与图计算等于一身,基于内存的迭代计算更加高效,目前也在不断增强包括流处理在内的能力。Flink更多的是一个流计算引擎,但又不仅仅是流计算,其实有着和Spark相似的计算模型,特别是流计算的诸多方面要优于Spark。
欢迎留言区发表自己的看法~
喜欢本文 那就点个在看吧