浪院长,最近忙死了,写文章的时间都没了。但是,都说时间就像海绵里的水,挤挤就有了。所以,今晚十点半开始整理这篇Structured streaming 相关的文章。
最近,忙于开发完善flink平台,并且使用我们的平台去支持一些复杂的业务,比如用户画像处理等。遇见了很多bug和性能点,后面陆续出文章给大家解析。
书归正传,大家都知道spark streaming是微批批处理,而Structured streaming在2.3以前也是批处理,在2.3引入了连续处理的概念,延迟大幅度降低值~1ms,但是还有诸多限制,这点比flink差了许多。
至于低延迟的测试,建议本文使用本文代码去测试,kafka source->kafka sink,这样便于观察延迟。
连续处理是Spark 2.3中引入的一种新的实验版本流执行模式,可实现极低(~1 ms)端到端延迟,并且具有至少一次处理容错保证。 structured streaming的连续处理模式与微批处理模式进行比较,微批处理引擎可以实现一次性保证,但微批处理最好仅可实现约100ms的延迟。 对于某些类型的查询(在下面讨论),可以选择在不修改应用代码的情况下运行该模式(即,不更改DataFrame / Dataset操作)。
要在连续处理模式下运行支持的查询,您只需指定一个连续触发器,并将所需的checkpoint间隔作为参数。 例如浪尖的demo如下:
object ContinuousProcessing {
def main(args: Array[String]): Unit = {
val sparkConf = new SparkConf().setAppName(this.getClass.getName).setMaster("yarn-client")
.set("yarn.resourcemanager.hostname", "mt-mdh.local")
.set("spark.executor.instances","2")
.set("spark.default.parallelism","4")
.set("spark.sql.shuffle.partitions","4")
.setJars(List("/Users/meitu/Desktop/sparkjar/bigdata.jar"
,"/opt/jars/spark-streaming-kafka-0-10_2.11-2.3.1.jar"
,"/opt/jars/kafka-clients-0.10.2.2.jar"
,"/opt/jars/kafka_2.11-0.10.2.2.jar"
,"/opt/jars/spark-sql-kafka-0-10_2.11-2.0.2.jar"))
val spark = SparkSession
.builder
.appName("StructuredKafkaWordCount")
.config(sparkConf)
.getOrCreate()
spark
.readStream
.format("kafka")
.option("kafka.bootstrap.servers", "mt-mdh.local:9093")
.option("subscribe", "StructuredSource")
.load()
.selectExpr("CAST(key AS STRING)", "CAST(value AS STRING)")
.writeStream
.format("kafka")
.option("kafka.bootstrap.servers", "mt-mdh.local:9093")
.option("topic", "StructuredSink")
.option("checkpointLocation","/sql/checkpoint")
.trigger(Trigger.Continuous("1 second")) // only change in query
.start()
.awaitTermination()
}
}
checkpoint 间隔为1秒意味着连续处理引擎将每秒记录查询的进度。 生成的checkpoint采用与微批处理引擎兼容的格式,因此可以使用任何触发器重新启动任何查询。 例如,假如查询支持微批处理和连续处理,那么实际上也可以用连续处理触发器去启动微批处理触发器,反之亦然。
请注意,无论何时切换到连续模式,都将获得至少一次的容错保证。
支持的查询
从Spark 2.3开始,连续处理模式仅支持以下类型的查询。
Sources
Sinks
更详细的关于sink和source信息,请参阅输入源和输出接收器部分的官网。虽然控制台接收器非常适合测试,但是使用Kafka作为源和接收器可以最好地观察到端到端的低延迟处理。
注意事项