Kafka数据读取方式

Spark Streaming 支持多种实时输入源数据的读取,其中包括 Kafka、flume、socket 流等等。除了 Kafka 以外的实时输入源,由于我们的业务场景没有涉及,在此将不会讨论。本篇文章主要着眼于我们目前的业务场景,只关注 Spark Streaming 读取 Kafka 数据的方式。 Spark Streaming 官方提供了两种方式读取 Kafka 数据:

一是 Receiver-based Approach。该种读取模式官方最先支持,并在Spark 1.2 提供了数据零丢失(zero-data loss)的支持;

一是 Direct Approach (No Receivers)。该种读取方式在 Spark 1.3 引入。

此两种读取方式存在很大的不同,当然也各有优劣。接下来就让我们具体剖解这两种数据读取方式。

001

Receiver-based Approach

under default configuration, this approach can lose data under failures (see receiver reliability. To ensure zero-data loss, you have to additionally enable Write Ahead Logs in Spark Streaming (introduced in Spark 1.2). This synchronously saves all the received Kafka data into write ahead logs on a distributed file system (e.g HDFS), so that all the data can be recovered on failure.

Receiver-based 读取方式

Receiver-based 读取实现

Kafka 的 high-level 数据读取方式让用户可以专注于所读数据,而不用关注或维护consumer 的 offsets,这减少用户的工作量以及代码量而且相对比较简单。因此,在刚开始引入 Spark Streaming 计算引擎时,我们优先考虑采用此种方式来读取数据,具体的代码如下:

如上述代码,函数 getKafkaInputStream 提供了 zookeeper、 topic、groupId、 numReceivers、 partition以及ssc,其传入函数分别对应:

以上几个参数主要用来连接 Kafka 并读取 Kafka 数据。具体执行的步骤如下:

Receiver-based 读取问题

采用 Reveiver-based 方式满足我们的一些场景需求,并基于此抽象出了一些 micro-batch、内存计算模型等。在具体的应用场景中,我们也对此种的方式做了一些优化:

以上处理方式在一定程度上满足了我们的应用场景,诸如 micro-batch 以及内存计算模型等。但是同时因为这两方面以及其他方面的一些因素,导致也会出现各种情况的问题:

为了回辟以上问题,降低资源使用,我们后来采用 Direct Approach 来读取Kafka 的数据,具体接下来细说。

002

Direct Approach (No Receivers)

区别于 Receiver-based 的数据消费方法,Spark 官方在 Spark 1.3 时引入了 Direct 方式的 Kafka 数据消费方式。相对于 Receiver-based 的方法,Direct 方式具有以下方面的优势:

简化并行(Simplified Parallelism)。不现需要创建以及 union多输入源,Kafka topic 的 partition 与 RDD 的 partition一一对应,官方描述如下:

No need to create multiple input Kafka streams and union them. With directStream, Spark Streaming will create as many RDD partitions as there are Kafka partitions to consume, which will all read data from Kafka in parallel. So there is a one-to-one mapping between Kafka and RDD partitions, which is easier to understand and tune.

Achieving zero-data loss in the first approach required the data to be stored in a Write Ahead Log, which further replicated the data. This is actually inefficient as the data effectively gets replicated twice - once by Kafka, and a second time by the Write Ahead Log. This second approach eliminates the problem as there is no receiver, and hence no need for Write Ahead Logs. As long as you have sufficient Kafka retention, messages can be recovered from Kafka.

强一致语义(Exactly-once semantics)。High-level 数据由 Spark Streaming 消费,但是 Offsets 则是由 Zookeeper 保存。通过参数配置,可以实现 at-least once 消费,此种情况有重复消费数据的可能。

The first approach uses Kafka’s high level API to store consumed offsets in Zookeeper. This is traditionally the way to consume data from Kafka. While this approach (in combination with write ahead logs) can ensure zero data loss (i.e. at-least once semantics), there is a small chance some records may get consumed twice under some failures. This occurs because of inconsistencies between data reliably received by Spark Streaming and offsets tracked by Zookeeper. Hence, in this second approach, we use simple Kafka API that does not use Zookeeper. Offsets are tracked by Spark Streaming within its checkpoints. This eliminates inconsistencies between Spark Streaming and Zookeeper/Kafka, and so each record is received by Spark Streaming effectively exactly once despite failures. In order to achieve exactly-once semantics for output of your results, your output operation that saves the data to an external data store must be either idempotent, or an atomic transaction that saves results and offsets (see Semantics of output operations in the main programming guide for further information).

Direct 读取方式

Direct 方式采用 Kafka 简单的 consumer api 方式来读取数据,无需经由ZooKeeper,此种方式不再需要专门 Receiver 来持续不断读取数据。当 batch 任务触发时,由 Executor 读取数据,并参与到其他 Executor 的数据计算过程中去。

driver 来决定读取多少 offsets,并将 offsets 交由 checkpoints 来维护。将触发下次 batch 任务,再由 Executor 读取 Kafka 数据并计算。从此过程我们可以发现 Direct 方式无需 Receiver 读取数据,而是需要计算时再读取数据,所以Direct 方式的数据消费对内存的要求不高,只需要考虑批量计算所需要的内存即可;另外 batch 任务堆积时,也不会影响数据堆积。其具体读取方式如下图:

Direct 读取实现

Spark Streaming 提供了一些重载读取 Kafka 数据的方法,本文中关注两个基于Scala 的方法,这在我们的应用场景中会用到,具体的方法代码如下:

方法 createDirectStream 中,ssc 是 StreamingContext;kafkaParams的具体配置见 Receiver-based 之中的配置,与之一样;这里面需要指出的是 fromOffsets ,其用来指定从什么 offset 处开始读取数据。

在实际的应用场景中,我们会将两种方法结合起来使用,大体的方向分为两个方面:

应用启动。当程序开发并上线,还未消费 Kafka 数据,此时从 largest 处读取数据,采用第二种方法;

应用重启。因资源、网络等其他原因导致程序失败重启时,需要保证从上次的 offsets 处开始读取数据,此时就需要采用第一种方法来保证我们的场景。

总体方向上,我们采用以上方法满足我们的需要,当然具体的策略我们不在本篇中讨论,后续会有专门的文章来介绍。从 largest 或者是 smallest 处读 Kafka 数据代码实现如下:

程序失败重启的逻辑代码如下:

代码中的 fromOffsets 参数从外部存储获取并需要处理转换,其代码如下:

该方法提供了从指定 offsets 处读取 Kafka 数据。如果发现读取数据异常,我们认为是offsets 失败,此种情况去捕获这个异常,然后从 largest 处读取 Kafka 数据。

Direct 读取问题

在实际的应用中,Direct Approach 方式很好地满足了我们的需要,与 Receiver-based 方式相比,有以下几方面的优势:

降低资源。Direct 不需要 Receivers,其申请的 Executors 全部参与到计算任务中;而 Receiver-based 则需要专门的 Receivers 来读取 Kafka 数据且不参与计算。因此相同的资源申请,Direct 能够支持更大的业务。

降低内存。Receiver-based 的 Receiver 与其他 Exectuor 是异步的,并持续不断接收数据,对于小业务量的场景还好,如果遇到大业务量时,需要提高 Receiver 的内存,但是参与计算的 Executor 并无需那么多的内存。而 Direct 因为没有 Receiver,而是在计算时读取数据,然后直接计算,所以对内存的要求很低。实际应用中我们可以把原先的 10G 降至现在的 2-4G 左右。

鲁棒性更好。Receiver-based 方法需要 Receivers 来异步持续不断的读取数据,因此遇到网络、存储负载等因素,导致实时任务出现堆积,但 Receivers 却还在持续读取数据,此种情况很容易导致计算崩溃。Direct 则没有这种顾虑,其 Driver 在触发 batch 计算任务时,才会读取数据并计算。队列出现堆积并不会引起程序的失败。

至于其他方面的优势,比如 简化并行(Simplified Parallelism)、高效(Efficiency)以及强一致语义(Exactly-once semantics)在之前已列出,在此不再介绍。虽然Direct 有以上这些优势,但是也存在一些不足,具体如下:

提高成本。Direct 需要用户采用 checkpoint 或者第三方存储来维护 offsets,而不像 Receiver-based 那样,通过 ZooKeeper 来维护 Offsets,此提高了用户的开发成本。

监控可视化。Receiver-based 方式指定 topic 指定 consumer 的消费情况均能通过 ZooKeeper 来监控,而 Direct 则没有这种便利,如果做到监控并可视化,则需要投入人力开发。

003

总结

本文介绍了基于 Spark Streaming 的 Kafka 数据读取方式,包括 Receiver-based 以及 Direct 两种方式。两种方式各有优劣,但相对来说 Direct 适用于更多的业务场景以及有更好的可护展性。

至于如何选择以上两种方式,除了业务场景外也跟团队相关,如果是应用初期,为了快速迭代应用,可以考虑采用第一种方式;如果要深入使用的话则建议采用第二种方式。本文只介绍了两种读取方式,并未涉及到读取策略、优化等问题。这些会在后续的文章中详细介绍。

作者:徐胜国,大连理工大学硕士毕业,360大数据中心数据研发工程师,主要负责基于Spark Streaming 的项目架构及研发工作。

原文:https://my.oschina.net/u/1250040/blog/908571

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180927B1FCZ600?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券