【Spark篇】---SparkStreaming+Kafka的两种模式receiver模式和Direct模式

LhWorld哥陪你聊算法

发布于 2018-09-13 14:19:44

1.4K0

发布于 2018-09-13 14:19:44

文章被收录于专栏：LhWorld哥陪你聊算法

一、前述

SparkStreamin是流式问题的解决的代表，一般结合kafka使用，所以本文着重讲解sparkStreaming+kafka两种模式。

二、具体

1、Receiver模式

原理图：

receiver模式理解：

在SparkStreaming程序运行起来后，Executor中会有receiver tasks接收kafka推送过来的数据。数据会被持久化，默认级别为MEMORY_AND_DISK_SER_2,这个级别也可以修改。receiver task对接收过来的数据进行存储和备份，这个过程会有节点之间的数据传输。备份完成后去zookeeper中更新消费偏移量，然后向Driver中的receiver tracker汇报数据的位置。最后Driver根据数据本地化将task分发到不同节点上执行。

receiver模式中存在的问题：

当Driver进程挂掉后，Driver下的Executor都会被杀掉，当更新完zookeeper消费偏移量的时候，Driver如果挂掉了，就会存在找不到数据的问题，相当于丢失数据。

如何解决这个问题？

开启WAL(write ahead log)预写日志机制,在接受过来数据备份到其他节点的时候，同时备份到HDFS上一份（我们需要将接收来的数据的持久化级别降级到MEMORY_AND_DISK），这样就能保证数据的安全性。不过，因为写HDFS比较消耗性能，要在备份完数据之后才能进行更新zookeeper以及汇报位置等，这样会增加job的执行时间，这样对于任务的执行提高了延迟度。

注意：1）开启WAL之后，接受数据级别要降级，有效率问题。2）开启WAL要checkpoint 3）开启WAL(write ahead log),往HDFS中备份一份数据

receiver的并行度设置

receiver的并行度是由spark.streaming.blockInterval来决定的，默认为200ms,假设batchInterval为5s,那么每隔blockInterval就会产生一个block,这里就对应每批次产生RDD的partition,这样5秒产生的这个Dstream中的这个RDD的partition为25个，并行度就是25。如果想提高并行度可以减少blockInterval的数值，但是最好不要低于50ms。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2018-03-06 ，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

【Spark篇】---SparkStreaming+Kafka的两种模式receiver模式和Direct模式

【Spark篇】---SparkStreaming+Kafka的两种模式receiver模式和Direct模式

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐