在很多实时数据处理的场景中，都需要用到流式处理（Stream Process）框架，Spark也包含了两个完整的流式处理框架Spark Streaming和Structured Streaming（Spark 2.0出现），先阐述流式处理框架，之后介绍Spark Streaming框架使用。

Spark Streaming概述

在传统的数据处理过程中，我们往往先将数据存入数据库中，当需要的时候再去数据库中进行检索查询，将处理的结果返回给请求的用户；另外，MapReduce 这类大数据处理框架，更多应用在离线计算场景中。而对于一些实时性要求较高的场景，我们期望延迟在秒甚至毫秒级别，就需要引出一种新的数据计算结构——流式计算，对无边界的数据进行连续不断的处理、聚合和分析。

Streaming 应用场景

如下的场景需求, 仅仅通过传统的批处理/离线处理/离线计算/处理历史数据是无法完成的：

1）、电商实时大屏：每年双十一时，淘宝和京东实时订单销售额和产品数量大屏展示，要求：

数据量大，可能每秒钟上万甚至几十万订单量
快速的处理，统计出不同维度销售订单额，以供前端大屏展示

2）、商品推荐：京东和淘宝的商城在购物车、商品详情等地方都有商品推荐的模块，商品推荐的要求：

快速的处理, 加入购物车以后就需要迅速的进行推荐
数据量大
需要使用一些推荐算法

3）、工业大数据：现在的工场中, 设备是可以联网的, 汇报自己的运行状态, 在应用层可以针对这些数据来分析运行状况和稳健程度, 展示工件完成情况, 运行情况等，工业大数据的需求：

快速响应, 及时预测问题
数据是以事件的形式动态的产品和汇报
因为是运行状态信息, 且一般都是几十上百台机器, 所以汇报的数据量很大

4）、集群监控：一般的大型集群和平台, 都需要对其进行监控，监控的需求

要针对各种数据库, 包括 MySQL, HBase 等进行监控
要针对应用进行监控, 例如 Tomcat, Nginx, Node.js 等
要针对硬件的一些指标进行监控, 例如 CPU, 内存, 磁盘等
工具的日志输出是非常多的, 往往一个用户的访问行为会带来几百条日志, 这些都要汇报, 所以数据量比较大
要从这些日志中, 聚合系统运行状况

上述展示场景需要实时对数据进行分析处理，属于大数据中的实时流式数据处理

Streaming 计算模式

流式处理任务是大数据处理中很重要的一个分支，关于流式计算的框架也有很多，如比较出名的Storm流式处理框架，是由Nathan Marz等人于 2010 年最先开发，之后将Storm开源，成为 Apache 的顶级项目，Trident 对Storm进行了一个更高层次的抽象；另外由LinkedIn贡献给社区的 Samza 也是一种流处理解决方案，不过其构建严重依赖于另一个开源项目 Kafka。

Spark Streaming 构建在Spark的基础之上的实时流处理框架，随着Spark的发展，Spark Streaming和Structured Streaming也受到了越来越多的关注。

不同的流式处理框架有不同的特点，也适应不同的场景，主要有如下两种模式。

模式一：原生流处理（Native）

所有输入记录会一条接一条地被处理，上面提到的 Storm 和 Flink都是采用这种方式；

绝对一次一条的模式

模式二：微批处理（Batch）

将输入的数据以某一时间间隔 T，切分成多个微批量数据，然后对每个批量数据进行处理，Spark Streaming 和 StructuredStreaming采用的是这种方式；

比如间隔是1秒,就一秒钟处理一个批次

Spark Streaming 计算思想

Spark Streaming是Spark生态系统当中一个重要的框架，它建立在Spark Core之上，下图也可以看出Sparking Streaming在Spark生态系统中地位。

官方定义Spark Streaming模块：

SparkStreaming是一个基于SparkCore之上的实时计算框架，可以从很多数据源消费数据并对数据进行实时的处理，具有高吞吐量和容错能力强等特点。

对于Spark Streaming来说，将流式数据封装的数据结构：DStream（Discretized Stream，离散化数据流，连续不断的数据流），代表持续性的数据流和经过各种Spark算子操作后的结果数据流，其实就是将流式数据按照时间间隔BatchInterval划分为很多Batch批次，针对每个Batch批次数据当做RDD进行快速分析和处理。

SparkStreaming模块对流式数据处理，介于Batch批处理和RealTime实时处理之间处理数据方式。

2021年大数据Spark - Lanson

2021年大数据Spark（三十四）：Spark Streaming概述

Spark Streaming

Spark Streaming概述

Streaming 应用场景

Streaming 计算模式

Spark Streaming 计算思想

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐