开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

2021年大数据Spark - Lanson

共 50 篇文章

1

2021年大数据Spark（一）：框架概述

2

2021年大数据Spark（二）：四大特点

3

2021年大数据Spark（三）：框架模块初步了解

4

2021年大数据Spark（四）：三种常见的运行模式

5

2021年大数据Spark（五）：大环境搭建本地模式 Local

6

2021年大数据Spark（六）：环境搭建集群模式 Standalone

7

2021年大数据Spark（七）：应用架构基本了解

8

2021年大数据Spark（八）：环境搭建集群模式 Standalone HA

9

2021年大数据Spark（九）：Spark On Yarn两种模式总结

10

2021年大数据Spark（十）：环境搭建集群模式 Spark on YARN

11

2021年大数据Spark（十一）：应用开发基于IDEA集成环境

12

2021年大数据Spark（十二）：Spark Core的RDD详解

13

2021年大数据Spark（十三）：Spark Core的RDD创建

14

2021年大数据Spark（十四）：Spark Core的RDD操作

15

2021年大数据Spark（十五）：Spark Core的RDD常用算子

16

2021年大数据Spark（十六）：Spark Core的RDD算子练习

17

2021年大数据Spark（十七）：Spark Core的RDD持久化

18

2021年大数据Spark（十八）：Spark Core的RDD Checkpoint

19

2021年大数据Spark（十九）：Spark Core的共享变量

20

2021年大数据Spark（二十）：Spark Core外部数据源引入

21

2021年大数据Spark（二十一）：Spark Core案例-SogouQ日志分析

22

2021年大数据Spark（二十二）：内核原理

23

2021年大数据Spark（二十三）：SparkSQL 概述

24

2021年大数据Spark（二十四）：SparkSQL数据抽象

25

2021年大数据Spark（二十五）：SparkSQL的RDD、DF、DS相关操作

26

2021年大数据Spark（二十六）：SparkSQL数据处理分析

27

2021年大数据Spark（二十七）：SparkSQL案例一花式查询和案例二WordCount

28

2021年大数据Spark（二十八）：SparkSQL案例三电影评分数据分析

29

2021年大数据Spark（二十九）：SparkSQL案例四开窗函数

30

2021年大数据Spark（三十）：SparkSQL自定义UDF函数

31

2021年大数据Spark（三十一）：Spark On Hive

32

2021年大数据Spark（三十二）：SparkSQL的External DataSource

33

2021年大数据Spark（三十三）：SparkSQL分布式SQL引擎

34

2021年大数据Spark（三十四）：Spark Streaming概述

35

2021年大数据Spark（三十五）：SparkStreaming数据抽象 DStream

36

2021年大数据Spark（三十六）：SparkStreaming实战案例一 WordCount

37

2021年大数据Spark（三十七）：SparkStreaming实战案例二 UpdateStateByKey

38

2021年大数据Spark（三十八）：SparkStreaming实战案例三状态恢复扩展

39

2021年大数据Spark（三十九）：SparkStreaming实战案例四窗口函数

40

2021年大数据Spark（四十）：SparkStreaming实战案例五 TopN-transform

41

2021年大数据Spark（四十一）：SparkStreaming实战案例六自定义输出 foreachRDD

42

2021年大数据Spark（四十二）：SparkStreaming的Kafka快速回顾与整合说明

43

2021年大数据Spark（四十三）：SparkStreaming整合Kafka 0.10 开发使用

44

2021年大数据Spark（四十四）：Structured Streaming概述

45

2021年大数据Spark（四十五）：Structured Streaming Sources 输入源

46

2021年大数据Spark（四十六）：Structured Streaming Operations 操作

47

2021年大数据Spark（四十七）：Structured Streaming Sink 输出

48

2021年大数据Spark（四十八）：Structured Streaming 输出终端/位置

49

2021年大数据Spark（四十九）：Structured Streaming 整合 Kafka

50

2021年大数据Spark（五十）：Structured Streaming 案例一实时数据ETL架构

清单首页2021年大数据Spark - Lanson文章详情

清单「2021年大数据Spark - Lanson」 36/50

2021年大数据Spark（三十六）：SparkStreaming实战案例一 WordCount

Lansonli·腾云先锋腾云先锋（TDP）成员

SparkStreaming实战案例一 WordCount

需求

从TCP Socket数据源实时消费数据，对每批次Batch数据进行词频统计WordCount，流程图如下：

准备工作

1.在node01上安装nc命令

nc是netcat的简称，原本是用来设置路由器,我们可以利用它向某个端口发送数据

yum install -y nc

2.在node01启动客户端工具发送消息

 nc -lk 9999

代码实现

http://spark.apache.org/docs/latest/streaming-programming-guide.html

从官方文档可知，提供两种方式构建StreamingContext实例对象，如下：

第一种方式：构建SparkConf对象

第二种方式：构建SparkContext对象

完整代码如下所示：

package cn.itcast.streaming

import org.apache.commons.lang3.StringUtils
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
 * 基于IDEA集成开发环境，编程实现从TCP Socket实时读取流式数据，对每批次中数据进行词频统计。
 */
object SparkStreamingDemo01_WordCount {
  def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setAppName(this.getClass.getSimpleName.stripSuffix("$")).setMaster("local[*]")
    val sc: SparkContext = new SparkContext(conf)
    sc.setLogLevel("WARN")
    //batchDuration the time interval at which streaming data will be divided into batches
    //流数据将被划分为批的时间间隔,就是每隔多久对流数据进行一次微批划分!
    val ssc: StreamingContext = new StreamingContext(sc, Seconds(5))

    val inputDStream: ReceiverInputDStream[String] = ssc.socketTextStream("node1", 9999)

    val resultDStream: DStream[(String, Int)] = inputDStream
      .filter(StringUtils.isNotBlank(_))
      .flatMap(_.trim.split("\\s+"))
      .map((_, 1))
      .reduceByKey(_ + _)

    resultDStream.print(10)

    // 启动并等待程序停止
    // 对于流式应用来说，需要启动应用
    ssc.start()
    // 流式应用启动以后，正常情况一直运行（接收数据、处理数据和输出数据），除非人为终止程序或者程序异常停止
    ssc.awaitTermination()
    // 关闭流式应用(参数一：是否关闭SparkContext，参数二：是否优雅的关闭）
    ssc.stop(stopSparkContext = true, stopGracefully = true)
    //注意:
    //上面的代码可以做WordCount,但是只能对当前批次的数据进行累加!
  }
}

应用监控

运行上述词频统计案例，登录到WEB UI监控页面：http://localhost:4040/

查看相关监控信息。

其一、Streaming流式应用概要信息

运行结果监控截图：

每批次Batch数据处理总时间TD = 批次调度延迟时间SD + 批次数据处理时间PT

其二、性能衡量标准

SparkStreaming实时处理数据性能如何（是否可以实时处理数据）？？如何衡量的呢？？

需要满足：

每批次数据处理时间TD <= BatchInterval每批次时间间隔

举报