开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

2021年大数据Spark - Lanson

共 50 篇文章

1

2021年大数据Spark（一）：框架概述

2

2021年大数据Spark（二）：四大特点

3

2021年大数据Spark（三）：框架模块初步了解

4

2021年大数据Spark（四）：三种常见的运行模式

5

2021年大数据Spark（五）：大环境搭建本地模式 Local

6

2021年大数据Spark（六）：环境搭建集群模式 Standalone

7

2021年大数据Spark（七）：应用架构基本了解

8

2021年大数据Spark（八）：环境搭建集群模式 Standalone HA

9

2021年大数据Spark（九）：Spark On Yarn两种模式总结

10

2021年大数据Spark（十）：环境搭建集群模式 Spark on YARN

11

2021年大数据Spark（十一）：应用开发基于IDEA集成环境

12

2021年大数据Spark（十二）：Spark Core的RDD详解

13

2021年大数据Spark（十三）：Spark Core的RDD创建

14

2021年大数据Spark（十四）：Spark Core的RDD操作

15

2021年大数据Spark（十五）：Spark Core的RDD常用算子

16

2021年大数据Spark（十六）：Spark Core的RDD算子练习

17

2021年大数据Spark（十七）：Spark Core的RDD持久化

18

2021年大数据Spark（十八）：Spark Core的RDD Checkpoint

19

2021年大数据Spark（十九）：Spark Core的共享变量

20

2021年大数据Spark（二十）：Spark Core外部数据源引入

21

2021年大数据Spark（二十一）：Spark Core案例-SogouQ日志分析

22

2021年大数据Spark（二十二）：内核原理

23

2021年大数据Spark（二十三）：SparkSQL 概述

24

2021年大数据Spark（二十四）：SparkSQL数据抽象

25

2021年大数据Spark（二十五）：SparkSQL的RDD、DF、DS相关操作

26

2021年大数据Spark（二十六）：SparkSQL数据处理分析

27

2021年大数据Spark（二十七）：SparkSQL案例一花式查询和案例二WordCount

28

2021年大数据Spark（二十八）：SparkSQL案例三电影评分数据分析

29

2021年大数据Spark（二十九）：SparkSQL案例四开窗函数

30

2021年大数据Spark（三十）：SparkSQL自定义UDF函数

31

2021年大数据Spark（三十一）：Spark On Hive

32

2021年大数据Spark（三十二）：SparkSQL的External DataSource

33

2021年大数据Spark（三十三）：SparkSQL分布式SQL引擎

34

2021年大数据Spark（三十四）：Spark Streaming概述

35

2021年大数据Spark（三十五）：SparkStreaming数据抽象 DStream

36

2021年大数据Spark（三十六）：SparkStreaming实战案例一 WordCount

37

2021年大数据Spark（三十七）：SparkStreaming实战案例二 UpdateStateByKey

38

2021年大数据Spark（三十八）：SparkStreaming实战案例三状态恢复扩展

39

2021年大数据Spark（三十九）：SparkStreaming实战案例四窗口函数

40

2021年大数据Spark（四十）：SparkStreaming实战案例五 TopN-transform

41

2021年大数据Spark（四十一）：SparkStreaming实战案例六自定义输出 foreachRDD

42

2021年大数据Spark（四十二）：SparkStreaming的Kafka快速回顾与整合说明

43

2021年大数据Spark（四十三）：SparkStreaming整合Kafka 0.10 开发使用

44

2021年大数据Spark（四十四）：Structured Streaming概述

45

2021年大数据Spark（四十五）：Structured Streaming Sources 输入源

46

2021年大数据Spark（四十六）：Structured Streaming Operations 操作

47

2021年大数据Spark（四十七）：Structured Streaming Sink 输出

48

2021年大数据Spark（四十八）：Structured Streaming 输出终端/位置

49

2021年大数据Spark（四十九）：Structured Streaming 整合 Kafka

50

2021年大数据Spark（五十）：Structured Streaming 案例一实时数据ETL架构

清单首页2021年大数据Spark - Lanson文章详情

清单「2021年大数据Spark - Lanson」 46/50

2021年大数据Spark（四十六）：Structured Streaming Operations 操作

Lansonli·腾云先锋腾云先锋（TDP）成员

Operations 操作

获得到Source之后的基本数据处理方式和之前学习的DataFrame、DataSet一致，不再赘述

官网示例代码：

case class DeviceData(device: String, deviceType: String, signal: Double, time: DateTime)

val df: DataFrame = ... // streaming DataFrame with IOT device data with schema { device: string, deviceType: string, signal: double, time: string }

val ds: Dataset[DeviceData] = df.as[DeviceData]    // streaming Dataset with IOT device data

// Select the devices which have signal more than 10

df.select("device").where("signal > 10")      // using untyped APIs   

ds.filter(_.signal > 10).map(_.device)         // using typed APIs

// Running count of the number of updates for each device type

df.groupBy("deviceType").count()                 // using untyped API

// Running average signal for each device type

import org.apache.spark.sql.expressions.scalalang.typed

ds.groupByKey(_.deviceType).agg(typed.avg(_.signal))    // using typed API

举报