开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

2021年大数据Spark - Lanson

共 50 篇文章

1

2021年大数据Spark（一）：框架概述

2

2021年大数据Spark（二）：四大特点

3

2021年大数据Spark（三）：框架模块初步了解

4

2021年大数据Spark（四）：三种常见的运行模式

5

2021年大数据Spark（五）：大环境搭建本地模式 Local

6

2021年大数据Spark（六）：环境搭建集群模式 Standalone

7

2021年大数据Spark（七）：应用架构基本了解

8

2021年大数据Spark（八）：环境搭建集群模式 Standalone HA

9

2021年大数据Spark（九）：Spark On Yarn两种模式总结

10

2021年大数据Spark（十）：环境搭建集群模式 Spark on YARN

11

2021年大数据Spark（十一）：应用开发基于IDEA集成环境

12

2021年大数据Spark（十二）：Spark Core的RDD详解

13

2021年大数据Spark（十三）：Spark Core的RDD创建

14

2021年大数据Spark（十四）：Spark Core的RDD操作

15

2021年大数据Spark（十五）：Spark Core的RDD常用算子

16

2021年大数据Spark（十六）：Spark Core的RDD算子练习

17

2021年大数据Spark（十七）：Spark Core的RDD持久化

18

2021年大数据Spark（十八）：Spark Core的RDD Checkpoint

19

2021年大数据Spark（十九）：Spark Core的共享变量

20

2021年大数据Spark（二十）：Spark Core外部数据源引入

21

2021年大数据Spark（二十一）：Spark Core案例-SogouQ日志分析

22

2021年大数据Spark（二十二）：内核原理

23

2021年大数据Spark（二十三）：SparkSQL 概述

24

2021年大数据Spark（二十四）：SparkSQL数据抽象

25

2021年大数据Spark（二十五）：SparkSQL的RDD、DF、DS相关操作

26

2021年大数据Spark（二十六）：SparkSQL数据处理分析

27

2021年大数据Spark（二十七）：SparkSQL案例一花式查询和案例二WordCount

28

2021年大数据Spark（二十八）：SparkSQL案例三电影评分数据分析

29

2021年大数据Spark（二十九）：SparkSQL案例四开窗函数

30

2021年大数据Spark（三十）：SparkSQL自定义UDF函数

31

2021年大数据Spark（三十一）：Spark On Hive

32

2021年大数据Spark（三十二）：SparkSQL的External DataSource

33

2021年大数据Spark（三十三）：SparkSQL分布式SQL引擎

34

2021年大数据Spark（三十四）：Spark Streaming概述

35

2021年大数据Spark（三十五）：SparkStreaming数据抽象 DStream

36

2021年大数据Spark（三十六）：SparkStreaming实战案例一 WordCount

37

2021年大数据Spark（三十七）：SparkStreaming实战案例二 UpdateStateByKey

38

2021年大数据Spark（三十八）：SparkStreaming实战案例三状态恢复扩展

39

2021年大数据Spark（三十九）：SparkStreaming实战案例四窗口函数

40

2021年大数据Spark（四十）：SparkStreaming实战案例五 TopN-transform

41

2021年大数据Spark（四十一）：SparkStreaming实战案例六自定义输出 foreachRDD

42

2021年大数据Spark（四十二）：SparkStreaming的Kafka快速回顾与整合说明

43

2021年大数据Spark（四十三）：SparkStreaming整合Kafka 0.10 开发使用

44

2021年大数据Spark（四十四）：Structured Streaming概述

45

2021年大数据Spark（四十五）：Structured Streaming Sources 输入源

46

2021年大数据Spark（四十六）：Structured Streaming Operations 操作

47

2021年大数据Spark（四十七）：Structured Streaming Sink 输出

48

2021年大数据Spark（四十八）：Structured Streaming 输出终端/位置

49

2021年大数据Spark（四十九）：Structured Streaming 整合 Kafka

50

2021年大数据Spark（五十）：Structured Streaming 案例一实时数据ETL架构

清单首页2021年大数据Spark - Lanson文章详情

清单「2021年大数据Spark - Lanson」 03/50

2021年大数据Spark（三）：框架模块初步了解

Lansonli·腾云先锋腾云先锋（TDP）成员

Spark 框架模块-了解

整个Spark 框架模块包含：Spark Coke、 Spark SQL、 Spark Streaming、 Spark GraphX、 Spark MLlib，而后四项的能力都是建立在核心引擎之上。

Spark Core

实现了 Spark 的基本功能，包含RDD、任务调度、内存管理、错误恢复、与存储系统交互等模块。数据结构：RDD

Spark SQL

Spark 用来操作结构化数据的程序包。通过 Spark SQL，我们可以使用 SQL操作数据。数据结构：Dataset/DataFrame = RDD + Schema

官网：http://spark.apache.org/sql/

Spark Streaming

Spark 提供的对实时数据进行流式计算的组件。提供了用来操作数据流的 API。 数据结构：DStream = Seq[RDD]

官网：http://spark.apache.org/streaming/

Spark MLlib

提供常见的机器学习(ML)功能的程序库。包括分类、回归、聚类、协同过滤等，还提供了模型评估、数据导入等额外的支持功能。 数据结构：RDD或者DataFrame

官网：http://spark.apache.org/mllib/

Spark GraphX

Spark中用于图计算的API，性能良好，拥有丰富的功能和运算符，能在海量数据上自如地运行复杂的图算法。数据结构：RDD或者DataFrame

官网：http://spark.apache.org/graphx/

在Full Stack 理想的指引下，Spark 中的Spark SQL 、SparkStreaming 、MLLib 、GraphX 几大子框架和库之间可以无缝地共享数据和操作，这不仅打造了Spark 在当今大数据计算领域其他计算框架都无可匹敌的优势，而且使得Spark 正在加速成为大数据处理中心首选通用计算平台。

Structured Streaming

Structured Streaming结构化流处理模块针对，流式结构化数据封装到DataFrame中进行分析。

Structured Streaming是建立在SparkSQL引擎之上的可伸缩和高容错的流式处理引擎，可以像操作静态数据的批量计算一样来执行流式计算。当流式数据不断的到达的过程中Spark SQL的引擎会连续不断的执行计算并更新最终结果。简而言之，Structured Streaming提供了快速、可伸缩、可容错、端到端精确的流处理。

官网：http://spark.apache.org/docs/2.4.5/structured-streaming-programming-guide.html

举报