文章/答案/技术大牛

发布

首页视频029 - 尚硅谷 - SparkCore - 核心编程 - RDD - 特点

029 - 尚硅谷 - SparkCore - 核心编程 - RDD - 特点

2022-12-022022-12-02 16:02:16播放41

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷spark教程/视频/029 - 尚硅谷 - SparkCore - 核心编程 - RDD - 特点.avi

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
呃，我们之前呢，已经大概的把RDD是什么样的一个数据模型和结构呢，给大家简单的说了一下，那我们稍微的做一个总结，把咱们前面讲的东西呢，咱们给他总结一下，咱们回过头来，同学们看，我再把咱们这一块的东西啊，咱们拿过来，这是我们之前给大家做练习的时候的一些我们的东西啊来咱看一下，呃，咱们这里呢，现在呢，是有什么呢？我们的driver和我们的ex，然后中间呢，有两个task，这边是一个RDD，然后呢，我们再去执行的过程当中，需要把RDD当中的东西啊，给它分解成我们不同的task，对不对？那这个时候问题来了，它是怎么进行分解的呢？而且咱们说了RDD在咱们前面呢，不光只有一个，所以啊，咱们暂时先不考虑我们说有多个RDD的情况，我们假设就是一个RDD，那么如果就是一个RDD的话，同学们看来咱们假设呀，就是读取文件啊，咱们就读取文件，把这个呢给它拉大，然后呢，把这个RDD呢也给它拉大，然后呢。
01:00
这个时候我们在上面呢，会有一个我们的文件，所以复制啊，给它复制过来，然后这些呢，给它稍微的我们挪一下，诶他们挪一下，然后呢，把它拿过来，那我现在呢，我们就可以在这个地方，比方说我们写上咱们叫hello啊，咱们叫hello，然后盖。接下来我们再写。我们叫hello啊，咱们的Spark。好了，写完之后，那我接下来我们就要读取我们的数据，对不对？同学们啊，咱们要读取数据，那你读取数据的时候，我们就应该想办法呢，把它形成一个RDD对不对？但是我们这儿也别整那么复杂了，咱们就读文件就完事儿了，那么你读文件的话，你的逻辑是什么呀？你的逻辑大家想想，那是不是就是我们的这个东西来同学看，我们是不是就叫text file啊，所以咱们RDD当中是不是应该有读取文件的一个功能啊，那这个呢，我们就叫text file啊，就跟我们那个文件当中的这个代码是一样的，大家看在我们最上面的地方是不是有个叫text file啊，那么在这里面这个RDD就应该有这个功能，哎，老师呢，为什么不是说又有map呀，又有Fla map呢？就是因为它是一个最小的计算单元，它里面不能有太复杂的逻辑，如果你想要有复杂的逻辑的话，你需要组合多个RDD，就意味着这个紫色的RDD就是专门读取文件的，那么这个呢，我们就没有了。
02:23
对不对。这个呢也没有了，那好，那现在呢，我们如果要是说有个叫T，那咱们举个例子啊，这边呢，就是一个read的功能啊读取文件，那我现在光有它还不行，为什么呢？因为我的数据我要想办法读到，对不对，可是你读完了以后，那我怎么知道这个分解成task的时候，咱们的这个数据应该怎么办呢？比方说我这我觉得这个hello不太好，比方说咱们就叫一和二吧，啊咱们就叫1234好不好，同学们。所以啊，我把这个去掉啊，把这个去掉，去掉以后把这个我们变小一些啊，咱们变小一些，OK，反过来诶，就1234，那么现在你有一个计算逻辑，你的计算逻辑是为了把1234给它读过来，那么如果你把1234我们假设它读过来了，那我怎么能够把它来进行我们的区分呢？我们怎么知道一和二应该放上面那个task，我们的三和四要放下面那个task，对不对，我怎么知道，我不知道啊。
03:18
那该怎么办呀，同学们，诶，所以我们在RDD里面光有计算逻辑是不够的，它还需要想办法在后期当中去切分数据，那这个切分呢，我们可以用咱们之前学过的一种方式，咱们大家学卡夫卡的时候，为了提高它的并行消费能力，是不是有个分区的概念？对不对，同学们，所以啊，那我觉得咱们这个图形是不是可能再这么画可能会更好一些呢，来。把这个呢，我们画短一些啊，画短一些，把这个呢，咱们也给它画的稍微扁平一下啊，咱们扁平一下，把这个我们的read的操作呀，咱们放到这儿来，把1234呢，我们放过来啊，咱们放到这个位置好了，那我现在呢，就是这么一个情况，那么现在呢，我们干嘛呢？我们的RDD啊，现在准备读数据了，它读数据的时候，诶大家看在读数据，那这个数据呢，我们说了要想办法在后面给他进行切分，所以为了能够实现这种并行操作，为什么呢？多了它是个并字行吗？所以啊，咱们其实是有一种分区的概念呢，我在这里面呢，哎，就有一个分区，然后在这里复制，诶复制一下，那么你复制完以后，那能不能在我读数据的时候，比方说大家看我读取过来数据，诶好，我现在比方说读个一，你读个一之后，那么你就把这个一放到这个分区里面，是不是就可以了呢？诶把它拉长一些啊拉长一些，我把这个颜色我们标识一下。
04:47
所以大家会发现我们这边就有一个类似于分区的感觉，这个分区的目的就是为了给它形成独立的task并行执行啊，那同样道理，我要读一个二，那么读二的话，这个二也在这个位置，然后呢，你再读三的话，那么这个三和那个四就在这个位置了，对不对？所以啊，把这个咱们稍微的往这边挪一下，咱们把这边往这挪一下，然后呢，我的箭头，诶，它读取之后应该是这样的一个简单的功能了，然后呢，我们把这个呢，给它放过来，诶放到这边来啊嗯。
05:19
好了，所以同学们看我们的这个RDD，如果这种方式就会好很多，为什么呢？我事先呢，把这个分区准备好，然后再有读数的时候，诶，走不同的分区，一和二走这个，那么二三和四走这个，这样的话不就区分开了吗？当然了，不仅仅只有两个嘛，你可以再来嘛，比方说第三个，第四个都可以，那么相应的我们的资源是不是也应该更多一些呢？对吧，所以啊，这就是我们的模型的概念，咱们RDD就是一个最基本的数据处理模型，它里面包含了我们的这种分区的概念，它是为了提高并行计算的能力，而且它的计算逻辑是非常简单的，所以我们把它称之为最小的计算单元，在SPA当中RDD非常的重要。好了，同学们，我们现在把这个说完之后，回过头来咱们看课件，咱们课件当中我们一块来看一看啊来，他说了我们的RDD是SPA中最基本的数据处理模型，代码中它是一个抽象类，这个呢，我们可以给大家看一看，咱们点一下，点点完之后咱们来看看是不是个抽象类啊，没有任何的问题，正好呢，跟咱们前面讲的还是有关联的，同学们看，我们再给大家讲IO的时候，我们的什么reader啊，什么input stream啊，其实是不是都是抽象类啊，为什么它有很多的子类可以包装在一块儿，形成我们功能的。
06:44
补充，对吧，它体现了一种装饰者的设计模式，所以这个没问题，好了，那我们继续往下，他说了，它代表一个弹性的不可变可分区里面的元素可并行计算的集合，这个暂时不知道什么意思，后面有解释。第一个叫弹性，这个弹性呢，他说了存储的弹性，它的内存和磁盘的自动切换，我们之前讲过，咱们的Spark它在做计算的过程当中，它优化了计算的过程，它是采用内存的方式，所以它的性能要比map reduce更高一些，对不对，但是内存是有极限值的，你不能把它全占满，所以在某些情况下是可以把数据放在磁盘当中的，他们可以自动的来进行切换啊。还有一个叫容错的弹性，所谓的弹性就是变化的嘛，它不是一成不变的嘛，那么这里的数据丢失，它就可以自动恢复，比方说大家看一下我如果三和四哎传给他在技。
07:44
转的过程当中出现了问题怎么办？没关系，因为我在读取的时候，我知道我读的是哪个文件，我知道是如何分区的，那么在这种情况下，我的三和四可以重新来读，这样的话数据其实是不会丢失的，那么这样的话就体现了一种容错的变化。还有一个叫计算的弹性，计算的弹性就是说当我计算出现了错误的时候，我可以从头再来计算，这样的话保证它不许出现错误。所以分布式计算当中啊，这个容错性是我们需要重点考虑的，你不可能说那么多节点全都正确。
08:20
有点难度对不对，万一某个节点出现了错误怎么办？那这样的话，你不能说整个作业失败了，那么其他的节点呢，就白执行了，肯定是不合适的，所以他这个容错是我们需要考虑的。还有一个我们的分片的弹性，这个里面所谓的分片就是分区啊，它类似于我们卡夫卡当中的partition，就是分区的概念，它可以根据需要重新分片，分区这是什么意思呢？就是说我们现在啊，比方说1234，但你发现说，哎，老师我现在有四个ecute，你最开始只有两个的话，你只能并行执行两个task，那我有四个ECU，那我并行四个多好呢，所以啊，它完全可以在后续的过程当中改变咱们数据的分区，那这样的话呢，可以让资源更合理的利用，否则你有四个equor，现在只用上两个，你不就浪费资源了嘛，对不对，同学们，所以啊，这个也是非常好的啊，它是分区的弹性，这个分区不是固定不变，它是可以呢跟。
09:21
必需要去改变分区，这就是所谓的弹性的概念啊，就是可变的意思啊，然后接着往下，他说分布式啊，这个分布式呢，说数据存储在大数据集群的不同节点上，其实啊，咱们RDD它专门是用来在分布式集群当中做分布式计算的，所以它的数据的来源呢，它数据的存储啊，包括它数据的计算呢，其实都是在我们的分布式环境当中，这个应该大家能够明白对吧？好，接下来是数据集，他说我们RDD啊，封装了是数据计算的逻辑，它并不保存数据，我们前面给大家介绍了，咱们的RDD是没有什么我们保存数据的能力的，它的数据就一点一点过来，过来啊，过来之后，比方说诶，现在是我们的这个颜色，对吧？然后呢，诶，他要给它分解了，就是记住啊，当他走到这一步的时候，这块就没东西了，然后呢，我们的hello。
10:21
Stella，然后呢，再往下走，往下走就变成了他们了，那变成了他们了，然后再给它做聚合，诶再给他做聚合，然后最后再得到我们的结果，所以啊，在这么走的过程当中，数据就已经离开了它的位置了，所以它并不是说保存，我们给大家画这个地方呢，只是告诉大家它经历的这个步骤，并不是说它里面真正把数据存下来了，它并没有存，这个同学们需要注意一下啊，所以我们这里说了，它是一个封装了计算逻辑的数据模型，它并不会真正的去保存数据，是没有的。然后呢，数据抽象，他说RDD是一个抽象类，它需要子类具体实现，那肯定啊，我们刚才看到了我们的Spark中RDD它是一个抽象类，它如果是抽象类的话，你要想使用的话，你肯定得去继承它，重写它的方法，对吗？所以大家回过头来看一下我们刚才看的这个地方，这不就是一个具体的子类吗？然后点一下它里面不就继承了RDD吗？诶，所以啊，这是它们的一个关系，在咱们使用过程当中，那肯定用的是我们的子类嘛，对不对，因为子类的功能更加丰富，而且更加的完整。
11:35
好，那么我们接着往下啊，下面呢是我们不可变，这个不可变跟前面可变那个弹性的概念正好相反，咱们前面是弹性，就是可变的意思，它不是一成不变的，但是在某些情况下它是不可变的，他说了RDD封装了计算的逻辑，所以它是不可以发生改变的，就说明啊，它的逻辑一旦封装好之后，你是没有办法发生改变的，如果你要想改变的话，你只能产生新的R，所以大家看这个图，我们这个里面它专门用来读我们的文件数据，你要是想做扁平化，OK，创建个新的RD，把它包起来啊，形成一种我们的装饰者的设计模式，对不对？那如果你要想去做什么，你要想去做一个映射，OK，我们再来创建一个新的RD，你想做分组聚合，我们再给它创建一个新的RD，所以它这个里面就了我们所谓的不可变封装的。
12:36
不可以发生改变，想改变可以创建新的，就是这个意思了，然后下面呢，是可分区并行计算，咱们刚才说过了，如果我们事先不把我们数据给它分解好的话，那我们在后面的话，我怎么知道我们的一和二在哪个任务当中，我们的三和四在哪一个呢？对不对？所以说你分解上还比较麻烦，那我就不如啊，我事先先把这个所谓的分区先准备好，当你读取完数据以后，诶，我就放在指定的分区当中，这样的话我的分区当中就可以传递数据了，把数据传过去，这不就OK了吗？
13:13
所以啊，咱们用这种方式呢，把数据给它分开，还是一个好的选择的，所以有一个分区，那么既然有分区，他们互相之间不会受到影响，所以是可以并行计算的。这些呢，就是我们的RDD的相关的一些特点，把这个概念呢，咱们再来说明一下。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷spark教程

（29/210）

4分47秒

001 - 尚硅谷 - Spark框架 - 简介

460

7分47秒

002 - 尚硅谷 - Spark框架 - Vs Hadoop

530

2分23秒

003 - 尚硅谷 - Spark框架 - 核心模块 - 介绍

400

5分45秒

004 - 尚硅谷 - Spark框架 - 快速上手 - 开发环境准备

510

7分56秒

005 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 案例分析

440

7分6秒

006 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - Spark环境

410

11分55秒

007 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 功能实现

420

8分30秒

008 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 不同的实现

470

4分23秒

009 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - Spark的实现

370

3分49秒

010 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 日志和错误

440

8分10秒

011 - 尚硅谷 - Spark框架 - 运行环境 - 本地环境 - 基本配置和操作

520

3分9秒

012 - 尚硅谷 - Spark框架 - 运行环境 - 本地环境 - 提交应用程序

420

6分11秒

013 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 基本配置和操作

390

3分7秒

014 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 提交参数解析

360

4分7秒

015 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 配置历史服务

390

5分50秒

016 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 配置高可用

470

6分40秒

017 - 尚硅谷 - Spark框架 - 运行环境 - Yarn环境 - 基本配置 & 历史服务

360

11分5秒

018 - 尚硅谷 - Spark框架 - 运行环境 - Windows环境 & 总结

470

3分32秒

019 - 尚硅谷 - Spark框架 - 核心组件 - 介绍

370

3分30秒

020 - 尚硅谷 - Spark框架 - 核心概念 - Executor & Core & 并行度

410

6分59秒

021 - 尚硅谷 - Spark框架 - 核心概念 - DAG & 提交流程 & Yarn两种部署模式

410

12分47秒

022 - 尚硅谷 - SparkCore - 分布式计算模拟 - 搭建基础的架子

470

10分49秒

023 - 尚硅谷 - SparkCore - 分布式计算模拟 - 客户端向服务器发送计算任务

490

11分38秒

024 - 尚硅谷 - SparkCore - 分布式计算模拟 - 数据结构和分布式计算

460

5分30秒

025 - 尚硅谷 - SparkCore - 核心编程 - RDD - 概念介绍

380

10分10秒

026 - 尚硅谷 - SparkCore - 核心编程 - RDD - IO基本实现原理 - 1

440

8分48秒

027 - 尚硅谷 - SparkCore - 核心编程 - RDD - IO基本实现原理 - 2

450

12分23秒

028 - 尚硅谷 - SparkCore - 核心编程 - RDD - RDD和IO之间的关系

400

13分33秒

029 - 尚硅谷 - SparkCore - 核心编程 - RDD - 特点

410

11分18秒

030 - 尚硅谷 - SparkCore - 核心编程 - RDD - 五大主要配置

440

3分4秒

031 - 尚硅谷 - SparkCore - 核心编程 - RDD - 执行原理

410

11分1秒

032 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 内存

400

6分27秒

033 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 文件

300

4分41秒

034 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 文件1

400

11分40秒

035 - 尚硅谷 - SparkCore - 核心编程 - RDD - 集合数据源 - 分区的设定

450

13分52秒

036 - 尚硅谷 - SparkCore - 核心编程 - RDD - 集合数据源 - 分区数据的分配

370

11分31秒

037 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区的设定

400

8分20秒

038 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区数据的分配

370

6分12秒

039 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区数据的分配 - 案例分析

410

7分48秒

040 - 尚硅谷 - SparkCore - 核心编程 - RDD - 算子介绍

400

7分45秒

041 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map

440

5分10秒

042 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map - 小功能

330

8分52秒

043 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map - 并行计算效果演示

400

6分10秒

044 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions

500

3分48秒

045 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions - 小练习

460

2分20秒

046 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions & map的区别 - 完成比完美更重要

400

6分29秒

047 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitionsWithIndex

410

5分6秒

048 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - flatMap

440

2分39秒

049 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - flatMap - 小练习

400

6分32秒

050 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - glom

380

6分47秒

051 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 理解分区不变的含义

410

5分24秒

052 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy

390

6分0秒

053 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy - shuffle来袭

390

7分50秒

054 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy - 小练习

350

7分10秒

055 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - filter - 数据倾斜

390

16分10秒

056 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - sample - 抽奖喽

390

6分12秒

057 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - distinct

370

11分10秒

058 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - coalesce

370

7分26秒

059 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - repartition

310

6分30秒

060 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - sortBy

390

8分18秒

061 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 交集&并集&差集&拉链

480

8分9秒

062 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 交集&并集&差集&拉链 - 注意事项

460

10分17秒

063 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - partitionBy（前面有吸气，中间有等待）

390

5分54秒

064 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - partitionBy - 思考的问题

400

6分5秒

065 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - reduceByKey

410

4分13秒

066 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupByKey

420

18分56秒

067 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupByKey & reduceByKey的区别

440

11分8秒

068 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey

490

13分28秒

069 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 图解

380

3分53秒

070 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - foldByKey

440

8分49秒

071 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 小练习

320

6分3秒

072 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 小练习 - 图解

370

8分3秒

073 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - combineByKey

420

9分11秒

074 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 聚合算子的区别

410

6分59秒

075 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - join

450

3分24秒

076 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - leftOuterJoin & rightOuterJoin

450

4分27秒

077 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - cogroup

410

18分49秒

078 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 需求介绍 & 分析

510

6分39秒

079 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 需求设计

440

8分17秒

080 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 功能实现

410

4分31秒

081 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - 介绍

360

7分59秒

082 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - 算子演示

350

4分23秒

083 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - aggregate

390

4分44秒

084 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - countByKey & countByValue

410

10分15秒

085 - 尚硅谷 - SparkCore - 核心编程 - RDD - WordCount不同的实现方式 - (1-8)

430

6分2秒

086 - 尚硅谷 - SparkCore - 核心编程 - RDD - WordCount不同的实现方式 - (9-11)

410

3分40秒

087 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - save的方法

370

11分36秒

088 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - foreach

340

14分9秒

089 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - 闭包检测

390

12分3秒

090 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - 实际执行时的问题

350

10分5秒

091 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - Kryo序列化Core介绍

370

5分16秒

092 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 依赖 & 血缘关系介绍

390

11分35秒

093 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 血缘关系 - 演示

330

11分34秒

094 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 宽窄依赖

410

9分40秒

095 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 阶段&分区&任务 - 概念解析 - 秋游了

340

11分30秒

096 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 阶段划分源码解读

390

8分56秒

097 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 任务划分源码解读

390

2分50秒

098 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 任务分类

390

14分45秒

099 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - cache & persist基本原理和演示

380

100

5分17秒

100 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 作用

430

101

2分58秒

101 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 检查点

320

102

11分46秒

102 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 区别

370

103

9分1秒

103 - 尚硅谷 - SparkCore - 核心编程 - RDD - 分区器 - 自定义数据分区规则

340

104

4分35秒

104 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件读取与保存

350

105

15分48秒

105 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 原理及简单演示

350

106

3分37秒

106 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 问题

410

107

10分53秒

107 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 自定义实现

440

108

7分13秒

108 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 自定义实现 - 1

480

109

17分14秒

109 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 - 广播变量

380

110

12分2秒

110 - 尚硅谷 - SparkCore - 案例实操 - 数据准备 & 数据说明

400

111

9分45秒

111 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 需求设计 & 思路梳理

400

112

9分53秒

112 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 分别统计点击，下单，支付的数量

410

113

12分17秒

113 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 合并点击，下单，支付的数量

350

114

12分16秒

114 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第二种实现方式

350

115

12分55秒

115 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第三种实现方式

300

116

18分28秒

116 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第四种实现方式

430

117

14分47秒

117 - 尚硅谷 - SparkCore - 案例实操 - 需求二 - 功能实现

360

118

3分40秒

118 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 需求介绍

420

119

19分3秒

119 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 需求分析 - 图解

470

120

5分57秒

120 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 分母的计算

340

121

15分26秒

121 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 分子的计算并求转换率

340

122

8分29秒

122 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 优化需求

340

123

11分3秒

123 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 三层架构介绍

400

124

13分46秒

124 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 三层架构代码实现

370

125

17分47秒

125 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 架构代码优化

420

126

4分30秒

126 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - ThreadLocal解释

380

127

30分8秒

127 - 尚硅谷 - SparkCore - 总结 - 课件梳理

430

128

5分36秒

128 - 尚硅谷 - Spark内核 & 源码 - 总体介绍

410

129

6分28秒

129 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 起点

430

130

13分26秒

130 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 向Yarn提交应用

440

131

14分18秒

131 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 启动ApplicationMaster

360

132

10分20秒

132 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ApplicationMaster - 启动Driver线程

350

133

15分22秒

133 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ApplicationMaster - 启动Executor进程

430

134

17分29秒

134 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ExecutorBackend - 创建Executor计算对象

340

135

10分28秒

135 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - 流程梳理

410

136

7分54秒

136 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 通信原理

360

137

12分43秒

137 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 通信组件

390

138

4分21秒

138 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 课件梳理

370

139

7分22秒

139 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 上下文对象SparkContext

340

140

7分25秒

140 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - RDD依赖关系

360

141

13分44秒

141 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 阶段的划分

340

142

6分12秒

142 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的切分

370

143

16分51秒

143 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的调度

380

144

5分5秒

144 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的执行

400

145

6分20秒

145 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 课件梳理

370

146

7分3秒

146 - 尚硅谷 - Spark内核 & 源码 - shuffle - 原理回顾

400

147

12分17秒

147 - 尚硅谷 - Spark内核 & 源码 - shuffle - 图解

330

148

8分15秒

148 - 尚硅谷 - Spark内核 & 源码 - shuffle - 实现过程

380

149

15分45秒

149 - 尚硅谷 - Spark内核 & 源码 - shuffle - 写流程源码解读

440

150

16分18秒

150 - 尚硅谷 - Spark内核 & 源码 - shuffle - 归并排序和读流程

260

151

5分54秒

151 - 尚硅谷 - Spark内核 & 源码 - shuffle - 课件梳理

410

152

18分50秒

152 - 尚硅谷 - Spark内核 & 源码 - 内存管理

380

153

5分35秒

153 - 尚硅谷 - SparkSQL - 介绍

410

154

2分38秒

154 - 尚硅谷 - SparkSQL - 特点

370

155

6分43秒

155 - 尚硅谷 - SparkSQL - 数据模型 - DataFrame & DataSet

470

156

7分20秒

156 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - 简单演示

380

157

10分25秒

157 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - SQL的基本使用

500

158

6分34秒

158 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - DSL语法的基本使用

440

159

7分0秒

159 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - RDD之间的转换

460

160

4分5秒

160 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - 介绍

460

161

3分27秒

161 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - DataFrame的转换

400

162

5分3秒

162 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - RDD的转换

340

163

4分50秒

163 - 尚硅谷 - SparkSQL - 核心编程 - DataSet & DataFrame & RDD之间的关系

410

164

7分20秒

164 - 尚硅谷 - SparkSQL - 核心编程 - IDEA创建SparkSQL环境对象

370

165

7分48秒

165 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - DataFrame基本操作

380

166

3分17秒

166 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - DataSet基本操作

350

167

5分46秒

167 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - RDD & DataFrame & DataSet互相转换

310

168

4分17秒

168 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDF函数

340

169

5分10秒

169 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 实现原理

360

170

16分13秒

170 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 弱类型函数实现

470

171

10分57秒

171 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 强类型函数实现

390

172

6分23秒

172 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 早期强类型函数实现

420

173

3分21秒

173 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 课件梳理

380

174

6分34秒

174 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 通用方法

380

175

8分29秒

175 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作JSON & CSV

380

176

4分20秒

176 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作MySQL

360

177

5分39秒

177 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作内置Hive

460

178

3分52秒

178 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作外置Hive

440

179

4分27秒

179 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 代码操作外置Hive

310

180

4分14秒

180 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - beeline操作Hive

430

181

6分36秒

181 - 尚硅谷 - SparkSQL - 案例实操 - 数据准备

530

182

12分55秒

182 - 尚硅谷 - SparkSQL - 案例实操 - 需求部分实现

470

183

26分53秒

183 - 尚硅谷 - SparkSQL - 案例实操 - 需求完整实现

490

184

13分38秒

184 - 尚硅谷 - SparkSQL - 总结 - 课件梳理

380

185

9分24秒

185 - 尚硅谷 - SparkStreaming - 概念 - 介绍

430

186

10分23秒

186 - 尚硅谷 - SparkStreaming - 概念 - 原理 & 特点

370

187

14分39秒

187 - 尚硅谷 - SparkStreaming - 入门 - WordCount - 实现

400

188

3分10秒

188 - 尚硅谷 - SparkStreaming - 入门 - WordCount - 解析

400

189

2分37秒

189 - 尚硅谷 - SparkStreaming - DStream创建 - Queue

430

190

7分34秒

190 - 尚硅谷 - SparkStreaming - DStream创建 - 自定义数据采集器

320

191

3分24秒

191 - 尚硅谷 - SparkStreaming - DStream创建 - Socket数据采集器源码解读

390

192

10分50秒

192 - 尚硅谷 - SparkStreaming - DStream创建 - Kafka数据源

430

193

16分7秒

193 - 尚硅谷 - SparkStreaming - DStream转换 - 状态操作

350

194

9分5秒

194 - 尚硅谷 - SparkStreaming - DStream转换 - 无状态操作 - transform

360

195

3分58秒

195 - 尚硅谷 - SparkStreaming - DStream转换 - 无状态操作 - join

350

196

12分16秒

196 - 尚硅谷 - SparkStreaming - DStream转换 - 有状态操作 - window

370

197

8分38秒

197 - 尚硅谷 - SparkStreaming - DStream转换 - 有状态操作 - window - 补充

370

198

4分42秒

198 - 尚硅谷 - SparkStreaming - DStream输出

330

199

15分43秒

199 - 尚硅谷 - SparkStreaming - 优雅地关闭

350

200

3分29秒

200 - 尚硅谷 - SparkStreaming - 优雅地关闭 - 恢复数据

300

201

16分41秒

201 - 尚硅谷 - SparkStreaming - 案例实操 - 环境和数据准备

370

202

10分19秒

202 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 分析

340

203

19分27秒

203 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 黑名单判断

270

204

16分25秒

204 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 统计数据更新

290

205

19分29秒

205 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 测试 & 简化 & 优化

400

206

9分25秒

206 - 尚硅谷 - SparkStreaming - 案例实操 - 需求二 - 功能实现

330

207

6分10秒

207 - 尚硅谷 - SparkStreaming - 案例实操 - 需求二 - 乱码问题

420

208

15分49秒

208 - 尚硅谷 - SparkStreaming - 案例实操 - 需求三 - 介绍 & 功能实现

300

209

9分52秒

209 - 尚硅谷 - SparkStreaming - 案例实操 - 需求三 - 效果演示

390

210

8分11秒

210 - 尚硅谷 - SparkStreaming - 总结 - 课件梳理

360

029 - 尚硅谷 - SparkCore - 核心编程 - RDD - 特点

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐