文章/答案/技术大牛

发布

首页视频147 - 尚硅谷 - Spark内核 & 源码 - shuffle - 图解

147 - 尚硅谷 - Spark内核 & 源码 - shuffle - 图解

2022-12-022022-12-02 16:02:16播放33

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷spark教程/视频/147 - 尚硅谷 - Spark内核 & 源码 - shuffle - 图解.avi

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
刚才提到了，如果把数据量减少的话，它可以提高我们的性能，对不对，那还有别的方式可以提高性能吗？这个呢，我们给大家再说一说啊，咱们再来看一看，所以啊，咱们在这个往下啊，咱们往下咱们专门给大家去讲一下咱们的这个沙uffle，好吧，那这个沙Le呢，比方说咱们假设啊，同学们来，咱们假设我现在有一个CU盒啊，一个我们的CPU盒放到这儿了啊，然后呢，我放到这里，好，我现在呢，有一个我们的task。呃，这个task呢，我在这里面干嘛呢？准备要去，诶生成我们的文件干嘛呢？去往下游呢，去传数据，所以啊，这是我们的一个task对吧？诶，我们的一个task现在呢，他要写磁盘了，所以我们这里呢，给一个普通的一个颜色就可以了啊诶，那我下面呢，会有什么呢？三个分区，其实说白了就是有三个task来读数据，所以呢，我们这里呢，拿过来，然后再给它拿过来放这边放过来以后呢，这个我们用一个我们的嗯，红色啊，然后呢，这边用一个黄色，然后呢，这边给一个绿色，对吧，我们红绿灯的颜色啊，放过来。
01:06
好了，放过来以后就意味着我现在有一个盒，然后呢，有一个task，现在里面的数据呢，被这三个分区的数据呢所要去共享了，那我们说了要写磁盘了，对不对？那好，那如果写磁盘的话，我该怎么写呢？诶老师那简单的你就写一个文件当中不就行了吗？所以啊，我现在咱们比方说我就写入到一个文件当中，你放过来的话，同学看我写上一个什么呢？咱们叫做file对不对，然后呢，在我的这个地方，我们的箭头就指向它。我的task呢，就可以写文件了啊OK，那你写文件的情况下，同学们想一想吧，那你这个所有的数据都写在一份文件当中，那么你的下游的三个他该怎么去读它呀，那你三个是不是应该同时就读这个文件呢？所以说诶一个写我们三个读是不是这个意思啊，同学们，哎，就这个意思啊，那我现在呢，把这个呢给它放过来，同样道理，把这个放过来，你们觉得怎么样啊？
02:03
你们觉得有没有什么问题啊，同学们？你们是不是会发现这种方式是不太好的，因为你的task写文件的时候，我们的这几个task他知道我该从哪读吗？他不知道就意味着这个数据是混在一块儿的，那么我们下游的task是很难知道我该从一个文件中读哪一块儿，而且他们同时去读的话，是不是容易造成数据混乱呢？有可能会出现这种情况啊，所以说这种思路并不好，那我该怎么办呀？那我们刚才说过了，因为你在当前一个task给三个task输入数据的话，那么你写一个文件会感觉不好，那我们就会直观的去想啊，如果我们现在是一个task，我生成三份文件是不是就好很多呢？所以腾看我的基本思路就是这样的来拷贝，拷贝以后我们往下走。往下走，往下走以后我干什么呢？咱们这样同不彤，我现在不是一份文件了，来诶把它变小，变小了以后干嘛呢？给它标识上红色，诶标识上红色，然后呢，再来我们给它标识一下，咱们这个写个黄色啊，咱们的黄色，然后再来我们给它一个绿色啊，咱们给他一个绿色放过来以后，同学们看一下，就意味着我现在呀，咱们的这个task可能诶就准备呢，生成我们的什么三份文件，所以呢，把这个呢拿过来啊，咱们的三份文件，然后把这个我们放到这边啊三份文件，那如果是我们三份文件的情况下，大家想想那是不是就方便了很多，为什么？因为我们的这个地方可以读它，然后呢，咱们的这个可以读它，我们黄色的可以读它，对不对，同学们。
03:41
所以这样的话不就解决了吗？我一个task把他们的数据写入三份不同的文件，我们下游的task去读取数据非常的方便，没问题吧，同学们这个思路我觉得非常好啊，为什么呢？互相不影响吗？但是。你这个东西它非常的好，可是有额外的问题什么呀。
04:03
我就只有一个task吗？如果万一我这个，诶，我们的计算当中还有另外一个task怎么办？比方说我还有个task怎么办，对不对，那这时候是不是也要三份文件我们上来啊，咱们复制一下，复制以后放过来，放过来以后来啊。你放过来以后，同学们看一下，那我这个地方是不是应该箭头就指向这里啦，然后呢，我们的箭头就指向诶这里了，对不对，诶放过来同样道理，我们这个地方呢，放到这儿，然后呢，给它放到这里对不对？所以啊，我们现在是这样子的，但是我还是那句话，难道我们只有一个核吗？啊，有没有可能有多个核啊，所以我们拷贝拷贝以后来我们假设有多个核怎么办？如果有多个核的话，那是不是我的箭头我们要放到这边，我们的箭头要放到这边呀？诶就是这样啊好，那么我们这边同样道理来拷贝，拷贝以后你会发现这根线是越来又越多，越来越乱呢，诶有没有发现这个问题，好，那就说明了什么现象啊，是不是小文件过多呀？啊，同学们能不能明白小文件过多，那么会导致我们的性能急剧下降吧，这个大家学我们的海豆的时候，是不是应该学过这个东西啊，对不对，你看线很乱吗？很乱，小文件很多。
05:22
诶就是这个意思，所以啊，这就是我们当前的问题，那当前问题就是我们上面这个方式呀，不方便，下面这个方式它方便，可是当我的任务过多，当我们的核数过多，你的小文件就过多，性能也会受到极大的影响，诶那我在当前场合下，有没有方式去优化它呢？我会发现咱们这两个task是在一个核当中，那如果我们这一个盒不要生成太多的文件行不行呢？所以啊，咱们的思路呢，稍微有点变化来。拷贝，拷贝以后咱们往下走，同学们咱们往下啊来，往下走以后，咱们看这个地方啊来，那么大家可以看到我说过了，咱们既然是一个核，那么是多个task和就跟我们讲那个广播变量一样，咱们广播变量当中是不是就可以生成一份变量，那咱们这个文件也能不能这样呢？就意味着我不要准备这么多，我们干嘛呢？就是我们的绿色，黄色和红色，咱们能不能就这样做呢？那如果这样做的话，那是不是意味着我们的红色给他，我们的黄色给它，我们的绿色给他呢？然后这个箭头我们指向他是不是就可以了，那么同样道理，咱们这个呢，也就不要了，对吧？咱们这个绿色就不要了啊，它咱们不要了，黄色咱们也不要了，把这个黄色咱们指向这个位置，那么这样的话，咱们这边其实是不是一样的，同学们把这个去掉，去掉以后把这个呢，给它来复制一下，复制复制以后放到我们的这个位置，放完了以后，那我们多余的东西，我们。
06:55
也不要了啊，来把这个放到这儿，把这个绿色，哎，嗯，行去掉吧，嗯，去掉以后这个去掉，然后呢，我们的，嗯，OK，大家可以到现在这个这个图形是不是就简化了很多，而且我们的红色连红色的文件，黄色连黄色文件是不是感觉就好了很多，这是不是要比之前的这个要性能高啊，为什么呢，文件数少啊，诶所以这种方式是一种优化。
07:21
它在之前的基础之上，它一个和它这里面呢，会有什么呢？三份文件，然后呢，我的task来写磁盘，来磁盘以后呢，给它合并起来，然后呢在task去读取，这不挺好吗？对不对，哎，这是可以的。那这个有没有什么问题呢？这个也有问题，为什么呢？因为咱们现在看着好像是不多，但是其实啊，我们是为了掩饰给大家看的不多，在我们的工作当中，难道我们的task只有三个吗？我们的下游的那个分区数量只有三个吗？不是你为了并行计算，你的下游数量可能好几百对不对，有没有可能也有可能啊，或者好几千也有可能啊，然后呢，我们上面难道只有一个核吗？大家想想，如果咱们不说别的，如果现在有两两百个分区，如果有200个分区的话，你的这个地方是什么？诶，100个核。
08:13
200个分区100个盒行不行？可以吧，那100个和每个核是200个分区的文件，那你要乘以100，是不是2万个文件？大家想想这个单位可不小，2万个文件呀，所以你看着我画这个图比较简单，但是你真正想起来你会发现哟。文件不少啊，小文件其实也依然过多，所以啊，这个依然有问题，那该怎么办呢？那你不能说我们就成一个文件，一个文件不就成这个样子，那就是那不行啊，你现在最多就是你现在极限情况下不就三个文件吗？其实啊，它还是有优化的情况的，那么我们优化以后变成什么样子呢？告诉大家，其实优化以后就变成咱们的这个样子啊，就是它。好好拷贝，也就是说我们还能够优化，那么但是优化呢，就变成了我们现在的最开始的情况，诶回到最初了啊，什么意思呀，怎么回到原点了呢？回到最初了呢？这不就是我们的file吗？对不对，那为什么就是这样呢？首先我们的极限情况下，大家想想是不是文件越少性能越高对吧？你一写磁盘的文件越少，肯定性能越高啊，所以咱们现在就一个文件，那肯定性能高对不对？
09:24
可是你一个文件我怎么读不知道，诶，那我想办法让他读不就完了吗？所以大家看啊，我能我把一个文件咱们这么做来他们看。我给他一个红色，然后呢，再来，诶咱们给他放过来，然后干嘛呢，写上一个啊，咱们的一个我们的黄色，然后呢，再来给他一个什么呢？给他一个绿色，给他一个绿色放到这边好，然后呢，比方说后面又是一个我们的黄色啊，咱们的黄色诶或者说我们的红色都可以啊，哎，放到这儿，所以啊，这个就是我们的文件，下面呢，我们就不要了啊，下面这个呢，就不要了，把这个去掉，嗯，好，然后这个呢，我们也去掉，就是一份完整的文件呢，咱们分成几段。
10:03
那么这样的话呢，我们就知道哦，我的task它会读哪几段就行了。比方说绿色它读这。我们的这个黄色呢，它就读我们的这边对吧？哎，就这样互相不影响，而我们的红色呢，它就读这一块，然后呢，再可以读另外一块，可不可以啊，同学们可以吧，诶就这样的，所以说这样的话去读不就完成了吗？你这样的话不就是OK的吗？可是问题来了呀，我们的红色他怎么知道这个文件中这两段是他的呢？我们怎么知道绿色该读他呢，对不对？所以在这种情况下，除了我们的文件以外，其实还应该加上另外一个什么东西啊，叫索引。那所以我们这其实还应该再来一个啊，咱们来一个，咱们给它换一个啊，换一个颜色，换一个，嗯嗯，看看啊，换一个绿色还是这个颜色吧，我们写上啊，咱们写上咱们叫做什么呢？叫做index啊，Index叫做索引文件，你把这个索引文件呢，给它准备好啊，索引文件里面就告诉我，诶红色在哪哪哪偏移量是多少，然后黄色的偏移量是多少，它的长度是多少，我们的绿色的偏移量是多少，我们的长度是多少，那么这样的话，大家想想那是不是就好很多，我们红色只要先干嘛呀，先找索引啊，找到我的位置，我们再去读它是不就可以了，同样道理，我们的task它也可以先根据我们的索引，大家看一下，先根据索引，然后知道我们去哪读，是不是也就读到了，那么同样道理，我们绿色是不是也是一样的呀，诶都是一样的，所以在这种情况下，我们的性能就得到了提高，最起码别的不说，文件它就一份啊，哪怕你这边是不是有。
11:42
多个task是不是也可以就一份啊，诶就是这样，所以来我们这边给他放过来啊，放过来，嗯，放这边，嗯，好放到咱们的这个位置，所以最终啊，我们的task只要读一份文件就够了，同样道理，其实如果是多个核的话，跟这个思路是完全相同，没有任何的区别，这种情况下应该是效率最快的，对不对？所以这个叫索引文件，这个就叫数据文件。
12:09
大家有没有感觉跟那个卡夫卡的分段日志非常的类似呀，诶，大同小异，好了，这个咱们先说到这里啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷spark教程

（147/210）

4分47秒

001 - 尚硅谷 - Spark框架 - 简介

460

7分47秒

002 - 尚硅谷 - Spark框架 - Vs Hadoop

530

2分23秒

003 - 尚硅谷 - Spark框架 - 核心模块 - 介绍

400

5分45秒

004 - 尚硅谷 - Spark框架 - 快速上手 - 开发环境准备

510

7分56秒

005 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 案例分析

440

7分6秒

006 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - Spark环境

410

11分55秒

007 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 功能实现

420

8分30秒

008 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 不同的实现

470

4分23秒

009 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - Spark的实现

370

3分49秒

010 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 日志和错误

440

8分10秒

011 - 尚硅谷 - Spark框架 - 运行环境 - 本地环境 - 基本配置和操作

520

3分9秒

012 - 尚硅谷 - Spark框架 - 运行环境 - 本地环境 - 提交应用程序

420

6分11秒

013 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 基本配置和操作

390

3分7秒

014 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 提交参数解析

360

4分7秒

015 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 配置历史服务

390

5分50秒

016 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 配置高可用

470

6分40秒

017 - 尚硅谷 - Spark框架 - 运行环境 - Yarn环境 - 基本配置 & 历史服务

360

11分5秒

018 - 尚硅谷 - Spark框架 - 运行环境 - Windows环境 & 总结

470

3分32秒

019 - 尚硅谷 - Spark框架 - 核心组件 - 介绍

370

3分30秒

020 - 尚硅谷 - Spark框架 - 核心概念 - Executor & Core & 并行度

410

6分59秒

021 - 尚硅谷 - Spark框架 - 核心概念 - DAG & 提交流程 & Yarn两种部署模式

410

12分47秒

022 - 尚硅谷 - SparkCore - 分布式计算模拟 - 搭建基础的架子

470

10分49秒

023 - 尚硅谷 - SparkCore - 分布式计算模拟 - 客户端向服务器发送计算任务

490

11分38秒

024 - 尚硅谷 - SparkCore - 分布式计算模拟 - 数据结构和分布式计算

460

5分30秒

025 - 尚硅谷 - SparkCore - 核心编程 - RDD - 概念介绍

380

10分10秒

026 - 尚硅谷 - SparkCore - 核心编程 - RDD - IO基本实现原理 - 1

440

8分48秒

027 - 尚硅谷 - SparkCore - 核心编程 - RDD - IO基本实现原理 - 2

450

12分23秒

028 - 尚硅谷 - SparkCore - 核心编程 - RDD - RDD和IO之间的关系

400

13分33秒

029 - 尚硅谷 - SparkCore - 核心编程 - RDD - 特点

410

11分18秒

030 - 尚硅谷 - SparkCore - 核心编程 - RDD - 五大主要配置

440

3分4秒

031 - 尚硅谷 - SparkCore - 核心编程 - RDD - 执行原理

410

11分1秒

032 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 内存

400

6分27秒

033 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 文件

300

4分41秒

034 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 文件1

400

11分40秒

035 - 尚硅谷 - SparkCore - 核心编程 - RDD - 集合数据源 - 分区的设定

450

13分52秒

036 - 尚硅谷 - SparkCore - 核心编程 - RDD - 集合数据源 - 分区数据的分配

370

11分31秒

037 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区的设定

400

8分20秒

038 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区数据的分配

370

6分12秒

039 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区数据的分配 - 案例分析

410

7分48秒

040 - 尚硅谷 - SparkCore - 核心编程 - RDD - 算子介绍

400

7分45秒

041 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map

440

5分10秒

042 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map - 小功能

330

8分52秒

043 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map - 并行计算效果演示

400

6分10秒

044 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions

500

3分48秒

045 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions - 小练习

460

2分20秒

046 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions & map的区别 - 完成比完美更重要

400

6分29秒

047 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitionsWithIndex

410

5分6秒

048 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - flatMap

440

2分39秒

049 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - flatMap - 小练习

400

6分32秒

050 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - glom

380

6分47秒

051 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 理解分区不变的含义

410

5分24秒

052 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy

390

6分0秒

053 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy - shuffle来袭

390

7分50秒

054 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy - 小练习

350

7分10秒

055 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - filter - 数据倾斜

390

16分10秒

056 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - sample - 抽奖喽

390

6分12秒

057 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - distinct

370

11分10秒

058 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - coalesce

370

7分26秒

059 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - repartition

310

6分30秒

060 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - sortBy

390

8分18秒

061 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 交集&并集&差集&拉链

480

8分9秒

062 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 交集&并集&差集&拉链 - 注意事项

460

10分17秒

063 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - partitionBy（前面有吸气，中间有等待）

390

5分54秒

064 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - partitionBy - 思考的问题

400

6分5秒

065 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - reduceByKey

410

4分13秒

066 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupByKey

420

18分56秒

067 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupByKey & reduceByKey的区别

440

11分8秒

068 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey

490

13分28秒

069 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 图解

380

3分53秒

070 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - foldByKey

440

8分49秒

071 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 小练习

320

6分3秒

072 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 小练习 - 图解

370

8分3秒

073 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - combineByKey

420

9分11秒

074 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 聚合算子的区别

410

6分59秒

075 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - join

450

3分24秒

076 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - leftOuterJoin & rightOuterJoin

450

4分27秒

077 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - cogroup

410

18分49秒

078 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 需求介绍 & 分析

510

6分39秒

079 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 需求设计

440

8分17秒

080 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 功能实现

410

4分31秒

081 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - 介绍

360

7分59秒

082 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - 算子演示

350

4分23秒

083 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - aggregate

390

4分44秒

084 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - countByKey & countByValue

410

10分15秒

085 - 尚硅谷 - SparkCore - 核心编程 - RDD - WordCount不同的实现方式 - (1-8)

430

6分2秒

086 - 尚硅谷 - SparkCore - 核心编程 - RDD - WordCount不同的实现方式 - (9-11)

410

3分40秒

087 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - save的方法

370

11分36秒

088 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - foreach

340

14分9秒

089 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - 闭包检测

390

12分3秒

090 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - 实际执行时的问题

350

10分5秒

091 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - Kryo序列化Core介绍

370

5分16秒

092 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 依赖 & 血缘关系介绍

390

11分35秒

093 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 血缘关系 - 演示

330

11分34秒

094 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 宽窄依赖

410

9分40秒

095 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 阶段&分区&任务 - 概念解析 - 秋游了

340

11分30秒

096 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 阶段划分源码解读

390

8分56秒

097 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 任务划分源码解读

390

2分50秒

098 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 任务分类

390

14分45秒

099 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - cache & persist基本原理和演示

380

100

5分17秒

100 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 作用

430

101

2分58秒

101 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 检查点

320

102

11分46秒

102 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 区别

370

103

9分1秒

103 - 尚硅谷 - SparkCore - 核心编程 - RDD - 分区器 - 自定义数据分区规则

340

104

4分35秒

104 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件读取与保存

350

105

15分48秒

105 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 原理及简单演示

350

106

3分37秒

106 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 问题

410

107

10分53秒

107 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 自定义实现

440

108

7分13秒

108 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 自定义实现 - 1

480

109

17分14秒

109 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 - 广播变量

380

110

12分2秒

110 - 尚硅谷 - SparkCore - 案例实操 - 数据准备 & 数据说明

400

111

9分45秒

111 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 需求设计 & 思路梳理

400

112

9分53秒

112 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 分别统计点击，下单，支付的数量

410

113

12分17秒

113 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 合并点击，下单，支付的数量

350

114

12分16秒

114 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第二种实现方式

350

115

12分55秒

115 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第三种实现方式

300

116

18分28秒

116 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第四种实现方式

430

117

14分47秒

117 - 尚硅谷 - SparkCore - 案例实操 - 需求二 - 功能实现

360

118

3分40秒

118 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 需求介绍

420

119

19分3秒

119 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 需求分析 - 图解

470

120

5分57秒

120 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 分母的计算

340

121

15分26秒

121 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 分子的计算并求转换率

340

122

8分29秒

122 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 优化需求

340

123

11分3秒

123 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 三层架构介绍

400

124

13分46秒

124 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 三层架构代码实现

370

125

17分47秒

125 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 架构代码优化

420

126

4分30秒

126 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - ThreadLocal解释

380

127

30分8秒

127 - 尚硅谷 - SparkCore - 总结 - 课件梳理

430

128

5分36秒

128 - 尚硅谷 - Spark内核 & 源码 - 总体介绍

410

129

6分28秒

129 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 起点

430

130

13分26秒

130 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 向Yarn提交应用

440

131

14分18秒

131 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 启动ApplicationMaster

360

132

10分20秒

132 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ApplicationMaster - 启动Driver线程

350

133

15分22秒

133 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ApplicationMaster - 启动Executor进程

430

134

17分29秒

134 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ExecutorBackend - 创建Executor计算对象

340

135

10分28秒

135 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - 流程梳理

410

136

7分54秒

136 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 通信原理

360

137

12分43秒

137 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 通信组件

390

138

4分21秒

138 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 课件梳理

370

139

7分22秒

139 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 上下文对象SparkContext

340

140

7分25秒

140 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - RDD依赖关系

360

141

13分44秒

141 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 阶段的划分

340

142

6分12秒

142 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的切分

370

143

16分51秒

143 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的调度

380

144

5分5秒

144 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的执行

400

145

6分20秒

145 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 课件梳理

370

146

7分3秒

146 - 尚硅谷 - Spark内核 & 源码 - shuffle - 原理回顾

400

147

12分17秒

147 - 尚硅谷 - Spark内核 & 源码 - shuffle - 图解

330

148

8分15秒

148 - 尚硅谷 - Spark内核 & 源码 - shuffle - 实现过程

380

149

15分45秒

149 - 尚硅谷 - Spark内核 & 源码 - shuffle - 写流程源码解读

440

150

16分18秒

150 - 尚硅谷 - Spark内核 & 源码 - shuffle - 归并排序和读流程

260

151

5分54秒

151 - 尚硅谷 - Spark内核 & 源码 - shuffle - 课件梳理

410

152

18分50秒

152 - 尚硅谷 - Spark内核 & 源码 - 内存管理

380

153

5分35秒

153 - 尚硅谷 - SparkSQL - 介绍

410

154

2分38秒

154 - 尚硅谷 - SparkSQL - 特点

370

155

6分43秒

155 - 尚硅谷 - SparkSQL - 数据模型 - DataFrame & DataSet

470

156

7分20秒

156 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - 简单演示

380

157

10分25秒

157 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - SQL的基本使用

500

158

6分34秒

158 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - DSL语法的基本使用

440

159

7分0秒

159 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - RDD之间的转换

460

160

4分5秒

160 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - 介绍

460

161

3分27秒

161 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - DataFrame的转换

400

162

5分3秒

162 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - RDD的转换

340

163

4分50秒

163 - 尚硅谷 - SparkSQL - 核心编程 - DataSet & DataFrame & RDD之间的关系

410

164

7分20秒

164 - 尚硅谷 - SparkSQL - 核心编程 - IDEA创建SparkSQL环境对象

370

165

7分48秒

165 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - DataFrame基本操作

380

166

3分17秒

166 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - DataSet基本操作

350

167

5分46秒

167 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - RDD & DataFrame & DataSet互相转换

310

168

4分17秒

168 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDF函数

340

169

5分10秒

169 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 实现原理

360

170

16分13秒

170 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 弱类型函数实现

470

171

10分57秒

171 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 强类型函数实现

390

172

6分23秒

172 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 早期强类型函数实现

420

173

3分21秒

173 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 课件梳理

380

174

6分34秒

174 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 通用方法

380

175

8分29秒

175 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作JSON & CSV

380

176

4分20秒

176 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作MySQL

360

177

5分39秒

177 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作内置Hive

460

178

3分52秒

178 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作外置Hive

440

179

4分27秒

179 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 代码操作外置Hive

310

180

4分14秒

180 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - beeline操作Hive

430

181

6分36秒

181 - 尚硅谷 - SparkSQL - 案例实操 - 数据准备

530

182

12分55秒

182 - 尚硅谷 - SparkSQL - 案例实操 - 需求部分实现

470

183

26分53秒

183 - 尚硅谷 - SparkSQL - 案例实操 - 需求完整实现

490

184

13分38秒

184 - 尚硅谷 - SparkSQL - 总结 - 课件梳理

380

185

9分24秒

185 - 尚硅谷 - SparkStreaming - 概念 - 介绍

430

186

10分23秒

186 - 尚硅谷 - SparkStreaming - 概念 - 原理 & 特点

370

187

14分39秒

187 - 尚硅谷 - SparkStreaming - 入门 - WordCount - 实现

400

188

3分10秒

188 - 尚硅谷 - SparkStreaming - 入门 - WordCount - 解析

400

189

2分37秒

189 - 尚硅谷 - SparkStreaming - DStream创建 - Queue

430

190

7分34秒

190 - 尚硅谷 - SparkStreaming - DStream创建 - 自定义数据采集器

320

191

3分24秒

191 - 尚硅谷 - SparkStreaming - DStream创建 - Socket数据采集器源码解读

390

192

10分50秒

192 - 尚硅谷 - SparkStreaming - DStream创建 - Kafka数据源

430

193

16分7秒

193 - 尚硅谷 - SparkStreaming - DStream转换 - 状态操作

350

194

9分5秒

194 - 尚硅谷 - SparkStreaming - DStream转换 - 无状态操作 - transform

360

195

3分58秒

195 - 尚硅谷 - SparkStreaming - DStream转换 - 无状态操作 - join

350

196

12分16秒

196 - 尚硅谷 - SparkStreaming - DStream转换 - 有状态操作 - window

370

197

8分38秒

197 - 尚硅谷 - SparkStreaming - DStream转换 - 有状态操作 - window - 补充

370

198

4分42秒

198 - 尚硅谷 - SparkStreaming - DStream输出

330

199

15分43秒

199 - 尚硅谷 - SparkStreaming - 优雅地关闭

350

200

3分29秒

200 - 尚硅谷 - SparkStreaming - 优雅地关闭 - 恢复数据

300

201

16分41秒

201 - 尚硅谷 - SparkStreaming - 案例实操 - 环境和数据准备

370

202

10分19秒

202 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 分析

340

203

19分27秒

203 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 黑名单判断

270

204

16分25秒

204 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 统计数据更新

290

205

19分29秒

205 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 测试 & 简化 & 优化

400

206

9分25秒

206 - 尚硅谷 - SparkStreaming - 案例实操 - 需求二 - 功能实现

330

207

6分10秒

207 - 尚硅谷 - SparkStreaming - 案例实操 - 需求二 - 乱码问题

420

208

15分49秒

208 - 尚硅谷 - SparkStreaming - 案例实操 - 需求三 - 介绍 & 功能实现

300

209

9分52秒

209 - 尚硅谷 - SparkStreaming - 案例实操 - 需求三 - 效果演示

390

210

8分11秒

210 - 尚硅谷 - SparkStreaming - 总结 - 课件梳理

360

147 - 尚硅谷 - Spark内核 & 源码 - shuffle - 图解

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐