文章/答案/技术大牛

发布

首页视频149 - 尚硅谷 - Spark内核 & 源码 - shuffle - 写流程源码解读

149 - 尚硅谷 - Spark内核 & 源码 - shuffle - 写流程源码解读

2022-12-022022-12-02 16:02:16播放44

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷spark教程/视频/149 - 尚硅谷 - Spark内核 & 源码 - shuffle - 写流程源码解读.avi

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
沙呢，我们给大家讲的差不多了啊，接下来呢，我们把源码呢给大家看一看啊，来那沙Le的话，那我们刚才讲过了，其实沙Le对于我们来讲，我们左边的map当中的任务呢，会写，那咱们就先看写啊同学们，所以来咱们找到咱们叫我们的map task对吧？然后呢，我们这边有个run task在它的里面呢，其实啊，就有这么一个什么呢？我们的right。那它里面会有一个叫sle writer processor，这个呢，我们给大家写一写啊，因为这个稍微的重要一些，所以我们在这个地方呢，给大家稍微的去看一看啊，有这么一个，呃，咱们拿过来，咱们叫Le啊，我们的writer processor这个呢，我们给它来标识一下吧，啊，咱们放过来标识一下。这个叫做什么呢？从字面含义上来讲，叫sle的写的一个处理器processer嘛，处理器对不对，咱们叫做啊，咱们叫处理器就是这个意思啊，那么如果叫做写处理器的情况下，那我们这里呢，给它来往后看啊，这么我们点个right，点点完right以后，那么这里面会有个什么东西呢？叫做Le manager，叫Le管理器啊，所以这个呢，我们也是需要来写上一下，咱们叫Le manager啊，咱们叫manager，这个staffle manager给大家说一下啊，它其实分我们两个，在早期的时候有个叫哈希啊，就是哈希处理的，还有一个我们什么呢？叫sort，哎，叫short的一个s manager，那我们会发现它里面就有个get叫get s manager，我点它一下点点完以后啊，诶，我们或者这样吧，咱们后退啊，后退以后，我们点这个叫get write，大家看一下这个就叫manager，我们给他来看，这是个treat，那我们肯定是要有实现，或者说有那个混的呀，所以打开。
01:50
打开以后大家看怎么了，它里面只有一个叫shle manager，在早期版本中有哈希，但是我们现在版本呢，都叫shot，所以啊这个其实只有一个我们的shot了啊，所以呢，这个呢，我们写上一下它是早期的啊，这里我们说一下它叫早期，而我们这个呢，是我们的shot啊，咱们当前的这个当前啊，当前版本的这个叫Le manager就是它了啊好，那我们回过头来，我们的这边有个叫get，所以拷贝拷贝以后我们找到咱们刚才的这个地方啊，找它我们打开，打开以后呢，搜索一下有个叫get writer，这个get writer大家会发现呢，它里面其中啊会匹配我们的一些类型，那么会创建不同的writer，哎，这个时候大家有没有发现它这里有一有二有三有三个我们的a write，那这个呢，我们给大家稍微的咱们列一下啊，这个就比较特殊了，所以呢，我们稍的给大家列一下啊。这个地方我。
02:50
插入啊，咱们插入我们的表格，哎，咱们就插入我们的，我想一想啊，咱们插入什么呢？首先有三行对吧，三个不同的，然后呢，我们这里这样吧，嗯，咱们这样，我们首先第一个啊，第一个呢，我们就写上它的一个条件，或者说诶不用写条件吧，咱们我觉得咱们不用写条件啊呃，这个是我们的处理方法，就是我们的handle，它有一个这个东西咱们拷贝。
03:12
拷贝以后咱们拿过来，诶拿过来我放到咱们这儿啊，这是一个我们的handle，然后呢，我们再来往下，下面还有一个叫bypassor saltle handle，所以把这个拷贝，嗯，拷贝以后呢，拿过来诶放到咱们的这个位置，诶对比一下，还有我们后面再来一个咱们叫basele handle啊所以诶我觉得咱们这个其实是不是这么写不好啊，嗯呃，咱们这样吧，咱们这样啊，我们在这写吧。同学们看啊，我现在把它换一个位置啊，我们在这写，把这个呢拿过来，我放到这边啊，放到这边以后，这个呢，我们称之为什么呢？咱们叫处理器对不对啊，所以我们觉得是不是可以，嗯，再来一个呢，比方说我们来啊，咱们给它来放到这儿。好了，那这个呢，我们就写上啊，咱们叫做处理器啊，咱们叫处理器，嗯，好，那么我们为什么要这么写呢？是因为你会发现呢，这个handle它决定了我们刚才的那个什么writer是什么，回过头来，同学们看一下，咱们这个地方叫get writer，我们这里找一下，找一下啊然后呢，我们去找打开，打开以后呢，往下来，那么这个时候往下走，你会发现我们不同的handle它会走到不同的R，所以说我们的这个handle它走的是我们的unsafe，所以把这个呢，我们拷贝啊，就是关联性呢，我们都要知道，这个呢，我们叫做写对象啊，叫做写对象，不同的处理器它的写对象它是不一样的啊嗯，这个是有点太大了，把这个字体变小点吧，好不好，同学们，嗯，把这个改成我们的小五号吧，啊好，然后写对象，那么我们下面这个handle呢，我们去找一下啊，下面这个叫做它咱们拷贝，拷贝以后咱们拿过来，诶在咱们的这个位置啊好，同样道理，我们再往下，下面呢有一个叫。
04:57
Ler，诶，所以给他拿过来好拷贝，拷贝以后放到这里啊，行可以了，嗯，那么写对象没有任何问题了，那么我们现在啊，咱们的这块基本，诶我们看现在都可以了啊，咱们接着呢往下嗯。
05:13
那么问题就在于，你的这三个handle是什么样的？类型，就我怎么去取得它的这个类型，对不对，所以啊，我们后退啊，大家看一下这个handle呢，它其实是我们的get writer第一个参数吧，所以后退，后退以后我们后退到咱们的这个地方来，我们这边的get writer的一个参数不就是它吗？它叫sle handle。好，我点一下，点点完以后大家会发现这边会有个叫suffle manager，有一个叫registerist suffle，这个就是用来注册我们suffle的一个什么处理器的，所以我们点它一下，点点完以后它是一个我们什么是一个我们的，诶抽象的，所以我们找到thoughtt sle manager，我们去找一下好搜索，搜索以后大家会发现在这个地方就对我们的条件进行了判断，然后得到不同的handle，对不对，所以啊，它里面是有条件的，那这个条件是什么呢？我们一点一点来看，首先第一个他说了叫sort sh writer.should bypa，这个咱们翻译一下同学们直观一点。
06:22
Should的能不能bypas忽略墨子叫合并，Shortt叫排序，那么直译过来就叫能不能够忽略合并的排序，咱们也称之为叫规并排序，他就问你了，我们能不能给它忽略啊，诶，能忽略的前提条件是什么？你得有吧，所以咱们之前其实是有一个叫salt的，还记得吗？叫salt，这个salt其实就是一个，这个叫基础的，或者叫基本的softle handle，它就是用来做排序的，而它的排序就是什么东西啊，叫Mo salt就是它，所以啊，我们现在呢，我们就来看看它到底能不能忽略，怎么个条件，诶，我们点点完以后，大家会发现他这里面就问你了，你的依赖关系当中有没有。
07:06
Map combine叫map的。这个咱们之前说过吧，咱们的reduce by key，咱们的aggregate by key for by key和combine by key是不是都有map端的预聚合，你有预聚合的话，那是不行的，你没有预聚合那可以对不对？所以啊，咱们在这里呢，就有一个bypass在这儿啊，咱们写上咱们叫做什么呢？判断条件，判断条件，判断条件当中我们写个一啊，咱们写个一啊，写个什么一呢？呃，就是我们的不能啊，我们说使用咱们叫预map端就叫预聚合吧，预聚合功能啊，咱们叫预先啊聚合咱们的功能啊，不能使用预聚合功能啊好，这第一个。第二个是什么呢？第二个是它会从配置信息当中取一个我们的配置的项目，这个项目呢，我们点一下在这儿呢，就是问你啊，Shuffle salt的一个什么阈值，这个阈值默认是200，那么我们后退默认是200，就意味着你取出来的话是200，那么200的话，如果你依赖当中的分区器的分区数量小于等于我们的200，那么就可以支持我们的忽略。
08:18
所以啊，这就意味着我们回过头来，同学们看啊，咱们找一下，咱们在这个里面，咱们找一下，咱们点一下，咱们在这里找到我们的图形啊，诶在这有是吧？在这有的话，我们看咱们那个三否在我们哪边呢？咱们往这找找啊来嗯。嗯，我来确定一下，嗯，在这儿，在这123，这个就是我们下游当中的那个分区器的分区数量一，我们一个分区就是一个task嘛，所以当你的下游的这个taskk的数量如果小于等于200的情况下，那么就可以忽略。啊，就可以忽略就这个意思，所以呀，我们这里呢，写上一个我们的二啊来。如果我们叫下游啊的分区数量啊，分区数量它小于它等于200，这个200呢是可配的啊，这个200是可配的，不是固定不变的，一般我们会配到400~500左右啊，是这样的，所以如果下游的分区数量小于等于200的情况下，那么就可以摆pass，并且它不能使用预聚合，对不对，比方说goodbye，它就没有预聚合功能，那么在这种情况下，我们用PA是可以，所以啊，这个是有个条件在里面啊，好了，这个呢，我们知道了以后，咱们就可以后退了，该我们往下看了，因为当我们忽略的话，就会走这个by pass吗？所以他们三个是一个连贯的过程啊好，我们再来往下，下面是什么呢？叫做这个叫sort sle manager，它里面说了能使用我们序列化的sle，这个是什么意思呢？就是当你用它的时候啊，它要有序列化的能力，也就意味着我们保存到内存啊，可以把对象直接保存到内存，也可以把对象序列化以后再保存到内存，对不？
09:59
对，这都可以的，那么如果你把对象给它用二进制的方式保存到我们的内存当中，这样的话，其实我们可以更高效的对我们的内存做一些查找和压缩，对吧。
10:12
所以啊，就看你支不支持了，那么是否支持呢？它首先就有一个条件，什么条件呢？他问你当前的这个序列化规则当中，它是否支持序列化的重定位，什么意思呀？就是本来你的序列化呢，它的这个对象是分开的，但是我完全可以把它重定位，把它关联在一起，这是可以做到的，那这样的话，我们就可以更高效的使用内存，对不对，所以啊，它就判断你是否支持这样的操作，我们告诉大家默认的Java是不支持的，默认的Java的那个序列化规则是不允许的，但是我们有个叫kr yo的序列化的框架，它支持我们的重定位操作啊，所以啊，如果你不支持，那这就不能用，对吧，就是这个意思，还有一个，如果你支持什么呢？我们的这个一聚合，那也不能用，所以啊，它有这么几个条件，我们也得来，嗯，放到这儿再写上一个一啊，首先干嘛呢，就是我们的序列化啊，咱们的序列化规则，它支持我们的是吧，咱们叫做重定位操作啊，重。
11:12
定位操作，这个操作我们说了啊，咱们Java序列化不支持啊，咱们叫Java序列化不支持。啊，谁支持呢，那个KRKR的框架，嗯，他支持啊。好了，那这个是我们的第一个啊，咱们再来第二个是什么呢？就是不能啊，不能我们说来不能使用，咱们叫预啊，咱们叫聚合功能，因为如果有map端的聚合的话，它依然不让你用，对不对，还有一个就是part，这个其实跟刚才是一样的，就是我们下游的分区的那个数量，它如果大于这个也不行。所以啊，我们再来说第三个啊，就是来如果我们下游的这个分区数量啊，它大于啊，其实也不行啊，来我们点一下，点点完以后这是一个什么什么最大的partition ID加一，这是啥东西，是不是就是它呀，是我们这个值啊，所以拷贝啊，把这个拿过来，嗯。
12:12
好了，拿过来以后，他这里好像说咱们后退一下啊，咱们后退，把这个我们拿过来后退，他不减了个一嘛，然后再减了个一后，再加上一个一，对不对，加上一个一，那我看看啊，咱们这个值应该是多少？诶，咱们后退吧，再后退，后退，由于它是大于的话，那么就意味着我们这个地方加一应该是什么值啊，应该是不是我们的，诶这个值啊，应该是加了一个一，对不对啊，加了一个一，应该是六吧，嗯，OK，所以啊，它如果大于这个，那也是不行的，所以我们应该是小于或等于啊来，咱们叫小于或等于，嗯或啊，我们等于是因为它有特殊的判断在里面，它有一个位数的概念啊，嗯，好，那就是说不能使用一聚合，而且它要支持重定位，而且它要什么，我们叫做小于或等于，这个基本上能满足，对不对啊，但前面这几个不见得能满足啊，好，这是我们的这个我们的handle，那好，除了这两个条件之外，那剩下的不就是sal sle writer了吗？它就需要排序了。
13:13
对不对，哎，就是这样啊，好，那么我们这里呢，就后退啊，咱们的后退，后退到这里的话就是else else的话就是我们的base shuffle handle，所以这个我们写上叫做其他情况啊，咱们叫其他情况，所以把咱们的这个呢，给大家稍微的去解释一下，让大家知道它是有一个条件在里面的啊来。好了，那这个呢，我们就先说到这里啊，最起码我们看到了它的底层的一些操作，那好，那我们前面咱们先不管它，咱们现在呢，就假设我现在呢，是什么呢？Short怎么样，同学们，我们就假设是short啊，咱们那个bypas，咱们一会来说，所以后退啊，咱们的后退，后退以后，来来来，我们走到我们刚才的这个位置来啊，咱们后退好在这儿呢啊，咱们这边不就有一个叫base吗？如果是base的话，是不是就是这个writer啊，所以我们点击它就是你获取了那个writer来后退，同学看啊，我们这个叫get writer就把那个我们的它得到了，哎，跑哪去了，在这。
14:16
叫sort shuffle right把它就得到了啊，那你得到了以后呢，然后干什么了，然后right，所以啊，我们点一下，点点right以后，我们可以去找一下啊，来找一下，咱们叫sort sle writer，咱们打开啊，打开打开以后大家会发现这个地方就是我们的right，而这个right首先它会有个什么呢？叫short，叫排序器，它是用来做排序用的。啊，大家想想，其实你想引明白，我们有索引文件，有分，有那个数据文件，那你的排序以后，让我们的下游的数分区不断去读它，对不对，那你得有规则，你得有顺序啊，所以这就需要排序，那么如果你忽略排序的话，那么你可能就需要通过别的方式来定位了，对不对？哎，所以这个方法呀，都差不多，只不过咱们这需要排序，那么如果你排序的话，他会把我们的数据给他，那么插进去来进行排序，那么然后排完序以后怎么办？他们接下来就开始要right了，叫right parted map outut。
15:18
要把它写出了，那写出分区的信息，然后再给他提交分区，对不对，提交分区嘛，就这个意思，所以这个操作当中，其实他就在干嘛呀，他就在去写啊，就在写，只不过我们首先先把这个咱们先搞明白，他的这个写的这个writer也不是那么简单，他需要很多的条件在判断，最后我们用到了一个，它就是这个意思啊好，我们分几步来讲这个事情吧，嗯。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷spark教程

（149/210）

4分47秒

001 - 尚硅谷 - Spark框架 - 简介

460

7分47秒

002 - 尚硅谷 - Spark框架 - Vs Hadoop

530

2分23秒

003 - 尚硅谷 - Spark框架 - 核心模块 - 介绍

400

5分45秒

004 - 尚硅谷 - Spark框架 - 快速上手 - 开发环境准备

510

7分56秒

005 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 案例分析

440

7分6秒

006 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - Spark环境

410

11分55秒

007 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 功能实现

420

8分30秒

008 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 不同的实现

470

4分23秒

009 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - Spark的实现

370

3分49秒

010 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 日志和错误

440

8分10秒

011 - 尚硅谷 - Spark框架 - 运行环境 - 本地环境 - 基本配置和操作

520

3分9秒

012 - 尚硅谷 - Spark框架 - 运行环境 - 本地环境 - 提交应用程序

420

6分11秒

013 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 基本配置和操作

390

3分7秒

014 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 提交参数解析

360

4分7秒

015 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 配置历史服务

390

5分50秒

016 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 配置高可用

470

6分40秒

017 - 尚硅谷 - Spark框架 - 运行环境 - Yarn环境 - 基本配置 & 历史服务

360

11分5秒

018 - 尚硅谷 - Spark框架 - 运行环境 - Windows环境 & 总结

470

3分32秒

019 - 尚硅谷 - Spark框架 - 核心组件 - 介绍

370

3分30秒

020 - 尚硅谷 - Spark框架 - 核心概念 - Executor & Core & 并行度

410

6分59秒

021 - 尚硅谷 - Spark框架 - 核心概念 - DAG & 提交流程 & Yarn两种部署模式

410

12分47秒

022 - 尚硅谷 - SparkCore - 分布式计算模拟 - 搭建基础的架子

470

10分49秒

023 - 尚硅谷 - SparkCore - 分布式计算模拟 - 客户端向服务器发送计算任务

490

11分38秒

024 - 尚硅谷 - SparkCore - 分布式计算模拟 - 数据结构和分布式计算

460

5分30秒

025 - 尚硅谷 - SparkCore - 核心编程 - RDD - 概念介绍

380

10分10秒

026 - 尚硅谷 - SparkCore - 核心编程 - RDD - IO基本实现原理 - 1

440

8分48秒

027 - 尚硅谷 - SparkCore - 核心编程 - RDD - IO基本实现原理 - 2

450

12分23秒

028 - 尚硅谷 - SparkCore - 核心编程 - RDD - RDD和IO之间的关系

400

13分33秒

029 - 尚硅谷 - SparkCore - 核心编程 - RDD - 特点

410

11分18秒

030 - 尚硅谷 - SparkCore - 核心编程 - RDD - 五大主要配置

440

3分4秒

031 - 尚硅谷 - SparkCore - 核心编程 - RDD - 执行原理

410

11分1秒

032 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 内存

400

6分27秒

033 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 文件

300

4分41秒

034 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 文件1

400

11分40秒

035 - 尚硅谷 - SparkCore - 核心编程 - RDD - 集合数据源 - 分区的设定

450

13分52秒

036 - 尚硅谷 - SparkCore - 核心编程 - RDD - 集合数据源 - 分区数据的分配

370

11分31秒

037 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区的设定

400

8分20秒

038 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区数据的分配

370

6分12秒

039 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区数据的分配 - 案例分析

410

7分48秒

040 - 尚硅谷 - SparkCore - 核心编程 - RDD - 算子介绍

400

7分45秒

041 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map

440

5分10秒

042 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map - 小功能

330

8分52秒

043 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map - 并行计算效果演示

400

6分10秒

044 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions

500

3分48秒

045 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions - 小练习

460

2分20秒

046 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions & map的区别 - 完成比完美更重要

400

6分29秒

047 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitionsWithIndex

410

5分6秒

048 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - flatMap

440

2分39秒

049 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - flatMap - 小练习

400

6分32秒

050 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - glom

380

6分47秒

051 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 理解分区不变的含义

410

5分24秒

052 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy

390

6分0秒

053 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy - shuffle来袭

390

7分50秒

054 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy - 小练习

350

7分10秒

055 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - filter - 数据倾斜

390

16分10秒

056 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - sample - 抽奖喽

390

6分12秒

057 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - distinct

370

11分10秒

058 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - coalesce

370

7分26秒

059 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - repartition

310

6分30秒

060 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - sortBy

390

8分18秒

061 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 交集&并集&差集&拉链

480

8分9秒

062 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 交集&并集&差集&拉链 - 注意事项

460

10分17秒

063 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - partitionBy（前面有吸气，中间有等待）

390

5分54秒

064 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - partitionBy - 思考的问题

400

6分5秒

065 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - reduceByKey

410

4分13秒

066 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupByKey

420

18分56秒

067 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupByKey & reduceByKey的区别

440

11分8秒

068 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey

490

13分28秒

069 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 图解

380

3分53秒

070 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - foldByKey

440

8分49秒

071 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 小练习

320

6分3秒

072 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 小练习 - 图解

370

8分3秒

073 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - combineByKey

420

9分11秒

074 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 聚合算子的区别

410

6分59秒

075 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - join

450

3分24秒

076 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - leftOuterJoin & rightOuterJoin

450

4分27秒

077 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - cogroup

410

18分49秒

078 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 需求介绍 & 分析

510

6分39秒

079 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 需求设计

440

8分17秒

080 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 功能实现

410

4分31秒

081 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - 介绍

360

7分59秒

082 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - 算子演示

350

4分23秒

083 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - aggregate

390

4分44秒

084 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - countByKey & countByValue

410

10分15秒

085 - 尚硅谷 - SparkCore - 核心编程 - RDD - WordCount不同的实现方式 - (1-8)

430

6分2秒

086 - 尚硅谷 - SparkCore - 核心编程 - RDD - WordCount不同的实现方式 - (9-11)

410

3分40秒

087 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - save的方法

370

11分36秒

088 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - foreach

340

14分9秒

089 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - 闭包检测

390

12分3秒

090 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - 实际执行时的问题

350

10分5秒

091 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - Kryo序列化Core介绍

370

5分16秒

092 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 依赖 & 血缘关系介绍

390

11分35秒

093 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 血缘关系 - 演示

330

11分34秒

094 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 宽窄依赖

410

9分40秒

095 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 阶段&分区&任务 - 概念解析 - 秋游了

340

11分30秒

096 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 阶段划分源码解读

390

8分56秒

097 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 任务划分源码解读

390

2分50秒

098 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 任务分类

390

14分45秒

099 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - cache & persist基本原理和演示

380

100

5分17秒

100 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 作用

430

101

2分58秒

101 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 检查点

320

102

11分46秒

102 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 区别

370

103

9分1秒

103 - 尚硅谷 - SparkCore - 核心编程 - RDD - 分区器 - 自定义数据分区规则

340

104

4分35秒

104 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件读取与保存

350

105

15分48秒

105 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 原理及简单演示

350

106

3分37秒

106 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 问题

410

107

10分53秒

107 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 自定义实现

440

108

7分13秒

108 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 自定义实现 - 1

480

109

17分14秒

109 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 - 广播变量

380

110

12分2秒

110 - 尚硅谷 - SparkCore - 案例实操 - 数据准备 & 数据说明

400

111

9分45秒

111 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 需求设计 & 思路梳理

400

112

9分53秒

112 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 分别统计点击，下单，支付的数量

410

113

12分17秒

113 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 合并点击，下单，支付的数量

350

114

12分16秒

114 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第二种实现方式

350

115

12分55秒

115 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第三种实现方式

300

116

18分28秒

116 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第四种实现方式

430

117

14分47秒

117 - 尚硅谷 - SparkCore - 案例实操 - 需求二 - 功能实现

360

118

3分40秒

118 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 需求介绍

420

119

19分3秒

119 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 需求分析 - 图解

470

120

5分57秒

120 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 分母的计算

340

121

15分26秒

121 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 分子的计算并求转换率

340

122

8分29秒

122 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 优化需求

340

123

11分3秒

123 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 三层架构介绍

400

124

13分46秒

124 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 三层架构代码实现

370

125

17分47秒

125 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 架构代码优化

420

126

4分30秒

126 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - ThreadLocal解释

380

127

30分8秒

127 - 尚硅谷 - SparkCore - 总结 - 课件梳理

430

128

5分36秒

128 - 尚硅谷 - Spark内核 & 源码 - 总体介绍

410

129

6分28秒

129 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 起点

430

130

13分26秒

130 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 向Yarn提交应用

440

131

14分18秒

131 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 启动ApplicationMaster

360

132

10分20秒

132 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ApplicationMaster - 启动Driver线程

350

133

15分22秒

133 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ApplicationMaster - 启动Executor进程

430

134

17分29秒

134 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ExecutorBackend - 创建Executor计算对象

340

135

10分28秒

135 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - 流程梳理

410

136

7分54秒

136 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 通信原理

360

137

12分43秒

137 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 通信组件

390

138

4分21秒

138 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 课件梳理

370

139

7分22秒

139 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 上下文对象SparkContext

340

140

7分25秒

140 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - RDD依赖关系

360

141

13分44秒

141 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 阶段的划分

340

142

6分12秒

142 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的切分

370

143

16分51秒

143 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的调度

380

144

5分5秒

144 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的执行

400

145

6分20秒

145 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 课件梳理

370

146

7分3秒

146 - 尚硅谷 - Spark内核 & 源码 - shuffle - 原理回顾

400

147

12分17秒

147 - 尚硅谷 - Spark内核 & 源码 - shuffle - 图解

330

148

8分15秒

148 - 尚硅谷 - Spark内核 & 源码 - shuffle - 实现过程

380

149

15分45秒

149 - 尚硅谷 - Spark内核 & 源码 - shuffle - 写流程源码解读

440

150

16分18秒

150 - 尚硅谷 - Spark内核 & 源码 - shuffle - 归并排序和读流程

260

151

5分54秒

151 - 尚硅谷 - Spark内核 & 源码 - shuffle - 课件梳理

410

152

18分50秒

152 - 尚硅谷 - Spark内核 & 源码 - 内存管理

380

153

5分35秒

153 - 尚硅谷 - SparkSQL - 介绍

410

154

2分38秒

154 - 尚硅谷 - SparkSQL - 特点

370

155

6分43秒

155 - 尚硅谷 - SparkSQL - 数据模型 - DataFrame & DataSet

470

156

7分20秒

156 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - 简单演示

380

157

10分25秒

157 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - SQL的基本使用

500

158

6分34秒

158 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - DSL语法的基本使用

440

159

7分0秒

159 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - RDD之间的转换

460

160

4分5秒

160 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - 介绍

460

161

3分27秒

161 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - DataFrame的转换

400

162

5分3秒

162 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - RDD的转换

340

163

4分50秒

163 - 尚硅谷 - SparkSQL - 核心编程 - DataSet & DataFrame & RDD之间的关系

410

164

7分20秒

164 - 尚硅谷 - SparkSQL - 核心编程 - IDEA创建SparkSQL环境对象

370

165

7分48秒

165 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - DataFrame基本操作

380

166

3分17秒

166 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - DataSet基本操作

350

167

5分46秒

167 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - RDD & DataFrame & DataSet互相转换

310

168

4分17秒

168 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDF函数

340

169

5分10秒

169 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 实现原理

360

170

16分13秒

170 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 弱类型函数实现

470

171

10分57秒

171 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 强类型函数实现

390

172

6分23秒

172 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 早期强类型函数实现

420

173

3分21秒

173 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 课件梳理

380

174

6分34秒

174 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 通用方法

380

175

8分29秒

175 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作JSON & CSV

380

176

4分20秒

176 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作MySQL

360

177

5分39秒

177 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作内置Hive

460

178

3分52秒

178 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作外置Hive

440

179

4分27秒

179 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 代码操作外置Hive

310

180

4分14秒

180 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - beeline操作Hive

430

181

6分36秒

181 - 尚硅谷 - SparkSQL - 案例实操 - 数据准备

530

182

12分55秒

182 - 尚硅谷 - SparkSQL - 案例实操 - 需求部分实现

470

183

26分53秒

183 - 尚硅谷 - SparkSQL - 案例实操 - 需求完整实现

490

184

13分38秒

184 - 尚硅谷 - SparkSQL - 总结 - 课件梳理

380

185

9分24秒

185 - 尚硅谷 - SparkStreaming - 概念 - 介绍

430

186

10分23秒

186 - 尚硅谷 - SparkStreaming - 概念 - 原理 & 特点

370

187

14分39秒

187 - 尚硅谷 - SparkStreaming - 入门 - WordCount - 实现

400

188

3分10秒

188 - 尚硅谷 - SparkStreaming - 入门 - WordCount - 解析

400

189

2分37秒

189 - 尚硅谷 - SparkStreaming - DStream创建 - Queue

430

190

7分34秒

190 - 尚硅谷 - SparkStreaming - DStream创建 - 自定义数据采集器

320

191

3分24秒

191 - 尚硅谷 - SparkStreaming - DStream创建 - Socket数据采集器源码解读

390

192

10分50秒

192 - 尚硅谷 - SparkStreaming - DStream创建 - Kafka数据源

430

193

16分7秒

193 - 尚硅谷 - SparkStreaming - DStream转换 - 状态操作

350

194

9分5秒

194 - 尚硅谷 - SparkStreaming - DStream转换 - 无状态操作 - transform

360

195

3分58秒

195 - 尚硅谷 - SparkStreaming - DStream转换 - 无状态操作 - join

350

196

12分16秒

196 - 尚硅谷 - SparkStreaming - DStream转换 - 有状态操作 - window

370

197

8分38秒

197 - 尚硅谷 - SparkStreaming - DStream转换 - 有状态操作 - window - 补充

370

198

4分42秒

198 - 尚硅谷 - SparkStreaming - DStream输出

330

199

15分43秒

199 - 尚硅谷 - SparkStreaming - 优雅地关闭

350

200

3分29秒

200 - 尚硅谷 - SparkStreaming - 优雅地关闭 - 恢复数据

300

201

16分41秒

201 - 尚硅谷 - SparkStreaming - 案例实操 - 环境和数据准备

370

202

10分19秒

202 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 分析

340

203

19分27秒

203 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 黑名单判断

270

204

16分25秒

204 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 统计数据更新

290

205

19分29秒

205 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 测试 & 简化 & 优化

400

206

9分25秒

206 - 尚硅谷 - SparkStreaming - 案例实操 - 需求二 - 功能实现

330

207

6分10秒

207 - 尚硅谷 - SparkStreaming - 案例实操 - 需求二 - 乱码问题

420

208

15分49秒

208 - 尚硅谷 - SparkStreaming - 案例实操 - 需求三 - 介绍 & 功能实现

300

209

9分52秒

209 - 尚硅谷 - SparkStreaming - 案例实操 - 需求三 - 效果演示

390

210

8分11秒

210 - 尚硅谷 - SparkStreaming - 总结 - 课件梳理

360

149 - 尚硅谷 - Spark内核 & 源码 - shuffle - 写流程源码解读

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐