文章/答案/技术大牛

发布

首页视频141 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 阶段的划分

141 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 阶段的划分

2022-12-022022-12-02 16:02:16播放34

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷spark教程/视频/141 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 阶段的划分.avi

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
依赖咱们讲完了，同学们，接下来我们讲一下阶段的划分，那么阶段该如何划分呢？其实在咱们之前画图的时候，这边有一个叫做阶段调度器，咱们叫dag schedule，也称之为叫有向无环图的调度器，它主要用于阶段的划分和任务的切分。那么我们底层是如何实现的呢？咱们回过头来，我们这边会有一个叫做行动算子collect，它会触发整个作业的执行，所以我们点一下，点完以后有一个叫run job，咱们再点，然后再点好，再来点，点击到我们下一步的时候，你会发现这里面就有个叫DA schedule，就是我们刚才画图当中的那个对象，它里面会有一个叫wrong job，咱们点一下，点完以后往这看，它有一个叫submit job，叫提交作业，那好，我们再来往下点，点完之后往下走，往下走，往下走，走到这个位置，你会发现它有一个叫做什么呢？叫job subter的。
01:00
的一个事件，这个事件会怎么办呢？会有个post的点，它会往一个叫的Q里面去，把这个事件放进去，哎，就是这个意思，这个叫even的Q，这个是个队列啊，叫事件队列，它会把刚才的这个来咱们回头叫job submitter的这个事件给它放进去，那放进去以后你该如何把它取出来呢？这里会涉及到一个叫event thread，叫做线程事件线程咱们打开，打开以后这个线程如果启动执行的时候，它会有一个run，这个run呢，就会从咱们的Q里面把它数据取出来，有个叫做take，这个take呢，当你取出来事件以后会怎么办？会叫on receive，咱们点一下，点完以后它是一个我们的抽象的，那么我们回过头就在这儿了，所以拷贝，拷贝以后我们打开，打开以后搜索，搜索以后有个叫on receive，它有个叫do on receive，对不对，所以我们再来点，点完之后大家会发现。
02:00
这个不就叫做jobter的吗？说的简单点，他是往那个事件队列里面发了一条消息，那么当我收到这条消息之后，会做一个模式匹配，来匹配你到底是什么消息，那这里呢，就是一个叫提交作业的消息，然后呢，在这个地方就有一个叫DA schedule的点，叫handle job sumter的，所以我们点点完以后在这个地方，记住啊，在我们的这个地方，它会进行阶段的划分。所以啊，我们的阶段的划分其实就在我们当前的这个位置，那好我们可以简单的看一看，这里面有一个叫stage，咱们拷贝。拷贝以后我拿过来啊，同学们拿过来叫create，叫创建结果result，结果嘛，叫阶段，所以呀，我们再去点，点点完以后大家会发现你什么代码都不用看，你就看到这个位置了，叫做什么呢？叫new result stage，所以啊，你会发现对于我们来讲的话，我们现在其实就有一个阶段，你老说划分阶段，划分阶段到底怎么划分，这不就是一个阶段嘛，所以我们回过头来，同学们往下走，现在呢，其实我们就有一个阶段了啊把这个呢，咱们往下。
03:17
这个往下以后啊，这个咱们就不要了啊，来不要了，不要了以后，我现在呢，把这个咱们放过来，文字呢放到这边啊，咱们叫做result stage，诶就是一个完整的阶段，那你的这个阶段里面你包含什么东西呢？对不对？我们说啊，它要包含的其实就是我们前面的很多的内容，咱们回过头看一下，它会把咱们什么RDD这些东西全包进去，这个RD是什么呀？这个RDD不就是你一步一步传过来的那个最后的RDD吗？大家看我们点开，我们这里叫collect，我们点点完以后不就把你当前的RDD就一步一步传过去了吗？所以说你当前处理的这个RDD其实就是，那么就意味着你这个RDD被包进去了啊，所以我们这个画图的时候，同学们看啊，我们这里来给他拷贝一个吧，嗯，拷贝拷贝一个，那我这边就是一个RDD了啊，就是DD，记住是我们最后的那个RDD，最后的那个RDD，不就是什么什么S的RDD嘛，对不对，所以啊，咱们来把这个拷贝咱们叫S。
04:18
RDD就是它，嗯，好了，但是你光有一个S的RDD行不行不行，为什么呢？大家可以看到它里面是不是包含了很多的内容啊，所以啊，这个包含呢，在这里应该通过依赖关系给它体现出来，所以啊，我觉得咱们这么画可能不合适，咱们这样吧，咱们放过来啊，嗯。呃，这个呢，我们就写上啊，咱们给它用一个我们的蓝色或者绿色好不好呢？用一个绿色吧，啊这个咱们就直接写上，把这个去掉啊，咱们把这个去掉，去掉以后来啊，咱们这边就直接我们写上点东西吧，咱们拷贝，拷贝以后我放到这咱们就叫RDD，好，那么你这个RDD有了之后呢，我们里面比方说我是不是能够画几个分区的感觉呀，嗯，放到这儿来啊。
05:01
然后呢，放过来，放过来以后这是一个分区，诶放过来，然后再往下放，然后再往下放，对不对？诶我们假设有三个分区，那这三个分区呢，再往下，诶放到这边，那好放过来之后我们的箭头记住啊，我们现在的这个分区啊，它可能是一对一的关系，对不对，One two one嘛，所以它有这种依赖关系啊呃，我想想这么画应该也可以啊，它从上游的RDD把数据往下游中传呢，诶没问题，然后呢，再来啊，咱们这个RDD呢也可以，所以拷贝，拷贝以后放到这边通道里，这个呢，拿过来，诶咱们都给它画一画啊，咱们意思意思来，放到这，放到这以后，诶放到这边，然后呢，再来，再往下放，往下放以后这个里面就不能随便放了，为什么呢？因为默认情况下，它里面也是我们的什么三个我们的RDD应该是它啊，不是说错了三个分区，那我在这个地方呢，咱们拿过来，咱们叫做沙Le啊，这个咱们加上一个沙Le，因为它确实有个沙Le，嗯。
06:00
好了，这个咱们应该用黑色吧，这个颜色用白色就不合适了啊，用一个黑色。好，翻过来啊，咱们的一个suffle的RDD，那么既然你有sle的话，大家想想那你该怎么办，你是不是应该怎么办，同学们应该把数据打乱重新组合吧，所以啊，我们的箭头它指向咱们的这个位置啊，来往下走，往下走啊就是这个意思，好，然后呢，这个数据呢，它也往下走，或者说咱别往下走了，往这儿走行不行可以吧，然后呢，我们再来往这儿走也可以吧，然后呢，再来是不是它也可以这样，然后再来啊，把这个数据呢往这边走，然后呢，再来啊把这个数据呢往下走，其实我们随便画一画就可以了，让大家明白这么一个大概的一个思路，嗯，好，然后呢，再来把这个呢，箭头呢往这边放，所以说你会发现呢，咱们数据呢，就已经打乱，重新组合了啊，所以这就是我们的沙的RDD啊，好，那么我们的stage现在呢，就把这个关系给它列出来了啊，那么列出来以后接着往下同学看，这个叫做new，但是里面它还包含了一个什么？
07:06
叫。这个parent在这儿呢？叫get or create parent stage，这句话是什么意思呢？从字面含义上来讲，叫获取或创建上一级的阶段，这就说明啊，咱们的这个ddo stage啊，它可能有上一级的阶段，对不对？那否则为什么叫parent呢？所以我们这边应该有一个上一级的概念，但是这个上一级我怎么知道在哪儿呢？不知道，所以同学们看啊，我这个地方我们就去点一下，点点完以后核心代码就在这个位置，所以咱们拿过来放到这儿啊。这个里面有个方法叫get or create，首先咱们这个地方来咱们说一下它叫做什么呢？写上啊来我们写上叫做创建啊，咱们写上叫做创，诶，呃，创建我们的结果啊阶段，诶，好，那这个呢，写上咱们叫获取，获取啊获我们叫创建我们的上级阶段，那么它里面的逻辑呢，是这样的，同学们看啊，看能不能看懂啊，这个叫get shuffle depends。
08:12
然后把一个RDD传进来了，这个RDD传的是什么呢？传的就是你最后的那个RDD，所以后退，后退以后大家看不就这个DD吗？这个RD不就是传进来的吗？所以说它等同于把这个黄色的RDD干嘛呀，传到了咱们刚才的这个位置，传过来了，传过来以后它的字面含义叫获取依赖，什么意思不知道，我们点进去，点进去以后你会发现它的代码它就在这里，其中它里面的核心逻辑就在这个位置，干嘛呢？判断你的RDD的依赖关系中是不是杀否依赖就是这个意思，那我看是不是啊。大家看咱们这个沙Le RD是不是沙依赖，其实你往上看就行了，咱们的这个沙RDD的依赖关系是不是沙依赖。所以它如果是沙uffle依赖的话，那么就意味着他这边就会有会增加，那么parent就会增加，那么有一个增加一个，那咱们这儿呢，咱们这不就一个嘛，对不对，咱们这就一个沙佛RDD啊，所以它就一定会有一个，那么有一个的话，咱们后退，后退之后，那么这个就会产生一条数据，它产生一条数据以后map，那么map的话是一个转换映射，你有多少条我就转换成多少条，你有一条，那么它就会转换一条，这个地方叫get or create，叫s map stage，所以把这个拿过来啊。
09:37
这个我们写上啊，咱们写上来，咱们写上叫做获取啊来获取获我们叫创建，创建什么呢？我们叫做沙。那咱们叫做shuffle，我们叫map的阶段啊，咱们的阶段，哎，就这意思，说白了什么叫shuffle map呀。咱们之前讲过沙uffle是不是要写磁盘呢？你要写磁盘的话，是不是有一个map和reduce的阶段，对不对，所以啊，沙uffle map阶段说白了就是写磁盘之前的那个阶段，它会分一个，所以说我们这个地方就会创建一个阶段，而这个阶段就是沙Le之前的阶段，所以同学们看，这时候呢，我要把咱们之前的这个图形啊来拷贝，拷贝以后拿过来放到这个位置啊，因为杀否之前不就恰恰是咱们的这个阶段嘛，对不对，所以呀，放过来啊，来把这个自于底层，哎，就这个样子的，所以我们拷贝啊，这个我们写上啊，咱们来，咱们叫沙否。
10:36
Map啊，咱们的stage好了，那这个地方的这个文字啊，咱们这个文字诶。我这个就不要了，咱们这个就不要了，它是一个我们的阶段，好，那这个阶段呢，我们再来往下看一看，我们点，点完以后，你会发现它在创建这个阶段的时候，我们再往下点，它里面会有一个叫做new，它会把当前依赖的那个RDD给你传过来，大家看依赖的那个RDD。
11:00
咱们这个依赖的RDD是不是就是前面那个RDD，说的简单点，这个sale的RDD前面不就是它吗？所以这个RDD就会给它传进来，所以我们来啊，咱们给它画一个紫色，这个紫色是它的那个RDD，这个黄色是这个阶段的那个关联RDD啊。好了，那么关联的RDD之后，那么其实就没有别的了，对不对，哎，就是这样，所以后退后退啊，咱们后退后退之后再来往前啊往前。他把这个依赖关系判断好之后，是不是直接就to list了，就说明啊，我们的阶段呢，基本上到了这一步了，我们的操作就差不多了啊，所以我们这里呢，来搜索一下啊，在我们的这个位置它就创建好了，所以从这个源码的角度来讲，你会发现我们当前的这个地方应该是两个阶段，诶老师那如果这里有个沙口怎么办？其实啊，你再回过去点，点完之后你再看这个代码啊，咱们点一下它这个代码当中，我们再去点，再去往下点。
12:00
往下点到创建这个阶段的时候，其实它上面怎么了，又有一个叫get or create parent叫获取或创建上一级阶段，他会看一看这个RDD，它前面有没有沙uffle，有沙Le的话，会再创建一个阶段，再把这个R再传过去，再往上找，所以啊，它是一个我们什么不断往前找的一个过程，从最后的RDD往前找，只要碰见Le的依赖，它就会创建一个uffle的map stage，就是shuffle的一个，诶，写磁盘的一个阶段，哎，就这么个过程啊，哎，所以说我们这个图这么画应该是对的啊。好了，那这个呢，我们大概就能明白了，哦，原来它的阶段划分是跟这个沙否依赖有关系的，对吗？所以我们回过头来到这个地方啊，咱们来协商一下，嗯。咱们的这个Spark中啊，Spark中我们叫阶段的划分，它等于的是我们的shuffle啊，咱们叫依赖啊沙否。
13:05
赖的数量加一什么意思呢？你有一个杀否依赖，那么再加上一个一，就是最后的这个阶段，那么就是我们当前阶段的数量，比方说我们有一个沙Le依赖，那就有两个阶段，对不对？它是一个，它是一个。这个阶段当执行完毕之后该怎么办？该写磁盘，那么我们的stage是不是应该读磁盘呢？所以他们就分开了啊，就应该是这样的一个过程好不好，同学们，所以啊，把源码呢，咱们大概的看一看，然后呢，把原理咱们说清楚，知道它的阶段如何划分，其实就够了啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷spark教程

（141/210）

4分47秒

001 - 尚硅谷 - Spark框架 - 简介

460

7分47秒

002 - 尚硅谷 - Spark框架 - Vs Hadoop

530

2分23秒

003 - 尚硅谷 - Spark框架 - 核心模块 - 介绍

400

5分45秒

004 - 尚硅谷 - Spark框架 - 快速上手 - 开发环境准备

510

7分56秒

005 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 案例分析

440

7分6秒

006 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - Spark环境

410

11分55秒

007 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 功能实现

420

8分30秒

008 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 不同的实现

470

4分23秒

009 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - Spark的实现

370

3分49秒

010 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 日志和错误

440

8分10秒

011 - 尚硅谷 - Spark框架 - 运行环境 - 本地环境 - 基本配置和操作

520

3分9秒

012 - 尚硅谷 - Spark框架 - 运行环境 - 本地环境 - 提交应用程序

420

6分11秒

013 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 基本配置和操作

390

3分7秒

014 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 提交参数解析

360

4分7秒

015 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 配置历史服务

390

5分50秒

016 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 配置高可用

470

6分40秒

017 - 尚硅谷 - Spark框架 - 运行环境 - Yarn环境 - 基本配置 & 历史服务

360

11分5秒

018 - 尚硅谷 - Spark框架 - 运行环境 - Windows环境 & 总结

470

3分32秒

019 - 尚硅谷 - Spark框架 - 核心组件 - 介绍

370

3分30秒

020 - 尚硅谷 - Spark框架 - 核心概念 - Executor & Core & 并行度

410

6分59秒

021 - 尚硅谷 - Spark框架 - 核心概念 - DAG & 提交流程 & Yarn两种部署模式

410

12分47秒

022 - 尚硅谷 - SparkCore - 分布式计算模拟 - 搭建基础的架子

470

10分49秒

023 - 尚硅谷 - SparkCore - 分布式计算模拟 - 客户端向服务器发送计算任务

490

11分38秒

024 - 尚硅谷 - SparkCore - 分布式计算模拟 - 数据结构和分布式计算

460

5分30秒

025 - 尚硅谷 - SparkCore - 核心编程 - RDD - 概念介绍

380

10分10秒

026 - 尚硅谷 - SparkCore - 核心编程 - RDD - IO基本实现原理 - 1

440

8分48秒

027 - 尚硅谷 - SparkCore - 核心编程 - RDD - IO基本实现原理 - 2

450

12分23秒

028 - 尚硅谷 - SparkCore - 核心编程 - RDD - RDD和IO之间的关系

400

13分33秒

029 - 尚硅谷 - SparkCore - 核心编程 - RDD - 特点

410

11分18秒

030 - 尚硅谷 - SparkCore - 核心编程 - RDD - 五大主要配置

440

3分4秒

031 - 尚硅谷 - SparkCore - 核心编程 - RDD - 执行原理

410

11分1秒

032 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 内存

400

6分27秒

033 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 文件

300

4分41秒

034 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 文件1

400

11分40秒

035 - 尚硅谷 - SparkCore - 核心编程 - RDD - 集合数据源 - 分区的设定

450

13分52秒

036 - 尚硅谷 - SparkCore - 核心编程 - RDD - 集合数据源 - 分区数据的分配

370

11分31秒

037 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区的设定

400

8分20秒

038 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区数据的分配

370

6分12秒

039 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区数据的分配 - 案例分析

410

7分48秒

040 - 尚硅谷 - SparkCore - 核心编程 - RDD - 算子介绍

400

7分45秒

041 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map

440

5分10秒

042 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map - 小功能

330

8分52秒

043 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map - 并行计算效果演示

400

6分10秒

044 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions

500

3分48秒

045 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions - 小练习

460

2分20秒

046 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions & map的区别 - 完成比完美更重要

400

6分29秒

047 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitionsWithIndex

410

5分6秒

048 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - flatMap

440

2分39秒

049 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - flatMap - 小练习

400

6分32秒

050 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - glom

380

6分47秒

051 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 理解分区不变的含义

410

5分24秒

052 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy

390

6分0秒

053 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy - shuffle来袭

390

7分50秒

054 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy - 小练习

350

7分10秒

055 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - filter - 数据倾斜

390

16分10秒

056 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - sample - 抽奖喽

390

6分12秒

057 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - distinct

370

11分10秒

058 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - coalesce

370

7分26秒

059 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - repartition

310

6分30秒

060 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - sortBy

390

8分18秒

061 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 交集&并集&差集&拉链

480

8分9秒

062 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 交集&并集&差集&拉链 - 注意事项

460

10分17秒

063 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - partitionBy（前面有吸气，中间有等待）

390

5分54秒

064 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - partitionBy - 思考的问题

400

6分5秒

065 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - reduceByKey

410

4分13秒

066 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupByKey

420

18分56秒

067 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupByKey & reduceByKey的区别

440

11分8秒

068 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey

490

13分28秒

069 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 图解

380

3分53秒

070 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - foldByKey

440

8分49秒

071 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 小练习

320

6分3秒

072 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 小练习 - 图解

370

8分3秒

073 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - combineByKey

420

9分11秒

074 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 聚合算子的区别

410

6分59秒

075 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - join

450

3分24秒

076 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - leftOuterJoin & rightOuterJoin

450

4分27秒

077 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - cogroup

410

18分49秒

078 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 需求介绍 & 分析

510

6分39秒

079 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 需求设计

440

8分17秒

080 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 功能实现

410

4分31秒

081 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - 介绍

360

7分59秒

082 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - 算子演示

350

4分23秒

083 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - aggregate

390

4分44秒

084 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - countByKey & countByValue

410

10分15秒

085 - 尚硅谷 - SparkCore - 核心编程 - RDD - WordCount不同的实现方式 - (1-8)

430

6分2秒

086 - 尚硅谷 - SparkCore - 核心编程 - RDD - WordCount不同的实现方式 - (9-11)

410

3分40秒

087 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - save的方法

370

11分36秒

088 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - foreach

340

14分9秒

089 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - 闭包检测

390

12分3秒

090 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - 实际执行时的问题

350

10分5秒

091 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - Kryo序列化Core介绍

370

5分16秒

092 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 依赖 & 血缘关系介绍

390

11分35秒

093 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 血缘关系 - 演示

330

11分34秒

094 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 宽窄依赖

410

9分40秒

095 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 阶段&分区&任务 - 概念解析 - 秋游了

340

11分30秒

096 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 阶段划分源码解读

390

8分56秒

097 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 任务划分源码解读

390

2分50秒

098 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 任务分类

390

14分45秒

099 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - cache & persist基本原理和演示

380

100

5分17秒

100 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 作用

430

101

2分58秒

101 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 检查点

320

102

11分46秒

102 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 区别

370

103

9分1秒

103 - 尚硅谷 - SparkCore - 核心编程 - RDD - 分区器 - 自定义数据分区规则

340

104

4分35秒

104 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件读取与保存

350

105

15分48秒

105 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 原理及简单演示

350

106

3分37秒

106 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 问题

410

107

10分53秒

107 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 自定义实现

440

108

7分13秒

108 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 自定义实现 - 1

480

109

17分14秒

109 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 - 广播变量

380

110

12分2秒

110 - 尚硅谷 - SparkCore - 案例实操 - 数据准备 & 数据说明

400

111

9分45秒

111 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 需求设计 & 思路梳理

400

112

9分53秒

112 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 分别统计点击，下单，支付的数量

410

113

12分17秒

113 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 合并点击，下单，支付的数量

350

114

12分16秒

114 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第二种实现方式

350

115

12分55秒

115 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第三种实现方式

300

116

18分28秒

116 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第四种实现方式

430

117

14分47秒

117 - 尚硅谷 - SparkCore - 案例实操 - 需求二 - 功能实现

360

118

3分40秒

118 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 需求介绍

420

119

19分3秒

119 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 需求分析 - 图解

470

120

5分57秒

120 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 分母的计算

340

121

15分26秒

121 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 分子的计算并求转换率

340

122

8分29秒

122 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 优化需求

340

123

11分3秒

123 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 三层架构介绍

400

124

13分46秒

124 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 三层架构代码实现

370

125

17分47秒

125 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 架构代码优化

420

126

4分30秒

126 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - ThreadLocal解释

380

127

30分8秒

127 - 尚硅谷 - SparkCore - 总结 - 课件梳理

430

128

5分36秒

128 - 尚硅谷 - Spark内核 & 源码 - 总体介绍

410

129

6分28秒

129 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 起点

430

130

13分26秒

130 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 向Yarn提交应用

440

131

14分18秒

131 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 启动ApplicationMaster

360

132

10分20秒

132 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ApplicationMaster - 启动Driver线程

350

133

15分22秒

133 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ApplicationMaster - 启动Executor进程

430

134

17分29秒

134 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ExecutorBackend - 创建Executor计算对象

340

135

10分28秒

135 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - 流程梳理

410

136

7分54秒

136 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 通信原理

360

137

12分43秒

137 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 通信组件

390

138

4分21秒

138 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 课件梳理

370

139

7分22秒

139 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 上下文对象SparkContext

340

140

7分25秒

140 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - RDD依赖关系

360

141

13分44秒

141 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 阶段的划分

340

142

6分12秒

142 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的切分

370

143

16分51秒

143 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的调度

380

144

5分5秒

144 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的执行

400

145

6分20秒

145 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 课件梳理

370

146

7分3秒

146 - 尚硅谷 - Spark内核 & 源码 - shuffle - 原理回顾

400

147

12分17秒

147 - 尚硅谷 - Spark内核 & 源码 - shuffle - 图解

330

148

8分15秒

148 - 尚硅谷 - Spark内核 & 源码 - shuffle - 实现过程

380

149

15分45秒

149 - 尚硅谷 - Spark内核 & 源码 - shuffle - 写流程源码解读

440

150

16分18秒

150 - 尚硅谷 - Spark内核 & 源码 - shuffle - 归并排序和读流程

260

151

5分54秒

151 - 尚硅谷 - Spark内核 & 源码 - shuffle - 课件梳理

410

152

18分50秒

152 - 尚硅谷 - Spark内核 & 源码 - 内存管理

380

153

5分35秒

153 - 尚硅谷 - SparkSQL - 介绍

410

154

2分38秒

154 - 尚硅谷 - SparkSQL - 特点

370

155

6分43秒

155 - 尚硅谷 - SparkSQL - 数据模型 - DataFrame & DataSet

470

156

7分20秒

156 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - 简单演示

380

157

10分25秒

157 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - SQL的基本使用

500

158

6分34秒

158 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - DSL语法的基本使用

440

159

7分0秒

159 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - RDD之间的转换

460

160

4分5秒

160 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - 介绍

460

161

3分27秒

161 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - DataFrame的转换

400

162

5分3秒

162 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - RDD的转换

340

163

4分50秒

163 - 尚硅谷 - SparkSQL - 核心编程 - DataSet & DataFrame & RDD之间的关系

410

164

7分20秒

164 - 尚硅谷 - SparkSQL - 核心编程 - IDEA创建SparkSQL环境对象

370

165

7分48秒

165 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - DataFrame基本操作

380

166

3分17秒

166 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - DataSet基本操作

350

167

5分46秒

167 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - RDD & DataFrame & DataSet互相转换

310

168

4分17秒

168 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDF函数

340

169

5分10秒

169 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 实现原理

360

170

16分13秒

170 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 弱类型函数实现

470

171

10分57秒

171 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 强类型函数实现

390

172

6分23秒

172 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 早期强类型函数实现

420

173

3分21秒

173 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 课件梳理

380

174

6分34秒

174 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 通用方法

380

175

8分29秒

175 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作JSON & CSV

380

176

4分20秒

176 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作MySQL

360

177

5分39秒

177 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作内置Hive

460

178

3分52秒

178 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作外置Hive

440

179

4分27秒

179 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 代码操作外置Hive

310

180

4分14秒

180 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - beeline操作Hive

430

181

6分36秒

181 - 尚硅谷 - SparkSQL - 案例实操 - 数据准备

530

182

12分55秒

182 - 尚硅谷 - SparkSQL - 案例实操 - 需求部分实现

470

183

26分53秒

183 - 尚硅谷 - SparkSQL - 案例实操 - 需求完整实现

490

184

13分38秒

184 - 尚硅谷 - SparkSQL - 总结 - 课件梳理

380

185

9分24秒

185 - 尚硅谷 - SparkStreaming - 概念 - 介绍

430

186

10分23秒

186 - 尚硅谷 - SparkStreaming - 概念 - 原理 & 特点

370

187

14分39秒

187 - 尚硅谷 - SparkStreaming - 入门 - WordCount - 实现

400

188

3分10秒

188 - 尚硅谷 - SparkStreaming - 入门 - WordCount - 解析

400

189

2分37秒

189 - 尚硅谷 - SparkStreaming - DStream创建 - Queue

430

190

7分34秒

190 - 尚硅谷 - SparkStreaming - DStream创建 - 自定义数据采集器

320

191

3分24秒

191 - 尚硅谷 - SparkStreaming - DStream创建 - Socket数据采集器源码解读

390

192

10分50秒

192 - 尚硅谷 - SparkStreaming - DStream创建 - Kafka数据源

430

193

16分7秒

193 - 尚硅谷 - SparkStreaming - DStream转换 - 状态操作

350

194

9分5秒

194 - 尚硅谷 - SparkStreaming - DStream转换 - 无状态操作 - transform

360

195

3分58秒

195 - 尚硅谷 - SparkStreaming - DStream转换 - 无状态操作 - join

350

196

12分16秒

196 - 尚硅谷 - SparkStreaming - DStream转换 - 有状态操作 - window

370

197

8分38秒

197 - 尚硅谷 - SparkStreaming - DStream转换 - 有状态操作 - window - 补充

370

198

4分42秒

198 - 尚硅谷 - SparkStreaming - DStream输出

330

199

15分43秒

199 - 尚硅谷 - SparkStreaming - 优雅地关闭

350

200

3分29秒

200 - 尚硅谷 - SparkStreaming - 优雅地关闭 - 恢复数据

300

201

16分41秒

201 - 尚硅谷 - SparkStreaming - 案例实操 - 环境和数据准备

370

202

10分19秒

202 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 分析

340

203

19分27秒

203 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 黑名单判断

270

204

16分25秒

204 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 统计数据更新

290

205

19分29秒

205 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 测试 & 简化 & 优化

400

206

9分25秒

206 - 尚硅谷 - SparkStreaming - 案例实操 - 需求二 - 功能实现

330

207

6分10秒

207 - 尚硅谷 - SparkStreaming - 案例实操 - 需求二 - 乱码问题

420

208

15分49秒

208 - 尚硅谷 - SparkStreaming - 案例实操 - 需求三 - 介绍 & 功能实现

300

209

9分52秒

209 - 尚硅谷 - SparkStreaming - 案例实操 - 需求三 - 效果演示

390

210

8分11秒

210 - 尚硅谷 - SparkStreaming - 总结 - 课件梳理

360

141 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 阶段的划分

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐