文章/答案/技术大牛

发布

首页视频094 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 宽窄依赖

094 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 宽窄依赖

2022-12-022022-12-02 16:02:16播放41

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷spark教程/视频/094 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 宽窄依赖.avi

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
接下来我们来讲RDD的依赖关系啊，所谓的依赖关系啊，就是我们相邻的两个RDD之间的关系啊，嗯，这个咱们之前给大家说过了，那么我们如果想看到他们的关系呢，我们可以通过这样的方式来把咱们这个给它关掉啊，关掉以后呢，把这边打开，然后拷贝，呃，零二啊，然后呢，点击OK，然后呢，改个名字，然后这个时候这个debug string啊我们就不再要了啊，咱们点它里面呢，是有一个叫做我们的dependis啊，把这个呢，我们拿过来啊，同学们看，拿过来拿过来，拿过来啊，把这个稍微替换一下，然后呢，我们直接来运行。之前咱们那个叫to deb string啊，它其实是为了把那个血缘关系呢，给它展现出来，现在呢，我们的depends呢，是为了把相邻的两个RDB之间的那个我们依赖关系展现出来啊，咱们看。呃，首先呢，我们在第一个我们的这个星号的位置啊，它里面呢，会有一个依赖关系啊，之所以有依赖呢，是因为它的底层呢，其实啊有点大家看啊，我们点一下，点点完以后，我们这边呢，会有个什么呢？我们打开啊，打开以后有个叫hide file，那么这个上面呢，大家会发现有个叫new hi do r DB，对不对，但是这个new出来之后，咱们后退你会发现呢，其实当你去new出来之后啊，它后面做了一个什么呢？我们的map，所以呢，也就意味着对于我们来讲，它其实有两步操作，一个是new，一个是map，所以它里面其实也就会形成一个依赖关系啊，是这样的。
01:36
然后呢，我们这边再后退啊，后退以后来。我们的这个RDD的跟我们下一个RDD之间，诶也形成了一个依赖关系啊，然后呢，我们再往下，下面呢，这个我们的它这个RDD和下面这个RDD呢，也不对，看错了，就是这个word和这个word to one它们之间也形成了我们的one to啊这种dependency依赖关系，然后呢，到了我们最后这个星号，最后这个星号呢，就叫做另外的一个叫sle dependency。诶这个就很奇怪了，说诶怎么依赖关系还不太一样呢，怎么还有个叫one to one教一对一呢，就是我们依赖关系啊，说的是两个RDD之间的，它叫一对一，难道还有别的情况吗？对不对，那这个说的是什么意思呢？首先啊，咱们这里给大家描述一下板。
02:23
咱们之前啊，说两个RDD的依赖，这是没有任何问题的啊，所以来我们写上它放过来，然后呢，这边我们放过来，诶好，这个呢，我们写上RDD啊来呃，比方说这是那个旧的吧，哎，咱们旧的那个O的啊，咱们叫O的那个RDD。然后这个呢，我们写上啊，咱们叫做new叫新的那个RDD，所以呢，我们这里用一个我们的红色啊，然后呢，这里用一个我们的蓝色或者绿色都行啊好了，然后呢，记住啊，我们这个新的RDD，它是依赖于旧的的。所以我们的箭头呢，其实应该是这样来画，对不对，所以啊，咱们应该这么来画啊，这个是它的一个依赖关系啊，所以来我们写上依赖，嗯。
03:07
那么这个我用到了你，我依赖于你这个本身没有任何问题，对不对，所以这个依赖呢，其实我们觉得是没有任何问题的，但是呢，我们这里除了这个依赖以外，还强调另外一个概念，就是数据的依赖啊，就是我们现在的依赖呢，指的是我们对象之间的依赖，那我们在分布式计算当中还考虑到一个数据的依赖啊，那这个怎么理解呢？咱们来看一看。所以啊，把这个呢，我们拿过来啊，咱们说那个分区，因为咱们数据都是在分区里面嘛，所以我们拷贝，诶好，然后呢，在这种情况下，同学啊，咱们再来拷贝，拷贝以后拿过来，拿过来以后啊，那现在我们这边旧的有两个分区，新的有两个分区，分区数量是不变的，然后呢，我们在这里呢，给他一个一啊，然后呢，给他一个二，哎，好了，我放到这边啊，写个二，然后呢，我们再来啊，我们写上它好写上一个我们的什么三，然后呢，写上一个四。
04:03
行了，如果我们新的这个分区当中的数据啊，它和我们旧的RDD的数据呢，他们的分区数据呢，是保持不变的，那么这个就等于它直接就把数据给了他，这就叫一对一，你数据的来源是依赖于一个分区的数据，记住啊，这是我们新的RDD的分区数据，它依赖于我们旧的RDD的一个分区，这就叫one to one。我的数据都来自于你，所以啊，在这种情况下，我们就称之为叫弯to弯把这个呢反过来，那同样道理啊，咱们再来。那我们现在呢，下面的这个啊，咱们再来三和四，那么三和四呢，来拿过来，那这个时候呢，大家可以看到，诶，我们放到这边是不是也都来自于一个分区啊，就是下咱们这里可以有一个概念叫做什么呢？叫做新和旧，或者叫上游和下游，就是我们的新的和旧的这种感觉啊，所以我们这里把文字咱们描述一下来。
05:01
我放到这边啊，咱们写上，嗯，就是说我们新的啊，来咱们新的RDD的一个分区的数据，它依赖于我们旧的RDD一个分区的数据。诶就是这样的，他不会说什么呢，诶我们的一二啊，还有这个三和四它也放过来了，就是你的这个我们的分区的数据，它依赖于两个这个分区，那就不是弯图弯了，所以这个呢，我们称之为叫弯凸湾。所以放过来啊，嗯，这个，那我们的依赖啊，咱们称之为叫做one to one啊，咱们的依赖就是一对一的依赖，这个就好理解一些啊，就说明啊，我们的这个数据之间它有一定的关系，但是啊在某些情况下可能不是这个样子的，比方说咱们那个分组啊，大家看一下来，咱们来拷贝一下，拷贝以后咱们复制啊来复制，嗯。放到我们下面来，放到下面来以后，它也是一个新和一个旧的，但是呢，问题来了，我要把我们的奇数要放在一块，要把偶数放在一块儿，所以这样的话，大家会发现这个三。
06:09
和这个二就要调换位置对不对，我们的一和三在一个分区，那就意味着这个我们下游的这个紫色的分区，它的数据其实是依赖于这个分区和这个分区两个分区的，为什么呢？一来自于这个分区，我要依赖于它，而这个三它来自于这个分区，我要用到它，所以我用到谁我就依赖于谁嘛，那所以我的箭头大家可以看到来，这个箭头就应该发生点变化了，它应该依赖于我们这边。大家想是不是这样的，所以啊，这个时候就不是所谓的one to one了，一个对一个了，他可能一个就对多个了，对不对，所以呢，我们这里再来。把这个呢，我们翻过来啊，咱们放过来，所以呢，这种方式跟上面呢就截然不同了，这里呢也给它复制啊，来复制OK。好，翻过来咱们说了，新的RDD的一个分区的数据依赖于旧的RDD的什么，咱们叫多个分区，诶，咱们叫做多个哎分区的数据，那么这个依赖呢，我们就称之为什么呢？有一个特定的名词叫做什么呢？叫杀否依赖。
07:11
为什么这么说呢？大家会发现数据被打乱重新组合了吧，你的一和二被打乱了，然后呢，和三和四打乱之后重新组合在一个新的分区当中，这叫打乱重组，那么打乱重组的话，这个依赖我们称之为叫杀否依赖，所以啊，咱们回过头来把这个呢改个名啊，这个呢，我们写上叫one to one。One two one啊好了，然后呢，我们把这个呢，我们再来写上一个啊，咱们管干嘛呢，写上叫沙uffle，诶咱们叫做uffle依赖啊，但是有的时候啊，这个哎不好理解啊，不好，所谓的不好理解是什么叫杀否依赖对不对，所以啊，为了能够让这个依赖关系更好明白，其实啊，它有另外一个名词，大家回过头来看一看，咱们这里面不有一个叫one two one dependency嘛，所以我们拷贝，拷贝以后咱们搜索一下它的源代码来。
08:02
我了快捷键啊，两个shift完了个快捷键，然后呢，来拷贝，拷贝以后我们打开它的这个源码点开，点开之后大家有没有发现这个class one two one dependency，它其实怎么了，继承了这个叫narrow dependency叫做窄依赖对不对，所以啊，这个一对一其实还有另外一个称呼，所谓的另外一个称呼叫做窄啊，所以呢，我们写上一个括号啊。来，把这个放过来，嗯，咱们写上叫做窄依赖啊。嗯，窄一栏，那有窄的话，那么相对来说什么，就另外一个称呼叫做什么呢？较宽一栏，所以啊，咱们这个沙否呢，大家会发现它比较宽，对不对啊，当时的一个含义了啊，所以呢，我们这里给他改一下，咱们叫做宽以来，但是其实从源码的角度来讲，是没有宽的概念的，只是你不是窄就是宽嘛，所以啊，咱们有一个概念啊，需要大家能够稍微的明白一下，所谓的杀否依赖就是宽依赖，而我们的这个就叫窄依赖，那之所以叫窄依赖，是因为源码当中有一个叫做narrow dependency，所以咱们才这么称呼它好不好，同学们，诶老师，那我怎么能够看到我到底是我们的宽还是窄呢？首先就看这个叫one to one dependency，诶老师，那刚才不还有一个吗？所以来咱们打开。
09:19
这个叫做shuffle dependency，所以打开打开以后来咱们搜索一下，搜索以后你会发现呢，这个shuffle dependency，它其实直接就继承了dependency，所以没有那个narrow的概念啊，所以咱们点一下没有，那没有的情况下，那我们只能把它认为是什么，就是我们的宽，不是窄就是宽嘛，诶就是这个概念，所以把宽窄依赖呢，这个概念呢，我们也稍微的理解一下，好，那我们现在呢，看到了以后，这个依赖关系就有了，然后下面呢，就有窄依赖和宽依赖的概念，那这里呢，我们简单的再看一看窄依赖，它表示每一个上游的RDD的分区数据最多被下游RDD的分区数据使用。啊，然后窄依赖，我们形象的比喻为独生子女，你只有一个孩子，那你会把所有的东西都给他对不对，不会给别人，那不就叫独生子女嘛，就这种感觉啊，所以他说最多为下游，大家可以看到我们从继承关系的角度来讲，那么我们的O就是我们的什么上游，我们的new就是下游，那么它的一和二这两个数据最多。
10:21
也就是说只能记住啊，咱们就只能被一个分区所拥有，所呃独享吧，那这样的话呢，就叫做窄，但是呢，如果我们上游的RD的数分下的个R的蓝色啊，那么在这儿被这个共享了，被它共享了，然后呢，你这个R呢，它这个地方呢，来放到这儿被这个给它共享了，所以啊，就等于你上游的这个RDD分区的数据被下游的多个分区所共享，那么这个咱们称之为叫沙否依赖，也称之为叫宽依赖，因为中间会有杀否的过程。
11:03
好，往下看，下面是宽依赖，它说宽依赖表示同一个上游RDD的partition分区数据被下游RDD的分区所依赖，会引起沙否，我们形象的比喻为多生啊，如果你有多个孩子的话，那你的东西是不是要平均分给我们多个孩子呀，对不对，比较公平一些嘛，所以啊，这种感觉就跟我们的宽一带是非常类似的啊，所以我们在这里呢，给这个概念呢，咱们先描述一下，咱们后面呢，再会详细的来解释这个宽一带和窄一带的作用。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷spark教程

（94/210）

4分47秒

001 - 尚硅谷 - Spark框架 - 简介

460

7分47秒

002 - 尚硅谷 - Spark框架 - Vs Hadoop

530

2分23秒

003 - 尚硅谷 - Spark框架 - 核心模块 - 介绍

400

5分45秒

004 - 尚硅谷 - Spark框架 - 快速上手 - 开发环境准备

510

7分56秒

005 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 案例分析

440

7分6秒

006 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - Spark环境

410

11分55秒

007 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 功能实现

420

8分30秒

008 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 不同的实现

470

4分23秒

009 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - Spark的实现

370

3分49秒

010 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 日志和错误

440

8分10秒

011 - 尚硅谷 - Spark框架 - 运行环境 - 本地环境 - 基本配置和操作

520

3分9秒

012 - 尚硅谷 - Spark框架 - 运行环境 - 本地环境 - 提交应用程序

420

6分11秒

013 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 基本配置和操作

390

3分7秒

014 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 提交参数解析

360

4分7秒

015 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 配置历史服务

390

5分50秒

016 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 配置高可用

470

6分40秒

017 - 尚硅谷 - Spark框架 - 运行环境 - Yarn环境 - 基本配置 & 历史服务

360

11分5秒

018 - 尚硅谷 - Spark框架 - 运行环境 - Windows环境 & 总结

470

3分32秒

019 - 尚硅谷 - Spark框架 - 核心组件 - 介绍

370

3分30秒

020 - 尚硅谷 - Spark框架 - 核心概念 - Executor & Core & 并行度

410

6分59秒

021 - 尚硅谷 - Spark框架 - 核心概念 - DAG & 提交流程 & Yarn两种部署模式

410

12分47秒

022 - 尚硅谷 - SparkCore - 分布式计算模拟 - 搭建基础的架子

470

10分49秒

023 - 尚硅谷 - SparkCore - 分布式计算模拟 - 客户端向服务器发送计算任务

490

11分38秒

024 - 尚硅谷 - SparkCore - 分布式计算模拟 - 数据结构和分布式计算

460

5分30秒

025 - 尚硅谷 - SparkCore - 核心编程 - RDD - 概念介绍

380

10分10秒

026 - 尚硅谷 - SparkCore - 核心编程 - RDD - IO基本实现原理 - 1

440

8分48秒

027 - 尚硅谷 - SparkCore - 核心编程 - RDD - IO基本实现原理 - 2

450

12分23秒

028 - 尚硅谷 - SparkCore - 核心编程 - RDD - RDD和IO之间的关系

400

13分33秒

029 - 尚硅谷 - SparkCore - 核心编程 - RDD - 特点

410

11分18秒

030 - 尚硅谷 - SparkCore - 核心编程 - RDD - 五大主要配置

440

3分4秒

031 - 尚硅谷 - SparkCore - 核心编程 - RDD - 执行原理

410

11分1秒

032 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 内存

400

6分27秒

033 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 文件

300

4分41秒

034 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 文件1

400

11分40秒

035 - 尚硅谷 - SparkCore - 核心编程 - RDD - 集合数据源 - 分区的设定

450

13分52秒

036 - 尚硅谷 - SparkCore - 核心编程 - RDD - 集合数据源 - 分区数据的分配

370

11分31秒

037 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区的设定

400

8分20秒

038 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区数据的分配

370

6分12秒

039 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区数据的分配 - 案例分析

410

7分48秒

040 - 尚硅谷 - SparkCore - 核心编程 - RDD - 算子介绍

400

7分45秒

041 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map

440

5分10秒

042 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map - 小功能

330

8分52秒

043 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map - 并行计算效果演示

400

6分10秒

044 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions

500

3分48秒

045 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions - 小练习

460

2分20秒

046 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions & map的区别 - 完成比完美更重要

400

6分29秒

047 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitionsWithIndex

410

5分6秒

048 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - flatMap

440

2分39秒

049 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - flatMap - 小练习

400

6分32秒

050 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - glom

380

6分47秒

051 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 理解分区不变的含义

410

5分24秒

052 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy

390

6分0秒

053 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy - shuffle来袭

390

7分50秒

054 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy - 小练习

350

7分10秒

055 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - filter - 数据倾斜

390

16分10秒

056 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - sample - 抽奖喽

390

6分12秒

057 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - distinct

370

11分10秒

058 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - coalesce

370

7分26秒

059 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - repartition

310

6分30秒

060 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - sortBy

390

8分18秒

061 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 交集&并集&差集&拉链

480

8分9秒

062 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 交集&并集&差集&拉链 - 注意事项

460

10分17秒

063 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - partitionBy（前面有吸气，中间有等待）

390

5分54秒

064 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - partitionBy - 思考的问题

400

6分5秒

065 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - reduceByKey

410

4分13秒

066 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupByKey

420

18分56秒

067 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupByKey & reduceByKey的区别

440

11分8秒

068 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey

490

13分28秒

069 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 图解

380

3分53秒

070 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - foldByKey

440

8分49秒

071 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 小练习

320

6分3秒

072 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 小练习 - 图解

370

8分3秒

073 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - combineByKey

420

9分11秒

074 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 聚合算子的区别

410

6分59秒

075 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - join

450

3分24秒

076 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - leftOuterJoin & rightOuterJoin

450

4分27秒

077 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - cogroup

410

18分49秒

078 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 需求介绍 & 分析

510

6分39秒

079 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 需求设计

440

8分17秒

080 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 功能实现

410

4分31秒

081 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - 介绍

360

7分59秒

082 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - 算子演示

350

4分23秒

083 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - aggregate

390

4分44秒

084 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - countByKey & countByValue

410

10分15秒

085 - 尚硅谷 - SparkCore - 核心编程 - RDD - WordCount不同的实现方式 - (1-8)

430

6分2秒

086 - 尚硅谷 - SparkCore - 核心编程 - RDD - WordCount不同的实现方式 - (9-11)

410

3分40秒

087 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - save的方法

370

11分36秒

088 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - foreach

340

14分9秒

089 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - 闭包检测

390

12分3秒

090 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - 实际执行时的问题

350

10分5秒

091 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - Kryo序列化Core介绍

370

5分16秒

092 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 依赖 & 血缘关系介绍

390

11分35秒

093 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 血缘关系 - 演示

330

11分34秒

094 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 宽窄依赖

410

9分40秒

095 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 阶段&分区&任务 - 概念解析 - 秋游了

340

11分30秒

096 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 阶段划分源码解读

390

8分56秒

097 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 任务划分源码解读

390

2分50秒

098 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 任务分类

390

14分45秒

099 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - cache & persist基本原理和演示

380

100

5分17秒

100 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 作用

430

101

2分58秒

101 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 检查点

320

102

11分46秒

102 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 区别

370

103

9分1秒

103 - 尚硅谷 - SparkCore - 核心编程 - RDD - 分区器 - 自定义数据分区规则

340

104

4分35秒

104 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件读取与保存

350

105

15分48秒

105 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 原理及简单演示

350

106

3分37秒

106 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 问题

410

107

10分53秒

107 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 自定义实现

440

108

7分13秒

108 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 自定义实现 - 1

480

109

17分14秒

109 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 - 广播变量

380

110

12分2秒

110 - 尚硅谷 - SparkCore - 案例实操 - 数据准备 & 数据说明

400

111

9分45秒

111 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 需求设计 & 思路梳理

400

112

9分53秒

112 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 分别统计点击，下单，支付的数量

410

113

12分17秒

113 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 合并点击，下单，支付的数量

350

114

12分16秒

114 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第二种实现方式

350

115

12分55秒

115 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第三种实现方式

300

116

18分28秒

116 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第四种实现方式

430

117

14分47秒

117 - 尚硅谷 - SparkCore - 案例实操 - 需求二 - 功能实现

360

118

3分40秒

118 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 需求介绍

420

119

19分3秒

119 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 需求分析 - 图解

470

120

5分57秒

120 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 分母的计算

340

121

15分26秒

121 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 分子的计算并求转换率

340

122

8分29秒

122 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 优化需求

340

123

11分3秒

123 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 三层架构介绍

400

124

13分46秒

124 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 三层架构代码实现

370

125

17分47秒

125 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 架构代码优化

420

126

4分30秒

126 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - ThreadLocal解释

380

127

30分8秒

127 - 尚硅谷 - SparkCore - 总结 - 课件梳理

430

128

5分36秒

128 - 尚硅谷 - Spark内核 & 源码 - 总体介绍

410

129

6分28秒

129 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 起点

430

130

13分26秒

130 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 向Yarn提交应用

440

131

14分18秒

131 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 启动ApplicationMaster

360

132

10分20秒

132 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ApplicationMaster - 启动Driver线程

350

133

15分22秒

133 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ApplicationMaster - 启动Executor进程

430

134

17分29秒

134 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ExecutorBackend - 创建Executor计算对象

340

135

10分28秒

135 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - 流程梳理

410

136

7分54秒

136 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 通信原理

360

137

12分43秒

137 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 通信组件

390

138

4分21秒

138 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 课件梳理

370

139

7分22秒

139 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 上下文对象SparkContext

340

140

7分25秒

140 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - RDD依赖关系

360

141

13分44秒

141 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 阶段的划分

340

142

6分12秒

142 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的切分

370

143

16分51秒

143 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的调度

380

144

5分5秒

144 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的执行

400

145

6分20秒

145 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 课件梳理

370

146

7分3秒

146 - 尚硅谷 - Spark内核 & 源码 - shuffle - 原理回顾

400

147

12分17秒

147 - 尚硅谷 - Spark内核 & 源码 - shuffle - 图解

330

148

8分15秒

148 - 尚硅谷 - Spark内核 & 源码 - shuffle - 实现过程

380

149

15分45秒

149 - 尚硅谷 - Spark内核 & 源码 - shuffle - 写流程源码解读

440

150

16分18秒

150 - 尚硅谷 - Spark内核 & 源码 - shuffle - 归并排序和读流程

260

151

5分54秒

151 - 尚硅谷 - Spark内核 & 源码 - shuffle - 课件梳理

410

152

18分50秒

152 - 尚硅谷 - Spark内核 & 源码 - 内存管理

380

153

5分35秒

153 - 尚硅谷 - SparkSQL - 介绍

410

154

2分38秒

154 - 尚硅谷 - SparkSQL - 特点

370

155

6分43秒

155 - 尚硅谷 - SparkSQL - 数据模型 - DataFrame & DataSet

470

156

7分20秒

156 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - 简单演示

380

157

10分25秒

157 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - SQL的基本使用

500

158

6分34秒

158 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - DSL语法的基本使用

440

159

7分0秒

159 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - RDD之间的转换

460

160

4分5秒

160 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - 介绍

460

161

3分27秒

161 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - DataFrame的转换

400

162

5分3秒

162 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - RDD的转换

340

163

4分50秒

163 - 尚硅谷 - SparkSQL - 核心编程 - DataSet & DataFrame & RDD之间的关系

410

164

7分20秒

164 - 尚硅谷 - SparkSQL - 核心编程 - IDEA创建SparkSQL环境对象

370

165

7分48秒

165 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - DataFrame基本操作

380

166

3分17秒

166 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - DataSet基本操作

350

167

5分46秒

167 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - RDD & DataFrame & DataSet互相转换

310

168

4分17秒

168 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDF函数

340

169

5分10秒

169 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 实现原理

360

170

16分13秒

170 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 弱类型函数实现

470

171

10分57秒

171 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 强类型函数实现

390

172

6分23秒

172 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 早期强类型函数实现

420

173

3分21秒

173 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 课件梳理

380

174

6分34秒

174 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 通用方法

380

175

8分29秒

175 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作JSON & CSV

380

176

4分20秒

176 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作MySQL

360

177

5分39秒

177 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作内置Hive

460

178

3分52秒

178 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作外置Hive

440

179

4分27秒

179 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 代码操作外置Hive

310

180

4分14秒

180 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - beeline操作Hive

430

181

6分36秒

181 - 尚硅谷 - SparkSQL - 案例实操 - 数据准备

530

182

12分55秒

182 - 尚硅谷 - SparkSQL - 案例实操 - 需求部分实现

470

183

26分53秒

183 - 尚硅谷 - SparkSQL - 案例实操 - 需求完整实现

490

184

13分38秒

184 - 尚硅谷 - SparkSQL - 总结 - 课件梳理

380

185

9分24秒

185 - 尚硅谷 - SparkStreaming - 概念 - 介绍

430

186

10分23秒

186 - 尚硅谷 - SparkStreaming - 概念 - 原理 & 特点

370

187

14分39秒

187 - 尚硅谷 - SparkStreaming - 入门 - WordCount - 实现

400

188

3分10秒

188 - 尚硅谷 - SparkStreaming - 入门 - WordCount - 解析

400

189

2分37秒

189 - 尚硅谷 - SparkStreaming - DStream创建 - Queue

430

190

7分34秒

190 - 尚硅谷 - SparkStreaming - DStream创建 - 自定义数据采集器

320

191

3分24秒

191 - 尚硅谷 - SparkStreaming - DStream创建 - Socket数据采集器源码解读

390

192

10分50秒

192 - 尚硅谷 - SparkStreaming - DStream创建 - Kafka数据源

430

193

16分7秒

193 - 尚硅谷 - SparkStreaming - DStream转换 - 状态操作

350

194

9分5秒

194 - 尚硅谷 - SparkStreaming - DStream转换 - 无状态操作 - transform

360

195

3分58秒

195 - 尚硅谷 - SparkStreaming - DStream转换 - 无状态操作 - join

350

196

12分16秒

196 - 尚硅谷 - SparkStreaming - DStream转换 - 有状态操作 - window

370

197

8分38秒

197 - 尚硅谷 - SparkStreaming - DStream转换 - 有状态操作 - window - 补充

370

198

4分42秒

198 - 尚硅谷 - SparkStreaming - DStream输出

330

199

15分43秒

199 - 尚硅谷 - SparkStreaming - 优雅地关闭

350

200

3分29秒

200 - 尚硅谷 - SparkStreaming - 优雅地关闭 - 恢复数据

300

201

16分41秒

201 - 尚硅谷 - SparkStreaming - 案例实操 - 环境和数据准备

370

202

10分19秒

202 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 分析

340

203

19分27秒

203 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 黑名单判断

270

204

16分25秒

204 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 统计数据更新

290

205

19分29秒

205 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 测试 & 简化 & 优化

400

206

9分25秒

206 - 尚硅谷 - SparkStreaming - 案例实操 - 需求二 - 功能实现

330

207

6分10秒

207 - 尚硅谷 - SparkStreaming - 案例实操 - 需求二 - 乱码问题

420

208

15分49秒

208 - 尚硅谷 - SparkStreaming - 案例实操 - 需求三 - 介绍 & 功能实现

300

209

9分52秒

209 - 尚硅谷 - SparkStreaming - 案例实操 - 需求三 - 效果演示

390

210

8分11秒

210 - 尚硅谷 - SparkStreaming - 总结 - 课件梳理

360

094 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 宽窄依赖

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐