文章/答案/技术大牛

发布

首页视频028 - 尚硅谷 - SparkCore - 核心编程 - RDD - RDD和IO之间的关系

028 - 尚硅谷 - SparkCore - 核心编程 - RDD - RDD和IO之间的关系

2022-12-022022-12-02 16:02:16播放40

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷spark教程/视频/028 - 尚硅谷 - SparkCore - 核心编程 - RDD - RDD和IO之间的关系.avi

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好了，同学们，那么我们接下来咱们该说RDD了，咱们为什么前面要讲IO呢？就是因为我们的RDD它不是一个最小的计算单元吗？那么这个计算单元在我们实际的需求当中，是需要不同的计算组合在一起的，那么这种组合的方式就跟IO的似，你看咱们的IO不就在逐层的进行功能的加功能的，我们的RD是一回，所以如果前面咱们给大家画的这些图大家能够明的话，我你RDD的这个计的你就能够明白，没有何的问题啊来，我们接下来给大家看看是不是这样的啊，来，咱们回过头来，咱们看一下咱们之前给大家写的，咱们这个叫做word count，咱们打开。打开以后同学们看啊，我们打开这个吧，打开它以后咱们别的不说，首先看第一个在这个地方是不是构建出了一个叫RDD。没问题吧，同学们，它就是一个RDD，好，那么我们现在呢，可以去看一看，点一下点点完了以后再点击它，然后往下看，它里面有个什么东西叫new hadde r DD，那么这个时候在咱们这里，咱们给大家画一画啊，做一个对比来拷贝。
01:19
拷贝以后，那么这里呢，我们就写上啊，咱们叫had duop，我们的RDD，它这个地方就是用来读取文件的，为什么呢？因为咱们后退啊，好，咱们后退，后退以后咱们的这个叫text file，不就是应来读取文件吗？那所以文件就应该是在这个地方读取的，好，我们把咱们这个文件咱们拿过来，诶给它复制一下好啦，那你把文件你要读取过来的话，那我的箭头就得指向它呀，对不对，我要箭头指向它了，可是呀，你光读取文件没有任何的义啊，对不对，你要干嘛？你是不是应该把我们读到的一行一行的数据给它进行我们的扁平化操作呀，所以我们下面会有个叫flat map，对不对，那这个flat map在干什么呀？同学们看我们点一下，有没有发现它的扭出来另外一个RD。
02:11
而且它会把当前的那个RDD的对象给它传进去，所谓的传进去是不是就等于包装进去，同学们是不是这样的，所以来我们看看啊，咱们为了让大家看的比较清楚一些，来我们把这个去掉，去掉以后在我们刚才的这个地方咱们找一下，咱们叫做它点一下。呃，这个地方呢，我们叫做new啊，咱们来拷贝，拷贝以后在咱们这写上咱们叫做RDD，然后呢，这个RDD等于它对不对？可以这么理解吧，现在干嘛了呢？现在咱们写个r dde，然后写个RDD，它等于什么叫做new，我们回到刚才的这个叫flat map点有个叫map parts RD，所以拷贝拷贝以后放过来，放过来以后同学们看它怎么了，把你当前调用Fla map的那个对象，大家看一下来我们的map这个是不是属于这个对象呢？所以这个不就这个RDD吗？那不就等同于把这个RDD给它放进去了吗？是不是给它包进去了，那么包进去的话，那么我们画图的时候是不是就可以来了，所以拷贝拷贝以后同学们看我就放到了这个位置啊，来放这个位置，那这个呢，就应该给它拷贝了啊，咱们找一下。
03:27
咱们叫做map partitions r啊，就是这样的，放过来，放过来以后咱们再来往下看啊，往下看，往下看以后，那么下面怎么了，叫map，这个map呢，我们再往下点，点完以后怎么了，又叫做new map parts r DD，那好大家看这个图，这个图形当中是不是又要包一层，所以我们拷贝，拷贝以后咱们拿过来啊，拿过来以后我要稍微的我们变一下了啊，咱们叫map parts r，但是啊，我为了区分它呀，咱们在后面写上一个叫做map啊，然后这个呢，我们写上它叫做什么呢？叫做flight map啊，咱们叫做flight，好，咱们的map，然后还有呢，就是这个咱们写上叫tax file。
04:14
所以啊，他们的方法不一样，得到的RDD也不一样啊，行了，那这个是不是就完事了呢？还没有，它现在还有一步叫做reduce by key，我们点一下，点点完以后再往下，再往下，诶走到下面的时候，大家看一下什么东西叫S的RDD吧，所以来我们拷贝，拷贝以后再来一层啊，咱们再来一层，这个给它置于底层，这个呢，我们来写上啊，咱们叫沙。好了，那么我们写上叫reduce by key啊reduce by key，好，那这个颜色呢，给它稍微的咱们变一下啊，咱们变一下行了，那大家会发现这就是我们的word count对不对？好，那么你在这个地方你进行了我们的什么，诶我们的这个包装，包装以后你干什么了呢？它后面会有个叫collect，然后循环打印对不对，所以它还是打印在控制台上，然后呢，我们接着往下来啊，往下来，往下来以后它是直接打印吗？不是，它是不是有一个叫collect呀，叫采集呀，它是有个采集的，所以把这个放过来，放到这里来。
05:21
好了，这个呢，我们就叫做什么呢？叫做collect，我把这个图画完了之后，现在我们来假设我们开始要读取数据了，那么你读数据是怎么读的呢？比方说我现在呢，读的数据呢，就是这个样子的，我把这个去掉吧，把这个去掉以后，我把这个咱们拿过来啊，咱们拿过来。把它放到这边啊，或者呢，我稍微的有点往这边挪一下，会不会好一些呢。把这个挪一下啊，来挪一下以后把这个呢，我放过来啊，比方说这就是我们的file啊，咱们的文件，那么文件里面是有内容的呀，比方说我们在这个地方，我们写成叫hello啊，咱们叫做什么skyla，好了，接下来往下，下面呢，我们叫hello，咱们叫Spark。
06:03
咱们叫hello啊，咱们叫Spark，那么你的这个叫海杜RDD，它就会读取咱们的这个文件，对吗？它如果读取这个文件的话，就会把里面的这个一行一行的给它取出来，所以说我们拿到的其实是一行一行的数据，所以咱们拿过来放到这里啊，放这儿咱们叫做什么呢？Hello OK，然后呢是skyla，好，接下来我们在这里呢，复制啊，复制以后放过来，这个应该叫做hello啊，咱们的Spark，诶就是这样。但是你要记住了，你现在只是把我们数据一行一行读过来了，但是你能做word count吗？不行，对不对，所以我要补充功能，补充什么功能啊，将一行一行的数据给它进行扁平化操作，就是分词操作吧，要把hello和盖给它分解开，对不对，所以这个时候我们的hello，诶应该给它分解开，叫扁平化操作，也称之为叫分词效果，对不对？所以来我们现在呢，放过来，这个呢，我们叫做skyla，嗯，咱们叫做skyla，还有我们再来啊，咱们叫做hello，把它放过来，还有我们的Spark，嗯，放这边。
07:13
好了啊，咱们叫做Spark，那你这么写完以后，诶，我们说了不行啊，为什么还不行呢？是因为你光把它变成单词了，你没有做聚合，我不知道我的单词有多少个对不对，所以咱们当时讲了，为了能够使用Spark的方法，叫reduce by key，你需要转换它的结构，那么这个转换结构也算是一个功能，所以来把这个呢给它复制，复制以后诶就到了这儿了，到了这儿以后大家想想它是不是就变成我们的一了呀，诶，就变成了这种一啊，它表示的是hello这个单词它出现了一次，那么同样道理啊，咱们该了啊，咱们写成一个一就可以了。呃，还有我们这写上一个咱们的逗号一啊，咱们在这里写上咱们的hello，然后再来啊，我们写上咱们叫做Spark，嗯，然后写上一个逗号一就是它了，好了，那我写完了以后，那怎么统计啊，那我们说了reduce by key，相同的key来做value的聚合，对吧？那么相同的key它不就放在一起了吗？两个hello就放在一起了啊，然后呢，Skyla和Spark他们两个不是相同的K就给它分开就行了，分开以后，那么最终的结果大家看啊，来，把这个往后挪一挪，挪一挪以后，那这个时候来吧，我们的嗨，诶就变成什么了呢？变成了我们的二，为什么呢？统计了吗？相同的K1和一做聚合，不就一加一等于二吗？那么盖LA1保持不变，我们Spark它保持不变，那么你最后的结果不就是开我们的二，然后SKYLA1，然后呢，我们的SPARK1。这个不就是我们最终。
08:53
的结果吗？好了，同学们回过头来，咱们观察一下，这种方式跟前面的图形是不是大同小异啊，比方说我来个A啊，过来个A，然后这个A再往这里面放，对不对？放完了以后我们再过来一个我们的B，然后呢，B再给它挪到这儿来，我们这儿是不保留数据的啊，咱们只是为了给大家演示，所以来拷贝，拷贝以后有个B吧，然后呢，同样道理，我们这边来干嘛呢？写个C，然后这个C再复制放到这里面来，放到这里面来以后是不是应该组合成一个字符放到缓冲区里面，所以是不是就变成了我们的中文的中字啊，所以说你会发现呢，跟我们这是不是大同小异啊，所以说RDD的实现原理跟IO的实现原理是一回事，那么我们这里就做一个总结啊，咱们来。
09:41
我们来说一下咱们的RDD，它的这个数据处理啊，我们的方式它类似于我们的这个IO啊，咱们叫IO流，所以啊，它也有啊，也有我们的什么啊，咱们叫做装饰者哎，设计模式它也是有的，诶老师那是不是就一回事啊，其实还不见得，比方说咱们举个例子，我们的这个IO流当中，我们说过了，你光去new对象的时候，并不会真正触发文件数据的读取吧，我们这儿也是一样的，你前面你不管怎么作，大家看一下我们的代码，我不管前面做了什么样的操作，它会真正的去读取数据吗？不会，他只有在我们的collect真正要用到数据的时候，它才会读取数据，诶，是这个概念啊。所以我们现在呢，给大家说一下，就是我们RDD数据啊，它只有在我们调用啊，咱们的collect啊，咱们方法时，它才会。
10:41
啊，真正执行，真正执行我们的业务逻辑操作，所以前面呢，咱们之前啊，之前的封装它全部。它都是功能的扩展啊，咱们叫做功能的扩展，所以这个事情我们要给他分析清楚了，你要搞明白啊，哎，老师呢，还有没有别的一些区别呢？还有咱们之前大家还记得吗？咱们这边有个叫做buffer，叫缓冲区吧，这就说明在IO当中啊，它其实是可以临时的把数据存储一下的，但是我们RDD里面你会发现它里面是不存数据的，当你的数据来了，就直接往下走，再往下走，再往下走，所以说中间是不存储任何数据的，诶这个事儿同学们要明白啊，所以来箭头，诶，咱们的箭头放过来好了，复制一下，诶再给它放过来，然后再来复制，再给他放过来。
11:38
所以啊，数据是原封不动往下流转，它是不会存储数据的啊，所以咱们再来说一下咱们RDD的数据呢，RDD它是什么呢？它是来写上，它是不保存数据啊，不保存数据的，但是我们的IO它可以临时啊保存一部分数据一咱们叫部分数据，所以啊，对于这个来讲，他们其实很像，但是又有区别，但是呢，像的地方很多嘛，你把这个图形你理解一下我们RDD的基本原理，咱们就明白了，它就是把最小的计算单元通过组合，让它的功能越来越强大，懂吗？同学们就是这个意思了。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷spark教程

（28/210）

4分47秒

001 - 尚硅谷 - Spark框架 - 简介

460

7分47秒

002 - 尚硅谷 - Spark框架 - Vs Hadoop

530

2分23秒

003 - 尚硅谷 - Spark框架 - 核心模块 - 介绍

400

5分45秒

004 - 尚硅谷 - Spark框架 - 快速上手 - 开发环境准备

510

7分56秒

005 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 案例分析

440

7分6秒

006 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - Spark环境

410

11分55秒

007 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 功能实现

420

8分30秒

008 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 不同的实现

470

4分23秒

009 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - Spark的实现

370

3分49秒

010 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 日志和错误

440

8分10秒

011 - 尚硅谷 - Spark框架 - 运行环境 - 本地环境 - 基本配置和操作

520

3分9秒

012 - 尚硅谷 - Spark框架 - 运行环境 - 本地环境 - 提交应用程序

420

6分11秒

013 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 基本配置和操作

390

3分7秒

014 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 提交参数解析

360

4分7秒

015 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 配置历史服务

390

5分50秒

016 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 配置高可用

470

6分40秒

017 - 尚硅谷 - Spark框架 - 运行环境 - Yarn环境 - 基本配置 & 历史服务

360

11分5秒

018 - 尚硅谷 - Spark框架 - 运行环境 - Windows环境 & 总结

470

3分32秒

019 - 尚硅谷 - Spark框架 - 核心组件 - 介绍

370

3分30秒

020 - 尚硅谷 - Spark框架 - 核心概念 - Executor & Core & 并行度

410

6分59秒

021 - 尚硅谷 - Spark框架 - 核心概念 - DAG & 提交流程 & Yarn两种部署模式

410

12分47秒

022 - 尚硅谷 - SparkCore - 分布式计算模拟 - 搭建基础的架子

470

10分49秒

023 - 尚硅谷 - SparkCore - 分布式计算模拟 - 客户端向服务器发送计算任务

490

11分38秒

024 - 尚硅谷 - SparkCore - 分布式计算模拟 - 数据结构和分布式计算

460

5分30秒

025 - 尚硅谷 - SparkCore - 核心编程 - RDD - 概念介绍

380

10分10秒

026 - 尚硅谷 - SparkCore - 核心编程 - RDD - IO基本实现原理 - 1

440

8分48秒

027 - 尚硅谷 - SparkCore - 核心编程 - RDD - IO基本实现原理 - 2

450

12分23秒

028 - 尚硅谷 - SparkCore - 核心编程 - RDD - RDD和IO之间的关系

400

13分33秒

029 - 尚硅谷 - SparkCore - 核心编程 - RDD - 特点

410

11分18秒

030 - 尚硅谷 - SparkCore - 核心编程 - RDD - 五大主要配置

440

3分4秒

031 - 尚硅谷 - SparkCore - 核心编程 - RDD - 执行原理

410

11分1秒

032 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 内存

400

6分27秒

033 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 文件

300

4分41秒

034 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 文件1

400

11分40秒

035 - 尚硅谷 - SparkCore - 核心编程 - RDD - 集合数据源 - 分区的设定

450

13分52秒

036 - 尚硅谷 - SparkCore - 核心编程 - RDD - 集合数据源 - 分区数据的分配

370

11分31秒

037 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区的设定

400

8分20秒

038 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区数据的分配

370

6分12秒

039 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区数据的分配 - 案例分析

410

7分48秒

040 - 尚硅谷 - SparkCore - 核心编程 - RDD - 算子介绍

400

7分45秒

041 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map

440

5分10秒

042 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map - 小功能

330

8分52秒

043 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map - 并行计算效果演示

400

6分10秒

044 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions

500

3分48秒

045 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions - 小练习

460

2分20秒

046 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions & map的区别 - 完成比完美更重要

400

6分29秒

047 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitionsWithIndex

410

5分6秒

048 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - flatMap

440

2分39秒

049 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - flatMap - 小练习

400

6分32秒

050 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - glom

380

6分47秒

051 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 理解分区不变的含义

410

5分24秒

052 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy

390

6分0秒

053 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy - shuffle来袭

390

7分50秒

054 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy - 小练习

350

7分10秒

055 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - filter - 数据倾斜

390

16分10秒

056 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - sample - 抽奖喽

390

6分12秒

057 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - distinct

370

11分10秒

058 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - coalesce

370

7分26秒

059 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - repartition

310

6分30秒

060 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - sortBy

390

8分18秒

061 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 交集&并集&差集&拉链

480

8分9秒

062 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 交集&并集&差集&拉链 - 注意事项

460

10分17秒

063 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - partitionBy（前面有吸气，中间有等待）

390

5分54秒

064 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - partitionBy - 思考的问题

400

6分5秒

065 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - reduceByKey

410

4分13秒

066 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupByKey

420

18分56秒

067 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupByKey & reduceByKey的区别

440

11分8秒

068 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey

490

13分28秒

069 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 图解

380

3分53秒

070 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - foldByKey

440

8分49秒

071 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 小练习

320

6分3秒

072 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 小练习 - 图解

370

8分3秒

073 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - combineByKey

420

9分11秒

074 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 聚合算子的区别

410

6分59秒

075 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - join

450

3分24秒

076 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - leftOuterJoin & rightOuterJoin

450

4分27秒

077 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - cogroup

410

18分49秒

078 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 需求介绍 & 分析

510

6分39秒

079 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 需求设计

440

8分17秒

080 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 功能实现

410

4分31秒

081 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - 介绍

360

7分59秒

082 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - 算子演示

350

4分23秒

083 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - aggregate

390

4分44秒

084 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - countByKey & countByValue

410

10分15秒

085 - 尚硅谷 - SparkCore - 核心编程 - RDD - WordCount不同的实现方式 - (1-8)

430

6分2秒

086 - 尚硅谷 - SparkCore - 核心编程 - RDD - WordCount不同的实现方式 - (9-11)

410

3分40秒

087 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - save的方法

370

11分36秒

088 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - foreach

340

14分9秒

089 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - 闭包检测

390

12分3秒

090 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - 实际执行时的问题

350

10分5秒

091 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - Kryo序列化Core介绍

370

5分16秒

092 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 依赖 & 血缘关系介绍

390

11分35秒

093 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 血缘关系 - 演示

330

11分34秒

094 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 宽窄依赖

410

9分40秒

095 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 阶段&分区&任务 - 概念解析 - 秋游了

340

11分30秒

096 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 阶段划分源码解读

390

8分56秒

097 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 任务划分源码解读

390

2分50秒

098 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 任务分类

390

14分45秒

099 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - cache & persist基本原理和演示

380

100

5分17秒

100 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 作用

430

101

2分58秒

101 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 检查点

320

102

11分46秒

102 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 区别

370

103

9分1秒

103 - 尚硅谷 - SparkCore - 核心编程 - RDD - 分区器 - 自定义数据分区规则

340

104

4分35秒

104 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件读取与保存

350

105

15分48秒

105 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 原理及简单演示

350

106

3分37秒

106 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 问题

410

107

10分53秒

107 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 自定义实现

440

108

7分13秒

108 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 自定义实现 - 1

480

109

17分14秒

109 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 - 广播变量

380

110

12分2秒

110 - 尚硅谷 - SparkCore - 案例实操 - 数据准备 & 数据说明

400

111

9分45秒

111 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 需求设计 & 思路梳理

400

112

9分53秒

112 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 分别统计点击，下单，支付的数量

410

113

12分17秒

113 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 合并点击，下单，支付的数量

350

114

12分16秒

114 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第二种实现方式

350

115

12分55秒

115 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第三种实现方式

300

116

18分28秒

116 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第四种实现方式

430

117

14分47秒

117 - 尚硅谷 - SparkCore - 案例实操 - 需求二 - 功能实现

360

118

3分40秒

118 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 需求介绍

420

119

19分3秒

119 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 需求分析 - 图解

470

120

5分57秒

120 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 分母的计算

340

121

15分26秒

121 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 分子的计算并求转换率

340

122

8分29秒

122 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 优化需求

340

123

11分3秒

123 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 三层架构介绍

400

124

13分46秒

124 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 三层架构代码实现

370

125

17分47秒

125 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 架构代码优化

420

126

4分30秒

126 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - ThreadLocal解释

380

127

30分8秒

127 - 尚硅谷 - SparkCore - 总结 - 课件梳理

430

128

5分36秒

128 - 尚硅谷 - Spark内核 & 源码 - 总体介绍

410

129

6分28秒

129 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 起点

430

130

13分26秒

130 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 向Yarn提交应用

440

131

14分18秒

131 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 启动ApplicationMaster

360

132

10分20秒

132 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ApplicationMaster - 启动Driver线程

350

133

15分22秒

133 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ApplicationMaster - 启动Executor进程

430

134

17分29秒

134 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ExecutorBackend - 创建Executor计算对象

340

135

10分28秒

135 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - 流程梳理

410

136

7分54秒

136 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 通信原理

360

137

12分43秒

137 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 通信组件

390

138

4分21秒

138 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 课件梳理

370

139

7分22秒

139 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 上下文对象SparkContext

340

140

7分25秒

140 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - RDD依赖关系

360

141

13分44秒

141 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 阶段的划分

340

142

6分12秒

142 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的切分

370

143

16分51秒

143 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的调度

380

144

5分5秒

144 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的执行

400

145

6分20秒

145 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 课件梳理

370

146

7分3秒

146 - 尚硅谷 - Spark内核 & 源码 - shuffle - 原理回顾

400

147

12分17秒

147 - 尚硅谷 - Spark内核 & 源码 - shuffle - 图解

330

148

8分15秒

148 - 尚硅谷 - Spark内核 & 源码 - shuffle - 实现过程

380

149

15分45秒

149 - 尚硅谷 - Spark内核 & 源码 - shuffle - 写流程源码解读

440

150

16分18秒

150 - 尚硅谷 - Spark内核 & 源码 - shuffle - 归并排序和读流程

260

151

5分54秒

151 - 尚硅谷 - Spark内核 & 源码 - shuffle - 课件梳理

410

152

18分50秒

152 - 尚硅谷 - Spark内核 & 源码 - 内存管理

380

153

5分35秒

153 - 尚硅谷 - SparkSQL - 介绍

410

154

2分38秒

154 - 尚硅谷 - SparkSQL - 特点

370

155

6分43秒

155 - 尚硅谷 - SparkSQL - 数据模型 - DataFrame & DataSet

470

156

7分20秒

156 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - 简单演示

380

157

10分25秒

157 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - SQL的基本使用

500

158

6分34秒

158 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - DSL语法的基本使用

440

159

7分0秒

159 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - RDD之间的转换

460

160

4分5秒

160 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - 介绍

460

161

3分27秒

161 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - DataFrame的转换

400

162

5分3秒

162 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - RDD的转换

340

163

4分50秒

163 - 尚硅谷 - SparkSQL - 核心编程 - DataSet & DataFrame & RDD之间的关系

410

164

7分20秒

164 - 尚硅谷 - SparkSQL - 核心编程 - IDEA创建SparkSQL环境对象

370

165

7分48秒

165 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - DataFrame基本操作

380

166

3分17秒

166 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - DataSet基本操作

350

167

5分46秒

167 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - RDD & DataFrame & DataSet互相转换

310

168

4分17秒

168 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDF函数

340

169

5分10秒

169 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 实现原理

360

170

16分13秒

170 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 弱类型函数实现

470

171

10分57秒

171 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 强类型函数实现

390

172

6分23秒

172 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 早期强类型函数实现

420

173

3分21秒

173 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 课件梳理

380

174

6分34秒

174 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 通用方法

380

175

8分29秒

175 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作JSON & CSV

380

176

4分20秒

176 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作MySQL

360

177

5分39秒

177 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作内置Hive

460

178

3分52秒

178 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作外置Hive

440

179

4分27秒

179 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 代码操作外置Hive

310

180

4分14秒

180 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - beeline操作Hive

430

181

6分36秒

181 - 尚硅谷 - SparkSQL - 案例实操 - 数据准备

530

182

12分55秒

182 - 尚硅谷 - SparkSQL - 案例实操 - 需求部分实现

470

183

26分53秒

183 - 尚硅谷 - SparkSQL - 案例实操 - 需求完整实现

490

184

13分38秒

184 - 尚硅谷 - SparkSQL - 总结 - 课件梳理

380

185

9分24秒

185 - 尚硅谷 - SparkStreaming - 概念 - 介绍

430

186

10分23秒

186 - 尚硅谷 - SparkStreaming - 概念 - 原理 & 特点

370

187

14分39秒

187 - 尚硅谷 - SparkStreaming - 入门 - WordCount - 实现

400

188

3分10秒

188 - 尚硅谷 - SparkStreaming - 入门 - WordCount - 解析

400

189

2分37秒

189 - 尚硅谷 - SparkStreaming - DStream创建 - Queue

430

190

7分34秒

190 - 尚硅谷 - SparkStreaming - DStream创建 - 自定义数据采集器

320

191

3分24秒

191 - 尚硅谷 - SparkStreaming - DStream创建 - Socket数据采集器源码解读

390

192

10分50秒

192 - 尚硅谷 - SparkStreaming - DStream创建 - Kafka数据源

430

193

16分7秒

193 - 尚硅谷 - SparkStreaming - DStream转换 - 状态操作

350

194

9分5秒

194 - 尚硅谷 - SparkStreaming - DStream转换 - 无状态操作 - transform

360

195

3分58秒

195 - 尚硅谷 - SparkStreaming - DStream转换 - 无状态操作 - join

350

196

12分16秒

196 - 尚硅谷 - SparkStreaming - DStream转换 - 有状态操作 - window

370

197

8分38秒

197 - 尚硅谷 - SparkStreaming - DStream转换 - 有状态操作 - window - 补充

370

198

4分42秒

198 - 尚硅谷 - SparkStreaming - DStream输出

330

199

15分43秒

199 - 尚硅谷 - SparkStreaming - 优雅地关闭

350

200

3分29秒

200 - 尚硅谷 - SparkStreaming - 优雅地关闭 - 恢复数据

300

201

16分41秒

201 - 尚硅谷 - SparkStreaming - 案例实操 - 环境和数据准备

370

202

10分19秒

202 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 分析

340

203

19分27秒

203 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 黑名单判断

270

204

16分25秒

204 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 统计数据更新

290

205

19分29秒

205 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 测试 & 简化 & 优化

400

206

9分25秒

206 - 尚硅谷 - SparkStreaming - 案例实操 - 需求二 - 功能实现

330

207

6分10秒

207 - 尚硅谷 - SparkStreaming - 案例实操 - 需求二 - 乱码问题

420

208

15分49秒

208 - 尚硅谷 - SparkStreaming - 案例实操 - 需求三 - 介绍 & 功能实现

300

209

9分52秒

209 - 尚硅谷 - SparkStreaming - 案例实操 - 需求三 - 效果演示

390

210

8分11秒

210 - 尚硅谷 - SparkStreaming - 总结 - 课件梳理

360

028 - 尚硅谷 - SparkCore - 核心编程 - RDD - RDD和IO之间的关系

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐