文章/答案/技术大牛

发布

首页视频067 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupByKey & reduceByKey的区别

067 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupByKey & reduceByKey的区别

2022-12-022022-12-02 16:02:16播放44

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷spark教程/视频/067 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupByKey & reduceByKey的区别.avi

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，同学们，那我们接下来呢，再说一下咱们这个group by key啊和reduce by key的一个区别啊，这个是我们在嗯一些我们的面试题当中啊，会碰见的一些题目，嗯，为什么会碰见这样的题目呢？是因为啊，咱们这个reduce by key啊，它其实就有个分组的概念，为什么呢？相同的key嘛，那么分在一个组里面，然后来做聚合，对不对？而我们的group by key呢，它其实就是分组，那所以说感觉上诶很类似，但是又有区别，因为reduce啊，它有一个聚合的概念，而这group呢，是没有聚合的概念，那难道reduce仅仅是把它分组之后做了聚合，做了一个简化吗？所以我们说啊，我们需要了解一下他们的一个区别和细节啊，那这里呢，我们一块儿来给大家画图啊，让大家来理解一下。呃，首先我们这里呢，来看一看啊，咱们现在咱们假设我们是给大家讲一下那个group key啊来，那我这里呢，咱们来画一下，我这里呢，放到这里啊放到过来，放过来，然后呢，我写上叫RDD，好，现在呢，我们这里面诶有分区啊，嗯，所以咱们放到这边，嗯，这是我们的呃分区啊咱们颜色呢，给它稍微的咱们画一画啊这个颜色呢，咱们画成一个红色，嗯，然后呢，里面呢，给它画成一个我们的嗯紫色吧，OK。
01:21
好了，咱们我觉得画两个就可以了，也不用画太多啊，嗯，好，然后呢，我们现在呢，里面给他准备数据啊，比方说我们这里来给他准备一下数据，我们再写上一个A啊，然后逗号一啊是这样的，然后呢，我们再来拷贝，然后再写个A1，然后呢再写上一个A1，对吧，嗯，好OK，然后呢，我在这边呢，写上一个我们的B1啊，咱们写上一个B1，然后呢，这个颜色呢，我们给它稍微的咱们变化一下啊，比方说给一个我们的嗯，亮的一色啊，然后呢，再来，那么我们再来写上一个我们的B1啊，放过来，然后呢，我们的B1。拷贝嗯，放到这儿，然后再写个B1，然后呢，再写上一个什么呢，A1啊，咱们写上一个A1，然后呢，我把这么几个数据呢，给它稍微的调整一下它的颜色啊嗯。
02:12
好了，那我现在干什么呢？咱们说了分组嘛，那么分组的话，Group by key啊，Group by key，那这个时候我们来我们写上啊，咱们叫group by key，那好，那首先我们进行操作，那么我们的RDD要换一下了，嗯，咱们RDD，然后颜色呢，给它变成一个绿色，那么默认情况下，我们的分区是不变的，对不对，咱们的分区不变，那不变的话我们放过来啊，保持不变，我觉得没有问题，那接下来干嘛呢？我们是不是应该大家想想，把相同的数据，相同K的数据给它放在一块的呀，所以我们就复制过来了，对不对，然后呢，我们再把这个A1放到这边，没问题吧，同学们，所以啊，咱们的箭头呢，应该是这个样子的，来放过来，嗯。放过来以后放到这里，但是你要记住啊，同学们，我们那个B1就有可能放这边了吧，所以呢，我们的B1B1B1拿过来，拿过来以后放到这儿，这个B是不是应该就放到这边来了，诶，所以啊，咱们的这个数据呢，就被打乱重新组合了吧，诶，重新组合了，然后呢，我们再来啊，咱们再来把这个箭头呢放到这边，所以啊，我们的分区的数据呢，其实啊是有可能被打乱重新组合的，那么在这里呢，我们来描述一下啊，嗯。
03:30
嗯，这个文字呢，我们拿这个过来啊，嗯，然后这边给他一个他啊我们写上就是我们的group by key啊，它会啊来写上它会导致啊我们的数据啊，我们说叫做打乱啊重组。啊，所以呢，它存在我们的杀uffle操作，诶这个是我们能够看得到的，没问题吧，同学们，嗯，好，然后呢，那么我们继续啊，咱们干嘛呢？比方说我们后面大家想一想，我们是不是可以聚合呀，什么叫聚合呀，就是说我现在想干嘛呢？我想把两个分区来，他们的结果拿过来，那你是A1A1A1A1，那你最后是不是可以聚合成我们的A4呀，所以大家看一下，最后可以聚合成A4，这个聚合有很多种方式，那比方说我们可以通过什么我们的。
04:20
Map行不行啊，可以吧，诶这是没有问题的啊，用一个我们的map来做一个中间的操作，我相信没有问题啊，那同样道理，我们这个B是不是也可以闭试呀，哎，就是这样啊，好了。那么我们现在的在这个地方的话，大家想想应该是我们这样的一个操作啊，这样这样一个操作，可是那现在问题来了，什么问题呢？因为我们之前讲过，咱们分区之间为什么叫并行计算，是它们没有关系，对不对，所以可以并行计算，你不需要等别人，可是在咱们现在的这个位置，大家想一想。举个例子，比方说我先处理的这个分区，我把这三个A1诶给他放到了这边，那这个时候这三个A1他不等别人，他直接就进行我们的map操作，你们觉得行吗？
05:11
啊，同学们。你们觉得行吗？就是这三个A1呀。他拿不到这个地方来以后，他不需要等别人，他就直接往下来做一个map映射，大家想想行不行。哎，对了。是不是不行啊，同学们什么不行，因为我们还有另外一个分区的数据还没过来吧，咱们这个分区还没开始做计算呢，那么他的A1还没过来吧，他A的A1没有过来的话，你的这个。计算的结果准确吗？不准确。对不对，那好，那这个问题该如何解决呀，同学们。该如何解决？也就意味着，当我们的第一个分区，我们的三个A1过来之后，他能往下执行吗？他绝对不能往下执行，对不对？那他该怎么办？他需要等待啊，他需要等待，他等什么？等我们所有的分区的相同T的数据都过来了之后，才能往下走吧。
06:09
大家想是不是这个道理，只要你还没有做完这个分区操作的话，你就往下走了，那结果肯定不对，所以他得需要等待，可是啊，你怎么知道我等待多长时间呢，对不对？我们那么多的数据，那么多的分区，那你怎么知道我们会花多长时间等待呢？比方说花一个小时两个小时，有没有可能有可能啊，所以这种情况就麻烦了，因为在这一个小时两个小时的时候啊，咱们计算的时候所在的那个exor，它的内存的数据会越集越多，越集越多，为什么你要等待呀，那你等待的过程当中会越集越多，越集越多，是不是内存可能会不够用啊？同学们，你们想想是这样的吗？内存是有。阈值的对吧，有极限值，不可能无限大，那么你的数据量很多，你的分区很多，那这样的话会导致数据量特别的大，那么如果你在内存中等待的话，那么内存就可能溢出了。
07:08
大家能明白吗？同学们，如果你们能明白的话，那你们觉得这个该怎么办？放在内存等待是不是就不够好啊？那该怎么办？同学们，哎，所以啊，咱们就能想到了，我们别放在什么内存中等待，那咱们放到哪啊，同学们，放在我们的。文件当中要落盘，这个大家能不能明白，放在内存中不行，要放在文件当中对不对，所以这个箭头啊，这个箭头，这个箭头呢，都给它删掉，在咱们两个RDD之间，我们干嘛呢？我们要给它增加中间的一块，我们写上咱们叫做什么呢？叫咱们要落盘了，嗯。那这个落盘呢，我们给它一个紫色吧，那也给他一个紫色，为什么呢？它属于这个东西是吧？然后呢，再来，诶，这是一个file，嗯，OK，那么就意味着呀，咱们首先这个A1A1A1怎么了？同学们，它应该先到这儿来，先到我们的磁盘文件当中来，对不对，所以我们的箭头啊，应该指向的是咱们的文件，这个能不能明白，同学们，然后由于我们打乱重新组合了，对不对，诶放在这边，所以箭头这么写，然后呢，同样道理，拷贝拷贝之后放到这儿，然后呢，箭头呢，往上走啊，往上走，往上走以后放到这边，嗯。
08:30
好了，那么我们的这个A1它应该也就过来了吧，诶好，然后呢，B1B1B1，然后呢，复制过来，然后呢，我们的B，诶放过来，诶就是这样，所以呢，你会发现在文件中把这些数据都给它汇总好了，汇总好了以后，咱们在下游的这个RDD的这个位置，只要读取文件是不是就OK了呀，同学们，所以呀，诶你看它的真实的处理方式，其实是应该这个样子的，所以我们把这个稍微的总结一下，大家看一下，咱们这就说一下什么意思呢，就说明我们的Spark中啊，Spark中。
09:09
我们的杀手操作啊，打乱重新组合的操作，它必须啊，它必须干嘛呢？我们就要落盘处理啊，它要落盘处理，嗯，为什么呢？它不能在我们的内存中啊，我们叫做数据等待啊，否则会啊，嗯，会导致会导致我们叫内存移除，哎，这是绝对不允许的，所以呢，我们这里呢，一定要落盘操作，对吧？同学们诶，应该是这样的一个过程，我相信这个大家应该没有问题吧，诶就是这样，那好，那既然我必须要落盘的话，那么大家会发现，那就涉及到磁盘IO对不对，那么我们性能上就会受到影响了，对不对，那肯定是这样。所以啊，我们这个性沙Le的性能肯定不够高啊，所以我们这里再补充一下，就是我们的这个沙Le啊，沙Le操作啊，咱们操作的性能啊，它是非常低的，为什么呢？它要和磁盘交互嘛，嗯。
10:10
好了，同学们，那这个呢，我们就说到这儿了，那接下来我们来说那个叫reduce by key对不对，所以来咱们拷贝啊，Reduce by key咱们复制一下，复制以后咱们到我们的这个位置来啊，咱们到我们下面的这个位置来啊，到这儿来，嗯，好，反过来咱们再写上咱们叫reduce by key啊reduce by key，嗯，好了，那么reduce by key的话，那么这个时候啊，同学们看我们现在咱们把这个先去掉去掉去掉去掉啊，把这个去掉去掉以后，那我们想一想，同学们，我们的所谓的reduce by，其实它是不是应该也有沙风啊。为什么你相同的可以放在一块儿来做聚合，是不应该也有沙Le，所以沙Le肯定是要落盘的，对不对，肯定是要落盘的，所以呢，按照咱们之前的分析，大家看一下我们的A1A1A1OK放过来，嗯。
11:07
然后呢，把这个A1我们放到这里来，对不对，然后呢，把这个B1诶我们放到这里，然后把B1B1B1诶给它放过来，嗯，放过来以后，那么这边是我们的什么呢？A4对吧？我们写上咱们叫A4，其实按理说呢，他应该先把文件读过来吧，对不对？所以啊，咱们现在可以画大一些啊，画大一些因为它是在一个操作当中完成了分组和聚合的操作，所以呢，把这个拿过来aaaa拿过来复制，复制过来以后，它是不是就直接就变成了我们的A4呢？对不对，诶就变成了这个A4啊，并没有产生一个另外的RDD嘛，然后呢，我的箭头诶指向它就可以了，嗯。好。然后呢，我们这个B1B1BB啊，然后复制，复制过来以后给它读取过来，同样道理，它是不是就变成我们的B4了，诶就是这样啊，OK好，我们把这个箭头呢，也给它拿过来啊，咱们拿过来，所以说你感觉呀，跟跟我们这个前面这个goodbye啊，好像差的不多吧，同学们你会感觉是不是差的不多，为什么呢？因为它都要落盘嘛，他如果都要落盘的话，你最后的这个聚合，你这个聚合其实性能上其实差别不大，为什么呢？因为能差多少呢？反正你数据都拿过来就直接做聚合呗，对不对，所以说你最后的这一块的性能上差的不多，为什么呢？因为它有沙Le，其实真正影响整个计算性能应该是个沙Le吧。
12:34
那你这个沙佛跟商面没有区别，所以说你这两个从性能上好像感觉也没什么太大区别，那么从功能上来讲的话，你也有分组的概念，只不过你增加了聚合，而那个只有分组没有聚合，它的聚合呢是通过一个map，通过别的方式来做的，所以感觉这两个好像没什么太大区别，对不对？那你到底是用哪一个呢？你是用它呢，还是用咱们的group呢？对不对？所以啊，就觉得很奇怪，诶用group也能实现这种操作，你用reduce也行，那我到底用哪个呢？对不对？所以啊，告诉大家他们的核心区别就来了。
13:08
为什么？因为咱们这个reduce by key这个reduce呀，它表述的是相同的key的数据的VALUE22聚合，那么我们在这个图当中有没有发现一个现象，什么现象咱们在这一个分区当中。我们的这个什么就有相同的key，而且value就可以聚合吧。对不对？同学们，你像之前那个group by k，其实它是分完组之后在做的聚合，而我这个在做什么，分组之前是不是就本身分区里面就能够把它聚合在一块儿，所以啊，我的思路稍微的就有点变化了，同学们看啊，来把这个图形呢，我复制一下，复制以后呢，我往这儿来，嗯。往这来啊，来大家看一下，那我这个时候干嘛呢？我把咱们的这一块呢往后挪，诶把这个往后挪，为什么要往后挪呢？是因为我希望呀，把咱们这个之前的这个A来放到这儿，把这个呢往这儿拉，拉过来以后，我想做这么个操作，什么操作呢？你的这个地方大家想一想，我完全可以想办法，我事先做一个处理啊，什么做一个处理啊，我把这个能不能提前先给他聚合一下呢，我们叫做A3。
14:26
然后把这个呢，我们叫做B1，诶大家发现没有，我这么来做，你这样做的话就意味着呀，我先别在落盘的时候有那么多的数据，我可以事先呢，先想办法把这个数据减少一部分，对不对？然后呢，再来把它放到这儿，放到这儿以后，那这个时候我们的B不就是B3吗？我提前呢，先想办法给它聚合好，然后这个不就是A1吗？好了，那如果是这个样子的话，大家想一想，那么我们真正在落盘的时候，他肯定要落盘嘛，有沙Le吗？那么你落盘的时候是不是数据量就没那么大了，那就意味着这个就没了吧。
15:04
他们就没了，然后呢，你的A3就过来了，对吗？同样道理，你的这个也就没了，没了，然后呢，这个呢，就是我们的B38，所以说你落盘的数据量少了，你的那个磁盘IO是不是就少了，那这样的话性能是不是就得到提升了，还有一个当你的文件的数据量变少之后，你的读取是不是也变快了，所以这地方就是什么我们的A3吧，A3以后它就没了，它就没了，同样道理，这个是不是我们的B3呢？诶把这个去掉，把这个去掉，大家可以看到我们最终的结果是不是完全一样啊。诶，但是你最终的结果完全一样，但是你要记住这个方式他们的性能就要比之前的要快很多，那它是怎么做到的呢？很简单，就是在我们进行杀否之前，我预先对分区内的数据进行了一个预处理，啊这个预处理呢，我们称之为叫预聚合，所以大家看一下来，咱们拿过来。
16:06
在这个地方我们写上咱们叫做什么呢？叫combine啊，这个我们称之为叫预聚合功能，所谓的预聚合功能啊，所谓的预聚合功能其实就是分区内事先做聚合操作，就是这个意思啊，然后我们让落盘的数据量减少，来提升sale的性能来就是这样啊，所以我们在下面呢，也稍微的来解释一下啊，来把这个呢放过来，嗯。咱们写上啊，咱们的reduce by key啊，它支持我们的分区内啊，咱们的预啊，咱们的聚合功能，那么可以它有效啊，可以有效减少咱们叫减少杀Le时。我们叫落盘的数据量啊，数据量，那么我们说提升我们沙Le的性能啊，咱们叫沙Le的性能，那么对整体的我们的应用程序来讲，性能也是可以得到提高的，还是非常不错的啊，所以这个叫comba，那所以通过这个我们的解读的话，大家想想是不是我们的reduce by key它会优于我们的group key啊，对不对，从性能的角度来讲啊，但是反过来讲，从功能的角度来讲，它又有点区别，因为咱们的蕊就是by key，它是相同的key，那个VALUE22合。
17:29
但是如果假设我们只需要分组，不需要聚合，那么你用reduce就没有意义了吧，对不对？所以我们那个时候就只能用group by key，所以啊，他们从功能上其实是不一样的啊，所以咱们回过头来，同学们看。那么我们的reduce by key和key的区别，那么我们就来往下走了，他说了，从沙Le的角度啊，我们reduce key和key都存在的操作，但是reduce它可以在前对分区内相同的的数据进行功能，这样会减少落盘的数据量，而group只是进行分组，不存在数据量少的问题，那么就是性能，它会比较高一些啊，性能啊，我们写上它叫比较高啊。
18:17
哎，它比较高，那么从功能的角度来讲呢，我们的reduce其实包含了分组和聚合的功能，而我们的group它只能分组，它不能聚，所以在分组聚合的场合下，我们推荐用，因为它有聚，如果仅是分组而不聚合，那么你能使用白T对不对，你用它是没有意义的嘛。诶，所以这是他们的一些区别啊，然后下面有个小功能叫world，这个咱们之前不都是做过的嘛，对不对，因为你能分组的话，你要想做这个我们的world应该非常的容易，对不对，所以这个咱们就不给大家演示了，好不好，同学们。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷spark教程

（67/210）

4分47秒

001 - 尚硅谷 - Spark框架 - 简介

460

7分47秒

002 - 尚硅谷 - Spark框架 - Vs Hadoop

530

2分23秒

003 - 尚硅谷 - Spark框架 - 核心模块 - 介绍

400

5分45秒

004 - 尚硅谷 - Spark框架 - 快速上手 - 开发环境准备

510

7分56秒

005 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 案例分析

440

7分6秒

006 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - Spark环境

410

11分55秒

007 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 功能实现

420

8分30秒

008 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 不同的实现

470

4分23秒

009 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - Spark的实现

370

3分49秒

010 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 日志和错误

440

8分10秒

011 - 尚硅谷 - Spark框架 - 运行环境 - 本地环境 - 基本配置和操作

520

3分9秒

012 - 尚硅谷 - Spark框架 - 运行环境 - 本地环境 - 提交应用程序

420

6分11秒

013 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 基本配置和操作

390

3分7秒

014 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 提交参数解析

360

4分7秒

015 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 配置历史服务

390

5分50秒

016 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 配置高可用

470

6分40秒

017 - 尚硅谷 - Spark框架 - 运行环境 - Yarn环境 - 基本配置 & 历史服务

360

11分5秒

018 - 尚硅谷 - Spark框架 - 运行环境 - Windows环境 & 总结

470

3分32秒

019 - 尚硅谷 - Spark框架 - 核心组件 - 介绍

370

3分30秒

020 - 尚硅谷 - Spark框架 - 核心概念 - Executor & Core & 并行度

410

6分59秒

021 - 尚硅谷 - Spark框架 - 核心概念 - DAG & 提交流程 & Yarn两种部署模式

410

12分47秒

022 - 尚硅谷 - SparkCore - 分布式计算模拟 - 搭建基础的架子

470

10分49秒

023 - 尚硅谷 - SparkCore - 分布式计算模拟 - 客户端向服务器发送计算任务

490

11分38秒

024 - 尚硅谷 - SparkCore - 分布式计算模拟 - 数据结构和分布式计算

460

5分30秒

025 - 尚硅谷 - SparkCore - 核心编程 - RDD - 概念介绍

380

10分10秒

026 - 尚硅谷 - SparkCore - 核心编程 - RDD - IO基本实现原理 - 1

440

8分48秒

027 - 尚硅谷 - SparkCore - 核心编程 - RDD - IO基本实现原理 - 2

450

12分23秒

028 - 尚硅谷 - SparkCore - 核心编程 - RDD - RDD和IO之间的关系

400

13分33秒

029 - 尚硅谷 - SparkCore - 核心编程 - RDD - 特点

410

11分18秒

030 - 尚硅谷 - SparkCore - 核心编程 - RDD - 五大主要配置

440

3分4秒

031 - 尚硅谷 - SparkCore - 核心编程 - RDD - 执行原理

410

11分1秒

032 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 内存

400

6分27秒

033 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 文件

300

4分41秒

034 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 文件1

400

11分40秒

035 - 尚硅谷 - SparkCore - 核心编程 - RDD - 集合数据源 - 分区的设定

450

13分52秒

036 - 尚硅谷 - SparkCore - 核心编程 - RDD - 集合数据源 - 分区数据的分配

370

11分31秒

037 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区的设定

400

8分20秒

038 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区数据的分配

370

6分12秒

039 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区数据的分配 - 案例分析

410

7分48秒

040 - 尚硅谷 - SparkCore - 核心编程 - RDD - 算子介绍

400

7分45秒

041 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map

440

5分10秒

042 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map - 小功能

330

8分52秒

043 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map - 并行计算效果演示

400

6分10秒

044 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions

500

3分48秒

045 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions - 小练习

460

2分20秒

046 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions & map的区别 - 完成比完美更重要

400

6分29秒

047 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitionsWithIndex

410

5分6秒

048 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - flatMap

440

2分39秒

049 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - flatMap - 小练习

400

6分32秒

050 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - glom

380

6分47秒

051 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 理解分区不变的含义

410

5分24秒

052 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy

390

6分0秒

053 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy - shuffle来袭

390

7分50秒

054 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy - 小练习

350

7分10秒

055 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - filter - 数据倾斜

390

16分10秒

056 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - sample - 抽奖喽

390

6分12秒

057 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - distinct

370

11分10秒

058 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - coalesce

370

7分26秒

059 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - repartition

310

6分30秒

060 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - sortBy

390

8分18秒

061 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 交集&并集&差集&拉链

480

8分9秒

062 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 交集&并集&差集&拉链 - 注意事项

460

10分17秒

063 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - partitionBy（前面有吸气，中间有等待）

390

5分54秒

064 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - partitionBy - 思考的问题

400

6分5秒

065 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - reduceByKey

410

4分13秒

066 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupByKey

420

18分56秒

067 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupByKey & reduceByKey的区别

440

11分8秒

068 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey

490

13分28秒

069 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 图解

380

3分53秒

070 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - foldByKey

440

8分49秒

071 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 小练习

320

6分3秒

072 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 小练习 - 图解

370

8分3秒

073 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - combineByKey

420

9分11秒

074 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 聚合算子的区别

410

6分59秒

075 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - join

450

3分24秒

076 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - leftOuterJoin & rightOuterJoin

450

4分27秒

077 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - cogroup

410

18分49秒

078 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 需求介绍 & 分析

510

6分39秒

079 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 需求设计

440

8分17秒

080 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 功能实现

410

4分31秒

081 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - 介绍

360

7分59秒

082 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - 算子演示

350

4分23秒

083 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - aggregate

390

4分44秒

084 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - countByKey & countByValue

410

10分15秒

085 - 尚硅谷 - SparkCore - 核心编程 - RDD - WordCount不同的实现方式 - (1-8)

430

6分2秒

086 - 尚硅谷 - SparkCore - 核心编程 - RDD - WordCount不同的实现方式 - (9-11)

410

3分40秒

087 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - save的方法

370

11分36秒

088 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - foreach

340

14分9秒

089 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - 闭包检测

390

12分3秒

090 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - 实际执行时的问题

350

10分5秒

091 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - Kryo序列化Core介绍

370

5分16秒

092 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 依赖 & 血缘关系介绍

390

11分35秒

093 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 血缘关系 - 演示

330

11分34秒

094 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 宽窄依赖

410

9分40秒

095 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 阶段&分区&任务 - 概念解析 - 秋游了

340

11分30秒

096 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 阶段划分源码解读

390

8分56秒

097 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 任务划分源码解读

390

2分50秒

098 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 任务分类

390

14分45秒

099 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - cache & persist基本原理和演示

380

100

5分17秒

100 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 作用

430

101

2分58秒

101 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 检查点

320

102

11分46秒

102 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 区别

370

103

9分1秒

103 - 尚硅谷 - SparkCore - 核心编程 - RDD - 分区器 - 自定义数据分区规则

340

104

4分35秒

104 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件读取与保存

350

105

15分48秒

105 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 原理及简单演示

350

106

3分37秒

106 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 问题

410

107

10分53秒

107 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 自定义实现

440

108

7分13秒

108 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 自定义实现 - 1

480

109

17分14秒

109 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 - 广播变量

380

110

12分2秒

110 - 尚硅谷 - SparkCore - 案例实操 - 数据准备 & 数据说明

400

111

9分45秒

111 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 需求设计 & 思路梳理

400

112

9分53秒

112 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 分别统计点击，下单，支付的数量

410

113

12分17秒

113 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 合并点击，下单，支付的数量

350

114

12分16秒

114 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第二种实现方式

350

115

12分55秒

115 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第三种实现方式

300

116

18分28秒

116 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第四种实现方式

430

117

14分47秒

117 - 尚硅谷 - SparkCore - 案例实操 - 需求二 - 功能实现

360

118

3分40秒

118 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 需求介绍

420

119

19分3秒

119 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 需求分析 - 图解

470

120

5分57秒

120 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 分母的计算

340

121

15分26秒

121 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 分子的计算并求转换率

340

122

8分29秒

122 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 优化需求

340

123

11分3秒

123 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 三层架构介绍

400

124

13分46秒

124 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 三层架构代码实现

370

125

17分47秒

125 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 架构代码优化

420

126

4分30秒

126 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - ThreadLocal解释

380

127

30分8秒

127 - 尚硅谷 - SparkCore - 总结 - 课件梳理

430

128

5分36秒

128 - 尚硅谷 - Spark内核 & 源码 - 总体介绍

410

129

6分28秒

129 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 起点

430

130

13分26秒

130 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 向Yarn提交应用

440

131

14分18秒

131 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 启动ApplicationMaster

360

132

10分20秒

132 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ApplicationMaster - 启动Driver线程

350

133

15分22秒

133 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ApplicationMaster - 启动Executor进程

430

134

17分29秒

134 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ExecutorBackend - 创建Executor计算对象

340

135

10分28秒

135 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - 流程梳理

410

136

7分54秒

136 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 通信原理

360

137

12分43秒

137 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 通信组件

390

138

4分21秒

138 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 课件梳理

370

139

7分22秒

139 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 上下文对象SparkContext

340

140

7分25秒

140 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - RDD依赖关系

360

141

13分44秒

141 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 阶段的划分

340

142

6分12秒

142 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的切分

370

143

16分51秒

143 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的调度

380

144

5分5秒

144 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的执行

400

145

6分20秒

145 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 课件梳理

370

146

7分3秒

146 - 尚硅谷 - Spark内核 & 源码 - shuffle - 原理回顾

400

147

12分17秒

147 - 尚硅谷 - Spark内核 & 源码 - shuffle - 图解

330

148

8分15秒

148 - 尚硅谷 - Spark内核 & 源码 - shuffle - 实现过程

380

149

15分45秒

149 - 尚硅谷 - Spark内核 & 源码 - shuffle - 写流程源码解读

440

150

16分18秒

150 - 尚硅谷 - Spark内核 & 源码 - shuffle - 归并排序和读流程

260

151

5分54秒

151 - 尚硅谷 - Spark内核 & 源码 - shuffle - 课件梳理

410

152

18分50秒

152 - 尚硅谷 - Spark内核 & 源码 - 内存管理

380

153

5分35秒

153 - 尚硅谷 - SparkSQL - 介绍

410

154

2分38秒

154 - 尚硅谷 - SparkSQL - 特点

370

155

6分43秒

155 - 尚硅谷 - SparkSQL - 数据模型 - DataFrame & DataSet

470

156

7分20秒

156 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - 简单演示

380

157

10分25秒

157 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - SQL的基本使用

500

158

6分34秒

158 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - DSL语法的基本使用

440

159

7分0秒

159 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - RDD之间的转换

460

160

4分5秒

160 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - 介绍

460

161

3分27秒

161 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - DataFrame的转换

400

162

5分3秒

162 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - RDD的转换

340

163

4分50秒

163 - 尚硅谷 - SparkSQL - 核心编程 - DataSet & DataFrame & RDD之间的关系

410

164

7分20秒

164 - 尚硅谷 - SparkSQL - 核心编程 - IDEA创建SparkSQL环境对象

370

165

7分48秒

165 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - DataFrame基本操作

380

166

3分17秒

166 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - DataSet基本操作

350

167

5分46秒

167 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - RDD & DataFrame & DataSet互相转换

310

168

4分17秒

168 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDF函数

340

169

5分10秒

169 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 实现原理

360

170

16分13秒

170 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 弱类型函数实现

470

171

10分57秒

171 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 强类型函数实现

390

172

6分23秒

172 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 早期强类型函数实现

420

173

3分21秒

173 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 课件梳理

380

174

6分34秒

174 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 通用方法

380

175

8分29秒

175 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作JSON & CSV

380

176

4分20秒

176 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作MySQL

360

177

5分39秒

177 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作内置Hive

460

178

3分52秒

178 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作外置Hive

440

179

4分27秒

179 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 代码操作外置Hive

310

180

4分14秒

180 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - beeline操作Hive

430

181

6分36秒

181 - 尚硅谷 - SparkSQL - 案例实操 - 数据准备

530

182

12分55秒

182 - 尚硅谷 - SparkSQL - 案例实操 - 需求部分实现

470

183

26分53秒

183 - 尚硅谷 - SparkSQL - 案例实操 - 需求完整实现

490

184

13分38秒

184 - 尚硅谷 - SparkSQL - 总结 - 课件梳理

380

185

9分24秒

185 - 尚硅谷 - SparkStreaming - 概念 - 介绍

430

186

10分23秒

186 - 尚硅谷 - SparkStreaming - 概念 - 原理 & 特点

370

187

14分39秒

187 - 尚硅谷 - SparkStreaming - 入门 - WordCount - 实现

400

188

3分10秒

188 - 尚硅谷 - SparkStreaming - 入门 - WordCount - 解析

400

189

2分37秒

189 - 尚硅谷 - SparkStreaming - DStream创建 - Queue

430

190

7分34秒

190 - 尚硅谷 - SparkStreaming - DStream创建 - 自定义数据采集器

320

191

3分24秒

191 - 尚硅谷 - SparkStreaming - DStream创建 - Socket数据采集器源码解读

390

192

10分50秒

192 - 尚硅谷 - SparkStreaming - DStream创建 - Kafka数据源

430

193

16分7秒

193 - 尚硅谷 - SparkStreaming - DStream转换 - 状态操作

350

194

9分5秒

194 - 尚硅谷 - SparkStreaming - DStream转换 - 无状态操作 - transform

360

195

3分58秒

195 - 尚硅谷 - SparkStreaming - DStream转换 - 无状态操作 - join

350

196

12分16秒

196 - 尚硅谷 - SparkStreaming - DStream转换 - 有状态操作 - window

370

197

8分38秒

197 - 尚硅谷 - SparkStreaming - DStream转换 - 有状态操作 - window - 补充

370

198

4分42秒

198 - 尚硅谷 - SparkStreaming - DStream输出

330

199

15分43秒

199 - 尚硅谷 - SparkStreaming - 优雅地关闭

350

200

3分29秒

200 - 尚硅谷 - SparkStreaming - 优雅地关闭 - 恢复数据

300

201

16分41秒

201 - 尚硅谷 - SparkStreaming - 案例实操 - 环境和数据准备

370

202

10分19秒

202 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 分析

340

203

19分27秒

203 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 黑名单判断

270

204

16分25秒

204 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 统计数据更新

290

205

19分29秒

205 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 测试 & 简化 & 优化

400

206

9分25秒

206 - 尚硅谷 - SparkStreaming - 案例实操 - 需求二 - 功能实现

330

207

6分10秒

207 - 尚硅谷 - SparkStreaming - 案例实操 - 需求二 - 乱码问题

420

208

15分49秒

208 - 尚硅谷 - SparkStreaming - 案例实操 - 需求三 - 介绍 & 功能实现

300

209

9分52秒

209 - 尚硅谷 - SparkStreaming - 案例实操 - 需求三 - 效果演示

390

210

8分11秒

210 - 尚硅谷 - SparkStreaming - 总结 - 课件梳理

360

067 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupByKey & reduceByKey的区别

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐