文章/答案/技术大牛

发布

首页视频170 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 弱类型函数实现

170 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 弱类型函数实现

2022-12-022022-12-02 16:02:16播放47

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷spark教程/视频/170 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 弱类型函数实现.avi

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，同学们，我们刚才呢给大家介绍了一下u daf的实现原理，接下来我们准备呢，给大家演示具体的例子，那咱们以什么为例呢？就以刚才的这个年龄的平均值为例，其实我们的circle当中自带了求平均值的功能，对不对？但是我们呀，就是模仿一下这种udf的执行过程，给大家演示一下啊，因为平均值比较好理解嘛，对吧？所以我们就拿平均值来做这个事情，那首先我们第一步我们要先创建一个类来实现这个功能，我们写上零三，然后中间加上一个A，这个A叫aggregate，它就是聚合的意思，所以点击OK，然后把它拿过来，那么点击OK以后，首先我们会发现一个现象，什么现象呢？我们这个叫udf，这个呢，你是没有办法去把udf像我们这种写法直接写上，这个做不到，我们得需要自己创建的是么？我们的类，所以啊，咱们有自定义的类，那么这里写上啊来。咱们写上咱们叫自定义啊，我们的类，或者说自定义我们的聚合函数类，它的主要目的呢，就是计算年龄的平均值，哎，就可以了，那这里我就写上叫class，咱们叫做MY，嗯，Avg，平均值u daf就可以了啊好。
01:18
那你说自定义聚合函数类，你随便写个类，我们的Spark就能知道你是用来做聚合的吗？肯定不行，对不对啊，所以说你要明白啊，就是我们如果想让Spark能动态识别，你需要满足或者说遵循某个规则，对吗？那么这个规则就有了，咱们写上叫继承，它有一个叫U啊，咱们叫做有一个叫做defend啊，来咱们叫aggregate function在这里，它这里面标识了一条横线，表述的是已经不再推荐使用了，为什么呢？因为咱们现在这种写法，大家可以看到，我是准备在S文里面来使用一个聚合函数。可是你要知道S口纹它是没有类型的，它只有行和列，它表现的是我们的什么数据的结构，所以它是个弱类型的操作，那么弱类型的话，在我们当前最新的版本当中已经不怎么支持了，所以它这里呢，标识了我们的横线，但是没关系啊，我们先演示完，咱们再去做一些更新好不好，同学们。
02:19
那么首先第一个啊，咱们这里继承了它，所以我们写上一。嗯，咱们写成一啊来，咱们要继承我们的这个类啊，这个咱们可以看一看，点一下，点完以后它是一个抽象类啊，所以继承我们的它拷贝拷贝以后，但是你要记住它这里标红了，标红的话你要重写它的方法，快捷键ctrl I，然后呢，点击OK，这个时候呢，我们写上啊来写上咱们叫做什么呢？二咱们叫重写。咱们叫重写方法，那么你重写方法的话，你会发现有很多对吧，但是其实并不难理解，咱们一点一点看好不好，同学们来看第一个。呃，这里的第一个叫input scheme，那么scheme我们一般称之为叫结构，它表述的就是输入结构，那什么叫输入结构呢？就是说你对于我的聚合函数来讲的话，什么是输入的值，你输入的值的结构是什么样子的？比方说咱们说了年龄的平均值，那肯定是把年龄传给你啊，对不对？所以年龄就是我们的输入啊，那什么叫输出呢？那不就是我的计算结果嘛，对不对？所以啊，对于我们来讲，这个叫input scheme，就是输入的那个结构，那我们说了，咱们只有一个年龄。
03:32
那好，那只有一个年龄的话，咱们这该怎么用呢？首先第一个来，嗯，看他这个地方，他说了要求咱们返回一个叫stru type，就是一个结构的类型啊，这个叫结构对吧，这叫类型，那么这个我们怎么返回呢？我们点它一下，点点完以后大家有没有发现它是一个样例类，那么它如果是个样例类的话，在咱们选skyla的时候，咱们的它就可以直接构建对象，都不需要去new，直接就可以加个括号，对不对，为什么？因为样例类会自动生成它的伴生对象，以及它的apply方法对不对？那所以呢，这里就直接加括号，但你加括号的时候它要传参数对吗？它要传参数的话，它是个R瑞，那么大家就知道咱们的R瑞这个地方呀，也是可以直接写，对不对，所以我们写上一个R瑞，诶这么写是完全可以的啊，但是你R瑞里面都有东西啊，这个叫strut field，咱们叫做结构的属性，说的简单点啊，你的结构当中都有需要哪些值呀，那对于咱们来讲，咱们知道就需个年龄啊，所以点一下点。
04:32
点完以后它有一个name，有一个叫data type，有一个叫做是否为空啊，还有什么什么东西，这两个有默认值，那其实只要传这两个就够了，所以拷贝拷贝以后拿过来。大家看一下，呃，这个就叫ru fieldeld，诶把这个咱们导一下，导一下导一下传个名字，然后再传一个它的，嗯，这边呢，是一个叫做data type，咱们叫做类型对不对，咱们如果叫类型的话，那对于咱们大家来讲的话，我要看看我要传什么值，可是这个东西好像不是我们平常接触的到的，对不对。
05:05
所以啊，我们想看一个，我们点点它一下，点完以后它是个抽象类，所以我按CTRLH键导到它的一个关系，那么这个里面会有很多呀，那我们说了我们年龄嘛，它应该是一个数值类型的，并且应该都是一个整数吧，啊，当然了，也有可能是个浪类型，对不对，也有可能咱们这就不说了，所以我找一下这边有个原子性的操作点一下，点完有个数字类型，点里面有一个integer，再点，嗯，里面会有一个这个integer和这个long，其实啊，我们引teer就是我们整数了呗，但是你年龄相加以后是不可能很大，诶我们就说用long类型吧，所以拷贝。拷贝以后，那这个地方我们就知道了哦，给它一个long类型，其实诶不对，这个咱们叫做long啊，咱们的tap，嗯，有这么个东西啊，好了，那你这么写完以后，咱们这儿就OK了，同学们就现在啊，咱们输入的这个数据的结构就有了，叫输入的数据的结构啊，输入数据的结构好把这个去掉，那么去掉以后，那么我们接着往下啊，记住这是我的第一个方法的作用，第二个那其实你第一个能明白，第二个是不是就明白了，第二个叫bufferper，就意味着我们缓冲区做计算的那个结构是什么样子的，同学们看。
06:21
你回到这个图形当中，大家会发现这就是八分里面是不是要求得年龄的总和，以及它的总的数量啊，所以对于我们来讲，它的结构应该不是单一的了，所以拷贝拷贝以后放过来，放到这里，那我这里就写上了，叫做什么呢？叫缓冲区，这个缓冲区啊，就做临时计算的啊，所以我们说一下咱们叫缓冲啊，缓冲区数据的结构，那么这个结构啊，我们说了应该有多个，为什么呢？因为有一个叫做什么呢？叫total。就是总共的那个年龄啊，啊来总共的年龄，还有一个我们应该叫count啊，这个count呢，应该表述的含义是什么呢？表述的是数量，诶你到底有多少个我们的用户啊，诶你的总共的年龄是多少啊，所以把这个东西呢，给它写上就可以了啊，所以这样的话，缓冲区的结构也就有了，输入数据的结构也就有了，嗯，然后下面呢是data type，这个是什么意思呢？给大家解释一下这个字面含义可能不好理解啊，这咱们说一下，它应该叫做我们的函数。
07:23
啊，它的计算结果的数据类型，其实说白了就是输出啊，它就是那个out，这个呢，就是我们的in啊，同学们记住啊，输入啊，这个就是我们的out，那这个就是我中间的buffer，所以啊，它就是我们中间的缓冲区，对吧，用来做临时计算用的，这是我们的输出啊，那咱们知道吧，你的年龄是个浪，你的那个数量是个浪，你相处还是个浪啊，所以我们直接放过来。好了，翻过来以后接着往下，下面呢，叫做函数的稳定性啊，函数的稳定性，这个所谓的稳定性一般就指的是你传入相同的参数，你的结果是否相同，那咱们这个肯定是一样的，因为咱们这就是一个普通计算呢，里面有没有什么随机数之类的，对不对，所以啊，咱们有个稳定性的概念，还有下面呢，叫初始化，对吧，这个我们写上咱们叫做。
08:11
大家看啊，这边叫做八分，这个八分啊，其实就是我们中间缓冲区的那个操作，所以我们称之为叫缓冲区初始化是可以的。啊，缓冲区数字化，就是你到底怎么来对缓冲区做操作，它的初始状态是什么样子的，那咱们知道啊，咱们这个其实没什么可说的，就是什么呢？就是我们的全值零呗，因为缓冲区就是总和和数量，那默认情况下肯定都是零嘛，所以呢，我们这里来啊，咱们写上一个括号啊，写上一个零，哎，写上一个零，然后呢，它就写上一个0L就可以了，然后这边再写上一个一啊，然后再写上一个零。我们为什么这么写呢？大家看一下，我点点完以后，它这里面其实是有个叫update的方法的，这个update方法呢，叫做什么in，它是它的索引，这是它的值，所以啊，我们其实是可以通过什么呢？这种方式来拷贝，拷贝以后呢，我们点点了以后干嘛呢？我们就update给它一个零，给它一个我们叫0L，然后给他一个一啊，这个零表示的是位置啊，绊示的是你第一个结构当中的属性，这个一表示的是我们的第二个值，所以啊，它这个是靠位置来算呢，那么这两种方法其实是完全相同的，为什么呢？因为在盖语法当中，我们一旦集合中有update功能的话，它跟这种写法是没有任何区别的，所以啊，这个如果你看不懂的话，没关系，你看不懂，那咱们就用下面的啊，所以来这是盖LA语法当中的功能，然后呢，我们接着往下，下面是什么呢？Update，这个update大家可以看到，这叫input，这个叫buffer，顾名思义啊，当你的数据诶，你通。
09:49
这过来的时候，你如何更新我的缓冲区啊，来一条更新一个，来一条更新一个，对不对，那这就叫update，所以在这里呢，我们写上啊来根据我们叫做输入的值来更新我们缓冲区啊，缓冲区咱们叫缓冲啊缓冲区数据，哎，就是这意思了，好了，那我们拿过来。
10:13
拿过来以后，那这个八分咱就不说别的了，就直接点了，对吧，咱们就update了后给个零，这个零表述的是年龄的总和，然后这个呢，表述的是什么呢？表述的是我们的一，它表述的是那个数量，那么你要更新数量的话，那你之前的数量，你这回来了一个我们的，嗯，年龄的话，那我肯定加一呀，所以呢，应该是我们的buffer点，点了以后，它里面有一个叫get long啊，给他一个一表述的是它那个旧的值，然后再加什么，再加上一，这是我缓冲区的，同样道理，我的这个也是一样的啊来，咱们写上，咱们叫buffer，咱们叫get along。反过来给他一个零，为什么给他一个零呢？是因为我们最开始那个。年龄总和不是第一个位置嘛，对不对，所以它是零啊，然后再加上加什么，你输入的年龄，你输入的年龄是个肉，那就是按我们的顺序呗，所以来我们叫input，我们叫点叫get，咱们给他一个get along啊，给他一个零。
11:16
好了，你这么写完以后就可以了，再有的同学有疑问说老师你看，那你这也是零，它也是零，这啥意思啊？首先这个是我输入的数据，那我输入的数据我们就要求了，它只有一个结构对不对？所以我取零，取的就是你给我的年龄，而我们的这个buffer呢，它有两个值，一个叫total，一个叫count，那么这个total是零，所以那个count就是一，那么count为一，所以它更新加一，而这个呢，取的是我缓冲区之前的值，再加上我输入的值，那不就新的值吗？所以这样的话，零和一就被更新了，所以大家会发现这种我们的没有类型没有属性的这种操作，光靠顺序啊，它容易记混啊，但是没关系，咱们先这么做啊。好，接着往下同学们来。
12:03
呃，往下的话，那么下面是什么呢？叫墨子，咱们叫合并对吧？诶，咱们叫合并就是缓冲区啊，缓冲区数据合并，为什么呢？因为你分布式计算你的每一个缓冲区，其实啊是有多个的，对不对，那多个最终是要合在一块儿再做我们的处理的，所以啊，你会发现这就是两个什么呢？我们的八分一和八分二。那么buff份一和buff分二就是两个缓冲区，缓冲区啊，它里面的处理逻辑啊很简单，就是更新呢啊，把他们的数值给它相加，然后做更新就可以了，那好这里叫unit，那么到底是把哪个值更新呢？这个就要涉及到咱们该了一般的这种算法逻辑了，比方说同学们看举例子啊，来咱们比方说一个集合当中有四个元素，我们一般两两计算，大家会发现我们的前两个值，这个值是X吧，对不对，XY对不对，X和Y，它聚合之后得到一个结果。那么然后这个结果是不是就当X了，然后这个当成Y了，对不对，然后呢，X和Y又做计算，然后结果呢，又X，然后再跟我们这个Y再做计算，对吗？所以啊，我们的这个X其实就是第一个，那么它就在不断的去更新，不断的去更新，最后得到结果就还是它了，所以啊，我们这个八分的一点，咱们就update给它一个零啊，OK，然后再来，嗯，我们写上一个一就行了，那这个时候呢，我们应该是八分一，然后点一下，嗯。
13:30
表示一下，咱们叫get along啊get along给他一个零，然后呢，这边再加上我们的八分二。然后点叫get long啊，给他一个我们的一好了，你这么写是可以的啊，我这音也是零对不对啊，我刚才说错了，咱们这边再来拷贝，拷贝以后放过来，放过来以后这边应该都是一吧，嗯，应该都是一样，因为它都是缓冲区嘛，位置应该是相同的，好了，那你这么写完了以后，八分一就发生了改变，它做下去运算不又改变了对不对？诶，所以这样的话，缓冲区数据就合并了，那好，接下来我们来往下，往下以后同学们看下面是什么东西，下面就叫计算，说白了就是计算平均值。
14:14
啊，咱们前面说了什么缓冲啊，什么合并更新呢，包括初始化啊，其实都是为了做中间计算，那么你最后是要取得我们的什么？诶那个平均值的那个平均值buffer不就在这儿吗？你直接点我们叫get long，然后给个零，然后除以buffer.get long给他一个一，诶这样的话我们不就OK了吗？对不对，好了，那我现在呢，把这个我们的u daf函数就算是做完了，它里面的方法一二，然后三四。56788个啊，所以咱们这有八个方法也需要去重写一下，嗯，可能感觉挺多的啊，但是方法的含义还是比较好理解的，什么更新合并，初始化计算呢，什么，呃，我们的输入结构啊，输出结构包括什么稳定性这些东西对吧？诶你多写几遍其实就能够记得住，那好了，那我们现在自定义聚合函数类了，我该怎么去用它呢，对不对，那么所以啊，这个时候来。
15:12
把这个呢，我们就去掉了，因为咱们自己有自己的类了，所以我就拗一下，嗯，拗一下以后把这个拷贝啊，把它拷贝，拷贝以后呢，我这里啊，把它改个名字，咱们就叫年龄A，咱们叫啊，咱们叫HAVG，咱们叫做平均值，那如果你把这个我们的类当成了一个函数，那么这个函数就可以放在这儿来了，来放在这儿啊，放在年龄的这个位置，这个呢，咱们就不要了。好，那我现在呢，就把这个代码算是写完了，我接下来验证一下，看看跟我预想的结果是否是一样的，我回过头来打开优点Jason 20 30 40 20加30 50 50加四是90，那么三个用户90的年龄平均值应该是30，对不对？所以我们现在运行一下看结果。
16:05
好，同学们，结果出来了，看看跟我预想结果是完全相同的，对不对，哎，就是30了啊，行，那我们就先说到这里好吧。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷spark教程

（170/210）

4分47秒

001 - 尚硅谷 - Spark框架 - 简介

460

7分47秒

002 - 尚硅谷 - Spark框架 - Vs Hadoop

530

2分23秒

003 - 尚硅谷 - Spark框架 - 核心模块 - 介绍

400

5分45秒

004 - 尚硅谷 - Spark框架 - 快速上手 - 开发环境准备

510

7分56秒

005 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 案例分析

440

7分6秒

006 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - Spark环境

410

11分55秒

007 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 功能实现

420

8分30秒

008 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 不同的实现

470

4分23秒

009 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - Spark的实现

370

3分49秒

010 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 日志和错误

440

8分10秒

011 - 尚硅谷 - Spark框架 - 运行环境 - 本地环境 - 基本配置和操作

520

3分9秒

012 - 尚硅谷 - Spark框架 - 运行环境 - 本地环境 - 提交应用程序

420

6分11秒

013 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 基本配置和操作

390

3分7秒

014 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 提交参数解析

360

4分7秒

015 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 配置历史服务

390

5分50秒

016 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 配置高可用

470

6分40秒

017 - 尚硅谷 - Spark框架 - 运行环境 - Yarn环境 - 基本配置 & 历史服务

360

11分5秒

018 - 尚硅谷 - Spark框架 - 运行环境 - Windows环境 & 总结

470

3分32秒

019 - 尚硅谷 - Spark框架 - 核心组件 - 介绍

370

3分30秒

020 - 尚硅谷 - Spark框架 - 核心概念 - Executor & Core & 并行度

410

6分59秒

021 - 尚硅谷 - Spark框架 - 核心概念 - DAG & 提交流程 & Yarn两种部署模式

410

12分47秒

022 - 尚硅谷 - SparkCore - 分布式计算模拟 - 搭建基础的架子

470

10分49秒

023 - 尚硅谷 - SparkCore - 分布式计算模拟 - 客户端向服务器发送计算任务

490

11分38秒

024 - 尚硅谷 - SparkCore - 分布式计算模拟 - 数据结构和分布式计算

460

5分30秒

025 - 尚硅谷 - SparkCore - 核心编程 - RDD - 概念介绍

380

10分10秒

026 - 尚硅谷 - SparkCore - 核心编程 - RDD - IO基本实现原理 - 1

440

8分48秒

027 - 尚硅谷 - SparkCore - 核心编程 - RDD - IO基本实现原理 - 2

450

12分23秒

028 - 尚硅谷 - SparkCore - 核心编程 - RDD - RDD和IO之间的关系

400

13分33秒

029 - 尚硅谷 - SparkCore - 核心编程 - RDD - 特点

410

11分18秒

030 - 尚硅谷 - SparkCore - 核心编程 - RDD - 五大主要配置

440

3分4秒

031 - 尚硅谷 - SparkCore - 核心编程 - RDD - 执行原理

410

11分1秒

032 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 内存

400

6分27秒

033 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 文件

300

4分41秒

034 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 文件1

400

11分40秒

035 - 尚硅谷 - SparkCore - 核心编程 - RDD - 集合数据源 - 分区的设定

450

13分52秒

036 - 尚硅谷 - SparkCore - 核心编程 - RDD - 集合数据源 - 分区数据的分配

370

11分31秒

037 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区的设定

400

8分20秒

038 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区数据的分配

370

6分12秒

039 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区数据的分配 - 案例分析

410

7分48秒

040 - 尚硅谷 - SparkCore - 核心编程 - RDD - 算子介绍

400

7分45秒

041 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map

440

5分10秒

042 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map - 小功能

330

8分52秒

043 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map - 并行计算效果演示

400

6分10秒

044 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions

500

3分48秒

045 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions - 小练习

460

2分20秒

046 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions & map的区别 - 完成比完美更重要

400

6分29秒

047 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitionsWithIndex

410

5分6秒

048 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - flatMap

440

2分39秒

049 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - flatMap - 小练习

400

6分32秒

050 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - glom

380

6分47秒

051 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 理解分区不变的含义

410

5分24秒

052 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy

390

6分0秒

053 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy - shuffle来袭

390

7分50秒

054 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy - 小练习

350

7分10秒

055 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - filter - 数据倾斜

390

16分10秒

056 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - sample - 抽奖喽

390

6分12秒

057 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - distinct

370

11分10秒

058 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - coalesce

370

7分26秒

059 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - repartition

310

6分30秒

060 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - sortBy

390

8分18秒

061 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 交集&并集&差集&拉链

480

8分9秒

062 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 交集&并集&差集&拉链 - 注意事项

460

10分17秒

063 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - partitionBy（前面有吸气，中间有等待）

390

5分54秒

064 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - partitionBy - 思考的问题

400

6分5秒

065 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - reduceByKey

410

4分13秒

066 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupByKey

420

18分56秒

067 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupByKey & reduceByKey的区别

440

11分8秒

068 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey

490

13分28秒

069 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 图解

380

3分53秒

070 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - foldByKey

440

8分49秒

071 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 小练习

320

6分3秒

072 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 小练习 - 图解

370

8分3秒

073 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - combineByKey

420

9分11秒

074 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 聚合算子的区别

410

6分59秒

075 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - join

450

3分24秒

076 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - leftOuterJoin & rightOuterJoin

450

4分27秒

077 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - cogroup

410

18分49秒

078 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 需求介绍 & 分析

510

6分39秒

079 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 需求设计

440

8分17秒

080 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 功能实现

410

4分31秒

081 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - 介绍

360

7分59秒

082 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - 算子演示

350

4分23秒

083 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - aggregate

390

4分44秒

084 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - countByKey & countByValue

410

10分15秒

085 - 尚硅谷 - SparkCore - 核心编程 - RDD - WordCount不同的实现方式 - (1-8)

430

6分2秒

086 - 尚硅谷 - SparkCore - 核心编程 - RDD - WordCount不同的实现方式 - (9-11)

410

3分40秒

087 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - save的方法

370

11分36秒

088 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - foreach

340

14分9秒

089 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - 闭包检测

390

12分3秒

090 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - 实际执行时的问题

350

10分5秒

091 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - Kryo序列化Core介绍

370

5分16秒

092 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 依赖 & 血缘关系介绍

390

11分35秒

093 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 血缘关系 - 演示

330

11分34秒

094 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 宽窄依赖

410

9分40秒

095 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 阶段&分区&任务 - 概念解析 - 秋游了

340

11分30秒

096 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 阶段划分源码解读

390

8分56秒

097 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 任务划分源码解读

390

2分50秒

098 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 任务分类

390

14分45秒

099 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - cache & persist基本原理和演示

380

100

5分17秒

100 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 作用

430

101

2分58秒

101 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 检查点

320

102

11分46秒

102 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 区别

370

103

9分1秒

103 - 尚硅谷 - SparkCore - 核心编程 - RDD - 分区器 - 自定义数据分区规则

340

104

4分35秒

104 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件读取与保存

350

105

15分48秒

105 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 原理及简单演示

350

106

3分37秒

106 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 问题

410

107

10分53秒

107 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 自定义实现

440

108

7分13秒

108 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 自定义实现 - 1

480

109

17分14秒

109 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 - 广播变量

380

110

12分2秒

110 - 尚硅谷 - SparkCore - 案例实操 - 数据准备 & 数据说明

400

111

9分45秒

111 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 需求设计 & 思路梳理

400

112

9分53秒

112 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 分别统计点击，下单，支付的数量

410

113

12分17秒

113 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 合并点击，下单，支付的数量

350

114

12分16秒

114 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第二种实现方式

350

115

12分55秒

115 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第三种实现方式

300

116

18分28秒

116 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第四种实现方式

430

117

14分47秒

117 - 尚硅谷 - SparkCore - 案例实操 - 需求二 - 功能实现

360

118

3分40秒

118 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 需求介绍

420

119

19分3秒

119 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 需求分析 - 图解

470

120

5分57秒

120 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 分母的计算

340

121

15分26秒

121 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 分子的计算并求转换率

340

122

8分29秒

122 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 优化需求

340

123

11分3秒

123 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 三层架构介绍

400

124

13分46秒

124 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 三层架构代码实现

370

125

17分47秒

125 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 架构代码优化

420

126

4分30秒

126 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - ThreadLocal解释

380

127

30分8秒

127 - 尚硅谷 - SparkCore - 总结 - 课件梳理

430

128

5分36秒

128 - 尚硅谷 - Spark内核 & 源码 - 总体介绍

410

129

6分28秒

129 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 起点

430

130

13分26秒

130 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 向Yarn提交应用

440

131

14分18秒

131 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 启动ApplicationMaster

360

132

10分20秒

132 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ApplicationMaster - 启动Driver线程

350

133

15分22秒

133 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ApplicationMaster - 启动Executor进程

430

134

17分29秒

134 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ExecutorBackend - 创建Executor计算对象

340

135

10分28秒

135 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - 流程梳理

410

136

7分54秒

136 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 通信原理

360

137

12分43秒

137 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 通信组件

390

138

4分21秒

138 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 课件梳理

370

139

7分22秒

139 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 上下文对象SparkContext

340

140

7分25秒

140 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - RDD依赖关系

360

141

13分44秒

141 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 阶段的划分

340

142

6分12秒

142 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的切分

370

143

16分51秒

143 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的调度

380

144

5分5秒

144 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的执行

400

145

6分20秒

145 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 课件梳理

370

146

7分3秒

146 - 尚硅谷 - Spark内核 & 源码 - shuffle - 原理回顾

400

147

12分17秒

147 - 尚硅谷 - Spark内核 & 源码 - shuffle - 图解

330

148

8分15秒

148 - 尚硅谷 - Spark内核 & 源码 - shuffle - 实现过程

380

149

15分45秒

149 - 尚硅谷 - Spark内核 & 源码 - shuffle - 写流程源码解读

440

150

16分18秒

150 - 尚硅谷 - Spark内核 & 源码 - shuffle - 归并排序和读流程

260

151

5分54秒

151 - 尚硅谷 - Spark内核 & 源码 - shuffle - 课件梳理

410

152

18分50秒

152 - 尚硅谷 - Spark内核 & 源码 - 内存管理

380

153

5分35秒

153 - 尚硅谷 - SparkSQL - 介绍

410

154

2分38秒

154 - 尚硅谷 - SparkSQL - 特点

370

155

6分43秒

155 - 尚硅谷 - SparkSQL - 数据模型 - DataFrame & DataSet

470

156

7分20秒

156 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - 简单演示

380

157

10分25秒

157 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - SQL的基本使用

500

158

6分34秒

158 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - DSL语法的基本使用

440

159

7分0秒

159 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - RDD之间的转换

460

160

4分5秒

160 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - 介绍

460

161

3分27秒

161 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - DataFrame的转换

400

162

5分3秒

162 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - RDD的转换

340

163

4分50秒

163 - 尚硅谷 - SparkSQL - 核心编程 - DataSet & DataFrame & RDD之间的关系

410

164

7分20秒

164 - 尚硅谷 - SparkSQL - 核心编程 - IDEA创建SparkSQL环境对象

370

165

7分48秒

165 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - DataFrame基本操作

380

166

3分17秒

166 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - DataSet基本操作

350

167

5分46秒

167 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - RDD & DataFrame & DataSet互相转换

310

168

4分17秒

168 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDF函数

340

169

5分10秒

169 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 实现原理

360

170

16分13秒

170 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 弱类型函数实现

470

171

10分57秒

171 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 强类型函数实现

390

172

6分23秒

172 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 早期强类型函数实现

420

173

3分21秒

173 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 课件梳理

380

174

6分34秒

174 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 通用方法

380

175

8分29秒

175 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作JSON & CSV

380

176

4分20秒

176 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作MySQL

360

177

5分39秒

177 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作内置Hive

460

178

3分52秒

178 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作外置Hive

440

179

4分27秒

179 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 代码操作外置Hive

310

180

4分14秒

180 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - beeline操作Hive

430

181

6分36秒

181 - 尚硅谷 - SparkSQL - 案例实操 - 数据准备

530

182

12分55秒

182 - 尚硅谷 - SparkSQL - 案例实操 - 需求部分实现

470

183

26分53秒

183 - 尚硅谷 - SparkSQL - 案例实操 - 需求完整实现

490

184

13分38秒

184 - 尚硅谷 - SparkSQL - 总结 - 课件梳理

380

185

9分24秒

185 - 尚硅谷 - SparkStreaming - 概念 - 介绍

430

186

10分23秒

186 - 尚硅谷 - SparkStreaming - 概念 - 原理 & 特点

370

187

14分39秒

187 - 尚硅谷 - SparkStreaming - 入门 - WordCount - 实现

400

188

3分10秒

188 - 尚硅谷 - SparkStreaming - 入门 - WordCount - 解析

400

189

2分37秒

189 - 尚硅谷 - SparkStreaming - DStream创建 - Queue

430

190

7分34秒

190 - 尚硅谷 - SparkStreaming - DStream创建 - 自定义数据采集器

320

191

3分24秒

191 - 尚硅谷 - SparkStreaming - DStream创建 - Socket数据采集器源码解读

390

192

10分50秒

192 - 尚硅谷 - SparkStreaming - DStream创建 - Kafka数据源

430

193

16分7秒

193 - 尚硅谷 - SparkStreaming - DStream转换 - 状态操作

350

194

9分5秒

194 - 尚硅谷 - SparkStreaming - DStream转换 - 无状态操作 - transform

360

195

3分58秒

195 - 尚硅谷 - SparkStreaming - DStream转换 - 无状态操作 - join

350

196

12分16秒

196 - 尚硅谷 - SparkStreaming - DStream转换 - 有状态操作 - window

370

197

8分38秒

197 - 尚硅谷 - SparkStreaming - DStream转换 - 有状态操作 - window - 补充

370

198

4分42秒

198 - 尚硅谷 - SparkStreaming - DStream输出

330

199

15分43秒

199 - 尚硅谷 - SparkStreaming - 优雅地关闭

350

200

3分29秒

200 - 尚硅谷 - SparkStreaming - 优雅地关闭 - 恢复数据

300

201

16分41秒

201 - 尚硅谷 - SparkStreaming - 案例实操 - 环境和数据准备

370

202

10分19秒

202 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 分析

340

203

19分27秒

203 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 黑名单判断

270

204

16分25秒

204 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 统计数据更新

290

205

19分29秒

205 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 测试 & 简化 & 优化

400

206

9分25秒

206 - 尚硅谷 - SparkStreaming - 案例实操 - 需求二 - 功能实现

330

207

6分10秒

207 - 尚硅谷 - SparkStreaming - 案例实操 - 需求二 - 乱码问题

420

208

15分49秒

208 - 尚硅谷 - SparkStreaming - 案例实操 - 需求三 - 介绍 & 功能实现

300

209

9分52秒

209 - 尚硅谷 - SparkStreaming - 案例实操 - 需求三 - 效果演示

390

210

8分11秒

210 - 尚硅谷 - SparkStreaming - 总结 - 课件梳理

360

170 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 弱类型函数实现

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐