文章/答案/技术大牛

发布

首页视频090 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - 实际执行时的问题

090 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - 实际执行时的问题

2022-12-022022-12-02 16:02:16播放35

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷spark教程/视频/090 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - 实际执行时的问题.avi

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
刚才给同学们嗯，演示了个小例子啊，就是跟序列相关的啊，那咱们接下来呢，就来看一看RD序列化相关的内容，第一个叫包检测啊，从计算的角度来讲啊，算子以外的代码呢，都是在driver端执行的啊，咱们刚才看到了算子里面的代码呢，都是在我们的exte端执行的，那么在我们S盖LA的函数式编程当中，就会导致算子内经常会用到算子外的数据，这样的话就形成了一种B包的效果啊，那么如果使用的算子外的数据无法序列化，就意味着无法传值给excu端执行就会发生错误，所以需要在执行任务计算之前检测B包内的对象是否可以进行序列化，这个操作我们称之为叫B包检测啊。盖LA2.12版本后，B包编译的方式发生了改变，所以它的那个代码呢，其实也有变化，咱们Spark的3.0是我们当前学习的版本，它跟之。
01:00
前的版本啊，其实源码中已经有了很大的变化了啊，包括B包检测呀，包括他的作业执行啊，其实都会有一定的变化啊，这个咱们在后面的内核的学习当中，咱们可以呃碰见了跟大家说一说啊，咱们接着往下啊，嗯。下面呢说了啊，我们序列化的方法和属性啊，那么下面呢，他举了一个例子，这个例子呢，我们可以给大家呢去看一看，他想给大家说明什么事情啊来，那这样的话跟序列化相关，那我觉得这个咱们就别放在这个operator里面了啊，咱们在这里呢，我们来创建一个包啊，咱们写上嗯，来，咱们叫序列化相关的内容啊，嗯，好，这里呢，我们写上new，创建一个skyla啊，我们的一个类，咱们写上它，咱们叫RDD，再来我们的一个序列化好了，然后点击OK，然后这里面写上一个面。行，把这些东西呢，我们参考一下，咱们拷贝过来。
02:00
好了啊，然后呢，我们再来写上一个SC点啊，我们的这个stop，嗯，行，那我们接下来咱们看一下我们的课件啊，咱们课件当中啊，他准备了一个什么呢？我们的R准备了一个R，诶好了，什么hello呀，什么Spark呀，啊他把这些呢准备了一下啊来找一下，嗯，好，他准备好了以后，他做了什么事情呢？这样的他在我们的处理过程当中啊，他构建了一个奢的对象，所以啊，咱们往下走，往下走，往下走当中啊同学们看来拷贝拷贝以后，它在这边它构建了一个我们的search的对象，这个呢，我们叫查询对象啊，咱们称之为叫查询对象，那么这个查询对象什么意思呢？就是我们想从数据源当中查询指定规则的数据，诶咱们想干这个事情用，所以说我们回过头来，咱们看课件，它里面就会有一些方法来帮助我们来查询。
03:00
数据，所以我们把这个方法呢，我们拷贝一下，拷贝拷贝以后拿过来在我们的这些地方啊，同学们看我们现在呢，把这些东西啊，都给它拿过来，把这个都去掉啊，去掉OK，保留简单一点吧，我太多的话看有点乱啊，然后呢，这个也是一样的啊，这也是一样的，诶把这个拿过来，然后呢，我们看看他想干什么啊，咱们看它里面有两个方法，一个叫get ma1，一个叫get ma2，都是要传一个RDD进来，然后呢，这个RDD呢会调用fielder，这个fielder呢，它一个采用的是匿名函数，一个采用的是外置函数，对不对，外部声明的函数，所以这个其实目的很简单，就是筛选数据嘛，看看我们RDD数据源当中的数据，有没有满足我们的查询条件的这个数据，它叫包含对吧，如果你的数据源中的数据包含了咱们指定查询的数据，那么这样的话就满足条件，数据就保留了，如果不满足，OK。
04:00
这个就不保留，对不对，所以啊，它用了两种不同的方式来实现这个功能啊，那好，我们来给大家看一看，那我们这个search侈对象啊，在咱们这里就来了，嗯，咱们写上，嗯，咱们叫做就叫search吧，等于new啊，咱们叫search，然后呢，我们写上一个小写的H吧，如果你的数据源中的数据它包含了我们的小写的H，这个数据给我留下来啊，如果你不包含我就不要了，比方说艾特硅谷，这就不包含嘛，那不包含我就不要，对不对，所以啊，咱们的search呢就有了，有了以后咱们来，咱们写上一个点，点了以后有个叫get ma1，然后呢，把RDD传进去，传进去以后大家会发现它就是调用了它的field，然后返回一个新的RDD，好，那咱们别的不说了，那我们就直接点叫collect。好，然后呢，点我们叫for it，给它来一个print，哎，就这么简单啊，只是说他做了一个封装，封装成了一个叫search的对象，好，那我们现在运行。
05:04
运行，看看我们的结果啊，看一看我们的运行结果，是不是我们预想的这个at硅谷没有出现啊，123能够出现就够了，嗯。诶，你会发现怎么了，同学们好像没过去啊，他报错了，报了一个什么错误呢？你看看熟不熟悉task not so liable对不对，叫做任务没有序列化，诶，那我们接着往下，那你这个肯定看不出来嘛，还得往下看，具体的他就说了，我们not legable exception是那个search对象，它没有序列化，诶我这里看看啊，咱们的这个地方大家看一下，咱们这里是RDD传进来有个叫field，这个field就是算子吧，这个算子的外部，我们这没有外部代码，对不对，然后呢，我们的这个叫it met是我们的内部操作就在这了。那这个操作就是把个query拿过来。
06:00
这个query是个字符串啊。对不对，那所以我就感觉好像这里没有用到这个search呀，这是一个我们的类的构造参数吧，构造参数它这个参数它这个string啊，那我这个地方问你是否包含，那包含它的情况下这个。周串，那本身就序列化了的呀，那你的这地方怎么会提示我说我们的这个search没有序列化呢，那我就不明白了，所以啊，我先不管那么多，我先按照他的这种说法呢，我先给他来序列化一下，我们试一试啊看看如果我加上了以后他就成功了，那就说明问题他就在这儿，我们来看看什么原因，嗯。所以啊，我现在不知道发生什么事情，在我看来呢，咱们的get ma1你的，那这个就是我算子的内部嘛，那么你的算子内部确实用到了个query，但这个query好像跟这个search没什么关系啊，对不对，它就是个参数，而且是字串类型的，跟它有啥关系？
07:01
所以啊，我们觉得应该不会有问题，可是你发现当我们增加了这句话之后，代码就执行通过了，说明啊，确实就跟它有关，那么原因在哪呢？原因告诉大家很简单，就在我们史该了语法当中，我们类啊，咱们说一下类的构造参数，它其实它是什么呢？它是我们类的属性。所以啊，你会发现啊，咱们类的构造参数这个query其实是类的属性。这个事儿你能不能明白？如果你不明白这个事情，那你肯定就不知道他为什么会出错了啊，你只能说哎，我加一句话就解决了，那你不知道为什么啊，那为什么是类的属性呢？我们回过头来大家看啊，我们现在打开，诶咱们现在咱们打开这个叫target，这个target我们去找一找啊，咱们点一下点一下嗯，打开打开打开以后咱们的Spark，然后呢，这边有一个叫做RDD，有一个叫做它，然后把这个呢，我们给它反编译啊来反编译，反编译以后大家看一下咱们刚才的那个search。
08:12
咱们这里面不有个叫做search吗？我们找一下，在这儿呢，你会发现那个query是不是它的属性，只不过它是个私有属性，你外部是看不到的吗？那么你再去判断是否包含的时候，它会怎么办？调用this.query所以呀，这个地方它省略了一个什么叫this.query是这么个情况，所以这个this不是当前的search对象吗？那是不是就跟search有关系了，所以类的构造参数其实是类的属性啊，那么我们的构造参数它需要什么呢？进行我们的B包啊，咱们的检测其实就等同于就等同于我们的。类啊，它进行我们的B包检测，所以那你肯定不对嘛，啊，他没有序列化对不对，所以刚才的第一种情况它就爆桌了，那然后呢，第二种情况，我们加上序列化之后，它就没事儿了，对不对，这个咱们演示过了啊好，那这个MAX1啊，咱们就知道哦，原来是这么回事儿啊，嗯，我们的这个属性对吧，这个属性它会涉及到类对象的一个序列化问题，那好，我们再来，咱们search，嗯，咱们再来，咱们叫做点点什么呢？我们叫get me，你把RDD传进去，传进去以后把这个拿过来，嗯。
09:32
好了，那你这么写完了以后，咱们再来往下看啊，咱们来往下看，往下看以后大家看一下这个地方。大家看一下这个地方会不会出现问题，其实你会发现也一样，它出现问题，为什么？因为我们的get met2，大家想一想，咱们的这个query用的是不是也是它，所以啊，也就意味着如果这个类不序列化的话，你的M2也依然出现问题啊，所以我们再来运行这个问题，我们预想就能想得到了，嗯，它是序列化的问题啊。
10:09
所以咱们看一看。好了，诶确实出现问题了，那怎么办呀，很简单，你把这个地方加上一个什么混入特值是不是就OK了，或者你加上一个case是不是也就解决了，那也就解决了，但是这种一种解决方案啊，咱们说一下就行了，嗯，还有还有一种解决方案，什么解决方案呢？你这样。大家看一下，你这么写叫做S等于query，然后呢，你把这个S逆方这这种方式其实是能够解决的啊，所以来我们运行一下，运行以后看结果啊，这个时候你会发现我的这个search呢，并没有序列化，只不过呢，我在这边把query复制给了1S啊，你看看现在会不会出现那个。任务没有序列化的问题，好像没有了吧，那这个原因何在啊？原因就在于我们记住啊，这个是RDD的方法，咱们称之为叫算子，这个代码是不是在driver端？
11:09
而这个代码逻辑它会运行在我们的excucuor端，所以它所引用的S其实就是引用的这个S，这个S什么类型字符串，类型字符串能不能够序列化，那当然能了，对不对？而且这个S我问你它跟我们这个search有关系吗？没有，因为这个S明显就是这个方法的一个局部的变量嘛，所以要改变它的生命周期，形成B包。那么所以说它。不需要，我们这个类怎么怎么办，它是不需要的，所以啊，在我们写代码的时候，一旦出现类似于这些错误的话，我们要有一个分析的过程啊，虽然说解决起来很容易，为什么呢？当你看到那个错误信息以后，解决起来非常容易，但是我们一定要明白它的原理是什么样子的好不好？同学们，我们要去研究它一下啊，不要只看结果，那没有任何的意义，你下回可能还会出现同样的错误的。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷spark教程

（90/210）

4分47秒

001 - 尚硅谷 - Spark框架 - 简介

460

7分47秒

002 - 尚硅谷 - Spark框架 - Vs Hadoop

530

2分23秒

003 - 尚硅谷 - Spark框架 - 核心模块 - 介绍

400

5分45秒

004 - 尚硅谷 - Spark框架 - 快速上手 - 开发环境准备

510

7分56秒

005 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 案例分析

440

7分6秒

006 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - Spark环境

410

11分55秒

007 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 功能实现

420

8分30秒

008 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 不同的实现

470

4分23秒

009 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - Spark的实现

370

3分49秒

010 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 日志和错误

440

8分10秒

011 - 尚硅谷 - Spark框架 - 运行环境 - 本地环境 - 基本配置和操作

520

3分9秒

012 - 尚硅谷 - Spark框架 - 运行环境 - 本地环境 - 提交应用程序

420

6分11秒

013 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 基本配置和操作

390

3分7秒

014 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 提交参数解析

360

4分7秒

015 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 配置历史服务

390

5分50秒

016 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 配置高可用

470

6分40秒

017 - 尚硅谷 - Spark框架 - 运行环境 - Yarn环境 - 基本配置 & 历史服务

360

11分5秒

018 - 尚硅谷 - Spark框架 - 运行环境 - Windows环境 & 总结

470

3分32秒

019 - 尚硅谷 - Spark框架 - 核心组件 - 介绍

370

3分30秒

020 - 尚硅谷 - Spark框架 - 核心概念 - Executor & Core & 并行度

410

6分59秒

021 - 尚硅谷 - Spark框架 - 核心概念 - DAG & 提交流程 & Yarn两种部署模式

410

12分47秒

022 - 尚硅谷 - SparkCore - 分布式计算模拟 - 搭建基础的架子

470

10分49秒

023 - 尚硅谷 - SparkCore - 分布式计算模拟 - 客户端向服务器发送计算任务

490

11分38秒

024 - 尚硅谷 - SparkCore - 分布式计算模拟 - 数据结构和分布式计算

460

5分30秒

025 - 尚硅谷 - SparkCore - 核心编程 - RDD - 概念介绍

380

10分10秒

026 - 尚硅谷 - SparkCore - 核心编程 - RDD - IO基本实现原理 - 1

440

8分48秒

027 - 尚硅谷 - SparkCore - 核心编程 - RDD - IO基本实现原理 - 2

450

12分23秒

028 - 尚硅谷 - SparkCore - 核心编程 - RDD - RDD和IO之间的关系

400

13分33秒

029 - 尚硅谷 - SparkCore - 核心编程 - RDD - 特点

410

11分18秒

030 - 尚硅谷 - SparkCore - 核心编程 - RDD - 五大主要配置

440

3分4秒

031 - 尚硅谷 - SparkCore - 核心编程 - RDD - 执行原理

410

11分1秒

032 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 内存

400

6分27秒

033 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 文件

300

4分41秒

034 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 文件1

400

11分40秒

035 - 尚硅谷 - SparkCore - 核心编程 - RDD - 集合数据源 - 分区的设定

450

13分52秒

036 - 尚硅谷 - SparkCore - 核心编程 - RDD - 集合数据源 - 分区数据的分配

370

11分31秒

037 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区的设定

400

8分20秒

038 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区数据的分配

370

6分12秒

039 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区数据的分配 - 案例分析

410

7分48秒

040 - 尚硅谷 - SparkCore - 核心编程 - RDD - 算子介绍

400

7分45秒

041 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map

440

5分10秒

042 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map - 小功能

330

8分52秒

043 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map - 并行计算效果演示

400

6分10秒

044 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions

500

3分48秒

045 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions - 小练习

460

2分20秒

046 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions & map的区别 - 完成比完美更重要

400

6分29秒

047 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitionsWithIndex

410

5分6秒

048 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - flatMap

440

2分39秒

049 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - flatMap - 小练习

400

6分32秒

050 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - glom

380

6分47秒

051 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 理解分区不变的含义

410

5分24秒

052 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy

390

6分0秒

053 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy - shuffle来袭

390

7分50秒

054 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy - 小练习

350

7分10秒

055 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - filter - 数据倾斜

390

16分10秒

056 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - sample - 抽奖喽

390

6分12秒

057 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - distinct

370

11分10秒

058 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - coalesce

370

7分26秒

059 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - repartition

310

6分30秒

060 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - sortBy

390

8分18秒

061 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 交集&并集&差集&拉链

480

8分9秒

062 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 交集&并集&差集&拉链 - 注意事项

460

10分17秒

063 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - partitionBy（前面有吸气，中间有等待）

390

5分54秒

064 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - partitionBy - 思考的问题

400

6分5秒

065 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - reduceByKey

410

4分13秒

066 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupByKey

420

18分56秒

067 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupByKey & reduceByKey的区别

440

11分8秒

068 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey

490

13分28秒

069 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 图解

380

3分53秒

070 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - foldByKey

440

8分49秒

071 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 小练习

320

6分3秒

072 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 小练习 - 图解

370

8分3秒

073 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - combineByKey

420

9分11秒

074 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 聚合算子的区别

410

6分59秒

075 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - join

450

3分24秒

076 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - leftOuterJoin & rightOuterJoin

450

4分27秒

077 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - cogroup

410

18分49秒

078 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 需求介绍 & 分析

510

6分39秒

079 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 需求设计

440

8分17秒

080 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 功能实现

410

4分31秒

081 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - 介绍

360

7分59秒

082 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - 算子演示

350

4分23秒

083 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - aggregate

390

4分44秒

084 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - countByKey & countByValue

410

10分15秒

085 - 尚硅谷 - SparkCore - 核心编程 - RDD - WordCount不同的实现方式 - (1-8)

430

6分2秒

086 - 尚硅谷 - SparkCore - 核心编程 - RDD - WordCount不同的实现方式 - (9-11)

410

3分40秒

087 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - save的方法

370

11分36秒

088 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - foreach

340

14分9秒

089 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - 闭包检测

390

12分3秒

090 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - 实际执行时的问题

350

10分5秒

091 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - Kryo序列化Core介绍

370

5分16秒

092 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 依赖 & 血缘关系介绍

390

11分35秒

093 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 血缘关系 - 演示

330

11分34秒

094 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 宽窄依赖

410

9分40秒

095 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 阶段&分区&任务 - 概念解析 - 秋游了

340

11分30秒

096 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 阶段划分源码解读

390

8分56秒

097 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 任务划分源码解读

390

2分50秒

098 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 任务分类

390

14分45秒

099 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - cache & persist基本原理和演示

380

100

5分17秒

100 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 作用

430

101

2分58秒

101 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 检查点

320

102

11分46秒

102 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 区别

370

103

9分1秒

103 - 尚硅谷 - SparkCore - 核心编程 - RDD - 分区器 - 自定义数据分区规则

340

104

4分35秒

104 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件读取与保存

350

105

15分48秒

105 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 原理及简单演示

350

106

3分37秒

106 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 问题

410

107

10分53秒

107 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 自定义实现

440

108

7分13秒

108 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 自定义实现 - 1

480

109

17分14秒

109 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 - 广播变量

380

110

12分2秒

110 - 尚硅谷 - SparkCore - 案例实操 - 数据准备 & 数据说明

400

111

9分45秒

111 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 需求设计 & 思路梳理

400

112

9分53秒

112 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 分别统计点击，下单，支付的数量

410

113

12分17秒

113 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 合并点击，下单，支付的数量

350

114

12分16秒

114 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第二种实现方式

350

115

12分55秒

115 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第三种实现方式

300

116

18分28秒

116 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第四种实现方式

430

117

14分47秒

117 - 尚硅谷 - SparkCore - 案例实操 - 需求二 - 功能实现

360

118

3分40秒

118 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 需求介绍

420

119

19分3秒

119 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 需求分析 - 图解

470

120

5分57秒

120 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 分母的计算

340

121

15分26秒

121 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 分子的计算并求转换率

340

122

8分29秒

122 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 优化需求

340

123

11分3秒

123 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 三层架构介绍

400

124

13分46秒

124 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 三层架构代码实现

370

125

17分47秒

125 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 架构代码优化

420

126

4分30秒

126 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - ThreadLocal解释

380

127

30分8秒

127 - 尚硅谷 - SparkCore - 总结 - 课件梳理

430

128

5分36秒

128 - 尚硅谷 - Spark内核 & 源码 - 总体介绍

410

129

6分28秒

129 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 起点

430

130

13分26秒

130 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 向Yarn提交应用

440

131

14分18秒

131 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 启动ApplicationMaster

360

132

10分20秒

132 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ApplicationMaster - 启动Driver线程

350

133

15分22秒

133 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ApplicationMaster - 启动Executor进程

430

134

17分29秒

134 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ExecutorBackend - 创建Executor计算对象

340

135

10分28秒

135 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - 流程梳理

410

136

7分54秒

136 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 通信原理

360

137

12分43秒

137 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 通信组件

390

138

4分21秒

138 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 课件梳理

370

139

7分22秒

139 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 上下文对象SparkContext

340

140

7分25秒

140 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - RDD依赖关系

360

141

13分44秒

141 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 阶段的划分

340

142

6分12秒

142 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的切分

370

143

16分51秒

143 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的调度

380

144

5分5秒

144 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的执行

400

145

6分20秒

145 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 课件梳理

370

146

7分3秒

146 - 尚硅谷 - Spark内核 & 源码 - shuffle - 原理回顾

400

147

12分17秒

147 - 尚硅谷 - Spark内核 & 源码 - shuffle - 图解

330

148

8分15秒

148 - 尚硅谷 - Spark内核 & 源码 - shuffle - 实现过程

380

149

15分45秒

149 - 尚硅谷 - Spark内核 & 源码 - shuffle - 写流程源码解读

440

150

16分18秒

150 - 尚硅谷 - Spark内核 & 源码 - shuffle - 归并排序和读流程

260

151

5分54秒

151 - 尚硅谷 - Spark内核 & 源码 - shuffle - 课件梳理

410

152

18分50秒

152 - 尚硅谷 - Spark内核 & 源码 - 内存管理

380

153

5分35秒

153 - 尚硅谷 - SparkSQL - 介绍

410

154

2分38秒

154 - 尚硅谷 - SparkSQL - 特点

370

155

6分43秒

155 - 尚硅谷 - SparkSQL - 数据模型 - DataFrame & DataSet

470

156

7分20秒

156 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - 简单演示

380

157

10分25秒

157 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - SQL的基本使用

500

158

6分34秒

158 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - DSL语法的基本使用

440

159

7分0秒

159 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - RDD之间的转换

460

160

4分5秒

160 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - 介绍

460

161

3分27秒

161 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - DataFrame的转换

400

162

5分3秒

162 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - RDD的转换

340

163

4分50秒

163 - 尚硅谷 - SparkSQL - 核心编程 - DataSet & DataFrame & RDD之间的关系

410

164

7分20秒

164 - 尚硅谷 - SparkSQL - 核心编程 - IDEA创建SparkSQL环境对象

370

165

7分48秒

165 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - DataFrame基本操作

380

166

3分17秒

166 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - DataSet基本操作

350

167

5分46秒

167 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - RDD & DataFrame & DataSet互相转换

310

168

4分17秒

168 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDF函数

340

169

5分10秒

169 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 实现原理

360

170

16分13秒

170 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 弱类型函数实现

470

171

10分57秒

171 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 强类型函数实现

390

172

6分23秒

172 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 早期强类型函数实现

420

173

3分21秒

173 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 课件梳理

380

174

6分34秒

174 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 通用方法

380

175

8分29秒

175 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作JSON & CSV

380

176

4分20秒

176 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作MySQL

360

177

5分39秒

177 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作内置Hive

460

178

3分52秒

178 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作外置Hive

440

179

4分27秒

179 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 代码操作外置Hive

310

180

4分14秒

180 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - beeline操作Hive

430

181

6分36秒

181 - 尚硅谷 - SparkSQL - 案例实操 - 数据准备

530

182

12分55秒

182 - 尚硅谷 - SparkSQL - 案例实操 - 需求部分实现

470

183

26分53秒

183 - 尚硅谷 - SparkSQL - 案例实操 - 需求完整实现

490

184

13分38秒

184 - 尚硅谷 - SparkSQL - 总结 - 课件梳理

380

185

9分24秒

185 - 尚硅谷 - SparkStreaming - 概念 - 介绍

430

186

10分23秒

186 - 尚硅谷 - SparkStreaming - 概念 - 原理 & 特点

370

187

14分39秒

187 - 尚硅谷 - SparkStreaming - 入门 - WordCount - 实现

400

188

3分10秒

188 - 尚硅谷 - SparkStreaming - 入门 - WordCount - 解析

400

189

2分37秒

189 - 尚硅谷 - SparkStreaming - DStream创建 - Queue

430

190

7分34秒

190 - 尚硅谷 - SparkStreaming - DStream创建 - 自定义数据采集器

320

191

3分24秒

191 - 尚硅谷 - SparkStreaming - DStream创建 - Socket数据采集器源码解读

390

192

10分50秒

192 - 尚硅谷 - SparkStreaming - DStream创建 - Kafka数据源

430

193

16分7秒

193 - 尚硅谷 - SparkStreaming - DStream转换 - 状态操作

350

194

9分5秒

194 - 尚硅谷 - SparkStreaming - DStream转换 - 无状态操作 - transform

360

195

3分58秒

195 - 尚硅谷 - SparkStreaming - DStream转换 - 无状态操作 - join

350

196

12分16秒

196 - 尚硅谷 - SparkStreaming - DStream转换 - 有状态操作 - window

370

197

8分38秒

197 - 尚硅谷 - SparkStreaming - DStream转换 - 有状态操作 - window - 补充

370

198

4分42秒

198 - 尚硅谷 - SparkStreaming - DStream输出

330

199

15分43秒

199 - 尚硅谷 - SparkStreaming - 优雅地关闭

350

200

3分29秒

200 - 尚硅谷 - SparkStreaming - 优雅地关闭 - 恢复数据

300

201

16分41秒

201 - 尚硅谷 - SparkStreaming - 案例实操 - 环境和数据准备

370

202

10分19秒

202 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 分析

340

203

19分27秒

203 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 黑名单判断

270

204

16分25秒

204 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 统计数据更新

290

205

19分29秒

205 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 测试 & 简化 & 优化

400

206

9分25秒

206 - 尚硅谷 - SparkStreaming - 案例实操 - 需求二 - 功能实现

330

207

6分10秒

207 - 尚硅谷 - SparkStreaming - 案例实操 - 需求二 - 乱码问题

420

208

15分49秒

208 - 尚硅谷 - SparkStreaming - 案例实操 - 需求三 - 介绍 & 功能实现

300

209

9分52秒

209 - 尚硅谷 - SparkStreaming - 案例实操 - 需求三 - 效果演示

390

210

8分11秒

210 - 尚硅谷 - SparkStreaming - 总结 - 课件梳理

360

090 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - 实际执行时的问题

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐