文章/答案/技术大牛

发布

首页视频02_执行计划_准备测试数据和表

02_执行计划_准备测试数据和表

2022-12-022022-12-02 16:02:21播放38

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之Spark3.x性能优化/视频/02_执行计划_准备测试数据和表.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，那我们首先来看一下第一个章节啊，查看执行计划，那么从Spark3.0发布的信息来看呢，我们可以发现它摆一半的优化点都在Spark circle上面，那这是因为呢，咱们Spark circle相对来讲它更重要一点，它成为一个新一代的一个引擎内核，那也不用担心说其他框架栏路就不管了嘛，不会啊，咱们其他的模块像mi吧，是streaming graph，它都可以共享Spark circle的性能优化啊，所以咱们只把它关注好就可以了。那我们要对Spark进行优化呢？那首先第一步咱们要知道问题在哪里，要对症下药啊，你不能说搜了一堆参数直接往上放就完事了，对吧，你要知道你的瓶颈在哪里，就比如说你生活中了，你跟你对象可能发生不愉快，然后他生气了啊，不理你，你问他啊，你为什么生气了，你是不是生气了，他就说没事啊，你不用管我，那可能过了一会儿啊，你真的没理他。
01:05
你在那玩自个儿的，他就越来越想越气，对吧，就开始跟你各种闹啊，这就是因为你没有抓住他生气的原因，为什么让他生气了啊，你还觉得没事儿啊，那咱们所以第一步呢，就是要了解执行计划啊。那在本次课程之前呢，咱们先来准备一个测试用表跟数据，给到大家的这个资料文件夹里面，这边有一个数据文件，这边有三个log文件，那么大家首先呢，把它上传到你的HDFS，那我是上传到了一个Spark data，这个目录是我自己创建的，将三个文件上传上来啊，那我们可以看到这三个文件分别是两个多G，四个多G，还有三兆啊，我们本次呢课程呢，就基于这三三个数据啊来做一些演示。那上传完之后咱们，呃，为了方便咱们就结合hi来使用，那我们需要在hi里面，你首先创建一个数据库啊，那创建完之后呢，再执行给到大家的一个初始化代码啊，我们看一下简单看一下代码在这个初始化工具里面。
02:23
他们这边就会去执行插入啊，主要是很简单的逻辑啊，你看读取这个文件，然后呢，保存到这个库下面的这张表去啊，都是一样的，那have里边你创建完库之后就可以执行这个程序了啊，你可以在idea运行，也可以将打完包之后放到你的集群上面去执行啊，都是可以的。但这个时间比较久，有个地方要提醒大家要修改的啊，第一个呃，如果你是idea运行，你把这个注释打开啊，用logo嘛，那如果你是打包到集群，把它注释掉，这第一个细节，第二一个呢，就是有些要修改的地方，第一个。
03:08
在初始化SC的时候，咱们这个用户名你看看，根据你的需要改成你自己的，另外一个就是HDFS的一个地址，那个name no的文件地址，这个你改成自己的，这个就是哈杜里边那个Co-site这个配置文件里面不是有一个配置项叫FS.defa。FS嘛啊，你就把这个地址把它拿过来就行了。啊，简单投一眼哎。我这边是把我的配置文件拷过来的，就这个配置项这个东西。呃，另外一个呢，就是你把你自己哈杜集群还有hi的配置文件啊，可以拷贝到这这里把它覆盖掉就行了，因为这个是我的啊，这个是我的。Co杠赛，HDFS，还有盐啊这几个。
04:01
那这就是前期的准备工作，准备完之后去执行就OK了，那执行过程中呢，呃，每个人那个性能跟配置不一样，时长不一定，像我的话跑起来可能还会浪费一点时间，所以我提前已经把它数据都插插好了啊都准备好了，那可以看一下我hi服的一个数据库，我的库路径是这里，You have warhouse。那这个就是我创建的数据库啊，空名点进来，那分别插入的话，应该是有这三张表，三张表。啊，那这就是咱们前期一个准备工作啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Spark3.x性能优化

（2/38）

5分9秒

01-课程简介

400

4分43秒

02_执行计划_准备测试数据和表

380

20分32秒

03_执行计划_执行流程&案例实操解读

340

6分21秒

04-资源规划-资源设定上限估算

400

8分38秒

05-资源规划-精确内存估算

390

4分5秒

06-资源规划-精确调整内存各比例

410

9分8秒

07-缓存调优-RDD-进行cache

340

4分16秒

08-缓存调优-RDD-cache结合kryo序列化

350

7分6秒

09-缓存调优-DS-cache和序列化

410

18分40秒

10-CPU调优-合理利用CPU资源

370

12分58秒

11-语法优化-RBO-inner join的谓词下推

380

11分4秒

12-语法优化-RBO-外关联的谓词下推

370

3分25秒

13-语法优化-RBO-列裁剪&常量替换

350

26分51秒

14-语法优化-CBO-Statics统计&CBO使用效果

350

13分16秒

15-语法优化-广播Join

380

5分57秒

16-语法优化-Join-SMB Join原理

400

7分50秒

17-语法优化-Join-SMB Join效果演示

380

9分8秒

18-数据倾斜-现象&原因&抽样定位大key

370

14分18秒

19-数据倾斜-单表数据倾斜处理

370

7分12秒

20-数据倾斜-Join-使用广播Join

440

16分11秒

21-数据倾斜-Join-拆分key 打散大表扩容小表

550

1分36秒

22-Map端优化-使用Map端预聚合

350

19分50秒

23-Map端优化-读取小文件优化

360

20分22秒

24-Map端优化-调大ShuffleWrite溢写时的输出流缓冲&源码分析

340

7分30秒

25-Reduce端优化-输出产生小文件优化-调整并行度&缩小分区

340

10分8秒

26-Reduce端优化-动态分区插入小文件优化

360

11分28秒

27-Reduce端优化-提高Reduce端缓冲区&重试次数&重试等待间隔

380

8分41秒

28-Reduce端优化-合理使用bypass

380

16分45秒

29-Job优化-调节数据本地化等待时间

430

7分0秒

30-Job优化-堆外内存的版本区别

350

7分59秒

31-Job优化-使用堆外缓存

310

7分21秒

32-Job优化-调整连接等待时长

430

17分22秒

33-Spark3.0-AQE-动态合并分区&动态申请资源

580

5分3秒

34-Spark3.0-AQE-动态切换Join策略

390

14分5秒

35-Spark3.0-AQE-自动优化join倾斜

360

13分39秒

36-Spark3.0-DPP-动态分区裁剪

410

4分55秒

37-Spark3.0-Hint增强

340

9分21秒

38-常见故障思路简析

390

02_执行计划_准备测试数据和表

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐