文章/答案/技术大牛

发布

首页视频22-Map端优化-使用Map端预聚合

22-Map端优化-使用Map端预聚合

2022-12-022022-12-02 16:02:21播放35

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之Spark3.x性能优化/视频/22-Map端优化-使用Map端预聚合.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
那我们看一下第五个章节，呃，对整个作业的一个优化啊，其他考虑，那首先咱们分为map端、reduce端，还有整体的一个调整，先看一下map端，Map端首先一个叫map端预聚合，其实这个东西不需要咱们做什么事儿啊，首先像前咱们前面讲的Spark搜狗的话，本身咱们执行计划看到的那个哈希aggreg，它本身就是成兑出现，对吧？他在咱们沙甫交换的时候，它会本地执行一个aggregate，那么在杀否完之后呢，Reduce端它也会进行一个聚合，它本身就实现的这个功能，这个呢，就像咱们经常讲的hipe Mr里面的提前combine，那如果咱们使用的是RDD或者其他的一些算子去操作的话，咱们建议使用这种reduce by啊，Aggregate by key啊。这种。像这种算子的话，本身他们也是会在本地先进行预聚合，之后呢，不同分区之间汇总到一起在啊全局聚合，也就是说其实Spark蛇口这一块还做得比较好啊，那这一块呢，咱们就是。
01:08
这边列出来就是想给大家提醒一下，另外一点就是尽量单独使用一个group by计算子，就是RDD操作的时候啊啊，你要么就呃经常分完组，你肯定是有些其他的需求的，像一些聚合干啥的，那你啊还是用reduce by key或者aggregate白key会更好一点啊，这是就这么一点事啊，给大家做一个小提醒。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Spark3.x性能优化

（22/38）

5分9秒

01-课程简介

400

4分43秒

02_执行计划_准备测试数据和表

380

20分32秒

03_执行计划_执行流程&案例实操解读

340

6分21秒

04-资源规划-资源设定上限估算

400

8分38秒

05-资源规划-精确内存估算

390

4分5秒

06-资源规划-精确调整内存各比例

410

9分8秒

07-缓存调优-RDD-进行cache

340

4分16秒

08-缓存调优-RDD-cache结合kryo序列化

350

7分6秒

09-缓存调优-DS-cache和序列化

410

18分40秒

10-CPU调优-合理利用CPU资源

370

12分58秒

11-语法优化-RBO-inner join的谓词下推

380

11分4秒

12-语法优化-RBO-外关联的谓词下推

370

3分25秒

13-语法优化-RBO-列裁剪&常量替换

350

26分51秒

14-语法优化-CBO-Statics统计&CBO使用效果

350

13分16秒

15-语法优化-广播Join

380

5分57秒

16-语法优化-Join-SMB Join原理

400

7分50秒

17-语法优化-Join-SMB Join效果演示

380

9分8秒

18-数据倾斜-现象&原因&抽样定位大key

370

14分18秒

19-数据倾斜-单表数据倾斜处理

370

7分12秒

20-数据倾斜-Join-使用广播Join

440

16分11秒

21-数据倾斜-Join-拆分key 打散大表扩容小表

550

1分36秒

22-Map端优化-使用Map端预聚合

350

19分50秒

23-Map端优化-读取小文件优化

360

20分22秒

24-Map端优化-调大ShuffleWrite溢写时的输出流缓冲&源码分析

340

7分30秒

25-Reduce端优化-输出产生小文件优化-调整并行度&缩小分区

340

10分8秒

26-Reduce端优化-动态分区插入小文件优化

360

11分28秒

27-Reduce端优化-提高Reduce端缓冲区&重试次数&重试等待间隔

380

8分41秒

28-Reduce端优化-合理使用bypass

380

16分45秒

29-Job优化-调节数据本地化等待时间

430

7分0秒

30-Job优化-堆外内存的版本区别

350

7分59秒

31-Job优化-使用堆外缓存

310

7分21秒

32-Job优化-调整连接等待时长

430

17分22秒

33-Spark3.0-AQE-动态合并分区&动态申请资源

580

5分3秒

34-Spark3.0-AQE-动态切换Join策略

390

14分5秒

35-Spark3.0-AQE-自动优化join倾斜

360

13分39秒

36-Spark3.0-DPP-动态分区裁剪

410

4分55秒

37-Spark3.0-Hint增强

340

9分21秒

38-常见故障思路简析

390

22-Map端优化-使用Map端预聚合

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐