文章/答案/技术大牛

发布

首页视频14-尚硅谷-大数据技术之Hive-调优（Job优化 Map&Reduce）

14-尚硅谷-大数据技术之Hive-调优（Job优化 Map&Reduce）

2022-12-022022-12-02 16:02:20播放34

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之Hive 3.x高级进阶/视频/14-尚硅谷-大数据技术之Hive-调优（Job优化 Map&Reduce）.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，那接下来呢，到我们的第五章的内容啊，呃，那第五章呢，是对于我们整体have，它整体任务的一个优化啊，那我们具体来看一看，那这UR呢，我们分为了map优化，Video优化以及任务整体的一个优化，那在map阶段呢，我们知道，呃，第一个。可以增加map数量啊，当我们这个文件特别复杂，或者说我们的文件呃。特别多的时候，那这个时候呢，我们可以增加我们的一个map数量，那如何增加map数量呢？也就通过这样的一个公式去做计算。它当中的需要。根据我们的。最小值为一，最大值呢是浪的最大值，有一个block size，其实就是block size决定我们的大小。block size我们知道128兆，也就是默认情况下来说呢，128兆会有一个map数。那如果说我们能把这个值提高，那麦克数就减少，如果把它值下降呢，那麦克数量就能够增大了。
01:07
对不对啊，是这样的一个问题，好，呃，那这个呢，其实比较简单，我们想一下，我们只需要将因为来看这个公式啊，它首先从。这大值跟block size当中一个小的，然后从mid size跟刚才取的值当中又取一个大的，其实也就取这三个值的中间值，那么如果我想比128兆大。那中间值是不是应该是m size提的比128差，那假如说我想256兆一个分区，我只要将这个属性设置为256兆即可，那如果说我想64兆一个分区。我只需要将max变为64即可啊，也就是说你要知道根据me和max如何调整我们的切片大小啊，切片大小好，这是第一个，我们的ma数量可以变换第二个小文件进行一个合并。
02:04
小文件的合并，因为我们知道在生产文件当中，我们非常头疼ID的小文件问题，第一个I对于存储小文件效率比较低，因为每一个文件呢，它都会占据我们内node当中的一个原数据信息，嗯，那你小文件。比我大，文件数据量小，但是你所占的原数据信息是一样的，也就是说占用我们name no的内存空间是一样的，所以呢，我宁愿存大文件，不愿意存小文件，而存储效率更高，对不对啊，那但是呢，小文件有时候呢又产生了，那怎么办呢？我们可以对这个小文件进行一个。合并处理对吧？当做多个小文件，当做一个来处理啊，相关的参数呢，给大家去了解一下啊，呃，那当然了，我们可以开启map端预聚合，相当于做了一个。com啊，同时也可以开启推测执行，推测执行就是说我们同时启动多个任务，谁先完成哎，就用谁的结果，当然也不是说对于所有任务都去写到，是相对来说比较慢的一个人可以去做这个事情。
03:07
对吧，那第二块呢，是我们reduce的优化，Reduce优化过程当中呢，那那我们完全也可以设置reduce的数量。啊，可以设置它的一个数量，那它的数量呢，可不像ma那边，我们去通过一个什么算一下对吧，那这个当中呢，当然它也有自己的一个公式啊，首先有第一个。默认的处理数据量，根据数量计算的第二个最大值，那么它是什么公式呢？就我们说的总数入数据量除以第一个参数，跟这个值相比，1009相比，取一个小的。啊，也就是根据数据量来做啊，那还有第二种方案，我们可以直接手动指定尾丢色的数量。可以手动指定为流的数量，可以直接指定，对吧？这种方式更简单粗暴啊，那么呢，为流子个数是不是越多越好呢？那其实不然对吧？嗯，那维四呢，启动和关闭也会消耗时间，第二个如果说维德四个数太多，那每一个维零四分配的数据呢就非常小，那这样明显的产生了资源的浪费了啊，所以说呢，也并不是说越多越好啊。那对于re任务呢，也可以开启一个推测执行，如果说在我们任务执行过程当中，有一个任务很慢，那我们将会给他另外起一个任务。
04:24
对吧，那如果这个任务先走了，那以前老的任务呢，我们就给他干掉就好了，是类似于这样的一个内容，好，这是我们map和reduce阶段的一个优。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Hive 3.x高级进阶

（14/42）

5分42秒

01-尚硅谷-大数据技术之Hive-课程总体介绍

420

4分43秒

02-尚硅谷-大数据技术之Hive-调优（课程介绍）

380

10分29秒

03-尚硅谷-大数据技术之Hive-调优（执行计划）

400

6分36秒

04-尚硅谷-大数据技术之Hive-调优（建表优化分区表）

380

1分24秒

05-尚硅谷-大数据技术之Hive-调优（建表优化分桶表）

410

2分20秒

06-尚硅谷-大数据技术之Hive-调优（建表优化文件&压缩格式）

380

6分57秒

07-尚硅谷-大数据技术之Hive-调优（HQL优化单表查询优化1-5）

400

5分58秒

08-尚硅谷-大数据技术之Hive-调优（HQL优化多表查询优化6-7）

330

8分7秒

09-尚硅谷-大数据技术之Hive-调优（HQL优化多表查询优化8）

280

9分1秒

10-尚硅谷-大数据技术之Hive-调优（HQL优化多表查询优化9 大表JOIN大表）

420

52秒

11-尚硅谷-大数据技术之Hive-调优（HQL优化多表查询优化10 笛卡尔积）

350

7分18秒

12-尚硅谷-大数据技术之Hive-调优（单表数据倾斜）

320

1分17秒

13-尚硅谷-大数据技术之Hive-调优（多表数据倾斜）

360

4分33秒

14-尚硅谷-大数据技术之Hive-调优（Job优化 Map&Reduce）

340

6分30秒

15-尚硅谷-大数据技术之Hive-调优（Job优化其他方式）

350

3分43秒

16-尚硅谷-大数据技术之Hive-调优（Hive On Spark）

370

4分53秒

17-尚硅谷-大数据技术之Hive-源码-课程介绍

470

10分12秒

18-尚硅谷-大数据技术之Hive-源码-核心组件回顾&HQL翻译MR流程介绍

360

9分15秒

19-尚硅谷-大数据技术之Hive-源码-源码流程整体介绍

270

4分52秒

20-尚硅谷-大数据技术之Hive-源码-源码阅读（准备工作）

350

12分56秒

21-尚硅谷-大数据技术之Hive-源码-源码阅读（入口程序）

370

8分32秒

22-尚硅谷-大数据技术之Hive-源码-源码阅读（读取HQL语句分类解析）

280

4分42秒

23-尚硅谷-大数据技术之Hive-源码-源码阅读（控制台打印信息介绍）

400

7分46秒

24-尚硅谷-大数据技术之Hive-源码-源码阅读（进入编译HQL代码）

360

4分24秒

25-尚硅谷-大数据技术之Hive-源码-源码阅读（读取HQL语句小总结）

390

3分50秒

26-尚硅谷-大数据技术之Hive-源码-源码阅读（四大组件作用区域介绍）

300

8分1秒

27-尚硅谷-大数据技术之Hive-源码-源码阅读（解析器工作完成AST）

300

9分3秒

28-尚硅谷-大数据技术之Hive-源码-源码阅读（对AST加工源码流程）

320

5分49秒

28.尚硅谷_Hive-源码-源码阅读（对AST加工源码流程 1）

400

3分55秒

29-尚硅谷-大数据技术之Hive-源码-源码阅读（对AST加工小总结）

360

7分40秒

30-尚硅谷-大数据技术之Hive-源码-源码阅读（任务提交流程）

390

3分3秒

31-尚硅谷-大数据技术之Hive-源码-源码阅读（源码流程小总结）

380

13分11秒

32-尚硅谷-大数据技术之Hive-源码-源码阅读（Hive Debug模式）

400

4分33秒

33-尚硅谷-大数据技术之Hive-面试题（课程介绍）

380

15分12秒

34-尚硅谷-大数据技术之Hive-面试题（题1）

450

10分27秒

35-尚硅谷-大数据技术之Hive-面试题（题2 思路分析）

370

8分3秒

36-尚硅谷-大数据技术之Hive-面试题（题2 HQL实现）

350

8分33秒

37-尚硅谷-大数据技术之Hive-面试题（题3 思路一思路分析）

330

6分4秒

38-尚硅谷-大数据技术之Hive-面试题（题3 思路二思路分析）

360

13分18秒

39-尚硅谷-大数据技术之Hive-面试题（题4 思路分析）

400

3分51秒

40-尚硅谷-大数据技术之Hive-面试题（题4 HQL实现）

370

13分0秒

41-尚硅谷-大数据技术之Hive-面试题（题5 思路分析&HQL实现

460

14-尚硅谷-大数据技术之Hive-调优（Job优化 Map&Reduce）

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐