文章/答案/技术大牛

发布

首页视频51_尚硅谷_Hive排序_DistributeBy.avi

51_尚硅谷_Hive排序_DistributeBy.avi原创

2023-01-072023-01-07 00:35:12播放380

点赞0 收藏 0

尚硅谷大数据学科全套教程（总185.88GB）/尚硅谷大数学科--选学技术丰富/尚硅谷大数据之Hive视频/4.视频.zip/4.视频/51_尚硅谷_Hive排序_DistributeBy.avi

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
我们再来看一个排序啊，他是第的。啊，Ribu又多了一个什么是吧，然后这个ribu它是什么意思呢？它类似于MR当中的一个。分区。又出现了又又又什么分区是吧？哎，它其实类似于当中的分区，也就是最终啊，它产生多个文件。就是你二当中你的分区字段跟你的排序字段可以是可以不是一个吧。可以吧，也可以是同一个了。是不是啊？一定要清楚啊，一定要清楚啊，我感觉怎么有点迷糊呢，他二当中你的分区字段和排序字段同一个或者不是同一个都可以吧，哎，它这个汉当中也一样的，因为它这个区别啊，它就类似于当中那个part。
01:04
类似于阿玛。那个帕。它这它一般啊，会跟这个缩半语句连起来用，而且在缩半之前，也就是说它在对于每一个分区当中进行排序吧。啊，进行排序，就最终的输出的结果跟你他妈是类似的，跟你妈是一样的，那我们来看一下啊，这样我们来举个例子，还是同样的。将它写入到一个本地的一个文件，我们叫。T吧，这的啊，写到这个文件夹下，然后我们查询的东西呢，也是这个。但是此时我们要改变一下，我们要让按照部门分区，我们不是emb那张表里边有十号部门，20号30号部门，对吧？也就是说我们想把这三个部门的数据啊，写到三个不同的文件里边，然后每一个文件里边呢，它这个数据的排序是按照薪水排序的，可以吧，需求懂吗？
02:07
OK，那这个是的T。你去为了卖，我们是要按什么分去啊？部门号码d number。然后按照。说，然后按照薪水进行排序啊，我们写到这个distribute这个result这个文件夹里面，那最终。会什么样的？首先看它的一个reduce的一个。等会我们再把那个个数改为负一，再看一下这个语法对吧。按理来说他应该是什么样的，如果你改成负一了。
03:02
首先首先我们看一下这个结果，好吧，现在就是我们正好设置的个数呢，就是的个数和分区的个数是不是一样的呀。来呃，还下这个区的，看他有三个区吧，然后我们看一下每个区里边是不是我们所要的，第一个区里边是30号。第二个趋势。然后他是十号，然后最后一个分区是20号，20号说明他这几个区啊。是不同的部门都放在一个区里边的吧，哎，这是没有问题的，这是没有问题的。接下来我们要测的一个问题是，如果说我们把它的一个。分区个数改为负一。再执行这个语法，它会怎么样呢？
04:01
是不是那。点job.reduce s等于负一，我们改回去吧，你可以改完之后你查一下，确确实实改成了负一，改成负一之后。我们考虑这样把刚才的语法。可以吧，其实你不改也无所谓了，为什么？因为是的吧，覆盖是不是覆盖。然后下一行是查询语句。还是这个长句，语句还不变啊，我们来看一下它在默认这个负一的时候。会是什么一个情况？他只有一个了吧，哎，只有一个了，这个跟我们学mmr的时候是不是一样的呀。妈的时候，哎，你自定义分区的时候，自定义分区是不是写了有几个分区号啊，什么01234啊五二，然后最后如果说你reduce个数不设，或者或者说你设置为一个，最终输出的结果是一个吧，一个，而且两个最后要相等的。
05:21
要相等吧，如果不等会产生什么情况？有两种情况呢？如果说reduce的一个个数大。的个数大会产生什么情况，有空文件是吧，如果说分区的个数大呢，报错了，报错这你要注的，而且还有一个什么情况，如果说相等。假如说你分区的个数写的是四个，然后你的reduce是四个，但是你的分区号是怎么写的，你分区号写的是1234。那会怎么样？你们没有测这种情况吗？就是你是四个分区，你分区最后不是自定义方法该了partition那个方法里边返回的不是分区号吗？是不是啊，返回的是分区号啊，你注意啊，如果说你返回的分区号那个不是你自己写的吗？你要想返回1234或者零一二三都可以吧，如果你返回的是1234，但是你最后reduce个数是四个。
06:23
你们没有说这种情况是吧？这个也会报错。也会报错，报什么错呢，这个分区找不到，就是跟你就是之前所说的跟这个。二是一样的，懂我的意思吧，就是你前面是四个，然后reduce设置的两个。不是报有的分区找不到吗？数据不合法还记得吗？那个错是不是。对吧，这种情况你的分数号人要三四，但是你的六的个数呢。也是四个，但是它还是会有一个分区为非法，就这个。
07:03
因为你最终按照这个输出的，它是拿到各来形成最后的输出文件嘛，输出文件的名字是不是output方来决定的呀，它形成的文件的名字叫00000，然后杠零杠一杠二杠三，它是这四个东西，然后你的分区号呢，它是根据这个一来找这个一，然后二找这个二，最后四找到。他也会报错。他也会报错，所以说这就要求我们啊，你自己写MR的时候，你要用到自定义分区的时候，你这个分区号从零开始，从零开始，而且是1234这种递增的，你不要中间跳着任性是吧，0235不要这样，不要这样，好吧，这块提出大家注意一下，你们可以下去测一下，测一下就是你的分区号，你注意这个前面是分区号，后面reduce决定的是文件的个数，以及最后那个尾号，他这两个尾号要对应起来，他才能处理它的数据，懂我的意思吧，如果说你现在写的这种1234，最后是四个，不好意思，他也会找不到，也会找不到。
08:13
这是我们所讲的啊，其实你看你从这一点就完全能看出来什么。这个distribute by是不是跟partition是一样的呀？是一样的吧，只不过它采用的是什么哈西含吸，那你含吸之后你就能看出来它为什么零号分区是30，为什么。一。除以三零吧，这个三等家一吧，这个三呢，这个看。是不是分区号跟最终的输出文件那个ID号是一样的呀，一定是一样的啊，这样一看就知道，那有的同学可能想到为什么刚开始就是刚看这个文件的时候想不明白，为什么第一个是30对吧，那我们理解应该是十二十三十是吧？哎，其实它也是除以那个分之号。
09:05
除以分区的个数来得到它分区号的，来得到分区号的是这样的，这是第区的呗，第的呗。通常他是一般都是跟这个说在一块用的，在一块用的，因为你在处理这种数据的时候，一般都会想着把这个数据排个序，排个序。如果说我们不加速呢。我们还是把这个属性给改回去啊。大家应该知道是什么情况了。就是我们最后不加这个。我们还是把它改成三，要不然你就一个也没有什么意义是吧，改成三，然后呢，最后如果说不加说了会什么情况，就最终这个数据。这一个文件里面还是这些数据，但是你会看到它并不是按照这个。
10:06
它它的顺序是什么顺序呢？就是你原本读进来的顺序吧，你原始的数据存的是什么顺序，他给你存什么顺序吧，还是这样子的，但是通常都会跟这个so back连在一块用的，连在一块用的啊，排个序啊，局部内部有序啊，So back本身就是一个reduce，内部有序嘛，啊你败了以后。它是不是针对一些不同的reducer来处理的呀，哎，它让它局部有序。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据之Hive视频/4.视频.zip/4.视频

（55/103）

3分37秒

01_尚硅谷_Hive入门_课程介绍.avi

3220

16分38秒

02_尚硅谷_Hive入门_是什么.avi

3760

7分51秒

03_尚硅谷_Hive入门_优缺点.avi

3531

8分24秒

04_尚硅谷_Hive入门_架构.avi

3450

9分7秒

05_尚硅谷_Hive入门_与数据库比较.avi

3570

21分10秒

06_尚硅谷_Hive安装_安装与配置.avi

3710

6分41秒

07_尚硅谷_Hive安装_启动.avi

3500

8分16秒

08_尚硅谷_Hive安装_加载本地数据到Hive表.avi

3610

16分57秒

09_尚硅谷_Hive安装_MySQL服务.avi

3600

5分20秒

100_尚硅谷_谷粒影音_需求（五）.avi

3500

12分3秒

101_尚硅谷_谷粒影音_需求（六）.avi

3440

3分55秒

102_尚硅谷_谷粒影音_需求（七）.avi

3470

10分31秒

103_尚硅谷_Hive_总结.avi

3750

4分46秒

10_尚硅谷_Hive安装_配置MySQL无主机登录.avi

3430

8分55秒

11_尚硅谷_Hive安装_配置MetaStore到MySQL.avi

3570

12分44秒

12_尚硅谷_Hive安装_中常用的交互命令.avi

3640

4分6秒

13_尚硅谷_Hive安装_其他操作命令.avi

3670

11分22秒

14_尚硅谷_Hive安装_常见属性配置.avi

3750

4分19秒

15_尚硅谷_Hive安装_参数配置方式.avi

3400

3分24秒

16_尚硅谷_Hive安装_基本数据类型.avi

3680

15分29秒

17_尚硅谷_Hive安装_复杂数据类型.avi

3670

2分59秒

18_尚硅谷_Hive安装_类型转化.avi

3690

6分6秒

19_尚硅谷_Hive数据定义_创建数据库.avi

3650

6分26秒

20_尚硅谷_Hive数据定义_数据库查询.avi

3600

2分56秒

21_尚硅谷_Hive数据定义_数据库修改.avi

3690

2分16秒

22_尚硅谷_Hive数据定义_数据库删除.avi

3460

12分21秒

23_尚硅谷_Hive数据定义_创建表的语法.avi

3640

21分11秒

24_尚硅谷_Hive数据定义_回顾.avi

3740

6分22秒

25_尚硅谷_Hive数据定义_HiveServer2.avi

3490

10分57秒

26_尚硅谷_Hive数据定义_内部表.avi

3810

9分46秒

27_尚硅谷_Hive数据定义_外部表.avi

3770

7分29秒

28_尚硅谷_Hive数据定义_内外部表转换.avi

3390

18分19秒

29_尚硅谷_Hive数据定义_分区表基本操作.avi

3660

6分16秒

30_尚硅谷_Hive数据定义_二级分区.avi

3320

9分0秒

31_尚硅谷_Hive数据定义_分区表与数据关联的三种方式.avi

3740

10分10秒

32_尚硅谷_Hive数据定义_修改表.avi

3660

8分57秒

33_尚硅谷_Hive数据操作_Load方式加载数据.avi

3540

6分26秒

34_尚硅谷_Hive数据操作_Insert方式加载数据.avi

3790

5分59秒

35_尚硅谷_Hive数据操作_Location方式加载数据.avi

3660

3分32秒

36_尚硅谷_Hive数据操作_Import方式导入数据失败.avi

3430

6分47秒

37_尚硅谷_Hive数据操作_Insert导出数据.avi

3530

5分12秒

38_尚硅谷_Hive数据操作_导出数据的其他方式&Import导入数据成功.avi

3560

2分32秒

39_尚硅谷_Hive数据操作_清空表数据.avi

3540

5分18秒

40_尚硅谷_Hive数据操作_元数据信息.avi

3540

7分4秒

41_尚硅谷_Hive查询_基本查询.avi

3390

5分27秒

42_尚硅谷_Hive查询_常用的基本函数.avi

3780

9分56秒

43_尚硅谷_Hive查询_Where子句查询.avi

3550

3分11秒

44_尚硅谷_Hive查询_逻辑运算符.avi

3700

6分29秒

45_尚硅谷_Hive查询_GroupBy & Having.avi

3470

14分37秒

46_尚硅谷_Hive查询_Join操作.avi

3590

25分30秒

47_尚硅谷_Hive查询_回顾（一）.avi

3380

12分32秒

48_尚硅谷_Hive查询_回顾（二）.avi

3320

4分43秒

49_尚硅谷_Hive排序_OrderBy.avi

3570

10分38秒

50_尚硅谷_Hive排序_SortBy.avi

3690

10分34秒

51_尚硅谷_Hive排序_DistributeBy.avi

3800

7分22秒

52_尚硅谷_Hive排序_ClusterBy.avi

3580

9分16秒

53_尚硅谷_Hive排序_总结.avi

3430

16分28秒

54_尚硅谷_Hive分桶_表创建.avi

3480

9分17秒

55_尚硅谷_Hive分桶_抽样查询.avi

3330

5分9秒

56_尚硅谷_Hive高级_给NULL赋值.avi

3730

12分14秒

57_尚硅谷_Hive高级_CaseWhen.avi

3490

25分27秒

58_尚硅谷_Hive高级_行转列.avi

3420

12分21秒

59_尚硅谷_Hive高级_列转行.avi

3660

16分2秒

60_尚硅谷_Hive高级_窗口函数需求（一）.avi

3670

10分40秒

61_尚硅谷_Hive高级_窗口函数需求（二）.avi

3520

17分12秒

62_尚硅谷_Hive高级_窗口函数需求（三）.avi

3570

10分43秒

63_尚硅谷_Hive高级_窗口函数需求（四）.avi

3550

7分58秒

64_尚硅谷_Hive高级_窗口函数需求（五）.avi

3540

23分15秒

65_尚硅谷_Hive高级_回顾.avi

3440

16分28秒

66_尚硅谷_Hive高级_窗口函数回顾.avi

3410

15分23秒

67_尚硅谷_Hive高级_Rank.avi

3440

8分3秒

68_尚硅谷_Hive高级_函数介绍.avi

3620

6分35秒

69_尚硅谷_Hive高级_自定义函数.avi

3300

21分28秒

70_尚硅谷_Hive高级_压缩.avi

3470

11分53秒

71_尚硅谷_Hive高级_存储格式介绍.avi

3590

12分21秒

72_尚硅谷_Hive高级_存储格式比较.avi

3600

5分24秒

73_尚硅谷_Hive高级_存储与压缩结合.avi

3520

3分48秒

74_尚硅谷_Hive优化_Fetch抓取.avi

3730

2分16秒

75_尚硅谷_Hive优化_本地模式.avi

3220

9分45秒

76_尚硅谷_Hive优化_小表Join大表.avi

3720

14分2秒

77_尚硅谷_Hive优化_空key处理.avi

3460

4分16秒

78_尚硅谷_Hive优化_MapJoin.avi

3610

6分27秒

79_尚硅谷_Hive优化_GroupBy.avi

3510

8分13秒

80_尚硅谷_Hive优化_去重统计.avi

3770

7分57秒

81_尚硅谷_Hive优化_行列过滤.avi

3640

19分20秒

82_尚硅谷_Hive优化_动态分区.avi

3450

34分2秒

83_尚硅谷_Hive优化_回顾.avi

3570

11分39秒

84_尚硅谷_Hive优化_数据倾斜.avi

3470

2分55秒

85_尚硅谷_Hive优化_并行执行.avi

3770

7分33秒

86_尚硅谷_Hive优化_严格模式.avi

3210

2分30秒

87_尚硅谷_Hive优化_JVM重用.avi

3710

2分48秒

88_尚硅谷_Hive优化_推测执行&压缩.avi

3420

3分0秒

89_尚硅谷_Hive优化_Explain.avi

3660

11分40秒

90_尚硅谷_谷粒影音_需求分析.avi

3440

6分44秒

91_尚硅谷_谷粒影音_Mapper.avi

3450

17分53秒

92_尚硅谷_谷粒影音_ETLUtil.avi

3620

11分17秒

93_尚硅谷_谷粒影音_Driver.avi

3560

5分22秒

94_尚硅谷_谷粒影音_清洗数据.avi

3370

8分48秒

95_尚硅谷_谷粒影音_建表&导入数据.avi

3670

100

9分0秒

96_尚硅谷_谷粒影音_需求（一）.avi

3840

101

9分17秒

97_尚硅谷_谷粒影音_需求（二）.avi

3470

102

16分36秒

98_尚硅谷_谷粒影音_需求（三）.avi

3640

103

21分33秒

99_尚硅谷_谷粒影音_需求（四）.avi

3740

51_尚硅谷_Hive排序_DistributeBy.avi原创

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐