文章/答案/技术大牛

发布

首页视频53_尚硅谷_Hive排序_总结.avi

53_尚硅谷_Hive排序_总结.avi原创

2023-01-072023-01-07 00:35:12播放343

点赞0 收藏 0

尚硅谷大数据学科全套教程（总185.88GB）/尚硅谷大数学科--选学技术丰富/尚硅谷大数据之Hive视频/4.视频.zip/4.视频/53_尚硅谷_Hive排序_总结.avi

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，那我们需要对这几个东西做一个总结。啊，做一个总结，奥特曼说，特曼，现在我们学的四个了吧，就是查询语句当中，这个都是select，后面跟的语句是不是。Partition的BY是介表语句里面的吗？查询语句里面有order by so by，然后disribu和class by，那我们知道这个order by它是一个全局排序，然后就是你的执行语句啊，只会有一个云流色法，不管你云流色你自己有没有手动设置值，它都会这一个吧，啊我们都演示了，因为它就是全局排序，它产生一个逻接字，好第二个所的们。它是每个reducer内部是有序的是不是啊，内部有序的，而且还分成了三个不同的区啊，也就是说最终输出的文件有三个，这三个当然是你手动的设置的语宙速的一个个数，这个东西来了吧。好，然后后面我们讲的这个distribute。啊，它是一个分区，指定分区字段，它会按照你字段啊，然后我也。
01:07
维的个数吧，然后决定它去到哪个区里面，根据它模的反馈值是零是一是二，然后决定到把这个数据放到哪个文件里面嘛，是这样的，然后最后class by，其实是这两个的综合。那学到这块，大家应该有一个疑问。什么疑问呢？我这个class或者说distribute加上so，我都指定了它的一个什么分区字段，是不是啊，因为class它直接就是等于是是两个是一样的，哎，Tri by和so by姿态是一样的，都指明了分区姿态，那最后呢，我们看到结果也是一样，也是这种情况，哎，它是按照我们指定的字段就能放到不同的文件的。但是有一个奇怪的点在这。CD到说了这个文件，这个文件还记得当时我们是怎么出来的吗？只用了说德半是不是啊，只用了唆了半，那而且我们讲过唆德半它是排序是不是啊，它每个维究色内部排序，那它为什么好好的分区了呀，分成了三个文件，指定了默认了三个那。
02:25
它这个文件啊，里面具体的文件是按什么内容来进到不同的区的呢？大家有没有想过这个问题啊。Key的含蓄，它key是什么呢？他K是什么呢？是后面我们的那个说的半那个字段吗，是吗。那我们看一下，如果是的话，看了一下那个。把这个拿出来是吧，放到文件里面，我们来看一下。
03:01
你们开始。听这块内容的时候没有没有这个疑问。然后我们把第二个。就是一这个文件啊，第二个分区拿过来。然后放到这中间有个空格是吧，然后把第三个内容也拿过来。这里边就是两行数据了吧。好，它是这样的，那我们知道其实是。它那个数据是这样的吗。八百五三千五千，然后950，因为有的同学说是按照什么K是吧，二百五一千三，因为我们中间没有加那个空格是吧，八这样的，我把那个隔开的话，就是为了拿这个薪水，单独的把薪水拿出来是吧。
04:04
那你一看啊，最后你会分析得出，它并不是按照什么薪水，因为你看一千二百五看到没。如果说你是按照最后那个cel那个字段来的话，那你这个一千二百五们不管在哪个区，那肯定在同一个区吧。对吧，同一个区它不对的啊，其实是什么呢？在这来看一下第区的这个是不是做相应的解释啊，这四个是吧，说all class distribute解释啊，点开来在这个地方，然后他想什么。和的不同点。啊，但是你要往下看，在这他还讲了一个，这是一个笔记吧，做了一个笔记，他说什么。这是什么的不同点啊？
05:00
So和class的不同点，那么其实我们知道它俩之间的不同点。就在distribu by嘛，他多了一个disribu by，是不是啊，他少了disribu by，但是他们执行的结果啊，都分区了，就好像他也有区一样，只不过我们现在还不知道这个Dis区它的字段具体是什么，对不对啊，好，我们要找出来它的字段是什么，来看一下他说这个不同之处啊在于什么？Class它的一个分区其实是。说的慢，直接的分区吧，他两个是一样的，能感觉到吧。这句话表明了什么意思啊，就是class by等于disput distribute by一个字段加so by一个字段是这个意思吗？因为他说他这个字段其实跟那个说半是一样的嘛。啊，如果它这有多个云丢子的话。有多个，因为我们之前试了，如果你把它改为负一，就是用一个，或者说改为一的话，改为一的话，它并没有产生分区吧，啊，所以说这个多个reducer是前提啊，它必须要有多个reducer，它才能产生多个分区啊，这是拉，然后接着看。
06:13
他说什么，他的一个partition是怎么来的呀，随机为了什么啊，In order to。为了分散数据吧，哎，其实它这里的文群它并没有指定什么K的，它就是随机的，因为你自己都没有指定分区字段。它内部他也不会帮你指定，它只是为了让多个reducer处理的数据相对来说均衡一点啊，他自己做了一个随机，但这个随机其实是一个尾随机，是什么意思呢？就是说你每次执行这个速特卖，对于同一个数据集来说，它的结果都是这样的。都是这样的啊，就是它这个随机是一个具体的随机算法啊，具体的一个随机算法，不是说他进来之后随机选选一个区，不是这样的随机啊，如果是我刚才说真的是完全的随机的话，那你每次执行的结果是不是应该不一样的，对吧？但是其实它是一样的，也就是说它这个算法是固定的，它针对于同一个数据集来说，你每次用单独用缩的麦这个字段的时候，它都是一样的啊，因为你没有指定它按什么字段进行分区，所以他也不给你按什么字段进行分区了。
07:30
因为我们知道，如果说你按具体的字段进行分析的话，它可能会产生什么。数据倾斜吧，是不是就是说如你本来说的慢，你不想按什么字段分区的，但是如果说还有这个框架给你非得说按一个字段分区。那很有可能，就像有的同学所说的，他因为认为缩了半后面就是一个字段，跟着cell，就按cell进进行分区吧。进行分区，那有可能这个cell之后，可能把数据全部集中到一个分区里面，是不是有这种可能啊，有吧，哎，他框架才不帮你干这种事呢啊，这种的东西容易产生数据倾斜，所以他就是为了。
08:12
分散，哎为了分散数据用的啊，你看他为了就是T区的哎，把数据分散开嘛，就是为了分散数据用的，没有什么其他的一个特别的支数。啊，他肯定，而且你仔细想一想，你也能想明白，说的卖后面的字段肯定不是他分区字段。如果是他分期自段，那它跟什么重了呀。跟class是不是一样的呀，因为class后面跟着就是分期字带跟排序字段呀，那你说又是分期字段，那那他要搞这些东西干嘛呢，对吧，所以稍微想一想就能想明白，所后面字段肯定不是当地的分区增，而且通过我们查官网上些信息能找到了，哎，它其实就是为了分散数据到不同的re做一个数据均衡用的，防止数据倾斜。它是做一个随机啊，随机的这是速派和就之间的它一个区别啊，也就是速德半它的用，因为你们在学的过程当中，肯定有人有疑问啊，它分的区到底是按什么分的，按什么分的。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据之Hive视频/4.视频.zip/4.视频

（57/103）

3分37秒

01_尚硅谷_Hive入门_课程介绍.avi

3220

16分38秒

02_尚硅谷_Hive入门_是什么.avi

3760

7分51秒

03_尚硅谷_Hive入门_优缺点.avi

3531

8分24秒

04_尚硅谷_Hive入门_架构.avi

3450

9分7秒

05_尚硅谷_Hive入门_与数据库比较.avi

3570

21分10秒

06_尚硅谷_Hive安装_安装与配置.avi

3710

6分41秒

07_尚硅谷_Hive安装_启动.avi

3500

8分16秒

08_尚硅谷_Hive安装_加载本地数据到Hive表.avi

3610

16分57秒

09_尚硅谷_Hive安装_MySQL服务.avi

3600

5分20秒

100_尚硅谷_谷粒影音_需求（五）.avi

3500

12分3秒

101_尚硅谷_谷粒影音_需求（六）.avi

3440

3分55秒

102_尚硅谷_谷粒影音_需求（七）.avi

3470

10分31秒

103_尚硅谷_Hive_总结.avi

3750

4分46秒

10_尚硅谷_Hive安装_配置MySQL无主机登录.avi

3430

8分55秒

11_尚硅谷_Hive安装_配置MetaStore到MySQL.avi

3570

12分44秒

12_尚硅谷_Hive安装_中常用的交互命令.avi

3640

4分6秒

13_尚硅谷_Hive安装_其他操作命令.avi

3670

11分22秒

14_尚硅谷_Hive安装_常见属性配置.avi

3750

4分19秒

15_尚硅谷_Hive安装_参数配置方式.avi

3400

3分24秒

16_尚硅谷_Hive安装_基本数据类型.avi

3680

15分29秒

17_尚硅谷_Hive安装_复杂数据类型.avi

3670

2分59秒

18_尚硅谷_Hive安装_类型转化.avi

3690

6分6秒

19_尚硅谷_Hive数据定义_创建数据库.avi

3650

6分26秒

20_尚硅谷_Hive数据定义_数据库查询.avi

3600

2分56秒

21_尚硅谷_Hive数据定义_数据库修改.avi

3690

2分16秒

22_尚硅谷_Hive数据定义_数据库删除.avi

3460

12分21秒

23_尚硅谷_Hive数据定义_创建表的语法.avi

3640

21分11秒

24_尚硅谷_Hive数据定义_回顾.avi

3740

6分22秒

25_尚硅谷_Hive数据定义_HiveServer2.avi

3490

10分57秒

26_尚硅谷_Hive数据定义_内部表.avi

3810

9分46秒

27_尚硅谷_Hive数据定义_外部表.avi

3770

7分29秒

28_尚硅谷_Hive数据定义_内外部表转换.avi

3390

18分19秒

29_尚硅谷_Hive数据定义_分区表基本操作.avi

3660

6分16秒

30_尚硅谷_Hive数据定义_二级分区.avi

3320

9分0秒

31_尚硅谷_Hive数据定义_分区表与数据关联的三种方式.avi

3740

10分10秒

32_尚硅谷_Hive数据定义_修改表.avi

3660

8分57秒

33_尚硅谷_Hive数据操作_Load方式加载数据.avi

3540

6分26秒

34_尚硅谷_Hive数据操作_Insert方式加载数据.avi

3790

5分59秒

35_尚硅谷_Hive数据操作_Location方式加载数据.avi

3660

3分32秒

36_尚硅谷_Hive数据操作_Import方式导入数据失败.avi

3430

6分47秒

37_尚硅谷_Hive数据操作_Insert导出数据.avi

3530

5分12秒

38_尚硅谷_Hive数据操作_导出数据的其他方式&Import导入数据成功.avi

3560

2分32秒

39_尚硅谷_Hive数据操作_清空表数据.avi

3540

5分18秒

40_尚硅谷_Hive数据操作_元数据信息.avi

3540

7分4秒

41_尚硅谷_Hive查询_基本查询.avi

3390

5分27秒

42_尚硅谷_Hive查询_常用的基本函数.avi

3780

9分56秒

43_尚硅谷_Hive查询_Where子句查询.avi

3550

3分11秒

44_尚硅谷_Hive查询_逻辑运算符.avi

3700

6分29秒

45_尚硅谷_Hive查询_GroupBy & Having.avi

3470

14分37秒

46_尚硅谷_Hive查询_Join操作.avi

3590

25分30秒

47_尚硅谷_Hive查询_回顾（一）.avi

3380

12分32秒

48_尚硅谷_Hive查询_回顾（二）.avi

3320

4分43秒

49_尚硅谷_Hive排序_OrderBy.avi

3570

10分38秒

50_尚硅谷_Hive排序_SortBy.avi

3690

10分34秒

51_尚硅谷_Hive排序_DistributeBy.avi

3800

7分22秒

52_尚硅谷_Hive排序_ClusterBy.avi

3580

9分16秒

53_尚硅谷_Hive排序_总结.avi

3430

16分28秒

54_尚硅谷_Hive分桶_表创建.avi

3480

9分17秒

55_尚硅谷_Hive分桶_抽样查询.avi

3330

5分9秒

56_尚硅谷_Hive高级_给NULL赋值.avi

3730

12分14秒

57_尚硅谷_Hive高级_CaseWhen.avi

3490

25分27秒

58_尚硅谷_Hive高级_行转列.avi

3420

12分21秒

59_尚硅谷_Hive高级_列转行.avi

3660

16分2秒

60_尚硅谷_Hive高级_窗口函数需求（一）.avi

3670

10分40秒

61_尚硅谷_Hive高级_窗口函数需求（二）.avi

3520

17分12秒

62_尚硅谷_Hive高级_窗口函数需求（三）.avi

3570

10分43秒

63_尚硅谷_Hive高级_窗口函数需求（四）.avi

3550

7分58秒

64_尚硅谷_Hive高级_窗口函数需求（五）.avi

3540

23分15秒

65_尚硅谷_Hive高级_回顾.avi

3440

16分28秒

66_尚硅谷_Hive高级_窗口函数回顾.avi

3410

15分23秒

67_尚硅谷_Hive高级_Rank.avi

3440

8分3秒

68_尚硅谷_Hive高级_函数介绍.avi

3620

6分35秒

69_尚硅谷_Hive高级_自定义函数.avi

3300

21分28秒

70_尚硅谷_Hive高级_压缩.avi

3470

11分53秒

71_尚硅谷_Hive高级_存储格式介绍.avi

3590

12分21秒

72_尚硅谷_Hive高级_存储格式比较.avi

3600

5分24秒

73_尚硅谷_Hive高级_存储与压缩结合.avi

3520

3分48秒

74_尚硅谷_Hive优化_Fetch抓取.avi

3730

2分16秒

75_尚硅谷_Hive优化_本地模式.avi

3220

9分45秒

76_尚硅谷_Hive优化_小表Join大表.avi

3720

14分2秒

77_尚硅谷_Hive优化_空key处理.avi

3460

4分16秒

78_尚硅谷_Hive优化_MapJoin.avi

3610

6分27秒

79_尚硅谷_Hive优化_GroupBy.avi

3510

8分13秒

80_尚硅谷_Hive优化_去重统计.avi

3770

7分57秒

81_尚硅谷_Hive优化_行列过滤.avi

3640

19分20秒

82_尚硅谷_Hive优化_动态分区.avi

3450

34分2秒

83_尚硅谷_Hive优化_回顾.avi

3570

11分39秒

84_尚硅谷_Hive优化_数据倾斜.avi

3470

2分55秒

85_尚硅谷_Hive优化_并行执行.avi

3770

7分33秒

86_尚硅谷_Hive优化_严格模式.avi

3210

2分30秒

87_尚硅谷_Hive优化_JVM重用.avi

3710

2分48秒

88_尚硅谷_Hive优化_推测执行&压缩.avi

3420

3分0秒

89_尚硅谷_Hive优化_Explain.avi

3660

11分40秒

90_尚硅谷_谷粒影音_需求分析.avi

3440

6分44秒

91_尚硅谷_谷粒影音_Mapper.avi

3450

17分53秒

92_尚硅谷_谷粒影音_ETLUtil.avi

3620

11分17秒

93_尚硅谷_谷粒影音_Driver.avi

3560

5分22秒

94_尚硅谷_谷粒影音_清洗数据.avi

3370

8分48秒

95_尚硅谷_谷粒影音_建表&导入数据.avi

3670

100

9分0秒

96_尚硅谷_谷粒影音_需求（一）.avi

3840

101

9分17秒

97_尚硅谷_谷粒影音_需求（二）.avi

3470

102

16分36秒

98_尚硅谷_谷粒影音_需求（三）.avi

3640

103

21分33秒

99_尚硅谷_谷粒影音_需求（四）.avi

3740

53_尚硅谷_Hive排序_总结.avi原创

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐