文章/答案/技术大牛

发布

首页视频72_尚硅谷_Hive高级_存储格式比较.avi

72_尚硅谷_Hive高级_存储格式比较.avi原创

2023-01-072023-01-07 00:35:12播放360

点赞0 收藏 0

尚硅谷大数据学科全套教程（总185.88GB）/尚硅谷大数学科--选学技术丰富/尚硅谷大数据之Hive视频/4.视频.zip/4.视频/72_尚硅谷_Hive高级_存储格式比较.avi

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，接下来我们对比一下刚才我们所说的这几种存储格式，看它的一个什么存储最后的大小，然后一个查询的一个时间，看有没有什么区别吧，来呃，首先有一个数据，这个数据呢，你就不要从这拿啊，这有的啊，给大家发到这里边。这不有一个资料对吧，资料里面有一个date。对，然后这个拉个点，对，你把这个东西。把他拖到这个集群上就行了，没开。OK，那我们记下号，CD的OBD model号里面多开几个。然后再来一个吧，一般三个是吧，然后奥加PCD的OBD model懂这四等会我们把数据，我们先把数据拖进来吧，对，落点对，OK。
01:01
然后我们连下咱们那个。B。Have so，兔。然后在这CD到OB model好B吧，啊，通过这种方式来连接。感叹号，Connector，然后是JBBC冒号，然后是have to。很好，他都跑1021走他的规模。这样就进来了吧，进来之后现在我们数据也导进来了，现在我们要对这个数据进行建表吧，我们先来看一下这个数据啊，稍微打开一下看有哪些字段是吧，这个数据量还是比较大的。这是一些日志文件，能看出来吧，网站的一些搜索的日志啊，搜索日志，然后有时间有网址等等，然后查询到发现字一个个ID，然后看一下主播，看一下多少条是吧。
02:02
10万条啊，10万条的一个数据，我们拿这10万条来测一下，搞进来，然后见表。见表我就自己在手上了，看一下那个建表语句好吗？啊，在这这相应的里面呢，它一个字段，字段之后，你看我们现在建的是。Text file的，哎，其实你不写这个，这个不要是不是就是text file，哎，那默认的就是那我们显示的指明一下啊，来把这个表现一下C。走一下。接完之后我们把数据导进来吧，漏data。然后是。O BT model。哎，杠小了是吧，Model model然后是四。
03:00
下面的一个log点什么model，这个四，这个四下面L看一下。他那点对是吧，那点data table。是log-TXT啊，不是test这个。表，这个表标志着它是以text文件格式来存储的。走一下。完了。走完了，我们也不能随那个心啊是吧，10万条还是挺恐怖的，应该是导进去了是吧？啊，之前的应该没有问题，或者这样我们再不从这来看一下也可以吧。看有没有那个文件有没有上传上来对不对。然后。刷新项是这个吧，哎，这个我们刚建的表点进来上来了吧，18兆是吧，原始的18兆，好，接下来我们分别要建一个orc存储的表和一个什么PU的存储的表吧，来一下。
04:13
Orc。这个就是只是这个地方做了改变，看见了吗？其他东西都不变啊，什么东西都不变。OC的表已经建完了，那这个时候你往OC表里面放数据的时候，你能不能用漏的呀。如果你说你用的。存储的格式还是text吧，因为的命令其实是put上去的，还记得吧，你你漏的数据，你看它是把把这个文件直接放进去的。你放进去了肯定是不可能的吧，就跟我们当时建的分图表一样啊。建分总表，你要想分总表生效，除了你那两个属性起作用之外。你还是通过insert查询的这种方式导入的吧，一定要走map任务懂不懂啊啊，一定要走ma任务来看的啊。
05:07
来我们来执行一下啊，你这个时候就不能漏的，你要漏着的话，它还是肯定一样大啊，看完全看不出来效果的。那但是你要是这种方式，其实就是text file这种。你用MA6或者说直接录的都一样吗？因为你用它最后还是看你的文件嘛，CTRLC。走，好，让他走这个memory的一个程序。刚才是这样啊，我们稍微记录几个，这个是18.13是吧，这个是text。它默认了这种18.13这么大小的原始数据啊，这么大。这个是text file放在这啊，18.13，然后这个是orc，等会我们上传完的时候可以看一下它这个大小吧。
06:05
哎，上传完了是吧，来。Log OC。2.78兆2.78。2.782.78兆，接下来我们看一下什么，还有一个的这种文件格式，看它是多大啊，同样的我们建一个它的这个类型的表。等一下诶。杠。成功了吗？这是出现了什么错误？Tables？有了是吧，检成功了，然后我们把数据导进来。同样的，也要。通过这个什么select的这种insert查询方法，让他走MR程序啊才可以，要不然他怎么运用我们那种。
07:03
其他的一个存储格式啊，对吧，走一下。然后我们可以把这个放在这儿等着是吧。P q ET pocket，看它那个大小，最终大小是多大。走完了是吧，看一下啊。搭配的13兆，13兆。13会小一点是吧，会小一点，然后接下来我们看他那个查询速度吧，查询速度啊，它10万条我们select。Count的吧，新就不要不要新了，这新等会填不了了是吧，然后from，然后是log-TST吧，有一个这个表对吧，看他那个执行时间抗的心是不是也会走MR任务啊，看他执行的一个时间走一下。
08:08
其实咱们那个数据量还不够大，10万条真够大，10万条是不够大，真不够大，其实你想想看，你走的是还妈个任务，你他妈的启动时间就会占很长时间了。就是占很多的一个时间了。他这个是多少时间，二十二十万条没问题吧，就数据肯定是对的，都是导进来了，然后22，然后把这个放在这儿，就是这个文本的时代，它是22秒。这个肯定跟每个人的机器也不一样是吧，你就自己跟自己的机器比就行了，你不要跟人家的机器比啊，没有意义是吧。然后是ORC是吧，ORC，求一下它ORC这种它的一个执行时间在多长时间。
09:01
其实咱们用虚拟机玩的数据量还是上不去啊，没办法，虚拟机稍微大一点跑不动。10万条在我们虚拟机来说已经很大了，但是真的你在公司当中10万条都不会，不可能用大数据技术是吧？来。他好像又有一点是吧，还有那个帕的这种，来看一下他的名字就是帕是吧。走下。数据量小的时候。这个MR的一个启动时间就占了很大的一部分。其实这个策略我们看不出来，他们之间太大的一个差别啊，太大一个差别从查询上。
10:03
它跟这个差不多是吧，但是它会稍微优一点，稍微优一点，而且但是你从什么。这个上面一对比你就发现什么，这个就会有很多了，OC这种的一个存储格式有很多的，还有很多的，所以当当中啊，公司当中应用的你知道了，在have当中，如果存储的格式应该用什么，Orc or压缩方式呢？S snapping啊，Snapping肯定是这两个东西结合在一块用的当中，这两个是最常用的，但也不一定就是所不能说所有的公司都这样用，对吧，但是他肯定是最常用的，因为从各个方面，无论从查询啊，还有这个存储的一个空间来说。他相对来说都是很优的很优的，我们之前看我之前测的数据啊。这个大小肯定都一样的啊，大小不能变吧，我们之前说我存起来是是18.1兆，现在变成18兆，这不会啊，因为数据都一样的，所以大小是一样的，然后主要看一下它的一个查询时间是吧。
11:10
在这。差不多差不多，这是做了三次测试。这是分别，这个是第一次，然后这个是OC的第一次，然后是他是吧，都很接近是吧，都他是最优的。然后它会稍微次一点，它其实但是总体来说，他们时间都是干什么都很接近嘛，无论你错了多少次啊，它根据当时的集群的环境啊，或者你跑的一个进程能看出来这几个数字，你看这样，21.08，二十二点六十七，这个你看它稍微高一点了。然后这个21点什么零七啊，就是说他们上下浮动都不大，都很接近的，都很接近，包括我这一次测新测的一个数据是吧，啊也是很接近的，也是很接近的，你们当然你们自己的机器的性能可能有点关系，但是你测出来就是这三个数字，它们三个之间是很接近的吧，查询速度很接近，但是就存储效率方面来说，Orc是很优的。
12:11
OC是很优的，所以在公司当中它应用最广的还有一种OC的一个方式，C的方式。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据之Hive视频/4.视频.zip/4.视频

（76/103）

3分37秒

01_尚硅谷_Hive入门_课程介绍.avi

3220

16分38秒

02_尚硅谷_Hive入门_是什么.avi

3760

7分51秒

03_尚硅谷_Hive入门_优缺点.avi

3531

8分24秒

04_尚硅谷_Hive入门_架构.avi

3450

9分7秒

05_尚硅谷_Hive入门_与数据库比较.avi

3570

21分10秒

06_尚硅谷_Hive安装_安装与配置.avi

3710

6分41秒

07_尚硅谷_Hive安装_启动.avi

3500

8分16秒

08_尚硅谷_Hive安装_加载本地数据到Hive表.avi

3610

16分57秒

09_尚硅谷_Hive安装_MySQL服务.avi

3600

5分20秒

100_尚硅谷_谷粒影音_需求（五）.avi

3500

12分3秒

101_尚硅谷_谷粒影音_需求（六）.avi

3440

3分55秒

102_尚硅谷_谷粒影音_需求（七）.avi

3470

10分31秒

103_尚硅谷_Hive_总结.avi

3750

4分46秒

10_尚硅谷_Hive安装_配置MySQL无主机登录.avi

3430

8分55秒

11_尚硅谷_Hive安装_配置MetaStore到MySQL.avi

3570

12分44秒

12_尚硅谷_Hive安装_中常用的交互命令.avi

3640

4分6秒

13_尚硅谷_Hive安装_其他操作命令.avi

3670

11分22秒

14_尚硅谷_Hive安装_常见属性配置.avi

3750

4分19秒

15_尚硅谷_Hive安装_参数配置方式.avi

3400

3分24秒

16_尚硅谷_Hive安装_基本数据类型.avi

3680

15分29秒

17_尚硅谷_Hive安装_复杂数据类型.avi

3670

2分59秒

18_尚硅谷_Hive安装_类型转化.avi

3690

6分6秒

19_尚硅谷_Hive数据定义_创建数据库.avi

3650

6分26秒

20_尚硅谷_Hive数据定义_数据库查询.avi

3600

2分56秒

21_尚硅谷_Hive数据定义_数据库修改.avi

3690

2分16秒

22_尚硅谷_Hive数据定义_数据库删除.avi

3460

12分21秒

23_尚硅谷_Hive数据定义_创建表的语法.avi

3640

21分11秒

24_尚硅谷_Hive数据定义_回顾.avi

3740

6分22秒

25_尚硅谷_Hive数据定义_HiveServer2.avi

3490

10分57秒

26_尚硅谷_Hive数据定义_内部表.avi

3810

9分46秒

27_尚硅谷_Hive数据定义_外部表.avi

3770

7分29秒

28_尚硅谷_Hive数据定义_内外部表转换.avi

3390

18分19秒

29_尚硅谷_Hive数据定义_分区表基本操作.avi

3660

6分16秒

30_尚硅谷_Hive数据定义_二级分区.avi

3320

9分0秒

31_尚硅谷_Hive数据定义_分区表与数据关联的三种方式.avi

3740

10分10秒

32_尚硅谷_Hive数据定义_修改表.avi

3660

8分57秒

33_尚硅谷_Hive数据操作_Load方式加载数据.avi

3540

6分26秒

34_尚硅谷_Hive数据操作_Insert方式加载数据.avi

3790

5分59秒

35_尚硅谷_Hive数据操作_Location方式加载数据.avi

3660

3分32秒

36_尚硅谷_Hive数据操作_Import方式导入数据失败.avi

3430

6分47秒

37_尚硅谷_Hive数据操作_Insert导出数据.avi

3530

5分12秒

38_尚硅谷_Hive数据操作_导出数据的其他方式&Import导入数据成功.avi

3560

2分32秒

39_尚硅谷_Hive数据操作_清空表数据.avi

3540

5分18秒

40_尚硅谷_Hive数据操作_元数据信息.avi

3540

7分4秒

41_尚硅谷_Hive查询_基本查询.avi

3390

5分27秒

42_尚硅谷_Hive查询_常用的基本函数.avi

3780

9分56秒

43_尚硅谷_Hive查询_Where子句查询.avi

3550

3分11秒

44_尚硅谷_Hive查询_逻辑运算符.avi

3700

6分29秒

45_尚硅谷_Hive查询_GroupBy & Having.avi

3470

14分37秒

46_尚硅谷_Hive查询_Join操作.avi

3590

25分30秒

47_尚硅谷_Hive查询_回顾（一）.avi

3380

12分32秒

48_尚硅谷_Hive查询_回顾（二）.avi

3320

4分43秒

49_尚硅谷_Hive排序_OrderBy.avi

3570

10分38秒

50_尚硅谷_Hive排序_SortBy.avi

3690

10分34秒

51_尚硅谷_Hive排序_DistributeBy.avi

3800

7分22秒

52_尚硅谷_Hive排序_ClusterBy.avi

3580

9分16秒

53_尚硅谷_Hive排序_总结.avi

3430

16分28秒

54_尚硅谷_Hive分桶_表创建.avi

3480

9分17秒

55_尚硅谷_Hive分桶_抽样查询.avi

3330

5分9秒

56_尚硅谷_Hive高级_给NULL赋值.avi

3730

12分14秒

57_尚硅谷_Hive高级_CaseWhen.avi

3490

25分27秒

58_尚硅谷_Hive高级_行转列.avi

3420

12分21秒

59_尚硅谷_Hive高级_列转行.avi

3660

16分2秒

60_尚硅谷_Hive高级_窗口函数需求（一）.avi

3670

10分40秒

61_尚硅谷_Hive高级_窗口函数需求（二）.avi

3520

17分12秒

62_尚硅谷_Hive高级_窗口函数需求（三）.avi

3570

10分43秒

63_尚硅谷_Hive高级_窗口函数需求（四）.avi

3550

7分58秒

64_尚硅谷_Hive高级_窗口函数需求（五）.avi

3540

23分15秒

65_尚硅谷_Hive高级_回顾.avi

3440

16分28秒

66_尚硅谷_Hive高级_窗口函数回顾.avi

3410

15分23秒

67_尚硅谷_Hive高级_Rank.avi

3440

8分3秒

68_尚硅谷_Hive高级_函数介绍.avi

3620

6分35秒

69_尚硅谷_Hive高级_自定义函数.avi

3300

21分28秒

70_尚硅谷_Hive高级_压缩.avi

3470

11分53秒

71_尚硅谷_Hive高级_存储格式介绍.avi

3590

12分21秒

72_尚硅谷_Hive高级_存储格式比较.avi

3600

5分24秒

73_尚硅谷_Hive高级_存储与压缩结合.avi

3520

3分48秒

74_尚硅谷_Hive优化_Fetch抓取.avi

3730

2分16秒

75_尚硅谷_Hive优化_本地模式.avi

3220

9分45秒

76_尚硅谷_Hive优化_小表Join大表.avi

3720

14分2秒

77_尚硅谷_Hive优化_空key处理.avi

3460

4分16秒

78_尚硅谷_Hive优化_MapJoin.avi

3610

6分27秒

79_尚硅谷_Hive优化_GroupBy.avi

3510

8分13秒

80_尚硅谷_Hive优化_去重统计.avi

3770

7分57秒

81_尚硅谷_Hive优化_行列过滤.avi

3640

19分20秒

82_尚硅谷_Hive优化_动态分区.avi

3450

34分2秒

83_尚硅谷_Hive优化_回顾.avi

3570

11分39秒

84_尚硅谷_Hive优化_数据倾斜.avi

3470

2分55秒

85_尚硅谷_Hive优化_并行执行.avi

3770

7分33秒

86_尚硅谷_Hive优化_严格模式.avi

3210

2分30秒

87_尚硅谷_Hive优化_JVM重用.avi

3710

2分48秒

88_尚硅谷_Hive优化_推测执行&压缩.avi

3420

3分0秒

89_尚硅谷_Hive优化_Explain.avi

3660

11分40秒

90_尚硅谷_谷粒影音_需求分析.avi

3440

6分44秒

91_尚硅谷_谷粒影音_Mapper.avi

3450

17分53秒

92_尚硅谷_谷粒影音_ETLUtil.avi

3620

11分17秒

93_尚硅谷_谷粒影音_Driver.avi

3560

5分22秒

94_尚硅谷_谷粒影音_清洗数据.avi

3370

8分48秒

95_尚硅谷_谷粒影音_建表&导入数据.avi

3670

100

9分0秒

96_尚硅谷_谷粒影音_需求（一）.avi

3840

101

9分17秒

97_尚硅谷_谷粒影音_需求（二）.avi

3470

102

16分36秒

98_尚硅谷_谷粒影音_需求（三）.avi

3640

103

21分33秒

99_尚硅谷_谷粒影音_需求（四）.avi

3740

72_尚硅谷_Hive高级_存储格式比较.avi原创

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐