文章/答案/技术大牛

发布

首页视频02_尚硅谷_Hive入门_概念介绍

02_尚硅谷_Hive入门_概念介绍

2022-12-022022-12-02 16:02:30播放34

点赞0 收藏 0

尚硅谷大数学科--选学技术丰富/尚硅谷大数据技术之Hive（2019新版）/视频/02_尚硅谷_Hive入门_概念介绍.avi

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，然后呢，我们来继续来看啊，刚才呢，我们从整体来把握一下，诶，这个汉语当中我们要学什么东西啊什么东西，而且也跟大家强调了一个汉语的一个重要性，其实大家所在我们这边培训当中所学的框架来说，最重要的给大家现在排个序，虽然有的还没学啊，应该最重要的三个都还没学。第一个Spark。重要度最高的排在第一啊，到时候学的时候我们会大量的带大家去看源码啊里面东西。因为面试问。其实源码这东西挺好的，但是呢，其实工作当中有很多时候用不到。但是面试的时候分，那逼着我们不得不讲，对吧，没办法没办法，那我们讲课的就两个。指导王洋，一个面试，一个什么工作开发啊，这两个都面试顾问的开发不用的，我们肯定就不讲啊，或者作为扩展资料提供给大家是可以的啊，但是课堂上肯定就不讲了啊，没有意义啊，没意SPA还是第一的啊，到时候学生要注意第二个就是我们现在学的这个哈。
01:02
Have这个东西啊比较重要，而且呢，那个so呢特别重要，特别重要，然后第三个就是大家要学的那个考考我不知道，就是听说咱咱们班有很多。有开发经验的是吧，那可能卡夫卡的他没用过或者其他的，这个是什么呢？是MQ消息队列啊，做过开发的应该知道，起码消息队列这个东西听过啊，这个东西呢，是非常重要的，非常重要的，而且呢，整个的我们看就是，呃，看官网上的视频浏览量最高的是这个考纲。主要是在于不光是大数据要用。Java也要用。啊，Java也要用，就是如果说Java的学员他回家考视频，他不是想自学大数据的话，他优先考的肯定是要考法啊，公司当中会用的啊，这三个方向呢，是重要的面试还是那个工作当中用的都是最多的。这三个框架，所以给你排个序，到时候你学的时候要注意，当然你学到后面讲这个框架的时候，也会再继续提这个事啊，提这个事OK，呃，这是have，然后呢，我们接下来聊一下这个have到底是干什么事的。
02:08
其实你学任何一个框架都一样，现在呢，咱们只学了两个框架，对吧。一个是哈，一个是。如K宝，一个K宝，那如何把这些框架分类呢？其实很简单，你要搞清楚大数据干了什么事。大数据解决什么事？海量数据的三件事情对吧？第一个传输。海量数据的一个传输问题。我们之前学了HDFS，是不是直接用哈命令传上去的。FS，那你觉得生长环境他会这样干吗？不可能。啊，不可能，OK，这传输我们会有专门的放假去做这事。第二个。还要解决什么问题？海量数据的存储？
03:02
你过来了。我存在哪呢，对吧，我们学的哈，里边SGFS是不是就是存储的。对吧，除了这个之外，还有很多的一个分布是存储系统，还有很多，但目前来说还是ids最主流啊最主流OK，那存储在这数据，你存在这电话对你有用吗。没用吧，对吧，那堆数据对你有用啊，就跟那一瓶毒药放在那儿。对你有影响吗？你又不喝它是不是，那就跟一样的，你这个存储你存在HDFS。你有没用吗？没用，所以更重要的还在于哪呢？处理也好，计算也好，对吧，做这个事，那我们的是不是做的这个事。那那一堆数据你是不是能统计出来什么次皮。那给你一堆日志，你是不是能统计出来，每个人访问当前这个页面访问多少次等等，这些信息是不是能统计到，对吧？啊，那这个分析才是我们最重要的，那你看啊，我们其实任何一个框架呢，甩在这三个里面就行了，如果说甩不进去的，那都是辅助的工具框架，我们后面会有一些一天半天的框架，那都是工具类，会用就行了。在面试过程当中呢，人家会问那个小放假一天半天的问题，他会问他一般的问什么呢？你有没有用过这个工具。
04:22
你用了这个工具干什么用了，就仅限于在这个层面能懂我意思啊，因为它是工具，它不像我们什么哈度啊，那些原理型的东西，你要搞清楚它的一个提交流程啊，什么读写流程啊，没有啊没有，所以工具类的东西呢，一般我们上课时间就是半天这一天。啊，这样我们后面会有这种工具啊，工具来框架，那大部分我们上课时间长了，超过两天呢，肯定能甩在这里的。啊，要不然就是传输存储和计算啊，那我们所学的哈度。它就是存储加计算对吧，ZK呢。ZK呢，它其实不是存储我们大数据内容，但是他其实也是一个存储框架，对吧，而且是帮助我们什么管理集群。
05:12
协调其他的进程之间协同工作的，对吧？啊后面呢，我们还有很多都会依赖于K啊，那它其实也是属于一个协调工具啊，相当于我们的协调工具，那接下来我们要学的这个have。他什么东西呢。它是一个计算引擎，那我们刚才都说了，都写开了是不是。都写克，那你写的搜我们说了，更重要的在于查询嘛，而且呢，你不是简单的C新旧的方式的查询，而是要做sum com等等这些聚合查询，那sum抗是不是做运算。对吧，啊是做预算，还有做top n对吧？啊求前十前三等等这些操作啊都可以啊，排序正序倒序啊等等，它呢是一个计算等等。
06:00
啊，接段框架OK，那整体刚才我们是从整体的几个框架来做一个对比啊，就是后面学每个框架的时候，大家都去这样去操作一下啊，然后接下来。开的概念，第一个由Facebook开源的啊，当然他现在已经交给阿帕奇了，所以它那个官方地址。Have，点阿尔法奇点G对吧？啊，所有阿尔法奇框架就是这样啊，我们会大量的学这个阿尔法奇的框架，那他说了，它用于解决海量结构化日志的一个数据统计。这里面呢，提到三个点，第一个是海量数据，这没问题，因为它本身是属于这种大数据框架，对吧，第二个很重要的点就在于哪结构化数据。结构化数据，所以在汉当中我们能干什么？建表建库。你不是结构化数据，我有的数据第一行两个字段，第二行五个字段，你怎么鉴别？能建吗？建不了吧，啊那个列的不一样啊，建不了，所以呢，它处理的这种结构化数据，然后呢，是做这种数据统计的，也就是数据分析啊，它是一个分析引擎，分析引擎OK，那接下来我来看他说还是基于哈多的一个数据仓库工具。
07:15
数据仓库工具，首先这里面有两个点，第一个是基于哈动。基于哈，也就是说你想能用have的话，我哈杜所有的进程要看，包括DFS和延安。和雅这两个东西要看它是基于的，它依赖于HDFS和雅两套啊，都依赖于好，接下来他说它是一个数据仓库工具。数据仓库工具。那这个怎么来理解这个事情，数据仓库。它是一个仓库。书，而且是存数据的仓库，但是它仅仅是一个工具，这地方呢，体现在两个方面啊，第一方面它可以管理数据，对吧，因为数据仓库嘛，你仓库里面存放的东西。
08:04
是不是有制度的去管理的，对吧，还有专门的仓储人员去管理的，而且呢，它仅仅是一个工具，说明它本身不存数据，而且我们刚才也说了，它是基于好的。啊，他就是提供了一种管理的方式，就相当于是这个意思。啊，后面我们用的时候就能知道，接下来他说可以将结构化的数据呢，映射成一张表，数据存在里面，这DFS没问题，你这个数据呢，如果说你每一行都是四个列，对吧，我就可以把它映射为一张表。因为我提供了这个工具啊，然后呢，提供类circle查询功能，这注意叫类搜，它跟搜很像，但是呢也有区别。也有区别，绝大部分的语法都一样的。啊，绝大部分一样的，那本质上我们来看一下来在这儿。我们写的是circle，但这个circle呢，不是简单的circle，叫类circle，叫have query language。
09:02
叫hi口，Have query query language查询语言，Have的查询语言就是说它会做一些改变，就类似于奥跟MY搜它都是so语法一样吗？有差别吧，很多是一样的，对吧？啊，那have也一样，它有它独特的语法，但大部分什么select新啊，Select some吗？这些东西都一样。啊，什么from Li这些都有啊，基本的语法都一样，但是由于它是处理用大量数据的，海量数据的，所以呢，它会有一些特殊的语法啊，特殊的语法是这意思，然后呢，他将我们写的S呢转换成了map任务。啊，他会做这个事儿，就是那大家想一下这个有什么好处。方便。就是他提供了一个框架来把我们写的搜索翻译成MAP6，当然他不翻译成MAP6，既然他能够用框架来翻译成mmr来把这个任务完成了，那你说我不写，不通过这个，还有这个框架来帮我翻译，我们自己写，那能不能实现是一定可以啊，对吧？框架能干的事你肯定可以啊，你肯定可以，那这个有什么好处呢？
10:20
方便，简单方便，更重要的是减少了开发人员的一个学习成本，他不需要大量的去学习当中核心的一些逻辑，只需要基本的懂一些概念。对吧，但因为就目前来说，公司当中。做大数据的很多都是后台转过去的。后台的那帮人最熟的。就是烧烤。最熟的，因为他要处理业务对吧，他要处理业务，那业务呢，就是用算法来解决的。啊，又搜到大量的搜狗，那所以他这个学习成本就会很低啊，那个框架帮你做的这个事啊，现在有很多框架都是这样的啊，提供搜狗查询，然后底层有很多API，你不需要懂，然后他会教你写的搜索呢，翻译成API去调用啊，也就是说你不用学那个API了。
11:08
啊，你直接写色本来查询就行，那这个点呢，就是我们刚才所说的啊，它方便了我们的一个任务的一个运行啊，开发成本也降低了，同时降低了什么。开发人员的一个学习成本啊，学习成本你可以稍微的学一些哈，当然你会要懂，你会你必须要去学一下那个is跟六你说什么都不懂直接写哈，那不行啊，那你不用懂得特别深，对吧？啊，减少它整个的一个学习周期就OK了啊，那我们看一下它是怎么来做的，这个呢，是从粗的方面。来看吧。第一个。数据仓库呢，就是我们have通过S进行统计分析啊，统计分析它会将我们S当中常用字段啊，所有的关键字，也就是说我们所说的那个什么函数啊等等那些东西都会定义成很多的mapdu的一个模板。啊，定义很多这个模板，然后呢。
12:03
封装在汉服当中。之后。这个是我们搭建汉的一个过程，当然我们看着这个过程好像很很多部对吧，其实对于我们来说是干什么。解压啊解压就好，因为他已经处理完了这个事啊，处理完了OK，然后就是我们客户端我们写的一个口。写了一个开口，那它会通过自己内部的引擎。像MY搜索也有C引擎，它引擎就直接去拉取数据了，对吧，做分析，那在汉口当中，它这个引擎干什么事呢？它要将我们的海口转化成。查找模板啊，它定义了很多这个模板啊，查找模板之后呢，翻译成我们那个MR。好翻译成什么执行任务，执行MR任务之后，那就结果呗，结果就返回给我们客户端就吧。啊，再返回我们工单，其实就是将我们刚才提到的一个本质问题，将。口转换成max。啊转化成六，OK，那最后这三个点呢，关注下第一个还我存储数据依赖于D计算，那而且我这写的什么东西叫默认实现，既然我提到的默认实现说明可以改。
13:13
啊，可以改，例如它就可以改成Spark啊，不用MR来做它这个计算机，而我采用Spark，因为Spark快啊，当学Spark的时候，你们会寻到这个点啊，会有，因为现在还没学，那我们只能现在用什么MA6啊，只能现在用mab热麦热很核心的一个特点就是慢。好同学们对吧，但是呢，他吞吐量高啊，如果做离线处理的话，还是用MR比较靠谱一点，吞吐量的啊吞吐量的，但是他慢。好，然后呢，是我们。执行程序运行在两岸上面，也就资源分配运行在两岸上面，那这样看来我经常打个比方，就是have的一个东西，它其实是相当于他做的一个客户端。你看存储数据还F。
14:01
计算用的map，然后资源调度用的是雅安。全部用的人家东西，只不过说汉相当于给你的一个客户端，然后让你很方便的去调用HDF6对不对对吧？啊所以呢，这个是我们学到的第一个大数据框架当中，它不是一个分布式框架。因为他是一个客户端，你有听过Chrome这个浏览器分布式吗？我们俩是分布式的协同工作。有这种吗？没有了，哎，它简单的是一个客户端，当然你可以装102 103 104，他们是独立工作的。都是一个客户端都可以提交请求，能懂这意思。啊，它是相当于客户端，因为他自己不负责运算，还有一个点，但凡我们如果讲到后面你要学到，告诉你这是一个计算框架。它一定是什么。分布式的。能力能不能理解这个事，因为你是做海量数据处理的，现在单台机器你告诉我你做海量数据处理。
15:01
怎么可能对吧，所以但凡你后面学到的那种分析引擎，这个是比较特殊，还有呢，它相当于一个哈度的一个客户端，其他的但凡自己做运算的这种。它一定是分布式的，一定是分布式的，不可能是单机的。啊，单机它就干不了那活能懂我的意思啊，这是我所聊的一个汉，它本质，我们再梳理一下它处理海量结构化数据的一个什么。分析引擎，但我们虽然叫它分析引擎，它实际上我们可以把它看作是哈多的一个什么客户端，对吧？哎，它用的是HD存出去用的M计算数据，也用的雅安来调度资源对吧？哎，这三个点你要把握一下就行。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Hive（2019新版）

（2/92）

12分57秒

01_尚硅谷_Hive入门_课程介绍

350

15分44秒

02_尚硅谷_Hive入门_概念介绍

340

6分14秒

03_尚硅谷_Hive入门_优缺点

300

7分32秒

04_尚硅谷_Hive入门_架构

350

7分33秒

05_尚硅谷_Hive入门_与数据库的比较

420

15分42秒

06_尚硅谷_Hive安装_安装&初试牛刀

360

13分37秒

07_尚硅谷_Hive安装_从文件系统加载数据

390

9分56秒

08_尚硅谷_Hive安装_安装MySQL

360

9分44秒

09_尚硅谷_Hive安装_元数据存储在MySQL

400

20分9秒

10_尚硅谷_Hive安装_回顾

290

6分37秒

11_尚硅谷_Hive安装_JDBC访问

390

7分40秒

12_尚硅谷_Hive安装_常用交互命令

370

2分38秒

13_尚硅谷_Hive安装_其他命令

360

11分53秒

14_尚硅谷_Hive安装_常见配置信息

380

23分11秒

15_尚硅谷_Hive数据类型_基本&集合类型

330

4分0秒

16_尚硅谷_Hive数据类型_类型转换

360

14分58秒

17_尚硅谷_HiveDDL_数据库的增删改查

360

10分46秒

18_尚硅谷_HiveDDL_建表语法

450

16分46秒

19_尚硅谷_HiveDDL_内外部表

400

16分37秒

20_尚硅谷_HiveDDL_分区表概念&简单使用

370

6分31秒

21_尚硅谷_HiveDDL_分区表基本操作

330

10分27秒

22_尚硅谷_HiveDDL_分区表注意事项

380

17分11秒

23_尚硅谷_HiveDDL_修改表

350

5分25秒

24_尚硅谷_HiveDML_使用Load方式加载数据

360

11分6秒

25_尚硅谷_HiveDML_使用insert&as select加载数据

280

7分23秒

26_尚硅谷_HiveDML_使用Location加载数据

440

17分23秒

27_尚硅谷_HiveDML_回顾

440

6分55秒

28_尚硅谷_HiveDML_导出数据到文件系统

330

9分39秒

29_尚硅谷_HiveDML_导出数据的其他方式

400

1分54秒

30_尚硅谷_HiveDML_清空表

430

7分43秒

31_尚硅谷_Hive查询_基础查询

390

13分29秒

32_尚硅谷_Hive查询_Where&判断式

380

20分23秒

33_尚硅谷_Hive查询_Join

400

4分7秒

34_尚硅谷_Hive查询_全局排序Order By

390

15分52秒

35_尚硅谷_Hive查询_排序

400

3分44秒

36_尚硅谷_Hive查询_4种排序总结

390

14分20秒

37_尚硅谷_Hive查询_分桶表创建&导入数据

440

8分3秒

38_尚硅谷_Hive查询_分桶表抽样查询

360

5分26秒

39_尚硅谷_Hive函数_常用函数空值赋值

370

8分54秒

40_尚硅谷_Hive函数_常用函数时间类

400

12分35秒

41_尚硅谷_Hive函数_常用函数Case&if

320

19分29秒

42_尚硅谷_Hive函数_常用函数行转列

410

9分57秒

43_尚硅谷_Hive函数_常用函数列转行

370

20分32秒

44_尚硅谷_Hive函数_窗口函数需求一

340

15分58秒

45_尚硅谷_Hive函数_窗口需求二&三

280

10分29秒

46_尚硅谷_Hive函数_窗口函数需求四

310

42分37秒

47_尚硅谷_Hive函数_回顾

310

16分40秒

48_尚硅谷_Hive函数_窗口函数回顾

370

9分39秒

49_尚硅谷_Hive函数_窗口函数二

410

10分46秒

50_尚硅谷_Hive函数_排名函数

400

21分23秒

51_尚硅谷_Hive案例_课堂练习（一）

390

11分30秒

52_尚硅谷_Hive案例_课堂练习（二-1）

290

17分9秒

53_尚硅谷_Hive案例_课堂练习（二-2）

380

17分57秒

54_尚硅谷_Hive案例_蚂蚁森林（1-1）

390

20分54秒

55_尚硅谷_Hive案例_蚂蚁森林（1-2）

460

32分52秒

56_尚硅谷_Hive案例_蚂蚁森林（2）解法一

350

13分31秒

57_尚硅谷_Hive案例_蚂蚁森林（2）解法二

450

18分52秒

58_尚硅谷_Hive案例_蚂蚁森林（2）解法三

360

9分33秒

59_尚硅谷_Hive函数_回顾

360

7分51秒

60_尚硅谷_Hive函数_系统函数查看

390

6分52秒

61_尚硅谷_Hive函数_自定义函数介绍

360

13分30秒

62_尚硅谷_Hive函数_自定义UDF

390

16分28秒

63_尚硅谷_Hive函数_自定义UDF（2）

400

8分20秒

64_尚硅谷_Hive函数_自定义UDTF（分析）

310

12分58秒

65_尚硅谷_Hive函数_自定义UDTF（初始化方法）

310

8分9秒

66_尚硅谷_Hive函数_自定义UDTF（核心方法）

510

3分46秒

67_尚硅谷_Hive函数_自定义UDTF（打包测试）

420

21分31秒

68_尚硅谷_Hive压缩存储_Snappy压缩方式

360

6分16秒

69_尚硅谷_Hive压缩存储_行存储&列存储

340

19分59秒

70_尚硅谷_Hive压缩存储_Text&ORC&Parquet文件格式对比

360

5分4秒

71_尚硅谷_Hive压缩存储_存储格式&压缩方式结合使用

370

7分55秒

72_尚硅谷_Hive优化_Fetch抓取&本地模式

400

23分0秒

73_尚硅谷_Hive优化_大表Join大表&小表

450

3分45秒

74_尚硅谷_Hive优化_MapJoin

270

16分25秒

75_尚硅谷_Hive优化_回顾

310

13分47秒

76_尚硅谷_Hive优化_Group By

380

3分26秒

77_尚硅谷_Hive优化_笛卡尔积&行列过滤

400

18分40秒

78_尚硅谷_Hive优化_动态分区

350

12分25秒

79_尚硅谷_Hive优化_分区分桶&MR

340

17分17秒

80_尚硅谷_Hive优化_9.5-9.10

340

12分11秒

81_尚硅谷_Hive案例_谷粒影音需求分析

350

7分43秒

82_尚硅谷_Hive案例_MRETL分析

310

10分59秒

83_尚硅谷_Hive案例_MR ETL Mapper

270

16分22秒

84_尚硅谷_Hive案例_MR ETL清洗数据逻辑

420

10分59秒

85_尚硅谷_Hive案例_MR ETL Driver

310

12分26秒

86_尚硅谷_Hive案例_谷粒影音数据准备

290

7分29秒

87_尚硅谷_Hive案例_谷粒影音需求（一）

330

8分31秒

88_尚硅谷_Hive案例_谷粒影音需求（二）

340

9分54秒

89_尚硅谷_Hive案例_谷粒影音需求（三）

410

24分46秒

90_尚硅谷_Hive案例_谷粒影音需求（四）

340

10分19秒

91_尚硅谷_Hive案例_谷粒影音需求（五、六&八）

310

11分52秒

92_尚硅谷_Hive案例_谷粒影音需求（七）

360

02_尚硅谷_Hive入门_概念介绍

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐