文章/答案/技术大牛

发布

首页视频【直播回放260227】大数据Hive的数据模型

【直播回放260227】大数据Hive的数据模型原创

13天前2026-02-27 15:25:54播放955

点赞0 收藏 0

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
今天中午呢，咱们来给大家介绍一下hive，那么hive呢，是属于我们在大数据体系里面哈多普生态圈，它所提供的一个数据分析引擎，通过使用haveve呢，我们能够使用标准的这个SQL语句来去处理我们的这个大数据，因此呢，咱们希望通过今天中午的学习，能够让大家对我们的大数据体系，包括对我们的haveve呢，能够有一个了解，这样子呢，有助于咱们后面的进一步学习，大家之前哈听过赵老师的课程，那应该都知道，赵老师呢，在上课的这个过程当中，会给大家记录这样的一个什么呢？课堂的笔记，通过记录课堂笔记的这种方式，我们会把课程里面比较重要的知识给大家记录下来，因此呢，今天中午呢，咱们也会按照同样的这种方式来给大家介绍一下。
01:00
啊，这个什么haveve的知识，那么重点呢？给大家介绍一下两部分，那么首先咱们需要对haveve的一些基本知识要有一个基本的了解，到底什么是have，那么它有哪些特点，那了解到了基本的知识以后，重点讨论一下haveve的什么呢？数据模型，那么什么叫have的数据模型呢？数据模型它指的就是have里面的什么表结构，那么你可以把什么呢？Have呢当成是一个什么呢？关系型的数据库去使用，基本的用法呢？跟我们在MYSQL里面基本上是完全一样的，它支持使用标准的CQL语句来去处理我们的这大数据，因此呢，你的haveve里面可以创建各种数据模型来存储数据，数据模型指的就是它的什么表结构，那么通过咱们稍后的学习，大家会了解到。那么我们在have里面，它。
02:00
一功能支持创建哪些表，创建哪些数据模型呢？先把它的模型给大家列举在这个地方，首先我们在have里面呢，能够创建我们的什么内部表，那么内部表呢，是整个我们的have里面最简单的一种表，它基本上跟你在oraclel里面，或者说跟你在MYSQL里面呢，创建一张表是完全一样的，那么既然有内部表，当然就会有我们什么外部表，那么什么又叫外部表呢？稍后呢，咱们会来给大家进行相关的就介绍好，当然还有我们的第三种是我们的分区表啊，分区表当然还有我们的嘛，就统表对不对，还有我们的嘛视图，包括我们的什么临时视，还有我们的什么呢？物化视图，因此呢，你就可以把什么整个have呢当成是一个关系型数据库去使用，基本上的用法呢，跟我们在MYSQL里面基本上是完全一样的，那么你的这些基本知识以后，现在呢，咱们就按照这样的一个顺序来给大家进行相关的这个介绍。好首先咱们看一下第一个部分have的一些基本知识，当然首先咱们需要知道到底什么是我们的haveve呢？Haveve呢，首先大家需要知道的是什么呢？它属于我们的什么哈dopo生态圈体系，因此呢，大家后续如果说你要系统的去学习大数据，学习hard doop的话，那么就需要去学习我们的have，那么既然haveve呢，它属于我们的哈杜普体系，因此呢，首先咱们就需要对整个的哈杜普呢，需要有一个基本的了解。那么。
03:52
那整个哈杜普拉它是一个生态圈体系，那这里面呢，包含了很多的组件，那么咱们使用这些组件主要是为了去完成离线数据存储，包括离线数据的计算，那么这句话呢，很重要，我给大家记下来啊，它主要用于什么离线数据存储，包括呢，离线什么离线数据的什么计算，因此呢，哈多普主要用于构建我们的什么离线数仓啊，离线数据仓库，那么刚刚提到，那我们在哈多普林呢，包含很多的组件，因此呢，接下来呢，咱们通过一张图片来给大家进行介绍哈多里面包含哪些组成的部分，好，大家现在看到的这张图片就是我们在哈多普生态圈体系里面包含的一些主要的组件。
04:52
并不是全部，那么咱们就需要对这些组件它的功能要有一个基本的了解。好首先咱们从下往上来给大家进行相关的介绍，那么整个哈杜特呢，它的最底层是我们的HDFS么？到底什么是HDFS呢？它的全称是。
05:15
我们的什么呢？Hard dopo distributed的file system, 它是hard dopo里面呢提供的一个分布式文件系统，你把这个什么呢？HDFSM看成是一个网盘，那么就可以了，它能够以文件的方式解决海量离线数据的存储问题，那么如果说大家知道民办分布式文件系统的基本工作原理以后，那么就应该自己能够设计做出来一个网盘，那么他是哈多里面呢，非常重要的一个组件，那么基于HDFS之上，那么就是我们的什么这个h base, 那首先大家需要知道的是什么呢？H base, 它属于我们的low CQ数据库，那么我们可以把这个什么呢？Low CQ数据库划归到我们的大数据体系里面，因此呢，大家后续。
06:15
你要学习大数据的话，还是需要去学习一下我们的lowcq数据库，那么h base呢，就是其中的一个，那么到底什么是h base呢？H base它是基于什么呢？HMDFS之上的一个什么呢？列是存储的lowc口L数据库，那这里面呢，它就有两层含义，首先h base什它基于我们的HDFS之上，那么既然h base什基于HDFS之上，那么你在h base里面你所创建的一张表，表中的数据最终都将以目录和文件形式存储在HDFS当中，因此呢，有了这个基本的关系以后，当你后续你在安装部署环境的时候，首先需要先安装好HDFS，安装好HDFS以后，那么再。
07:15
来安装我们的什么H倍式，那因为H倍式呢，它是基于HDFS之上，那整个H倍式它的第二层含义呢，它是一个什么呢？列式存储的数据库，那么列式存储跟你的行式存储它有什么区别呢？对不对？好，咱们单独来给大家记录一个课堂笔记，好先问一下各位直播间同学还能不能够跟得上赵老师的节奏，如果说大家都还能够跟得上的话，就请在公屏之上，请给赵老师呢回复一个666，或者点一个赞。好接下来呢，咱们单独给大家记录一个课堂笔记，来给大家介绍一下你的什么行式存储，包括你的什么列式存储，它们各自呢？会有哪些特点，我们可以把它用在什么样的场景之下，那首先咱们看一下我们的什么列式存储，那么列式。
08:15
存储，大家需要知道它非常适合执行什么操作呢？非常执行，非常适合执行我们的查询操作，比如说当我们去构建我们的什么数据仓库的时候，不管你是构建的是离线数仓。还是我们的实时说畅，那么由于我们在数据仓库里面需要去执行大量的什么查询与dream，如果是这种应用场景呢，推荐使用我们的劣势存储，因此呢，劣式存储它主要用在咱们的什么o lap的应用场景当中，好这地方赵老师呢就顺便问大家一下。知不知道什么是op，如果说大家都知道呢，你能够把o olap的中文名字发送到我们的公屏之上吗？好，讨论完了咱们的历式存储，那么再来看一下我们的什么行式存储，那行式存储那比如说你的什么传统的这个什么关系型的数据库，比如说你什么你的Oracle也好，对不对，或者是MYSQ也好，那这种关系型的数据库呢，它主要是行式存储的方式，那什么叫行式存储呢？简单来说的话，就是当我读写数据的时候呢，读写完第一行以后，那么在读写我们的第二行，在读写我们的第三行，那么这个呢，就是我们的行式存储，那既然是它是这种方式，那赵老师呢，需要问大家一下，大家能不能够告诉一下赵老师，行式存储的这种数据库，它主。
09:58
主要适合执行哪些操作，你能够把它适合执行的操作发送到咱们的公屏之上吗？那如果说大家都知道了。
10:10
就请积极回答一下赵老师的问题，如果说大家并不是很清楚呢，就请在公屏之上回复一个0，好让赵老师呢能够知道大家都还能够跟得上，好，咱们接着呢往下来给大家进行相关的介绍，那么行式存储呢，主要适合我们的嘛，DML操作，那么什么叫DML呢？它里面包含了我们的插入、更新和删除语句，换句话说，他主要适合执行我们的什么事务操作，那么什么是事务呢？赵老师会在后续给大家进行详细的介绍，因此总结下，那么行色存储呢，这些数据库主要适合我们什么OLTP的什么应用场景，因此讲到h base的时候呢，那就给大家补充一些相关的什么知识，好，现在呢，咱们回到咱们的这张图上来，再来给大家介绍一下哈，杜普生态。
11:11
需体系里面其他的一些组件，那它还提供一个什么，一个计算引擎是我们的嘛，这个my produ, 那这个地方需要注意一下，My producedu呢，它是一个什么呢？它是一个离线计算引擎，它只能够处理我们的离线数据，那通过我们开发Java程序，你在hard多里面呢，通过使用map producedu, 既能够处理h base的数据，也能够处理HD数据，但是请大家注意下，这个map produceduce本身它只是一个计算模型，它跟我们的编程语言没有关系，只是呢，我们在哈杜里面使用了Java语言实现了map productiondu, 因此呢，这个时候你所开发出来的map producedu将会是一个Java程序，那么这句话呢，我再重复一遍，Map producedu本。
12:11
帧，它只是一个计算模型，它跟编程语言无关，他都不呢使用了Java语言实现了mapdu，那尽管目前我们在大数据体系里面很少会在直接开发我们的map productiondu更多的是使用我们的18g，还有弗林克，对不对？但是呢马produceduce的思想和原理非常的重要，它采用先拆分再合并的这的这种方式能够解决大数据的计算问题，而这种先拆分再合并的思想也被借鉴到了我们的斯巴克。还有我们的弗林克当中，因此呢，大家后续你要学习大数据的话，你在学习斯巴克之前，在学习弗link之前，赵老师呢，还是会建议大家好好的去学习一下我们的这个什么马produce，好my produce呢，你也可以把它看成是整个哈多op里面，它所提供的一个离线计算引擎，那既然有了离线计算引擎以后呢，我们在how多op的什么上层，那就提供了一些其他的组件，帮助咱们来分析数据，帮助咱们来什么构建我们的数据仓库，比如说我们在哈杜里面首先提供了我们的什么呢？就数据分析引擎，那大家后续只要在大数据体系里面看到了什么呢？数据分析引擎这六个字，大家就要反应过来，它是支持我。
13:55
我们的C口语句，那通过使用标准的什么呢？C口语句，那我们呢，就能够处理我们的大数句，那这样子呢，就能够降低整个大数据的门槛，哈都op里面它提供了两个数据分析引擎，一个呢是我们的have，一个呢是我们的pig个重点讨论下到底什么是haveve have呢，它是属于哈多里面提供的一个什么呢？离线数据分析引擎，它支持使用标准的CKQ与dream来去分析处理数据，而在默认的情况之下，Have呢，它将会把这条C口L语句转换成是马Du程序，然后呢，进一步的就可以处理我们存储站HDFS或者存储在H被式当中数据，当然稍后呢，咱们会来详细介绍一下到底什么是我们的haveve，对好。
14:55
除了提供咱们的数据分析引擎以外，那么整个哈多里面，它提供了我们的什么数据采集引擎，那通过使用数据采集引擎，我们能够去实现我们的什么ETL，那我们来可以来构建咱们的数据仓库，好这地方赵老师呢，可能呢就需要问大家。
15:21
一个问题啊，那么大家能不能够把这个什么ETL，它的全称发送到咱们的光屏之上，ETL它是我们构建数据仓库的什么，这是第一步，第一步对好整个哈多普里面呢，它提供一个什么啊，集成管理工具Hu，它是一个什么基于网页的什么的图形化工具，那通过使用我们能够在图形界面上很方便的去管理大数据生态圈体系当中的各个组件，那整个哈杜普里面呢，它提供我们的嘛，这个租keepper，那租keepper它在整个大数据体系里面非常的重要，它是一个分布式协调服务，因为我们在大数据体系里面主要的组件都是一种什么架构呢？都是一种单，都是一种什么架构都。
16:21
不是一种主从架构，好这个地方赵老师呢就需要问大家一下，大家能不能够告诉一下赵老师主从架构它所存在的最主要问题是什么？你能够发送到咱们的公屏之上吗？那如果说大家都知道，那就请积极回答一下赵老师的问题，如果说大家不是很了解呢，就请在我们的公屏之上回复一个0，或者给赵老师呢点一个赞。主从架构它的主要问题是什么？好咱们接着呢往下来给大家进行介绍，好主从架构它最主要的问题是它存在我们什么单点故障问题，那为了解决单点故障实现ha的什么呢？高可用，那么咱们就需要借助我们呢，借助我们的猪keepper，通过使用租。
17:21
Keeper能够实现HDFSM能够实现yarm能够实现什么呢？HPYM能够实现10SPA克或者flink呢？Ha的高可用好，因此介绍到这个地方的时候，我们就给大家详细介绍了一下，整个哈杜生态圈体系里面，它所包含的主要的组件都有哪一些？好问印象各位直播间同学，关于这个部分的知识大家是不是都听明白了？如果说这个部分大家都听明白了呢？
18:00
就请在我们的公屏之上，请给赵老师呢。回复一个666，或者给赵老师呢点一个赞，那么有了这样的一些基本知识以后呢，接下来呢，咱们就重点讨论一下，到底什么是我们的have have它单独给大家记录一个什么课堂笔记，那到底什么是我们的have呢？什么是我们的什么have？首先咱们从第一个角度上去理解，到底什么是have呢？Have它属于我们的how do普生态具体性，它是什么？基于HFS之上的什么呢？离线数据仓库，那既然haven它基于HFS之上，那have呢，会把所有数据以文件形式存储在HDFS里面，那它们之间的一个什么对应关系，应该是什么关系呢？好，咱们来给大家做个什么简单的一个一个对比，好，这边呢，是我们的么？还这边是我们的H。
19:06
嗯，DFS, 那你在haveve里面呢，你可以去创建一张表，对不？那表呢，对应到HDFS里面，它将会是一个什么，会是一个目录，那么当然我们在创建表的时候，也能够创建我们的分区表，当你创建一个一个的什么分区的时候，那分区对应到我们的HDFS里面，它也将会是一个一个的什么目录，那么有了表，有了分区以后。咱们呢，就能够存储我们嘛，我们的数据，那数据对应到我们的HDFS里面，将会是一个一个的什么一个的文件，因此呢，这个呢是咱们从第一个角度上去理解，到底什么是我们的haveve，它是基于HDFS之上的一个什么离线数据仓库，好，咱们从第二个角度上再来理解一下，到底什么是我们的haveve呢？你也可以把haveve呢当成是一个什么，当成是一个翻译器，那既然它是一个翻译器，对，那么它在默认的什么情况之下，这个呢，你可以去改在默认情况下它运行的cing，我们的吧，Have on, 我们的producing，它将会使用咱们的my producing作为什么呢？Have的执行引擎，它会把一条一条什么，它会把一条我们的CC口语句翻译成是什么。
20:40
发音成是一个马，Producedu一个什么程序，运行在哈多不什么它的yam的集群之上，那因此有了这样的一种方式以后，当我们以后在大数据体系里面，当你要处理这种结构化数据的时候，尽管你可以去开发你的macuson，也能够去开发我们的斯巴克，也能够去开发我们的弗林克，但是呢，更简单的一种方式是。
21:11
直接书写一条什么C口与dream那么就可以了，但是呢，由于这个my producedu它执行的效率比较的低，比较差的，因此呢，我们在实际工作当中使用的什么是在实际工作里面更多的是使用什么，更多的是使用我们的么have啊，我们的18g，也就是我们使用我们的18g作为什么呢？Haveve的执行引擎，那么如果是这种情况呢，你运行了have on18K以后，那你在have里面你所执行的一条CQL语境将会被转换成是一个什么18课的一个任务，运行在我们的18课的么集群之上，那如果说大家对斯SPA克有一定了解，应该知道那斯SPA克拉它主要什么是基于内存方式进行计算所有的。
22:11
18个计算都在内存当中完成，因此呢，从实际的执行效率上去看，它比呢map producedu要快很多，因为从讲到这个地方的时候，我们就给大家介绍一下到底什么是我们的how do, 到底什么是我们的have，那么有关整个have的一些基本知识。嗯呢，就给大家介绍到这里哈，好问一下各位直播间同学，关于第一个小节have的一些基本知识，大家是不是都听明白了，如果说第一个小节这个部分大家都听明白了呢？就请在我们的公屏之上，请给赵老师呢回复一个666，或者给赵老师呢点个赞，接下来呢，我们通过一个嗯。
23:03
接下来呢，咱们通过一个非常简单的一个DEMO演示，让大家能够对我们的哈杜，能够对我们的haveve呢能够有一个基本的了解，好现在呢，咱们切换到咱们的实验环境当中去，那么通过咱们刚刚的介绍，大家已经了解到haveve呢，它使于哈毒生态确体性，因此呢，我们在使用haveve之前，首先需要先启动我们的哈do普好通过执行一条命令，叫什么sstartor.sh，那这条命令呢，它会启动haveve当中的怎么HDFSM也会启动haveve的样，当你把HDFSM启动起来以后呢，它就能够存储数据了，当你把yam启动起来以后呢，我们就能够执行我们的map productiondu, 那这两个不Du，那这。
24:04
两个部分准备好以后，你就能够通过使用haven，通过使用标准的什么CQL语dream来去处理我们的什么结构化的大数据，那当你把HDFSM，或者说当你把样M启动完以后呢，它给我们提供了什么呢？图形化的界面帮助咱们能够去监控我们的HDFS，也能够去监控我们的这个样，好首先咱们看一下我们的HDFS啊，来打开咱们的图形化的界面，访问数组，就是什么这个9870端口，通过打开这个网页。你就能看到咱们的HDFS，通过现在的这种图像化工具呢，你也能够去监控，也能够去操作我们的HDFS，比如说在最后的这地方有个什么Bo fire system, 对，通过图形化界面，你能够可以看一下在这样的一个什么分布式文件系统当中，它包含了哪些目录和文件，基本上跟咱们操作网盘基本上是完全一样的，那对于yam来说呢，它也提供了一个什么图形化的工具端口号是么？我们的8088好访问一下数组就是什么8088端口，它就能个打开咱们的yam的图形化界面，那如果说你有一个market丢程序运行在yam之上，通过大家现在看到的什么的图形化的工具，你就能够监控。
25:46
动任务的执行的状态好，这两个部分准备好以后呢，咱们呢，可以进到have里面去创建一张表，对，然后呢，往里面插入数据，也能够去查询数据，而你执行的C口语。
26:03
都将会被转换成是my produceduce, 腾讯运行在yam之上，既然是如此的话，通过咱们的这个8088的图形化网页，你就能够控到这条CQL语句，或者说监控到这个map productiondu它的执行的状态，好我们也是一个DEMO的个例子啊好，回到咱们的命令行的窗口里面去，直接在命令行上敲我们the have, 进到haveve的命令行工具，你们来以后呢，它就能够使用标准的么？CQL与dream基本上操作基本上跟我们在MYSQL里面基本上是完全一样的，因此呢，大家如果有这个MYSQL的基础以后呢，双手来学习have呢，会非常简单和容易，好，这地方启动了需要耗费一点时间，好问一下各位直播。
27:04
的同学还能不能够跟得上赵老师的节奏，如果说大家都还能够跟得上的话，就请在我们的公屏之上，请给赵老师呢回复一个1，或者给赵老师呢点一个赞，好，现在那清入到命令堂上了，咱们清下屏啊啊清完屏以后呢，首先执行的什么啊？嗯。首先执行一个需table，那这一条语句跟我们在MYSQL里面是不是完全一样的呢？对，查看一下你在have里面事先创建哪些表，那这个地方需要注意一下，Have呢，它会把数据存储在HDFS里面，好，这地方单独给大家这个笔记本，还有呢，它会把数据存储在HMDFS里面，但是呢，原数据会存储在我们的MYSQL当中啊。
28:03
单独写咱们的第三点，第三点好，第三点什，第三点是我们的么数据啊，怎么讲它的什么，它的这个数据存入什么HDFS里面，但是呢，元数据存入什么MYCQ当中，那这个地方咱们就需要解释一下什么叫元数据，那have的元数据它指的就是什么？我们的叫个结构信息，比如说你所创的表，表明列名列的类型，那这个呢，就是我们的元数，就元数就需要存到MYSQL里面，因此呢，大家你在安装部署have的时候，除了需要部署好我们的哈多以外，还需要单独安装好一个MYSQL，那咱们稍后呢，会进到MYSQL里面看一下它在MYSQL里面存储了哪些原数据，好的这些基本知识以后好咱们去创建一张表来保存。
29:04
我们的什么这个学生的数据，对啊，写什么课么？我课我们的create，我们的什么table，那这段就是咱们标准嘛C口L语据表明字非常简单，叫什么是这种词的表结构里呢，包含咱们的么三个列，第一个是ID号，它是一个什么整数，占了一个名字，它是一个一个字符串，占了个A进，因为保存学生的年龄，它也是一个一个整数，当执行完这一条语句以后，表呢，它就创建成功了，最终它将会对应到HDFS之上的一个什么目录，而元数dream将会存储到咱们的MYSQL当中，对它表创建出来以后，你也能够通过使用标准的circleql语句往里面插入数据啊，写一下insert，什么in inter insert, 什么我们的inter。
30:04
都student词的好value六人的一号名字叫做我们的Tom，年龄是21岁，那当你执行这一条C口的时候，这一条CQL语句，它将会被转换成是一个马P程讯，运行在哈杜op的亚M集讯之上，那既然是如此的话，通过刚刚的什么这个8088的图形化的网页，那么咱们是不是就能够监控到任务的执行的状态，监控到这条CQL语句是不是这样子啊，好，咱咱们去执行一下这个语句，好他在重点观察下它所打印输出的日志是什么，好这地方怎么稍微等待一会儿，因为呢，Map producedu呢，执行效率比较的慢一些，好这个地方怎么稍微等一会儿，稍等一会儿。那稍微等一会儿啊嗯。
31:01
好，稍微等一会儿啊，重点看一下他打印输出的日志是什么日志啊，什么日志，通过观察日志咱们会看到呢，它会把这套CQL与转换成是map和reduce，那注意一下map reduce它是两个阶段，拆分阶段叫map，合并阶段叫做我们的reduceing，好重点看一下下面输出日志啊，日志啊，这方稍等一下，稍等一下。好，问一下大家是不是都还能够跟得上赵老师的节奏，如果说大家都还能够跟得上的话，就请在我们的公屏之上回复一个1，或者给赵老师呢点个赞啊，点个赞这个地方他执行的时候呢，需要耗费一点时间啊，咱们稍微等一会儿，他大家还能够跟得上吗？好，现在呢，咱们这地方执行完了，执行完以后呢，重点看一下上面输出日志，通过打印输出日志的什么这几行，那么就能说明呢，它所执行的什么这条C口语句。
32:10
确实被转换成了dur，先执行我们的map，在执行我们的，也就是那你通过8088的那个图形画的网页工具，也能够监控到这个任务的什么它的执行的状态，好咱们去刷新一下刚刚的什么的图行化的工具，那通过刷新咱们会发现呢，这个地方有一个什么map productiondu, 它已经什么它已经执行完成了，而这个mapdu是呢，就是怎们刚刚执行了什么这条C口L语句，C口L语句，因此呢，通过这么样的一个非常简单的DEMO，那这个演示下，到底什么是我们的have，它就是我们在哈多里面提供的一个什么数据分析引擎，数据分析引擎它支持使用标准的什么CQL语擎来处理我们的大数据，因此呢。
33:10
那有了这种方式以后，就能够降低大数据处理门槛，对那些不懂Java不懂scda的语言的人，那那直接书写一条C口L语句，那就能够利用我们的大数据体系处理我们的这种结构化数据，对他当然你你你除了能够支撑我们的差语语句以外，也能够去查询数据的，写下查询CS么我们的新放咱们的这张表，对那么查询完以后呢，结果也将会直接打印输出在屏幕之上，因此整个的have的操作基本上跟我们的mys com基本上是完全一样的，因此呢，在重复一下，大家如果有这个什么呢，MYCYQL的基础以后，上手来学习have呢，会非常简单和容易，对好刚刚咱们提到have呢，它会把什么呢？它会把数，会把数据存到我们的HDFS里面。
34:10
诶，你所创建的一张表将会对应到什么呢？HDFS的一个一个目录，数据存到HDFS里面，原数据写到我们的MYSQL当中，那现在咱们能不能够到HDFS里面，能不能够到MYSQL里面看一下数据和原数据它长什么样子呢？当然是可以的，先看一下我们在HTFS上它所保存的数据什么样子，那数据将会对应到一个一个文件表，将会是一个一个的目录，是不这样子的，好，咱们利用一下咱们的这图形画的工具呢？好，那么你在这个你在默认的什么情况之下，嗯。
35:00
你在默认的情况之下，Have呢，Have呢，它会把它的数据呢，都默认保存到我们什么这个USR user都保存了什么user途径下跌，因此呢，咱们在这个，嗯。好，因此呢，咱们到这个user下面呢，去找一找刚才表，找一找刚刚的数据，好点击这个地方是什么user，点击一下我们的user，对它下面呢会什么？会有一个我们的have，对那点击这个地方haveve的下面呢，有个咱们的这个warehouse，那这个warehouse呢，就是咱们的仓库，因为have本身它就是一个什么一个离线数据仓库，对你所创建的表默认都将会创建在什么这个目录下，目录下列好我们点击这地方的什么where houseman进来以后呢，下面有两个目录，那咱们刚刚创建的学生表，它将会对应到一个什么HDFS的目录，而表中的数据都将会被保存到该目录下的文件，文件，它点进这个地方的什么，这个是就此刚刚咱网表里面呢，插入一行数据。数据将会。
36:16
写到这个文件当中，因此呢，整个havem呢，它就是基于HDFS之上的一个什么离线数据的是吧，仓库，它会把所有数据以文件形式存储在HDF里面，那数据存到HS里面去以后，原数据存到我们的MYSQL当中，那再解释一下什么是我们的原数据，原数据。它主要指是我们的结构信息包括了什么？表明列名列的类型分区信息，这种结构信息都叫元数均，它怎么现在段怎么就到MYSQL里面看一下，它把哪些元数均写到了我们的MYSQL里面，对好们切换到我们的命令行工具当中去，对好退出来，退出出来进到我们的MYSQL里面的好MYSQL怎么使用呢？Root用户呢，登录上来的好登录到MYSQL里面来哈，先看一下你在MYSQL里面事先创建好了哪些数据库呢？先我们什么对于他备好好我事先我在MYSQL里面呢，创建好了一个什么一个MYSQL数据库叫做什么？Have, 整个how的原信息都将写到这个MYSQL的什么。
37:46
数据库当中去，好，那进去看一下它里面呢，它有哪些元素，据对好们切换到我们了吗？切换到haveve下面来的，这是一个什么需table的，那么你在初始化安装部署have的时候呢，利用它的初始化脚本，你就能够创建很多的表，那使用这些表在存储整个high文的源信息，比如说我们在这张MYS表里面叫TBLS，这一张表里面存储了什么表的相关信息，比如说表明啊，表的类型等等。好，现在我们看一下这张表，TBLS它里面呢，包含了哪些字段，那他们直接执行一个简单的么查询，去查一下s select, 我们的新放我们的什么TBS，好这个呢，他把咱们这个段方有很多的，怎么就查几个字段嘛，怎么查表的是吧，咱们看一下表决。
38:46
别告就字段太多了，我们看一下T，他们TBS看表结构好，咱们这个就查询什么，查询这个。表的什么table的名称，包括表的什么类型，好们就查询这两个字段是不是就可以了，对好们怎么写下，写在我们的team b l下划线，念在查询的表的什么，它的类型的下划线态度啊，放什么放咱们了什么这个team b ass, 那通过输出的信息，那么会发现呢，你在have里面事先创建好了两张表，刚刚怎么创建的表是不是我们的学生表使这种词对那表创建出来以后，那咱们也能够查询MYSQ的表，获取到列的什么呢？相关信息，列的信息呢？被存到了什么？被存到了MYSQ的这一张表里面，叫做我们的column_VR那这张表里面存储的所有的信息，包括列名，还有列的什么类型，好咱们查询项。
39:55
这个比较看看你在MYSQ，在have里面创建的哪些列啊，创建哪些列好执行一下简单什么查询就set了，什么新放咱们的什么这个column啊，是写错了，Column下滑VR通过输出的信息，你会发现呢，这些都是我们刚刚在亥无里面创建的什么呢？创建的列啊，创立列，这是我们的什么列的名字，就是什么列的类型，因此呢，通过这地方的DEMO也是，那就说明了一下，整个have呢，它会把原数据存到我们的MYSQL当中，还有的这些基本的知识以后那问一下各位直播间同学们，那关于赵老师们刚刚也示的什么这个DEMO的示例，大家是不是都看明白了啊，如果刚刚演示的DEMO的事例，大家都看明白以后。
40:55
后呢，就请在咱们的公屏之上，请给赵老师呢回复一个666，或者给赵老师呢点个赞啊，大家都看明白了吗？如果说大家啊，就说一下，如果刚刚演示的DEMO的S令大家都看明白了哈，那就请在我们的公屏之上，请给赵老师呢回复一个666，或者给赵老师呢点一个赞好的，这些基本知识以后，后面呢，大家如果要系统的学习还有的知识重点就需要学习到底什么是它的什么数据模型，那么通过咱们刚刚的介绍，大家已经了解到了，还有的数据模型指的就是它的什么，它的表结构，那么你在haveve里面能够创建哪些表结构来存储数据呢？通过刚刚的。
41:55
介绍咱们已经知道了，哈文里呢，支撑各种表的什么类型，比如说它支撑创建我们的内部表，也能够支撑创建我们的外部表，分区表，同表是从等等等等，这些基本上跟我们在数据库里面，比如说跟你在MYSQL里面，跟你在Oracle里面呢，基本上是完全一样的，对好咱们就挑一个来给大家进行相关的介绍，好咱们就介绍我们的第一个，我们的什么内部表，那什么是内部表呢？内部表是整个have里面最简单的一种表，刚刚咱们创建的那张学学生表，使student呢，就是一张，那就是一张，什么就是一张内部表，那内部表它有什么特点呢？就像它的特点写到咱们的课堂的笔记上面，它有哪些特。
42:55
点哪些特点呢？首先它的第一个特点是什么？它它会它会把数据呢，存到默认的什么HDFS途径下，它叫数据默认保存到什么HDFS的HDFS的user的什么这个目录下，这个呢是它的什么？它的第一个特点，那最重要的是它的第二个特点是什么？当你删除内部表的词后，它会同时删除数据和原数据，写一下，它的第二特点是什么？当删除的时候写一下，删除的时候会使呢同时删除数据和原数据，数据从HDFS里面删除掉，元素dream从MYCQL里面也将会删除掉。好有的这些基本知识以后好咱们再来创建我们的第二个。
43:55
当内部表，比如说我们可以创建一张内部表来保存我们的员工数据，好，咱们现在看一下我们的什么，我们举个例子啊，我们的员工数据呢，它是一个什么？它是一个CSV文件，当你把表创建出来以后呢，你能够通过使用一种方式把你的外部的数据文件导到hive的什么表当中去，导进去以后呢。
44:23
你就能够通过使用CQL，通过使用大数据方式来去分析处理我们的大数据了。对好，先看一下员工数据，这个CSV文件它长什么样子的，他看文件的内容呢？他这个地方，我这个事先准备好了一个什么，一个文件在什么datatime下面呢？会有一个什么，会个ep.csv，好CSCV文件它是一个什么？它是一个逗号分割的文件，因此我们在创建have的内部表的时候，你就需要指定分割符是我们的逗号。对好，看一下文件内容呢？这个里面呢，一共包含了什么？包含了14个员工数据，每个员工一共有8个列，简单解释一下每个人的含义分别是什么？首先它的第一个点是我们的员工号，第二个呢是员工的名字，第三个呢是员。
45:23
的职位job部，第4个呢是员工的老板，员工老板的员工号，再往下面呢，是他的入职日期，再往下面呢，他的什么薪水奖金和他所在部门的什么部门号，部门号肯定会是一个外建，跟你的什么部部门表相关联，那数据们看到了以后呢，咱们能不能够到have里面创建一张表表，创建成功以后呢，通过使用咱们的load语句，你可以把这样的一个什么CCV文件加载到have的表中去，他们演示下整个的一个过程呢？啊，先进入到have的命令行工具当中去，那一般呢，我们在启动have的时候呢，后面加上一个选项叫杠S，杠S呢表示启动它的禁入模式，禁默模示表示我在执行马PDU是时候不打印输出日志。
46:22
这样子呢，能够更方便的看到最后呢，输出的这个结果好的地方，咱们稍微等一会儿进来以后呢，咱们去创建一张表啊，要保存这样的什么员工的数据，嗯。基本上跟咱们刚刚创建表呢，基本上是一样的，他们写下可上我们的table表叫做什么EP表的员工表，表里面呢，一共包含有什么八个列，是不是好写下EP number是我们的员工号，这样里一个什么员工的名字，他是一个字符串，再来一个什么他来一个job，员工的职位也是一个字符串，再来一个什么他的MGM员工的老板，老板的员工号，再往下面看哈尔data，他入职日期好把定成是什么，一个是佛串的哈，这几个阶段12345，再往下面的是薪水整数，再往一个奖金也是一个整，再来一个这是个奖金，奖金好，再来一个什么它所在部门不好的好，一共呢包含什么这八个链接好，因为咱们稍后呢，需要加载的是一个什么CS文件C。
47:37
Ium, 它以什么逗号分割，因此我们在什么创建这张表的时候，就需要指定列和列的分割符，它将会是一个什么逗号，如何写呢？写下面room form行的格式啊，如form，我们的这个diimated，什么termin deinated, 什么我们的films term term terminated, 什么but terminated by by, 我们的嘛，逗号好，通过使这种方式呢，我就创建好了一张表，并且列和列的分割符它将会是一个什么一个逗号好，表创建出来以后。
48:21
啊，我们呢，就能够通过使用load语句把本地的文件CSV加载到这张表当中去，它也将最终存储在我们的HDFS之上。对，好怎么写呢？Load的我们的data塔在lowcom in pass, 如果你在这地方写上了咱们的关键证local，写上local以后，那后面的输入路径必须是一个本地路径，如果不写local关键证，后面路证必须是一个HDFS，好于咱们这地方写上了local关键证，因此后面路径呢，就是一个本地路径，在好的本地啊，我们的root下面，Be塔下面有一个烟p.csvinto我们的table EP, 通过使用这种方式，我就把本地的CSV文件直接加载到ha。
49:21
啊，表当中去，最终它将会存储在HDFS的上，那既然它存储在HDFS上去以后呢，我们能不能够到HDFS上看一下它的表，它的文件到底长什么样子的，我们用一下这个HD图形化工具，回到上一级径上的，刚刚咱创建的表叫ENP表，表呢对应到HDFS上，它是一个文件，而咱们刚刚加载的那个CSV文件将会写到这个目录下面去对，看是不是这样这样子的啊，点进这个地方eapp，刚刚的那个什么CS6文件是不是就保存到到这地方呢？它数据存储在了HDFS之上，原数据大家也可以到MYSQ里面去看一下，对好整个表呢都准备好以后，我们就能够。
50:21
通过使用标准的C口L语句来去查询分析数据，而你所执行的什么C口L语句，它将会被转换成是我们的什么这个my produ运行在我们的什么哈都不什么亚门的集群之上，那还是是这样子好问一下大家还能不能够跟得上赵老师的节奏，如果说大家都还能够跟得上呢，就请在我们的公屏之上回复一个666或者给赵老师呢点个赞好现呢再来执行一条简单的么查询句，查询员工的什么姓名，职位，薪水，按照薪水呢做一个什么排序操作，那那写一下S非常简单好查询S那什么我们的员工姓名我们的么员工姓名职位，职位新选和我们的员工表。
51:21
好对，然后执行一个order半，按照新水呢做做一个排序操作，而你所执行的这一条C口L语境，很明显它将会被转换成是一个马Du运行在哈杜什么亚M进行这三店，那是不是这样子呢？他们执行一下，好执行提交完以后呢，咱们去刷新一下，就什么8088的图形，或者什么emm的工具，通过刷新这样的工具，你稍后呢，你就能看到你有一个查询语令，它已经被被提交到什么好的不什么了，好刷新啊，通过显示出的信息你能够发现了，现在呢，我们在哈杜亚M之上正好有个什么map productiondu map productiondu它已经被提交上来了，而这个map呢，就是咱们刚刚执行过了什么这条CQ的语句，对，因此呢，有了这样的一种方式以后。
52:21
当我们以后要在大数据体系里面处理结构话术的时候，直接通过输入写一调C口L语境就能够去完成这什么数据分析工作，你可以不再去需要去开发你的Java，可能呢也不再需要开发我们的scva，但是呢，请大家注意一下，通过使用活嗯。通过使用你的这个C呢，通过使用ccom只能构处理我们的嘛，那这种结构化数据呢？那什么叫结构化数据呢？就是我们能够使用一张二维表的行和列的方式表示的数据么？换句话去说，如果你要处理这种半结构化或者是非结构化数据，那么就不能使用咱们的短C口语句了，你就需要去开发我们的Java程序，或者需要开发我们的scva程序，对，还有从演示到这个地方呢，大家关于什么是have的内部表，大家是不是都听明白了，当你创建完内部表以后，如何加载数据到表当中去，来完成一个什么ETL的工作。好，如果关于我们内部表大家都听明白以后呢，就请在我们的公屏之上，请给赵老师。
53:47
呢回复一个1，或者给赵老师呢，点一个赞，点个赞在还有从后面的什么这些比数据模型，比如说包括了什么这个外部表，分区表，这些数据模型都是我们在haveve里面能够创建的表结构，对，那由于建的表结构对那由于每次直播的时长毕竟有限，对我们不可能把所有知识都在直播，你呢给大家进行详细的介绍，对，因此呢，每次直播时候呢，我都会推荐一门课程给大家，当然今天中午推荐给大家的就是这门课程啊。
54:25
从大数据，从大数据到原生这门课程呢？课程体系非常的完整的，它里面呢，包含了我们的么？哈杜10SPA flincom、卡夫卡，并且我在2026版课程更新里面呢，我把数据湖互垫也包含在什么课程体系里面，因为我们的课程呢会定期的什么更新，除了包含这些大数据生态以外，还包含了我们的low c code的什么数据库，数据库，因为刚刚提到我们可以把low c库呢划归到我们的大数据体系里面，因此呢，大家后续如果要系统学习大数据知识，需要去学习我们的Lu西口，除了包含大数据，包含NOC口以外，还包含了云音乐生命当中的什么docker和我们的K8SME，这两个部分并不是属于大数据体系，它属于云原生当中容器，那么为什么我们在学习大数据的时候需要。
55:30
去学习docker和K8S呢，因为我们可以把大数据的计算引擎，比如说你能够把你的什么10SPARK com或者是flink呢，部署在docker或者是K8S的容器当中，通过使用这样的一种方是我们能够集成大数据体系，还有云民生体系的，好这门课程呢，课程体系非常的完整，那大家拍的课程以后呢，那联系一下赵老师，我会把所有课程资料发送给大家，当然大家在学习过程当中，如果有任何问题呢，你也可以随时的问我啊，还有从讲到这个地方呢，基本上。
56:15
今天中午呢，由赵老师们要给大家分享的知识大概就是这么多啊好，现在的时间是中午的11点多少呢，1:26，赵老师呢，1:35啊下播啊对啊。说这老师们1:30 35分下不下下播好，剩下的什么时间时间把一或者呢，大家去拍一下什么课程哈，拍完课程的同学请通过私信把你的联系方式发送给赵老师好，赵老师呢下播以后会单独联系你的，好赵老师呢，1:35下播好，要问问题的同学呢，请把问题呢发送到公屏之上。
57:07
要拍课的同学，拍了课以后呢，请通过私信把你的联系方式发送给赵老师，新进直播间的同学，点点关注啊，点点关注啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

赵渝强老师

【合辑】直播回放

（10/12）

59分57秒

【直播回放】国产金仓数据库的体系架构

3.1K0

59分57秒

【直播回放】基于大数据的数据仓库架构

2.5K0

59分46秒

【直播回放】国产数据库OceanBase

1.4K0

59分1秒

【直播回放260116】达梦数据库的体系架构

2.2K0

59分48秒

【直播260118】NoSQL数据库之Redis

3570

59分41秒

【直播回放260120】容器技术Docker与K8s

2.1K0

59分15秒

【直播回放260122】MySQL的存储引擎

1.4K0

59分58秒

【直播回放260126】大数据计算引擎Spark

2.9K0

59分57秒

【直播回放260201】PostgreSQL的体系架构

1.2K0

57分21秒

【直播回放260227】大数据Hive的数据模型

9550

59分34秒

【直播回放260309】结构化查询语言SQL

490

56分3秒

【直播回放260311】大数据计算引擎Flink

350

【直播回放260227】大数据Hive的数据模型原创

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐