文章/答案/技术大牛

发布

首页视频【直播回放】基于大数据的数据仓库架构

【直播回放】基于大数据的数据仓库架构原创

2026-01-162026-01-16 09:15:18播放2.5K

点赞0 收藏 0

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
中午的12点半，那么咱们就开始今天中午的学习，那么今天中午呢，咱们着重的学习一下大数据的技术，通过大数据呢，能够去构建我们的数据仓库，从而进一步的去实现我们的o lap的应用场景，那么咱们希望通过今天中午的学习，能够让大家对整个的大数据体系能够有一个初步了解，这样子呢，有助于咱们后面的进一步学习，因为在整个大数据的生态圈体系里面，它包含很多的组件，那么如果说大家没有一个基本了解的话，那么是不利咱们后面的进步学习的好，大家之前如果听过赵老师的课程，那么应该都知道，赵老师呢，在上课的过程里面呢，会给大家记录一个课堂笔记，那通过记录课堂笔记的方式，我们会把课程里面比较。
01:00
啊，重要的知识给大家记录下来，让大家在今天中午学习的时候能够把握住课程的重点，好，今天中午呢，咱们着重来给大家介绍以下三个方面的问题，首先咱们需要对大数据技术生态圈体系要有一个基本了解，因为呢，在这个生态圈要体系里面，它包含很多的组件，这些组件的功能和作用分别是什么，那么有了基本的了解以后，那么咱们将会在第二个小节里面，通过具体的什么DEMO演示，让大家能够有一个感性的认识，比如说通过这个地方的DEMO演示，让大家能够对我们的什么哈杜普，或者说对我们的Spark，或者说对我们的什么flin有一个感性的认识，当你部署好以后。把它启动起来以后，它长什么样子？对，那么有了这些感性认识以后，如何使用这样的一些大数据的组件去构建我们的数据仓库呢？数据仓库它有不同的实现的方式，比如说咱们先写一下这数据仓库啊，你们写在这个旁边吧，数据仓库它的实验方式，比如说你能够使用什么，能够使用or或者使用MYSQ，对，如果你使用or和MYSQL呢，这种呢是属于传统方式，如何去实现我们的数据仓库，当然目前数据仓库的主要实现方式都是使用咱们的大数据的技术，比如说你可以使用咱们的哈都普也好，18g也好，目前呢，你也能够使用咱们的MPP的什么数据库，那么什么叫MP呢？MPP它表示大规模的什么并行处理，比如说你可以通过使用什么Doris呢，也能够就。
02:56
构建咱们的数据的仓库，对，如果说你通过使用大数据方式，我们去构建数据仓库的话呢，它主要有两种体系架构，大家先了解一下，那么赵老师呢，先把两种体系架构的名字先给大家写在咱们的课堂笔记上，首先它的第一种架构是我们的什么呢？这个拉姆达，拉姆达架构，那么通过使用拉姆达架构，我们能够使用大数据的组件来去实现我们的数据仓库，然后呢，它的第二种实现方式是我们的什么卡A架构，那通过使用kaa架构，我们也能够使用大数据的组件，也能够去实现我们的数据仓库。好既然这个地方它有两种架构，那么赵老师呢，就顺便问大家一个问题，目前我们在大数据体系里面，当我们去实现我们的数据仓库的时候。
03:56
主要使用的是当达架构还是我们的卡A架构呢？大家能不能够我回答一下赵老师的问题啊，好回答一下梦醒先生的问题哈，CDH啊CDH跟这个哈杜普的区别大吗？那么咱们讲哈杜普呢，它主要是指的是阿帕奇开源的版本，CDH呢，它是一个商业化的版本，并且在CDH里面呢，它不仅仅集成了开源的哈多普，也集成了什么一些其他的组件，比如说十巴克等等等等，因此呢，从完整性上来说，CDH呢，它更加完整，但是呢，它是一个收费的一个什么商业版本，好，这位梦醒先生听明白了没有，听明白以后呢，请给赵老师呢回复一个啊回复一个一从使用方法上来说呢，CDH呢和哈多普呢，基本上都差不多哈，差不多好，因此讲到这个地方的时候，张老师呢，就带着大家去说。
04:56
梳理了一下，我们在今天中午的时候将会学习到哪些知识，好，咱们现在呢，咱们就按照这样的一个顺序来给大家进行相关的这个介绍。首先咱们看一下第一个问题哈，大数据技术的基础知识，那么通过咱们刚刚的学习和介绍，大家已经了解到整个大数据的体系里面，它包含很多的组件，那么咱们使用这么多的组件主要是为了去解决两方面的问题，首先它要解决的什么？第一个问题是我们的什么数据存储，那么与数据量非常的庞大，那么咱们不能够使用传统方式来存储数据，那么你的传统方式下，你可能会把数据呢，比如说存储在你的Oracle里面，或者存储在MYSQL里面，从而进一步的去实现。
05:56
的这个数据仓库，但是你把这种数据，比如存储在Oracle里面，或者存储在MYSQL里面，它主要有两方面的问题，首先这一种数据库它都是什么呢？都是关系型的数据库，那么你的关系型的数据库里面，咱们只能够存储结构化数据，那么咱们如果要存储半结构化或者是非结构化数据，这个时候呢，很明显呢，你不能够使用传统的关系型数据库，那么这个是传统方式项目，它所面对的什么？第一个问题它所面对的什么？第二个问题是什呢？这个Or to mexicoic com, 本质上它都是什么呢？都是一种集中式存储数据库，集中式存储呢，就表示他们本身并不支持分库和分表，也不支持分，不是存储，如果你在Oracle里面，或者说你在Mexico里面。
06:56
你要实现分布式存储，实现分布分库分表的话呢，那么咱们需要什么借助数据库的中间键才能够去实现，因此我们在大数据的体系里面，那就需要有一种新的方式来去解决海量数据的存储问题，而这种新的方式就是我们的什么呢？分布式存储啊，那么大家以后只要看到了什么呢？分布式这三个字大家就要反应过来，它是支持我们的集群啊，它里面呢会有多个节点，好这个呢是我们在大数据体系里面，它所要解决的第一个问题就是如何去存储海量的数据，那么它要解决的什么？第二个问题是什么呢？么数据存储下来以后。
07:47
我们如何进行数据的计算呢？那么由于数据量非常的庞大，咱们依然不能够使用传统的方式，因此我们在大数据体系里面，它采用的就是什么我们的分布式计算，通过分布式计算的方式，我们能够去解决海量计算的问题的，那么什么又叫分布式计算呢？简单来说就是如果说一台服务器解决不了计算的问题，那么咱们就多搞几台服务器，他们共同搭建起一个集群环境，共同来执行计算，那么这个呢就叫分布式计算，因此当你把握住了什么呢？数据存储还有数据计算以后，那么咱们就把握住了整个大数据体系里面最核心的部分，那不管是你的这个哈都普也好，18g。
08:48
也好，Flink也好，卡发卡对不对，包括各种各样的lowic口数据库，它都是围绕数据存储和数据计算，他所提出的解决的方案。好既然是如此的话，首先咱们讨论一下数据存储，那么我们在大数据体系里面，数据存储呢，它主要有两种形式，一个呢是离线数据存储，通过存储离线数据，我们去构建我们的离线数差啊还有第二种数据存储，那就是我们的什么实时数据存储，那通过存储实时数据，我们去构建实时数据仓库，好这个地方咱们可能就需要去解释一下什么叫离线数据，什么叫实时数据，那么离线数据它表示已经存在的历史。
09:48
子数据，比如说我们的订单数据、交易数据等等，那么实时数据它是一个什么呢？相对的概念，它相对于我们的计算任务而言，目前还不存在的。
10:04
未来有可能会产生的数据啊啊，既然是如此的话，赵老师呢，可能就需要问大家一个问题，好，各位直播间同学，你首先能不能够告诉一下赵老师，我们在大数据体系里面可以使用哪些组件来存储离线数据，你能够把这些组件的名字发送到咱们的公屏之上吗？好，如果说大家都清楚呢，就请积极回答一下赵老师的问题，如果说大家不是很清楚，就请在我们的公屏之上，请给赵老师呢回复一个0，或者给赵老师呢点个赞，让赵老师呢能够知道大家都还能够跟得上赵老师的节奏，那好，咱们接着呢往下面来给大家进行相关的介绍，那么离线数据存储。
11:01
主要使用哈多普生态圈体系，因为哈杜普主要构建离线数仓，完成离线数据存储，包括离线数据的计算。比如说我们在哈杜里面呢，你可以把离线数据存储在HDFS里面，或者存储在h base里面，或者呢存储在我们的hive里面。首先大家需要知道这三个组件，HD FS HP haveve呢，它们都属于哈都普主生生态圈体性，主要存储我们的离线数据。好，咱们一个一个来给大家解释一下呢，首先解释我们的第一个HTFS那么这个HTFS呢，它是属于哈都里面的分布式文件系统，你把它看成是一个什么呢？网盘就可以，当你明白了一个分布式。
12:02
文件系统的工作机制和原理以后，那么咱们就应该能够自己做出来一个网盘么？它可以文件方式解决海量离线数据存储问题，数据既可以是结构化的，半结构化的，或者是非结构化的，它是一个分布式的一个集群，那么基于我们的HDFS就有了我们的h base式啊，首先大家需要知道这个h base它是一个什么呢？它是一个我们的low c数据库，那么我们可以把这个什么呢？Low Co数据库划归到我们的大数据体系里面，因此呢，大家后续如果你要系统的去学习有关大数据的知识，那需要学习我们的low CQ数据库。Low CQ数据库有很。
13:02
很多哈，但h base就是其中一个。那么到底什么是h base呢？H base它是什么呢？基于HDFSM之上的一个什么呢？列是存储的log c口，好，这个里面呢，它就有两层含义，首先它的第一层含义是h base基于HDFS之上，既然h base基HDFS之上，我们在h base里面创建的一张表，表中的数据最终都将以目录和文件形式存储在HDFS里面，因此呢，你在部署h base之前，首先需要先安装部署好HDFS，那它的第二层含义是，它是一个逆式存储数据库，那么逆式存储跟你的行式存储它有什么区别呢？好，咱们讲传统的这个关系。
14:02
型的数据库，比如说刚刚提到的什么all com my com, 这些呢，都是属于咱们的行式存储数据库，行式存储的关系型的数据库主要适合执行我们的DML的什么事务操作，比如说你执行插入、更新、删除，如果执行这三个操作，推荐使用行式存储，那么反过来去说，它就并不适合执行查询操作，比如说我们在数据仓库里面，那么由于我们在数据仓库里面需要去执行大量的查询语句，推荐使用咱们的历史存储数据库，因此呢，我们需要把每种类型的数据库。它的应用场景了解到以后呢，就可以为我们以后的技术选型做一个参考，对，好，关于这个里面提到的lowcy，提到的or，提到的MYCY呢，张老师呢，也会在后续的直播课里面单独的来给大家进行相关的介绍。好再来看一下我们的什么呢？我们的hive hive呢，它也是属于哈杜op体系，它跟HBA也非常类似，它是基于HDFS是之上的一个离线数据仓库，并且它支持使用CQL语境来处理我们的大数据，并且它在默认的情况之下，它会把这条CQL语境转换成是一个my pre程句，运行在哈杜的什么亚M集群之上。好，这个里面呢，具有几成含义，首先简单解释一下have呢？
15:50
它是基于HDFS之上，它有支持C口语境，那么通过使用C口语境，你在haveve里面你去创建一张表，表中的数据，最终它也将以目录和文件形式存储在我们的HDFS里面，那么这个呢，是have的电程含义，它的第二层含义性，你也可以把它看成是一个什么翻译CHI，既然它是一个翻译CHI，它在默认情况之下，它将会把这条C口语境翻译成是一个mapdu，是因此呢，有了这种方式以后，当我们在哈杜里面你要处理结构化数据的时候呢，尽管你能够通过开发Java程序开发我们的map producedu, 那么但是呢，更简单的一种方式是直接书写一条C口L语句，这样就可以了，对，这样子呢，它就可以使得大。
16:50
数据的门槛降的很低，因为CQ本身比较简单，但是呢，这个地方需要大家注意一个问题啊，那么由于什么呢？嗯。
17:01
由于这个my produceducing它执行的效率比较的低，因此我们在实际使用haveve的时候呢，更常用的方式是把have呢部署在我们的Spark之上，也就是部署什么我们的have on Spark, 那如果说你部署的什么haveve on Spark以后，当你在have里面执行的一条clel regime, 那这条clel regime它将会被转换成是一个18g的任务，寓意在18g结径之上，那么由于18g本身它是基于内存执行计算，因此呢，执行效率呢，就比我们的map producedu识呢执行要快很多，那么关于这里呢，10SPA克知识，关于have知识呢，赵老师也会在后续的直播课里面单独的来给大家进行相关的介绍，好通过使用这些组件。
18:01
我们可以去存储我们的离线数据，那同时进一步呢，去实现我们的离线数仓，那实时数据主要存储在卡夫卡的什么消息系统当中，卡夫卡它是一个分布式的消息系统，通过使用它，我们能够去构建我们的实时数据仓库，好因此介绍到这个地方时候呢，赵老师呢，就带着大家去梳理一下，我们在大数据体系里面可以使用哪些方式来存储离线数据，或者呢存储实时的流市数据，好问一下各位直播间同学。关于数据存储这个部分大家是不是都听明白了，如果说这个部分的知识大家都听明白呢？就请在我们的公屏之上，请给赵老师呢回复一个666，或者给赵老师呢点一个赞好。数据存储问题咱们解决以后，那么再来看一下数据的计算，那么以数据存储分为离线，分为实时数据计算也需要分开来进行讨论。首先数据计算的第一个方向是我们的什么呢？是我们的离线计算，那离线计算也可以叫做什么呢？P处理计算，通过使用这种方式我们来处理的一线数据，而我们在大数据体系里面。
19:42
计算的第二个方向是什么呢？是我们的什么？是我们的实时计算，它实时计算也可以叫做什么呢？流处理计算，通过使用这种方式我们来处理实时的流市数据，从而进一步的去构建我们的实时数据仓库。那么我们在整个大数据体型里面提供了哪些计算引擎来进行离计算和进行实时流式计算呢？首先讨论一下离线的批处理计算，我把这些离线计算引擎的名字先给大家写在咱们的课堂笔记上。首先第一个是我们的什么？第一个是我们的my producing, 第二个呢，是我们的吧斯SPA Co啊，第三个是我们在F当中的什么呢？Fli克的datatime set.
20:42
好，这三个都是我们在大数据体系里面提供的，什么呢？离线计算引擎，通过使用他们能够进行离线数据的计算，对来构建我们的离线数仓，很简单解释一下每个计算引擎它的作用，首先咱们解释一下我们的第一个my produce, 对，那my produce呢，这个地方大家需要注意一下，My produce本身它最早呢。
21:13
最早呢，它是什么呢？是谷歌它所提出的一个计算模型，用于解决pageg rank的什么网页排名问题，既然它本身它是一个计算模型，它跟我们的编程语言就没有关系，只不过呢，我们在哈杜op里面，我们使用了什么呢？使用了Java语言实现了my producedu, 因此呢，这个时候你所开发出来的map producedu程序将会是一个Java程序，那这句话呢，我再重复一遍，Map produce本身它是一个计算模型，它跟编程语言无关，他都使用的Java实现，对mango DB呢，使用了我们的jasson javascript的实线，那么尽管我们哈目前啊，嗯。
22:13
尽管目前我们在大数据体系里面很少会在直接的去开发我们的my productiondu, 更多的是开发我们的10SPA克还有弗林克，但是my producedu什么思想和原因非常的重要，它采用这种先拆分再合并的方式能够解决大数据的计算问题，而这种先拆分再合并的思想也被借鉴到了我们的斯SPA克里面，还有这个弗Li克当中。因此大家后续如果你要系统的去学习有关大数据的知识，那么咱们第一步呢，还是需要好好的学习一下，到底什么是我们的ma producer啊对，好，再来看一下我们的18g当中的10SPARK com, 那这个18RK com呢，它是整个10SPA克里面最核心。
23:14
也是最重要的一个部分，它是18g的什么呢？计算引擎，那么我们在8g里面的所有计算，从本质上去说都是18g的离线计算，这句话呢很重要，我再重复一下，我们在18g里面我们所执行的所有的计算，从本质上去说。都是什么呢？都是18个克的离线计算，因此从刚刚的描述过程里面，大家就应该知道10SPARK里面没有真正的实时计算，所有10SPARK计算都是离线计算，哈弗Li里面它提供的一个模块叫data set, 通过开发Java程序或者开发我们的SC拉程序，利用这套API当中的什么算值，我们就能够处理离线数据。那目前我们在大数据的这个体系里面的主要的两个计算引擎，一个呢就是我们的10SPA克，一个呢就是我们的弗Li克，那这两个计算引擎它有什么样的本质区别呢？本质区别在于18g它偏向离线计算，那我们在18K里面的所有计算都是。
24:40
离线计算，而我们的flink呢，偏向我们的实时的流式计算，所有flink计算都是真正的实时计算。那么了解到了。这一两种计算引擎的特点以后，那么就可以为我我们以后的技术选型做一个参考，什么意思呢？就是说在我们的以后的场景里面，如果你要执行大的离线操作，推荐使用我们的10SPA克，反身推荐使用咱们的fli，克，好讨论到这个地方时候，那么赵老师呢，就把我们在大数据体系里面使用的主要的离线计算引擎都给大家做了一个介绍，那那一些又是我们的实时计算引擎呢？先把他们的名字写在咱们的课堂笔记上，首先第一个是我们的嘛，这个时段，第二个呢，是我们在10SPA克里面的10SPA克streaming，还有第三个呢，是我们在弗克当中的什么呢？Fli克当中的day。
25:53
Be time streaming啊好，简单解释一下这三个主机，那么你的这个什么，你的这个storm和我们的么，这个fli的什么，这个daytime stream这两个呢？
26:07
们是属于什么？是属于真正的实时计算引擎，他们可以用于实时场景非常高的情况之下，那那咱们这里呢，重点单讨论项，我们的这个18坑是re米，那么通过咱们刚刚的这个结算啊，咱们知道你在这个10SPARK里面，你所执行的所有的计算，从本质上去说都是底层是8UG Co的一个什么呢？离线计算，因此这个是8个dream呢，它采用的是小P的处理方式，那近似代替一个实时计算，本质上依然还是一个离线计算，因此呢，咱们就不能够把这个10SPARK dreaming用于实时性场景很高的情况之下，一般来说哈。
27:05
这个呢，不绝对，一般来说就是我们的什么这个秒级，那什么叫秒级呢？比如说我们希望这个3秒钟出理子数据，我们希望5秒钟出离子数据，那么在这种秒级的单位之上，你能够使用咱们的18个dreamm去实现，但是呢，如果是秒级以下呢，比如说我们希望300MMM，我们希望400mm处理这数据，在实时场景非常高的情况之下，你不能够使用我们的18水命，因为它的本质是一个。嗯，因为呢，它的这个本质是一个离线计算，它的实时场景非常高的情况下，那你可以使用这个什么这个S端，或者使用辅音克当中的data塔swimminging好一层，我们介绍到这个地方的时候呢，赵老师呢，就把我们在大数据体系里面涉及到的一些主要的组件都给大家做了一个介绍，那些用于数据存储，哪些用于数据的计算，哪些用于离线，哪些用于实时的，好问一下各位直播间同学们，关于今天中午给大家介绍的第一个部分基础部分大家是不是都听明白了，如果说大家都听明白以后呢，就请在我们的公屏之上，请给赵老师呢回复一个1，或者给赵老。
28:48
呢点一个赞，好，接下来呢，咱们就通过这个什么DEMO的演示，让大家对我们的整个的大数据的什么体系能够有一个感性的认识，你对好，咱们也示咱们第一个哈杜普的部分呢，那整个哈杜普呢，它是个什么？它是一个生态圈体系，对，那么那么在这个生态圈体系里面包含了很多组件，但是我们在哈都普的什么安装包里面，就像它只集成了我们的HDFSM和我们的一样，那么这句话呢，我再重复一下，哈杜op本身它是一个生态圈里面包含很多的组件，但是我们在那个哈杜op的安装包里面，它只集成好了我们的HMDFFM和我们的样，除了这两个部分以外，哈都里面的其他的组件。
29:48
G样单独的进行安装，好，现在呢，咱们来解释一下，什么是我们的yam h d FS呢，刚讲过了，对，那么yam呢，它是属于哈多嗯，2.0版本以后提供的一个资源和任务调度平台，目前这种按yam的方式是我们在大数据体系里面调度计算任务的主要方式，比如说我们的map produceducing on ya, 我们的Spark on yam, 我们的flink on yam, 这种on yam的方式是目前哈我们在大数据体系里面主要的方式，因为这两个部分它已经被集成在了哈安装包里面，当你启动完哈多以后，就能够直接通过使用HTFS存储数据，通过使用样M呢去执行我们的my produce任务，好简单。
30:48
是一个DEMO的示例，切换到咱们的实验环境当中去，首先我来执行一条命令，叫做什么呢？是Do or, 通过执行这一条命令呢？我就能够启动哈都里面的HDFS也能够启动，当你把这个什么呢？HDFS启动成功以后呢？
31:15
你就相当于把这个网盘启动成功了，那么它能够以文件的方式解决海量离线数据存储问题，当你把yam也启动成功以后呢，你就能够直接执行我们的mapp丢失任务了，对，好这个地方怎么稍微等待一会儿，那等它启动成功以后呢，我们看一下整个的效果呢，它会是一个什么效果，那么咱们讲由于整个大数据体系都是构建在我们的Java的基础之上，对，因此呢，你能够使用va提供的的一个命令，这样gops查看后它的什么这个进程，那当你看得到什么这五个进程被打印输出来以后，就表示我们的HDFSN还有样M呢，都启动成功了，首先咱们怎么去M操作我们的HMDFS呢？操作HDFSM最方便的一种方式是使用运行。
32:16
工具对，好，首先我们看一下在这个HDFS里面有哪些目录，好执行一个操作，像HDFSDFS杠、S斜线，斜线代表HDFS的根路径，相当于我们查看网盘的根路径，它们就会把根路镜像所有的目录和文件列举打印输出在屏幕之上的。好我事先我在什么，我在HDFS什么它的input目录下呢，放了一个文件，那们能不能看下你的这个目录下面到底包含哪些文件呢？把上面里面呢改一下，我具体查看input通目录下的文件下面呢，会有一个什么data.test文件，好这个文件它是个什么？它是一个文本，文件里面包含了什么呢？三句换看向是哪3。
33:16
句话也执行一个HDFSHDFSDFS刚看了，我们去查看HD FS input项面的啥datatime，点开文件，那我这个文件里面包含有三句话嘛，这三句话分别是什么呢？I love Beijing京I love China Beijing is capital of什么China，那么通过观察我们会以发现这三句话里面呢，有一些单词它是重复的，既然它是重复的，稍后呢，咱们可以去执行一个my produceducing, 或者执行一个10SPARK，把每个单词它所出现的频率统计出来，那现在就是我们的单词技术程序，当然你能够通过使用命令行方式操作HDFS，也能使用图形界面，图形界面呢是基于网页的啊，基于网页的端口号是我们的什么？将端口号是我们的什么，9870的，它通过什么H。
34:25
哎，怎么写错了，HMDFSDF猫端口性98轻量，通过使用什么HDFS，什么图形化网页呢，你也能够去查看HDFS文件，也能够去上传下载，都可以对好这个呢，是咱们演示的呢，如何去操作我们的HS，由于我们在启动它都的时候，它同时把我们的样M一个启动成功了，已经成，怎么可以直接执行一个my produce程序，把它运行在我们的yam之上，那么这个yam呢，它跟我们的HDFS一样，它也提供了一个什么图形化的工具，端口号是我们的什么8088，如果说你有计算room，比如说你有一个my producedu, 或者有一个Spark com, 或者有一个flink运行在我们的yam之上，通过大家现在。
35:25
嗯，看到的这个图形化界面，你能够监控任务的执行的状态，但话怎么去执行一个mapdu是执行一个单词技术，把刚刚大家看到的文件里面每个单词频用给它统计出来的，当你把哈都安装好以后呢，它提供了这么样的一个一个染po的什么一个程序呢，对好怎么进到这样的一个什么一个木木好这个呢，是当前的我们写写错了，好在这个目下面他提供了一个什么哈都一个example，一个example点价包，这个价班，它是官方提供的一个价班，里面包含有很多的程序，其中有一个程。
36:16
嗯。其中有一个程序就是我们的word count单词技数对，好咱们执行一下，把它运行在我们的yam之上，在样M之上，在他卡都架执行这个架包里面的话，我count的程序对后面呢，是我们的什么输入和输出，输入和输出需要什么HDFS路径好输入呢是HD FS input下面的什么data.test文件输出也放到我们的HDFS之上，好，咱们在HDFS之上呢，创建一个目录，将oututd，今天是1月15号的最终他将会把统一的结果放到咱们的这样的一个HDFS轮上，当我执行这一条命令的时候，大家注意它打印输出日志的第一句话呢是什么它会去连接什么它会。
37:19
会去连接我们的什么re resource manager, 这个re resource managerta是亚M的主节点，把它提交到亚ma上去执行，那既然提交到亚M上执行以后，通过刚刚大将刷新一下，刷新一下刷新一项的图形化的界面，你就应该能够看到刚刚怎么执行的什么这个word count刚从技术程序呢，它已经正在什么running，你只要通过使用这样一个什么监控界面，你就能够监控到所有运行在亚MS上面的这种程序，好，咱们再来刷新一下这什么图形化的界面，最终它将会变成我们的finishing完成状态，既然完成以后。
38:08
它就会把每个单词频率呢给我们统计出来，并且呢，写回到我们的HDFS的上根，好，现在呢，咱们就看一下输出结果它长什么样子的，好，当然放到了咱们的HMDFSHDFSDFSM，放到了刚刚的什么alumn po0115的什么不是上，对它会输出两个文件，其中一个文件叫做我们的什么呢？Success文件大小为0，它只是一个什么。它只是一个状态文件，它用于标识这个map produce呢，执行成功，当然，嗯。当然最终的结果都将会被保存在下面的文件里面，看一下这个里面的文件的内容呢，它就会把每个单词评用给我们统计出来的啊，它是一个文本内容呢，看一下每个单词各出现了多少次呢？通过输出结果啊，咱们啊执行一个卡特命令啊，看结看一下的结果，通过输出结果呢，咱们可以发现呢，比如说我们的这个，嗯，我们的北京出现了两次，China出现两次，它是不是就把刚刚输出的结果给每个单词频给我们统计出来的，因此通过这个地方什么DEMO的演示，我们就在哈杜里面执行每一个mapdo程序，统计每一个单词它所出现的频率，好，顺便我在问大家一个小小的问题。
39:56
题，那现在统计出来的结果，他除了把每个单词出现的频率统计出来以外，这个输出结果它还有什么特点？好大家能不能够看出来它有什么特点。如果大家。
40:15
看出来它有什么特点，你能不能够发送到咱们的公屏之上，那好大家呢，积极的什么思考一下，思考完以后呢，跟老师积极互动一下，能不能看出来这结果他有什么特点，如果大家看不出来呢，就请给张老师呢回复一个0，或者给赵老师呢点一个赞啊给大家10秒钟的时间思考一下，这个结果他有什么特点啊，给大家10秒钟思考一下，思考一下。思考完以后呢，请你把答案这个结果呢，它有什么特点呢，发送到咱们的公屏之上啊，公屏之上啊。
41:04
大家能看出来吗？这个有什么特点？对，好，它除了把每个单词频率统计出来以外呢？那么这个结果呢，还按照了什么单词的字点顺序进行了什么排序，对，还又从衍伸到这个地方呢？我们如何在哈杜普里面执行一个简单的任务呢？就给大家演示到这里哈好问一下各位直播间同学，关于赵老师们刚刚演示的什么哈杜的什么这DEMO演示大家是不是都看明白了？如果说这个DEMO大家都看明白的呢，就请在我们的公屏之上，请给赵老师呢回复一个666，或者给赵老师点一个赞，大家都看明白了没有，那么我们使用哈都普呢？
42:00
既能够去存储数据，也能够去计算数据，好，刚刚的DEMO大家是不是都看明白了？对，好，再来看一下我们的斯巴克，还有我们的弗林克，那这个巴克和弗林克呢？他们是属于什么？们是属于这个，嗯。嗯。他们是属于这个大数据的计算引擎，既然他们是一个计算引擎，他们只能够计算。计算和处理数据，他们不能够什么呢？他们不能够存储数据，因此我们在实际使用18g或者使用fli克时呢，你可以跟你的HTFS集成，或者跟卡夫卡集成，如果你跟HFS集成呢，你就能够去构建我们的离线数仓，如果说你跟我们的实卡不卡，就是呢，你就能够去构建我们的实时输畅，关于整个数据仓库的架构呢，稍后来给大家做一个详细的介绍，好，咱们去把我们的。
43:13
好，咱们去把我们的那个10SPARK集群，那么去给它启动起来，再啊切换到命令行的窗口里面，再请进到10SPARK的什么安装的路径像栏，对好执行下面吧S并下面的10START or通过执行这一条命呢，我们就能够启动我们的10SPARK的群，10SPA克启动完以后，它也启动了一个图形化的界面，端口号是我们的什么呢？8080好，通过浏览器访问一下输主机的8080端口呢，我们就能够打开10SPA克什么图形化的界面，通过大家现在看到的这个图形化的界面，对，如果说你有10SPARK任呢运行在集群之上，通过现在。
44:14
的这个界面，你就能够监控到任务的执行的状态，注意在这个界面上最上方。看啊，最上方有一个非常重要的地址，它告诉我们18g主节点在当前主机的什么7077端口之上，当你通过客户端程序提交一个任务呢，如果提交到集群上去运行，你需要提交给主节点，主节点就在当前主机的7077端口之上的，因此呢，这个地址非常非常的重要，对好，当你把整个10SPA克启动完以后呢，它给我们提供了一个交互式的命令行工具叫斯Spark，你在这个斯Spark秀里面能够直接开发我们的斯SC拉程序，比如说开发完斯SKY拉程序以后呢，直接处理HDF数据，他们远单衍生一个DM的实例啊，启动一下我们的那个什么斯SPA。
45:24
它需要把它运行，运行在什么集群之上，通过杠杠master参数指定主节点地址就在什么当前主机的什么707星端口之上的，好进到命令行工具里面来以后呢，你就能够去开发我们的斯嘎拉程序，比如说能够直接处理HDF数据，因此呢，稍后呢，咱们就用咱们的斯嘎拉编程语言，也去开发一个单词技术，也去把每个单词它所出现的频率统计出来，统计出来以后直接打印输出在屏幕之上，那于整个18g，它跟弗link一样。
46:10
它们都是基于内存方式执行计算，因此呢，执行速度比我们的map producedu呢要快很多，好，这天咱们的地方稍微等待一会儿啊，好，先问一下各位直播间同学们还能不能够跟得上张老师的节奏，如果说大家都还能够跟得上的话，就请在我们的公屏之上，请给赵老师呢回复一个666，或者给赵老师呢点一个赞，好，稍后呢，咱们写一个SC拉程序，处理HDFS的数据啊。好，进入到10SPARK里面来以后呢，我们执行一个单词技术啊，直接去读取什么HDFX数据，10SPARK呢，能够直接访问我们的HDFM，这地方需要写上HDFS的全路径啊对，好，HMDHMDFSM冒号，我们写统新写地址是我们的HM d f ma lowt端口HOUSEMAN9000厦门的什亡input呢，下面有一个datatime.test文件，好数据读取进来以后呢，首先我执行什么一个分层操作，按照什么每个单词里面的什么这个每个单词空格进行分词，分词完成以后，每个单词呢，记一次数掉我们的map算值，每个单词记一次数以后呢，把相同单词合并到一起做一个什么。
47:53
求行运算好，现在呢，怎们又通过什么使用用我们的SC拉编程语言开发了什么一行代码程序就能够去实现我们的单词计算，因为SSC拉语言最大的特点就是函数式编程，那利用函数是编程可以使得代码程序非常简洁，这个呢是它的一个优点，同时缺点就可读性非常的差，而现在的这程讯它将会运行在集群之上，既然。
48:32
它运行在集群之上，通过刚刚大家看到的什么，就图形化的界面，你就应该能够监控到什么呢，任务的执行的状态，整个任务执行完成以后呢，它会把结果呢，直接输出在屏幕之上，它以什么ARA输出形式返回回来，因此呢，通过这么一个DEMO呢，能够让大家对我们的10SPARK呢，也能更有一个感性认识，关于这个10SPARK里面更加系统知识，赵老师也会在后续的直播课里面单独的来给大家进行相关的介绍，好我们退出来对停止停止一下我们的18课级群的，好问一下各位直播间同学们，关于赵老师们刚刚演示过的哈杜普们，还有18课这。
49:32
这两个DEMO司令大家是不是都看明白了啊？如果说这两个DEMO大家都看明白了呢？就请在我们的公屏之上，请给赵老师呢回复一个1，或者给赵老师呢点一个赞，最后呢，咱们再演示一下我们的弗Lin克，那么看一下当你把弗Lin克启动起来以后呢？它长什么样子？它跟10巴克非常类似，对它也是一个大数据的计算引擎，对它切换到我们的flink的安装路径项，执行并下面的什么start cast脚本，它就能跟启动我们的弗link集群，当弗link集群启动完成以后，它跟斯sta克也一样。
50:25
它也提供了一个什么图形化的网页的工具，端口号是我们的什么8081，通过这个什么8081的图形化的网页工具，你就能够去监控你的弗link集群，如果说你有计算任务呢，运行在集群之上，你也能够监控到任务的执行的状态，那关于这个flinnk更加系统的知识，赵老师呢，也会在后续的直播课里面单独的来给大家进行相关的介绍，因此讲到这个地方的时候，整个的第二个部分DEMO也是我就给大家衍生到这里哈，对，好，因此讲到这个地方，相信大家应该对我们的大数据体系应该有了一个感性认识，通过使用这个体系里面它所提供的组件，我们。
51:25
那就能够进一步的去构建我们的数据仓库。当你使用大数据生态。构建数据仓库的时候，它主要有两种体系架构，一种是LADA架构，一种是卡塔架构，对，那目前主流的架构体系是哪个呢？大家能不能够回答一下赵老师啊好，问一下各位直播间同学们，既然你有拉达加构，有卡A加构，通过大数据呢，都能够进构建咱们的数据仓库，目前主流的架构体系是拉姆达架构还是KA帕架构呢？大家能不能够回答一下赵老师，回答错呢？也没有关系，这些知识都是我们后面呢，你要进行系统学习的时候，需要重点掌握的内容的啊好，我们讲一下目前主流的架构体系是什么呢？是我们的拉姆达架构啊，那主流的是我们的拉姆达架构，而拉姆达架构。
52:33
它最主要特点是什么？它有2套系统啊，它有2套的这个系统的。它有两套系统，对啊，云厂商的DWS是数仓的哪一种架构好，咱们讲的架构跟你的什么W有关系，DWS呢，它属于什么数据仓库分数据模型的分层结构，那你实现分层结构的时候呢，实现你的DWS呢，你可以使用拉姆达或者使用卡法架构，那DWS呢，它是从数据模型建模的角度去进行划分，好咱们这个地方的拉姆达加构和卡法，这个呢是从技术实现手段上如何去构建咱们的数据仓库，那么这呢是两个不同的角度，好这位同学们听明白了没有，听明白以后呢，请给赵老师呢回复一个一样，就是两个不同的角度。好到底什么是我们的拉大架构呢？好，我们来看一张图片，诶好，现在大家看到的什么，这一张图片就是使用。
53:40
我们的LADA架构实现数据仓库构建起来以后呢，你能够进一步去实现数据仓库的分层的模型，对整个我们在南达加工里面，它最主要的特点是它有两套系统，一套系统是我们的什么呢？离线数仓，一套系统是我们的实时数仓，你可以使用刚刚讲过的知识，分别构建离线舒畅的部分，也能够去构建实时舒畅部分，中间咱们用灰色方框框出来的这个部分呢，是整个大数据平台，或者说是数据平它最核心的一个部分，通过这个部分能够去提供数据存储，包括数据计算的能力。
54:40
并且呢，他通过底层的数据采集实现我们的ETL，它能够采集各种数据源的数据，整个平台构建起来以后呢，你就能够去实现我们的数据仓库当中的各种模型，模型建立起来以后，那么最终去支撑最上层的什么各种应用场景，因此大家目前看到的这张图片就是使用大数据的LADA加构实现我们的数据仓库，当然还有一一种加构是我们的卡A加构，那什么又是卡A加构呢？好，怎么找张图片给大家看一下，卡A加构它长什么样子啊对，目前卡A加工不是主流的方式啊，看一下我们的kaa加他们长什么样子，Kaa加工，嗯，好。
55:38
嗯。好，大家现在看到的什么？这张图面就是我们的kaa架构，那我们在kaa架构里面只有实时计算部分，因此呢，如果说你要使用kaa架构处理离线数据的话，系统的吞吐量会很低，因此基于这个原因，目前我们使用大数据方式构建数据仓库呢，主要的方式是使用我们的拉姆达架构，对好，关于这个里面各个组件涉及到的更加系统知识都被包含在了直播间下方的这门课程里面，从大数据到云原生，好这门课程里面包含了我们的什么？这个哈杜斯sparkcom flin卡不卡，那么我在2026版课程更新里面也把数据宏holding也包含了进来。
56:42
除了这些部分以外，还包含了我们的no to当中的mango d和也把do com和keep也包含在了这门课程里面。那么我们在学习大数据的时候，为什么要学习多ER和KS呢？因为我们可以把大数据的计算引擎，比如说你能够把你的18GFLINCOM部署在docker的容器当中，或者呢，部署在咱们的K80里面，通过使用这种方式。
57:13
我们就能够集成我们的大数据体系，还有我们的云原生体系，并且呢，课程提供完整的课程质量和答疑服务，好大家拍了课程以后呢，请通过私信把你的联系方式发送给赵老师，好一从讲到这个地方的时候，基本上今天中午呢，由赵老师要给大家分享的知识大概就剩这么多，好现在是1:27，赵老师呢，1:35下播啊，剩下的什么，剩下的时间答疑，或者大家去拍一下课程啊，拍完课程的同学请通过私信把你的联系方式发送给赵老师，新进直播间的同学点点关注，好，要问问题同学呢，把我。
58:13
屏发送到公屏之上，好，今天中午呢，由赵老师要给大家分享的知识大概就是这么多，赵老师呢，1:35下播哦，要问问题的同学们，请把问题发送到公屏之上，要排课的同学们。请把请点击直播间的讲解卡，拍完课程以后，请把我们的请把的联系方式发送给赵老师，云厂商的MMRSMMRS是华为的那个什么呢？大数据服务，通过MMRS呢，你能够去构建起数据平台主而去去实现数据的数据仓库的分层模型，DWS是数据分层模型当中的一层，你能够通过使用比如说华为的MSN服务呢，去实现MSN是华为的大数据服务，好这位同这位同学们听明白了没有，听明白以后呢，请给赵老师呢回复一个1啊，你刚刚的刚刚的的问题啊，好，要问问题的同学。
59:22
请把问题呢发送到公屏之上，要拍课程同学们点击直播间的讲解卡。没明白没明白，没明白呢，你给赵老师发个私信啊，咱们单独沟通一下，对单独沟通一下MMRS是华为的那个大数据的服务，通过他你能够去构建起一个数据平台，然后呢，去支持你的数据仓控，实现DWS数据仓库的分层模型关系是这样子的啊，听明白了吗？这回听。

展开

我来说两句

0 条评论

登录后参与评论

作者

赵渝强老师

【合辑】直播回放

（2/12）

59分57秒

【直播回放】国产金仓数据库的体系架构

3.1K0

59分57秒

【直播回放】基于大数据的数据仓库架构

2.5K0

59分46秒

【直播回放】国产数据库OceanBase

1.4K0

59分1秒

【直播回放260116】达梦数据库的体系架构

2.2K0

59分48秒

【直播260118】NoSQL数据库之Redis

3570

59分41秒

【直播回放260120】容器技术Docker与K8s

2.1K0

59分15秒

【直播回放260122】MySQL的存储引擎

1.4K0

59分58秒

【直播回放260126】大数据计算引擎Spark

2.9K0

59分57秒

【直播回放260201】PostgreSQL的体系架构

1.2K0

57分21秒

【直播回放260227】大数据Hive的数据模型

9400

59分34秒

【直播回放260309】结构化查询语言SQL

460

56分3秒

【直播回放260311】大数据计算引擎Flink

250

【直播回放】基于大数据的数据仓库架构原创

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐