00:00
哈喽,上硅谷的朋友们大家好啊,今天给大家带来的呢,是h base的课程,那h base呢,作为当下比较火的一款非关系型数据库啊,人称呢航空母舰。那喜欢踢足球的同学呢,肯定都知道啊,航母呢一般都不好开啊,动不动呢就容易翻船啊也一样,那如果你把H当做一个货轮来使用的话啊,这个太简单了,能启动就行啊,但是如果你要你要想发挥H全部的性能的话,那没有一点功力啊,想必是很难做到的啊,那这里呢,就跟着我们的课程来一起去学习这份功力啊,那首先呢。它有依赖的一个框架,在学习这门课程之前呢,要求大家诶,提前呢有大数据的一些基础啊,这个基础的框架呢,包含有哈杜普和组K啊,先不要着急退出去啊呃,这个对哈杜普和组kar呢,虽然有依赖啊,但是呢要求是非常低的,能启动就行啊呃,你只要能够在你的虚拟机里面启动哈和主K提供给我们is作为基础的一个使用就可以了啊,并不要求呢大家对hard和组keepper有很深的一个理解啊,这是它的两个依赖框架,除此之外呢,我们的I base还会整合两个框架。
01:20
一个框架叫Phoenix,一个框架叫这个Phoenix呢,号称H的皮肤啊,有了Phoenix之后啊,你操作H就会变得非常的流畅,手感非常的丝滑。那这个have呢,就不必多介绍了啊,只要是做大数据开发的,相信都听过have啊,是我们大数据行业里面中流砥柱的一个框架。那呢跟have兼容在一起啊,相呢,使用起来呢相会更方便一点啊。好,这是我们依赖的框架和整合的框架啊,介绍完之后呢,我们就来看一下我们课程会讲述哪些内容。第一部分呢叫快速上手啊,就是帮助你把航母当做货轮来看啊,快速上手里面分为三节的内容。
02:04
第一部分叫原理简介啊,我们这里呢,会从设计理念开始入手啊,给大家呢详细的介绍h base它的一个模型设计,存储架构啊,以及它的一个基础的一个结构啊,它是如何依赖哈度和组K的啊,第二部分呢叫安装部署,我们了解完它的架构之后呢,就在我们的虚拟机上面啊,部署我们的H,同时呢,会给大家启动高可用的一个服务啊,你使用起来呢,安全性更高啊。第三部分叫使用操作,我们H的使用操作呢,分为两部分啊,一部分是shell命令行,操作非常的简单便捷,直接在本地就可以进入到一个shell客户端当中啊,输入简单的命令就可以来使用h base了啊,但先有的命令呢,往往是不够的,对不对?我们还是要对应的API。那有了API操作之后啊,你就能够很好的跟别的Java代码兼容在一起了啊,使用起来呢,也就更灵活一点了啊好,学完第一部分快速上手之后啊,可以说啊,你就已经能够安装部署H,同时进行一些基础的操作了啊,再往下我们就要去学底层原理了,第二部分底层原理呢,包含有五部分内容。
03:20
第一部分叫进程架构,哎,我们知道我们学的呢,都是Java的框架,那Java框架呢,在启动的时候都会启动一个一个的GVM训啊,那它都是一个一个进程,在h base里面,它会启动两个主要的进程,一个是master进程,一个是region server进程啊,也是常规的分布式的这种老大带着小弟的一个模式。在里面呢,都会有非常多的一个线程服务啊,这个呢,我们放到正文里面再去详细介绍好,再往下呢,我们会接触到h base的写流程和流程啊,那它既然号称航空母舰,这个飞机的起降啊,相信都是非常重要的啊,效率一定要高,对不对,哎。
04:04
那对应在正文里面呢,我们会详细的介绍写入的顺序啊,还有一些特殊的机制啊,以及呢,它是如何保证效率的。再往下呢,我们会介绍文件的合并啊,文件的合并呢,有两种大合并和小合并啊,为什么要合并呢?还是那个问题啊,数据量太大了。数据量太大的时候呢,你如果不定期的对你存储的数据进行整理的话,哎,那它经过时间的累积啊,效率会降的非常的多啊,效率会变得非常慢,好再下一部分呢,叫region的拆分啊,Region的拆分就跟我们常规理解的分布式挂钩了啊,如果不把一个表格一部分一部分的给拆分开来的话,那它只能由一个节点来服务啊,是无法实现分布式的,通过re的拆分把它放到不同的节点,能够实现分布式的一个功能啊。好,这是我们第二部分叫底层原理啊,学完底层原理之后呢,你的内功就已经大成了啊,在进入到第三部分企业开发,诶,这就开始练招式了,我们it的招式呢,有两部分组成,一部分叫TSDB模式,这个呢是当下大数据比较火的,叫时间戳数据库啊,也叫时间戳数据库的一种表格模式,这种模式呢,会在你的表格里面直接记入一个时间戳啊,那你在读数据的时候呢,它会按照时间的顺序,把这数据呢,一步一步分的呢,给它罗列出来啊,能够记录下。
05:31
你所有记录数据的变化的一个过程啊,每一个变化的细节都能给它记录下来。那你如果想使用这种DSTSDB模式呢,相对是比较难的,你需要进行专业的设计,也就是创建模型啊,那相信呢,如果呃。各位同学们有学习过我们上硅谷数仓的课程的话呢,对这一部分应该是有一定了解的啊,那我们呢,只需要结合h base的原理,就能够完成非常优秀的一个OK设计了啊。那第二种使用模式呢,叫基础的表格模式,那在企业开发当中呢,他们有时候不太会去用到这种TSDB的模式,他们只希望呢数据存储好像买circle一样,搭建成一张一张的表格。
06:14
让这些表格呢,能够彼此之间进行交易,进行数据分析就可以了啊,那这种模式呢,相对在企业里面呢,使用的会多一点啊,如果你想走这种模式的话,有两个选择,第一个选择自己写API。啊,这个自己写API啊,相对来说工作量啊,或者是难度啊还是比较高的啊,那我们呢,相对更推荐使用整合的框架,那整合谁呢?就整合Phoenix和have啊,最推荐的就是走这个Phoenix Phoenix和have它擅长的领域不同啊,我们应用的场景也不同,如果你跟Phoenix整合的话。他擅长的是读写数据啊,把Phoenix套在have上面,我说过了,Phoenix是一个皮肤,让你的手感更丝滑啊,使用非常的流畅细腻啊,那你如果是跟have进行整合的呢?这是一种啊,迫不得已的一种情况啊,我们需要呢,对数据库里面的数据呢,直接进行复杂的分析处理啊,按道理来讲,你的数据应该在数仓里面分析处理的对不对,但是如果有对应的需求的话,让have来做也是可以的。
07:20
那这整套下来呢?从快速入手底层原理到最终的一个企业开发啊,帮助大家呢,彻底的理解。
我来说两句