00:00
啊嗯,那昨天呢,我们是讲的从这个have集成这块来讲的,然后大家主要关注的就是have跟h base的一个对比啊,这个东西要在面试的时候要聊得出来,然后像后面那个集成使用的这块呢,你要注意就是这个东西啊,你知道有这些,他们俩可以互相集着使用,然后有有一种什么,哎,两个。就是have表跟表可以同时建表,还有一种呢,就是当中数据已经存在了,然后你建立一个什么have的一个外部表来关联这个数据嘛,啊,这样也能查到这两种方式。至于。像那个类啊,没必要记了吧,你知道有一个东西,然后你用到的时候,你过来粘一下就行了,你自己不是不是之前要求大家自己形成自己的文档,对吧?啊,你把这个粘过去,就是你用了,你在公司开发的时候你也粘啊这些东西,你说把这个类记下来有什么意义吗?没有任何意义,对吧,但是你要知道这个知识点啊,知知识点知道,然后至于这里边真的怎么写。
01:03
这个类怎么写,然后还有一个点就是这。这是固定写法,然后后面想想看,这个什么inform name都是你自己h base表里边内容啊,对吧,所以说这块是可以自定义的,但是你不要这块,你认为它随便来一个什么key都行啊,这个不是的啊,这个是固定写法,就是代表它这个入key的意思,其他的啊都很随意,其他都很随意这样的,然后整个的东西呢,你知道。他们俩能集成,然后具体的细节内容呢,不需要记了,不要刻意的去记了啊,记了也没有没有什么意义,然后你记住的时候,你自己去敲呢,还有可能敲错了这块的东西,敲错了就不值当了,是吧。好,然后就主要是这两种方法,还有一个就是这个load,要要注意这个load啊,当给家演示了是吧,这种load的方式呢,它是在have跟表里边呢,是不能够直接加载数据的吧,啊原因也跟大家提了,因为h base当中呢,它是用这种h file的一个形式来存储文件的,而且它底层存在呢,没有什么string啊,In啊等等这种类型,只有。
02:03
拜的输组吧,啊,只有直接输组,那所以说它这个漏的这种方式呢,其实我们也知道从本地漏的呢,就是put上去的,然后从SDF漏呢,就是MV过去的,移动过去的,那它根本不改变这个文件的任何的一个形式吧,啊,所以说它用这种漏的方式而加载不进去那个h base的一个存储目录的啊,这你要知道的啊点。OK,然后要要往这里边加载呢,都是通过你色的这种方式,这种方式就没有太大的一个意义了,你本来要做对一个数据做分析,对吧,然后你说分析之后呢,你还发现,哎,这个数据还不能漏进去,还非得通过一色的从另外一张表查询这种方式,那你另外一张表里面数据不是全的嘛,你直接对这张表进行分析不就完了嘛,对吧,所以说呢,在公司当中,像这种情况用的相对来说少一点啊,更多的还是。这样的一个需求啊,需求现在大陆区公司呢,一般都是先有的数据,然后再考虑,你像那种中小型公司,现在去年年底的时候还持观望态度,但今年今年年初开始,从三月份开始就开始大量招人,是因为他们也是积攒了一定数据量,然后开始做这个大数据的一个规划了啊,就是先有的数据,然后再考虑它的一个分析,所以呢,这个数据原始我们是存在倍当中,现在我们要分析了,那你可以通过什么。
03:25
Map给它读出来做分析吧,那你要觉得map写的太复杂了呢,你可以关联一张have表吧,然后写开口来做分析,这也是可以的,那这种一个业务场景要比刚才上面那个应用的要多得多啊,刚才那种呢,就比较就是主要是让大家感受一下,哎,这两张表可以关联的,哎,同时建起来啊,能体会到base跟have之间的一个关系,一个关系是这样的一个情况啊,这种是大家要记住的,就是说但是你记住的发现它两个介表语法呀等等这些东西完全一样的,对吧?哎,一模一样的啊,只不过说如果说H倍当没有表呢,它是把H倍当表给你见了,如果有表呢,那就直接是关联的,关联的是这种情况啊,这你要注意的一个点就OK了。
04:09
后面是我们讲的这个优化,然后是高可用这块,高可用这块呢,大家是要记录一下,它是加了一个配置文件啊,加了一个配置文件,专门的一个配置文件,然后把它配进去啊,它就能形成那种一个active,一个standby这种模式,一个standby模式,OK,然后是后面整个优化当中呢,我们最重要的是A分区和rie的一个设计。啊,Rookie的一个设计这块大家应该到现在应该还是相对来说比较晕的一个点是吧,没办法,这块是只能跟业务需求,那应该通过你们后面做一个。电信项目,电信客服那个项目,那这个里边呢,也有关于这个rookie的一个设计,还有预分区,那那个时候你们应该能呃,更了解一点这块的一个东西啊,更了解一点这块东西啊,这块的一个东西呢,光空讲没有什么意义,你看在单讲预分区的时候,你预分区线随便想怎么设置怎么设置吧。
05:05
对吧?啊,我只随便甩几个字母啊,甩几个数字进去就行了,但真正的公司当中应用的时候肯定不可能这么随意的,因为分区线跟什么跟入的一个设计啊,肯定是分不开的啊,这两个东西是息息相关的,预分区键啊,咱们是设置预分区键是为了将一张表啊,提前建好分区对吧,提前建好分区,提前建好分区就是为了不让他自己做切分了,防止那种。数据倾斜,那你就算做了预分区键,设置了预分区,你要防止数据倾斜,你还要在你导数据的时候,尽量均匀的分散到什么各个分区当中嘛,啊各个分区当中,那这一块肯定是由rie加上你什么。分区键共同控制的啊,因为分区键相当于一个挡板,然后把你的rookie呢,挡在两边,挡在两边整个是这样的一个情况啊,是这样一个情况,所以这两个东西一个设计是分不开的,然后肉K设计,如果单独聊的话啊,它有三个原则,一个是长度原则,你得知道啊,就是最大能到得到64K是吧,那一般应用当中呢,70~100个字节啊,这是长度原则,还有一个唯一性原则啊,唯一原则讲的就是在一张表里对吧?啊,在一张表里边,它这个rie必须是唯一的,唯一的。
06:22
还有一个就是散裂原则啊,它三大原则,散裂原则就是为了跟这个。与分区键啊做配合的,让它放到不同的分区里边啊,放到不同的分区里边啊,这块要注意一下,就是这两个东西要注意一下,然后后面关于内存还有基础优化,都是一些配置文件的一些值啊,这个东西大家先看一看,能记多少记多少,后面呢,呃,专门的还要背这块的一个内容,对吧?啊,这是就相当于要大家记住的一个东西,特别是这个东西记住啊,就是面试的时候有用。真正开发的时候,你真的要做优化了,你自己肯定再去查的,你不可能说就凭你记忆当中的那个优化手段的,你肯定当时是情况而定啊,分析出来应该怎么去优化啊,肯定是这样的,所以说这块的一个内容,关于优化这块内容啊,一定是面试当中。
07:08
体现的啊,最为多的,最为多的无论是哈多也有优化对吧,还等等,还有后面那些SPA,就是公司,如果再问的话,就是那种,如果说非是小公司,小公司的话,他是没有业务,就是你去了,可能他刚组建团队,这种喜欢问什么呢?问业务就是你公司,就是你的项目当中问业务,他因为他也不懂技术啊,不太懂技术,所以他不聊这些,但是相对来说稍微成熟一点,已经有大数据部门的一个公司了,优化备本。优化是必问的,但是他不不会直接问你什么什么,你在工作当中用的优化手段是什么,不会这样问,他只会问你是你,你在之前工作当中遇到什么问题,你是怎么解决的,对吧?这不就是优化吗?你遇到问题了,有很多问题都需要优化吗?他用这种方式来问你的一个优化的啊,问你的优化的,这就是我是我一直强调就是后面大家做项目的时候,一定要每天要对自己一的项目进行总结啊,每天做对自己的项目进行总结啊,因为你到时候背面试题,面试题有很多对吧,你再回来看项目,就我不知道没那个时没有那个时间啊,没有那个时间这块啊,要注意一下。
我来说两句