00:00
好,接下来我们看一下那个与have的一个集成,就是说之前提过,我们目前学的呢,两个分析框架,一个memory,一个have,那h base呢,它是存储框架,那我们要想对h base里面数据做分析,那肯定要跟另外的一个什么。分析框架来结合使用,来结合使用,那之前讲的MA6,接下来看一下这个have,首先我们还是要聊一聊这个跟have的一个对比啊,对比这块面试题当中有涉及到,但是问的公司比较少,因为它其实是两种框架,Have呢,它是一个数仓,就数据仓库,它指的是什么意思呢?数据仓库后面。有专门的项目会讲,因为所以说前面关于收藏的一个东西呢,干掉了,因为讲了也不用啊,大家听着也比较懵,收据项目它是其实本质是与IDFS跟MYL当中做了一个双数关系啊,就是have在中间对吧,它这个原数据保存在白L,然后实际数据保存在IDFS啊,它它把它俩做为一个双数关系,就是还来做的对吧?啊就把它俩对应起来的,是这个意思,是这个意思,但你要知道就have它本身是任何数据都不存在吧。
01:11
那原数据放在对吧,实际数据放在这,Have,它压根就不是一个什么任何存储框架,他连原数据都不存,你还能说它这个存储框架吗?对吧,它就是纯粹的一个分析框架。纯粹的一个分析框架,然后它的一个语言呢,就是这个海口语,海口它用于数据的一个分析清洗,就是说往那个数据仓库里边放东西,要经过汉果一个分析清洗,应该有一个ET。大家听过吧,数据清洗对吧,但是实际呢是什么。这三个单词。I。啊,测试测是什么一个数据ETL是这样,ETL是数据的加载抽取和转换啊。
02:01
啊你啊你你理解成了erk是吧,Erk是三个框架,Erk是三个框架,这是三个单词啊,三个单词数据的加载抽取和转换,转换就是我们所最多的接触最多的就是一个数据清洗,那常景它清洗是不是加载转换抽取等等这些内容啊啊就是一个数据的一个清洗是接触最多的,然后有专门的公商中有专门的做这个ETL的,ETL的那就ETL叫ETL工程师,就是跟着业务线走业务线。要分析什么内容呢?那你就要按照什么需求来写那个map,或者说写这个开来跟着分析走。ETL工程师呢,我建议大家做不要累。钱也不多,因为它技术含量相对来说比较低一点,而且他加班特别严重,因为跟着业务线走,业务线逻辑一变,不好意思,前面数据全部要动,那你就只能晚上加班,把它这个数据准备好。数据准备好啊,就是它是给业务线做数据准备的,因为它是清洗嘛,对吧,那业务线你不能说业务线真正的跑的时候,后面写什么M6代码,然后写4SPA个代码的时候,他读进来数据有脏数据,一堆空字段,这不合适吧,所以说他就要前面做清洗,或者说业务线呢,你本来从后台传过来的十个字段,或者说20个字段,那业务线它可能只要十个字段,对吧,为了保证业务线的运转流畅呢,那你要提前把这十个字段抽取出来啊,那你就是完全跟着业务线走的1PL可能是比较累,而且技术含量呢,相对来说比较低一点啊,比较低一点,嗯,你数据清洗你能感觉到了之前所讲的。
03:38
就是做一些什么判断字段啊,违规空啊,判断字段合不合法呀,就是说他本来20个字段,然后有的数据只有十个字段,那直接过滤掉了,就干这种事了吧,啊,但是他跟业务线走比较加,加班比较多啊。然后后面呢,还有就是它的一个本质,本质真正的就是说他把数据啊存在D,然后他跑数据的一个引擎。
04:01
是MA6吧,哎,核心还是走的是MA6,核心走的MA6,然后呢,它的一个。落点就have。这个落点是分析框架,这你要记住的对吧,因为它不存这种数据,那h base呢。是存储框架网,你看他俩本质都都都有差别的话,但是有的公司可能会问这种问题,但是你要聊清楚,跟他啊聊清楚,它其实是一个面向列的一个非关系型的一个数据库。啊,非关系的一个数据库是这样的啊,存储数据的,它也是存那种结构化的一个数据吧,啊结构化的一个数据,然后呢。它是基于HDFS,延时较低。啊,延时较低,可以接入这个在线业务的啊,可以接入在线业务的啊,但正常的现在来说,嗯,直接把HP接入在线业务相对来说比较少,因为它含有一个更好的框架叫麒麟K,大家可以了解一下,这个里边它可以将那个H倍子的数据啊,它麒麟是跟H倍子进行对接的,然后他会将H倍子的一个数据啊做一个抽取,就提前建好。
05:11
按照维度把数据分析好,然后再去干什么,再去以供前台调用,那样的速度会快很多,会快很多,当然它的一个延时较低,你如果说直接想就想拿一下什么,所有的一个数据详情,那你把H接到一个在线应用务也是可以的。啊,当然这个也是可以的,因为它这个延时相对来说还是挺低的啊,还是挺低的啊,这你要注意的,然后核心的区别就是还它是一个分析框架,然后这是一个存储框架,而且你要知道它是一个面向列的,面向列的一个非关影的一个数据库啊,非观影的一个数据库,然后它这个数据呢,还是存在这个SDFS,最终在HDS上的一个形式,H file h file啊这始终强调的它不是说它是HP当中一个什么组件嘛。它不是一个组件,它是一个文件的一个格式啊OC啊,花费的这种内容是一样的啊,一样的OK。
我来说两句