00:00
嗯,那接下来第二层的我们用了什么组件。来想一想用了什么组件,第二层的from。什么south什么China什么。我感觉现在大家的延迟好像比较高。Fair China没有问题啊,呃,有同学说是memory China memory记错了,应该是什么?Fair China,咱们用的是fair China没问题啊,卡夫卡DFSOK,没问题啊。行,呃,那这个当中呢,其实有一个点就在于HDF这边如何防止小文件的产生。最重要的。是这个。对吧,小文件啊,如何防止这个小文件三个参数啊,对了。
01:02
对吧,我们可以滚动这个文件,可以按时间,按时间以及按文件大小,对吧,按文件大小来滚动这个文件。啊,来滚动这个文件啊,一般呢,通过这三个参数,然后同时我们可以在这里边启用这个压缩啊,蒋总说对了,大小时间事件对吧,就这个三个啊没问题啊,那之后呢,之后再导到我们的have里边啊,去做它的一个分层啊,这些东西的一个处理啊,这些东西一个处理OK啊,那have呢,其实have的面试题倒还好,无非就是问一些还的优化,其实关于这个东西啊,在面试当中或者笔试当中,最重要的就是现场写开口。就是出一个嗨课题让你去写,比方说大家还记得连书当当中给大家讲了一个叫七连三,七天连续三天的一个问题,还记得吗?现在还会写那个吗?
02:06
对,蚂蚁森林啊,蚂蚁森林呢,当时是北京的一个学生问的,然后那个问题呢,是。我我给他写的,当时他在面试啊,笔试,笔试他把题拍给我了,然后呢,我给他写了,给他发过去了。最重要的是黑课题,后面呢,我还会再给大家分享一些嗨课题。我还会再给大家分享一些嗨课题,就是说中间我们抽一些空闲时间,我头一间把这个题布置给大家,大家晚上回去做一做,第二天呢,我们利用中午的时间,对吧,大家这个准备要清醒的时间呢,我们去聊一聊,这个嗨口都是一些非常经典的面试题,但是大家不要因为我给大家去经常布置一些这个开课题,觉得面试过程当中开课题比较难,因为我是从以往那么多学生问我的,问我的面试题当中,或者笔试题当中抽取出来那么几道,确实难度呢比较大,但是确实呢也有很好的解决思想,帮助我们未来在写的时候也有很好的借鉴的意义啊,更多的还是比较简单的一些题。
03:16
就比方说两个表join之后呢,求sum count,然后开窗,类似于做这样的事情,求一个rank值,套N分组top n这种S呢是常见一些的啊,但是我会再给大家扩展一些相对来说比较难度比较大的,就类似于这种七连三,但可能比七连三这个难度呢还要大一些的啊,都有。啊,那其实have这一块最重要的就是嗨课怎么写,如果你嗨课玩好了,对吧,接下来就是优化啊,除了优化呢,还有一个地方就是他面试官,现在面试官有个能问啊,你包括那个0108他们毕业之后啊,有两三个同学被问到。Ha是如何翻译成MR的?
04:00
呃,被问到这个事情,就ha是如何翻译成MR的,那这个中间大家应该还记得have的组件当中有四个气还记得吗?对,你看孙总都会抢答了,我的问题都还没有说,他就已经打出来四个G了啊,由于可能延迟了,大家看到那个东西对吧,这样。解析器、编译器、优化器和执行器啊,但是你只知道这四个器不行,你要知道还有什么东西呢?你要知道这四个气到底干了什么事,他们对hacker做了一操作之后叫什么名字。对吧?哎,Ast抽象语法数对了啊,那如果说你需要对这个东西深入了解的话,很简单,在B站上面也有一套视频,就是讲have源码的视频,Have高级课程大家可以搜一下硅谷出版的,这是谁讲的我就不说了,好吧,对,Have源码课啊,你自己去搜,叫have高级硅谷的。
05:04
啊。可以去看一看啊,课堂上我就不讲了,因为这个也是比较。浪费时间的啊,肯定是我讲的啊,恭喜你猜对了啊。对。就是有一套这个源码的课程,源码课程啊,你可以去了解一下,呃,当中如果你只是为了面试,体验面试,如果你只是为了面试,那么你把我在那个文档当中画的两个PPT记住就够了。如果说你我不想去改源码或者什么样的东西,对吧,只需要去看那两个PPT,把它记住中间的流程面试就够了,对,还有3DX高级进阶没问题,你说对了。啊。对吧,在记住那个PPT里边的东西就OK了啊啊,那之后呢,咱们是将数据又导到MY里边了,对吧,那这个时候用的又是scoop。
06:03
啊,用的用的又是SCO来导出的,那之后呢,做数据的可视化,然后呢,可以用这个pres或者king做我们的。机息查询对吧,那这是我们之前的一套架构啊,那最重要的东西呢,在have里边我们做的分层,首先。分层,我们为什么要分层,以及分了几层,每一层是做什么事的,你得清楚吧。第二。在离线书当当中,除了这些circle之外,更重要的一个点是在于数仓里边的建模,对吧?那这些表你分层知道,那这些表应该是怎么建立出来的呢?这个是反而更重要的理论的东西基础,对吧?建模你要去重点复习的,就是说大家在复习离线收仓的时候,更重要的要看这个建模。OK吧,这是我们的离线架构,离线架构当中呢,其实大家我之前就说了,已经比较清楚,所以呢,通过我们回顾一下离线架构,带着大家稍微的把里边有的东西就过一过,点一些重点出来,同时我以卡夫卡为例举这个例子,大家在复习这些框架的时候,应该如何去复习。
07:11
对吧,一定要做啊,我在每个班强调,等我课快讲完了,我问,我说大家有没有做这个事啊,哪个事呢?就是说两个人定一个时间,先各自复习,然后定的时间到了以后,我们两个人互相问啊,然后到了课程快结束的时候,我一问没有做。啊说记不住啊,总是总是记不住,那你都没有做这个事,我说的事你不做你怎么可能呢。对吧,你尝试代码刚开始敲三遍。啊,刚开始肯定很痛苦,到最后你会发现越敲越轻松,就是你敲后面代码,哪怕第一遍的时候也会很轻松。也会很轻松对吧,这个一定要注意,一定要做,说的事情一定要做,OK吧。
我来说两句