00:00
呃,昨天把面试题讲完了,今天呢,给大家穿一下就是哪些,如果说你。呃,觉得自己学的比较差,或者时间呢不是特别允许。那么至少我要求的你是必须要会的啊,其他的你可以选择性放弃都没有。两个问题啊,到了最后的时候才告诉你们哪些是。这也相当于是你最基本要掌握的,那是哪一个呢?首先就是这个。I款完全不复是。这个完全分布式呢,没有任何的这个。你可以打折的理由,这里面准备虚拟机,还有分发脚本,集群配置必须搞定,那下面这个单机的启动你可以放弃。SSH必须搞定。群体集群必须搞定。那剩下的哪怕这个时间,这个服务器同步。你都可以选择去放弃这个启动呢,你就记住这个,呃。DS。下的是吧,啊start d FS就行,或者start这个对吧,啊这两个就OK,那基本上你也就记个六七个。
01:07
就OK了,其他的像什么这个历史服务器啊,日日聚集啊。可以选择性暂时先放弃。啊,所以说这块呢,要重点啊。至少要花一到两个小时把这块呢搂一遍。哪一个节点?那这就是入门这一块。从开发角度啊,纯是从开发角度,而且也是你时间不允许的情况下,那可以这么干,如果你时间允许的话,那还是要把之前的重点。那接下来呢,来到这个HCS。这块啊,我只需要你把哪块搞定呢。Ids骚操作。啊,就这么几个命令搞定就行,剩下下面这个API操作,以及它的L操作啊,你目前可以选择性放弃。啊,为什么呢?因为你到了工作中啊,啊。
02:00
遇到它的可能性呢,一般以目前这个市场来说,相对来说少一些。可能遇不到啊。所以说这时候呢,我们把重点时间放到这个这一块啊,这么几个命令就搞定了,包括下面这个下面这些啊原理性东西,这都属于面试题啊。呃,还有是电动的这个伏新节点,推进节点等等,这些都属于偏运维的。你真不一定能遇得到。啊,而且遇到的时候呢,回来一看笔记这边。的非常详细,所以说前期呢,呃,在你时间有限的情况下,就把赛稍微复习一下。啊,也是结合这个入门这一块,入门把集群搭完,那就是在这个机器上稍微的操作一下啊,上传下载查看。OK了,就那么四五个命令就行,也不需要这里面的命令全记住。所以说这的压力就小多了吧啊。光复一趟也就半个小时。应该就。那再往后面来,再往后面呢,是这个MA6。
03:00
卖60是这样的啊,原则上你时间允许的情况下,你要把整个这个word这个文档当中所有的案例全部交一遍。小时候的案例,如果时间不允许的情况下,那怎么办呢?挑重点,有这么几个重点啊,一个是这个word抗的案例。必须的反复的去理解一下,虽然说看着是最简单的,目前来说。但是呢,这个呢是原理性的东西啊,你要深入理解之后那。方便你后面去写这个程序啊,但是这一个一个比较代表性的,另一个呢,是这个序列化的一个案例,这个是必须必的搞定的。因为你在开发中只要写这个ma这个程序。传的基本上都是这种对象。偏多一些啊,装好的。那再往下呢,是这个阴部的,阴部的这块,呃,你只需要搞定。自定义这个案例啊,虽然说这个比较难。这个其实也不是特别重点啊,不是特别重。因为一般情况下有一些环境可能。
04:01
那这样把这个搞定。就是combine text input合并小文件啊,这个还是比较常用的啊,如何来合并一些小文件,尤其是对一些小文件比较多的。可以采用它哈。那剩下的不用管,下面这个沙这一块,这里面有N多个利,那这N多咖喱当中呢,分区必须搞。排序必须搞定。那至于这个commander。在看你的场景了。所以说你也可以先知道有这么个东西啊,这个后面如果用到的时候回来查这个文档就行了。这个分组你可以选择性先放弃啊,这个因为在review端嘛,Re,调端做的活尽量让它少啊,把所有的活呢,压到这个map端哈。这这块,呃,这个out put这个是必须要会的,因为后面我们在项目中啊,就是要用到它了。而且这个场景是比较多的啊。呃,再往下呢,是这个join join呢,你只需要记住这个map啊,你可以选择性放弃。
05:03
啊也没问题,因为呢,它有弊端啊。再往下呢,是这个数据清洗。这个数据清洗啊,你看着这个。或者说这个比较简单,但是真正的开发中呢,它是按照这个复杂版的这个去清洗的。至少你怎么去清洗,你要知道它要封装成各种这个定制段,然后是根据每一个字段的要求去校验。因为每个字段它有它自己的数据的一个含义,比如说这是成功是200,那两百的我就留下,那404的,500的就不要,那要把它干掉。这个呢,其实就是一个体力活哈,但是要求细心,非常之细心。呃,这是这些案例。再往下的话,这个压缩。压缩是一定要会的啊,压缩是一定要会的啊。这里面呢,是包括这个。迪和拉着罗啊。这两个是。中之重啊,中之重啊。
06:01
主要是在它的map输出阶段啊,Map输出阶段采用这个压缩啊这种方式。呃,这是这个,再往下呢,是这个雅。这是开发的话。这些呢,都属于面试题哈,都。但是呢,开发当中第六章。这个可不光是面试题,这个呢是要用到的啊,尤其是哪些呢用到呢。就是这些人调有三处。这些参数你可能是你最不愿意记的,但是往往在开发中呢?是最有用的。啊,这个参数呢,呃,你要至少要知道啊清楚。反复的去看两遍,加深一下印象啊,它不光是面试。它是开发啊。对,这是这一块。呃,再往下呢,是你要。有时间有精力的话,把这个top n。理解一下。啊,淘宝N的这个其实比较简单,就是定一个纯麦版集合啊。
07:04
如果说不从优化角度考虑的话,直接在这个reduce端把这个数据呢,所有的数据都封装到这个Mac这个集合里面去。然后大于十就往出删,大于十就往出删,那就能实现一个top n的一个。这个排排序哈,啊,这是。最终呢,在这个C里面往出一写。这个呢,建议你去写一遍啊,那剩下的其他的就没了。从开发角度来说就没了哈。呃,那理论上就你把这些案例给我敲一遍的话,也就花个。三四个小时吧。那前面的这个入门那一块呢,也就花一个小时啊,像那个HDS。花半个小时,我觉得就够了。再说加吧加吧,一起。得说今天下午到明天上午。怎么也能把这些东西再搂一遍。那这样呢,你从这个开发角度来说,你完全的去掌握这个东西。以后呢?呃,至少在毕业之前。
08:02
不需要再看这一块了啊。那剩下的时间干什么呢?就全力以赴啊,往后你看啊,学到哪你就看到哪就行了。啊,这就是最基本的你要掌握的,如果这些哪一块你没掌握,那你就有可能欠账啊,就会影响到你后面的。的一个开放。啊,反而呢,你这些都搞定之后啊,剩下那些边角料些东西,那属于这个附加项啊,或者说这个额外的加分项。前面这些能保证你达到90分,你再加后面那个,那可能就是一分一分的往上涨了。啊,涨的不是特别多啊,所以说你要把这个呃,最基本的是吧,考试这60分先拿到啊。这里面至少有九份。所以说要抓住重点啊。
我来说两句