温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
好,接下来讲一下第七章卖就是扩展案例,那第一个呢,就是倒排索引案例。索引都知道啥意思吗?就检索啊,啊,你们之前也讲黄买S扣是吧,那倒牌所以。说过一次对吧,包括你们后面还会学什么呢?呃,Search。ES解锁还有什么R是吧啊。的啊,都是这个倒排索引,其实就是一个查询的一个引擎啊。那我来看一看西九。这样的。有大量的文本啊,文档网页需要建立搜索索引啊,如何。4.3往下看啊,呃,这有三个文件啊,ABC3个文件里面你看一看都存的什么内容。EXI硅谷。还有爱的硅谷,这个是拼拼。找谁呢?听听宋总啊。等等这么多内容吧,这么多单词。现在要求什么呢?
01:01
呃,要求对这些词进行统计。统计每个单词出现的个数,那个同学该说了,那你这不就是what看了吗?只不过现在需求变成什么样了,变成这样。在呃,在这个IV5c.T里面出现了两次。b.TD里面出现两次。a.TT里面出现三次。哎,并不是说这个爱硅谷在三个文件当中总共出现了。统计。这是每个小件里的。统计这个的这个aa.t加D里面爱的度出现多少次,听出现多少次,送成出现多少次。
02:00
有没有思路?啊,这里面呢,我们分两步来做。第一步。我将统计这个I的a.T里面。怎么统计呢?艾特硅谷a.T。然后出现了三次。单独去统计。那同学你怎么实现这个单独统计呢?我在遍历这个a.TD这个文件的时候,能不能拿到这个文件的名称?可以吧,那我在设置P的时候,就是这个单词加上这个文件名称,注册P。那这个K会不会跟b.T里面的。不会吧,哎,不会不会的话,他是不是就单独累加了。就实现这种效果了。这个单词加上对应自己的文件的名称为P。那这样呢,就能独立的积分出来了。那切分出来之后,最终怎么能形成我最重要的结果呢?
03:01
那这就变成输入文件了。注册文件之后,我让中间这个杠杠对它进行一个切割。切割完左侧的这个单词又为P了。那是不是这些内容都能打到一个里面去。打到一个就是里面去,我通过字符串的一个拼接替换,将这个空格替换成。在末尾再加上一个杠T风格。啊,我就是通过中间把这个中间啊,用这个杠杠给它切割出来,切割出前面这个单词为P,那后面的内容。我就要通过这个build啊啊啊等等一个拼接就能拼接出。总之你这个拿到后面了吗。最多分两步走。叫job的串联。一个job运行完之后啊,根据上一个job的运行结果,我再启动再运行。
04:04
好,那下面呢,我们来看一看具体如何来实现。
我来说两句