00:00
呃,那么再往下走呢,咱们呀,来看一看关于我们这个分词对吧?我们说啊,那我们在使用我们这个elect的时候呢,那么它底层呢,使用的是我们的倒排索引对吧?这种方式来帮助我们存放数据对吧?那么如果使用倒白索引的方式来存放数据的话,其中有一个很重要的操作是不是就得分词呀,对吧?就果现在这个东西它怎么帮咱们分词呢?它的分词规则是什么对吧?它的分词规则是什么?那么这个呢,咱们得看一看啊,咱得看一看,首先呢,咱们先来看一看这个默认的情况下英文单词它是怎么来分词的啊,默认情况下英文单词是怎么来分词的,在这里啊,我们来看一看关于我们这个分词对吧?首先呢,要看一下我们那个英文单词对吧,我或者英文它的一个默认分词的一个规则对吧,规则那么怎么来看呢?那肯定也查询呗。
01:00
那么其中有一个啊,叫做咱们这个analineze对吧?这个呢,查询的是我们的分词对吧?前面加一个这也可以对表方示发送请求,然后呢查询,那么其中呢,那么你这里你可以指定我现在呢给你一个字符串,然后你对于我的字符串呢来进行个分词,比如说我现在呢有一个hello word对吧?哎,我给你的hello word之后,然后你默认这分词器,你会对我当前呢这个字part来进行分词,那默认分词规则什么呢?来运行看一下同学们,我整个是不是一个字母串来,但是呢,它在这里给咱们是不是分成了两个我们单词呀,一个是我们这哈动对,一个是我哈,另外一个呢是word,那也就是说英文啊,其实它们比较简单对吧?那么它在分词的时候呢,是不是直接按照咱们的空格,把我现在的这个这个这个这个单词给分了一下呀,对吧,这是我们英文的默认一个多少分的规则,那如果说中文呢。对这个东西吧,默认怎么来分的呢?对中文,比如说对我现在呢,在这里来一个是吧。
02:11
我是中国人是吧,假如我现在有一个这样的字符串是吧,那么咱们现在呢,这个默认分的规则什么样的是吧?来那么呢,现在呢,来看一看同学们这行发现默认他给咱们怎么分的呀,一个字,然后呢,他给咱们分了一个我们这个这个单词,一个字给分了一个单词,对吧?那大家觉得这种好不好。如果说这么分的话,我现在呢,有一部红楼梦的小说,对吧?然后接下来,然后呢,要让你存在一栏色置里边,方便进行全文检索,那这个严重了对吧,你想是不是把咱们每一个字都给它建立一个我现这个索引啊,对吧,其实有些没必要对吧,根本不是一个词,那你在查询的时候呢,他可能对吧,这个有很多数据进去对吧,所以说呢,这个不管是从存储还是从查询来讲,那么这种分方式呢,都不是特别好的对吧?那所以说呢,那么咱们针对我这种情况对吧?针对我们这种情况,那就得给大家介绍一些我们的中文分词器了,就是你以来测试本身呢,相对中文的分词就相当于没分,对,就是给你按照一个字一个字一个字分的对吧?那么咱们如果想按照我们现在啊,这个指定的规则,比如说我现在这里明明对吧,这个中国应该放在一起对吧,那你现在呢,你应该把它放在一个字对吧,中国人应该把它放在一起,这应该是一个子对吧,那这样的话,咱们如果想,哎,这个按照我的一个对吧这个分的规则来进行。
03:38
分子的话,那么这个时候呢,咱们需要去安装指定的分子器啊,需要去安装咱们的指定分子器,那么一说分子器啊,这个东西其实呢,一说同学们感觉呀,这个东西好像高大上都帮他们做分词的,但其实这个东西呢,对吧,基本上不用咱们自己去写啊对吧,那么只要什么呀,只要咱们拿过来用就可以了,对吧,常见的一些开源分子器对吧?那么这里给大家介绍几个,比如说这个smart Chinese对吧,那这个呢,是官方插件对吧,但是呢,对吧,中文这个分的效果并不是特别对吧,你想用这个单词,就这个词来形容,是不是肯定不是特别好对吧?然后呢,那么咱们这里呢,比较用的比较多的啊,像这个对吧,叫咱们那个IK对吧,分子器对吧,叫的IK分子器对吧,这个用起来呢,比较简单啊,用比较简单,而且呢,咱们在扩展的时候呢,啊,它可以只是自定义词典,就你觉得它这里边这个词不够啊,你可以自己。
04:38
定义对吧,定义起来呢也比较容易对吧,而且呢,而且这是远程远程词典对那这个地方给大家演示对吧,什么是自定义词典,什么远程词典怎么回事对吧?然后呢,咱们这个列势是什么呢?就是词库呢,你得需要自己去维护的对吧,另外一个不支持词性的一个识别对吧,大家注意啊,什么叫磁性的识别对吧,当前对吧,你啊的一声是吧,是形容词啊还是什么什么词对吧,那么这一块呢,它其实有磁性啊,有磁性在这边对吧,你们对这个词性还行吧,惨不忍睹是吧?哎,我觉得这个挺好对吧,这是一个形容词是不是对吧?那么咱们现在除了这个之外呢,还有短什么结巴分词对结分子,不知道为什么是吧,就是讲完这个这个来个之后呢,别的大家印象可能都淡漠了是吧,但是对这个接果分子器大家呢,印象很深对吧?说器什么,有一个分子器叫接果分子器对吧?那么这块呢,大家注意对吧,那么它呢,哎也是对。
05:38
还有一些啊,像这些你知道对吧,目前呢,有一些我们这个对吧,这个分词对吧,这些东西呢,都是开源的对吧,当然如果说我现在呢,要这个做一些比较精准的全文检索的话,对吧,那么一般的开源的呢,照着一些收费那些还是差一些的,对吧,你咱们现在拿这个东西和百度的分子技术,那还没法比的。
06:00
对吧?哎,所以说呢,那么咱们现在一般啊,假如说哎,我也想实验的功能,然后呢,对于我们这个分词要求又不是特别高,那AK呢,用的比较多对吧,AK又比较多对吧?那么具体咱们现在呢,这个IK分子器怎么来用,对吧?那么咱们需要呢,去把它安装一下,呃,那么如果下载你自己可以去我们这个GI上去下载。对吧?呃,然后呢,那我现在要用的话,曾经咱们在安装EL elect的时候呀,那我应该在给大家提供资料中,大家把资料都传上去了,Elor相关的资料那应该有三个,一个呢是al electa是安装文件,一个匹B安装文件,还有一个就是我们现在的IK分字器,对吧?这个东西呢,你先把它传到我们这个south下面去,对吧,然后接下来来到我们这software啊吧,来到五这个OPT south这个下边,那么在这里呢,你可以看到咱们现在啊,这里有一个elect search,它的一个分词,我们的个插件啊,分子插件,那一看到这个东西,咱们是不是应该先解压呀,对吧?那么解压到哪到解压到哪注意啊,那么当前它是作为谁呢?它是作为插件存在的,那么一般情况下,如果说我要是一个插件的话,那么应该有一个专门的地方来存放那个插件,对吧,在什么地方呢?来,我先打开一个我们的session对吧,来到OT model elect下边那么。
07:22
这里对吧,看一看你们觉得有没有哪个目录可能是放插件的CD对吧,CD啊,然后接下来那么咱们现在这里什么也没有对吧,就是我们现在如果要是想对吧,把这个A分器放在这里的话,那么这个时候呢,那你应该呢,把它给它解压到这里来,对吧?那么这个解压呀,我不知你们碰不这碰到这种情况对吧?说我现在呢,看到一个压缩包对吧?看压缩包之后呢,那我就忍不住的都去解压一下,然后右键解压,你们一般是解压到哪,解压到当前文件夹对吧?有没有碰到这种情况,解压完单前文件夹马上就后悔了。
08:01
发现这哥们没有过封装一个文件夹是不是,然后发现这个文件是散的对吧?而且里面文件特别多对吧?有没有这种情况,有吧,对吧?哎,所以说呢,咱们在解压的时候呢,那你需要谨慎一点,对吧?而且大家想一想啊,如果说我现在啊,在给给这安装插件的时候,如果咱们这个IK对吧,这个分子器,然后呢,你解压到咱们这个发器下面,它里面的100个文件,那么如果以后S再去安装别的插件的话,也有100个文件,那你说都放在一起,这个东西是不太好,所以说呢,有一个约定俗成的一个规矩,一般咱们在装插件的时候,那么每一个插件它应该是一个单独的目录。啊,不光是咱们的来是这样,就别的一般也是这样的,对吧?你可以看一看,像idea呀,Eclips呀,像在装插件的时候,基本上都是这样的,对吧?有一个单独plug in目录,然后在目下面呢,它可以安装很多个插件,对吧?那么咱们现在呢,那也这样,那么如果你现在呢,要去我们这个对吧安装的话,那不应该用我们这个碳去解压它,因为你看咱们现在这个东西对吧,是不是Z没呀,那么如果自己不解压的话,那么咱们现在是不是应该用按Z呀,对吧去解压,我直接呢把这个东西拿过来对吧?就按来解压,那么它要指定目录的话,那应该是杠D来指定压在什么位置,可意看啊an解压我们现在分子器,然后杠D解压到我们elect下面拉in下面有一个I key对吧?那么接下来咱们呢,去执行一下,那么执行完毕之后呢,咱们来到我们的一个model啊,然后呢,Search,然后进入它的一个practice里边,那么这个时候你发现这里是不是有一个IK呀。
09:41
对吧,那么这个呢,就是我们的分词器插件啊,这个就是我们的一个IK分子插件,然后接着接下来我们进入到我们的IK中,那这里呢,就是我们相关的一些我们这个分子器的配置,对吧?那么这里看一看啊,你可以研究的东西,下包,下包夹包加包下包,这个应该是一些什么practice,然后还有什么策略,然后这里还有个con,好像con它的一个研究价值大一点的,进入到con中,然后接下来,对吧,咱们这里一看到咱们这个这这些东西DCDCDCDC,你们觉得这应该是什么,是点吧,对吧,老师分词到底是怎么回事的,他怎么知道我现在在咱们这里边就应该把这两个字给我放在一起,然后写了一个词,对吧,他怎么做的,其实没有多难的,记住同学们对吧,那么你看一看咱们现在对吧,比如说呃,咱们这里对吧,比如说我现在呢,来看一看,我现在呢,这里边。
10:41
我打开一个字典看一看。对,你看一看他其实怎么做的。对吧,他把咱们所有的词呀,可能分的词都给你列出来了,对吧,比如说你看咱们现在一下对吧,这是一个词,那么如果以你的一个对这这个对你你的你给我一个字串对吧,我去一下就回来对吧,我我离开一下马上就回来那一下对吧,他觉得哎这应该是一个词了啊,这应该一层,然后你在搜索的时候,那他就可以从咱们当前这个里边把它给分开,对你在保存的时候呢,他把它把这三个字可以做一个词给它保存起来。
11:19
啊,那么这个呢,其实很多对吧,其实很多,你看这里边对就很多对吧,一个萝卜一个坑对吧,这是词对吧,一个萝卜一个坑对吧,一个鼻孔出气对吧A,所以说呢,在咱们这里同学们对吧,那现在呢,我知道啊,这有一个分子器了,对吧,那咱们现在是不是使用这个分子器呀,对,我现在把这个东西已经给我的elect是安装上了,那么怎么样去使用它呢?对吧,那么如果要使用它的话啊,那么这个时候呢,咱们呀,直接对吧把这个东西放到我们黑文件中,这就OK了对吧,但是别忘了咱们本身是不是集群呀,对吧,所以说呢,那么你现在呢,要把它分发到集群的别的基点上去,对吧,那么在这里我们呢,呃,来到。
12:06
上边把CD点点,CD点点对吧,然后接下来我们现在呢,把我们的I分割器给它分发出去,分发之前呢,先把ES给它停止一下啊,先停止XSNC,然后呢,AK对,把它分发到我们202和203上去,对吧,然后接下来es.sh那么咱们现在呢,去把它给启动一下对吧?那么启动完毕之后呢,那么这个时候同学们我把这个CTRLC保存一下啊。好,那么他现在呢,重新去刷新访问一下,那么如果你速度比较快的话,那么这个时候你会看到can service is not yet啊就果现在是不是重启了呀,对吧?重启完之后呢,那么咱们这会儿can还没有准备好啊,K还没有准备好,对,那你稍微等一会对吧?那么等can班备好之后呢,咱们进来对吧?呃,那么进来之后呢,那咱们现在就得来测试一下了,那么这里我们现在呢,它的一个默认分子器的情况,对吧?大家注意看,当你去执行的时候,原来咱们是不是我们现在问中国人啊,当你装了中这个分子器之后,发现没什么变化对吧,为什么呢?因为你要指定别用默认分子器了,对吧?咱们得用我们的IP分子器嘛,对吧,所以说呢,在我们这个下边对吧?那么你要去指定那个什么呢?有一个叫做我们这个分子器对吧,S。
13:28
那这些分子器对吧?那么当前咱们现在使用哪个分子器呢?那其实我们的IK分子器啊,它也有两个对,一个呢是帮你分的简单一点,一个呢是帮你分的详细一点,如果说你要想使用简单一点的话,那么这个时候呢,也可以用IK smart啊,就是我现在IK分子器里边,它呢用两种分词方式对吧,一个呢是简单的分对吧?那么咱们现在运行一下,大家看咱们现在在这力它在分词的时候,是不是把它们三个放在一起了呀,作为一个词,原来默认的情况下是一个汉字,然后呢一个词,现在呢,哎,这个东西他认为这三个呀,应该是一个词对吧?然这个除了简单之外呢,那还有对吧,还有一个对吧,那么这个呢,除了IK smart之外呢,还有一个叫什么呢?叫ma wordd,对吧,大家可以看到在咱们这里面有个叫I k ma wordd对吧,那么这个呢,它分词分的更多一点来,那咱们现在呢,来看一看我的去执行。
14:29
对吧,在咱们这里对吧,我去运行一下,大家看现在在咱们这分词的时候,对吧?除了它之外,这个是不是也给他对吧?中国国人是不是也给咱们这个分成单个的词料对吧?那么以后你要想查询的话,注意我要想查询对吧?那么他会把国人给他匹配出来,把咱们中国匹配出来,把中国人给匹配出来对吧?这个呢,就是我们的分子器啊,这个呢,就是我们这个分子器对吧?呃,那么把这个分子器简单了解好之后呢,那接下来说情下。
我来说两句