00:00
那我们现在知道啊,同学们这个分子器,它分子原理是不是就是它整一个文件,文件里边给咱们存了好多单词,然后咱们现在用我们现在这个单词和它里面去匹配呀,对吧?但是呢,那么有可能你这个IP的版本稍微老一点,对吧,然后呢,我现在呢,有一些这个网络新词对吧,它本身在咱们这个原来词库里面并没有。并没有对吧,比如说对这个这个。对吧,比如说咱们现在在在这里对吧,我有个蓝瘦香菇对吧?那么咱们现在在IK分子器里边呢,那就可能没有对咱试一试啊同学们,假如说呢,那我现在在这里,我把这个东西啊改了对吧?改成什么呢?改成蓝瘦香菇了对吧?在这里啊,我现在把这个东西改成蓝瘦香菇对吧?然后接下来这块呢,咱们也改成蓝瘦香菇啊吧,来把这个也改了对吧?那大家想一想,那么如果说我这么去分词的话,香菇应该没问题吧,我觉得不管什么分子期,它应该能够把咱们香菇认成一个词。
01:11
对吧,但是个蓝数呢,我估计够呛都没够呛来运行,你看一看,大家看咱们现在蓝和数是的给它单独分开的,但是现在啊,人家这个这个流行的就个难受对吧,现在对吧,比如说成前困的很难受,对吧,这这这这这样对不对,那么现在呢,这个词是吧,很火对吧,这个词很火,那我现在呢,想把这个东西也作为一个咱们现在词对吧,给我分一下,那你光用咱默认的一个配置是去不太行了呀,那怎么办呢?那我需要呢,去自定义我们这个分子器。啊,我需要去自定义我分分子器,那么怎么去自定义呢?其实这个东西啊很简单对吧,如果说呢,你要想自定义分子器的话,那么这有两种方式,一个呢是咱们这个对本地指定,一个呢是远程指定,那咱们先来看第一个本地指定啊是怎么回事,那本地土地是怎么回事,对吧?呃,来到这里对吧,先呢把它ES呀,给它停一下对吧,先把它ES停一下,然后接下来这个呢,当前是在我们的IK分割器里边,那进入到我的IK分器啊那么肯定呢,得从它配置文件下手吧,对吧?那第一种方式进来vim慢点对吧,什么呢,慢点点C往这里面加呗,没有函数,函数给加一个呀,对吧,但是大家想一想,人家这些东西,是不是把这字点人家都已经分好类了给你了。
02:43
对吧,你看这这些东西是不是人家分好了,分好多字典给你的呀,你去咱们这个对吧,去修改人家他给默认提供词典,所以是不不太好啊吧,那我现在其实也可以自己去定义字典,比如说啊,那么在这里我呢有一个对吧,这个定义个名称对吧,这个叫什么名称,随便找一个,我这个叫my word test对吧,比如说那在这里我呢叫my word test对吧,我现在呢,在我这里边难受是一个词对吧,然后呢,咱们这个蓝受相菇对吧,是一个词对吧,这是我自己啊,它指定的一个分词规则对吧,只要你看到它蓝受,那你应该做一个词对吧,我现在把它呢要作为字典对吧,在这里把它要作为字典对吧,那他想想,你不能说你随便来一个文件,我就作为字典吧,对吧,那就不行,怎么办呢?我得知道你现在这个东西啊,这个my world test它也是一个字典了。
03:39
对,我得知道,就你当前的me test也是一个字典啊,对吧,那怎么办呢?对吧,在这里我需要去改一改,改什么呢?进入到我们这个IK,有一个叫analyer的一个CFG插麦文件里边,然后接下来打开对吧?那么对于这里的配置大家家应该能看懂。啊,对于我们现在这个配置文件中,它的配置啊,应该能看懂。
04:08
大家看这个东西是不是在扩展配置啊,用户可以在这里配置自己的扩展字典,对吧?那咱们已经告诉你了,你可以在这配置自己的扩展字典,那我就来呗,我的扩展字典在哪呢?是不是在当前目录下面有一个叫my word.t there,对吧?那么这个呢,就是我们现在我自己的一个扩展词典,对吧?我给他保存一下,也就说除了它会去它本身自带的字典里面去找我这词的话,它还会到我自己D的扩展字典里面去找。啊,他到扩展字典再去找,然后这里面有一个什么呢?有一个啊,用户可以在这里配置自己的扩展停止词字典,什么叫停止词呀,这些东西对吧,那比如说对吧,在咱们这里对吧,就是我们一般在一个文章里边,大家注意你不管是谁写作文,假如我说你们写一个300字的作文,我估计你们文章里面肯定都得有邓。
05:05
对吧,我估计你文章里面肯定得有都跑不了,你不管写什么,我就我我我感觉离不开这个字对吧,如果英文的话呢,更更更厉害,A呀the呀得什么这些东西对吧?那你说这些东西有必要参与到分词嘛,对吧,你说我现在说哎我现在对吧,把什么的给查出来,这没没没什么意义对吧,所以说像这些东西呢,你可以配在一个单独的字典里边,所以什么呢?所以停止词对就把它们不要往一块断过分词了,对吧,这个呢就叫停停止词对吧,哎,那我现在把这些东西配好之后,那么接下来我要干什么呢?来在这啊,我现在呢在这里把这配好,配好之后呢,那接下来咱们需要去做我们现在的个同步对吧,那么主要呢,分发到这两文件,一个呢是我们这个IK,那么另外一个呢是my word,把它呢去分发到我们这个202还有203上对吧,XYC,一个呢是我们的IK对吧,这个分发一下对吧?那么另外一个呢,XXYC啊这个呢是我们的my test,把这个呢也分发一下。
06:06
啊,也分发一下,那么分发完毕之后呢,那么这个时候去启动我们现在这个服务,对吧,来ES点我们这个大的,把这服务重新起一下。把这个服务重新起下对吧,那么咱现在啊来看一看,我当前的这个服务起完之后呢,他肯定要稍微过一会品的才能起起来。来是吧,那么咱们现在起完之后呢,那么在这是吧,那我们来看一看同学们对吧?来看一看什么呢?首先来看一看咱们现在IP smart它这个分子效果对吧,大家看一看蓝瘦相菇整体这就一个和原来不一样了吧,原来来说的是不是认为不是一个词啊对吧,现在他认为蓝树相菇这是一个词对吧,但是呢,它划分的是不是这个东西对吧,这个比较少啊对吧,那如果说我现在想分的更细一点,对吧,那这个时候对吧,整体是一个来就是一个相菇是一个对吧?那么像这两个东西是不是咱们现在在我这个分词规则里,分子词典里边自己来制定的呀,对吧?哎,那么像这种呢,就属于我们这个自定义,我们这分子器对吧,这个就属于我们这个自定义分子器对吧,其实这个还是对吧,这个比较方便的对吧,比较容易的对吧,好了,那么咱现在呢提一下。
我来说两句