在Elasticsearch中默认的分词器对中文的支持不好,会分隔成一个一个的汉字。而IK分词器对中文的支持比较好一些,主要有两种模式“ik_smart”和“ik_max_word”。
Elasticsearch中文拆分测试:
安装IK分词器
方法一:在线安装IK分词器,注意:必须保证centos系统是联网的。
IK分词器的GitHub地址,选择跟自己的Elasticsearch对应的版本,本文使用的版本是Elasticsearch6.1.1版本。
找到IK分词器的6.1.1的地址然后使用elasticsearch-plugin命令安装:
方法二:离线安装IK分词器:
上传安装包到Linux服务器,然后解压到:
进入解压好的analysis-ik目录:
将elasticsearch目录中的所有文件移动出来,删除elasticsearch目录:
启动elasticsearch:
测试IK分词器的ik_smart模式:
ik_smart:会做最粗粒度的拆分,比如会将“在潭州教育学习”拆分为“在,潭州,教育,学习”。
测试IK分词器的ik_max_word模式:
ik_max_word:会将文本做最细粒度的拆分,比如会将“在潭州教育学习”拆分为“在,潭州。教育学,教育,学习”,会进行各种组合。
至此,Elasticsearch中搭建IK分词器成功!
领取专属 10元无门槛券
私享最新 技术干货