某个词组在Elasitcsearch中的某个document中存在,就一定通过某种匹配方式把它搜出来。 举例:
title=公路局正在治理解放大道路面积水问题。
输入关键词:道路,能否搜索到这个document呢? 实际应用中可能需要: 1)检索关键词”理解”、”解放”、”道路”、“理解放大”,都能搜出这篇文档。 2)单个的字拆分“治”、“水”太多干扰,不要被检索出来。 3)待检索的词不在词典中,也必须要查到。 4)待检索词只要在原文title或content中出现,都要检索到。 5)检索要快,要摒弃wildcard模糊匹配性能问题。
常用的stand标准分词,可以满足要求1)、3)、4)、5)。 标准分词器是什么鬼? 标准分析仪是默认分析仪,如果没有指定,则默认使用该分词器。 它提供了基于语法的标记,并且适用于大多数语言。 对于中文字符串,会逐个汉字分词。 标准分词器的结果如下:
GET /ik_index/_analyze?analyzer=standard {"text":"公路局正在治理解放大道路面积水问题"} 公,路,局,正,在,治,理,解,放,大,道,路,面,积,水,问,题
但,会出现冗余数据非常多。
先使用IK-max-word细粒度分词器,结合match_phrase试一试?
PUT ik_index { "mappings":{ "ik_type":{ "properties":{ "title":{ "type":"text", "fields":{ "ik_my_max":{ "type":"text", "analyzer":"ik_max_word" }, "ik_my_smart":{ "type":"text", "analyzer":"ik_smart" }, "keyword":{ "type":"keyword", "ignore_above":256 } } } } } } }
这里,为了验证分词,同时使用了ik_smart和ik_max两种分词。 实际开发中不需要,因为:两种分词共存,会导致导入数据创建索引的时候,索引会非常大,对磁盘和检索性能都会有影响。
POST ik_index/ik_type/3 { "title":"公路局正在治理解放大道路面积水问题" }
POST ik_index/ik_type/_search { "profile":"true", "query": { "match_phrase": { "title.ik_my_max":"道路" } } }
搜索结果如下: 无结果返回。
{ "took": 1, "timed_out": false, "_shards": { "total": 5, "successful": 5, "failed": 0 }, "hits": { "total": 0, "max_score": null, "hits": [] }}
为什么使用了max_word细粒度分词,使用了match_pharse检索,为什么没有结果。 分析一下: 细粒度ik_max_word分词结果为:
GET /ik_index/_analyze?analyzer=ik_max_word { "text":"公路局正在治理解放大道路面积水问题" } 公路局 ,公路 ,路局 ,路 ,局正 ,正在 ,正 ,治理 ,治 ,理解 , 理 ,解放 ,解 ,放大 ,大道 ,大 ,道路 ,道 ,路面 ,路 , 面积 ,面 ,积水 ,积 ,水 ,问题
以上方式,除了可以返回分词结果外,还能返回词所在的位置position。
构建索引的时候,道路被拆分为:道路:16,道:17,路:19。(注意中间加了18:路面)
{ "token": "路面", "start_offset": 11, "end_offset": 13, "type": "CN_WORD", "position": 18 }
而检索的时候,而道路拆分为: 道路0 道1 路2
match_phrase检索时候,文档必须同时满足以下两个条件,才能被检索到: 1)分词后所有词项都出现在该字段中; 2)字段中的词项顺序要一致。 位置信息可以被存储在倒排索引中,因此 match_phrase 查询这类对词语位置敏感的查询, 就可以利用位置信息去匹配包含所有查询词项,且各词项顺序也与我们搜索指定一致的文档,中间不夹杂其他词项。
为了验证如上的解释,新增一篇“道路”相关的title,检验一下:
POST ik_index/ik_type/4 { "title":"党员干部坚持走马克思主义道路的重要性" }
注意:这时,搜索道路是可以匹配到的。
"hits": { "total": 1, "max_score": 1.9684901, "hits": [ { "_index": "ik_index", "_type": "ik_type", "_id": "4", "_score": 1.9684901, "_source": { "title": "党员干部坚持走马克思主义道路的重要性" } } ] },
细粒度ik_max_word分词结果为:
党员干部, 党员, 干部, 坚持走, 坚持, 坚, 持, 走马, 马克思主义, 马克思, 马克, 马, 克, 思, 主义, 道路, 道, 路, 重要性, 重要, 要性, 性
构建索引的时候,道路被拆分为:15,16,17位置。
与检索的词项顺序是一致的。
这里解析更详细:http://t.cn/R8pzw9e
POST ik_index/ik_type/_search { "profile":"true", "query": { "match_phrase_prefix" : { "title.ik_my_max" : { "query": "道路", "max_expansions": 50 } } } }
经验证: 关键词”理解”、”解放”、”道路”、“理解放大”,都能搜出这篇文档。
我们自己开发搜索引擎的时候,经常会出现基于title或者content字段进行检索。
这时候,可以考虑下: match_phrase_prefix。
实际开发中,根据应用场景不同,采用不同的分词器。 如果选用ik,建议使用ik_max_word分词,因为:ik_max_word的分词结果包含ik_smart。
本文分享自 铭毅天下Elasticsearch 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!