码洞-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

码洞

专栏成员

176

文章

190969

阅读量

46

订阅数

同义词搜索是如何做到的？

lucene/solr 中文分词 analyzer

前面几个章节我们使用到了 Lucene 的中文分词器 HanLPAnalyzer，它并不是 Lucene 自带的中文分词器。Lucene 确实自带了一些中文分词器，但是效果比较弱，在生产实践中多用第三方中文分词器。分词的效果直接影响到搜索的效果，比如默认的 HanLPAnalyser 对「北京大学」这个短语的处理是当成完整的一个词，搜索「北京」这个词汇就不一定能匹配到包含「北京大学」的文章。对语句的处理还需要过滤掉停用词，除掉诸于「的」、「他」、「是」等这样的辅助型词汇。如果是英文还需要注意消除时态对单词形式的影响，比如「drive」和「driven」、「take」和「taked」等。还有更加高级的领域例如同义词、近音词等处理同样也是分词器需要考虑的范畴。

2019-09-17

1.3K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态