Lucene全文搜索之分词器:使用IK Analyzer中文分词器(修改IK Analyzer源码使其支持lucene5.5.x)

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

本文链接:https://blog.csdn.net/eguid_1/article/details/51908862

注意:基于lucene5.5.x版本

一、简单介绍下IK Analyzer

IK Analyzer是linliangyi2007的作品,再此表示感谢,他的博客地址:http://linliangyi2007.iteye.com/

IK Analyzer支持两种分词,一种是最细粒度分词(推荐使用,Ik默认采用最细粒度),还有一种的智能分词(测试了一下智能分词还没有lucene自带的分词准确,呵呵了)。

二、IK Analyzer兼容性问题解决办法

IKanalyzer目前最新版本只支持到lucene4.x、solr4.x,所以我们需要修改一下IKanalyzer的源码,让它支持lucene5.5版本。

这里提供由本人修改的兼容lucene5.x的IK Analyzer版本,下载地址:http://download.csdn.net/detail/eguid_1/9576005

注意:基于lucene5.5.2版本,采用jdk1.7环境,lucene6.x请使用jdk1.8,lucene5.5.x的API与之前的版本有些微的改变。

三、为什么要使用中文分析器

那么回归标题,为什么要使用中文分词器,原因就是lucene自带的分析器StandardAnalyzer虽然支持中文,但是分词分的不够细,对于某些明显的中文词语没有进行分词。

四、如何使用中文分析器

我将Analyzer分析器单独拿了出来进行独立处理(这么做有很多好处,就是我可以很轻松的扩展使用新的分词器)

其他源码完全不变,只需要改变AnalyzerServ的代码即可。

IK分词器默认有三个相关配置文件:

ext.dic(扩展词库);

IKAnalyzer.cfg.xml(扩展词库及停词库配置);

stopword.dic(停词)

(1)建立索引时使用:

//false-最细粒度分词;true - 智能分词

Analyzer analyzer=new IKAnalyzer(false);

indexWriterConfig = new IndexWriterConfig(analyzer);

(2)搜索时使用:

//false-最细粒度分词;true - 智能分词

Analyzer analyzer=new IKAnalyzer(false);

QueryBuilder parser = new QueryBuilder(analyzer);

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏绿盟科技安全情报

【漏洞预警】Apache Solr 远程代码执行漏洞(CVE-2019-0193)预警通告

近日,Apache官方发布Apache Solr远程代码执行漏洞(CVE-2019-0193)安全通告,此漏洞存在于可选模块DataImportHandler中...

12220
来自专栏码洞

时序数据库的秘密 —— 快速检索

Elasticsearch 是通过 Lucene 的倒排索引技术实现比关系型数据库更快的过滤。特别是它对多条件的过滤支持非常好,比如年龄在 18 和 30 之间...

9510
来自专栏CU技术社区

深入浅出大数据:到底什么是Hadoop?

1998年9月4日,Google公司在美国硅谷成立。正如大家所知,它是一家做搜索引擎起家的公司。

10810
来自专栏实时计算

什么是全文检索

全文检索技术被广泛的应用于搜索引擎,查询检索等领域。我们在网络上的大部分搜索服务都用到了全文检索技术。

12920
来自专栏Java研发军团

Elasticsearch 亿级数据检索性能优化案例实战!

https://www.cnblogs.com/mikevictor07/p/10006553.html

11320
来自专栏eguid开源技术分享

lucene全文搜索之一:lucene的主要功能和基本结构(基于lucene5.5.3)

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

7510
来自专栏cwl_Java

ElasticSearch(7.2.2)-常用的搜索引擎

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

6610
来自专栏cwl_Java

Solr的基本安装

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

10530
来自专栏绿盟科技安全情报

【漏洞预警】Apache Solr远程代码执行漏洞 (CVE-2019-0193)处置手册及技术分析

近日,Apache Solr官方发布Apache Solr远程代码执行漏洞(CVE-2019-0193)安全通告,此漏洞存在于可选模块DataImportHan...

11810

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励