专栏首页字根中文校对软件不同规则的中文分词对Lucene索引的影响

不同规则的中文分词对Lucene索引的影响

不同规则的中文分词对Lucene索引的影响

                                                                                                                             田春峰 欢迎订阅作者微博

在中文全文索引中为了建立反向索引需要对文档中的句子进行切分,相关理论请参见车东的介绍。

在lucene 1.3 以后的版本中支持中文建立索引了,他默认的切分规则是按一个个汉字分的。例子见后。

这里主要对比以下3种中文切分对lucene 索引的影响。

第一种:默认的单字切分;

第二种:二元切分(见车东的文章);

第三种:按照词义切分(使用小叮咚的逆向最大切分法)。

上面3种切分的效果如下:

原句:"搜索引擎的发展历史证明,没有做不到只有想不到,让人们更方便准确的获取信息是搜索引擎的使命。"

Lucene默认分词结果:

org.apache.lucene.analysis.standard.StandardAnalyzer:

[搜] [索] [引] [擎] [的] [发] [展] [历] [史] [证] [明] [没] [有] [做] [不] [到] [只] [有] [想] [不] [到] [让] [人] [们] [更] [方] [便] [准] [确] [的] [获] [取] [信] [息] [是] [搜] [索] [引] [擎] [的] [使] [命]

二元切分结结果:

org.apache.lucene.demo.CJKAnalyzer:

[搜索] [索引] [引擎] [擎的] [的发] [发展] [展历] [历史] [史证] [证明] [没有] [有做] [做不] [不到] [到只] [只有] [有想] [想不] [不到] [让人] [人们] [们更] [更方] [方便] [便准] [准确] [确的] [的获] [获取] [取信] [信息] [息是] [是搜] [搜索] [索引] [引擎] [擎的] [的使] [使命]

小叮咚切分结果:

org.apache.lucene.demo.ChineseAnalyzer:

[搜索] [引擎] [的] [发展] [历史] [证明] [有] [做] [不到] [只有] [想] [不到] [人们] [更] [方便] [准确] [的] [获取] [信息] [是] [搜索] [引擎] [的] [使命]

在Lucene索引中,最小的索引单位是Token。基本上可以这样理解Token,在英文中Token是一个单词,在汉语中是不同切分结果中[]内的单词。

我的测试数据: 今天各大网站和blog的新闻,包括经济、政治、教育、娱乐、科技等几大类总共212K的文本文件。

经过Lucene生成索引后的统计信息如下:

单字切分:

单字切分的前15个Term

词义切分:

词义切分的前15个Term

通过上面的对比可以看出: 单字切分的Term要比词义切分的Term少。原因很明显,汉语中常用的字大概4000多个,所以单字切分的Term上限也大概就是这么多,词义切分就不同了,我这里的词义词典大概有4万多个。

从直觉观察来看,索引文件中的Term越多,搜索结果也越快,搜索的相关性也越高。

另外一个有意思的情况是索引文件大小的变化。

在我得测试数据大概80K大小的时候,上面的两种方法产生的索引文件区别不大,可是当数据量大于100K的时候,单字切分的索引文件已经比词义切分索引文件大了30多K了。由于目前对索引文件格式还不了解,现在只能猜测为什么会出现这样的结果了。因为单字切分的Term少,那么指向这个Term的链接信息就越多,(搜索结果也越不相关)。反之亦然。

上面的测试数据中没有过滤常用的汉字。常用的汉字对搜索是没有作用的,比如:的,是等。      20041228

       csdn 的blog 不稳定才发到这里,呵呵

      参考:机器人-小叮咚 小叮咚的主页

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 一种面向搜索引擎的中文切分词方法

        首先说一下搜索引擎切分词的产生的原因。     在进行全文检索时,首先将要检索的内容分割成较短的文字序列。然后生成在每个文字序列中所包含字符串的对应表(...

    田春峰-JCJC错别字检测
  • dotnet core 中可爱的代码

    刚才看 dotnet core 的源代码例子,发现了一个非常简单的sample 代码:

    田春峰-JCJC错别字检测
  • CgLib ,NCgLib 和AOP (之一)

        广大关心编程前沿的程序员已经对AOP的感念耳熟能详了。无论是基于.NET的实现还是基于Java的实现都有很多开源的项目可供参考。 对AOP不了解...

    田春峰-JCJC错别字检测
  • 分布式系统「伸缩性」大招之——「水平&垂直切分」详解

    做「伸缩性」最重要的就是先做好「无状态」,如此才可以随心所欲的进行横向“扩展”,而不用担心在多个副本之间切换会产生错乱。《分布式系统关注点——「无状态」详解》聊...

    Zachary_ZF
  • 分布式系统关注点——“拆库“

    当你遇到单点单应用支撑不住使用的时候,Z哥给你的普适性建议是:先考虑“扩”,再考虑“切”。这个和写代码一样,“增加”新功能往往比在老功能上改容易。

    架构师修行之路
  • 树回归分析

    树回归:可以对复杂和非线性的数据进行建模;适用数值型和标称型数据。 1、 CART:classification and regression trees(...

    微风、掠过
  • 基于MATLAB图像处理的中值滤波、均值滤波以及高斯滤波的实现与对比

    中值滤波法是一种非线性平滑技术,它将每一像素点的灰度值设置为该点某邻域窗口内的所有像素点灰度值的中值.

    FPGA开源工作室
  • 依然是广州!景驰无人车开启常态化试运营,即日起可预约试乘

    李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI 还是广州! 另一家中国无人车公司景驰科技也传来常态化试运营消息。 1月30日在广州生物岛,景驰科技...

    量子位
  • CSS——尺寸

    缺省情况下,尺寸属性设定的高度和宽度仅适用于内容区域,不包括边框和内边距,这种高度宽度模式属于CSS自古以来的传统盒子模型。当前,本目录下各属性的参考文档都是基...

    Html5知典
  • Psychological Science:支持性教养可改善青少年期贫困对成年期静息态功能连接带来的影响

    在贫困环境中长大的儿童,其大脑发育容易出现各种不良变化。来自乔治亚大学的Gene H. Brody等人在Psychological Science验证了一种假设...

    用户1279583

扫码关注云+社区

领取腾讯云代金券