前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >coreseek分词词表那些事

coreseek分词词表那些事

作者头像
跑马溜溜的球
发布2020-12-07 15:35:33
3710
发布2020-12-07 15:35:33
举报
文章被收录于专栏:日积月累1024日积月累1024

0. 默认词表

coreseek会自带一个分词词表,一般位于

代码语言:javascript
复制
/usr/local/mmseg3/etc/uni.lib

对应的明文原始词表一般位于

代码语言:javascript
复制
/usr/local/mmseg3/etc/unigram.txt

1. 原始词表文件格

格式如下:

代码语言:javascript
复制
暂无    1
x:1
喜羊羊  1
x:1
灰太狼  1
x:1
懒羊羊  1
x:1

php中,可以用下面函数将一个key转为原始词表文件中的一条

代码语言:javascript
复制
function _format($key){
    return sprintf("%s\t1\nx:1\n", $key);
}

2. 词表文件(.lib文件)生成

假设有原始词表文件dict.txt,执行下面的命令

代码语言:javascript
复制
mmseg -u dict.txt

会生成名为dict.txt.uni的词典文件。

若要此文件生效,需要 1. 将其重命名为uni.lib 2. 将uni.lib放到配置文件中charset_dictpath指定的目录 3. 重建索引 4. 重启searchd

3.关于词的长度

mmseg默认支持单个最大词长为5个UTF-8汉字。原始词表中的词若大于此长度,在生成词表时会被截断。如果需要修改,可以如下操作: 1. 找到coreseek源代码目录下的mmseg-**/src/csssegmenter.cpp文件

代码语言:javascript
复制
#define MAX_TOKEN_LENGTH 15 //3*5

将MAX_TOKEN_LENGTH改为你需要的值 2. 重启编译mmseg及coreseek 3. 重新生成词表

4. 可能的问题

  1. charset_dictpath目录中不但要有一份词典文件,还要有mmseg.ini,否则无法正常工作。
  2. 原始词表中如果有非法字符,会导致无法建重建索引。生成原始词表时,可以用下面的php函数对key进行过虑
代码语言:javascript
复制
function _check($key) {
    //只有utf8的汉字,字母组成的串才是合法的
    if (!preg_match("/^[\x{4e00}-\x{9fa5}A-Za-z]+$/u", $key)){
        return false;
    }

    return true;
}
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2016-08-09 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 0. 默认词表
  • 1. 原始词表文件格
  • 2. 词表文件(.lib文件)生成
  • 3.关于词的长度
  • 4. 可能的问题
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档