coreseek会自带一个分词词表,一般位于
/usr/local/mmseg3/etc/uni.lib
对应的明文原始词表一般位于
/usr/local/mmseg3/etc/unigram.txt
格式如下:
暂无 1
x:1
喜羊羊 1
x:1
灰太狼 1
x:1
懒羊羊 1
x:1
php中,可以用下面函数将一个key转为原始词表文件中的一条
function _format($key){
return sprintf("%s\t1\nx:1\n", $key);
}
假设有原始词表文件dict.txt,执行下面的命令
mmseg -u dict.txt
会生成名为dict.txt.uni的词典文件。
若要此文件生效,需要 1. 将其重命名为uni.lib 2. 将uni.lib放到配置文件中charset_dictpath指定的目录 3. 重建索引 4. 重启searchd
mmseg默认支持单个最大词长为5个UTF-8汉字。原始词表中的词若大于此长度,在生成词表时会被截断。如果需要修改,可以如下操作: 1. 找到coreseek源代码目录下的mmseg-**/src/csssegmenter.cpp文件
#define MAX_TOKEN_LENGTH 15 //3*5
将MAX_TOKEN_LENGTH改为你需要的值 2. 重启编译mmseg及coreseek 3. 重新生成词表
function _check($key) {
//只有utf8的汉字,字母组成的串才是合法的
if (!preg_match("/^[\x{4e00}-\x{9fa5}A-Za-z]+$/u", $key)){
return false;
}
return true;
}