Elastic search N-gram tokenizer

MickyInvQ

发布于 2020-09-27 15:16:05

8660

发布于 2020-09-27 15:16:05

文章被收录于专栏：InvQ的专栏

ngram 分词器，首先将text文本切分，执行时采用N-gram切割算法。

N-grams 算法，就像一个穿越单词的滑窗，是一个特定长度的持续的字符序列。这个适合于那些不太实用空格符的语言，或者有长的复合单词的语言，比如德语。

举个例子：默认的， ngram tokenizer对初始化的text文本进行最小长度为1，最大长度为2的处理。

POST _analyze
{
  "tokenizer": "ngram",
  "text": "Quick Fox"
}

上面的配置输出如下：

[ Q, Qu, u, ui, i, ic, c, ck, k, "k ", " ", " F", F, Fo, o, ox, x ]

在单词中最小字符长度，且默认为1

在单词中最大字符长度，且默认为2

字母— 例如 a, b, ï or 京数字— 例如 3 or 7 空格— 例如 " " or “\n” 标签符号— 例如 ! or " 象型符— 例如 $ or √ 自定义符号 — 使用 custom_token_chars 来设置自己自定义的符号 custom_token_chars

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2020/07/06 ，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度