前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Elastic search N-gram tokenizer

Elastic search N-gram tokenizer

作者头像
MickyInvQ
发布2020-09-27 15:16:05
8270
发布2020-09-27 15:16:05
举报
文章被收录于专栏:InvQ的专栏InvQ的专栏
N-gram tokenizer

ngram 分词器,首先将text文本切分,执行时采用N-gram切割算法。

N-grams 算法,就像一个穿越单词的滑窗,是一个特定长度的持续的字符序列。这个适合于那些不太实用空格符的语言,或者有长的复合单词的语言,比如德语。

举个例子: 默认的, ngram tokenizer对初始化的text文本进行最小长度为1,最大长度为2的处理。

代码语言:javascript
复制
POST _analyze
{
  "tokenizer": "ngram",
  "text": "Quick Fox"
}

上面的配置输出如下:

代码语言:javascript
复制
[ Q, Qu, u, ui, i, ic, c, ck, k, "k ", " ", " F", F, Fo, o, ox, x ]
配置
  • min_gram :

在单词中最小字符长度,且默认为1

  • max_gram

在单词中最大字符长度,且默认为2

  • 符号分类

字母— 例如 a, b, ï or 京 数字— 例如 3 or 7 空格— 例如 " " or “\n” 标签符号— 例如 ! or " 象型符—  例如 $ or √ 自定义符号 —  使用 custom_token_chars 来设置自己自定义的符号 custom_token_chars

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2020-07-06 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • N-gram tokenizer
  • 配置
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档