前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Elasticsearch Analyzer原理分析并实现中文分词

Elasticsearch Analyzer原理分析并实现中文分词

作者头像
憧憬博客
发布2020-07-21 11:08:15
2.1K0
发布2020-07-21 11:08:15
举报
文章被收录于专栏:憧憬博客分享

首先,我们知道倒排索引的原理,我们需要构建一个单词词典,但是这个词典里面的数据怎么来呢?我们需要对输入的东西进行分词。这个ES已经考虑过了,所以它内置了一些分词器,但是中国文化,博大精深,有时候自己断句都会有误差,所以我们会用一些国人的插件进行中文分词。这篇文章的重点也就是介绍ES分词原理、内置分词和中文分词。

ES分词是如何实现?

Analysis(分析)是通过Analyzer(分析器)实现的,分析也是有步骤的,所以我们说一下Analyzer的组成。

分词器主要由三部分组成:

  1. Character Filters 字符过滤器 比方说剔除html代码特殊符号等等,可以有多个字符过滤器
  2. Tokenizer 分词器 对语句进行分词只能有一个
  3. Token Filter token过滤器  对词进行过滤、或者转小写、等等,可以有多个token filter,依次执行

ES内置分词器分析

我们知道了分词器的组成,只需要再知道它的一些实现即可。我们也列出来方便查看

  • standard

默认的分词器,按词分类并且小写处理。这个我们举个例子,其余大家照葫芦画瓢就行

我这里是利用Kibanadev tool进行api调试,大家也可以用postman等工具进行测试。ES提供_analyze api来测试分词。

代码语言:javascript
复制
GET _analyze
{
  "analyzer": "standard", # 分词器
  "text":     "The quick brown fox." # 输入的语句
}
  • simple

安照非字母切分,不是字母就剔除了,包括标点符号数字等,并对单词进行小写处理

  • stop

对输入进行小写处理,并将停用词过滤,例如这些单词(the,a, is)

  • whitespace

按空格切分

  • keyword

不分词,当成一整个 term 输出

  • pattern

通过正则表达式进行分词,默认是 \W+(非字母进行分隔)

  • Language

举个例子按英文拆分,它支持不同的语言,例如:arabic, armenian, basque, bengali, bulgarian, catalan, czech, dutch, english, finnish, french, galician, german, hindi, hungarian, indonesian, irish, italian, latvian, lithuanian, norwegian, portuguese, romanian, russian, sorani, spanish, swedish, turkish.

代码语言:javascript
复制
#english
GET _analyze
{
  "analyzer": "english",
  "text": "I'm Aoppp 憧憬"
}

上面例子典型对中文就不太友好,中文分词要比英文分词难,英文都以空格分隔,中文理解通常需要上下文理解才能有正确的理解,比如 [苹果,不大好吃]和[苹果,不大,好吃],这两句意思就不一样。

中文分词

这个中文分词插件也不少,我也列举一些给大家。

  • analysis-icu

地址:https://github.com/elastic/elasticsearch-analysis-icu

直接安装就行 bin/plugin install analysis-icu

  • analysis-ik

地址:https://github.com/medcl/elasticsearch-analysis-ik

IK Analysis插件将Lucene IK分析器集成到elasticsearch中,支持自定义词典。

  • elasticsearch-thulac-plugin

地址:https://github.com/microbun/elasticsearch-thulac-plugin

THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。

这里的话ik还不错,可以自定义词典等等,我来用它举个例子吧

安装

这里我的ES是7.6的,你们要安装对应版本改一下就行

代码语言:javascript
复制
./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.6.0/elasticsearch-analysis-ik-7.6.0.zip

安装完成重启一下ES

效果

代码语言:javascript
复制
GET _analyze
{
  "analyzer": "ik_max_word", # 穷进可能
  "text": "这是憧憬的技术分享博客啊"
}

比因为的单字拆分还是漂亮。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • ES分词是如何实现?
  • ES内置分词器分析
  • 中文分词
    • 安装
      • 效果
      相关产品与服务
      Elasticsearch Service
      腾讯云 Elasticsearch Service(ES)是云端全托管海量数据检索分析服务,拥有高性能自研内核,集成X-Pack。ES 支持通过自治索引、存算分离、集群巡检等特性轻松管理集群,也支持免运维、自动弹性、按需使用的 Serverless 模式。使用 ES 您可以高效构建信息检索、日志分析、运维监控等服务,它独特的向量检索还可助您构建基于语义、图像的AI深度应用。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档