首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

ik分词器

ik分词器出现的背景: 分词:即把一段中文或者别的划分成一个个的关键字,我们在搜索时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作, 默认的中文分词是将每个字看成一个词...,比如"中国的花"会被分为"中","国","的","花",这显然是不符合要求的,所以我们需要安装中文分词器ik来解决这个问题。...IK提供了两个分词算法 ik_smart 和 ik_max_word 其中 ik_smart 为最少切分,ik_max_word为最细粒度划分 我们分别来试一下 (1)最小切分:在浏览器地址栏输入地址...步骤: (1)进入elasticsearch/plugins/ik/config目录 (2)新建一个my.dic文件,编辑内容: 小明 修改IKAnalyzer.cfg.xml(在ik/config...目录下) IK Analyzer 扩展配置 <!

26520
您找到你想要的搜索结果了吗?
是的
没有找到

白话Elasticsearch30-IK中文分词之热更新IK词库

-IK分词器配置文件+自定义词库 上面两篇学习了如何安装IK以及基本的使用,当我们使用自定义词库的时候,是不是每次都得重启,而且得逐个节点依次修改,是不是有点不方便呢?...基于ik分词器原生支持的热更新方案,部署一个web服务器,提供一个http接口,通过modified和tag两个http响应头,来提供词语的热更新 推荐第一种方案修改ik分词器源码, 第二种方案ik...既然说到了要修改源码,那接着来吧,到ik的GitHub上下载源码 ---- IK Github 下载Source Code https://github.com/medcl/elasticsearch-analysis-ik...---- 将zip解压到 es ik插件目录下 ? ---- 添加mysql依赖包 我本地的mysql是 8.0.11版本的 ? 放到ik目录下 ?...成功 ---- 验证热加载 热加载主词典 我们先看下IK默认的配置文件 ,我们并没有修改过。 ? 使用 ik_max_word 来看下 IK的 对 “盘他”的分词 ?

76741

IK分词器详解

IK分词器 什么是 IK 分词器 分词:即把一段中文或者别的划分成一个个的关键字,我们在搜索时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个匹配操作,默认的中文分词器是将每个字看成一个词...,比如"我爱技术"会被分为"我","爱","技","术",这显然不符合要求,所以我们需要安装中文分词器IK来解决这个问题 IK提供了两个分词算法:ik_smart和ik_max_word 其中ik_smart...解压缩后拷贝到ElasticSearch的plugins文件夹下 创建 ik 目录 重启ES 之前是没有插件加载的 可以清晰的看到加载了 analysis-ik 也可以通过ES自带的工具查看 命令行执行...ElasticSearch-plugin list 进入Kibana测试 先测试 ik_smart 最少划分 GET _analyze { "analyzer": "ik_smart" , "...这种自己需要的词,需要自己加到字典中 IK分词器增加自己的配置 我们找到IK的配置文件, 位于ik/config/IKAnalyzer.cfg.xml IKAnalyzer.cfg.xml <?

81920

ES 中文分词器ik

因为ik目前最高支持es 8.2.3,所以本文基于8.2.3的环境编写. 1、集群环境构建 参考Es 集群搭建及相关配置和相关参数解读,分别下载Es和kibana 8.2.3版本,部署到相应的服务器,...环境构建到此结束. 2、ik分词器安装部署 下载地址 注意es和ik分词器的版本匹配.这里下载8.2.3的ik分词器 下载完毕之后去es的工作目录的plugins文件夹下新建ik文件夹,将下载下来的ik...压缩包解压缩至ik文件夹下,重启es,集群中所有节点重复此操作. 3、ik 分词器简介 3.1 词库介绍 ik分词器主要有以下词库,位于config目录下 (1)、main.dic 主词库,包含日常生活中常用的词...ik_smart 、ik_max_word 下面分别测试,使用kibna dev tools. ik_smart GET test_index/_analyze { "tokenizer": "ik_smart...分的粒度更加的细和全面,所以一般都是用ik_max_word作为分词器. 3.4 扩展分词 一般情况下,词库是够用的,但是如果碰到一些特殊词汇如网络用词,这个时候就需要手动添加相关的词汇进入到词库中.ik

88120

ES中添加 IK 分词器

1.从github中下载IK分词器,一定要注意和ES的版本一致 https://github.com/medcl/elasticsearch-analysis-ik/releases 2 .下载之后放到...plugins 目录下面去 重启 ES 服务 测试:http://localhost:9200/blog1/_analyze { "text":"中华人民共和国MN","tokenizer": "ik_max_word...和 ik_smart 什么区别?...ik_max_word: 会将文本做最细粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”,会穷尽各种可能的组合...,适合 Term Query; ik_smart: 会做最粗粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”,适合 Phrase 查询。

1.2K30

ElasticSearch 如何使用 ik 进行中文分词?

进行分词,让大家对 ElasticSearch 的全文搜索和 ik 中文分词原理有一个全面且深入的了解。...ElasticSearch 默认的分词器并不是处理中文分词的最优选择,目前业界主要使用 ik 进行中文分词。...ik 分词原理 ik 是目前较为主流的 ElasticSearch 开源中文分词组件,它内置了基础的中文词库和分词算法帮忙开发者快速构建中文分词和搜索功能,它还提供了扩展词库字典和远程字典等功能,方便开发者扩充网络新词或流行语...incrementToken 函数会调用 IKSegmenter 的 next方法,来获取分词结果,它是 ik 分词的核心方法。...这也是 ikik_max_word 模式的输出结果。但是有些场景,开发者希望只有 程序员、爱 和 编程 三个分词结果,这时就需要使用 ikik_smart 模式,也就是进行消除歧义处理。

1.5K10

白话Elasticsearch29-IK中文分词之IK分词器配置文件+自定义词库

/ik/config/IKAnalyzer.cfg.xml ?...通常像停用词,会在分词的时候,直接被干掉,不会建立在倒排索引中 ) ---- IK自定义词库 自定义词库 有一些特殊的流行词,一般不会在ik的原生词典main.dic里。...这个时候,我们用ikik_max_word分词器来查下分词 GET _analyze { "text": ["盘他","杠精","脱粉"], "analyzer": "ik_max_word"...---- Step2 : 添加到ik的配置文件中 在 ext_ditc节点 添加自定义的扩展字典 , ik本身提供的 extra_main.dic 词语更加丰富,这里我们也添加进去吧 ?...---- Step2 : 添加到ik的配置文件中 在 ext_stopwords节点 添加自定义的停用词扩展字典 , ik本身提供的 extra_stopword.dic 这里我们也添加进去吧 ?

1.3K30

ElasticSearch 如何使用 ik 进行中文分词?

进行分词,让大家对 ElasticSearch 的全文搜索和 ik 中文分词原理有一个全面且深入的了解。...ElasticSearch 默认的分词器并不是处理中文分词的最优选择,目前业界主要使用 ik 进行中文分词。...ik 分词原理 ik 是目前较为主流的 ElasticSearch 开源中文分词组件,它内置了基础的中文词库和分词算法帮忙开发者快速构建中文分词和搜索功能,它还提供了扩展词库字典和远程字典等功能,方便开发者扩充网络新词或流行语...ik 初始化过程大致如此,再进一步详细的逻辑大家可以直接去看源码,中间都是中文注释,相对来说较为容易阅读。...这也是 ikik_max_word 模式的输出结果。但是有些场景,开发者希望只有 程序员、爱 和 编程 三个分词结果,这时就需要使用 ikik_smart 模式,也就是进行消除歧义处理。

3K30
领券