开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

es分词器原理

Elasticsearch（ES）的分词器是文本分析的核心组件，它通过将文本切分成独立的词项（tokens），使得搜索引擎能够更有效地执行全文搜索和索引。分词器的工作原理主要涉及三个关键部分：字符过滤器（Character Filters）、分词器（Tokenizer）和词项过滤器（Token Filters）。

ES分词器的工作原理

字符过滤器：对原始文本进行预处理，如去除HTML标签、转换为小写等。
分词器：将文本按照特定规则切分成多个词项。
词项过滤器：对分词后的词项进行进一步处理，如移除停用词、词干提取等。

ES分词器的优势

提高搜索效率：通过将文本切分成更小的单元，加快搜索速度。
改善搜索结果：帮助识别同义词和相关词，提高搜索准确性。
灵活性和可扩展性：支持多种语言和自定义分词器，适应不同应用场景。

ES分词器的类型

内置分词器：如Standard Analyzer、Whitespace Analyzer等。
中文分词器：如IK Analyzer、SmartCN Analyzer等。
自定义分词器：根据特定需求定制的分词逻辑。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

ES的分词器

7、指定IK分词器作为默认分词器 ES的默认分词设置是standard，这个在中文分词时就比较尴尬了，会单字拆分，比如我搜索关键词“清华大学”，这时候会按“清”，“华”，“大”，“学”去分词，然后搜出来的都是些...“清清的河水”，“中华儿女”，“地大物博”，“学而不思则罔”之类的莫名其妙的结果，这里我们就想把这个分词方式修改一下，于是呢，就想到了ik分词器，有两种ik_smart和ik_max_word。...数据管理 8.1 ES数据管理概述 ES是面向文档(document oriented)的，这意味着它可以存储整个对象或文档(document)。...在ES中，你可以对文档（而非成行成列的数据）进行索引、搜索、排序、过滤。 ES使用JSON作为文档序列化格式。JSON现在已经被大多语言所支持，而且已经成为NoSQL领域的标准格式。.../索引名称举例: DELETE /es_db 4) 添加文档格式: PUT /索引名称/类型/id 举例: PUT /es_db/_doc/1 { "name": "张三",

6402 0

ES的分词器

7、指定IK分词器作为默认分词器 ES的默认分词设置是standard，这个在中文分词时就比较尴尬了，会单字拆分，比如我搜索关键词“清华大学”，这时候会按“清”，“华”，“大”，“学”去分词，然后搜出来的都是些...“清清的河水”，“中华儿女”，“地大物博”，“学而不思则罔”之类的莫名其妙的结果，这里我们就想把这个分词方式修改一下，于是呢，就想到了ik分词器，有两种ik_smart和ik_max_word。...数据管理 8.1 ES数据管理概述 ES是面向文档(document oriented)的，这意味着它可以存储整个对象或文档(document)。...在ES中，你可以对文档（而非成行成列的数据）进行索引、搜索、排序、过滤。 ES使用JSON作为文档序列化格式。JSON现在已经被大多语言所支持，而且已经成为NoSQL领域的标准格式。.../索引名称举例: DELETE /es_db 4) 添加文档格式: PUT /索引名称/类型/id 举例: PUT /es_db/_doc/1 { "name": "张三", "sex":

1.2K1 0

ES学习笔记（七）IK中文分词器

在上一节中，我们给大家介绍了ES的分析器，我相信大家对ES的全文搜索已经有了深刻的印象。分析器包含3个部分：字符过滤器、分词器、分词过滤器。在上一节的例子，大家发现了，都是英文的例子，是吧？...IK中文分词器的安装 ES默认是没有IK中文分词器的，我们要将IK中文分词器作为一个插件安装到ES中，安装的步骤也很简单：从GitHub上下载适合自己ES版本的IK中文分词器，地址如下：https:/...在我们的ES的插件目录中（${ES_HOME}/plugins）创建ik目录， mkdir ik 将我们下载好的IK分词器解压到ik目录，这里我们安装unzip命令，进行解压。...重启我们所有的ES服务。到这里，我们的IK中文分词器就安装完了。 IK中文分词器初探在上一节我们访问了ES的分析器接口，指定了分析器和文本的内容，我们就可以看到分词的结果。...这就是两个分词器的区别，不过这两个分析器都是可以对中文进行分词的。创建索引时指定IK分词器既然我们安装了IK中文分词器的插件，那么我们在创建索引时就可以为text类型的字段指定IK中文分词器了。

1.3K4 0

04-Elasticsearch-ES集成IK分词器

分词器分词器汇总分词器拆分方式 standard 空格 simple 非字母 whitespace 空格 stop 去除英文的助词(a the is) keyword 不拆分(关键词) ik_max_word...} 默认分词器, 英文按照空格拆分, 中文直接拆成单个汉字, 大写自动转小写在指定索引中分析指定字段 POST /my_doc/_analyze { "analyzer": "standard"..., "field": "desc", "text": ["study in imooc"] } ES集成IK 下载 https://github.com/medcl/elasticsearch-analysis-ik...page=7 安装上传到Linux # 解压到插件库下 unzip elasticsearch-analysis-ik-7.4.2.zip -d /usr/local/es/plugins/ik 重启...es ik集成完成配置自定义字库修改ik/config/IKAnalyzer.cfg.xml vi IKAnalyzer.cfg.xml vi cust.dic 再次执行分词 okk

3324 0

ES中添加 IK 分词器

1.从github中下载IK分词器，一定要注意和ES的版本一致 https://github.com/medcl/elasticsearch-analysis-ik/releases 2 .下载之后放到...ES 的 \plugins 目录下面去重启 ES 服务测试：http://localhost:9200/blog1/_analyze { "text":"中华人民共和国MN","tokenizer

1.2K3 0

ES路径分词器

path_hierarchy tokenizer 把分层的值看成是文件路径，用路径分隔符分割文本，输出树上的各个节点。

3841 0

ES 分词器相关

1、规范化 Normalization 规范化,主要实在ES对文本类型进行分词后,按照各自分词器的规范标准,对分词进行二次处理的过程.如was=>is(时态转换),brother‘s=>brother(...,提升搜索效率,不同的分词器其Normalization流程各不相同. 2、ES 字符过滤器&令牌过滤器 3、分词器 tokenizer 官方文档官方提供了10余种分词器,默认是standard分词器...它是大多数语言的最佳选择) 2.1 常用分词器(随便介绍两种,具体查阅文档) stanard分词器 GET _analyze { "text": "Xiao chao was a good man"...,舍去了was a等和搜索相关度不高的词. 2.3 中文分词器关于中文分词器参考ES 中文分词器ik 4、自定义分词器结合上面的内容,来实现一个自定义分词器....关于过滤器相关参考ES 字符过滤器&令牌过滤器,关于分词器相关参考ES 分词器(示例使用了pattern分词器,参考文档) 执行以上代码后,执行搜索如下搜索代码: GET test_index/_analyze

3572 0

ES学习笔记（七）IK中文分词器

在上一节中，我们给大家介绍了ES的分析器，我相信大家对ES的全文搜索已经有了深刻的印象。分析器包含3个部分：字符过滤器、分词器、分词过滤器。在上一节的例子，大家发现了，都是英文的例子，是吧？...IK中文分词器的安装 ES默认是没有IK中文分词器的，我们要将IK中文分词器作为一个插件安装到ES中，安装的步骤也很简单：从GitHub上下载适合自己ES版本的IK中文分词器，地址如下：https:...在我们的ES的插件目录中（${ES_HOME}/plugins）创建ik目录， mkdir ik 将我们下载好的IK分词器解压到ik目录，这里我们安装unzip命令，进行解压。...重启我们所有的ES服务。到这里，我们的IK中文分词器就安装完了。 IK中文分词器初探在上一节我们访问了ES的分析器接口，指定了分析器和文本的内容，我们就可以看到分词的结果。...这就是两个分词器的区别，不过这两个分析器都是可以对中文进行分词的。创建索引时指定IK分词器既然我们安装了IK中文分词器的插件，那么我们在创建索引时就可以为text类型的字段指定IK中文分词器了。

6671 0

结巴分词器_分词器原理

今天说一说结巴分词器_分词器原理,希望能够帮助大家进步!!!

6052 0

ES快照原理

ES Snapshot 快照概览快照模块是 ES 备份、迁移数据的重要手段。ES 快照支持增量备份，支持多种类型的仓库存储。...ES snapshot 快照本质是对 lucene 物理文件的拷贝。...我们先看看数据文件是如何组织的，在 ES 节点上，数据目录文件结构如下: node.lock: 为了避免集群数据目录冲突，node.lock 文件可以确保一次只能从一个数据目录读取/写入一个 ES...ES 节点实现了 translog 类，即数据索引前，会先写入到日志文件中。...总的来说: Lucene 快照负责获取最新的、已刷盘的分段文件列表，并保证这些文件不被删除，这个文件列表就是ES要执行复制的文件。 ES负责数据复制、仓库管理、增量备份，以及快照删

4810 0

ES中文分词器之精确短语匹配（自定义分词器）

楼主在上篇文章中，提出了将词和字分开，用不同的分词器分别构建索引，来解决match_phrase在中文中的短语或者句子匹配问题。...详细的内容请看上一篇文章： ES中文分词器之精确短语匹配（解决了match_phrase匹配不全的问题）为什么要自己写分词器？...楼主想要一种分词器，分词器完全按照词典分词，只要是词典有的词语，分词器就一定要分出来。测试了两个分词器比如说IK，MMseg，都不能按照楼主的要求分词。...ES自定义分词器由于ES是采用juice依赖注入的方式，所以要实现一个工厂类和Provider类。...test.reset(input); } } 自定义分词器主要操作的是incrementToken方法，每次从TestSegmenter中取出一个词，如果改词存在，设置改词的token属性，返回true

5.1K2 0

ES 中文分词器ik

因为ik目前最高支持es 8.2.3,所以本文基于8.2.3的环境编写. 1、集群环境构建参考Es 集群搭建及相关配置和相关参数解读,分别下载Es和kibana 8.2.3版本,部署到相应的服务器,...删除es原有的data目录.配置elasticsearch.yml,节点配置如下: 节点配置 cluster.name: test_cluster node.name: node-1 network.host...环境构建到此结束. 2、ik分词器安装部署下载地址注意es和ik分词器的版本匹配.这里下载8.2.3的ik分词器下载完毕之后去es的工作目录的plugins文件夹下新建ik文件夹,将下载下来的ik...压缩包解压缩至ik文件夹下,重启es,集群中所有节点重复此操作. 3、ik 分词器简介 3.1 词库介绍 ik分词器主要有以下词库,位于config目录下 (1)、main.dic 主词库,包含日常生活中常用的词...: "CN_CHAR", "position" : 8 } ] } 根据分词结果,很明显ik_max_word分的粒度更加的细和全面,所以一般都是用ik_max_word作为分词器

9932 0

ES中文检索须知：分词器与中文分词器

ES分词分词即为将doc通过Analyzer切分成一个一个Term（关键字），es分词在索引构建和数据检索时均有体现：构建倒排索引时每一个term都指向包含这个term的多个doc。...简单来说，ES的数据检索原理包含分词、基于分词结果计算相似度得分、按得分从高到低排序返回指定长度下的排序结果三个主要步骤，本文主要关注中文场景下的分词过程。...内置分词器 ES官方内置了一些常用的分词器（Analyzer，分词器在NLP中称为tokenzier，es使用analyzer的原因是除了分词之外后续还会进行一些文本分析的动作）： the quick...，是一种专业分词器，可通过创建指纹来进行重复检测的 - - Custom Analyzer 如果以上没有符合需求的分词器，es也允许通过添加插件的方式添加自定义分词器 - - 注：停用词，英文称为Stop...插件目录，重启es服务即可使用： wget https://github.com/medcl/elasticsearch-analysis-ik/releases smartcn smartcn是es内置的中文分词器

1.1K2 0

018.Elasticsearch分词器原理及使用

1.分词器介绍什么是分词器？...中文分词器 3.1....常见的中文分词器 smartCN ：一个简单的中⽂或中英⽂混合文本分词器 IK分词器：更智能更友好的中⽂分词器 3.2 smartCN安装方式 bin/elasticsearch-plugin install...下载地址：https://github.com/medcl/elasticsearch-analysis-ik/releases 下载与ES同版本的IK分词器elasticsearch-analysis-ik-x.x.x.zip...节点均进行以上操作，然后重启ES集群 IK分词器测试： GET _analyze { "analyzer": "ik_max_word", "text": "火箭明年总冠军" } { "tokens

1.5K1 0

ES读写原理

# ElasticSearch 原理 # 1.1 ES写数据过程: 客户端选择一个 node 发送请求过去，这个 node 就是 coordinating node（协调节点）。...# 1.3 ES写数据底层原理先写入内存 buffer，在 buffer 里的时候数据是搜索不到的；同时将数据写入 translog 日志文件。...为什么叫 es 是准实时的？ NRT，全称 near real-time。默认是每隔 1 秒 refresh 一次的，所以 es 是准实时的，因为写入的数据 1 秒之后才能被看到。...实际上你在这里，如果面试官没有问你 es 丢数据的问题，你可以在这里给面试官炫一把，你说，其实 es 第一是准实时的，数据写入 1 秒后可以搜索到；可能会丢失数据的。...# 1.4 ES删除/更新数据底层原理如果是删除操作，commit 的时候会生成一个 .del 文件，里面将某个 doc 标识为 deleted 状态，那么搜索的时候根据 .del 文件就知道这个 doc

3452 0

ES之道：IK分词器的魔法般变身

欢迎来到我的博客，代码的世界里，每一行都是一个故事 ES之道：IK分词器的魔法般变身前言在数据的世界里，搜索就像是一位智慧的导航员，它能够帮助我们在海量信息中找到需要的答案。...今天，就让我们一起来揭开IK分词器的神秘面纱，探索它在Elasticsearch中的魔法般变身吧！ IK分词器简介 IK 分词器是一个针对中文文本的开源分词器，特别适用于中文搜索引擎和文本分析领域。...自定义词典支持： IK 分词器支持用户自定义词典，可以灵活增加领域专业词汇，提高分词效果。一些其他分词器也支持自定义词典，但不是所有分词器都具备这个功能。...IK分词器原理 IK 分词器的分词原理基于中文文本的规则和词典匹配，主要包括正向最大匹配和逆向最大匹配两种算法。...实战(docker搭建的Es) 下载ik插件 docker搭建的Es如果下载ik分词器插件可以执行以下命令,下面的版本要选择你的es版本 docker exec -it your_elasticsearch_container_name

940 0

好玩的ES--第二篇之高级查询，索引原理和分词器

multi_match] 默认字段分词查询[query_string] 高亮查询[highlight] 返回指定条数[size] 分页查询[form] 指定字段排序[sort] 返回指定字段[_source] 索引原理...products/_search { "query": { "match_all": {} }, "_source": ["title","description"] } ---- 索引原理...Analyzer 组成注意: 在ES中默认使用标准分词器: StandardAnalyzer 特点: 中文单字分词单词分词我是中国人 this is good man----> analyzer...} } } } ---- 中文分词器在ES中支持中文分词器非常多如 smartCN、IK 等，推荐的就是 IK分词器。...安装IK 开源分词器 Ik 的github:https://github.com/medcl/elasticsearch-analysis-ik 注意 IK分词器的版本要你安装ES的版本一致注意 Docker

1.4K3 0

es工作原理 _

es读写过程和原理 es写入数据过程客户端选择一个node发送请求过去，这个node就是coordinating node (协调节点) coordinating node，对document进行路由...写入数据底层原理数据先写入到buffer里面，在buffer里面的数据时搜索不到的，同时将数据写入到 translog 日志文件之中如果 buffer 快满了，或者到一定时间，就会将内存 buffer...删除/更新数据底层原理如果是删除操作，commit 的时候会生成一个 .del 文件，里面将某个 doc 标识为 deleted 状态，那么搜索的时候根据 .del 文件就知道这个 doc 是否被删除了...严禁*号通配符为开头的关键字查询，我们可以利用不同的分词器进行模糊查询。分片数优化，避免每次查询访问每一个分片，可以借助路由字段进行查询。...分布式架构和底层原理 es写入工作原理 es查询优化优化es之合理分配索引分片

4533 0

ES集群原理

# ES集群核心原理分析每个索引会被分成多个分片shards进行存储，默认创建索引是分配5个分片进行存储。每个分片都会分布式部署在多个不同的节点上进行部署，该分片成为primary shards。...documnet routing（数据路由）当客户端发起创建document的时候，es需要确定这个document放在该index哪个shard上。这个过程就是数据路由。

3201 0

ES系列一、CentOS7安装ES 6.3.1、集成IK分词器

默认bootstrap.system_call_filter为true进行检测，所以导致检测失败，失败后直接导致ES不能启动。...，接下来继承ik分词一、获取 ES-IKAnalyzer插件一定和ES的版本一致（ 6.3.1) 地址：https://github.com/medcl/elasticsearch-analysis-ik...安装插件将 ik 的压缩包解压到 ES安装目录的plugins/目录下（最好把解出的目录名改一下，防止安装别的插件时同名冲突），然后重启ES。...end_offset": 50, "type": "CN_WORD", "position": 23 } ] } 对比standard分词器...] } standard分词器把中文都拆分成了单个字。IK分词器拆分成了字和词语。

5402 0

点击加载更多

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭