首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

ES分词器

7、指定IK分词器作为默认分词器 ES的默认分词设置是standard,这个在中文分词时就比较尴尬了,会单字拆分,比如我搜索关键词“清华大学”,这时候会按“清”,“华”,“大”,“学”去分词,然后搜出来的都是些...“清清的河水”,“中华儿女”,“地大物博”,“学而不思则罔”之类的莫名其妙的结果,这里我们就想把这个分词方式修改一下,于是呢,就想到了ik分词器,有两种ik_smart和ik_max_word。...数据管理 8.1 ES数据管理概述 ES是面向文档(document oriented)的,这意味着它可以存储整个对象或文档(document)。...在ES中,你可以对文档(而非成行成列的数据)进行索引、搜索、排序、过滤。 ES使用JSON作为文档序列化格式。JSON现在已经被大多语言所支持,而且已经成为NoSQL领域的标准格式。.../索引名称 举例: DELETE /es_db 4) 添加文档 格式: PUT /索引名称/类型/id 举例: PUT /es_db/_doc/1 { "name": "张三",

58320
您找到你想要的搜索结果了吗?
是的
没有找到

ES 分词器相关

1、规范化 Normalization 规范化,主要实在ES对文本类型进行分词后,按照各自分词器的规范标准,对分词进行二次处理的过程.如was=>is(时态转换),brother‘s=>brother(...,提升搜索效率,不同的分词器其Normalization流程各不相同. 2、ES 字符过滤器&令牌过滤器 3、分词器 tokenizer 官方文档 官方提供了10余种分词器,默认是standard分词器...它是大多数语言的最佳选择) 2.1 常用分词器(随便介绍两种,具体查阅文档) stanard分词器 GET _analyze { "text": "Xiao chao was a good man"...,舍去了was a等和搜索相关度不高的词. 2.3 中文分词器 关于中文分词器参考ES 中文分词器ik 4、自定义分词器 结合上面的内容,来实现一个自定义分词器....关于过滤器相关参考ES 字符过滤器&令牌过滤器,关于分词器相关参考ES 分词器(示例使用了pattern分词器,参考文档) 执行以上代码后,执行搜索如下搜索代码: GET test_index/_analyze

28420

ES分词器

7、指定IK分词器作为默认分词器 ES的默认分词设置是standard,这个在中文分词时就比较尴尬了,会单字拆分,比如我搜索关键词“清华大学”,这时候会按“清”,“华”,“大”,“学”去分词,然后搜出来的都是些...“清清的河水”,“中华儿女”,“地大物博”,“学而不思则罔”之类的莫名其妙的结果,这里我们就想把这个分词方式修改一下,于是呢,就想到了ik分词器,有两种ik_smart和ik_max_word。...数据管理 8.1 ES数据管理概述 ES是面向文档(document oriented)的,这意味着它可以存储整个对象或文档(document)。...在ES中,你可以对文档(而非成行成列的数据)进行索引、搜索、排序、过滤。 ES使用JSON作为文档序列化格式。JSON现在已经被大多语言所支持,而且已经成为NoSQL领域的标准格式。.../索引名称 举例: DELETE /es_db 4) 添加文档 格式: PUT /索引名称/类型/id 举例: PUT /es_db/_doc/1 { "name": "张三", "sex":

1.1K10

ES 中文分词器ik

因为ik目前最高支持es 8.2.3,所以本文基于8.2.3的环境编写. 1、集群环境构建 参考Es 集群搭建及相关配置和相关参数解读,分别下载Es和kibana 8.2.3版本,部署到相应的服务器,...删除es原有的data目录.配置elasticsearch.yml,节点配置如下: 节点配置 cluster.name: test_cluster node.name: node-1 network.host...环境构建到此结束. 2、ik分词器安装部署 下载地址 注意es和ik分词器的版本匹配.这里下载8.2.3的ik分词器 下载完毕之后去es的工作目录的plugins文件夹下新建ik文件夹,将下载下来的ik...压缩包解压缩至ik文件夹下,重启es,集群中所有节点重复此操作. 3、ik 分词器简介 3.1 词库介绍 ik分词器主要有以下词库,位于config目录下 (1)、main.dic 主词库,包含日常生活中常用的词...: "CN_CHAR", "position" : 8 } ] } 根据分词结果,很明显ik_max_word分的粒度更加的细和全面,所以一般都是用ik_max_word作为分词器

85220

ES中文检索须知:分词器与中文分词器

ES分词 分词即为将doc通过Analyzer切分成一个一个Term(关键字),es分词在索引构建和数据检索时均有体现: 构建倒排索引时每一个term都指向包含这个term的多个doc。...简单来说,ES的数据检索原理包含分词、基于分词结果计算相似度得分、按得分从高到低排序返回指定长度下的排序结果三个主要步骤,本文主要关注中文场景下的分词过程。...内置分词器 ES官方内置了一些常用的分词器(Analyzer,分词器在NLP中称为tokenzier,es使用analyzer的原因是除了分词之外后续还会进行一些文本分析的动作): the quick...,是一种专业分词器,可通过创建指纹来进行重复检测的 - - Custom Analyzer 如果以上没有符合需求的分词器es也允许通过添加插件的方式添加自定义分词器 - - 注:停用词,英文称为Stop...插件目录,重启es服务即可使用: wget https://github.com/medcl/elasticsearch-analysis-ik/releases smartcn smartcn是es内置的中文分词器

26520

ES学习笔记(七)IK中文分词器

在上一节中,我们给大家介绍了ES的分析器,我相信大家对ES的全文搜索已经有了深刻的印象。分析器包含3个部分:字符过滤器、分词器、分词过滤器。在上一节的例子,大家发现了,都是英文的例子,是吧?...IK中文分词器的安装 ES默认是没有IK中文分词器的,我们要将IK中文分词器作为一个插件安装到ES中,安装的步骤也很简单: 从GitHub上下载适合自己ES版本的IK中文分词器,地址如下:https:...在我们的ES的插件目录中(${ES_HOME}/plugins)创建ik目录, mkdir ik 将我们下载好的IK分词器解压到ik目录,这里我们安装unzip命令,进行解压。...重启我们所有的ES服务。 到这里,我们的IK中文分词器就安装完了。 IK中文分词器初探 在上一节我们访问了ES的分析器接口,指定了分析器和文本的内容,我们就可以看到分词的结果。...这就是两个分词器的区别,不过这两个分析器都是可以对中文进行分词的。 创建索引时指定IK分词器 既然我们安装了IK中文分词器的插件,那么我们在创建索引时就可以为text类型的字段指定IK中文分词器了。

60310

ES中文分词器之精确短语匹配(自定义分词器

楼主在上篇文章中,提出了将词和字分开,用不同的分词器分别构建索引,来解决match_phrase在中文中的短语或者句子匹配问题。...详细的内容请看上一篇文章: ES中文分词器之精确短语匹配(解决了match_phrase匹配不全的问题) 为什么要自己写分词器?...楼主想要一种分词器分词器完全按照词典分词,只要是词典有的词语,分词器就一定要分出来。测试了两个分词器比如说IK,MMseg,都不能按照楼主的要求分词。...ES自定义分词器 由于ES是采用juice依赖注入的方式,所以要实现一个工厂类和Provider类。...test.reset(input); } } 自定义分词器主要操作的是incrementToken方法,每次从TestSegmenter中取出一个词,如果改词存在,设置改词的token属性,返回true

4.7K20

ES学习笔记(七)IK中文分词器

在上一节中,我们给大家介绍了ES的分析器,我相信大家对ES的全文搜索已经有了深刻的印象。分析器包含3个部分:字符过滤器、分词器、分词过滤器。在上一节的例子,大家发现了,都是英文的例子,是吧?...IK中文分词器的安装 ES默认是没有IK中文分词器的,我们要将IK中文分词器作为一个插件安装到ES中,安装的步骤也很简单: 从GitHub上下载适合自己ES版本的IK中文分词器,地址如下:https:/...在我们的ES的插件目录中(${ES_HOME}/plugins)创建ik目录, mkdir ik 将我们下载好的IK分词器解压到ik目录,这里我们安装unzip命令,进行解压。...重启我们所有的ES服务。 到这里,我们的IK中文分词器就安装完了。 IK中文分词器初探 在上一节我们访问了ES的分析器接口,指定了分析器和文本的内容,我们就可以看到分词的结果。...这就是两个分词器的区别,不过这两个分析器都是可以对中文进行分词的。 创建索引时指定IK分词器 既然我们安装了IK中文分词器的插件,那么我们在创建索引时就可以为text类型的字段指定IK中文分词器了。

1.2K40

好玩的ES--第二篇之高级查询,索引原理分词器

multi_match] 默认字段分词查询[query_string] 高亮查询[highlight] 返回指定条数[size] 分页查询[form] 指定字段排序[sort] 返回指定字段[_source] 索引原理...products/_search { "query": { "match_all": {} }, "_source": ["title","description"] } ---- 索引原理...Analyzer 组成 ​ 注意: 在ES中默认使用标准分词器: StandardAnalyzer 特点: 中文单字分词 单词分词 我是中国人 this is good man----> analyzer...} } } } ---- 中文分词器ES中支持中文分词器非常多 如 smartCN、IK 等,推荐的就是 IK分词器。...安装IK 开源分词器 Ik 的github:https://github.com/medcl/elasticsearch-analysis-ik 注意 IK分词器的版本要你安装ES的版本一致 注意 Docker

1.1K30

es工作原理 _

es读写过程和原理 es写入数据过程 客户端选择一个node发送请求过去,这个node就是coordinating node (协调节点) coordinating node,对document进行路由...写入数据底层原理 数据先写入到buffer里面,在buffer里面的数据时搜索不到的,同时将数据写入到 translog 日志文件之中 如果 buffer 快满了,或者到一定时间,就会将内存 buffer...删除/更新数据底层原理 如果是删除操作,commit 的时候会生成一个 .del 文件,里面将某个 doc 标识为 deleted 状态,那么搜索的时候根据 .del 文件就知道这个 doc 是否被删除了...严禁*号通配符为开头的关键字查询,我们可以利用不同的分词器进行模糊查询。 分片数优化,避免每次查询访问每一个分片,可以借助路由字段进行查询。...分布式架构和底层原理 es写入工作原理 es查询优化 优化es之合理分配索引分片

31030

ES读写原理

# ElasticSearch 原理 # 1.1 ES写数据过程: 客户端选择一个 node 发送请求过去,这个 node 就是 coordinating node(协调节点)。...# 1.3 ES写数据底层原理 先写入内存 buffer,在 buffer 里的时候数据是搜索不到的;同时将数据写入 translog 日志文件。...为什么叫 es 是准实时的? NRT,全称 near real-time。默认是每隔 1 秒 refresh 一次的,所以 es 是准实时的,因为写入的数据 1 秒之后才能被看到。...实际上你在这里,如果面试官没有问你 es 丢数据的问题,你可以在这里给面试官炫一把,你说,其实 es 第一是准实时的,数据写入 1 秒后可以搜索到;可能会丢失数据的。...# 1.4 ES删除/更新数据底层原理 如果是删除操作,commit 的时候会生成一个 .del 文件,里面将某个 doc 标识为 deleted 状态,那么搜索的时候根据 .del 文件就知道这个 doc

27320

Elasticsearch之中文分词器插件es-ik(博主推荐)

Elasticsearch之分词器的作用 Elasticsearch之分词器的工作流程 Elasticsearch之停用词 Elasticsearch之中文分词器 Elasticsearch之几个重要的分词器...这是因为使用了Elasticsearch中默认的标准分词器,这个分词器在处理中文的时候会把中文单词切分成一个一个的汉字,因此引入es之中文的分词器插件es-ik就能解决这个问题。...第六步:将Elasticsearch之中文分词器插件es-ik的压缩包解压下,初步认识下其目录结构,比如我这里放到D盘下来认识下。并为后续的maven编译做基础。 ?...其实,若想更具体地,看得,es安装中文分词器es-ik之后,的变化情况,直接,在$ES_HOME下,执行bin/elasticsearch。...是因为es的中文分词器插件es-ik的过滤停止词的贡献!请移步,如下 Elasticsearch之IKAnalyzer的过滤停止词 ?

1.2K40
领券