首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何使用ICU插件在Elasticsearch的音译过程中保留原文?

ICU(International Components for Unicode)是一个开源的国际化组件库,它提供了处理Unicode文本的功能。在Elasticsearch中,可以使用ICU插件来实现音译(Transliteration)的过程,并保留原文。

音译是将一个语言的文字转换为另一个语言的文字的过程,常用于搜索引擎中的拼音搜索、拼音纠错等场景。在Elasticsearch中,使用ICU插件可以实现多种语言之间的音译转换。

要在Elasticsearch中使用ICU插件进行音译,并保留原文,可以按照以下步骤进行操作:

  1. 安装ICU插件:在Elasticsearch的插件目录中执行以下命令安装ICU插件:bin/elasticsearch-plugin install analysis-icu
  2. 配置分析器(Analyzer):在Elasticsearch的配置文件中,配置一个自定义的分析器,使用ICU插件提供的icu_transform过滤器进行音译转换。例如,可以配置一个名为my_analyzer的分析器:{ "analysis": { "analyzer": { "my_analyzer": { "tokenizer": "standard", "filter": [ "lowercase", "icu_transform" ] } } } }
  3. 创建索引并指定分析器:在创建索引时,指定使用上一步中配置的分析器。例如,可以创建一个名为my_index的索引,并指定使用my_analyzer分析器:PUT /my_index { "settings": { "analysis": { "analyzer": { "default": "my_analyzer" } } } }
  4. 索引文档:将需要进行音译的文本内容索引到my_index索引中。例如,可以索引一个包含原文的文档:PUT /my_index/_doc/1 { "text": "中国" }
  5. 搜索:使用查询语句进行搜索时,可以直接输入音译后的内容进行搜索。例如,可以搜索音译为"zhong guo"的文档:GET /my_index/_search { "query": { "match": { "text": "zhong guo" } } }

通过以上步骤,就可以在Elasticsearch的音译过程中保留原文。ICU插件提供了丰富的音译转换规则和选项,可以根据具体需求进行配置。

推荐的腾讯云相关产品:腾讯云 Elasticsearch。腾讯云 Elasticsearch 是基于开源的 Elasticsearch 项目构建的云服务,提供了稳定可靠的 Elasticsearch 集群,支持高性能的搜索和分析。您可以通过腾讯云 Elasticsearch 来快速搭建和管理 Elasticsearch 环境,实现音译等各种功能。

更多关于腾讯云 Elasticsearch 的信息,请访问:腾讯云 Elasticsearch

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

Elasticsearch 7.x 最详细安装及配置 | 原创不易

启动 Elasticsearch 7.2.1 启动方式很简单, ES 根目录下面,执行启动脚本文件: cd elasticsearch-7.2.1 bin/elasticsearch 运行完后...v 地址,可以看到启动情况:node01 为当前 master 节点 如何关闭集群中 ES 实例,可以使用简单命令实现: ps | grep elasticsearch kill -9 pid...三、Elasticsearch 7.x 插件概述 插件是用来增强 Elasticsearch 功能方法,分为 核心插件(官方) & 社区插件。...安装 analysis-icu ICU 分析插件,命令如下: sudo bin/elasticsearch-plugin install analysis-icu 查看已安装插件,命令如下: bin.../elasticsearch-plugin list 删除已安装插件,命令如下 sudo bin/elasticsearch-plugin remove analysis-icu 四、小结 本文介绍了两种安装以及插件安装

4K20

反手几行命令就安装好了Elasticsearch集群

如何抓取数据超纲了,本篇文章主要通过 Elasticsearch 解决数据存储问题,文章中会介绍到如何在本地安装ES以及安装多实例做ES集群。...elasticsearch.yml和 jvm.options 文件 jdk # es 运行 java 环境 lib # java 运行所使用类库 logs # es 运行期间默认日志文件目录...你也可以自己去实现自己插件然后丢到这里面。 关于配置文件,可以暂时不管。等到后面需要进行改动时候再做介绍。 首先,让我们通过 bin 目录下脚本本地启动一个单实例: ....# 显示当前ES集群中已经安装插件 ······· ES 插件安装 上面讲到了ES可以通过插件形式安装自己需要功能,这里就演示一下安装最通用一个国际化分词插件:analysis-icu退出/.../bin/elasticsearch-plugin install analysis-icu ······· -> Installing analysis-icu -> Downloading analysis-icu

1.1K30

Elasticsearch 如何自定义扩展词库?

/elasticsearch-jieba-plugin 清华大学 thulac 分词器 https://github.com/microbun/elasticsearch-thulac-plugin icu...分词器 https://github.com/elastic/elasticsearch-analysis-icu 还有华为未开源:泊松分词器;阿里未开源:达摩院定制分词器。...仅以万方数据库为例: 3 静态扩展词典 静态指: Elasticsearch 集群部署完毕后,安装 ik 分词器时候,不仅使用 ik 开源自带分词器,而且加上满足自身项目要求词典。...这种词典添加或更新,必须重新启动 Elasticsearch 才能生效。 针对搜狗词库为例互联网词库使用步骤如下: 3.1 步骤 1:下载词库 若需全量,爬虫实现即可。...elasticsearch安装目录config目录下,需要在jdbc-reload.properties 配置文件中配置更新热词mysql地址。

3K20

Spring Bean实例过程中如何使用反射和递归处理Bean属性填充?

因为是人写代码,就一定会有错误,即使是老码农 就程序Bug来讲,会包括产品PRD流程上Bug、运营配置活动时候Bug、研发开发时功能实现Bug、测试验证时漏掉流程Bug、上线过程中运维服务相关配置...不过这里我们暂时不会考虑 Bean 循环依赖,否则会把整个功能实现撑大,这样新人学习时就把握不住了,待后续陆续先把核心功能实现后,再逐步完善 三、设计 鉴于属性填充是 Bean 使用 newInstance...这部分大家实习过程中也可以对照Spring源码学习,这里实现也是Spring简化版,后续对照学习会更加易于理解 [spring-5-01.png] 属性填充要在类实例化创建之后,也就是需要在 AbstractAutowireCapableBeanFactory...propertyValues : new PropertyValues(); } // ...get/set } Bean 注册过程中是需要传递 Bean 信息,几个前面章节测试中都有所体现...最后属性填充时需要用到反射操作,也可以使用一些工具类处理。 每一个章节功能点我们都在循序渐进实现,这样可以让新人更好接受关于 Spring 中设计思路。

3.3K20

Elasticsearch Analyzer原理分析并实现中文分词

这个ES已经考虑过了,所以它内置了一些分词器,但是中国文化,博大精深,有时候自己断句都会有误差,所以我们会用一些国人插件进行中文分词。这篇文章重点也就是介绍ES分词原理、内置分词和中文分词。...ES分词是如何实现? Analysis(分析)是通过Analyzer(分析器)实现,分析也是有步骤,所以我们说一下Analyzer组成。...中文分词 这个中文分词插件也不少,我也列举一些给大家。...analysis-icu 地址:https://github.com/elastic/elasticsearch-analysis-icu 直接安装就行 bin/plugin install analysis-icu...analysis-ik 地址:https://github.com/medcl/elasticsearch-analysis-ik IK Analysis插件将Lucene IK分析器集成到elasticsearch

2K20

Elastic学习之旅 (5) 倒排索引和Analyzer分词

文本分析是通过Analyzer来实现,我们可以使用ES内置分析器,也可以按需定制分析器。 除了在数据写入时会进行全文转换词条,匹配Query语句时也需要用相同分析器对查询语句进行分析。...不过,我们可以安装一些中文分词器插件(plugin),比如ICU Analyzer, 它提供了unicode支持,更好地支持亚洲语言。...elasticsearch-plugin install analysis-icu ICU Analyzer示例: POST /_analyze { "analyzer": "icu_analyzer...", "text": "他说的确实在理" } 分词结果: [他,说,确实,,理] 小结 本篇,我们了解了ElasticSearch另一个重要概念:倒排索引 和 一个重要工具:Analyzer,...还通过一些demo了解了Analyzer具体使用案例,它们帮助ElasticSearch实现了强大搜索功能。

13310

ElasticSearch实战指南必知必会:安装中文分词器、ES-Python使用、高级查询实现位置坐标搜索以及打分机制

ElasticSearch实战指南必知必会:安装中文分词器、ES-Python使用、高级查询实现位置坐标搜索以及打分机制 1.ElasticSearch之-安装中文分词器 elasticsearch 提供了几个内置分词器...默认是使用标准分词器 我们需要下载中文分词插件,来实现中文分词 下载 地址为: https://github.com/medcl/elasticsearch-analysis-ik 安装方式参照上一篇文章...Lucene和es中这种相关性称为得分。 开始计算得分之前,es使用了被搜索词条频率和它有多常见来影响得分,从两个方面理解: 一个词条某篇文档中出现次数越多,该文档就越相关。...需要注意是:使用boost时候,无论是字段或者词条,都是按照相对值来boost,而不是乘以乘数。...需要注意是,explain特性会给es带来额外性能开销。所以,除了调试时可以使用,生产环境下,应避免使用explain。

57730

ElasticSearch实战指南必知必会:安装分词器、高级查询、打分机制

ElasticSearch实战指南必知必会:安装中文分词器、ES-Python使用、高级查询实现位置坐标搜索以及打分机制1.ElasticSearch之-安装中文分词器elasticsearch 提供了几个内置分词器...默认是使用标准分词器我们需要下载中文分词插件,来实现中文分词下载地址为:https://github.com/medcl/elasticsearch-analysis-ik安装方式参照上一篇文章#采用第二种...Lucene和es中这种相关性称为得分。 开始计算得分之前,es使用了被搜索词条频率和它有多常见来影响得分,从两个方面理解:一个词条某篇文档中出现次数越多,该文档就越相关。...需要注意是:使用boost时候,无论是字段或者词条,都是按照相对值来boost,而不是乘以乘数。...需要注意是,explain特性会给es带来额外性能开销。所以,除了调试时可以使用,生产环境下,应避免使用explain。

39750

Elasticsearch从入门到放弃:分词器初印象

关于分词 如果你是讲 Elasticsearch 作为搜索引擎,那么你应该需要对分词进行了解,Elasticsearch 分词是将全文本转换为一系列单词,这样有助于搜索时得到相关结果以及相关性分析...关于 Analyze API 更多使用方法可以自行查阅官方文档 Analyze API 内置 Analyzer 为了方便使用Elasticsearch 为我们提供了几种内置 Analyzer: Fingerprint...相似,但它会把 url 或邮箱当作一个整体 Whitespace:按照空格进行切分 在这里你可以先对这些内置 Tokenizer 有个初步了解,知道它们能干什么,具体使用时候可以查阅官方文档进行更详细了解...比较不错中文分词器有 ICU Analyzer、IK 和 THULAC ICU Analyzer ICU Analyzer 并不是 Elasticsearch 内置分词器,所以我们需要预先安装插件才能使用...执行命令 elasticsearch-plugin install analysis-icu 进行安装,安装好以后可以使用命令elasticsearch-plugin list进行查看。

49420

全文搜索引擎 Elasticsearch 入门:集群搭建

本文主要介绍什么是 ElasticSearch 以及为什么需要它,如何在本机安装部署 ElasticSearch 实例,同时会演示安装 ElasticSearch 插件,以及如何在本地部署多实例集群,方便在日后学习分布式相关原理...ElasticSearch 运行过程中所有的日志文件;modules 目录下包含所有的 ES 模块;ElasticSearch 是可以通过插件方式去进行扩展,因此 plugins 目录下包含所有已安装插件...接下来让我们看下如何在本机安装 ElasticSearch 插件。 安装与查看插件 cmd 中输入 elasticsearch-plugin list 可以查看本机已安装插件。...输入 elasticsearch-plugin install analysis-icu 下载国际化分词插件安装到本机。...总结 这就是本文主要内容,我相信大家对 ElasticSearch 有了初步了解,都可以本地运行一个 ElasticSearch 实例,也学会了实例上安装你需要插件,最后也实践了怎么本机运行多个

72731

ElasticSearch自定义中文分词插件开发介绍

作者:吴峻申 原文:http://www.wujunshen.cn/posts/279953901.html 写在前面 项目配置 JAVA GraalVM 17 ElasticSearch 8.3.3...Junit5 5.9.0 lombok 1.8.24 logback 1.2.11 hanlp汉语自然语言处理工具包 1.8.3 如何使用 获取hanlp语料 直接下载 data.zip:http:/...网站静态内容 发布插件 将打包成zip格式插件包(/target/releases目录下) 解压到ElasticSearchplugins子目录下,这样就发布完成了 运行插件 重新启动ElasticSearch...ElasticSearch目录下bin子目录启动ElasticSearch 注意 不能用root账号启动 需要新建账号并赋权,然后启动ElasticSearch 查看插件执行结果 使用head插件...如何用一个注解来轻松搞定接口数据脱敏?

87020

干货 | Elasticsearch开发人员最佳实战指南

如何传达集群负载以使缓存平衡流量? 如何配置计划内或手动停机时间? 维护时段期间,如何使缓存逐渐从一个集群迁移到另一个集群? 这些都是亟待考虑问题。...将它们存储第三方存储也是一种好习惯。 有一些第三方 插件 可以简化这些情况。...默认:40mb,该属性允许用户恢复过程中控制网络流量。设置一个比较大值会导致网络变得繁忙,当然恢复过程也会加快。...4.9 谨慎编写自定义Elasticsearch插件 许多Elasticsearch版本包含重大内部更改。你插件所基于公共API很可能会向后不兼容。...你需要调整部署过程,不能再使用原始Elasticsearch工作。 由于你应用程序依赖于于插件提供特定功能,因此集成测试过程中运行Elasticsearch实例也需要包含插件

1.6K21

Kubernetes配置镜像中Hosts文件域名解析

一、遇到问题 最近,给公司搭建持续集成过程中,由于每次执行任务时都是新创建一个 Kubernetes Pod 执行执行过程中经常出现 DNS 解析错误问题,如下: stdout: stderr...access 'http://git.xxx.cn/mydlqcloud-xxxx/': Could not resolve host: git.xxxx.cn 经过排查物理机 DNS 和 CodeDNS 插件...经过一番查找 Kubernetes 中确实提供了能够配置 Docker 镜像中 Host 配置字段 `hostAliases`,只要简单配置就能轻松指定域名解析 IP 地址,下面将介绍下如何配置...二、配置镜像中 Hosts 文件 这里配置一个用于示例 Deployment 对象,为了后续测试时,能够执行部分命令,所以这里使用 CentOS 镜像。... Deployment 配置中配置 Host 文件中添加 42.51.51.51 映射到 666.myit.icu 域名,Deployment 内容如下: vim centos-deployment.yaml

3.2K10

Elasticsearch 日志配置详解

日常 Elasticsearch 集群运维过程中,我们需要了解集群都能够输出什么类型日志、日志存放位置以及日志配置修改方式,阅读本文,我们能够了解以下知识点: Elasticsearch 日志输出方式...日志配置这个小节,将介绍以下几个知识点: 如何配置日志输出到文件 如何配置日志滚动策略 如何调整日志级别 常见 无法加载插件 错误 如何配置日志输出到文件 如果使用容器启动 Elasticsearch...如何配置日志滚动策略 日志滚动日常运维中是非常常见一种日志管理手段,通过日志滚动策略既保留了必要日志内容,同时又防止日志数量超过本地文件系统容量,并且防止单个日志文件变得太大而难于打开。...日常运维过程中,我们更常用是根据文件夹文件大小或者按照固定日期周期确定文件保留策略,对应配置项为 IfAccumulatedFileSize 和 IfLastModified ,更详细说明可以参考...– 错误无法找到插件类型[用于RollingFile和TimeBasedTriggeringPolicy] Elasticsearch Logging Secrets 浅谈Log4j2日志框架及使用

4.6K31

Elasticsearch 日志配置详解【技术创作101训练营】

日常 Elasticsearch 集群运维过程中,我们需要了解集群都能够输出什么类型日志、日志存放位置以及日志配置修改方式,阅读本文,我们能够了解以下知识点: Elasticsearch 日志输出方式...日志配置这个小节,将介绍以下几个知识点: 如何配置日志输出到文件 如何配置日志滚动策略 如何调整日志级别 常见 无法加载插件 错误 如何配置日志输出到文件 如果使用容器启动 Elasticsearch...[image-20200922110747672.png] 如何配置日志滚动策略 日志滚动日常运维中是非常常见一种日志管理手段,通过日志滚动策略既保留了必要日志内容,同时又防止日志数量超过本地文件系统容量...image-20200922205657621.png 日常运维过程中,我们更常用是根据文件夹文件大小或者按照固定日期周期确定文件保留策略,对应配置项为 IfAccumulatedFileSize...– 错误无法找到插件类型[用于RollingFile和TimeBasedTriggeringPolicy] Elasticsearch Logging Secrets 浅谈Log4j2日志框架及使用

1.5K200177

ElasticSearch 分词器,了解一下

ES 中,Analysis 是通过分词器(Analyzer) 来实现,可使用 ES 内置分析器或者按需定制化分析器。...下面使用 Kibana 看一下它是怎么样进行工作 Kibana 开发工具(Dev Tools)中指定 Analyzer 为 standard,并输入文本 In 2020, Java is the...,Java 首字母还是大写,, 还是保留。...最后,让我们看下中文分词: 中文分词 中文分词有特定难点,不像英文,单词有自然空格作为分隔,中文句子中,不能简单地切分成一个个字,而是需要分成有含义词,但是不同上下文,是有不同理解。...总结 本文主要介绍了 ElasticSearch 自带分词器,学习了使用 _analyzer API 去查看它分词情况,最后还介绍下中文分词是怎么做

2.4K30
领券